저자는 OpenAI 모델을 사용하여 macOS 터미널에서 AI 음성 비서를 만들었습니다. 이 비서는 음성을 텍스트로 변환하고, LLM으로 처리한 후, 응답을 오디오로 스트리밍합니다. 세 가지 OpenAI 모델이 사용됩니다: Whisper(음성 인식), GPT(텍스트 처리), TTS(텍스트 음성 변환). OpenAI API 키가 필요하며 명령어 실행 전에 환경 변수에 설정해야 합니다. 작동 과정은 SoX를 사용하여 오디오를 녹음하고, Whisper로 텍스트로 변환하고, GPT-3.5로 텍스트를 처리하며, TTS와 SoX를 사용하여 응답을 오디오로 스트리밍하는 것을 포함합니다. 이러한 단계는 `assist.sh`라는 쉘 스크립트를 사용하여 자동화할 수 있으며, 이를 통해 명령줄에서 비서를 이용할 수 있습니다. 스크립트는 3초짜리 오디오 클립을 녹음하고, 텍스트로 변환하고, GPT로부터 응답을 받아 음성으로 스트리밍합니다. 저자는 정적 감지 또는 단축키 활성화와 같은 추가 기능을 제안했습니다. 또한, 향상된 제어 및 스트리밍 기능을 위해 Express 서버 내에 비서를 구현했습니다.
dev.to
Building an AI Voice Assistant in 1 Minute (Mac Terminal)
