著者は、OpenAIモデルを用いてmacOSターミナル上でAI音声アシスタントを作成しました。このアシスタントは、音声テキスト変換、LLMによる処理、そして応答の音声ストリーミングを行います。Whisper(音声テキスト変換)、GPT(テキスト処理)、TTS(テキスト音声変換)の3つのOpenAIモデルが使用されています。OpenAI APIキーが必要で、コマンドを実行する前にエクスポートする必要があります。処理手順としては、SoXを用いた音声録音、Whisperによる音声テキスト変換、GPT-3.5によるテキスト処理、そしてTTSとSoXを用いた音声としての応答ストリーミングが含まれます。これらの手順はassist.shというシェルスクリプトで自動化されており、コマンドラインからアシスタントにアクセスできます。スクリプトは3秒間の音声クリップを録音し、それをテキストに変換し、GPTから応答を得て、音声として応答をストリーミングします。著者は、無音検出やホットキーによる起動などの拡張機能の追加を提案しています。また、より高度な制御とストリーミング機能のために、Expressサーバー内でアシスタントを実装しています。
dev.to
Building an AI Voice Assistant in 1 Minute (Mac Terminal)
Create attached notes ...