Der Autor hat einen KI-Sprachassistenten für das macOS Terminal mit OpenAI-Modellen erstellt. Der Assistent wandelt Sprache in Text um, verarbeitet diesen mit einem großen Sprachmodell (LLM) und streamt die Antwort als Audio zurück. Drei OpenAI-Modelle werden verwendet: Whisper für die Sprache-zu-Text-Umsetzung, GPT für die Textverarbeitung und TTS für die Text-zu-Sprache-Umsetzung. Ein OpenAI API-Schlüssel wird benötigt und muss vor der Ausführung der Befehle exportiert werden. Der Prozess beinhaltet die Audioaufzeichnung mit SoX, die Transkription mit Whisper, die Textverarbeitung mit GPT-3.5 und das Streamen der Antwort als Audio mit TTS und SoX. Diese Schritte können mit einem Shell-Skript namens `assist.sh` automatisiert werden, wodurch der Assistent über die Kommandozeile zugänglich ist. Das Skript zeichnet einen dreisekündigen Audioclip auf, transkribiert ihn, erhält eine Antwort von GPT und streamt die Antwort als Sprache. Der Autor schlägt weitere Erweiterungen vor, wie z. B. die Verwendung von Stilleerkennung oder die Aktivierung über Hotkeys. Er hat den Assistenten auch in einen Express-Server integriert, um die Steuerung und Streaming-Funktionen zu verbessern.
dev.to
Building an AI Voice Assistant in 1 Minute (Mac Terminal)
Create attached notes ...