L'auteur a créé un assistant vocal IA dans le Terminal MacOS en utilisant les modèles OpenAI. L'assistant convertit la voix en texte, la traite avec un LLM (Large Language Model), et diffuse la réponse en retour sous forme audio. Trois modèles OpenAI sont utilisés : Whisper pour la transcription vocale, GPT pour le traitement du texte, et TTS (Text-to-Speech) pour la synthèse vocale. Une clé API OpenAI est requise et doit être exportée avant d'exécuter les commandes. Le processus implique l'enregistrement audio à l'aide de SoX, sa transcription avec Whisper, le traitement du texte avec GPT-3.5, et la diffusion de la réponse sous forme audio à l'aide de TTS et SoX. Ces étapes peuvent être automatisées à l'aide d'un script shell appelé assist.sh, rendant l'assistant accessible via la ligne de commande. Le script enregistre un clip audio de trois secondes, le transcrit, obtient une réponse de GPT et diffuse la réponse sous forme vocale. L'auteur suggère d'autres extensions comme l'utilisation de la détection du silence ou l'activation par touche de raccourci. Il a également implémenté l'assistant au sein d'un serveur Express pour un contrôle et des capacités de diffusion améliorés.
dev.to
Building an AI Voice Assistant in 1 Minute (Mac Terminal)
Create attached notes ...
