Автор создал голосового помощника на базе ИИ в терминале MacOS, используя модели OpenAI. Этот помощник преобразует голос в текст, обрабатывает его с помощью большой языковой модели (LLM) и транслирует ответ обратно в виде аудио. Используются три модели OpenAI: Whisper для преобразования речи в текст, GPT для обработки текста и TTS для преобразования текста в речь. Для работы требуется ключ API OpenAI, который необходимо экспортировать перед выполнением команд. Процесс включает в себя запись аудио с помощью SoX, транскрибирование с помощью Whisper, обработку текста с помощью GPT-3.5 и потоковую передачу ответа в виде аудио с использованием TTS и SoX. Эти шаги можно автоматизировать с помощью shell-скрипта под названием assist.sh, что делает помощника доступным через командную строку. Скрипт записывает трехсекундный аудиоклип, транскрибирует его, получает ответ от GPT и транслирует ответ в виде речи. Автор предлагает дальнейшие расширения, такие как использование обнаружения тишины или активация горячими клавишами. Он также реализовал помощника в сервере Express для расширенного контроля и возможностей потоковой передачи.
dev.to
Building an AI Voice Assistant in 1 Minute (Mac Terminal)
