Автор, системный инженер, разработал систему преобразования речи в текст, чтобы бороться с усталостью от набора текста и повысить производительность. Он проводит часы каждый день за своей рабочей станцией, набирая команды, подсказки и заметки, что вызывало физический дискомфорт и создавало узкое место между мыслью и действием. Решение заключается в том, что приложение для Android отправляет распознанную речь по локальной Wi-Fi на сервис Python на его рабочей станции, который затем набирает текст в позиции курсора.
Ключевым моментом было превосходящее качество встроенного распознавания речи Android по сравнению с другими решениями, такими как Whisper или Vosk. Встроенное распознавание речи Android быстро, точно, работает на аппаратном обеспечении устройства и без проблем переключает языки. Эта система значительно повысила его производительность, увеличив в три раза скорость выполнения задач, таких как написание подсказок, сообщений о фиксации и документации.
Помимо производительности, инструмент значительно улучшил его физическое самочувствие, позволяя ему работать стоя половину дня, что было неудобно с традиционным набором текста. Приложение для Android использует Kotlin и API SpeechRecognizer, а сервис рабочей станции представляет собой легковесный скрипт Python, использующий xdotool для имитации ввода с клавиатуры. Система полностью локальна, что обеспечивает конфиденциальность данных и низкую задержку без зависимости от интернета.
Хотя она отлично подходит для общего ввода текста, она не работает хорошо для программирования из-за имен переменных и синтаксиса, а также в шумных средах или для высокотехнических терминов. Однако с помощью инструментов ИИ, таких как Claude Code, необходимость набирать код вручную также уменьшилась для автора. Этот самодельный инструмент, который потребовал только один уик-энд разработки, оказался очень эффективным, удалив трение из повседневных задач и улучшая как эффективность, так и физическое здоровье.
dev.to
How LLM Can Fix Your Posture
