開発者は、低リソース環境向けに設計されたテキスト読み上げプロジェクト「TinyTTS」を紹介します。主な目標は、クラウドサービス、Python、または大規模モデルに依存せず、Node.jsで簡単に使用できるTTSソリューションを作成することでした。TinyTTSはゼロから構築され、効率的な音声合成のためにコンパクトな160万パラメータのモデルを使用しています。約3.4MBのONNXモデルを搭載し、高品質な44.1kHzの出力を提供します。このプロジェクトは、ラップトップCPUで約53倍のリアルタイムパフォーマンスを達成しており、リソースが限られたデバイスに適しています。TinyTTSはPythonの依存関係を一切持たず、Python版と同等の安定した出力を提供します。このプロジェクトはnpm経由で簡単にインストールでき、シンプルなAPIまたはCLIで使用できます。アーキテクチャは、テキスト処理、音素生成、そしてONNXモデルを使用してWAVファイルを生成するという流れです。既存のソリューションと比較して、TinyTTSは品質、サイズ、使いやすさのバランスが取れています。このプロジェクトは、音声品質の向上、多言語対応、および音声ライブラリの拡充に注力しています。npm、PyPI、GitHubへのリンク、およびライブデモが提供されており、ユーザーはプロジェクトをさらに詳しく調べることができます。開発者は、プロジェクトの開発を改善するために、積極的にフィードバックとエッジケースのアプリケーションを求めています。
dev.to
I Built a 1.6M-Parameter Offline Text-to-Speech Engine for Node.js — Here's How
Create attached notes ...
