RSS DEV 커뮤니티

Node.js용 160만 파라미터 오프라인 텍스트 음성 변환 엔진을 만들었습니다 — 방법은 다음과 같습니다

개발자는 저자원 환경을 위해 설계된 텍스트 음성 변환(TTS) 프로젝트인 TinyTTS를 소개합니다. 주요 목표는 클라우드 서비스, Python 또는 대형 모델에 의존하지 않고 Node.js에서 사용하기 쉬운 TTS 솔루션을 만드는 것이었습니다. TinyTTS는 처음부터 개발되었으며, 효율적인 음성 합성을 위해 160만 개의 매개변수를 가진 소형 모델을 사용합니다. 약 3.4MB의 ONNX 모델을 특징으로 하며, 고품질 44.1kHz 출력을 제공합니다. 이 프로젝트는 노트북 CPU에서 약 53배의 실시간 성능을 달성하여, 자원 제약적인 장치에 적합합니다. TinyTTS는 Python 종속성이 전혀 없으며, Python 버전과 일관된 출력을 제공합니다. 이 프로젝트는 npm을 통해 쉽게 설치할 수 있으며, 간단한 API 또는 CLI를 사용하여 사용할 수 있습니다. 아키텍처는 텍스트 처리, 음소 생성, 그리고 ONNX 모델을 사용하여 WAV 파일을 생성하는 과정을 포함합니다. 기존 솔루션과 비교하여 TinyTTS는 품질, 크기, 사용 편의성의 균형을 제공합니다. 이 프로젝트는 음성 품질 개선, 다국어 지원, 그리고 음성 라이브러리 확장에 중점을 두고 있습니다. 사용자가 프로젝트를 더 자세히 탐색할 수 있도록 npm, PyPI, GitHub 및 라이브 데모 링크가 제공됩니다. 개발자는 프로젝트 개발을 개선하기 위해 피드백과 엣지 케이스(edge case) 적용 사례를 적극적으로 찾고 있습니다.
favicon
dev.to
I Built a 1.6M-Parameter Offline Text-to-Speech Engine for Node.js — Here's How
Create attached notes ...