Speech-to-Retrieval (S2R): 音声検... ノート

Speech-to-Retrieval (S2R): 音声検索のための新しいアプローチ

音声ベースのウェブ検索は一般的ですが、カスケードモデリングアプローチにより精度の問題に直面しています。この方法では、音声からテキストへの変換を最初に行い、トランスクリプションのエラーは関連のない検索結果につながる可能性があります。たとえば、絵画に関するクエリで「scream」(叫ぶ)を「screen」(画面)と誤って解釈すると、完全に間違った情報が得られる可能性があります。これに対処するために、Speech-to-Retrieval(S2R)テクノロジーは、テキストトランスクリプションのステップを完全に省略します。S2Rは、音声クエリを直接解釈し、音声を検索意図にマッピングすることで情報を取得します。このアーキテクチャの変更は、「どのような情報が求められているのか?」という質問に答えることを目指しており、単に「どのような言葉が話されたのか?」という質問に答えるのではなく、実験は、現在のカスケードシステムと理論的に完璧なトランスクリプションの間で大きなパフォーマンスギャップを示しています。デュアルエンコーダーアーキテクチャを使用するS2Rモデルは、オーディオクエリとドキュメントを共有スペースで表現することを学習します。これにより、オーディオから直接ユーザーの意図を推論できます。SVQデータセットでの評価では、S2Rは従来のカスケードASRモデルを大幅に上回ることが示されています。S2Rのパフォーマンスは、理論的に完璧な音声認識で達成可能な最大値に近づいています。Googleは、複数の言語でS2Rを搭載した音声検索を実装しました。また、SVQデータセットをオープンソース化して、この分野でのさらなる研究を促進しています。
CdXz5zHNQW_1v0oZ0TyR7.png