研究者たちは、約1,500ドルでゼロから基盤モデルをトレーニングしたと述べている。

フォロー

研究者たちは、約1,500ドルでゼロから基盤モデルをトレーニングしたと述べている。

大規模言語モデルをゼロからトレーニングすることは、しばしば数百万ドルを費やし、膨大なインターネット規模のデータが必要となるため、法外に高価です。Sapientは、標準的なTransformerの代わりに階層型リカレントモデル（HRM）を使用する、より費用対効果の高いアプローチであるHRM-Textを開発しました。HRM-Textは、実際のエンタープライズユースケースを反映した、指示応答ペアのみでトレーニングされます。この方法により、サンプル効率の高いトレーニングが可能になり、キュレーションされたデータセット上で、通常のコストのわずかな割合で10億パラメータのHRM-Textを作成できます。このモデルは、主要な業界ベンチマークにおいて、はるかに大きく確立されたオープンモデルに匹敵するパフォーマンスを示します。このイノベーションは、リソースの少ない組織でも基盤となる事前トレーニングが利用可能になったことを意味します。現在のLLMにおける主な非効率性は、ブルートフォースの次トークン予測に依存していることであり、インターネットデータの記憶に計算能力を浪費しています。SapientのCEOは、モデルのスケールアップが収穫逓減につながる現在の慣行の経済的な限界を強調しています。既存のモデルのファインチューニングは、しばしばかなりの汎用データが必要であり、計算集約的で制御が困難です。独自のデータを持つ企業は、大規模な汎用モデルではなく、コンパクトな推論コアを必要としています。HRM-Textは、計算を戦略レイヤーと実行レイヤーに分離し、効率を向上させます。このアーキテクチャは、安定した意味コンテキストとローカル反復洗練を保証します。Sapientは、トレーニングを安定させ、勾配の問題を防ぐために、MagicNormとウォームアップメソッドを導入しました。次トークン予測から指示応答ペアによるタスク完了への切り替えは、重要な差別化要因です。HRM-Textは、大幅に少ないトレーニングデータと計算量で、印象的なベンチマークスコアを達成しました。この効率性により、企業は、膨大なデータセットを記憶するのではなく、外部ナレッジストアを活用する専門的な推論モデルを展開できます。

Researchers say they trained a foundation model from scratch for about $1,500 venturebeat.com

RSS Hunter • 6月10日