トランスフォーマーアーキテクチャは自然言語処理に革命をもたらし、従来のRNNやCNNモデルを凌駕しました。RNNは、効果的ではありましたが、逐次処理のために速度が遅く、長距離依存関係の処理に苦労しました。CNNは並列化に適していましたが、長距離依存関係の扱いにまだ限界がありました。トランスフォーマーは、モデルが入力シーケンスの関連部分に焦点を当てることを可能にする「アテンション」というメカニズムを導入しました。このアテンションメカニズムは、再帰と畳み込みに取って代わり、並列処理を可能にしました。トランスフォーマーアーキテクチャは、包括的な理解のために、複数の「アテンションヘッド」を備えたエンコーダー-デコーダー構造を使用しています。位置エンコーディングは、並列処理における単語順序の喪失に対応します。スケーリングされたドット積アテンションは、クエリ、キー、バリューベクトルに基づいてアテンションの重みを計算します。大規模なデータセットを用いた厳密なトレーニング、そしてラベルスムージングやドロップアウトなどの手法が、その成功に貢献しました。トランスフォーマーは機械翻訳で最先端の結果を達成し、高度なLLMへの道を切り開きました。その並列化可能な性質は、トレーニングと推論を大幅に加速させます。
dev.to
The AI Revolution You Didn't See Coming: How "Attention Is All You Need" Changed Everything
Create attached notes ...