再帰の混合で推論が2倍速く—実装方法はこちら

Mixture-of-Recursions（MoR）は、パフォーマンスを犠牲にすることなく、LLMの推論コストとメモリ使用量を削減することを約束する新しいAIアーキテクチャです。