研究人员表示,他们从零开始训练了一个基础模型,成本约为 1500 美元。
从头训练大型语言模型成本高昂,通常需数百万美元并依赖海量互联网规模数据。Sapient 开发了 HRM-Text,这是一种更具成本效益的方法,采用分层循环模型(Hierarchical Recurrent Model, HRM)替代标准 Transformer。HRM-Text 仅基于指令 - 响应对进行训练,模拟真实的企业应用场景。该方法实现了样本高效训练,使得在精选数据集上构建一个 10 亿参数的 HRM-Text 模型的成本仅为常规成本的零头。该模型在关键行业基准测试中展现出与规模更大、已确立的开源模型相竞争的性能。这一创新意味着基础预训练如今对资源较少的组织也变得可及。当前 LLM 的核心低效性在于其对暴力式下一个 token 预测的依赖,这导致计算资源被浪费在记忆互联网数据上。Sapient 首席执行官指出当前做法的经济局限性:模型规模扩大导致边际收益递减。微调现有模型通常需要大量通用数据,计算密集且难以控制。拥有专有数据的企业需要紧凑的推理核心,而非庞大的通用模型。HRM-Text 将计算解耦为战略层与执行层,从而提升效率。该架构确保稳定的语义上下文和局部迭代优化。Sapient 引入了 MagicNorm 及预热方法,以稳定训练并防止梯度问题。从下一个 token 预测转向基于指令 - 响应对的任务完成,是关键的差异化因素。HRM-Text 以更少的训练数据和计算资源取得了令人印象深刻的基准分数。这种效率意味着企业可以部署专用推理模型,利用外部知识库而非记忆海量数据集。