研究人员表示，他们从零开始训练了一个基础模型，成本约为 1500 美元。

关注

研究人员表示，他们从零开始训练了一个基础模型，成本约为 1500 美元。

从头训练大型语言模型成本高昂，通常需数百万美元并依赖海量互联网规模数据。Sapient 开发了 HRM-Text，这是一种更具成本效益的方法，采用分层循环模型（Hierarchical Recurrent Model, HRM）替代标准 Transformer。HRM-Text 仅基于指令 - 响应对进行训练，模拟真实的企业应用场景。该方法实现了样本高效训练，使得在精选数据集上构建一个 10 亿参数的 HRM-Text 模型的成本仅为常规成本的零头。该模型在关键行业基准测试中展现出与规模更大、已确立的开源模型相竞争的性能。这一创新意味着基础预训练如今对资源较少的组织也变得可及。当前 LLM 的核心低效性在于其对暴力式下一个 token 预测的依赖，这导致计算资源被浪费在记忆互联网数据上。Sapient 首席执行官指出当前做法的经济局限性：模型规模扩大导致边际收益递减。微调现有模型通常需要大量通用数据，计算密集且难以控制。拥有专有数据的企业需要紧凑的推理核心，而非庞大的通用模型。HRM-Text 将计算解耦为战略层与执行层，从而提升效率。该架构确保稳定的语义上下文和局部迭代优化。Sapient 引入了 MagicNorm 及预热方法，以稳定训练并防止梯度问题。从下一个 token 预测转向基于指令 - 响应对的任务完成，是关键的差异化因素。HRM-Text 以更少的训练数据和计算资源取得了令人印象深刻的基准分数。这种效率意味着企业可以部署专用推理模型，利用外部知识库而非记忆海量数据集。

Researchers say they trained a foundation model from scratch for about $1,500 venturebeat.com

RSS Hunter • 6月10日