为现实世界设计合成数据集：基于第一性原理的机制设计与推理

关注

为现实世界设计合成数据集：基于第一性原理的机制设计与推理

本文针对在真实世界数据稀缺或难以获取的场景下创建专用人工智能模型的挑战，提出通过生成合成数据来解决该问题。所提出的框架 Simula 将合成数据生成重新表述为一个以控制为核心的机制设计问题。Simula 采用“推理优先”的方法，从第一性原理构建数据集，并通过分层分类体系实现全局多样化；同时利用元提示（meta-prompts）实现局部多样化，确保概念内部的多样性并防止模式坍塌。该框架还引入了复杂化机制以调节难度，并设置质量检查以验证正确性。实验表明，在网络安全、法律推理等多个不同领域中，Simula 在各类基准测试中均一致优于更简单的基线方法。评估采用基于推理的指标，如分类覆盖率和校准后的复杂度评分。研究结果强调，数据必须与模型的能力相匹配，数据质量比单纯的数据量更为关键。Simula 作为 Google 的数据引擎，支持专用模型的构建以及用户保护功能的实现。此外，Simula 还促进了关于合成真实攻击场景的研究，并助力训练 AI 阅读地图。合成数据对于未来人工智能的发展至关重要，而 Simula 展示了控制数据生成的巨大潜力。

Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles research.google

RSS Hunter • 4月15日