Kimi K2.7-Code 将推理 token 减少 30%——但从业者表示基准测试结果并不准确

关注

Kimi K2.7-Code 将推理 token 减少 30%——但从业者表示基准测试结果并不准确

Moonshot AI 发布了 Kimi K2.7-Code，这是其 K2 编码模型的开源更新版本。该新版本基于万亿参数混合专家架构构建，并提供与 OpenAI 兼容的 API，便于集成。Moonshot AI 宣称 K2.7-Code 展现出更精简的推理能力和更优的性能，同时显著降低了思考 token 的使用量。这一效率提升预计将降低采用代理工作流（agentic workflows）的团队在推理方面的成本。该模型直接生成实现代码，而非封装现有库，旨在提升跨编程语言和任务类型的泛化能力。Moonshot AI 报告称，其在自有基准测试（如 Kimi Code Bench v2 和 Program Bench）上取得了显著进展。然而，独立评估表明其能力图景更为复杂。有研究人员发现，K2.7-Code 在代码生成方面更为“诚实”，但并不一定更具能力，部分生成的代码存在失败情况。此外，也有人质疑 Moonshot AI 使用自有基准测试来宣称性能表现的做法。尽管存在这些疑问，K2.7-Code 所提供的 token 效率提升可立即应用于运行 K2.6 的企业。团队可在自身工作负载上测试 K2.7-Code，以评估实际性能增益后再做出变更决策。

Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out venturebeat.com

RSS Hunter • 6月12日