智能体的智能程度取决于其能够推理的上下文范围。如今,这些上下文分散在数据湖、数据仓库、湖仓一体平台、数据库和流数据中,也存在于尚未被记录下来的机构知识里。您希望信任由 AI 智能体做出的决策,但在智能体获得必要的上下文之前,这无法实现。试想,当我们为智能体提供安全访问其所需上下文的方式,使其能够交付可信决策时,将开启怎样的可能性。正因如此,在 AWS 纽约峰会(AWS Summit New York City)上,我们将宣布一系列创新举措,为您的数据和 AI 智能体规模化提供智能支持。
在本文中,我们将带您了解 Nova Sonic 测试框架,这是我们为解决上述两个问题而构建的开源框架。它既是一个用于快速迭代以调优系统提示词和工具配置的快速工具(运行对话、查看结果、调整、重复),也是一个全面的评估框架,可用于大规模验证语音代理的质量。该框架可自动运行完整的多轮对话,使用 LLM-as-judge 技术进行评估,甚至能够检测模型音频输出与文本输出不匹配的情况(即音频幻觉)。无需麦克风。
在本篇博客中,您将学习如何将监督微调(SFT)与直接偏好优化(DPO)结合使用,以提升小语言模型(SLM)的工具调用准确率。示例采用 Amazon SageMaker AI 训练作业,使您可以专注于训练代码,而无需自行管理训练基础设施。此外,您还将学习如何评估工具调用准确率,并对比基础模型与多个微调变体,从而基于数据做出关于模型质量的决策。
在本篇博客中,我们将介绍如何使用 Amazon Quick Research 整合生物医学数据源以支持罕见癌症研究。本教程以儿童肉瘤为研究领域,并依托来自 PubMed 及其他开放生物医学存储库的公开数据集。内容涵盖端到端的工作流程:定义研究目标、配置数据源、审查 AI 生成的研究计划、执行调查,以及利用修订和版本控制系统对结果进行迭代优化。
在构建代理式 AI 解决方案时,您会面临独特的运营挑战。代理会做出不可预测的决策,成本可能意外飙升,而对非确定性故障的调试似乎无从下手。代理式 AI 应用不仅执行预定的工作流,它们还会进行推理、适应并做出自主决策,因此 DevOps 实践也需要相应调整。这正是 AgentOps 发挥作用的地方——它是用于在生产环境中部署、管理和持续改进 AI 代理的运营学科。