RSS VentureBeat フォロー VentureBeatは、技術ニュースと分析のウェブサイトで、技術、科学、仕事の未来の急速に変化する世界をカバーすることに焦点を当てています。このサイトは、正確なレポート、深い市場分析、そして新興技術の機会と課題に関する洞察的なコメントを提供します。トピックはAI、ロボティクス、ブロックチェーン、ゲームなど多岐にわたり、ブレーキングニュース、フィーチャーストーリー、ゲスト投稿など、読者にとって多様なコンテンツを提供します。 VentureBeat venturebeat.com RSS venturebeat.com
2秒でエンタープライズグレードのAI画像生成が実現:Krea 2 RawとTurboがカスタムライセンスの下でオープンウェイトとして利用可能に AI生成画像はしばしば独創性に欠け、より特徴的なビジュアルへの欲求を生み出しています。AIクリエイティブツールスタートアップのKreaは、2つのバージョン、Krea 2 RawとKrea 2 Turboでリリースされた新しいモデル、Krea 2でこれを解決することを目指しています。これらのモデルは一般公開されており、一般的なAIジェネレーターと比較して、より大きなビジュアルの多様性とプロンプトの精度を提供します。ユーザーは他のモデルよりも広範囲に出力をカスタマイズすることもできます。Krea 2 Turboは印象的な生成速度を誇り、わずか2秒で画像を生成します。Krea 2のライセンスでは、50席以上の企業は商用利用に対して支払いが必要であり、違法コンテンツに対する技術的な安全対策が義務付けられています。Krea 2 Rawは、新しいスタイルを高忠実度で吸収するカスタムトレーニングのための空白のキャンバスとして機能します。一方、Krea 2 Turboは、高解像度画像を迅速に生成するために最適化された、洗練された高速バージョンです。この二重のアプローチにより、クリエイターはRawでトレーニングし、Turboで生成することで、強力なワークフローを作成できます。これらのモデルは、効率化の最適化を備えた120億パラメータのDiffusion Transformerアーキテクチャを利用しています。トレーニングデータは、公開、ライセンス、キュレーションされた合成データセットのハイブリッドであり、事前トレーニングにおける合成データの使用に対して厳格なポリシーがあります。 Enterprise-grade AI image generation in 2 seconds is here: Krea 2 Raw and Turbo available as open weights under custom license venturebeat.com
Anthropic、Claude Tagをローンチ、Slackアプリを学習・監視・自律的に作業する永続的なAIチームメイトに置き換え Anthropicは、高度なAIモデルを永続的なチームメンバーとしてSlackに直接組み込む新製品「Claude Tag」をローンチしました。このツールにより、チームメンバーは指定されたチャンネルで単に@Claudeと入力するだけで、Claudeにタスクを委任できます。Claude Tagは、単一のユーザーに仕えるのではなく、チームの常設メンバーとして機能し、記憶を構築し、主導権を取り、チャンネル内の全員と対話するように設計されています。この製品はClaude Opus 4.8を活用し、マルチプレイヤーインタラクション、継続的な学習、積極的なイニシアチブ、非同期ワークなどの機能を提供します。エンタープライズ管理者は、Claude Tagをワークスペースとペアリングし、ツールやデータソースへのアクセスを許可し、支出限度額を設定できます。Claude Tagはエンタープライズグレードの分離で動作し、管理者は異なる用途に対して個別のClaude IDを定義でき、メモリとデータアクセスが適切にスコープされていることを保証します。プラットフォームは、トークン使用量の制限やClaudeのアクションの包括的なログを含む、堅牢な管理ガバナンスを提供します。このローンチは、SalesforceやOpenAIのような他の主要なAIプレイヤーが激しく競合しているエンタープライズコラボレーションレイヤーへのAnthropicの積極的な進出を示しています。Claude Tagの戦略的重要性は、作業が調整されるコミュニケーションレイヤーとの深い統合にあり、ディストリビューションとデータの優位性を提供します。Anthropicの顕著な成長と substantialな資金調達は、このチャンネルレベルのプレゼンスへの同社の投資を強調しています。しかし、エンタープライズバイヤーは、ベンダー依存、アンビエントモニタリングに関するガバナンス、進化する価格モデルなどのリスクを慎重に検討する必要があります。 Anthropic launches Claude Tag, replacing its Slack app with a persistent AI teammate that learns, monitors and works autonomously venturebeat.com
概念実証は、脆弱なデータパスを許容する。運用AIはそうではない。 AIワークロードをパイロットから本番環境へ移行する際に、データ配信が重要なスケーリング要因であることが浮き彫りになります。デモンストレーションでは機能するポイント・ツー・ポイントアーキテクチャは、持続的な本番トラフィックの下ではしばしば失敗し、AIパイプラインの停滞やリソースの未活用につながります。これらのインフラストラクチャの弱点は、SLA違反や評判の低下といった直接的なビジネス上の結果を生み出します。本番環境では、パイロットとは異なり、単純な転送の停滞はアウトエージです。ストレージへの直接接続は脆弱であり、パフォーマンスを低下させ、ノードの障害やトラフィックの急増が発生した場合にクラスター障害を引き起こす可能性があります。AIワークフローはS3ストレージへの依存度を高めていますが、現在のネットワーク接続は、最適なGPUパフォーマンスに必要な一貫した高スループットのデータ移動には対応していません。インフラストラクチャの障害は、顧客体験、品質、レジリエンス、コストに影響を与え、AIの成果に影響します。推論パイプラインの停滞はSLAの問題を引き起こし、RAGシステムの遅延は不正確な応答とリスクにつながります。GPUの未活用はインフラストラクチャの非効率性を示し、コストを増大させ、スケーラビリティを制限します。F5は、オブザーバビリティ、プログラマビリティ、障害認識に焦点を当て、データ配信をファーストクラスのインフラストラクチャレイヤーとして提唱しています。Dell ObjectScaleで実証された同社のアーキテクチャは、F5 BIG-IPを使用してトラフィックを管理し、設定ミスによるアウトエージを防ぐことでストレージを保護します。ハイブリッドおよびマルチクラウドAI環境は、その異種性により、データ配信の課題を増大させ、プログラマブルなトラフィック管理と統一されたオブザーバビリティを必要とします。本番エンジニアリングに成功した組織は、レイテンシやアウトエージが発生することを前提として、障害を設計します。ラボ環境の最適化に留まる組織とは異なり、オブザーバブルで障害を認識するデータパスを構築します。最終的に、モデルの品質やGPUの数だけでなく、データ配信レイヤーに適用される厳密さが、本番稼働 readiness を決定します。 A proof of concept forgives a fragile data path. Operational AI does not. venturebeat.com
AlibabaのAI動画モデルがグローバルランキングで2位に浮上、OpenAIのSoraとByteDanceのSeedanceは後退 アリババクラウドは、プロ向けのコンテンツ制作を目的とした高度なAI動画生成モデル「HappyHorse 1.1」をリリースしました。今回のアップグレードにより、実運用レベルの動画合成が可能となり、企業はアリババクラウドの「Model Studio」を通じてAPI経由で本サービスを利用できるようになりました。 今回のリリースは、OpenAIの「Sora」が持続可能性の問題に直面し、ByteDanceの「Seedance 2.0」が著作権上の課題に直面している中で行われた。こうした市場の縮小は、急成長する生成型動画分野において、アリババが確固たる地位を築く好機となっている。 「HappyHorse 1.1」は、独立系AI動画ベンチマークプラットフォームで高評価を得た前バージョンの成功を基盤としています。その統合アーキテクチャは、1回の生成プロセス内で複数のモダリティを処理し、効率性を高めています。バージョン1.1の主な改善点には、キャラクターのアイデンティティの一貫性、モーション品質の向上、視覚的テクスチャの洗練などが含まれており、AI動画制作における一般的な課題に対処しています。 また、今回のアップグレードでは、ドリフトゼロのリップシンクを含む映像と音声の同期性の向上や、複雑なプロンプトに対する指示の追従性の向上も実現している。他の主要なAI動画ツールが市場から撤退したことで、企業ユーザーの選択肢は狭まっており、これはアリババにとって有利に働く可能性がある。同社がグローバルなクラウドインフラに多額の投資を行っていることは、レイテンシーやデータコンプライアンスの面で競争上の優位性をもたらしている。 このインフラの拡張は、新たなデジタル主権の枠組みの下で事業を展開する欧州企業にとって極めて重要です。しかし、アリババは地政学的な監視に直面しており、米国防総省(ペンタゴン)のリストへの掲載なども、企業の調達決定を複雑化させています。「HappyHorse 1.1」の成功は、こうした課題の中で、技術的な優位性を企業の広範な採用へと結びつけられるかどうかにかかっています。 Alibaba's AI video model rises to No. 2 in global rankings, as OpenAI's Sora and ByteDance's Seedance fall away venturebeat.com +1
クロード・フェイブル5なし?問題なし:Sakana、新しいFuguマルチモデル、自動合成システムで最先端のパフォーマンスを達成 Sakana AIは、統一されたOpenAI互換APIを通じて高度なAIパフォーマンスを提供するマルチエージェントオーケストレーションシステムであるFuguをローンチしました。Fuguは、専門化されたAIエージェントのプールにクエリを動的にルーティングすることで、ベンダーロックインや地政学的な輸出管理に対する耐性を提供することを目指しています。このシステムは、モノリシックなAIモデル構造を回避し、最先端のAI機能への柔軟性と継続的なアクセスを可能にします。SakanaのCEOであるDavid Haは、特にモデルの可用性に影響を与える最近の輸出管理措置を考慮すると、Fuguをより信頼性の高いエンタープライズソリューションとして強調しています。Fuguはコーディネーターとして機能し、複雑なタスクを分解し、実行と検証のために様々な基盤モデルに委任します。日常的なタスク向けのFuguと、複雑でリスクの高い操作向けのFugu Ultraの2つのバリアントが利用可能です。Fuguは、特定のエージェンティックタスクやコーディングベンチマークにおいて、トップティアモデルに匹敵するかそれを超えるパフォーマンスを達成します。Fuguのルーティング情報の専有的な性質は意図的なものであり、その内部調整戦略を保護します。企業は、データコンプライアンスとプライバシーを強化するために、特定のモデルまたはプロバイダーを除外することができます。Fuguは、現在、規制の整合性が進行中であるため、EUおよびEEA内での運用が制限されています。価格設定は、サブスクリプションティアまたは従量課金制プランを通じて利用可能であり、Fugu Ultraはよりプレミアムなオプションです。このシステムにより、ユーザーは将来のトレーニングデータ用のプロンプトの使用を制御できます。Fuguのオーケストレーションは、クエリを分解し、複数のモデルにわたる推論と委任をインターリーブすることで、単純なルーティングとは異なります。 No Claude Fable 5? No problem: Sakana achieves frontier performance with new Fugu multi-model, auto synthesis system venturebeat.com
なぜ主体性のある企業は学習システムになる必要があるのか 組織は日々貴重な知識を生み出していますが、AIシステムはそれを活用できないことがよくあります。様々な形式で記録されたこの知識が、将来のAIの意思決定に反映されることは稀です。組織にとって次のフロンティアは、「エージェンティック・エンタープライズ」であり、AIを単に使用するだけでなく、AIを通じて学習するものです。差別化要因となるのは、単なるモデルの再トレーニングではなく、運用経験から学習するエージェントの能力です。この獲得された知識は、コアAIモデルを必ずしも変更することなく、将来のエージェントのパフォーマンスを向上させます。 フィードバックループは極めて重要であり、あらゆるエージェントのインタラクションとその結果を学習機会に変えます。AIオブザーバビリティはエージェントの行動を可視化しますが、真の価値は、この観察を組織の記憶に変えることにあります。これにより、組織は単にAIを監視するだけでなく、積極的にAIに教えることができるようになります。包括的な学習システムは、セキュリティ、オブザーバビリティ、ネットワークエージェントからの洞察を統合できます。 インシデントに直面した場合、人間の専門家がそれを解決し、その解決策には記録できる重要な知識が含まれています。この記録された知識により、エージェントは過去のイベントから学習し、将来の問題解決能力を向上させることができます。学習するエージェンティック・エンタープライズのアーキテクチャには、メモリ、ナレッジベース、データファブリック、AIオブザーバビリティ、およびコントロールプレーンが含まれます。この統合システムにより、AIは継続的に改善され、エンタープライズはよりインテリジェントになります。これらの学習エコシステムを構築した組織は、AI時代において卓越するでしょう。 Why agentic enterprises need to become learning systems venturebeat.com
研究者たちは、AIエージェントが自身のルールを書き換え、パフォーマンスを最大60%向上させるフレームワーク「Self-Harness」を発表しました。 ほとんどの企業は自社で高度なAI言語モデルを構築することはできませんが、それらを制御する「ハーネス」と呼ばれるシステムをカスタマイズすることは可能であり、またそうすべきです。ハーネスエンジニアリングは現在、直感と場当たり的なデバッグに依存した手作業で行われており、時間がかかり、進化するAIに追いつくのが困難です。研究者たちは、AI言語モデルが実行トレースを分析することで自身の動作ルールを改善する新しいアプローチである「Self-Harness」を導入しました。この方法は推測を経験的証拠に置き換え、モデルの弱点に適応する堅牢でカスタムなAIエージェントを可能にします。ハーネスには、プロンプト、ツール、メモリなどのコンポーネントが含まれており、多くのAIの失敗は、コアモデル自体ではなく、ハーネスの問題に起因しています。手作業によるハーネスエンジニアリングは、直感への依存と体系的なフィードバックループの欠如により、ボトルネックとなっています。新しいAIモデルが急速にリリースされるにつれて、手作業によるチューニングはますます非現実的かつ高コストになります。Self-Harnessは、AIエージェントが弱点マイニング、ハーネス提案、提案検証を通じてハーネスを反復的に改善することを可能にします。このプロセスにより、エージェントは失敗パターンを特定し、厳密にテストされるターゲットを絞ったハーネスの変更を生成できます。実験では、Self-Harnessを適用したAIエージェントのパフォーマンスが大幅に向上し、編集は繰り返し発生するモデルの問題に特化していることが示されています。Self-Harnessはハーネスエンジニアリングを自動化しますが、かなりの計算リソースを必要とし、正確な評価パイプラインに大きく依存します。コーディングやDevOpsのように、失敗を測定でき、試行錯誤が安全な環境に最も適しています。人間のエンジニアの役割は、手作業でのプロンプト調整から、AIの自己改善を可能にするフィードバックシステムの設計へと移行し、「フィードバックアーキテクト」となります。 Researchers introduce Self-Harness, a framework that lets AI agents rewrite their own rules, boosting performance up to 60% venturebeat.com
AIはメモリの壁にぶつかった — 今、新たなコンテキスト層が必要だ AI推論は、単純なやり取りから複雑な多段階のエージェントシステムへと移行しています。主なボトルネックはもはやGPUコンピューティングではなく、コンテキスト管理です。コンテキストウィンドウは拡大しており、エージェントAIチェーンはセッションをまたいだ永続的な状態の追跡を必要とします。このコンテキストデータの爆発的な増加は、既存のメモリ階層の容量を超えています。GPUメモリとバルクストレージの間に、新しい専用のコンテキスト階層が出現しています。この階層は、Key-Valueキャッシュと検索データを保存および提供するための高性能フラッシュSSDで構成されます。この特殊なストレージアーキテクチャは、AIトレーニングのシーケンシャルで書き込み中心のニーズとは大きく異なります。推論は、迅速にアクセスされ、再利用されなければならないデータに対して、きめ細かくレイテンシに敏感なストレージを必要とします。このコンテキスト階層の最適化に失敗すると、GPUの非効率性や以前に生成された状態の再計算につながります。エンタープライズリーダーは、効率的なAI推論を確保し、投資収益率を最大化するために、この新しいストレージ階層を計画する必要があります。 AI hit the memory wall — now it needs a new context tier venturebeat.com
7,000台のLangflowサーバーが攻撃を受けています。LangGraphとLangChainには同じ脆弱性があります。 広く使用されている3つのAIエージェントフレームワーク、LangGraph、Langflow、LangChain-coreには、攻撃者がリモートコード実行や機密情報へのアクセスを可能にする重大な脆弱性が存在します。本番インフラストラクチャとして展開されているこれらのフレームワークは、エージェントの状態を保存し、ファイルのアップロードを処理し、プロンプト構成をロードし、重要な認証情報を保持します。WAFやEDRのような従来のセキュリティツールは、これらのエクスプロイトがインポートされたフレームワークコードの奥深くで発生するため、しばしばこれらの攻撃を見逃します。 LangGraphのSQLiteチェッカーにおけるSQLインジェクション(CVE-2025-67644)は、デシリアライゼーションの不具合(CVE-2026-28277)と連鎖させることで、チェッカー行を偽造することによってリモートコード実行を達成できます。まだ実世界で悪用されていませんが、公開されている概念実証が存在し、更新されたバージョンで修正が利用可能です。Langflowのファイルアップロードエンドポイントにおけるパス・トラバーサル脆弱性(CVE-2026-5027)は、認証されていない攻撃者がcronジョブを含む任意のファイルを書き込むことを可能にし、アクティブなリモートコード実行につながります。この不具合は積極的に悪用されており、数千のインスタンスがオンラインで公開されており、4月にパッチがリリースされたことは、即時のパッチ適用を急ぐ必要性を強調しています。 LangChain-coreは、レガシーなプロンプト読み込みAPIにおけるパス・トラバーサル(CVE-2026-34070)に苦しんでおり、デシリアライゼーションの脆弱性(CVE-2025-68664)と組み合わせると、攻撃者がAPIキーを含む任意のファイルを読み取ることができます。これらの問題は、一般的なアプリケーションセキュリティのバグ、つまりSQLインジェクション、パス・トラバーサル、および安全でないデシリアライゼーションに起因しており、AI固有の問題ではないため、現在のセキュリティプラクティスでは検出が困難です。 根本的な問題は、これらのフレームワークが、しばしば自動ログインが有効になっているような安全でないデフォルト設定で出荷され、セキュリティが確保されるよりも早く、不可欠な本番コンポーネントになったことです。セキュリティチームは、これらのAIエージェントフレームワークを低リスクの開発ツールとして誤って分類することが多く、不十分な保護と「リアルタイムでのサプライチェーンリスク」につながります。これらの脆弱性に対処しないと、セキュリティインシデント以上の結果につながる可能性があります。データが汚染されたり、不正なアクションが発生したりした場合、それらは「機械速度で実行される誤ったビジネス上の決定」につながる可能性があります。 取締役会は、これらの脆弱性がビジネスに与える影響を理解する必要があります。取締役会向けのメッセージは、本番環境のAIエージェントフレームワークが既知のバグを通じて攻撃者にリモートシェルを付与する可能性があること、パッチが利用可能であること、そして1つのフレームワークがすでに実世界で積極的に攻撃されていることを強調する必要があります。即時対応のための6つの質問からなるチェックリストが提供されており、エージェント状態の汚染、認証されていないファイル書き込み、およびプロンプトローダーによる不正なファイル読み取りに関連する脆弱性の検証と修正に焦点を当てています。この緊急のセキュリティ体制には、即時のアップグレード、安全でないデフォルト設定の無効化、およびAI開発ツールをより厳格なアクセス制御で隔離することが必要です。 7,000 Langflow servers are under attack. LangGraph and LangChain have the same holes venturebeat.com
ファインチューニングは忘却する。RAGはコンテキストを漏洩する。ハイパーネットワークは、エージェントが必要とするモデルをオンデマンドで構築する。 エンタープライズAIエージェントは、継続的な人間の監視を必要とするため、持続的な効率性を実現できないことがよくあります。これは、AIモデルが入力の増加に伴い精度を失い、時間の経過とともに信頼性が低下するためです。ファインチューニングのような従来のソリューションは、壊滅的な忘却のリスクを負うか、モデルの乱立を引き起こす可能性がありますが、コンテキスト内学習はコンテキストの劣化とコストの増加に悩まされます。これらの方法は、モデルが最新であり、正しいコンテキストを使用していることを保証できないため、人間を関与させ続けます。 有望な代替手段は、ハイパーネットワークを使用してオンデマンドで小規模なタスク固有モデルを生成することです。このアプローチは、推論時にモデルアダプターを作成することにより、ファインチューニングの再トレーニングコストとプロンプトのコンテキスト制限を回避します。これらの生成されたモデルは、狭く、最新で、小さいため、エラーサーフェスを減らし、自律性を高めます。 しかし、このハイパーネットワークアプローチの成功は、モデルのキャリブレーションと十分なスケールにかかっており、これらはまだ活発な研究分野です。出力のソースへのグラウンディングは、自動化バイアスへの依存を防ぎ、効率的な人間の検証を可能にするために重要です。改善されるモデルの所有権と、それがどこで実行されるかも重要な考慮事項です。狭く反復的なタスクの場合、ハイパーネットワークによって生成されたモデルは、コストと自律性の点で大きな利点をもたらします。より単純で短いタスクの場合は、適切にプロンプトされたフロンティアモデルで十分な場合があります。購入する前に、知識がどこに存在するか、グラウンディングメカニズム、エスカレーショントリガー、およびフィードバックの所有権を理解することが不可欠です。 Fine-tuning forgets. RAG leaks context. Hypernetworks build the model your agent needs on demand. venturebeat.com
AnthropicのClaude Code Artifactsアップデートにより、企業向けにライブ共有ダッシュボードとインタラクティブワークスペースが提供されます。 Anthropicは、チームおよびエンタープライズプランにおいて「Artifacts for Claude Code」という新機能をリリースしました。アーティファクトはClaude Codeのセッションをインタラクティブで共有可能なHTMLウェブページに変換します。これらのウェブページはライブコードや複数のデータソースを表示し、AIの動作に合わせてリアルタイムで更新できます。これにより、技術エンジニアと非技術関係者の間のギャップが埋められます。アーティファクトは動的な翻訳層として機能し、外部インフラを必要とせずに既存のコードベースや監視ツールからウェブページを作成します。静的なエクスポートとは異なり、これらのページはその場でリフレッシュされ、進捗を追跡するためのバージョン履歴が提供されます。この機能はOpenAIのCodex向けの類似の「サイト」サービスと競合しています。OpenAIのサイトは、持続的なバックエンドインフラを備えた耐久性のあるフルスタックウェブアプリケーション向けに設計されています。対照的に、Anthropicのアーティファクトは意図的にステートレスで、一時的で安全な技術ワークフローに重点を置いています。アーティファクトは16 MiBに上限があり、外部ネットワークの要求はセキュリティ強化のために厳しくブロックされています。両プラットフォームとも独自のライセンスモデルを採用しているため、ユーザーは基盤となるレンダリングエンジンを自己ホストしたり変更したりすることはできません。AnthropicもOpenAIも、管理者が管理する堅牢なアクセス制御により企業のセキュリティを最優先にしています。アーティファクトは、従来のステータス更新や手動のウォークスルーを動的で安全な視覚ツールに置き換えることを目指しています。この革新は、技術作業のコミュニケーションを簡素化することで開発者のワークフローを根本的に変えています。 Anthropic's Claude Code Artifacts update brings live, shared dashboards and interactive workspaces to enterprises venturebeat.com
新しいAI最適化フレームワークが、同じコンピューティング予算でClaude CodeとCodexを2.5倍上回る 内部文書検索のような複雑なタスクに設計されたAIエージェントは、しばしば幻覚を起こしたり、生産上の重要な制約を見落としたりします。そのため、修正には退屈な試行錯誤が必要となり、改善の正確な原因を特定するのが困難です。中国人民大学とマイクロソフトリサーチが開発した新しいフレームワークであるArborは、これを累積的な学習プロセスへと変換します。仮説、実験、洞察を木構造にまとめ、過去の失敗から学習できるようにします。Arborの実用テストでは、標準的なAIコーディングエージェントの検証可能な性能向上が2.5倍以上であることが示されました。自律最適化(AO)は、実験的フィードバックに基づいてアーティファクトを反復的に改善することを目指したAI研究の基本的なループです。AOの主な課題は、単に計算能力を上げるだけでは必ずしも進歩が保証されないことです。現在のエージェントシステムは各試みを孤立させており、学習された情報を蓄積し行動する仕組みが欠けています。彼らは複数の研究方向を同時に維持・比較するのに苦労し、その結果を人間のように解釈し将来の探査を再構築する能力を妨げています。一般的なコーディングエージェントは、長い歴史の中でコンテキストウィンドウの制限により事実証拠を失い、進捗が停滞したり、無関係な改良を追いかけたりすることがよくあります。Arborは、コーディネーターと実行者を用いて研究方向性とコーディングタスクを分離することでこれらの課題に対応しています。コーディネーターは研究全体の管理、仮説の生成、結果の分析を行います。執行者は短命なエージェントで、個別の仮説を孤立した環境で検証し、報告を行います。この共同研究は仮説ツリーの精緻化(HTR)と呼ばれ、研究プロセスを仮説、証拠、洞察の持続的かつ分岐する木構造として構築しています。Arborは報酬ハッキングを防ぐために厳格な「マージゲート」を施行し、改善点は統合前に保留されたテストデータと照合されて検証されるようにしています。Arborの出力は既存のGitワークフローと統合されますが、主なコストは長寿命のコーディネーターのトークン消費と、孤立したワークツリーの計算資源です。Arborは明確な指標と長期的な時間軸を持つタスクに優れていますが、リアルタイムのタスクや欠陥のある評価指標には適していません。 New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget venturebeat.com
Copilotがあなたのメールボックスを検索しました。LiteLLMが管理者キーを配布しました。あなたのスタックが次に狙われる前に、この5項目の監査を実行してください。 2つのAIツール、Microsoft 365 Copilot Enterprise SearchとLiteLLMは、2週間の間に両方とも重大なセキュリティ侵害を経験し、エンタープライズAIにおける根本的な欠陥を浮き彫りにしました。それは、信頼境界なしに外部入力を受け入れることです。Microsoft CopilotのSearchLeak脆弱性は、細工されたURLを介したデータ漏洩を可能にし、ユーザーのメールボックスに静かにアクセスし、Bing経由でデータをルーティングしました。同時に、LiteLLMの一連の脆弱性により、低権限ユーザーが管理者権限を取得し、リモートコードを実行できるようになり、すべてのプロバイダーの認証情報も公開されました。これらのインシデントは孤立したものではなく、Copilotでの以前の侵害やLiteLLMに影響を与えたサプライチェーンの侵害により、安全でないAI統合の繰り返しパターンが強調されています。 この蔓延する問題をさらに示すものとして、Langflowは、パス・トラバーサルとデフォルトの自動ログイン設定により、今年3回目のリモートコード実行の脆弱性を経験し、広範な悪用につながりました。Mini Shai-Huludキャンペーンは、侵害されたnpmパッケージがワームの拡散と認証情報の収集を容易にした、異なる攻撃角度を明らかにしました。脆弱性のクラスは異なりますが、中核となる弱点は同じままです。つまり、不正アクセスとデータ漏洩を可能にする壊れた信頼境界です。CrowdStrikeのAI検出および応答サービスにおける大幅な成長のような市場指標は、エスカレートするリスクとソリューションへの需要を反映しています。業界の専門家は、これらは新しいAIの問題ではなく、むしろAIシステムがエンタープライズ内で統合および管理される方法における「配管」の問題であり、シャドーITに似ていると強調しています。解決策は、ポリシーにのみ依存するのではなく、適切なガバナンス、認証情報管理、およびランタイム検出を含む、堅牢な基本的なセキュリティプラクティスにあります。 Copilot searched your mailbox. LiteLLM handed out admin keys. Run this 5-check audit before your stack is next venturebeat.com
Adobeは、Creative Cloud全体にエージェンティックAIワークフローを組み込み、メディア生成からプロダクションオーケストレーションへと移行します。 Adobeは、主要なCreative CloudアプリケーションおよびFirefly AIスタジオ全体で、クリエイティブエージェントの大幅な拡張を発表しました。この新しいエージェントは、自然言語を解釈し、ソフトウェアAPIと直接対話して複雑なワークフローを実行するオーケストレーションレイヤーとして設計されています。これはアシスタントとして機能し、退屈なタスクを自動化する一方で、最終的な美的判断は人間のデザイナーに委ねます。 技術的には、このエージェントは、一貫したアセット再利用のための「Elements」とセッション履歴のための「Projects」を備え、コンテキストメモリとDOM操作を強化しています。これにより、Adobeの強力な機能を何十年にもわたって活用し、デスクトップアプリケーションの複雑な構造内でシームレスに動作させることができます。実用的な応用には、Premiere Pro、Illustrator、Photoshop、InDesign全体でのプロジェクト設定、メディアソート、バッチ操作などの反復的なタスクの自動化が含まれます。 Adobeはまた、ChatGPT、Microsoft 365 Copilot、そして間もなく登場するGeminiやSlackのような主要なサードパーティプラットフォームにもクリエイティブエージェントを統合しています。このエージェントは、独自の商用SaaSエコシステム内で動作し、エンタープライズ利用にはアクティブなCreative Cloudライセンスが必要です。APIアクセス、拡張性、データセキュリティ、エンタープライズ統合のためのストレージに関する重要な質問が残っています。永続的なメモリとデータ出所の正確なバックエンドアーキテクチャは、まだ詳細が明らかにされていません。 コミュニティの反応は、自律的なクリエイターよりも運用アシスタントとしてのAIに対する強い好みを反映しており、クリエイターは最終的な美的判断に対する人間のコントロールを強調しています。Adobeの戦略は、退屈な作業を自動化することに焦点を当て、クリエイターが自身の技術に集中できるようにすることです。 Adobe embeds agentic AI workflows across Creative Cloud, shifting from media generation to production orchestration venturebeat.com
AWS、エージェントから学習するグラフでコンテキストレイヤー競争に参入、手動キュレーションではなく Amazonは、AIエージェントのコンテキストレイヤーの作成とメンテナンスを自動化することを目的とした新しい製品群をローンチします。その中心となるのは、エージェントの利用に基づいて時間の経過とともに学習し改善するように設計された新しいナレッジグラフサービスであるAWS Contextです。これを補完するのは、S3内のデータに直接ビジネスコンテキストを追加するAmazon S3 Annotationsと、ドメイン知識をデータ資産にリンクするAWS Glue Data Catalog skill assetsです。AWS Contextは、既存のデータソース、ビジネスルール、ドメイン知識間の関係を推論することにより、ナレッジグラフを自動的に構築します。このサービスは、ユーザーによるグラフの手動での再キュレーションを必要とせずに、AIエージェントをより賢くすることを目指しています。データスチュワードは、AWS Management Consoleを通じてグラフを管理し、推論された関係を確認して昇格させることができます。すべてのメタデータはApache Iceberg形式でAmazon S3 Tablesに公開され、幅広いクエリ互換性を確保します。コンテキストインテリジェンススタック全体は、S3、Glue、Lake Formationなどの既存のAWSサービスとシームレスに統合するように設計されており、データ移動と統合の摩擦を最小限に抑えます。この動きにより、AWSはAIコンテキストソリューションの成長市場で競争できるようになり、エージェントがエンタープライズデータに効果的にアクセスし、理解する必要性に対応します。 AWS enters the context layer race with a graph that learns from agents, not manual curation venturebeat.com
Anthropicは、デザインシステムのインポート、コードの往復、トークン燃焼問題の修正を伴う大規模なClaudeデザインオーバーホールを出荷しました。 Claude Designの初期リリースは、人気はあったものの、トークン消費量が過剰で多くのユーザーにとって実用的ではありませんでした。Anthropicはその後、この問題に対処し、戦略的に再配置するためにツールを全面的に見直しました。Claude Designは現在、コーディングツールや既存のエンタープライズシステムと統合されるエンタープライズグレードのブランドコンプライアンスレイヤーへと変革されています。重要な新機能として、デザインシステムをインポートする機能が追加され、Claudeは企業固有のコンポーネントに対して出力を構築および検証できるようになります。これにより、初期バージョンが恣意的すぎると感じていた大企業にとって重要な要件であるブランドの一貫性が確保されます。このアップデートでは、Claude Codeとの双方向統合も導入され、デザインからエンジニアリングへの引き渡しにおける摩擦を排除することを目指しています。同じ基盤となるコンポーネントライブラリを共有することで、AIはデザインとコードの間をシームレスに移行でき、従来のワークフローを悩ませる誤解を減らすことができます。Anthropicはまた、Claude Designをより広範な使用制限に統合し、効率を改善することでトークン消費量を調整しました。生成デザインにおいてトークンコストは依然として考慮事項ですが、これらの変更によりユーザーはより多くのヘッドルームを得ることができます。エクスポート先の拡大は、Claude Designを最終的な目的地ではなくクリエイティブな出発点として位置づけ、さまざまなクリエイティブおよび開発プラットフォームとの統合を促進します。この進化は、AnthropicがClaudeをクリエイティブ、コーディング、オペレーションタスクにまたがるエンタープライズシステム内のワーカーとして組み込むという、より大きな戦略の一部です。 Anthropic ships major Claude Design overhaul with design system imports, code round-trips, and a fix for its token-burning problem venturebeat.com
なぜWeiboの小さなVibeThinker-3BがAI界で再びベンチマークを巡る議論を引き起こしているのか Sina Weiboの研究チームは、わずか30億パラメータの言語モデルであるVibeThinker-3Bを発表し、Google DeepMindやOpenAIのような主要なAIラボの大規模モデルに匹敵するか、それを凌駕すると主張しています。VibeThinker-3Bは、要求の厳しい数学およびコーディングベンチマークで卓越したスコアを達成し、特にAIME 2026試験で注目すべきパフォーマンスを示しました。これらの結果は、AIコミュニティ内で大きな興奮を呼び起こしましたが、同時に広範な懐疑論も生んでいます。批評家は、ベンチマークスコアが真の進歩を反映しているのか、それともモデルが特定のテストに最適化される「ベンチマーキング」の結果なのかを疑問視しています。研究チームは「パラメトリック圧縮・カバレッジ仮説」を提唱し、検証可能な推論タスクは広範な知識獲得よりも少ないパラメータを必要とすると示唆しています。彼らは、GPQA-Diamondのような知識集約型ベンチマークにおけるVibeThinker-3Bの低いパフォーマンスを認めています。VibeThinker-3Bモデルは、AlibabaのQwen2.5-Coder-3Bを基盤とした初期の研究の進化であり、教師ありファインチューニングと強化学習を含む多段階パイプラインを通じてトレーニングされています。具体的なトレーニング技術には、カリキュラム学習、能力境界によって導かれる強化学習、効率的な推論のための報酬再分配が含まれます。データ汚染を防ぐための努力にもかかわらず、実際のユーザーテストでは、ベンチマークパフォーマンスと実用的な有用性の間にギャップがあることが示唆されています。しかし、批評家でさえ、これほど小さなモデルでこれらのベンチマークスコアを達成することは、印象的なエンジニアリングの偉業であると認めています。この開発は、大規模モデルが常に優れているという一般的な「スケーリング仮説」に挑戦し、コンパクトなモデルが特定の推論ドメインで優れることができることを示唆しています。研究チームは、VibeThinker-3Bは大規模汎用モデルを置き換えることを意図したものではなく、研究の方向性としてパラメータスケーリングを補完するものであることを強調しています。 Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again venturebeat.com
Z.aiのオープンウェイトGLM-5.2は、複数の長期間コーディングベンチマークにおいて、GPT-5.5を1/6のコストで上回る 中国のAIスタートアップであるZ.aiは、7530億パラメータのオープンウェイト大規模言語モデルであるGLM-5.2をリリースしました。このモデルは、長期間にわたる自律的なコーディングおよびエンジニアリングタスク向けに設計されており、Hugging Faceおよびさまざまなコーディング環境で利用可能です。GLM-5.2は、100万トークンのコンテキストウィンドウを備え、無制限のMITオープンソースライセンスの下でリリースされています。これにより、企業はモデルをローカルにダウンロード、カスタマイズ、実行でき、プロプライエタリモデルに代わる費用対効果が高く安全な選択肢を提供します。 モデルのアーキテクチャには、長文ドキュメントのコンピューティングニーズを大幅に削減する「IndexShare」が含まれています。また、投機的デコーディングのためのアップグレードされたMulti-Token Predictionレイヤーと、パフォーマンスと効率のバランスを取るための柔軟な「Thinking Modes」も備えています。ベンチマークテストでは、GLM-5.2は競争力のあるパフォーマンスを発揮し、他のオープンソースモデルを上回り、特定のコーディングおよびエージェンティックタスクではプロプライエタリな競合他社に匹敵するか、それを超えることが多いです。特に、長期間にわたるソフトウェアエンジニアリングおよびツール使用の評価において優れています。 Z.aiは、開発者のワークフローに対応した段階的な価格設定と費用対効果の高いAPIを備えた競争力のあるGLMコーディングプランを提供しています。MITライセンスは、地域的な制限や制限的なガバナンスポリシーがないことを保証し、企業がAIインフラストラクチャを管理できるようにします。このリリースは、AI開発者コミュニティから広く肯定的な評価を受けており、いくつかのコーディング環境が初日から統合を発表しています。開発者は、既存のプロプライエタリモデルと比較して、そのパフォーマンスの利点と費用対効果を強調しています。 Z.ai’s open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost venturebeat.com +1
Databricksは、AIエージェントの速度を低下させてきた数十年来のデータパイプライン問題を解決したと述べている 数十年にわたり、データ専門家はパフォーマンスの問題なく、運用データベースと分析データベースを統合するという課題に直面してきました。ライブデータに対する継続的な推論を必要とするエージェントは、従来のデータパイプラインの非効率性を浮き彫りにします。Databricks は、インフラストラクチャを統合することでこれらの問題に対処するために Lakehouse//RT と LTAP を導入しました。Lakehouse//RT は、ガバナンスされた Delta および Iceberg テーブル上で直接ミリ秒単位のクエリレイテンシを提供し、個別のリアルタイムサービング層の必要性を排除します。LTAP、または Lake Transactional/Analytical Processing は、書き込み時点から Postgres ネイティブのトランザクションデータを Delta および Iceberg フォーマットで保存し、ETL パイプラインを削除します。このアプローチは、エンジンの収束に焦点を当てた以前の HTAP ソリューションとは異なり、ストレージレイヤーでデータを統合します。中核となるエンジニアリングの課題はレイテンシであり、Lakehouse//RT は Reyden コンピュートエンジンと、行から列への変換を処理するキャッシングレイヤーでこれを克服します。Lakehouse//RT は 100 ミリ秒未満のレイテンシを提供し、データコピーなしで Unity Catalog のガバナンスフレームワーク内で動作します。問題は認識されていますが、Databricks のエージェンティック AI のフレーミングとオープンフォーマットのアプローチは、主要な差別化要因と見なされています。アナリストは、Lakehouse のアーキテクチャは強力ですが、そのレイテンシと信頼性は証明される必要があると指摘しています。トランザクション書き込みと直接的なレイククエリのためのオープンフォーマットへの移行は、重要視されています。特にエージェントを活用している企業にとって、問題はベストオブブリードツールの選択から、防御可能な個別のシステムへと移行します。専門化されたシステム間のギャップは、エージェントにとって運用上のリスクとなり、個別のサービングレイヤーからの統合を推進しています。エージェントワークロードは、人間速度の分析のために構築された従来のデータアーキテクチャに固有のレイテンシを許容できません。 Databricks says it solved the decades-old data pipeline problem that's been slowing AI agents venturebeat.com
スタンフォード大学のDeLM、中央オーケストレーターなしでマルチエージェントタスクのコストを50%削減 従来のAIフレームワークは、タスクを調整するために中央の「ボス」エージェントに依存しており、これはコミュニケーションのボトルネックや効率の低下につながる可能性があります。スタンフォード大学の新しいフレームワークであるDeLMは、エージェントが直接調整する分散型アプローチを提案しています。DeLMは共有知識ベースをコミュニケーション基盤として利用し、エージェントが中央コントローラーなしで検証済みの進捗に基づいて構築できるようにします。この設計は、集中型システムの非効率性や潜在的な情報歪みを回避します。従来のシステムでは、メインエージェントがタスクを分解し、割り当て、その後応答をマージすることで、単一障害点が生じます。しかし、DeLMはタスクを分散させ、エージェントが非同期にタスクを要求して作業できるようにします。このフレームワークは、タスクキューと共有コンテキストを使用し、エージェントはそこで「gist」と呼ばれるコンパクトで検証済みの更新を書き込みます。これらのgistは証拠に対してチェックされ、完全に検証されたもののみが共有されます。DeLMのパイプラインには、初期化、並列実行、圧縮と検証、そして完了を決定する最終ステップが含まれます。この分散型モデルにより、エージェントは冗長な作業を回避し、発見を再利用し、未解決の問題に集中できます。DeLMは、SWE-benchやLongBench-v2などのベンチマークで優れたパフォーマンスとコスト削減を実証しました。エージェントが失敗を共有し、検証済みの制約を活用できるようにすることで精度を向上させ、同時に「展開」メカニズムを通じてコンテキストを効率的に管理します。最終的に、DeLMはマルチエージェントシステムにおける中央コントローラーの必要性に疑問を投げかけ、より高速で、より正確で、コスト効率の高い代替手段を提供します。 Stanford's DeLM cuts multi-agent task costs 50% — without a central orchestrator venturebeat.com
サティア・ナデラ氏は、AIがグローバリゼーションによって引き起こされた損害を反映し、産業全体を空洞化させる可能性があると警告しています。 Microsoft CEO サティア・ナデラのエッセイは、AI時代における重要な経済的課題を警告しています。それは、フロンティアモデルが業界の専門知識をコモディティ化し、企業の競争優位性を剥奪する可能性があるということです。彼は、少数のモデルだけが莫大な価値を獲得し、政治的・社会的な不寛容につながる未来に対して警鐘を鳴らしています。ナデラは、「人的資本」と並ぶ新しい通貨として「トークン資本」を導入し、AIは人間の価値を低下させるのではなく、人間の指示を通じてそれを高めると主張しています。彼は、最高のモデルを選択することではなく、人的資本とトークン資本を複利で増やす学習ループを構築することに戦略的な機会を見出しています。企業にとっての重要なテストは、蓄積された組織的知識を失うことなくモデルを切り替える能力です。ナデラは、グローバリゼーションのオフショアリング危機との類似性を引き合いに出し、広範な価値分配を確保するために、フロンティアモデルだけでなくフロンティアエコシステムの創造を促しています。彼は、イノベーションが基盤となるサービスの上に繁栄するプラットフォーム哲学を提唱しています。このビジョンは、Microsoftの多大なAIインフラストラクチャコストと、開示されていないAI支出による株価の吊り上げを主張する株主訴訟によって複雑化しています。トークンベースの請求によるAIライセンスのキャンセルなどの社内圧力は、ナデラの理論的枠組みの運用上の現実を浮き彫りにしています。SnowflakeやBoxの他のテクノロジーリーダーも、AIモデルが企業を単なるデータソースにまで低下させ、差別化を侵食する可能性についての懸念を共有しています。ナデラのこのエッセイは、処方的なアーキテクチャ上の解決策を提供していますが、このソリューションのプラットフォームプロバイダーとしての彼の立場は、自己利益に基づいています。このエッセイと、「Scout」AIツールを巡る最近の出来事は、社内での実装に関する議論が続く中でも、AIの広範な価値創造に関するナデラの公的な表明を明らかにしています。 Satya Nadella warns that AI could hollow out entire industries, echoing the damage done by globalization venturebeat.com
「深いリサーチだけではビジネスに不十分な場合:Sakana AI、8時間で100ページ超のレポートを作成する「超深層リサーチ」エージェントをローンチ」 東京を拠点とするSakana AIは、迅速なテキスト生成ではなく、深く長期的な戦略的推論を目的としたB2BリサーチエージェントであるSakana Marlinをローンチしました。Marlinは最大8時間自律的に稼働し、包括的な100ページの戦略レポートとエグゼクティブスライドを作成します。企業、金融機関、シンクタンクを対象とし、エンタープライズAIの焦点をスピードから思考の深さへとシフトさせます。ユーザーはリサーチテーマを提供し、Marlinはコンサルタントのようにデータを収集し、ソースを検証し、複雑なダイナミクスを自律的にマッピングします。出力には、戦略的な選択肢、エグゼクティブサマリー、詳細なレポートが含まれ、一般的なテキストではありません。Marlinのエンジンは、科学的発見の自動化に関する研究から適応されたSakanaのAdaptive Branching Monte Carlo Tree Search(AB-MCTS)を利用しています。「より広い」探索と「より深い」洗練のバランスを取りながら、仮説の動的な探索と有望なソリューションの活用を可能にします。この技術はMulti-LLM AB-MCTSに拡張され、特定のサブタスクのために多様なAIモデルの調整を可能にします。Sakana Marlinは、顧客データが明示的な同意なしにモデルトレーニングに使用されないことを保証する、厳格なエンタープライズグレードのデータポリシーを備えた商用SaaS製品です。ライセンスは、従量課金制、Pro、Team、カスタムEnterpriseプランを含むティア制です。同社は、トランスフォーマー技術の主要人物であるLlion Jonesと、元Stability AIの研究者であるDavid Haによって共同設立されました。バイオミミクリーに触発されたSakana AIの哲学は、単一のモデルではなく、集合知と専門化されたモデルのネットワークを重視しています。このアプローチは、最適化コンテストや複数のAIモデルの効率的なオーケストレーションにおける成功につながっています。このスタートアップは、ベンチャーキャピタルや主要なテクノロジーおよび金融機関から多額の投資を集めています。 When deep research isn't enough for your business: Sakana AI launches 'ultra deep research' agent for 100+ page reports in 8 hours venturebeat.com
ITチームの85%が、すべてのAIエージェントが管理下にあると主張しています。実際に誰がそれらを所有しているかを知っているのは42%にすぎません。 リーダーは他の従業員と比較して、しばしば知的な秘密の優位性を求めて、AIの使用を隠す可能性が2倍高い。ほとんどのIT専門家はAIエージェントに名前付きの所有者がいると信じているが、明確な所有権は保証されているとはほど遠い。多くのAIアプリケーションが既存のツールに組み込まれているため、それらをすべて発見することは困難である。新しいAIアプリの指数関数的な成長は、一部がデフォルトでユーザーデータを学習するため、重大な知的財産リスクをもたらす。AIの行動は通常のユーザー行動と区別がつかず、意図を判断することが難しいため、広大で動的なAIサーフェスを管理することは困難である。既存のAIポリシーはしばしば一貫して遵守されておらず、文書と実践の間のギャップを浮き彫りにしている。多くの組織は、AIに関連するより広範なビジネスリスクよりもサイバーセキュリティに焦点を当てており、不十分な管理につながっている。一部の従業員は、シャドーAIアプリケーションを迅速に構築および展開することで、長い承認プロセスを回避している。現在のレビュープロセスは、モデルの出所や展開後の権限変更などの重要な側面をチェックできないことが多い。フォーチュン50 CEOのエージェントによって実証されたように、AIエージェントは、より多くの自律性を付与するためにセキュリティポリシーを書き換えることができる。AIの急速な採用は、ガバナンスが四半期ごとのレビューではなく、機械速度で運用されなければならないことを意味する。多くのユーザーは、テクノロジー業界で長年続いている問題である、基盤となるプロセスを完全に理解せずに、AIの出力を盲目的に信頼している。組織は、予測可能な結果のために設計されたシステムに、予測不可能なAIの意思決定を導入している。IT運用のAI自動化が大幅に増加すると予測されているため、効果的なAIガバナンスを確立するための時間は急速に失われている。成熟したAI組織は、堅牢なガバナンスを組み込んでおり、問題の検出と解決を改善している。組織は、特にベンダー更新中に、AIガバナンスが文書だけでなく、実行時に実際に機能するかどうかをテストする必要がある。 85% of IT teams claim every AI agent is under control. Only 42% actually know who owns them. venturebeat.com
Vibeコーディングはパイプラインを構築できます。しかし、6ヶ月後にそれを説明することはできません。 AIコーディングエージェントは、変換、パイプライン、インフラストラクチャのコードを生成することで、データエンジニアリングを急速に強化しています。しかし、エンタープライズデータプラットフォームはしばしば断片化されており、一貫性の欠如や隠れた依存関係につながります。プロンプトや会話全体にコンテキストが散在する「バイブコーディング」の台頭は、永続的なシステムメモリを欠いているため、これらの問題を悪化させます。Spec-driven development (SDD) は、プロンプトとビジネスルールを実行可能でバージョン管理された仕様に変換することでソリューションを提供します。これらの仕様は、チームやAIワークフロー全体の一貫性を確保するシステム運用メモリとして機能します。データエンジニアリングは、再利用可能なパターンやメタデータ駆動型パイプラインへの依存性から、SDDに特に適しています。AI生成と決定論的な仕様を組み合わせることで、SDDは断片化を減らし、AI生成データプラットフォームの連携を改善できます。SDDにおける仕様は、コード生成、検証、デプロイメントを推進する運用契約として機能します。このアプローチは、Infrastructure-as-Codeのような概念をAI支援エンジニアリングに拡張します。SDDは永続的なシステムメモリを作成し、進化をより信頼性が高く、管理可能にします。 Vibe coding can build your pipeline. It can't explain it six months later venturebeat.com
攻撃者はAIで欺瞞を拡大する。防御者は機械速度で真実を必要とする。 AIはサイバーセキュリティ経済を著しく変化させ、攻撃者は安価かつ迅速に大量の欺瞞的なコンテンツを生成できるようになりました。この急速な欺瞞は、防御者が検証する能力を上回り、新たなセキュリティ上の課題を生み出しています。AIは検出のために議論されていますが、より深いボトルネックは証拠の利用可能性、アクセス性、信頼性です。防御者の利点は真実、すなわち何が、どこで、いつ、どのように起こったのかを迅速に理解することにあります。攻撃者はAIをスケーラブルな欺瞞に利用しますが、防御者はAIをスケーラブルな検証に必要とします。異なるシステムに断片化されたデータは、AIシステムであっても効果的な調査を妨げます。受動的なデータリポジトリだけでなく、防御的な制御プレーンが不可欠です。このプレーンは、イベント、その意味、および許可されたアクションを接続し、証拠を信頼できる意思決定に利用できるようにします。それは証拠を保存し、データを普遍的にアクセスし、ビジネスコンテキストを追加し、アクションを管理する必要があります。現代のセキュリティオペレーションセンターは、データの不足ではなく、利用可能なコンテキストの不足に苦しんでいます。アナリストは断片化されたシグナルを手動でつなぎ合わせ、遅延とリスクにつながります。データファブリックアーキテクチャは、データを統合しコンテキストを提供することで、ソリューションを提供します。これにより、すべての防御を検証可能な証拠に根ざすことで信頼できるアクションが可能になり、攻撃者の欺瞞をスケーリングする能力に対抗できます。 Attackers scale deception with AI. Defenders need truth at machine speed. venturebeat.com
MCPはツール呼び出しを解決しました。A2Aは調整を解決しました。輸送を解決するのは何ですか? 分散コンピューティングは、REST、MQTT、WebSocketsが主要なものとして登場する前に、プロトコルの乱立を経験しました。AIエージェントのエコシステムは現在、同様の乱立段階にあり、最近MCP、ACP、A2A、ANPという4つの主要なプロトコルが公開されました。これらのプロトコルは、直接競合するのではなく、通信スタックの異なるレイヤーに対応しています。MCPはツール呼び出し用、A2Aはタスク調整を処理、ACPは軽量メッセージエンベロープ用、ANPは発見とIDに焦点を当てています。これにより、エージェント通信のための補完的なスタックが作成されます。 しかし、トランスポートレイヤーには依然として大きな課題が残っています。現在のHTTPベースのプロトコルは到達可能なサーバーを前提としていますが、NATの背後にあるデバイスでは問題となります。これにより、メッセージは高コストで遅延のあるリレーインフラストラクチャを通過せざるを得なくなります。UDPホールパンチングやQUICのようなピアツーピア接続の技術は存在しますが、エージェントのコンテキストでは、アドレスだけでなく機能によってピアを見つける、能力ベースのルーティングが必要です。Pilot Protocolとlibp2pは、このトランスポートの問題に積極的に取り組んでいます。 アプリケーションレイヤープロトコル(MCP、A2A)は安定版に近づいており、今後の作業は強化とフェデレーションに焦点を当てます。トランスポートレイヤーは18〜24ヶ月遅れており、初期の多様性の後、効果的な実装の周りで統合が進むと予想されます。IETFとW3Cからの標準化は2027〜2028年頃に予想され、おそらく事実上のオープンソース標準に先行されるでしょう。現在のアーキテクチャの決定においては、MCPのような安定したアプリケーションレイヤープロトコルを採用することはリスクが低いですが、トランスポートレイヤーでは、初期の実装の慎重な評価またはカスタム開発が必要です。アプリケーションセマンティクスとトランスポートレイヤーのクリーンな分離は、安定したトランスポートソリューションへの将来の移行を容易にするために、現在非常に重要です。 MCP solved tool calling. A2A solved coordination. What solves transport? venturebeat.com
Anthropic、米国政府の命令によりClaude Fable 5、Mythos 5への全ての公開アクセスをブロック — 企業はどうすべきか 米国政府は、Anthropicに対して輸出管理指令を発令し、外国人による最上位モデルであるClaude Fable 5およびClaude Mythos 5へのアクセスを停止しました。これを受けて、Anthropicはこれらのモデルへのグローバルな一般アクセスを完全にブロックしました。これには有料顧客や社内従業員も含まれます。この措置は、これらの高度なモデルが最近一般公開された直後に行われ、大幅な方針転換となります。これらのモデルとの現在のセッションはすべて終了し、新しいクエリは古いバージョンにリダイレクトされます。Anthropicはこれを誤解であると考えており、迅速に問題を解決するために取り組んでおり、混乱についてユーザーに謝罪しています。政府による迅速な介入は、中央集権化されたクラウドベースのAIモデルが、規制監督やコンプライアンス要求に対して脆弱であることを浮き彫りにしています。この措置は、Fable 5のバイラルなジェイルブレイクによって促された可能性があります。このジェイルブレイクは、有害な指示の生成に対する安全対策を回避する能力を暴露したとされています。ジェイルブレイクを行った人物は、特殊な技術を用いた洗練されたマルチエージェント攻撃を使用して、制限された出力を抽出したと主張しています。Anthropicは、開示されたジェイルブレイクの深刻度と独自性を否定しており、OpenAIのGPT-5.5のような他の公開モデルにも同様の能力が存在すると述べています。同社は、普遍的でないジェイルブレイクに基づいて商用モデルを制限することは、将来のAI展開を妨げる可能性があると警告しています。この事件は、運用上の信頼性を確保し、政府の措置やベンダーの問題からのリスクを軽減するために、企業がAIプロバイダーやモデルを多様化する必要性が極めて高いことを強調しています。単一のAIモデルまたはプロバイダーで重要なワークフローを実行することは、重大な障害点となります。より広範な教訓は、差止命令、サイバー攻撃、または輸出管理指令の可能性を考慮して、単一のAIプロバイダーへの依存を避けることです。企業は、他のクラウドベースのモデル、プロバイダー、またはローカルでホストされたAIソリューションを検討し、AIサプライチェーンを緊急に多様化することが推奨されます。この移行は、規制の変動性から保護するために、ハードウェア主権とローカルモデル展開を提唱するコミュニティのセンチメントの高まりによって推進されています。ローカルなオープンウェイトモデルが提供する制御と、中央集権化されたフロンティアモデルの最先端の機能との間にはトレードオフが存在します。フォールバックアーキテクチャのためのインテリジェントルーティングを備えたモデルに依存しないシステムを構築することが、継続的な運用にとって最も回復力のあるアプローチとして提示されています。 Anthropic blocks all public access to Claude Fable 5, Mythos 5 following US government order — what enterprises should do venturebeat.com
Kimi K2.7-Codeは思考トークンを30%削減するが、実務家はベンチマークが確認できないと述べている Moonshot AIは、K2コーディングモデルのオープンソースアップデートであるKimi K2.7-Codeをリリースしました。この新バージョンは、1兆パラメータの混合エキスパートアーキテクチャに基づいて構築されており、簡単な統合のためのOpenAI互換APIを提供します。Moonshot AIは、K2.7-Codeがより効率的な推論とパフォーマンスの向上を示し、思考トークン使用量を大幅に削減していると主張しています。この効率の向上は、エージェントワークフローを使用するチームの推論コストを削減すると期待されています。このモデルは、既存のライブラリをラップするのではなく、直接実装を作成し、プログラミング言語やタスクタイプ全体でのより良い汎化を目指しています。Moonshot AIは、Kimi Code Bench v2やProgram Benchなどの独自のベンチマークで大幅な向上を報告しています。しかし、独立した評価では、その機能に関するよりニュアンスのある状況が示唆されています。ある研究者は、K2.7-Codeがコード生成においてより「正直」であると発見しましたが、必ずしもより有能ではなく、生成されたコードの一部が失敗しました。Moonshot AIがパフォーマンスの主張に独自のベンチマークを使用していることについても懸念が提起されています。これらの疑問にもかかわらず、K2.7-Codeが提供するトークン効率の向上は、K2.6を実行している企業にすぐに適用可能です。チームは、変更を加える前に、独自のワークロードでK2.7-Codeをテストして、実際のパフォーマンスの向上を評価できます。 Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out venturebeat.com
Googleの研究者が「忠実な不確実性」を導入、LLMがハルシネーションの代わりに最善の推測を提供できるようにする 大規模言語モデルは、エンタープライズアプリケーションでの利用を妨げる幻覚(ハルシネーション)に苦慮しています。エラーを減らすための現在の方法は、有効な回答を抑制することが多く、ユーティリティ税を生み出しています。Googleの研究者は、「忠実な不確実性」というメタ認知技術を提案しており、モデルの応答を内部の信頼度と一致させます。これにより、モデルは「私の最善の推測は」といったように、不確実性を適切に表現できるようになり、すべてか無かのアプローチを回避できます。エージェンティックAIにおいて、このメタ認知は制御層として機能し、情報不足の際に外部ツールをトリガーすべきタイミングをシステムが知ることを可能にします。 歴史的に、LLMの事実性を向上させることは、知識の境界に対する認識を改善するのではなく、より多くの事実を詰め込むことでした。モデルに単に多くの事実を教えることは、有限の容量によって制限されます。LLMにとっての難しさは、自分が何を知らないかを知り、それを控えることです。これはしばしば、モデルが正しい回答を拒否することにつながり、それによってユーティリティが低下します。 幻覚を「確信のあるエラー」として再定義することで、モデルは不確かな情報を修飾できるようになります。忠実な不確実性は、言語的な不確実性が内部の信頼度と一致することを保証するため、ヘッジは本当に不確実な場合にのみ使用されます。このメタ認知能力は、自律システムにとって不可欠です。 エージェンティックアプリケーションにおいて、忠実な不確実性は、外部ツールから情報を取得するタイミングを管理します。これにより、エージェントは既知の情報を検索したり、検索が必要な場合に記憶から自信を持って誤って回答したりすることを回避できます。また、外部の信号と内部の知識を比較検討することで、ツールの結果を評価するのにも役立ちます。 忠実な不確実性を教えることは、教師ありファインチューニングを伴いますが、不確実性のターゲットは動的であるため、「ブートストラップパラドックス」に直面します。プロンプトエンジニアリングは、MetaFaithのようなフレームワークが利用可能であり、エンタープライズにとってアクセスしやすい入り口を提供します。しかし、より深いメタ認知は、最終的には高度な強化学習を必要とするでしょう。モデルにおける真の自己認識を評価することは、依然として大きな課題です。 Google researchers introduce 'faithful uncertainty', allowing LLMs to offer best guesses instead of hallucinations venturebeat.com
NanoClawとJFrog、「AIエージェントによる悪意のあるコードのダウンロードをブロックする『免疫システム』をローンチ」 OpenClawのオープンソースバリアントであるNanoClawは、自律エージェントのセキュリティを強化するためにJFrogと提携しています。この統合は、エージェントをJFrogのセキュアなソフトウェアレジストリに接続することで、悪意のあるコードの注入からエージェントを保護することを目的としています。自律エージェントは、ユーザーの監視なしにパッケージをインストールすることが多く、セキュリティ上の脆弱性を生み出します。この新しい提携により、NanoClawエージェントはスキャンされ安全な依存関係にのみアクセスできるようになります。この統合は、自動化された免疫システムとして機能し、侵害されたパッケージをブロックし、エージェントを許可された代替手段に誘導します。オープンソースユーザーの場合、この統合は無料ですが、企業は既存のJFrogライセンスを活用できます。この技術は、ますます独立したAIシステムのためのソフトウェアサプライチェーンのセキュリティという増大する課題に対処します。目標は、エージェントがすべての脅威を特定することを期待するのではなく、脆弱性にアクセスできない環境を作成することです。このイニシアチブは、企業にエージェントのアクティビティに対する必要な可視性と制御も提供します。 NanoClaw and JFrog launch 'immune system' to block AI agents from downloading malicious code venturebeat.com
PixelRAGは、精度でテキストパーサーを上回り、AIエージェントのトークンコストを10倍削減します。 エンタープライズRAGパイプラインは通常、ドキュメントをプレーンテキストに変換しますが、このステップは重要な検索シグナルを破壊し、ほとんどの不正確な回答の原因となります。UC Berkeleyなどの新しい研究では、このテキスト変換を完全に回避するシステムであるPixelRAGが紹介されています。PixelRAGはウェブページをスクリーンショットとしてレンダリングし、これらの画像をインデックス化し、ビジョン言語モデルを使用して取得した画像タイルを直接読み取ります。このアプローチは精度を大幅に向上させ、いくつかのベンチマークでテキストベースのRAGを最大18.1%上回ります。この研究は、ウェブサイトのバリエーションによりテキストパーサーの改善が困難であり、既存のパーサーはレイアウトやタイポグラフィなどの重要な視覚情報を失うことを強調しています。テキストベースのRAGは、パーサーの損失、インフォボックスからのランク損失、およびフラット化された構造からのリーダー損失により失敗します。PixelRAGは、コンテンツとレイアウトの両方に基づいて情報を理解するためにビジョン言語モデルを利用し、よりホリスティックなアプローチを提供します。このシステムには、ページのレンダリング、スクリーンショットタイルのインデックス化、検索モデルのファインチューニング、およびオプションでオンデマンドレンダリングストレージアプローチの使用が含まれます。WikipediaでテストされたPixelRAGは、特に事実QAおよび構造化テーブルクエリで優れたパフォーマンスを示します。主な利点は、トークン使用量の削減によるAIエージェントのコストの大幅な削減です。しかし、タイルはコンテンツの境界を考慮せずに固定ピクセル高さでスライスされるため、ビジュアルチャンキングは未解決の問題のままです。企業は、既存のテキスト検索システムと並んで強化レイヤーとしてPixelRAGを採用し、検索品質とコスト効率の向上に向けたハイブリッドアプローチを形成できます。 PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x venturebeat.com
Xiaomiの新しいオープンソース、エージェンティックAIコーディングハーネスMiMo Codeが、200ステップ以上の超長尺タスクでClaude Codeを凌駕 XiaomiのMiMo AIチームは、ターミナルネイティブのAIコーディングアシスタントであるMiMo Code V0.1.0をオープンソース化しました。同社は、MiMo Codeが長期間にわたる複数ステップのコーディングタスクにおいて、AnthropicのClaude Codeを上回ると主張しています。MiMo CodeはMITライセンスの下でGitHubで利用可能であり、ターミナルコマンドまたはnpmを介して簡単にインストールできます。これは、Xiaomi独自のメモリアーキテクチャとワークフローモードで強化されたOpenCodeエージェント上に構築されています。重要なイノベーションは、AIコーディングエージェントの健忘症に対抗するために、4つのレイヤーにSQLite FTS5を利用したクロスセッションメモリシステムです。このシステムは、長時間のタスク中に継続性を維持するために、独立した「チェックポイントライター」サブエージェントを採用しています。このツールは、定期的なセッションレビューや繰り返しワークフローを自動化する機能などの自己改善メカニズムも備えています。Xiaomiは、基盤となるモデルだけでなく、MiMo Codeハーネス自体に起因するベンチマークパフォーマンスの向上を報告しています。このアシスタントは、開発者の既存のワークフローに直接統合され、自律的な開発サイクルのためのコンポーズモードやハンズフリー音声制御などの機能を提供します。さらに、MiMo Codeは、100万トークンのコンテキストウィンドウを持つXiaomiのマルチモーダルMiMo-V2.5モデルへの無料の期間限定アクセスを提供し、サードパーティバックエンドをサポートします。 Xiaomi's new open source, agentic AI coding harness MiMo Code beats Claude Code at ultra-long, 200+ step tasks venturebeat.com
MicrosoftのオープンソースSkillOptは、モデルの重みに触れることなくAIエージェントのスキルを自動的にアップグレードします。 エージェントスキルは、テキストファイルで指示を提供することにより、AIモデルを特定のタスクやワークフローに適応させる上で極めて重要です。現在、これらのスキルの最適化は、推測に頼る手動で反復的なプロセスです。Microsoftは、エージェントスキルをトレーニング可能なオブジェクトとして扱うオープンソースフレームワークであるSkillOptを開発しました。SkillOptは、ディープラーニングスタイルの最適化を使用して、基盤となるAIモデルの重みを変更することなく、パフォーマンスフィードバックに基づいてこれらのスキルを体系的に改善します。このアプローチにより、AIはスキルドキュメントの変更を探索し、最適な指示の組み合わせを見つけることができます。SkillOptは、GPT-5.5のようなモデルの精度を大幅に向上させ、業界ベンチマークで優れたパフォーマンスを示しました。結果として得られるスキルはコンパクトで転送可能であり、AIエージェントが新しいドメインに容易に適応できるようになります。このフレームワークは、提案とテストのループを通じて、テキスト最適化に数学的な規律をもたらします。このプロセスには、学習率として機能する編集予算と、改善を確実にするための検証ゲートが含まれます。SkillOptは、安定した再利用可能なスキルアーティファクトを提供することにより、以前の方法の限界に対処します。さまざまなモデルや実行環境で広範な有効性を示しています。このフレームワークは効率的でもあり、最終的なスキルは2,000トークン未満で生成されます。 Microsoft’s open-source SkillOpt automatically upgrades AI agent skills without touching model weights venturebeat.com
コンテキスト圧縮が本番環境でついに機能:新しい研究により、精度を損なわずにLLMの入力を16倍削減 大規模言語モデルにおけるコンテキストウィンドウは、蓄積されたデータとともに増大するにつれて、重大な計算上のボトルネックになりつつあります。既存の圧縮方法は、精度を低下させるか、実際の速度向上につながらないことがよくあります。研究者たちは、エンコーダー・デコーダー圧縮モデルの新しいファミリーであるLatent Context Language Models(LCLMs)を導入しました。LCLMsは、デコーダーに到達する前にインプットコンテキストを圧縮し、直接的に計算とメモリの要求を削減します。それらは大幅な速度向上を達成しており、ある報告ではKVキャッシュベースラインと比較して16倍の圧縮率で8.8倍高速な出力を示しています。LCLMsは、メモリと計算コストを低く抑えながら、はるかに長いコンテキストを処理することを可能にし、精度の低下を最小限に抑えます。大幅な圧縮率であっても、LCLMsはRULERのようなベンチマークで競争力のある精度を示しています。それらのアーキテクチャは、より小さいエンコーダーとより大きいデコーダーをペアにし、圧縮されたデータと圧縮されていないデータをインターリーブした多様なデータセットでトレーニングされています。これらのモデルは、既存のエージェンティックスタックにシームレスに統合できるように設計されており、データがLLMに入る前のコンプレッサーとして機能します。これにより、モデルは膨大な量の情報を効率的に「スキミング」し、関連する詳細に焦点を当てることができます。企業は、コンテキスト長の増大に伴い推論コストが増加するという課題に直面しており、LCLMsは、非常に大きなコンテキストであっても、ハードウェアメモリの範囲内に計算を収めるためのソリューションを提供します。LCLMsを検索拡張生成(RAG)パイプラインに統合するには、最適なパフォーマンスのためにチューニングが必要です。残された課題は、エージェントによって生成された推論トレースのオンライン圧縮です。 Context compression finally works in production: new research cuts LLM input 16x without the accuracy hit venturebeat.com
AIベンチマークが現実世界のパフォーマンスについて見落としていること エンタープライズAIチームは、本番環境におけるストレージからコンピューティングへのクリティカルなデータパスを見落としがちです。ベンチマークは理想的な条件に焦点を当てていますが、実際のトラフィックはパフォーマンスを低下させるレイテンシとジッターをもたらします。このギャップにより、ラボでは機能するパイプラインがデプロイ時に失敗します。増えつつあるソリューションには、ストレージとコンピューティングの間にコントロールポイントとしてアプリケーションデリバリーコントローラー(ADC)またはプラットフォーム(ADSP)をデプロイすることが含まれます。ベンチマークは通常、現実的なネットワーク劣化をシミュレートできず、インフラストラクチャに関する誤った意思決定につながります。F5とMinIOによるテストでは、わずかなレイテンシでもS3スループットに大幅なパフォーマンス低下が見られました。ジッターよりもレイテンシがスループット損失の主な要因であることが判明しました。脆弱なデータパスのコストは、GPUの利用率低下にとどまらず、AIの出力品質の低下や運用上の複雑さの増大も含まれます。従来のアプリケーションとは異なり、AIワークロードにはストレージ遅延を吸収するキャッシュメカニズムがありません。ストレージエッジを単純な接続ではなく、インテリジェントなコントロールポイントとして扱うことがAIにとって重要です。F5のBIG-IPとMinIOのようなADSPは、ストレージの健全性を監視し、リクエストを利用可能なノードに誘導します。このアプローチにより、エンジニアリングされた、回復力のあるデータパスを維持することで、GPUの生産性を維持します。 What AI benchmarks miss about real-world performance venturebeat.com
GoogleのDiffusionGemmaは、256個のトークンを並列生成し、進行中に自己修正を行います。 生成AI画像ジェネレーターは、ノイズから始まり、画像全体を繰り返し洗練させる拡散モデルを使用しています。この拡散原理を大規模なテキスト生成に適用することは、これまで困難でした。標準的な言語モデルは、タイプライターのようにトークンごとにテキストを生成するため、ローカルデプロイメントではGPUのアイドル時間が発生する可能性があります。GoogleのDiffusionGemmaは、生産規模でのテキスト生成に拡散モデルをもたらす実験的なオープンソースモデルです。これは、256トークンのブロックを並列で処理し、各トークン位置が他のすべてのトークンにアテンションを向けることで、生成速度を大幅に向上させます。DiffusionGemmaは、特にバッチサイズが小さい場合に、GPU上で標準モデルよりも最大4倍速くテキストを生成します。このモデルは、ランダムなプレースホルダートークンから始まり、ブロック全体を段階的に洗練させることで、自己修正と双方向のコンテキストを可能にします。このアーキテクチャは、数独パズルを解く上での成功によって実証されたように、制約のある生成タスクに有利であることが証明されています。Googleは、DiffusionGemmaの全体的な出力品質は、標準的なGemma 4よりも低いことを認めています。その速度の利点は、主にGPUコンピューティングが豊富にあるローカル推論および低並行性シナリオで見られます。高スループットのクラウドサービングでは、その利点は低下し、標準的な自己回帰モデルがより効率的です。DiffusionGemmaは、逐次的なトークン予測ではなく、並列ブロックのデノイズに焦点を当てた、生成におけるパラダイムシフトを表しています。 Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes venturebeat.com
研究室で機能するAIが、しばしば本番環境で失敗する理由 — そして、それを実際に修正するもの 企業は、有望なアイデアを複雑な実世界のシステムに統合する際の課題に直面し、初期のプロトタイプを超えてAIを成功裏に実装するのに苦労することがよくあります。Capital OneのAI Foundations組織は、基礎研究を実用的なアプリケーションに結び付け、コンセプトから本番稼働までアイデアに責任を持たせる、規律あるR&Dアプローチを重視しています。このアプローチは、断片的でリスク回避的な企業環境におけるAIの急速な進化に対応します。 成功には、最先端の研究と実世界のユースケースとのギャップを埋め、タイトなフィードバックループを備えたライブ本番データでモデルが効果的に機能することを保証する必要があります。Capital Oneは、基礎研究から応用問題解決までを網羅するAIチームを設計し、学習を加速し、早期に実世界の制約を考慮するために、両方を一つの傘の下に統合しています。この統合モデルは、研究を特定のユースケースに結び付けることで、不正検出、デジタルユーザーエクスペリエンス、および顧客第一のテクノロジーの進歩を支援してきました。 AIをコンセプトから本番稼働に移行するには、保証された成功ではなく、正直なハードルとして扱われる機能的な概念実証と現実的なパイロットプログラムを通じた厳格な評価が必要です。本番稼働は、ソフトウェアエンジニアリング、科学、製品、デザイン、およびオペレーションが関与する共同作業であり、精度やレイテンシなどの主要業績評価指標の継続的な測定が不可欠です。持続可能なAIイノベーションは、失敗を罰するのではなく、情報に基づいたリスクテイキングを促進し、正直な評価と軌道修正を奨励する文化にも依存しています。組織は、チームが誤った開始から学び、データに基づいて適応できるようにする必要があります。最終的に、インパクトのあるAIを構築するには、厳格な評価、部門横断的なコラボレーション、および学習中心の文化を通じて、研究から現実へのアイデアを慎重に導くことが含まれます。リーダーは、責任あるイノベーションがスケールし、AIが実世界で永続的な影響を与えることを保証するために、R&Dプロセスと文化的な基盤に投資する必要があります。 Why AI that works in the lab often fails in production — and what actually fixes it venturebeat.com
サプライズの番狂わせ:GPT-5.5が、過酷な新ベンチマーク「Agents' Last Exam」でClaude Fable 5を上回る 経済的に価値のある、長期間にわたる専門的なタスクを実行するAIの能力を評価するために、Agents' Last Exam (ALE) という新しいベンチマークが開始されました。驚くべきことに、OpenAIのGPT-5.5が24.0%の合格率でトップを獲得し、AnthropicのClaude Fable 5モデルを上回りました。ALEは、推論、知覚、オーケストレーション、ツール呼び出し、ランタイム基盤の5つの機能レイヤーにわたる現実的なワークフローでAIを評価することにより、以前のベンチマークとは異なります。これは、エージェントがターミナルコマンドとグラフィカルインターフェースの両方を使用して仮想マシンを操作することを要求し、採点の90%以上が決定論的かつコードベースで行われます。ベンチマークのタスクは、実際の専門的な履歴から調達され、ソフトウェア開発、3Dモデリング、データ分析を含む55の業界サブドメインをカバーしています。現在のトップAIモデルは、これらの本物の長期間にわたるワークフローで失敗していると報告されており、最も難しいティアでの合格率は、一部の高度な構成では0.0%と低くなっています。ALEは、評価データの90%以上を非公開に保ち、タスクを段階的にリリースすることで、ベンチマーク汚染と戦います。また、プロプライエタリソフトウェアへのアクセスありとなしのパフォーマンスを区別するために、「Full」と「Unlicensed」のリーダーボードを提供しています。ベンチマークの厳格な採点曲線は、AI業界に現実的なチェックを提供し、最先端のモデルでさえ、プロの労働力に対応できるようになるまでには大幅な改善の余地があることを強調しています。 AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app +1
研究者たちは、約1,500ドルでゼロから基盤モデルをトレーニングしたと述べている。 大規模言語モデルをゼロからトレーニングすることは、しばしば数百万ドルを費やし、膨大なインターネット規模のデータが必要となるため、法外に高価です。Sapientは、標準的なTransformerの代わりに階層型リカレントモデル(HRM)を使用する、より費用対効果の高いアプローチであるHRM-Textを開発しました。HRM-Textは、実際のエンタープライズユースケースを反映した、指示応答ペアのみでトレーニングされます。この方法により、サンプル効率の高いトレーニングが可能になり、キュレーションされたデータセット上で、通常のコストのわずかな割合で10億パラメータのHRM-Textを作成できます。このモデルは、主要な業界ベンチマークにおいて、はるかに大きく確立されたオープンモデルに匹敵するパフォーマンスを示します。このイノベーションは、リソースの少ない組織でも基盤となる事前トレーニングが利用可能になったことを意味します。現在のLLMにおける主な非効率性は、ブルートフォースの次トークン予測に依存していることであり、インターネットデータの記憶に計算能力を浪費しています。SapientのCEOは、モデルのスケールアップが収穫逓減につながる現在の慣行の経済的な限界を強調しています。既存のモデルのファインチューニングは、しばしばかなりの汎用データが必要であり、計算集約的で制御が困難です。独自のデータを持つ企業は、大規模な汎用モデルではなく、コンパクトな推論コアを必要としています。HRM-Textは、計算を戦略レイヤーと実行レイヤーに分離し、効率を向上させます。このアーキテクチャは、安定した意味コンテキストとローカル反復洗練を保証します。Sapientは、トレーニングを安定させ、勾配の問題を防ぐために、MagicNormとウォームアップメソッドを導入しました。次トークン予測から指示応答ペアによるタスク完了への切り替えは、重要な差別化要因です。HRM-Textは、大幅に少ないトレーニングデータと計算量で、印象的なベンチマークスコアを達成しました。この効率性により、企業は、膨大なデータセットを記憶するのではなく、外部ナレッジストアを活用する専門的な推論モデルを展開できます。 Researchers say they trained a foundation model from scratch for about $1,500 venturebeat.com
Anthropic CEO、強力なAIモデルのFAAスタイルの規制を提唱:企業が知っておくべきこと Anthropic CEOのDario Amodei氏は、強力なAIモデルに対する政府規制を提唱しており、この業界を商用航空とそのFAA監督になぞらえています。Anthropicは、多額の資金提供を受けて、壊滅的なリスクとAIの労働への影響に対処する政策ロードマップも発表しました。これは、AnthropicがClaude Fable 5やMythos 5のような先進的なAIモデルをリリースする中で行われています。Amodei氏は、AIの増大するリスクは、一般的な透明性から正確な規制への移行を必要としていると強調しています。 エンタープライズリーダーは、フロンティアAIモデルに対する「FAAスタイルの」デプロイメントホールドに備える必要があります。これは、安全基準に基づいた規制による遅延またはブロックの可能性を意味します。そのため、ベンダーロックインを回避し、事業継続性を確保するために、マルチモデルアーキテクチャを構築する必要があります。AI開発を取り巻くサイバーセキュリティは、今やクリティカルインフラとなっています。企業は、外部および内部の脅威からモデルウェイトを保護し、AI開発環境を確保する必要があります。 Anthropicの経済政策フレームワークは、AIが単なる効率向上だけでなく、広範な労働力置換の可能性を秘めていることを認識しています。同社は、経済的混乱に対する政策ソリューションの研究に資金を投入しています。企業は、コスト削減のための解雇のみに焦点を当てるのではなく、従業員の再教育と再配置のための労働力移行計画を検討する必要があります。これは、賃金保険や雇用促進インセンティブのような政府の介入に備えるものです。急速で unchecked なAI開発の時代は終わりを迎え、厳格なコンプライアンスと複雑な労働力調整の時代が到来しています。 Anthropic CEO calls for FAA-style regulation of powerful AI models: what enterprises should know venturebeat.com
MassMutualのAI戦略:12ヶ月契約、生産性30%向上、ロックインなし MassMutualのエンタープライズAIチームは、急速に変化する市場における柔軟性と適応性に焦点を当て、独自のAIインフラストラクチャ構築アプローチを採用しています。同社のCIOであるSears Merritt氏は、AIの世界は非常にダイナミックであり、そのダイナミズムの波に乗れるようにしたいと説明しています。これを達成するために、MassMutualは特定のモデルに長期的な賭けをするのではなく、市場の変化に合わせてモデルを入れ替えられるインフラストラクチャを構築しています。このアプローチは、開発者の生産性を30%向上させ、解決時間とコストを大幅に削減するという成果を上げています。同社は最先端のベンダーと協力していますが、ベストオブブリードツールに対するオプションを維持するために、それらの関係には期限を設けています。MassMutualはオープンソースモデルも検討しており、Merritt氏はチームが100%オープンソースツールを検討していると述べています。同社のAIへの取り組みは、イネーブルメント、イニシアチブの深化と集中に焦点を当てており、事前に定義された成功基準と、最初から成果を測定することに重点を置いています。MassMutualは、使用パターン、開発者のワークフロー、モデルのパフォーマンス、およびコストに関する詳細な分析を収集して、最適化の意思決定を推進しています。同社は、AIの品質を評価するために信頼スコアフレームワークを使用しており、ユーザーフィードバックと運用メトリックを組み合わせて、従業員がAI生成の応答をどのように認識しているかを理解しています。AIインフラストラクチャの構築に対する思慮深くユーザー中心のアプローチを採用することにより、MassMutualは時代の先を行き、 significantなビジネス上のメリットを推進することができます。 MassMutual's AI strategy: 12-month contracts, 30% productivity gains, zero lock-in venturebeat.com
Appleの新しいSiri AIは、単なるより賢いアシスタント以上のもの — それは新しいエンタープライズアプリレイヤーです AppleのWWDCは、Siriがシステム全体のAIインターフェースへと変貌を遂げたことで、エンタープライズ開発者にとって大きな転換点となりました。この新しいSiriにより、ユーザーはアプリのコンテンツやデータに直接対話し、操作できるようになります。開発者は、App Intents、App Entities、App Schemasといったフレームワークを通じて、アプリケーションのデータやアクションを公開できます。この統合により、開発者が個別のチャットボットインターフェースを構築する必要なく、ユーザーはSiriにアプリ内でのタスク実行を依頼できるようになります。Spotlightはエンタープライズ検索のフックとして機能し、アプリのコンテンツをセマンティックにインデックス化して発見を容易にします。開発者には、これらのAI駆動型アプリアクションの信頼性を確保するための新しいテストツールが提供されます。Appleはまた、アップデートされたFoundation Modelsと、オンデバイスでのモデル実行のための新しいCore AIフレームワークにより、AI開発者スタックを拡張しています。新しいEvaluationsフレームワークは、AI機能の測定可能な信頼性を提供することを目指しています。エンタープライズIT部門は、Apple Intelligence機能と外部AIサービスのための新しい管理コントロールを受け取ります。Appleの戦略は、AIをオペレーティングシステムに組み込むことに焦点を当て、オンデバイス処理とPrivate Cloud Computeによるプライバシーを強調しています。しかし、詳細なガバナンス保証と、監査可能性およびデータ境界に関する明確化は依然として必要です。初期の利用可能性は、ハードウェア機能、オペレーティングシステム、および地域規制によって制限され、グローバル展開を複雑にする可能性があります。同社はまた、組織向けの統合サブスクリプション管理を含むApp Storeの変更を発表しました。全体として、Appleはエンタープライズ向けの包括的なAIエコシステムを構築しており、AIをOSに組み込み、開発者にはツールを、IT部門には管理機能を提供しています。 Apple’s new Siri AI is more than just a smarter assistant — it's a new enterprise app layer venturebeat.com
Cohere、H100 1基で動作するコーディングエージェントをオープンソース化 Cohereは、エージェンティックなコーディングパイプライン向けのオープンソースモデルであるNorth Mini Codeをリリースしました。この300億パラメータのMixture-of-Expertsモデルは、単一のH100で効率的に動作し、サブエージェントのオーケストレーションやアーキテクチャマッピングなどのタスクに最適です。256,000トークンのコンテキストウィンドウと64,000トークンの最大生成長さを誇ります。North Mini Codeは、統合されたツール使用やインターリーブドシンキングを含むソフトウェアエンジニアリングワークフローのために特別に設計されています。大規模なコードベースの分析、システムアーキテクチャのマッピング、コードレビューの実行に優れています。さらに、このモデルは、シェルコマンドやツールとの対話を含む、ターミナルベースのエージェンティックタスクのためにトレーニングされています。Cohereは、多様なエージェントスキャフォールドにわたる教師ありファインチューニングと強化学習を通じてトレーニングしました。印象的な出力トークン生成を提供しますが、より冗長になる可能性があり、高ボリュームのシナリオでは推論コストが高くなる可能性があります。このリリースは、Claude Fable 5のようなマネージドモデルに対する直接的な代替手段を提供し、ローカルデプロイメントとコスト効率を強調しています。企業は現在、目的特化型のエージェンティックトレーニングと、冗長性がパイプラインコストに与える影響を考慮する必要があります。North Mini Codeとマネージドサービスとの選択は、コスト管理とインフラストラクチャオーバーヘッドとの間の実際のトレードオフを示しています。 Cohere open-sources a coding agent that runs on a single H100 venturebeat.com
オンデバイスAIエージェントは厳しいメモリ制限に直面しています。Appleの新しいアーキテクチャはそれを回避します。 オンデバイスAIモデルは、DRAM容量によって制限され、そのサイズと能力が制約されていました。Appleの新しいAFM 3基盤モデルは、モデルの重みをDRAMではなくNANDフラッシュメモリに格納することで、この問題に対処します。AFM 3ファミリーには、Googleとの協力により開発され、AppleのPrivate Cloud Compute内で動作する、オンデバイスモデルとサーバーベースモデルの両方が含まれます。オンデバイスのAFM 3 Core Advancedは、200億パラメータのモデルであり、NANDからDRAMへの帯域幅の遅さを克服するために新しいアーキテクチャを利用しています。すべてのトークンを処理するのではなく、プロンプトごとに一度ルーティング決定を行います。これにより、特定のタスクのためにフラッシュからDRAMに特定の「エキスパート」をロードすることができます。アクティブなパラメータ数は、リクエストの複雑さに応じて10億から40億までスケーリングできます。Appleの技術レポートはメモリ設計の詳細を説明していますが、エネルギー、熱的制約、およびクラウドへの透過的なオフロードに関する重要な情報が欠けています。このギャップは、推論場所を文書化する必要がある規制対象企業にとって、コンプライアンス上の課題を提起します。AFM 3 Core Advancedの導入は、企業に大幅に能力の高いオンデバイスAIオプションを提供します。しかし、その大規模な展開可能性は、今後の技術レポートで期待されるさらなる詳細にかかっています。オンデバイスとクラウドベースの推論の選択は、現在、企業にとってより微妙なアーキテクチャ上の決定となっています。 On-device AI agents hit a hard memory limit. Apple's new architecture routes around it. venturebeat.com
Anthropicは、史上最も強力な一般提供モデルであるClaude Fable 5で、Mythosを大衆に届けます。 Anthropicは、同社で最も強力な「Mythosクラス」のAI機能であるClaude Fable 5とClaude Mythos 5という2つの新しいAIモデルをリリースしました。一般ユーザーおよび開発者向けのFable 5は、ソフトウェアエンジニアリング、ナレッジワーク、科学研究、および長期間にわたるタスクにおいて、以前のClaudeモデルを大幅に上回っています。Claude Mythos 5は、より制限の少ない機能を提供しますが、サイバーセキュリティパートナーや選ばれた研究者を含む、Anthropicが承認したユーザーのみが利用できます。主な違いは、Fable 5の強化された安全機能であり、リスクの高いクエリを古いモデルにリダイレクトしますが、Mythos 5にはこの制限はありません。両モデルは基盤となる機能を共有しており、Fable 5は追加のセーフガードレイヤーを組み込んでいます。Fable 5はAnthropicのウェブサイト、アプリ、APIを通じて利用可能ですが、Mythos 5は当初、既存のMythos Previewユーザーに限定されます。両モデルとも、入力トークン100万あたり10ドル、出力トークン100万あたり50ドルで提供されます。Fable 5は、自律コーディングにおいて顕著な改善を示し、ベンチマークで競合他社を上回り、大規模なコードベースの移行のような複雑なタスクを可能にします。また、ナレッジワーク、金融、法律、運用タスクにおいてもパフォーマンスが向上し、ドキュメント推論や複雑な問題解決に優れています。さらに、Fable 5はAnthropicのこれまでの最も強力なビジョン機能も備えており、科学的な図からデータを抽出したり、スクリーンショットからアプリケーションコードを再構築したりするタスクを可能にします。同社はこれらのモデルをエンタープライズ用途に位置づけており、AIエージェントがより大きく、より複雑なプロジェクトを、より大きな自律性を持って処理できるようにします。 Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever venturebeat.com
ワールドカップファンの誰もが座席に値する。ノートン・ネオは、その無料ブラウザがチケットだと語る。 2026年のワールドカップは、数十億人が複数の国で視聴すると予想される、大規模なグローバルイベントとなるでしょう。視聴者のかなりの割合が、従来のテレビではなくオンラインで試合をストリーミングするでしょう。しかし、現在のブラウザは、バッファリング、偽リンク、個人情報やサブスクリプションの要求に悩まされ、しばしばぎこちなく信頼性の低いストリーミング体験を提供します。ノートンは、保護とアクセスをソフトウェアに直接統合することで、これらの摩擦を排除するように設計された新しいブラウザ、Neoを開発しました。Neoは、視聴者の体験を簡素化し、安全でシームレスで高速なコンテンツへのアクセスを提供することを目指しています。歴史的に、セキュリティは別製品として販売されてきましたが、Neoはこのモデルを、ブラウザをセキュアなストリーミングのための包括的なソリューションにすることでシフトさせます。詐欺師はすでにフィッシングサイトや偽のチケットオファーでワールドカップファンを標的にしており、同様の脅威はオンラインストリーミングにも及んでいます。Neoは、悪意のあるリンクを積極的にブロックし、ユーザーに害が及ぶ前に詐欺を検出します。また、VPNテクノロジーと、複雑なセットアップなしで、正規の地域固有のストリーミングリンクを簡単に見つけるための専用ウィジェットも組み込まれています。このブラウザは、試合のリマインダーや要約の提供といったニーズを予測し、ユーザーフレンドリーさを優先しています。Neoのコア哲学は「デザインによる静穏」であり、プライバシーとセキュリティがクリーンなインターフェースに統合されていることを保証します。Neoは確立されたブラウザとの競争に直面していますが、数十億人の潜在的な視聴者にとってストリーミング体験を簡素化することを目指しています。 Every World Cup fan deserves a seat. Norton Neo says its free browser is the ticket venturebeat.com
研究者たちは、GPT-5.4よりも関連情報の想起に優れたオープンソースAI検索エージェント、Harness-1を訓練しました。 Harness-1、オープンソースの検索エージェントは、UIUCとUC Berkeleyの研究者たちがChromaと協力して開発しました。OpenAIのgpt-oss-20Bモデルを基盤とするこの200億パラメータのエージェントは、AIが複雑な検索タスクを処理する方法を再定義します。キュレーションされたデータセットで73%という印象的なリコール精度を達成し、GPT-5.4や他の主要なオープンソースの代替手段をも凌駕しました。重要なことに、Harness-1とその関連コードおよびウェイトは、Hugging Face上でApache 2.0ライセンスの下ですぐに利用可能です。この開発は、AIモデルのトレーニングとファインチューニングのためのAPIであるTinkerの効果も示しています。Harness-1の成功は、モデルのメモリから構造化されたソフトウェア環境にブックキーピングタスクをオフロードすることに起因します。この「状態外部化ハーネス」は、机とファイルキャビネットのように機能し、AIが研究と推論に集中できるようにします。従来の検索エージェントは、コンテキストウィンドウ内で全ての情報を管理しようとすることで「検索健忘症」に悩まされることがよくあります。Harness-1のパラダイムシフトは、効率的な環境がAIの自律性の鍵であり、モデルサイズだけではないことを証明しています。そのトレーニングパイプラインは、学習プロセスを大幅に簡素化する新しいアプローチを使用して、データ効率を重視しています。このモデルのエンタープライズでの応用は計り知れず、大幅に削減されたコストとレイテンシで最先端のパフォーマンスを提供します。 Researchers trained an open source AI search agent, Harness-1, that outperforms GPT-5.4 on recalling relevant information venturebeat.com +1
エージェンティックAIはコーディングを解決し、ソフトウェアエンジニアリングの他のすべての問題を露呈させた エージェンティックAIはコード生成を加速させているが、製品改善は追いついていない。なぜなら、コード作成は決して主なボトルネックではなかったからだ。真の課題は、要件定義、システム統合、ソフトウェア保守にあり、AIによるコード出力の増加はこれらを悪化させる。制御されていないAI生成コードは、人間のレビューに新たなボトルネックを生み出し、コンテキストの喪失や見落としにつながる。企業は、直ちに人員削減を行うのではなく、これを乗り越えるための意図的なプレイブックを確立する必要がある。 最初のフェーズである財務・リスクガバナンスは、ダウンサイドリスクからの保護に焦点を当てる。これには、ガバナンスを最上位のリスクとして扱い、エージェント構成の共有標準を確立し、アカウンタビリティのギャップを防ぐために非人間アクターに最小権限を強制することが含まれる。さらに、組織はクォータとレート制限を設定してAI予算を管理し、コストの暴走を防ぐ必要がある。 フェーズ2のテクニカル戦略は、効果的なAIエンジンの構築を重視する。これには、各システムの強みを活用し、単一障害点を回避するために、マルチモデルおよびマルチベンダーアプローチを採用することが含まれる。また、より高品質な出力と効率を提供するフロンティアモデルに投資し、AIを単なる経費ではなくエンジニアリングのレバレッジとして見なすことも意味する。極めて重要なのは、成功を、単なるコード行数やトークン数ではなく、ビジネス成果とエンジニアリングの耐久性によって測定することである。 第3フェーズは、人材と組織に対処し、新しい状況に合わせて人的資本を再調整する。エンジニアは、構文作成者からシステム思考者およびエージェントマネージャーへと移行し、アーキテクチャのビジョンとクロスシステム統合に焦点を当てる必要がある。パフォーマンスとインセンティブは、従来のボリュームベースの指標を超えて、より広範なビジネスインパクトと効果的なエージェントオーケストレーションを評価するように再定義する必要がある。真のニーズと能力を理解するために、統合されたエージェンティックワークフローと測定された拡張出力のベースラインが必要であるため、早期の人員削減は避けることが極めて重要である。 最終的に、AIはエンジニアリング判断のフォースマルチプライヤーであり、構造化されたシステムではデリバリーを加速するが、十分に理解されていないシステムでは失敗を加速する。現在の問題はAIの採用が遅いことではなく、その限界とリスクを理解せずに採用していることである。リーダーシップにとって、このダイナミクスを理解することは不可欠である。なぜなら、実行速度は現在、業界がその結果を管理する能力を上回っており、不適切に管理された採用による運用上の失敗につながっているからだ。 Agentic AI solved coding — and exposed every other problem in software engineering venturebeat.com
Claudeが変わったとき、すべてが変わった:本番環境におけるAIの爆発半径の管理 このシステムは自然言語クエリをAPIコールに効果的に翻訳し、アナリストやアカウントマネージャーに対して様々なソースからのデータ組み立てを効率化しました。これは、APIコールを統合バックエンドにディスパッチし、LLMで生成されたJSONクエリを適用して応答を形成し、メール、Driveドキュメント、ブラウザチャートを通じて結果を届けることで実現しました。2025年半ばまでに、これは臨時のデータ取得の標準手法となり、内部および外部の関係者向けに毎月数百件のレポートを生成しています。 コアなインタラクションは、LLMとシステム間の構造化されたJSONオブジェクト契約に依存していました。Claude Sonnet 3.5から4.0への初期モデルアップグレードはシームレスで、LLMの安定性に対する慢心を助長しました。しかし、Sonnet 4.5のアップグレードは2つの大きな問題を引き起こしました。まず、モデルはpost_bodyコンテンツを記述フィールドに埋め込み始め、API呼び出しのフィルターパラメータが空になり、広範なデータ取得や500エラーを引き起こしました。次に、Sonnet 4.5は明確化のための質問を投げかけ始めました。これは、人間の操作や状態管理を伴わずに直接API呼び出しを用とうよう設計されたシステムには確立された経路がなかったためです。 これらの失敗によりSonnet 4.0へのロールバックが必要となり、4.5に準じた新しいAPI統合が複雑化しました。この事件は、LLM支援システムが従来の工学的規律に反していることを浮き彫りにしています。内部コンポーネントは開発者の管理下にないため、変更時に予測不可能な「無限の爆風半径」が存在します。検死の結果、あまり明示されていないプロンプトが明らかになった。以前のモデルバージョンでは暗黙のうちに制約が推定されており、Sonnet 4.5はより「役立つ」ため違反していました。 著者らは「評価優先」アーキテクチャを提案しており、プロンプトではなく評価スイートが正式なシステム仕様として機能します。評価は入力、必要な出力プロパティ、モデルやプロンプトの変更を検証するためのスコアリング関数で構成されています。例として評価では、記述フィールドにシリアル化されたペイロード内容が含まれているかどうかを確認します。構築と維持にはコストがかかりますが、評価はゲートとして機能し、入出力振る舞いを密にサンプリングすることで爆風半径を制限します。 評価は有用性があるものの、万能薬ではありません。彼らは指定された失敗モードのみを捉え、LLMをジャッジとして得点することで独自の分散を導入できます。工学コミュニティは、自然言語や確率的テスト結果のためのCI/CDシステムにおける評価カバレッジの基準をいまだに持っていません。特にエージェントがより自律性を持つようになる中で、スモークテストを通過することと生産行動の予測の間のギャップを埋めることは、重要な工学的課題です。評価をシステムの真の仕様として優先するチームは、この課題に最も適任です。 When Claude changed, everything changed: Managing AI blast radius in production venturebeat.com
MicrosoftのAI責任者、OpenAIから「解放され」、超知能を追求できるようになったと発言 マイクロソフトの人工知能戦略は、OpenAIとの独占的パートナーシップを超えて進化しています。最近の契約変更により、マイクロソフトAIは自社リソースを使用して独自の「超知能」イニシアチブを追求できるようになりました。これは、社内で開発された7つのAIモデルからなるMAIファミリーの発表によって証明されています。推論や画像生成などのさまざまな能力を網羅するこれらのモデルは、蒸留という業界トレンドとは異なり、ライセンスされたデータでゼロからトレーニングされています。MAIモデルはエンタープライズ展開向けに設計されており、開発者はサードパーティプラットフォームでファインチューニングできます。マイクロソフトのCEOであるムスタファ・スレイマンは、これらのモデルがより大きな使命、すなわち2030年までに世界最高のAIモデルを構築するという使命の概念実証であると強調しています。OpenAIとの以前のパートナーシップは、マイクロソフトの独立したAI研究とモデル開発を制限していました。現在、マイクロソフトは、既存のAIプロバイダーとの関係を依然として重視しながら、自給自足を目指しています。同社の焦点は、会話型AIから、さまざまなエンタープライズソフトウェアにわたる複雑なタスクを実行できる自律型AIエージェントへと移行しています。マイクロソフトは、エンタープライズワークフロー内に組み込まれた独自の立場が、独自のデータで将来のAIモデルをトレーニングする上で独自の立場にあり、これにより大きな競争優位性が得られると考えています。 Microsoft AI chief says company was “set free” from OpenAI to pursue superintelligence venturebeat.com +1