RSS Google AI Blog(RSS グーグル AI... ノート

RSS Google AI Blog(RSS グーグル AI ブログ)

Google Researchは、Google Researchの科学コミュニティから最新のブレークスルーと洞察を共有することを目的としたブログです。このプラットフォームは、研究者が科学的なサークル以外の人々と関わるための手段となり、新しい技術、洞察、革新について話し合います。Google Researchは、人工知能や機械学習からヘルスケアの革新まで、さまざまな科学的なトピックについて頻繁に投稿しています。また、自動運転車から最先端の医療診断やデータ分析技術まで、新しい技術についてもよく取り上げています。このブログの特徴的な機能の1つは、チームメンバーの投稿です。Googleのトップの技術者や研究者が、多様な関心やスキルを反映した洞察的な記事を提供しています。このサイトでは、最新の進歩や技術の世界の将来のビジョンについて、第一手で読むことができます。ブログには、「著者」セクションがあり、ユーザーが個々の投稿者の記事や洞察にアクセスできます。技術的な議論や革新だけでなく、ブログは新しい技術に関連する社会的および哲学的な問題にも取り組み、ユーザーが技術が私たちの日常生活にどのように影響するかをより包括的に理解できるようにしています。本質的に、Google Researchブログは、技術的専門知識、研究のブレークスルー、社会的影響を独自のブレンドで提供し、技術愛好家、研究者、将来の技術を理解し、形作りたい人にとって貴重なリソースとなっています。

ノートのスレッド

Google Researchは、科学的ブレークスルーが共有されたときにその潜在能力を最大限に発揮し、他者がそれを基盤として構築できるようにすると強調しています。彼らは、オープンソースソフトウェアとオープンアクセスデータセットを現代の科学的進歩の重要な推進力と見なしています。オープンサイエンスへのこのコミットメントは、コラボレーションを促進し、イノベーションがグローバルコミュニティに利益をもたらすことを保証します。Googleは、Transformerアーキテクチャのような重要な技術をリリースしており、様々な科学分野に影響を与えています。彼らは世界中の数多くの組織と積極的に提携し、大規模な科学コンソーシアムを支援しています。Googleは、25万人以上の研究者を支援するオープンソースツールとデータセットを開発・維持してきました。これらのリソースは、ゲノミクス、神経科学、地球および大気モデリングの進歩につながっています。ヘルスケア分野では、彼らのオープンウェイトモデルとツールはAI開発を民主化しています。これらのオープンサイエンスの取り組みは、農家向けの天気予報の改善から遺伝子診断の加速まで、現実世界での影響を示しています。Googleはコミュニティ構築への投資を継続しており、このオープンなアプローチがAIを活用した科学を加速すると信じています。
CdXz5zHNQW_UNWZZjyn1i.png
CdXz5zHNQW_uIu6KdxWv3.png
CdXz5zHNQW_9GJ7JNiIsF.png
エージェントは、長期間にわたる現実世界のタスクにおいて、過去の経験から学習することに苦労しています。既存のメモリ手法は、徹底的な行動を記録するか、成功したワークフローのみを記録するかのどちらかで、より高レベルな推論を抽出することに失敗し、失敗を無視しています。ReasoningBankは、エージェントの自己進化のために、成功と失敗の両方の経験から有用な洞察を抽出することで、この問題に対処します。タイトル、説明、そして抽出された推論ステップ、意思決定の根拠、または運用上の洞察を含む構造化されたメモリを作成します。メモリワークフローには、継続的な検索、抽出、統合が含まれ、LLM-as-a-judgeが軌跡を評価します。他の手法とは異なり、ReasoningBankは、予防的な教訓と戦略的なガードレールを学ぶために、積極的に失敗を分析します。メモリ対応のテスト時スケーリング(MaTTS)と統合し、並列および逐次スケーリングを使用して、より豊かな学習シグナルを生成します。MaTTSにより、エージェントは広範囲に探索し、自己対比と反復的な洗練を通じて高品質なメモリを抽出できます。Webブラウジングとソフトウェアエンジニアリングのベンチマークでの評価では、ReasoningBankがエージェントの有効性(成功率の向上)と効率性(タスクステップの削減)の両方を向上させることが示されています。MaTTSを使用すると、パフォーマンスがさらに向上し、メモリとスケーリングの間の強力な相乗効果が示されています。このシステムはまた、単純なルールを時間の経過とともに複雑で予防的なロジック構造へと進化させる、出現的な戦略的成熟度を示しています。ReasoningBankは、LLMベースのエージェントにおける継続的な学習のための強力なフレームワークを提供し、メモリ駆動型の経験スケーリングを重要なフロンティアとして強調しています。
CdXz5zHNQW_SlEGinFE7U.png
コネクトミクスは、高度な画像処理とAIを活用して脳の複雑な配線をマッピングし、詳細な神経ネットワークを作成します。最近の画期的な進歩は、ショウジョウバエの脳の完全なマッピングであり、脳機能の理解に向けた重要な一歩です。しかし、マウスや人間の脳のようなより大きな哺乳類の脳のマッピングは、はるかに大きな課題を提示します。Google Researchは、ニューロンの識別と視覚化を加速するための新しいAI技術を開発しています。彼らは、人間の脳の小さなセクションを含む、さまざまな動物の脳の断片のマッピングに取り組んでいます。合成ニューロン形状モデルである「MoGen」の進歩は、AI再構築を改善します。MoGen強化モデルは、再構築エラーを4.4%削減し、大幅な進歩を遂げました。この改善により、マウスの脳の場合、150年以上の手作業に相当する可能性のある大幅な時間が節約されます。研究チームは、10年以上にわたってコネクトミクス用のいくつかのツールを開発してきました。ニューロンは、その機能にとって重要な、典型的な球形細胞とは異なり、複雑な形状を示します。PATHFINDERのようなAIモデルは、顕微鏡画像から詳細な3Dニューロン形状を作成するために使用されます。人間の専門家がエラーを修正する必要があるため、手動での校正は依然としてプロセスにおけるボトルネックです。MoGenは、PATHFINDERのようなAIモデルのトレーニングデータを増強するための合成ニューロンを生成し、精度を向上させます。MoGenは、AIを使用してランダムな点群を実際のニューロンの形態を模倣したリアルなニューロン形状に変換します。MoGenを使用すると、ニューロン再構築のマージエラーが減少しました。人間の専門家は、実際のニューライトフラグメントとAI生成のニューライトフラグメントを確実に区別できないため、合成データのリアリズムを示しています。合成形状を統合すると、AIモデルのパフォーマンスが大幅に向上します。MoGenを使用した合成データの使用により、再構築エラーが4.4%削減され、脳マッピングの効率が向上しました。この改善は、コネクトミクスの分野における飛躍的な進歩です。この研究は、特定のニューロンタイプを生成し、再構築の初期段階用の合成画像を作成する機会を開きます。MoGenのオープンソースリリースは、神経科学における協力とさらなる進歩を促進します。この作業は、最終的に複雑な脳のマッピングを加速することを目的としており、これは神経学的プロセスと疾患の理解に不可欠です。
この論文は、実世界のデータが乏しい、あるいはアクセスできない場合に不可欠な、合成データを生成することによる特殊AIモデル作成の課題に取り組んでいます。提案されたフレームワークであるSimulaは、合成データ生成を制御を優先するメカニズム設計問題として再構築します。Simulaの「推論優先」アプローチは、階層的な分類法を通じてグローバルな多様性を確保しながら、第一原理からデータセットを構築します。ローカルな多様性は、メタプロンプトを使用して、概念内のバリエーションを確保し、モード崩壊を防ぎます。このフレームワークには、難易度を調整するための複雑化と、正しさを検証するための品質チェックも組み込まれています。Simulaシステムは、サイバーセキュリティや法的推論などの多様なドメインにわたる実験で、単純なベースラインを常に上回っています。評価には、分類法のカバレッジや調整された複雑度スコアリングなどの推論ベースのメトリックが使用されます。この研究結果は、データはモデルの能力に合わせて調整する必要があり、データの質は量よりも重要であることを強調しています。SimulaはGoogleのデータエンジンとして機能し、特殊モデルやユーザー保護機能の実現を可能にします。さらに、Simulaは、現実的な攻撃シナリオの合成や、AIに地図の読み方を教える研究を可能にします。合成データは将来のAIの進歩にとって極めて重要であり、Simulaはデータ生成を制御する可能性を示しています。
CdXz5zHNQW_Mgtb3ddSdy.png
この文章は、AIの進化が進む中で、批判的思考や協調性といった「未来に対応できる」スキルの重要性が高まっていることを論じています。これらのスキルは従来測定が難しいとされてきましたが、将来の成功には不可欠です。AIを活用した研究実験であるVantageは、シミュレーションされた会話を通じてこれらのスキルを評価することを目的としています。Vantageは、エグゼクティブLLM(大規模言語モデル)を用いてAIアバターを操作し、学習者にとって挑戦的なシナリオを作成します。学習者は、シミュレーション環境内でオープンエンドなタスクに取り組み、自身の能力を発揮します。その後、AI評価者が会話を分析し、ルーブリックに基づいてフィードバックとスキルスコアを提供します。ニューヨーク大学との提携を含む研究により、システムの精度が検証されています。研究では、AI評価者のスコアが、協調性と創造性の両方のスキルにおいて、人間の専門家の評価とよく一致することが示されています。Vantageは、学術的な学習と並行して、スキル開発のために教室に導入されることを目指しています。Vantageは、これらの重要なスキルを測定し、促進するためのスケーラブルな方法を提供します。今後の研究では、スキルの転用可能性と文化的な包括性に焦点を当てます。このプロジェクトは、Googleおよび提携組織内のさまざまな貢献者を認識しています。
CdXz5zHNQW_sVjANUGP0h.png
現代の会話型AIは複雑なタスクをこなせますが、長時間の対話では詳細を忘れがちになったり、文脈から外れたりして苦労しています。改善のための実際の人間によるテストは高価で、規模を拡大するのが困難です。LLMを搭載したユーザーシミュレーターは、規模を拡大できる代替手段を提供しますが、しばしば異常な忍耐力や知識を示し、現実味に欠けることがあります。この現実味のギャップに対処するため、ConvApparelという新しいデータセットが開発されました。このデータセットは、アパレルショッピングのドメインにおける人間とAIの会話で構成されており、デュアルエージェントプロトコルを使用して収集されました。参加者は、親切なAIエージェントまたは意図的に役に立たないAIエージェントのいずれかと対話しました。ConvApparelには、満足度やフラストレーションなどのユーザーの状態に関する詳細なターンごとのアノテーションが含まれています。シミュレーターの忠実度を評価するために、3つの柱からなる検証フレームワークが作成されました。このフレームワークには、集団レベルでの統計的整合性、人間らしさスコア、および反実仮想検証が含まれます。反実仮想検証は、シミュレーターが予期しない、分布外のアシスタントの行動にどのように適応するかを評価します。実験では、データ駆動型シミュレーター(ICLとSFT)がプロンプトベースのシミュレーターよりも改善されたものの、現実味のギャップは依然として存在することが示されました。しかし、データ駆動型シミュレーターは、フラストレーションを感じさせる「悪いエージェント」との対話において、現実的に行動をシフトさせることで堅牢性を示しました。ConvApparelデータセットとフレームワークは、信頼性の高い会話型AIの開発に不可欠な、ユーザーシミュレーターの現実味のギャップを測定し、埋めるためのツールを提供します。
CdXz5zHNQW_7h9caQjYCe.png
CdXz5zHNQW_07KfQjSTH7.png
CdXz5zHNQW_thZvecYCZB.png
Googleは、将来の量子コンピュータからの潜在的な脅威に対処するため、2016年からポスト量子暗号の研究に積極的に取り組んでいます。最近の研究では、量子コンピュータが、以前の予想よりも少ないリソースで、暗号通貨で使用されている楕円曲線暗号を破る可能性があることが示唆されています。同社は、暗号通貨コミュニティ内での意識向上を目指し、セキュリティと安定性の向上のための推奨事項を提供しています。Googleは、量子攻撃に抵抗するために、ブロックチェーンをポスト量子暗号に移行することを提唱し、このプロセスの緊急性を強調しています。彼らの研究結果を責任を持って共有するために、Googleは脆弱性の検証のためのゼロ知識証明法を開発し、情報の悪用を防いでいます。研究者たちは、暗号を破るために必要なリソースに関する最新の推定値を共有しています。これらの推定値は、Shorのアルゴリズムに必要な論理量子ビットとToffoliゲートに関するものです。彼らは量子回路を分析し、攻撃に必要な物理量子ビットと実行時間を決定しました。この研究は、ポスト量子暗号の実装を推奨し、暗号通貨の長期的な存続可能性にとっての重要性を強調しています。Googleの情報開示アプローチは、セキュリティニーズと国民の信頼のバランスを取るために、責任ある脆弱性開示に焦点を当てています。彼らのアプローチには、恐怖を軽減し、ゼロ知識証明を使用して主張の安全な検証を可能にすることが含まれています。Googleは、協調的な取り組みを通じて、暗号通貨とブロックチェーン技術の長期的な健全性をサポートすることを目指しています。
機械学習における再現性は、信頼を構築し、累積的な進歩を可能にするために非常に重要です。しかし、人間の正解データは、本質的な意見の不一致のために課題をもたらします。現在のAIベンチマークは、複数の評価者からデータを収集するコストが高いこともあり、この人間のばらつきを見過ごしがちです。ある研究では、多数の項目を少数の評価者で評価することと、少数の項目を多数の評価者で評価することのトレードオフを調査しました。歴史的に、AI評価は「フォレスト」アプローチ、つまり項目ごとに少数の評価者しか使用しない方法を好んできましたが、これは人間の意見のニュアンスを捉えるには不十分な場合が多いです。これに対処するため、固定された予算内でさまざまな規模の項目と評価者の数をストレステストするためのシミュレーターが開発されました。このシミュレーションでは、毒性検出のような主観的なタスクを含む、多様な現実世界のデータセットを使用しました。主な発見は、項目あたり3〜5人の評価者しか使用しないという標準的な慣行に異議を唱え、信頼できる結果を得るには10人以上が必要であることが多いことを示唆しています。最適な戦略はメトリックによって異なり、多数決には幅(より多くの項目)が適しており、意見のばらつきを捉えるには深さ(より多くの評価者)が必要です。効率的な再現性は、選択されたメトリックに対して項目あたりの評価者数の比率を正しく最適化することで、適度な予算で実現可能です。この研究は、「単一の真実」というパラダイムから脱却し、信頼できるAIを構築するためには、人間の意見の不一致を理解することが合意と同じくらい重要であることを認めています。
CdXz5zHNQW_Vioi176lmj.png
CdXz5zHNQW_RVd9LDuv6w.png
このテキストは、量子カオスと量子コンピュータを使用したそのシミュレーションについて論じ、Quantum Echoesという新しいアルゴリズムに焦点を当てています。Quantum Echoesは、時間外順位相関関数(OTOC)を使用して量子力学を測定し、カオス的な挙動を特定します。以前の方法とは異なり、OTOCは実世界の問題に適用可能な検証可能な計算結果を生成します。Willow量子チップでテストされたQuantum Echoesアルゴリズムは、特定の量子回路に対して超クラシカルな領域を実証しています。高次のOTOCは、干渉計に似た複雑な量子干渉効果を明らかにし、量子信号を強化します。この干渉により、理論分析と実験を通じて確認された、量子プロセッサとクラシカルプロセッサの間の計算ギャップが生じます。この研究は、量子干渉をシミュレートする際のクラシカルアルゴリズムの障害を特定し、WillowでのOTOC計算を大幅に効率化しています。実用的な応用として、著者はハミルトニアン学習を提案し、OTOCを使用して物理システムの理解を深めます。核磁気共鳴(NMR)分光法を使用して分子構造をシミュレートする初期実験は、実世界への応用の可能性を示しています。このアプローチはまだクラシカルを超えていないものの、分子構造のモデルを改善するための潜在性を示しています。
CdXz5zHNQW_YzSmOdOIdM.png
差分プライバシーは、分析結果によって機密情報が明らかになりないようにすることで、個人データを保護します。 プライベート合成データセットを生成することは、あらゆる分析手法を民営化する代替手段を提供します。このアプローチでは、Gemini などの生成 AI モデルを使用して、元のデータを表すプライベートな合成データセットを作成します。このモデルは差分プライバシー手法を使用してトレーニングされ、合成データのプライバシーと代表性が確保されます。 この研究は、単純なデータ型の制限を克服して合成フォト アルバムを生成することに焦点を当てています。この方法では、画像データをテキストに変換したり、その逆に変換したりして、アルバム内のテーマの一貫性を維持します。 階層生成は、最初にアルバムを要約し、次に写真にキャプションを付けることで、一貫性とリソース効率が向上します。このテキストベースの中間アプローチには、画像の記述とデータのフィルタリングに利点があります。 この方法はYFCC100Mデータセットでテストされ、同様のアルバムテーマの作成における有効性が検証されました。 評価では、記述の MAUVE スコアとコンテンツのトピック分析を使用して類似性を評価しました。 この研究は、プライベート合成データの利点をより複雑な構造化データに拡張する方法を示しています。これは、データ要件とユーザーのプライバシーのバランスをとるための強力なソリューションを提供できます。開発されたアプローチは、さまざまな重要な業界にわたってプライバシーを保護する AI 開発への道を提供します。
CdXz5zHNQW_zjOUzHBzKl.png
現代の望遠鏡から得られる膨大なデータという課題に、天文学者は直面しています。その多くのアラートは誤検出です。これらのイベントを分類するために使用されるCNNなどの特殊な機械学習モデルは、多くの場合、説明可能性を欠き、「ブラックボックス」として機能します。この研究では、GoogleのマルチモーダルモデルであるGeminiを使用して、天文学的イベントを分類し、説明を提供することを検討しています。研究者たちは、Geminiをトレーニングするために、各調査あたりわずか15個のラベル付きサンプルを使用した少ショット学習を採用しました。Geminiは、3つのデータセット全体で93%の精度を達成し、専門モデルに匹敵する結果を示し、その推論を平易な言葉で説明しました。このモデルは、テキストによる説明と関心スコアを生成し、科学者を支援する透明性の高いツールへと変貌を遂げました。人間の天文学者はGeminiの分類をレビューし、その説明が首尾一貫しており、役立つことを確認しました。重要な発見は、Geminiが自身の不確実性を評価し、潜在的なエラーにフラグを立てる能力を持っていることでした。この機能により、人間が介在するワークフローが可能になり、科学者の注意を集中させることができます。反復的なフィードバックを通じて、MeerLICHTデータセットにおけるモデルの精度が向上しました。このアプローチは、説明可能なAIによって実現される科学的発見への一歩を表しています。この技術は、新しい機器やさまざまな分野の研究に迅速に適応できる可能性があります。構想されている「エージェントアシスタント」は、データを統合し、信頼性を評価し、発見の優先順位を決定することができます。このプロジェクトは、アクセス可能なAIを通じて、研究者が次の偉大な科学的疑問を問いかけることを可能にすることに焦点を当てています。
CdXz5zHNQW_ufwFOBiDg5.png
データセンターは、テトリスのブロックを組み合わせるように、処理ジョブを効率的に割り当てるという複雑な課題に直面しています。仮想マシン(VM)の寿命は不確実であり、割り当てを困難にしています。GoogleのLAVAシステムは、AIを使用してVMの寿命を予測することで、効率を向上させることを目指しています。単一の予測とは異なり、LAVAは「継続的な再予測」を使用し、寿命の推定値を常に更新します。これには、さまざまなVMの動作を考慮するために学習された確率分布が含まれます。このシステムには、3つのアルゴリズムが含まれています。NILASは、寿命予測を組み込んでホストの選択を最適化します。LAVAは、短命なVMを長命なVMと一緒に配置し、誤った予測にも対応します。LARSは、予測された寿命に基づいて、メンテナンス中のVMの中断を最小限に抑えます。このモデルは、低遅延と高い信頼性のために、スケジューラーに直接統合されています。NILASは、空のホストを増やし、リソースの枯渇を減らすなど、大幅な改善を示しています。シミュレーションでは、LAVAとLARSがさらに効率を向上させることが示唆されています。このプロジェクトは、データセンターの最適化への機械学習の成功した統合を示しています。
CdXz5zHNQW_1ePetmBCYf.png
がんは細胞分裂制御における突然変異によって引き起こされる遺伝子疾患である。これらの突然変異を特定することは、がんを効果的に理解し治療するために不可欠である。研究者は、がん細胞における体細胞変異を正確に特定するために、DeepSomaticというマシンラーニングツールを開発した。DeepSomaticは、畳み込みニューラルネットワークを利用し、さまざまなシーケンシングプラットフォームやサンプルタイプで動作する。ツールとそのトレーニングデータセットは、研究コミュニティのより広範な使用のために公開されている。DeepSomaticの開発には、シーケンシングされた乳腺がんと肺がんサンプルからCASTLEという包括的なデータセットを作成することが含まれた。DeepSomaticは、特に挿入と削除を特定する際に、既存の方法を上回る。ツールは、神経膠芽腫や小児白血病などのさまざまながんタイプで学習を一般化する能力を示した。このツールは、既存の治療法をカスタマイズしたり、新しい治療法の開発につながったりする可能性がある。DeepSomaticは、低品質または歴史的ながんサンプルを分析したり、がんサンプルのみで動作したりすることができる。この進歩は、患者に最も効果的な治療法を提供することを目的とした個別化医療の1ステップである。
CdXz5zHNQW_yN3IPg1z3S.png
生成AIの影響は拡大していますが、真の支援を実現するには、個人用デバイス上で動作させる必要があります。課題は、複雑なAIを、電力制約のあるエッジデバイスに組み込み、プライベートな終日利用を可能にすることです。これには、パフォーマンスギャップ、ハードウェアの断片化、ユーザーの信頼性の問題を解決する必要があります。Googleは、プライベートで効率的なエッジAIデバイス向けに設計されたフルスタックプラットフォームであるCoral NPUを発表します。これは、超低消費電力で常時オンのAIを実現するために構築されたAIファーストのハードウェアアーキテクチャを提供し、ウェアラブルデバイスのバッテリー消費を最小限に抑えます。Coral NPUは、効率的なオンデバイス推論のためにMLマトリックスエンジンを優先することで、従来のチップ設計を覆します。このアーキテクチャは、最小限の消費電力でRISC-V準拠のIPブロックを使用し、数ミリワットで512 GOPSを達成します。スカラーコア、ベクトル実行ユニット、マトリックス実行ユニットを備えた、オープンで拡張可能な設計が特徴です。Coral NPUは、最新のコンパイラとMLフレームワークとのシームレスな統合により、統一された開発者エクスペリエンスを提供します。このプラットフォームは、エンコーダーベースのアーキテクチャと小型トランスフォーマーモデルの両方に最適化されており、LLMをウェアラブルデバイスに搭載することを目指しています。ターゲットアプリケーションには、コンテキスト認識、オーディオおよび画像処理、ユーザーインタラクションなどがあり、すべてハードウェアでプライバシーが保護されています。Coral NPUは、Synapticsとのパートナーシップを通じてエコシステムを構築し、インテリジェントデバイスのオープンスタンダードを確立しています。
CdXz5zHNQW_GcRvvAYbP3.png
人工知能と拡張現実の組み合わせは、没入型インテリジェント コンピューティングの新しいパラダイムを解き放つ可能性を秘めていますが、これら 2 つの分野のエコシステムの間には大きなギャップが存在します。このギャップを埋めるために、人間中心の AI と XR のイノベーションを加速するように設計されたクロスプラットフォーム フレームワークである XR Blocks フレームワークが導入されました。XR Blocksは、ユーザー、ワールド、インターフェイス、AI、エージェントなど、AIとXRのコア抽象化のためのプラグアンドプレイコンポーネントを備えたモジュラーアーキテクチャを提供します。このフレームワークは、知覚的な AI および XR アプリのラピッド プロトタイピングを加速することを使命として設計されており、WebXR、threejs、LiteRT、Gemini などのアクセシブルなテクノロジーに基づいて構築されています。XR ブロックのアーキテクチャと API 設計の選択は、シンプルさと読みやすさ、クリエイター エクスペリエンスの優先、完全性よりも実用主義という 3 つの原則によって導かれます。XR Blocks フレームワークは、デスクトップ シミュレーターと Android XR デバイス全体でのリアルタイム AI および XR アプリケーションのプロトタイピングを高速化し、低レベルの実装の内容と方法を分離する、人間中心の高レベルの抽象化レイヤーを提供します。このフレームワークは、XR インタラクション用の交換可能なモジュールで構成される XR ブロックの実装をガイドするために、高レベルの抽象化で構成される新しいリアリティ モデルを提案しています。リアリティモデルは、XR Blocksのモジュラーコアエンジンによって実現され、開発者が知覚と入力パイプライン、コアユーティリティとしてのAI、エクスペリエンスと視覚化ツールキットなどのサブシステムを活用できるようにする高レベルのAPIを提供します。XR Blocks の目標は、クリエイターが高レベルの人間中心のアイデアからインタラクティブなプロトタイプにはるかに迅速に移行できるようにし、宣言型プロンプトを XR Blocks の高レベルの命令に直接変換できる未来を可能にすることです。全体として、XR Blocks は、プログラミング、デザイン、会話の境界がなくなる未来に向けた基礎的な一歩であり、ストーリーをスクリプト化するのと同じくらい流動的に現実をスクリプト化できるようになります。
音声ベースのウェブ検索は一般的ですが、カスケードモデリングアプローチにより精度の問題に直面しています。この方法では、音声からテキストへの変換を最初に行い、トランスクリプションのエラーは関連のない検索結果につながる可能性があります。たとえば、絵画に関するクエリで「scream」(叫ぶ)を「screen」(画面)と誤って解釈すると、完全に間違った情報が得られる可能性があります。これに対処するために、Speech-to-Retrieval(S2R)テクノロジーは、テキストトランスクリプションのステップを完全に省略します。S2Rは、音声クエリを直接解釈し、音声を検索意図にマッピングすることで情報を取得します。このアーキテクチャの変更は、「どのような情報が求められているのか?」という質問に答えることを目指しており、単に「どのような言葉が話されたのか?」という質問に答えるのではなく、実験は、現在のカスケードシステムと理論的に完璧なトランスクリプションの間で大きなパフォーマンスギャップを示しています。デュアルエンコーダーアーキテクチャを使用するS2Rモデルは、オーディオクエリとドキュメントを共有スペースで表現することを学習します。これにより、オーディオから直接ユーザーの意図を推論できます。SVQデータセットでの評価では、S2Rは従来のカスケードASRモデルを大幅に上回ることが示されています。S2Rのパフォーマンスは、理論的に完璧な音声認識で達成可能な最大値に近づいています。Googleは、複数の言語でS2Rを搭載した音声検索を実装しました。また、SVQデータセットをオープンソース化して、この分野でのさらなる研究を促進しています。
CdXz5zHNQW_1v0oZ0TyR7.png
テキストから画像へのモデルは、単一のプロンプトからユーザーの意図を正確に捉えるのに苦労することがよくあります。この研究では、ユーザーとの対話を通じて画像生成を共同で洗練する強化学習エージェントであるPASTAを紹介します。PASTAは、ガイド付きの会話を行うことで、面倒なプロンプトの試行錯誤の必要性をなくします。このプロジェクトでは、人間の評価を通じて、一連のユーザーの好みの新しいデータセットを開発しました。PASTAは、その後、リアルデータとシミュレーションデータの混合でトレーニングされ、優れた結果を達成しました。プライバシーの問題により、十分な実世界のユーザーデータを収集することは困難です。トレーニング戦略は、初期の実際の人間からのフィードバックと大規模なユーザーシミュレーションを組み合わせました。ユーティリティと選択のコンポーネントを持つユーザーモデルが開発され、潜在的なユーザータイプを特定しました。このシミュレーションされたユーザーフィードバックにより、30,000以上のインタラクション軌道が生成されました。PASTAは、価値ベースの強化学習エージェントとして、ユーザー満足度を最大化するために最適なプロンプト拡張を選択します。テストでは、リアルデータとシミュレーションデータを組み合わせたPASTAは、ベースラインモデルを大幅に上回りました。人間の評価者は、PASTAが生成した画像を圧倒的に好み、個々の創造的なビジョンへの適応性を示しました。この研究は、よりインタラクティブで好みに適応する生成AIの未来を強調しています。
CdXz5zHNQW_JczcxIBw5o.png
選択的な画像調整により、ターゲットを絞った強化が可能になり、写真の品質が向上します。以前は、特にタッチコントロールが不正確で処理能力が限られているモバイルデバイスでは、オブジェクトを編集するために分離するのが難しかったです。Snapseed on iOSでは、オブジェクトブラシを導入し、これらの調整を簡単かつ迅速に行えるようになりました。オブジェクトブラシを使用すると、ユーザーは単にオブジェクトにストロークを描くだけで、個別の編集のために選択できます。この直感的な機能は、Interactive Segmenterと呼ばれるデバイス上のAIモデルによって動作します。この高度なモデルは、単純なタップまたはラインのトレース後に、20ミリ秒未満で全体のオブジェクトまたは人物を検出して選択できます。モデルは、選択されたオブジェクトの境界に合わせて、正確なマスクを生成します。Interactive Segmenterのトレーニングには、大きな教師モデルから小さく効率的なエッジモデルへのBig Transferアプローチと知識の蒸留が含まれます。このプロセスにより、高品質のセグメンテーションが保証されながら、リアルタイムのレスポンス性が維持されます。システムは、画像とプロンプトの理解を別々のサブモデルに分離し、セグメンテーションの品質と低遅延をバランスさせます。最後に、画像サイズのマスクのアップサンプリングにより、詳細な調整のための高解像度の編集品質が保証されます。
CdXz5zHNQW_hPOeNkUBEn.png
大規模言語モデルとウェアラブルデバイスのデータは、個人の健康状態を改善する機会を提供しますが、健康に関する問い合わせにおいては個々のニーズが大きく異なります。単一のシステムでは、特定の質問と自由形式の質問の両方に対応することは困難です。この課題に対処するため、パーソナライズされたエビデンスに基づいたガイダンスのためにマルチモーダルデータを推論するPersonal Health Agent(PHA)という研究フレームワークが作成されました。PHAは、データサイエンス、ドメイン専門知識、健康コーチングのための専門サブエージェントを備えたマルチエージェントアーキテクチャを使用しています。ウェアラブルデータ、アンケート、血液検査を含む研究からの実際のデータが評価に使用されました。このシステムは、数千の注釈とかなりの専門家の労力を伴う10のベンチマークタスク全体で、広範な自動および人間の評価を受けました。この研究は、健康エージェントの包括的な評価を表し、アクセス可能なパーソナルヘルスエージェントの基盤を築きます。この研究は概念的なフレームワークを概説するものであり、現在の公開されている製品やサービスの説明ではありません。アプローチには、ユーザー中心のデザイン、1,300件以上の健康に関する問い合わせの分析、および主要なサポート領域を特定するためのユーザー調査が含まれていました。システムの評価は、個々のエージェントと統合されたPHAのベンチマークに焦点を当て、自動および人間の両方の評価を使用しました。
CdXz5zHNQW_cj4k4bmeKc.png
大規模言語モデル(LLM)は、競技プログラミングや数学において優れた能力を発揮しますが、絶対的な正しさという厳格な要件のため、真の数学的発見においては限定的な成功しか収めていませんでした。これまでのAIが生成した数学的証明は、人間の介入なしには検証可能な正しさを欠いていることがしばしばありました。これに対応するため、研究者たちはLLMを用いてコードを反復的に進化させ、新しい数学的構造を発見するシステムであるAlphaEvolveを開発しました。このアプローチは、MAX-4-CUT問題の近似不可能性の上限を改善し、ランダムグラフの性質に対する平均ケースの困難さの上限を絞り込むことで、計算複雑性理論の進歩につながりました。この方法は、「リフティング」を活用しており、進化させた有限構造を既存の証明フレームワークに統合することで、普遍的な定理を導き出します。具体的には、AlphaEvolveはMAX-4-CUTのための複雑なガジェットを発見し、0.987という新しい近似限界を確立しました。また、このシステムは大きなカットを持つ極端なラマヌジャングラフを発見し、平均ケースの困難さに対する下限を大幅に改善しました。この研究の重要な側面は、発見された構造の検証可能な正しさであり、これは検証において10,000倍の高速化を達成することで実現されました。AIは貴重な協力者であることが証明されていますが、検証プロセスは、将来のAI支援による数学的発見における重要なボトルネックであり続けています。
CdXz5zHNQW_XJGYeGdkyo.png
オンラインの健康情報をナビゲートすることは、しばしば圧倒的なものであり、個々の人々にとってのパーソナライゼーションが欠けている。大量の言語モデル(LLM)を用いると、これを改善できるが、現在のAIツールは受動的な質問回答者として機能している。医師のような専門家は、カスタマイズされたガイダンスを提供するために、明確化する質問を積極的に行う。 この研究では、Geminiをベースに設計された初期段階のプロトタイプである「Wayfinding AI」を紹介する。ユーザー研究を通じて、このアプローチは、基準となるAIよりもはるかに役立っており、関連性があり、カスタマイズされていることがわかった。参加者はしばしば自分の健康に関する懸念を明確に表現するのに苦労しており、関連する詳細を収集するために積極的な質問が重要である。Wayfinding AIは、3つの原則を使用している。積極的な会話のガイダンス、各ターンのベストエフォート回答、および透明な推論である。 そのインターフェイスは、会話の要素と詳細な情報を分離して、質問が見逃されないようにしている。ユーザー研究により、参加者は、役立たさ、関連性、目標の理解、カスタマイズの点でWayfinding AIを好んだことがわかった。Wayfinding AIとの会話は、より長く、詳細なユーザー入力を引き出すことに重点が置かれていた。この人間中心の会話アプローチは、将来のヘルスケアアプリケーションにおけるAIの可能性を示唆している。
CdXz5zHNQW_ibR0J0rRzk.png
この論文は、アフリカの医療分野における大規模言語モデル(LLM)を評価するための新しいベンチマークデータセットであるAfriMed-QAを紹介しています。このデータセットは、16のアフリカ諸国と60の医学部から収集された、英語の医療に関する質問と回答をまとめたものです。AfriMed-QAには、多肢選択問題、短答問題、および様々な医療専門分野にわたる消費者からの質問が含まれています。著者らは様々なLLMを評価し、より大規模なモデルがこのデータセットでより良いパフォーマンスを発揮することを発見しました。LLMの回答に対する人間による評価では、特に消費者からの質問に対して有望な結果が得られました。モデルの比較と進捗状況の追跡を容易にするために、リーダーボードが作成されました。チームは、多言語およびマルチモーダルデータを含むようにデータセットを拡張する予定です。この研究では、地理的表現など、いくつかの限界が認められており、文化的に関連性の高い評価の必要性が強調されています。この研究は、多様な医療環境でのLLMの利用に適応させることの重要性を強調しています。AfriMed-QAは、アフリカおよびそれ以外の地域における医療のための公平なAIツールの開発を促進することを目指しています。このプロジェクトは、ACL 2025でBest Social Impact Paper Awardを受賞しました。AfriMed-QAデータセットと評価コードは、オープンに利用可能です。
CdXz5zHNQW_4Ufi6eam5o.png
時系列予測はビジネスにとって極めて重要ですが、従来の手法は遅く、専門知識を必要とします。ゼロショット基礎モデルであるTimesFMは、タスク固有の訓練なしで予測を行うことでこれを改善しました。しかし、少数の例を取り入れる少ショット学習は、精度をさらに向上させる可能性があります。これに対する標準的な手法である教師あり微調整は、複雑さを再導入します。新しいコンテキスト内微調整(ICF)アプローチは、継続的な事前学習を用いることでTimesFMを少ショット学習器に変換します。これにより、モデルは、ユーザーによる追加のトレーニングなしに、推論時の例から学習することを学習します。このモデル、TimesFM-ICFは、トランスフォーマー層を持つパッチされたデコーダアーキテクチャを使用します。少ショット学習を可能にするために、「共通のセパレータトークン」が導入され、予測履歴とコンテキスト内の例を区別します。これにより、データの混乱を防ぎ、モデルが過去のパターンから学習することを可能にします。その後、モデルはこれらのセパレータを含む新しいデータセットで事前学習されます。TimesFM-ICFは、関連する履歴データを入力例として使用して、未見のデータセットで評価されました。ベースとなるTimesFMと比較して、6.8%の精度向上を示しました。重要なのは、TimesFM-ICFは、追加の複雑なトレーニングを必要とせずに、教師あり微調整のパフォーマンスに匹敵するということです。このシステムはまた、コンテキスト内の例が多いほど、推論時間とのトレードオフはあるものの、より良い予測につながることを示しています。この革新は、よりアクセスしやすく強力な予測を約束し、企業が膨大な機械学習プロジェクトなしに適応可能なモデルを展開することを可能にします。今後の取り組みとしては、最も関連性の高いコンテキスト内例を自動的に選択することを目指しています。
CdXz5zHNQW_kfwkschkYN.png
CdXz5zHNQW_nyUHb1SxTq.png
「Sensible Agent」は、積極的なARエージェントとの、邪魔にならないインタラクションを実現するために設計されたフレームワークです。マルチモーダルセンシングを用いてユーザーのニーズを予測し、状況に応じた適切な支援を提供することで、音声コマンドベースのシステムの限界に対応します。このシステムは2つのモジュールで構成されています。1つはどのような支援が必要かを判断し、もう1つは社会的状況を考慮してどのようにそれを届けるかを決定します。プロトタイプは、コンテキストパーサー、積極的なクエリジェネレーター、インタラクションモジュール、レスポンスジェネレーターを使用し、これらはすべてAndroid XRとWebXR上で動作します。ユーザー調査では、様々なシナリオにおいて、Sensible Agentと音声制御のベースラインを比較しました。その結果、Sensible Agentは認知負荷を大幅に軽減し、ユーザーの選好度を高めることが明らかになりました。インタラクション時間はわずかに長くなりましたが、Sensible Agentへの選好度が高いことから、このトレードオフは許容範囲内であると考えられます。積極的な行動は、ユーザーとエージェントの関係を再構築し、協調的な体験を育みます。今後の方向性としては、パーソナライゼーション、デバイス間のスケーリング、スマートホームやロボティクスへの応用などが挙げられます。研究チームは、人間とエージェントのインタラクションを改善するために、マルチモーダルセンシングとリアルタイム適応を統合しました。著者は、Googleの複数のチームからの協力、フィードバック、貢献に感謝の意を表しています。
大規模言語モデルは、事実性に関してしばしば問題を抱え、誤った情報を「ハルシネーション」することがあります。この問題は、偏った、または不完全な学習データなど、さまざまな要因から生じます。事実性、つまり真実性の高いコンテンツを生成する能力は、信頼性の高いLLMアプリケーションにとって不可欠です。新しいデコーディング手法であるSLEDは、外部知識ベースを使用せずに事実性を向上させることを目指しています。SLEDは、最終層だけでなく、LLMのすべての層からの情報を活用して予測を洗練させます。より正確な出力を得るために、初期の層を使用してトークン確率を計算し、それぞれに重みを割り当てます。複数のタスクとベンチマークでの実験により、SLEDがさまざまなLLMで事実精度を向上させることが示されています。たとえば、数学的な誤りを修正したり、多肢選択問題で正しい答えを選択したりできます。SLEDは簡単に実装でき、さまざまなLLMと互換性があり、他の手法と組み合わせることもできます。主なトレードオフは、他の代替手段と比較して、推論時間のわずかな増加です。SLEDは、広範なファインチューニングを必要とせずに、最先端の精度向上を示しています。今後の研究では、SLEDを教師ありファインチューニングと組み合わせたり、他のタスクに適用したりすることが考えられます。
CdXz5zHNQW_pbrRdL3gvF.png
教科書は、画一的なアプローチによって制限されており、パーソナライゼーションと多様な形式が欠けています。Googleは、より効果的で魅力的な学習体験を生み出すために、生成AI「Learn Your Way」を開発しています。「Learn Your Way」は、教育教材を変革し、多様なコンテンツ表現と、各生徒に合わせたパーソナライズされた例を提供することを目指しています。このシステムは、学習科学に基づいた、マルチモーダル表現とパーソナライゼーションという2つの主要な柱を利用しています。中核的な技術的側面としては、GoogleのLearnLMモデルをGemini 2.5 Proと統合して使用しています。このプロセスでは、生徒の学年や興味に合わせてコンテンツを調整し、一般的な例を置き換えることで、コンテンツをパーソナライズします。「Learn Your Way」は、没入型のテキスト、クイズ、ナレーション付きスライド、オーディオレッスン、マインドマップなど、個々のニーズに合わせて調整された機能を提供します。教育専門家が変革された教材を評価した結果、さまざまな基準に基づいて、コンテンツが非常に効果的であることが判明しました。有効性に関する研究では、「Learn Your Way」を使用した生徒は、標準的なデジタルリーダーを使用した生徒よりも、記憶テストで高いスコアを獲得しました。この研究ではまた、「Learn Your Way」に対するユーザー満足度も高かったことが示されました。Googleの研究は、AIがより効果的でエンパワーメントのある学習体験を生み出すことができることを示しています。このプロジェクトの将来は、個々の学習者のニーズに合わせてコンテンツを継続的に適応させることに重点を置いています。
CdXz5zHNQW_60GrmG7HIg.png
AIが私たちの生活にますます統合されるにつれて、プライバシーを中核に据えたAIの構築は重要なフロンティアとなっています。差分プライバシー(DP)は、記憶を防ぐために調整されたノイズを追加することで、数学的に堅牢なソリューションを提供します。しかし、LLMにDPを適用すると、従来のスケーリング法則を変化させるトレードオフが生じ、トレーニングの安定性が低下し、コストが増加します。新しい研究では、これらの複雑さを正確にモデル化する法則が確立され、計算・プライバシー・ユーティリティのトレードオフの全体像が提供されています。この研究に基づき、差分プライバシーでスクラッチからトレーニングされた最大のオープンモデル(10億パラメータ)であるVaultGemmaが導入されました。この研究は、DPトレーニングにおけるモデルサイズ、バッチサイズ、イテレーションの増加の利点を定量化し、主にノイズバッチ比に焦点を当てました。重要な発見は、DPなしの場合よりも、より大きなバッチサイズでより小さなモデルをトレーニングすべきであるということです。これらのスケーリング法則と高度なトレーニングアルゴリズムを使用してVaultGemmaが構築され、プライベートAIにおける大きな進歩を表しています。VaultGemmaは、トレーニングデータの検出可能な記憶がないことを示しており、DPトレーニングの有効性を検証しています。DPトレーニングモデルと非DPトレーニングモデルの間にはユーティリティのギャップが依然として存在しますが、この研究はそれを体系的に狭めることを目指しています。
CdXz5zHNQW_JPtqyvsr4p.png
特定の性質を持つ治療用DNAおよびRNA配列を設計することは、膨大な可能性のために医学における大きな課題です。AIは、この広大な探索空間をナビゲートするのに役立ちますが、設計アルゴリズムを効果的に評価することは困難でした。この問題に対処するため、研究者たちは、核酸設計アルゴリズムを比較するための標準化されたベンチマークであるNucleoBenchを導入しました。このベンチマークには、16の生物学的課題にわたる40万件以上の実験が含まれていました。この研究を通じて、彼らはハイブリッド設計アルゴリズムであるAdaBeamを開発しました。AdaBeamは、ほとんどのタスクで既存の方法よりも優れており、大規模なAIモデルとのスケーラビリティも向上しています。典型的な計算設計プロセスには、データ生成、モデルトレーニング、候補配列生成、および検証が含まれます。NucleoBenchは、候補配列生成ステップの改善に焦点を当てています。既存のベンチマークは、最新のAIモデル情報を活用していない古いアルゴリズムを使用することがよくあります。NucleoBenchには、包括的な比較のために、勾配フリーアルゴリズムと勾配ベースアルゴリズムの両方が含まれています。AdaBeamは、既存のアルゴリズムの有効な要素を組み合わせて、優れたパフォーマンスと効率性を実現しています。これは、最高のパフォーマンスを得るために、勾配だけに頼ることが必ずしも必要ではないことを示しています。AdaBeamの進歩には、効率性の向上、よりスマートな探索、およびメモリ使用量の削減が含まれます。
CdXz5zHNQW_B9cu5RlI3n.png
大規模言語モデル(LLM)は強力ですが、計算コストが高く、推論が遅く、費用がかかります。この問題に対処するため、カスケードは、より小さく、より高速なモデルを使用して、単純なクエリを処理し、より大きく、より高性能なLLMに頼る前に処理します。このアプローチは、複雑なタスクにのみ高価なモデルを使用することで、コスト削減を目指しています。一方、投機的デコーディングは、より小さなモデルが将来のトークンをドラフトし、それをより大きなモデルが並行して検証することで、LLMの推論を加速します。これにより、最終的な出力を変更することなく生成が高速化されますが、メモリ使用量が増加する可能性があります。この論文では、「投機的カスケード」という、カスケードと投機的デコーディングの両方の利点を組み合わせた新しい手法を紹介しています。投機的カスケードは、より小さなモデルのドラフトが、より大きなモデルの出力と完全に一致しなくても受け入れられるようにする、柔軟な「延期ルール」を採用しています。このハイブリッドアプローチは、どちらの技術単独よりも優れたコストと品質のトレードオフを提供します。さまざまな言語タスクでの実験により、投機的カスケードがより高い速度向上とより優れた品質指標を達成することが実証されました。延期ルールの柔軟性により、信頼度、費用対効果分析、またはトークン固有のチェックに基づいてカスタマイズできます。この革新により、LLMアプリケーションは、計算コストと出力品質のバランスを最適化することで、より高速かつスマートになります。
CdXz5zHNQW_2WaKDny7yL.png
科学研究は、仮説評価のためのカスタムソフトウェア作成に時間がかかることがボトルネックとなることがよくあります。本論文では、Geminiで構築されたAIシステムを紹介します。このシステムは、この目的のために専門家レベルの経験的ソフトウェアを生成します。システムは、定義された問題と評価方法を入力として受け取り、新しい概念を提案してコードとして実装します。次に、ツリー検索戦略を使用してパフォーマンスを最適化するために、数千のコードバリアントを反復処理します。システムは、ゲノミクス、公衆衛生、地理空間分析、神経科学、時系列予測、数値解析の6つの学際的なベンチマークでテストされ、専門家レベルの結果を達成しました。経験的ソフトウェアは、定義済みの品質スコアを最大化するように設計されており、スコアリング可能なタスクは、このタイプのソフトウェアで対処可能なタスクです。AIシステムは、研究アイデアを生成し、実行可能なコードとして実装し、LLMを使用してスコアを改善するためにコードを洗練します。このプロセスにより、探索時間が数ヶ月から数時間または数日に大幅に短縮され、検証可能で解釈可能で再現可能なソリューションが生成されます。AIシステムは、困難な問題に対する新しいソリューションを生成し、COVID-19の入院予測や単一細胞RNAシーケンシングデータの統合を含むいくつかのベンチマークで既存の専門家開発手法を上回ることで、その習熟度を示しました。この進歩は、研究者が多数の潜在的なソリューションを迅速に探索できるようにすることで、科学的発見を加速することを約束します。
CdXz5zHNQW_6tSVn14npx.png
CdXz5zHNQW_wf799DxNvS.png
大規模言語モデル(LLM)は、複雑なヘルスケアデータを分析して個別化された回答を生成することができます。ただし、これらのLLMの回答を評価することは、正確性と安全性のために非常に重要です。しかし、現在の人間の専門家による評価は、高コストでスケーラブルではありません。この論文では、ヘルスケア用LLMを評価するための新しいフレームワークを紹介します。このフレームワークでは、適応的な正確なブーリアン評価基準(Adaptive Precise Boolean rubrics)を使用して、複雑な質問を細かいYes/No基準に分解し、一貫性と効率性を向上させます。このフレームワークは、代謝ヘルスケアでテストされ、従来のLikertスケールよりも大幅に高い評価者間の信頼性を示しました。適応的な正確なブーリアン評価基準は、評価時間を50%以上短縮することも示しました。この方法は、Likertスケールよりも回答の品質の変化に敏感でした。ゼロショット分類器を使用した評価基準のフィルタリングプロセスの自動化も、同等の評価の改善を維持しました。このフレームワークは、実際の参加者データを変更したときにLLMの回答の品質低下を信頼性高く検出することができました。提案されたアプローチは、専門分野でのLLMの評価のためのスケーラブルでストリームライン化された方法を提供します。
CdXz5zHNQW_fzb8IapfxF.png
YouTube Shortsは、モバイルデバイスで高度な生成AIを適用することで、クリエイターに魔法のようなリアルタイム効果を提供することを目的としています。これは、大きなAIモデルを小さく、タスク固有のものに凝縮して、スマートフォンでフレームごとに効率的に実行できるようにすることで実現されます。このプロセスは、多様で高品質の顔データセットをキュレーションすることから始まり、人口統計の面で包括性を確保します。重要なテクニックは、知識の蒸留であり、強力な「先生」モデルと軽量な「生徒」モデルを使用します。先生は、StyleGAN2やImagenなどのモデルを使用して複雑な生成を実行し、生徒はUNetとMobileNetを使用してモバイルに最適化されています。トレーニングには、先生から画像ペアを生成し、特定の損失関数とニューラルアーキテクチャ検索を使用して生徒をトレーニングすることが含まれます。重要な課題は、ユーザーのアイデンティティを保持することであり、これはピボタルチューニングインバージョン(PTI)というテクニックで対応されています。PTIは、ジェネレーターを特定の顔にファインチューンし、潜在的な空間で編集を可能にしながら、類似性を変更せずにします。オンプレミスソリューションは、GoogleのMediaPipeフレームワークを使用して、顔検出、整列、生徒モデルのシームレスな統合を実現します。パイプラインはリアルタイムパフォーマンスを実現し、ユーザーにスムーズな体験を提供するために、1フレームあたり33ミリ秒未満で動作します。このテクノロジーは、2023年以降、多数の人気のあるYouTube Shorts機能を動かしており、創造的な可能性を高めています。チームは、さらに革新を続け、新しいモデルを統合し、待ち時間を短縮して、より幅広いデバイスにアクセスできるようにすることを目指しています。
CdXz5zHNQW_8wndZAykAn.gif
「大規模なユーザーベースのデータセットは、AIの進歩、サービス改善、およびパーソナライゼーションのために不可欠です。ただし、これらのデータセットを共有するとプライバシーのリスクが生じます。差分プライベート(DP)パーティション選択は、個々の貢献を保護するためにノイズを追加し、安全で共通のデータサブセットを特定します。これは、ボキャブラリー抽出やプライベートデータ分析のようなタスクにとって非常に重要です。大規模なデータセットを処理するには、スピードだけでなく、巨大なスケールに対応するために並列アルゴリズムが必要です。我々の論文「Scalable Private Partition Selection via Adaptive Weighting」では、DPパーティション選択のための効率的な並列アルゴリズムを提案しています。このアルゴリズムは、数百億アイテムにスケールアップし、以前の能力を大幅に超えています。目標は、ユーザーのプライバシーを保持しながら、人気のあるデータを優先して選択されたアイテムを最大化することです。標準的なアプローチは、ウェイティング、ノイズの追加、および閾値に基づくアイテムのフィルタリングです。我々の新しい適応ウェイティングアルゴリズムMADは、人気のあるアイテムからプライバシーの閾値以下にあるアイテムに「余剰ウェイト」を再配分します。これにより、プライバシーを損なうことなく、より多くのアイテムを含めることができます。実験結果では、2回のイテレーションのMADアルゴリズムが、同じプライバシーの保証で他の方法よりも多くのアイテムを出力することを示しています。我々は、コミュニティーのイノベーションを促進するために、アルゴリズムをオープンソース化しています。」
CdXz5zHNQW_KfEjWw8vMV.png
大規模な差分プライベート合成テキストデータの生成は、プライバシー、計算、ユーティリティのトレードオフに直面しています。一般的だが計算コストの高い方法には、プライベートデータで大規模言語モデルをファインチューニングすることが含まれます。Aug-PEのような既存のAPIベースのアプローチは、手動のプロンプトに依存しており、プライベート情報の利用に苦労しています。提案されているCTCLフレームワークは、大規模なLLMのファインチューニングや、広範なプロンプトエンジニアリングを必要とせずに、プライバシーを保護する合成データを生成します。これは、リソースが制約された環境に適した、軽量な1億4千万パラメータモデルを利用しています。CTCLは、プライベートデータの分布に合わせるために、トピック情報に基づいて生成を条件付けます。Aug-PEとは異なり、CTCLは追加のプライバシーコストなしで無制限の合成データサンプルを生成できます。実験によると、CTCLはベースラインを上回り、特に強力なプライバシー保証の下で、有用な情報を捕捉する効果を示しています。アブレーションスタディは、CTCLのパフォーマンスとスケーラビリティにおける事前トレーニングとキーワードベースの条件付けの重要性を確認しています。CTCLのコアアイデアは、より優れた実際のアプリケーションのために、より大きなモデルに拡張できます。
CdXz5zHNQW_Z0zBIj4T6I.png
私たちの研究では、医師による医療診断の監督を目的としたAIシステムであるguardrailed-AMIE(g-AMIE)を紹介します。g-AMIEは、対話を通じて患者情報を収集し、要約、鑑別診断、および管理計画を生成できます。重要なのは、個別の医学的アドバイスを提供できないように制約されていることです。監督する医師は、患者とのコミュニケーションの前に、臨床医コクピットインターフェースを介してこの情報をレビューおよび編集します。ランダム化仮想OSCE研究では、同様の制約下で操作される看護師、および医師助手/アソシエイトのパフォーマンスと比較してg-AMIEのパフォーマンスを評価しました。結果として、g-AMIEの診断パフォーマンスと管理計画は、監督者および独立した評価者から好まれました。患者役者も、g-AMIEが作成した患者メッセージを好みました。この研究は、g-AMIEの安全ガードレールの遵守と、質の高い病歴聴取およびSOAPノートを強調しました。g-AMIEはいくつかの指標で対照群を上回りましたが、ワークフローはAIのために特別に設計されており、臨床医のトレーニングを完全に代表するものではありませんでした。制限事項としては、評価者間の意見の不一致の可能性や、監督の認知的負荷が挙げられます。今後の作業では、冗長性の最適化と実際の環境の探索に焦点を当てます。このフレームワークは、医療診断における人間とAIの協力に向けた重要な一歩を表しています。
CdXz5zHNQW_SB8tCM3LeP.jpeg
不適切な広告コンテンツを分類することは、コンテキストを理解する能力がある大規模言語モデル(LLM)にとって適したタスクですが、LLMをそのようなタスクに微調整するには、高品質で大規模なトレーニングデータが必要であり、これをキュレーションすることは費用がかかり、時間がかかる作業です。安全性ポリシーが変更される概念ドリフトにより、頻繁な再トレーニングが必要になり、コストが増加します。これに対処するために、新しいアクティブラーニングキュレーションプロセスは、トレーニングデータの量を大幅に削減しながら、モデルと人間の専門家の整合性を向上させることができます。このプロセスは、注釈付けのために最も貴重な例を特定し、データ要件を大幅に削減します。実験では、トレーニングデータを10万から500未満の例に削減し、モデル整合性を最大65%向上させることが示されました。キュレーションプロセスは、ゼロショットLLMによるデータのラベル付けから始まり、混同可能な例を特定するためにクラスタリングが行われます。これらの情報豊富で多様な例は、人間の専門家にラベル付けのために送信されます。専門家のラベルは、モデルを評価および微調整するために使用されます。プロセスは、基準となるラベルがしばしば曖昧であるため、整合性を測定するためにCohenのカッパを使用します。大規模なクラウドソーシングデータセットで微調整されたベースラインモデルは、キュレーションされたモデルに比べて効果が低かったです。新しい方法は、慎重にキュレーションされたより少ない情報豊富な例が、劇的に少ないデータで大幅なパフォーマンスの向上につながることを実証しています。このアプローチは、コンテンツが急速に進化する広告の安全性などのドメインにとって特に有益です。
CdXz5zHNQW_GhJRxo2Thj.png
インスリン抵抗性に基づく第2型糖尿病は、世界中で数百万の人々に影響を与えており、しかし、現在の侵襲的またはアクセス困難な検査方法により、早期発見が妨げられている。研究者たちは、ウェアラブルデバイスと一般的な血液検査のデータを組み合わせて、インスリン抵抗性を予測する機械学習モデルの開発に成功した。WEAR-ME研究では、休息心拍数、歩数、睡眠パターン、空腹血糖、脂質パネルなどのデータを使用して、これらのモデルをトレーニングした。これらのデータソースを組み合わせることで、単一のソースを使用する場合よりも予測の正確さが大幅に向上した。特に、高リスク個人のような肥満や座りっぱなしの生活様式を持つ人々におけるインスリン抵抗性の同定において、モデルは特に優れた性能を示した。検証コホートでは、これらの予測モデルの汎化性が確認された。ユーザーの理解を向上させるために、先進の言語モデルを使用して、インスリン抵抗性リテラシー・アンド・アンダースタンディング・エージェントというAIエージェントを開発した。このエージェントは、代謝健康に関する個別化された、コンテキスト化された回答を提供し、内分泌医師たちをその包括性と信頼性に感銘させた。この研究は、容易にアクセス可能なデータを使用して、第2型糖尿病のリスクの早期スクリーニングの可能性を高めることを示している。このアプローチは、疾病の予防や遅延を目的とした適時なライフスタイル介入を促すことができる。ただし、これらのモデルは、情報提供や研究目的でのみ使用されるものであり、医療機器として承認されていない。
CdXz5zHNQW_8K7J57DBaq.png
DNA塩基にコード化されたゲノムを解読することは、遺伝、疾患、進化の理解に不可欠です。DNAシーケンサーはこれらの塩基を読み取りますが、塩基対の微小なサイズのため、大規模な精度を達成することは困難です。ゲノムアセンブリのエラーは遺伝子同定を妨げ、疾患を引き起こす変異の見落としにつながる可能性があるため、ほぼ完璧な参照ゲノムを作成することが重要です。ゲノムアセンブリでは、エラーを繰り返し修正するために、同じゲノムを繰り返しシーケンシングします。しかし、ヒトゲノムの30億個のヌクレオチドは、たとえわずかなエラー率であっても大幅に蓄積し、有用性を制限します。これらの課題に対処するため、ゲノムアセンブリ手法であるDeepPolisherが開発され、精度が向上しました。最近の論文で説明されているこのパイプラインは、アセンブリエラーを50%、特に遺伝子同定に大きな影響を与えるインデルエラーを70%削減します。さまざまなシーケンシング技術が存在し、Illuminaの方法は信号を改善しますが、リード長を制限します。当初はエラーが発生しやすかったロングリードシーケンシング技術は、Pacific BiosciencesとGoogleの共同作業によって改善され、エラー率が低下しました。DeepPolisherは、DeepConsensusから適応され、高度に特徴付けられたヒトゲノムでトレーニングされたTransformerアーキテクチャを利用しています。この手法は、ゲノムアセンブリに残ったエラーを特定し、修正します。DeepPolisherは、遺伝子アノテーションの問題を防ぐために不可欠なインデルエラーを大幅に削減します。このツールは、Qスコアが平均Q66.7からQ70.1に増加したことで、ゲノムアセンブリの品質を向上させています。Human Pangenome Reference Consortiumの2回目のデータリリースはDeepPolisherの恩恵を受け、エラーを削減し、多様な祖先における遺伝性疾患のより正確な診断を可能にしました。DeepPolisherをオープンソースにすることで、これらの進歩を科学コミュニティ全体に広く普及させることを目指しています。
CdXz5zHNQW_4NEnms7GRh.png
機械学習の台頭は複雑なエンジニアリング課題を生み出し、これらのタスクを自動化するために大規模言語モデル(LLM)をエージェントとして利用する研究を促しています。これらのLLMエージェントは、ML問題をコード最適化の課題として概念化し、実行可能なコードを生成します。しかし、現在のエージェントは、馴染みのある方法に依存することが多く、特定のコードコンポーネントの深い探索に苦労しています。この問題に対処するため、Web検索とターゲットを絞ったコードブロックの改良を統合した新しいMLエンジニアリングエージェントであるMLE-STARが開発されました。MLE-STARは、まずWebで関連モデルを検索し、次にアブレーションスタディによって特定された特定のコードブロックを、LLMによって生成された計画に基づいて反復的に改良します。このエージェントは、複数の候補ソリューションをアンサンブルするための新しい戦略も採用しています。さらに、MLE-STARには、デバッグ、データ漏洩のチェック、および適切なデータ使用の確保のためのモジュールが含まれています。MLE-Bench-Liteでの評価により、MLE-STARが既存の代替手段よりも大幅に優れたパフォーマンスを発揮し、Kaggleコンペティションの63%でメダルを獲得したことが示されました。この成功は、より最近のモデルの使用、集中した改良、および堅牢なチェックメカニズムによるものです。MLE-STARの自動化されたアプローチは、ML採用の敷居を下げ、この分野の進歩に適応することを目指しています。MLE-STARのオープンソースコードベースが現在利用可能です。
CdXz5zHNQW_pvpMGEctOp.png
大規模言語モデル(LLM)は、人間が好むデータから学習することで、役立つテキストを生成できるように強化されています。新しいアプローチでは、運用データを使用して、パフォーマンスメトリックを予測するための報酬モデルをトレーニングすることで、これを拡張します。従来の回帰では、複雑で構造化されていないデータを扱うのが難しく、手間のかかる特徴量エンジニアリングが必要になります。本論文では、テキストからテキストへの回帰を実行する回帰言語モデル(RLM)を紹介します。これは、テキスト入力を直接処理して、数値予測を文字列として出力します。この方法では、特徴量エンジニアリングを回避し、新しいタスクへの数ショット適応を可能にします。RLMは、結果の確率分布を捉え、予測の不確実性を定量化できます。このアプローチは、Googleの大規模コンピューティングインフラストラクチャであるBorgにおけるリソース効率の予測に適用されました。RLMは、Million Instructions Per Second per Google Compute Unit(MIPS per GCU)を効果的に予測しました。この新しいパラダイムは、生のテキストから数値結果を予測するためのスケーラブルで効率的な方法を提供し、普遍的なシステムシミュレーターや高度な報酬メカニズムを可能にします。
CdXz5zHNQW_HUK47yosTR.png
ウェアラブルデバイスは膨大な量の個人健康データを収集しますが、このデータの背景にある文脈を理解することは課題でした。このギャップは、パーソナライズされた健康インサイトの可能性を十分に引き出すことを妨げています。センサーデータに説明的なテキストを付与する手動アノテーションは、コストと時間の面で非現実的です。この課題に対応するため、センサー言語基盤モデルのファミリーであるSensorLMが開発されました。SensorLMは、103,000人以上の個人から収集された前例のない5970万時間ものマルチモーダルセンサーデータで事前学習されています。これにより、ウェアラブルセンサーデータを解釈し、人間が読める説明を生成することが可能になります。新しい階層的なパイプラインは、説明的なキャプションを自動生成し、これまでで最大のセンサー言語データセットを作成します。SensorLMは、ゼロショットセンサー理解、センサーとテキストの整合性、センサーキャプション生成などの機能を提供します。アクティビティ認識のようなタスクで最先端のパフォーマンスを示し、首尾一貫した事実に基づいた正確なキャプションを生成することに優れています。モデルのパフォーマンスは、より多くのデータ、より大きなモデルサイズ、および計算量の増加とともに一貫して向上します。SensorLMは、個人健康データを理解可能で実用的なものにする上で重要な進歩であり、将来のデジタルヘルスコーチやウェルネスアプリケーションへの道を開きます。
CdXz5zHNQW_6KwERMjREC.png
「GoogleのGboardは、タイピング予測や校正機能において、大型言語モデル(LLM)と小型言語モデル(LM)を活用しています。これらのモデルのトレーニングには、高品質のデータが必要ですが、ユーザーデータを使用するとプライバシーに関する懸念が生じます。そのため、Gboardは、公的データに基づいてトレーニングされたLLMによって生成された合成データを使用して、プライベート情報を明かさないままユーザーインタラクションを模倣しています。この合成データを使用して、モデルのプリトレーニングを行い、フェデレーテッドラーニングや差分プライバシーのようなプライバシー保護技術を使用して、モデルのパフォーマンスを向上させています。このアプローチにより、プライバシーのリスクを最小化しながら、モデルの正確さを大幅に向上させることができ、Gboardの機能を改善しています。プロセスでは、LLMにモバイルタイピングデータを生成させるプロンプトを与え、生成されたデータを使用して小型モデルのプリトレーニングを行います。また、「buttress module」と呼ばれる小型モデルは、差分プライバシーを使用してユーザーデータをトレーニングし、ドメイン適応を改善するために合成データをさらに改良しています。この複合アプローチにより、小型モデルと大型モデルの両方を改善し、Gboardの機能を向上させつつ、ユーザーのプライバシーを守ることができます。システムには、データ最小化や匿名化などの多くのプライバシーサーフガードが組み込まれています。現在、プライバシー保護の合成データの生成と適用に関する研究が継続されており、モデルのパフォーマンスとユーザー体験の向上を目指しています。」
CdXz5zHNQW_Pu7NQvCxnG.png
ウェアラブルデバイスは膨大な量の健康データを生成しますが、このデータにラベルを付けるのは高価です。自己教師あり学習(SSL)は、ラベルなしデータを利用して、データの基盤となる構造を学習できます。現在のSSL手法は、ウェアラブルセンサーのストリームで一般的に発生する、様々な理由による不完全なデータに対処するのに苦労しています。「LSM-2」は、不完全なウェアラブルセンサーデータから直接学習するSSLフレームワークであるAdaptive and Inherited Masking(AIM)を導入します。AIMはデュアルマスキングアプローチを使用し、自然に発生するトークンと人工的にマスクされたトークンを同等に扱います。AIMを使用してLarge Sensor Model(LSM-2)が開発され、以前のLSM-1モデルが改善されました。LSM-2は、60,000人の参加者から得られた4,000万時間に及ぶウェアラブルデータで事前学習されました。活動認識、高血圧分類、データ再構築などのタスクで評価されました。LSM-2は、分類、再構築、健康指標の予測においてLSM-1を上回ります。AIMにより、LSM-2は補完なしでデータの欠損を処理できるようになり、パフォーマンスと堅牢性が向上しました。LSM-2は、ユーザー、データ量、モデルサイズ全体でのスケーラビリティも向上しています。
CdXz5zHNQW_UBgwlKqhZf.jpeg