AIとMLの日本語ニュース ノート

AIとMLの日本語ニュース

"「AI & ML News "は、人工知能と機械学習に焦点を当てた技術ノート集です。AIとMLの最新動向に関するニュースやレビューを集めています。 このフィードは、新しいアルゴリズム、アプリケーション、研究を含む幅広いトピックをカバーしています。業界の動向や、AIやMLが経済の様々な分野に与える影響についても取り上げています。 ニューラル・ネットワーク、ディープラーニング、自然言語処理などの分野に触れています。ヘルスケア、金融、その他の産業におけるAIの応用例も検討されている。 本書は、開発者やデータアナリストといった専門家だけでなく、AI技術の発展に関心のあるすべての人にとっても興味深い内容となっている。AIの倫理やデータ・プライバシーの問題にも言及している。 このフィードでは、大企業から有望な新興企業まで、AI市場の主要プレーヤーを紹介しています。AIシステム開発のためのツールやプラットフォームに関する情報も紹介している。 「AI & ML News」は、人工知能と機械学習の発展に関する客観的で最新の情報を提供することを目的としています。

ノートのスレッド

CdXz5zHNQW_IT3IvF71Jb.jpeg
このブログでは、検索テクノロジーがテキストを超えて進歩し、マルチモーダル埋め込みにより、画像やビデオが検索機能に組み込まれる様子について説明しています。従来の企業向け検索エンジンはテキストベースのクエリ用に設計されていたため、視覚コンテンツを扱う能力が制限されていました。自然言語処理 (NLP) とマルチモーダル埋め込みを統合することで、今やクロスモーダル意味検索を実行できるようになり、ユーザーはテキストと同じように画像やビデオを検索できるようになりました。このブログでは、Google Cloud Storage をメディアストレージに使用し、BigQuery をインデックス作成に使用して、テキストから画像、テキストからビデオ、および複合検索を実行できるシステムを示します。マルチモーダル埋め込みモデルは、メディアファイルの埋め込みを生成するために使用され、効率的な類似度検索が可能になります。このアーキテクチャはシームレスなクロスモーダル検索体験をサポートし、コンテンツの発見をより直感的なものにします。ユーザーのテキスト入力が埋め込みに変換され、ベクトル検索が実行されて、クエリが格納されたメディアデータと照合されます。最後に、最も関連性の高い画像またはビデオの URI と類似度スコアを使用して、結果がユーザーに表示されます。このアプローチにより検索エクスペリエンスが向上し、視覚コンテンツを検索する新しい可能性が開かれます。
CdXz5zHNQW_1XAuQPcNYE.jpeg
AI搭載のREADMEジェネレーターは、開発者が自身のGitHubプロジェクトに対して、高品質なREADMEファイルを作成できるように設計された新しいツールです。このツールは、基本的なプロジェクト情報を使用して、構造化されたプロフェッショナルなREADMEファイルを生成することで、ドキュメント作成プロセスを簡素化します。GitHub風のマークダウンでスマートフォーマットを提供し、さまざまな種類のプロジェクトに適した各種テンプレートを提供します。また、プロジェクトの性質に基づいた関連セクションを提案し、明確かつ魅力的な言葉遣いに改善します。このツールを使用することで、開発者は時間を節約し、プロジェクトの可視性を向上させ、ドキュメントが明確、簡潔、かつ一貫性があることを確保できます。全く新しいREADMEファイルを作成したり、現在のコンテンツを分析して改善点を提案したりして、既存のファイルを洗練したりすることがサポートされています。ユーザーは、GitHubリポジトリにコミットする前に、生成されたコンテンツを確認し、プロジェクトのニーズに合わせてカスタマイズできるため、他の人がプロジェクトを理解して貢献することが容易になります。全体として、コラボレーションを強化し、プロジェクトをよりプロフェッショナルに披露する、効果的な方法です。
CdXz5zHNQW_x8MllfWBsD.jpeg
機械学習の世界に飛び込むことを熱望していますが、数学と統計に少し圧倒されていますか? 心配しないでください。あなただけではありません! 多くの志望データサイエンティストにとって、これらのトピックは気が遠くなるものです。良い知らせは、堅実な基盤を築くのに役立つ無料のオンラインコースが数多くあることです。Coursera:アンドリュー・ンによる機械学習: この伝説的なコースは、機械学習の概念を紹介するだけでなく、強力な数学的基礎も提供します。 インペリアルカレッジロンドンによる機械学習の数学: 数学的コンセプトに深く飛び込みたいのであれば、このコースは素晴らしい選択肢です。edX:マイクロソフトによる機械学習の基礎: このコースは、機械学習の基礎と必要な数学的知識を組み合わせたバランスの取れたアプローチを提供します。 コロンビア大学によるデータサイエンスの基礎: 統計と機械学習を含むデータサイエンスに関するより広い視点がこのコースで提供されています。 MIT OpenCourseWare:アルゴリズム入門: 機械学習に関するものではありませんが、このコースはアルゴリズムとデータ構造の強力な基盤を築き、機械学習の概念を理解するために不可欠です。 確率と確率変数: 確率論を深く掘り下げることは、多くの機械学習アルゴリズムを理解するために不可欠です。カーンアカデミー:線形代数: 機械学習の基本的なトピックである線形代数を学ぶための包括的なリソース。 微積分: もう 1 つの不可欠な数学的コンセプトである微積分は、カーンアカデミーで詳しく扱われています。 統計と確率: 統計と確率の確固たる理解は、データ分析と機械学習にとって不可欠です。覚えておいてください: これらのコースは貴重なリソースを提供しますが、一貫した実践と実践的な経験がこれらのトピックをマスターするための鍵です。基本から始めて、自信がついたら徐々に複雑さを増やしてください。献身と適切なリソースがあれば、熟練した機械学習プラクティショナーになる道が開かれます。学習を楽しんでください!
2024 年にはヨーロッパの AI セクターはベンチャーキャピタル資金でかなりの回復力を見せ、8 月時点で 1,400 万ドルを超える 14 件の投資が行われました。これは、資金の確保が困難だったスタートアップの全体的な困難な状況とは対照的です。とりわけ、AI は AI テクノロジーの開発に関連する高いコストと人材の激しい競争によって推進され、投資の強固な領域として浮上しました。今年ヨーロッパで行われた主要な AI 取引における主なハイライトは次のとおりです。- Wayve: ケンブリッジに拠点を置くこのスタートアップは、自律運転技術を強化するために 10 億 5,000 万ドルを調達し、ヨーロッパの AI 企業にとって単一の最大の資金調達ラウンドとなりました。Wayve は、車両自体の生産ではなく、AI 技術を自動車メーカーに販売することに焦点を当てています。 - Mistral: 大規模言語モデルの構築における著名なプレーヤーである Mistral は、4 億 3,100 万ドルと 6 億 5,000 万ドルという 2 回の重要な資金調達ラウンドを通じて 10 億ドル以上を調達しました。同社はオープンソーステクノロジーを重視しており、企業や開発者にアピールしています。 - Helsing: 防衛アプリケーション用の AI に焦点を当てているこのドイツのスタートアップは、4 億 8,400 万ドルを確保しました。その技術は、特にヨーロッパの地政学的緊張の高まりを背景に、防衛システムと能力の強化を目的としています。 - Poolside: ソフトウェア開発者をターゲットにした Poolside は、ソフトウェア開発プロセスを効率化する AI ツールを開発するために 4 億ドルを調達しました。 - DeepL: AI による翻訳サービスで知られる DeepL は、3 億 2,000 万ドルを調達し、約 10 万人のビジネス顧客を抱える B2B 市場に焦点を当てました。 - H: 旧 Holistic AI は、シードラウンドとして 2 億 2,000 万ドルを調達し、タスク自動化と意思決定のための AI エージェントの開発を目指しています。 - Flo Health: ロンドンに拠点を置く女性の健康アプリは、2 億ドルを調達し、10 億ドル以上の評価額を達成した初の純粋なデジタルヘルスアプリになりました。 - Pigment: エンタープライズリソースプランニングソリューションを提供するこのパリのスタートアップは、1 億 4,500 万ドルを調達し、AI を製品に統合しました。全体として、ヨーロッパの AI 業界は、大幅な資金調達ラウンドと基本的なテクノロジーへの焦点が特徴であり、パリなどの都市が AI 開発の主要な拠点として浮上しています。
CdXz5zHNQW_1dHclHl6ue.jpeg
概要 サブスタックのMLエンジニアとして、最先端の機械学習ソリューションの開発と実装で重要な役割を担います。ソフトウェアエンジニアやデータサイエンティストと緊密に連携する、ダイナミックなチームの一員となり、機械学習モデルをコードベースに取り入れ、製品にシームレスに統合します。この役割は、テクノロジースタックの将来を形作り、大きな影響を与えるエキサイティングな機会です。サブスタックの報酬パッケージには、市場競争力のある給与、フルタイムのすべての役割に対するエクイティ、優れた福利厚生が含まれます。この役割の現金報酬給与の範囲は、185,000~240,000ドルです。最終的な提示額は、候補者の経験や専門知識などの複数の要因によって決定され、上記の金額と異なる場合があります。責任 - MLの採用と、MLツールとテクニックの統合に関するサブスタックの考えをリードする - クロスファンクションチームと協力して、製品ロードマップと一致する機械学習の機会を特定して定義する - Pythonと一般的なMLフレームワークを使用して、機械学習モデルを開発、トレーニング、デプロイする - 市販のMLツールとシステムを活用して、サブスタックがML機能を製品とワークフローに取り入れる能力を加速させる - 機械学習モデルとパイプラインを、メインのJavaScript / TypeScriptアプリケーションに統合する - パフォーマンス、スケーラビリティ、効率のために機械学習モデルを最適化して微調整する - データの前処理、特徴量エンジニアリング、モデルトレーニング用のデータパイプラインを設計して実装する - 統合された製品エクスペリエンスと内部ツールをデプロイして所有する要件 - データとMLシステムに関する7年以上の関連経験 - Pythonでの優れたプログラミングスキルと、機械学習で一般的に使用されるPythonライブラリ(例:トランスフォーマーとTensorflow)の経験 - 機械学習アルゴリズム、ディープラーニング、統計モデリングの確かな理解 - 独立して自律的です。当社はマイクロマネジメントするにはあまりにも小さく、同社の全員が自分の仕事を所有し、リーダーになることを期待しています。 - 運用システムに取り組む際には、自分自身と他人を高い基準に保ちます。 - チームに独自の経験とバックグラウンドをもたらしつつ、多様な利害関係者との協力を楽しんでくださいあると望ましい - コードベースに機械学習モデルをシームレスに統合するためのNode.jsとJavaScriptの熟練度 - クラウドプラットフォーム(AWSまたはModalなど)に精通している - 大規模なコンシューマー向けウェブアプリケーションの経験サブスタックは、均等な雇用機会の雇用主です。すべての応募者は、人種、肌の色、宗教、性別(妊娠、性的指向、性別同一性またはトランスジェンダーのステータスを含む)、年齢、国籍、退役軍人または障害のステータスに関係なく、雇用に関して考慮されます。私たちは、独立した表現を可能にし、クリエイター向けのより優れたビジネスモデルを構築することに情熱を注ぐ人々を求めています。広告モデルから外れた場合にメディア、コミュニティ、コンテンツがどのように変化するかを見てみたい、そして貢献するためのスキルと経験をお持ちでしたら、ぜひお会いしたいと思います。
CdXz5zHNQW_EE7h46XUKP.jpeg
DBSCAN はポイントの密度に基づいてデータ内のクラスターを特定するクラスタリングアルゴリズムであり、ノイズの処理と外れ値の検出に役立ちます。k-means とは異なり、DBSCAN はクラスターの数を事前に指定する必要がありません。これにより、多くの状況で有利になります。このアルゴリズムでは、コアポイントを形成するために必要な半径 (epsilon) と最小近傍の数 (N) という 2 つの重要なパラメータを使用します。コアポイントは近くの近傍と共にクラスターを形成し、これらの基準を満たさないポイントはノイズまたは外れ値としてラベル付けされます。DBSCAN の実装は、ポイント間の距離を計算するための距離関数 (通常はユークリッド距離) から始まります。アルゴリズムはすべてのポイントを反復処理し、互いに近接に基づいてそれらをクラスターにグループ化します。十分な近傍を持たないポイントはノイズとして分類されます。DBSCAN の実装後、同じクラスターを生成する必要がある sklearn ライブラリからの結果と比較することで、パフォーマンスを確認できます。イプシロンと N の値を微調整することが重要です。これらはクラスタリング結果に大きく影響します。この記事では、クラスタリングプロセスを視覚化する合成データの例を示しています。
CdXz5zHNQW_2T09iCSRkR.png
Google DeepMindの従業員約200名が、同社に軍関連組織との契約を解除するよう求める書簡に署名しました。タイム誌が明らかにした5月16日付の書簡は、AI技術がデジタル兵器として使用されることのエシカルな影響について、組織内で懸念が高まっていることを強調しています。署名者はDeepMindの従業員の約5%を占め、同社のイスラエル軍とのプロジェクト・ニンバスにおけるAIやクラウドコンピューティングサービスの提供に関する契約を指摘しています。Googleの従業員は、AIが戦争で利用されることを懸念している。従業員らは、このような関与は、「全体的な被害」を引き起こしたり、兵器や監視に貢献したりすることを禁止する同社のAI原則に違反していると主張しています。書簡では特定の地政学的紛争については言及されていませんが、イスラエル軍の軍事作戦が監視と標的化にAIを使用していると主張する報告書へのリンクが貼られています。DeepMindは歴史的に軍事目的で技術を使用することに対してポリシーを持っていましたが、2014年に買収されて以来、Googleのより幅広い業務と密接に関わるようになり、軍事契約とのつながりが強まっています。従業員によるDeepMindの技術を軍事クライアントが使用していることを確認し、新しい統治機関を設立するという要求を含めた書簡の要求にもかかわらず、Googleは決定的な行動をとっていません。TechRadar Proは同社にスタッフからの社内書簡についてコメントを求めましたが、すぐに返答はありませんでした。書簡の署名者の一人は、同社のプロジェクト・ニンバスに関する声明が「特に具体性に欠けており、それが実際に何を意味するのか、私たちは皆、見当がつかない」と述べ、TIMEへの苦情に対するGoogleの対応に不満を表明しました。
CdXz5zHNQW_dufSnWtrrX.jpeg
自動化はCRMシステムの根幹をなすものであり、販売、マーケティング、カスタマーサービスのチームが繰り返し発生するタスクを効率化することに役立っています。しかし、AIの統合によりCRMの機能は大幅に向上し、リード管理、予測分析、カスタマーサービスなどのプロセスに革命をもたらしました。SalesforceのEinsteinなどのCRMのAIツールは、大量のデータを分析してリードのコンバージョンを予測し、セールスチームが有望な見込み客に焦点を当てることを可能にします。AI主導のチャットボットは、迅速かつパーソナライズされた対応を提供し、必要に応じて複雑なケースを人間のエージェントに転送することにより、カスタマーサービスを向上させます。さらに、AIは顧客の行動を分析し、詳細なバイヤーペルソナを作成することにより、企業が顧客をより深く理解するのに役立ちます。また、AIは履歴とリアルタイムデータを分析して販売実績を予測し、トレンドを特定できるため、販売予測も向上しました。AIによる自動化を強化することにより、CRMシステムは現在、より状況に応じた効率的なタスク自動化を提供し、最終的に生産性を向上させています。こうした進歩にもかかわらず、CRMでAIを確実に実装するためには人間の専門知識が依然として不可欠であり、スキルの向上と新しい才能の採用が求められます。
CdXz5zHNQW_GEQ4HPEs5i.jpeg
スティーブン・ウルフラムの記事は、ミニマル モデルを通して機械学習の内部の仕組みを探り、AI の複雑さを簡略化することを目指しています。彼は、ニューラルネットワークが生物学的システムに触発されているものの、数学的な抽象化を使用して動作するという議論から始めます。ウルフラムは、単に結果に焦点を当てるのではなく、機械学習における根本的なプロセスを理解することの重要性を強調しています。彼は、セルオートマを単純なルールからどのように複雑さが生じ得るかを示すための単純なモデルとして使用しています。機械学習をこれらのシステムと比較することにより、ウルフラムは、基礎となるメカニズムを理解することが、AI がどのように機能するかについての洞察を深めることができると示唆しています。また、彼はトレーニングモデルにおけるランダム性と決定論の役割にも触れ、一見予測不可能な行動は、シンプルで決定論的なルールにさかのぼることができるものであると主張しています。ウルフラムは、機械学習の真の性質をよりよく理解するために、新しいパラダイムが必要であることを強調しています。また、現在の AI モデルは理解よりもデータに大きく依存しているという限界についても議論しています。最後に、彼は機械学習を支配する中核的な原則を明らかにするために、ミニマルモデルをさらに探求する必要があるとし、より堅牢で解釈可能な AI システムにつながる可能性があることを述べています。
CdXz5zHNQW_LL4HTs3TLM.jpeg
Meta社の「SAM2(セグメント・エニシング2)」は、1,100万枚の画像と110億枚のマスクという膨大なデータセットでトレーニングされた汎用的な画像セグメンテーションモデルであり、幅広いセグメンテーションタスクで高い効果を発揮します。SAM2は一般的なオブジェクトをうまくセグメント化できますが、まれなタスクやドメイン固有のタスクでは性能が低下する可能性があり、特定のデータセットの性能を向上させるためにファインチューニングが必要となります。このチュートリアルでは、わずか60行のコードでカスタムタスクのためにSAM2をファインチューニングする方法を概説します。このプロセスには、SAM2のダウンロード、データセットの準備、画像の読み込み、マスクのセグメント化、マスク内のランダムなポイントの選択を行うための簡単なスクリプトの使用が含まれます。ファインチューニングは、マスクデコーダーと(オプションで)プロンプトエンコーダーのトレーニングに重点を置き、画像エンコーダーはフリーズします。このチュートリアルでは、オプティマイザーの設定、混合精度トレーニングの使用、モデルを改良するためのカスタム損失関数を使用したトレーニングループの実行についても説明します。最後のステップには、ファインチューニングされたモデルを保存して、新しい画像で推論に使用し、専門的なセグメンテーションタスクにおけるSAM2の実用的なアプリケーションを示すことが含まれます。
CdXz5zHNQW_dLgS4NZnT9.jpeg
## AI画像生成ツールが急速に進化する中、複数のプラットフォームが大幅なアップデートを導入しています。Ideogramは最近、大幅な改良と新機能を搭載したIdeogram 2.0をリリースしました。これには、iOSアプリと、ユーザーが生成した数十億枚を超える画像を検索できる膨大なライブラリが含まれています。このバージョンでは、ユーザーはAIが生成する画像をより細かく制御できるようになり、「リアル」や「デザイン」など、さまざまなスタイルが用意されています。「リアル」は写真のようにリアルな画像を生成し、「デザイン」は画像内のテキストの精度に優れています。その他にも、「3D」「アニメ」「ジェネラル」など、さまざまなクリエイティブなニーズに対応するスタイルが用意されています。Ideogram 2.0では、「マジックプロンプト」と「ディスクライブ」ツールも強化され、より詳細なプロンプトの拡張と画像の説明生成が可能になりました。今回のリリースにはベータ版のAPIも含まれており、DALL-EやFluxが他のプラットフォームに組み込まれているのと同様に、他のアプリとの統合が可能になります。これらのアップデートにより、Ideogram 2.0は、OpenAIのDALL-Eなどの大手と競合することを目指しており、読みやすいテキストを備えた高品質で写真のようにリアルな画像を提供します。
CdXz5zHNQW_DBzXHXPWBL.png
AI21 Labsは、Google CloudのVertex AI Model Gardenでパブリックプレビューとして利用可能な、Jamba 1.5モデルファミリーを導入しました。このファミリーには2つのモデルが含まれます。カスタマーサポートやテキスト生成などの効率的で軽量なタスク向けに設計されたJamba 1.5 Mini、および財務分析などの高度な推論タスクに優れたJamba 1.5 Largeです。どちらのモデルも256Kのコンテキストウィンドウを備え、Mamba-Transformerアーキテクチャを使用しており、効率的な処理と、関数呼び出し、検索拡張生成(RAG)最適化、構造化JSON出力などの高度な開発者向け機能を提供します。これらのモデルは、カスタマーサービス、財務分析、コンテンツ制作などの領域における企業向けアプリケーションに合わせて調整されています。たとえば、長いドキュメントを要約したり、財務データから洞察を抽出し、高品質のコンテンツを生成したりできます。Jamba 1.5モデルは、Google Cloudのオープンで柔軟なAIエコシステムへの幅広いコミットメントの一部であり、企業ユーザーは自分たちのニーズに最も適したソリューションを構築する機能を提供します。Vertex AIで利用可能なこれらのモデルは、150を超えるモデルを含むプラットフォームの製品を拡大し、ユーザーはプロジェクトに最適なツールを選択できます。Vertex AIは、これらのモデルの簡単な実験、カスタマイズ、展開をサポートし、最適化されたパフォーマンス、コスト管理、安全な展開を可能にします。開発者は、シンプルなAPI呼び出しを介してこれらのモデルにアクセスし、堅牢なセキュリティおよびコンプライアンス機能を提供するGoogle Cloudのマネージドインフラストラクチャを使用して展開できます。Jamba 1.5モデルの利用開始は簡単で、ユーザーはVertex AI Model GardenまたはGoogle Cloud Marketplaceから直接モデルを選択して有効にすることができます。Google Cloudは、AI21 Labsなどのパートナーと協力して最先端のAI機能を提供し続け、開発者がAIテクノロジーの最新の進歩にアクセスできるようにしています。
CdXz5zHNQW_kfrguXguxE.jpeg
この記事では、複雑なオフィス作業、特に文書抽出の自動化における生成AI(GenAI)の進化と影響について論じています。著者は LinkedIn で機械学習エンジニアとして職務を経験したことを踏まえ、職務内容をさまざまな言語や地域で正確に解釈することは困難な作業だったことを振り返っています。GPT-4 などの大規模言語モデル(LLM)の出現により、履歴書の理解と標準化などの困難な作業は容易になりました。GenAI の真の可能性は文書からインサイトを抽出するオフィスワークの自動化にあります。この作業は世界 GDP のかなりの部分を占めています。例としては、経費管理、医療請求の裁定、融資審査などが挙げられます。LLM は一部のコンテキストで幻覚を起こすことが知られていますが、特定の入力文書に基づいてテキストを推論することに優れています。LLM を使用した文書抽出を成功させる鍵は、クリーンなテキスト変換と堅牢なスキーマ設計であり、一貫した正確な出力を確保します。著者は、複雑な書式や注釈を処理する適切なテキスト抽出の重要性を強調しています。著者らは、ドキュメントの理解における課題に対処するために設計された SaaS ソリューション、Docupanda.io の構築における経験を共有しています。これはクリーンなテキスト表現を生成し、定義済みのスキーマに準拠します。記事では、これらのスキーマの定義が重要であり、AI が反復的なフィードバックを通じてそれらを洗練するのに役立つ可能性があることを強調しています。最後に、著者は文書処理の正規化のための LLM の使用を検討することを推奨し、GenAI の真の「キラーアプリ」は文書ベースのオフィスワークを変換する能力であると示唆しています。
CdXz5zHNQW_gZEuCrmBfg.jpeg
CdXz5zHNQW_m2AdynPdCB.jpeg
CdXz5zHNQW_PeXO5fR47l.png
CdXz5zHNQW_pC0zeBYUXD.jpeg
CdXz5zHNQW_Vp8Ehbwzqe.png
Google Cloudは、Cloud RunでNVIDIA L4 GPUサポートをプレビューで導入しました。これにより、開発者は、GoogleのGemmaやMetaのLlamaのようなオープンな生成AIモデルを使用するアプリケーションで、リアルタイムAI推論を簡単に行えるようになりました。このアップグレードは、カスタムチャットボット、文書要約、画像認識、3Dレンダリングなどのタスクに使用される軽量モデルや、計算リソースが多く必要なアプリケーションにとって特に有益です。この新機能で、開発者は、AI推論プロセスを高速化するNVIDIA GPUsを使用して、低遅延と効率的なスケーリングを提供し、Cloud Runのインフラストラクチャーが基盤の複雑さを管理します。早期の採用者、L’OrealやChaptrは、GPUの統合がスタートアップ時間が短く、スケーラビリティが高く、使いやすいと評価しています。GPUサポートは現在、US-central1リージョンで利用可能で、今年までにヨーロッパとアジアにも拡大予定です。Cloud Run上でNVIDIA GPUsを使用したサービスをデプロイするには、開発者は、コマンドラインやGoogle Cloudコンソールを介してGPUの要件を指定できます。さらに、Cloud Runは今、GPUアタッチメントを持つ関数もサポートし、イベント駆動のAI推論タスクを簡単化します。