「シングルセルRNAシーケンシング(scRNA-seq)は、個々の細胞の遺伝子発現を測定することを可能にするが、そのデータは巨大で解釈が困難である。そこで、研究者たちは、Cell2Sentence-Scale(C2S-Scale)という大規模言語モデルのファミリーを開発した。これにより、生物学的データをシングルセルレベルで「読む」と「書く」ことができる。C2S-Scaleは、各細胞の遺伝子発現プロファイルをテキストのシーケンス、「セルセンテンス」と呼ばれる形式に変換することで、scRNA-seqデータに自然言語モデルの適用を可能にする。これにより、シングルセルデータがよりアクセスしやすく、解釈しやすく、柔軟になる。C2S-Scaleモデルのファミリーは、実際のトランスクリプトミクスデータセット、生物学的メタデータ、および科学文献から1億トークン以上を学習している。これらのモデルは、予測タスクと生成タスクの両方に対応する入力クエリーに応答できるため、会話型シングルセル解析を可能にする。C2S-Scaleは、シングルセルデータに関する質問に答え、scRNA-seqデータの生物学的サマリーを生成し、細胞が摂動に対してどのように応答するかを予測することができる。C2S-Scaleの性能は、モデルサイズが増加するにつれて予測可能なスケーリング法則に従って改善する。シルコでの細胞挙動のシミュレーションは、薬剤発見、個別化医療、および実験の優先順位付けを加速する。Cell2Sentenceモデルのリソースは、HuggingFaceやGitHubなどのプラットフォームで既に利用可能であり、研究者たちは自分のシングルセルデータを探索し、実験することができる。」
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
