RSS Google人工智能博客

教授机器生物学语言:扩展大型语言模型用于下一代单细胞分析

单细胞 RNA 序列测序(scRNA-seq)允许我们测量个体细胞的基因表达,但数据庞大且难以解释。为了克服这一点,研究人员开发了 Cell2Sentence-Scale(C2S-Scale),一系列大型语言模型,可以在单细胞水平上“读取”和“写入”生物数据。C2S-Scale 将每个细胞的基因表达-profile 转换为文本序列,称为“细胞句子”,使得可以将自然语言模型应用于 scRNA-seq 数据。这使得单细胞数据更加可访问、可解释和灵活。C2S-Scale 模型家族是在超过 10 亿个 token 的真实世界转录组数据集、生物元数据和科学文献上训练的。模型可以响应多样化的输入查询,以进行预测和生成任务,实现对话式单细胞分析。C2S-Scale 可以回答关于单细胞数据的问题,生成 scRNA-seq 数据的生物摘要,并预测细胞对扰动的响应。C2S-Scale 的性能随着模型大小的增加而可预测地改善,遵循明确的缩放法则。模拟细胞行为的能力加速了药物发现、个性化medicine 和实验优先级的确定。Cell2Sentence 模型和资源现在已经在 HuggingFace 和 GitHub 等平台上提供,允许研究人员探索和实验自己的单细胞数据。
favicon
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
文章配图: 教授机器生物学语言:扩展大型语言模型用于下一代单细胞分析