"La séquençage de l'ARN messager à l'échelle cellulaire unique (scRNA-seq) nous permet de mesurer l'expression des gènes au niveau individuel des cellules, mais les données sont massives et difficiles à interpréter. Pour surmonter cela, les chercheurs ont développé Cell2Sentence-Scale (C2S-Scale), une famille de modèles de langage grandeur nature qui peuvent "lire" et "écrire" des données biologiques au niveau cellulaire unique. C2S-Scale transforme le profil d'expression des gènes de chaque cellule en une séquence de texte, appelée "phrase cellulaire", ce qui permet d'appliquer des modèles de langage naturel aux données scRNA-seq. Cela rend les données à l'échelle cellulaire plus accessibles, interprétables et flexibles. La famille de modèles C2S-Scale est entraînée sur plus de 1 milliard de jetons issus de jeux de données transcriptomiques réels, de métadonnées biologiques et de littérature scientifique. Les modèles peuvent répondre à des requêtes d'entrée diverses pour des tâches de prédiction et de génération, permettant une analyse conversationnelle à l'échelle cellulaire unique. C2S-Scale peut répondre à des questions sur les données à l'échelle cellulaire unique, générer des résumés biologiques des données scRNA-seq et prédire comment une cellule répondra à une perturbation. Les performances de C2S-Scale s'améliorent de manière prévisible lorsque la taille du modèle augmente, suivant des lois d'échelle claires. La capacité de simuler le comportement cellulaire in silico accélère la découverte de médicaments, la médecine personnalisée et la priorisation des expériences. Les modèles et ressources Cell2Sentence sont maintenant disponibles sur des plateformes telles que HuggingFace et GitHub, permettant aux chercheurs d'explorer et d'expérimenter avec leurs propres données à l'échelle cellulaire unique."
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
Create attached notes ...
