"La secuenciación de ARN de célula única (scRNA-seq) nos permite medir la expresión génica de células individuales, pero los datos son masivos y difíciles de interpretar. Para superar esto, los investigadores han desarrollado Cell2Sentence-Scale (C2S-Scale), una familia de modelos de lenguaje grande que pueden "leer" y "escribir" datos biológicos a nivel de célula única. C2S-Scale transforma el perfil de expresión génica de cada célula en una secuencia de texto, llamada "oración de célula", lo que hace posible aplicar modelos de lenguaje natural a datos de scRNA-seq. Esto hace que los datos de célula única sean más accesibles, interpretables y flexibles. La familia de modelos C2S-Scale se entrena con más de 1 billón de tokens de conjuntos de datos transcriptómicos del mundo real, metadatos biológicos y literatura científica. Los modelos pueden responder a consultas de entrada diversas para tareas de predicción y generación, lo que permite análisis de célula única conversacional. C2S-Scale puede responder a preguntas sobre datos de célula única, generar resúmenes biológicos de datos de scRNA-seq y predecir cómo una célula responderá a una perturbación. El rendimiento de C2S-Scale mejora de manera predecible a medida que aumenta el tamaño del modelo, siguiendo leyes de escalabilidad claras. La capacidad de simular el comportamiento celular in silico acelera el descubrimiento de fármacos, la medicina personalizada y la priorización de experimentos. Los modelos y recursos de Cell2Sentence ahora están disponibles en plataformas como HuggingFace y GitHub, lo que permite a los investigadores explorar y experimentar con sus propios datos de célula única."
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
Create attached notes ...
