RSS Google KI-Blog

Maschinen die Sprache der Biologie lehren: Skalierung großer Sprachmodelle für die nächste Generation der Einzelzellanalyse

"Einzell-RNA-Sequenzierung (scRNA-seq) ermöglicht es uns, die Genexpression einzelner Zellen zu messen, aber die Daten sind massiv und schwierig zu interpretieren. Um dies zu überwinden, haben Forscher Cell2Sentence-Scale (C2S-Scale) entwickelt, eine Familie von großen Sprachmodellen, die biologische Daten auf Einzelzell-Ebene "lesen" und "schreiben" können. C2S-Scale transformiert das Genexpressionsprofil jeder Zelle in eine Textsequenz, genannt "Zellensatz", wodurch es möglich wird, natürliche Sprachmodelle auf scRNA-seq-Daten anzuwenden. Dies macht Einzelzell-Daten zugänglicher, interpretierbarer und flexibler. Die C2S-Scale-Modellfamilie wird auf über 1 Milliarde Token aus realen transkriptomischen Datensätzen, biologischen Metadaten und wissenschaftlicher Literatur trainiert. Die Modelle können auf diverse Eingabeabfragen für Vorhersage- und Generierungsaufgaben reagieren, was eine konversationelle Einzelzell-Analyse ermöglicht. C2S-Scale kann Fragen zu Einzelzell-Daten beantworten, biologische Zusammenfassungen von scRNA-seq-Daten generieren und vorhersagen, wie eine Zelle auf eine Störung reagieren wird. Die Leistung von C2S-Scale verbessert sich vorhersagbar mit zunehmender Modellgröße, folgend klaren Skalierungsgesetzen. Die Fähigkeit, zelluläres Verhalten in silico zu simulieren, beschleunigt die Arzneimittelentwicklung, die personalisierte Medizin und die Priorisierung von Experimenten. Die Cell2Sentence-Modelle und Ressourcen sind jetzt auf Plattformen wie HuggingFace und GitHub verfügbar, damit Forscher ihre eigenen Einzelzell-Daten erkunden und experimentieren können."
favicon
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
Bild zum Artikel: Maschinen die Sprache der Biologie lehren: Skalierung großer Sprachmodelle für die nächste Generation der Einzelzellanalyse