RSS Блог Google AI

Обучение машин языку биологии: Масштабирование больших языковых моделей для следующего поколения анализа одиночных клеток

Последовательность РНК одиночных клеток (scRNA-seq) позволяет измерять экспрессию генов отдельных клеток, но данные огромны и трудны для интерпретации. Чтобы преодолеть это, исследователи разработали Cell2Sentence-Scale (C2S-Scale), семейство больших языковых моделей, которые могут «читать» и «писать» биологические данные на уровне отдельных клеток. C2S-Scale преобразует профиль экспрессии генов каждой клетки в последовательность текста, называемую «предложением клетки», что делает возможным применение моделей естественного языка к данным scRNA-seq. Это делает данные одиночных клеток более доступными, интерпретируемыми и гибкими. Семейство моделей C2S-Scale было обучено на более чем 1 миллиарде токенов из реальных транскриптомных наборов данных, биологических метаданных и научной литературы. Модели могут отвечать на различные запросы ввода для задач предсказания и генерации, что позволяет проводить разговорный анализ одиночных клеток. C2S-Scale может отвечать на вопросы о данных одиночных клеток, генерировать биологические резюме данных scRNA-seq и предсказывать, как клетка будет реагировать на возмущение. Производительность C2S-Scale улучшается предсказуемо с увеличением размера модели, следуя четким законам масштабирования. Возможность симулировать поведение клеток in silico ускоряет открытие лекарств, персонализированную медицину и приоритизацию экспериментов. Модели Cell2Sentence и ресурсы теперь доступны на платформах, таких как HuggingFace и GitHub, что позволяет исследователям исследовать и экспериментировать со своими собственными данными одиночных клеток.
favicon
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
Изображение к статье: Обучение машин языку биологии: Масштабирование больших языковых моделей для следующего поколения анализа одиночных клеток
Create attached notes ...