RSS 구글 AI 블로그

생물학의 언어를 기계에 가르치기: 차세대 싱글셀 분석을 위한 대규모 언어 모델 확장

단세포 RNA 염기서열분석(scRNA-seq)을 통해 개별 세포의 유전자 발현을 측정할 수 있지만 데이터가 방대하고 해석하기 어렵습니다. 이를 극복하기 위해 연구자들은 단세포 수준에서 생물학적 데이터를 "읽고" "쓸" 수 있는 대규모 언어 모델 제품군인 C2S-Scale(Cell2Sentence-Scale)을 개발했습니다. C2S-Scale은 각 세포의 유전자 발현 프로파일을 "cell sentence"라고 하는 일련의 텍스트로 변환하여 scRNA-seq 데이터에 자연어 모델을 적용할 수 있도록 합니다. 이를 통해 단일 셀 데이터의 접근성, 해석 용이성 및 유연성을 높일 수 있습니다. C2S-Scale 모델 제품군은 실제 전사체 데이터 세트, 생물학적 메타데이터 및 과학 문헌에서 가져온 10억 개 이상의 토큰에 대해 훈련됩니다. 이 모델은 예측 및 생성 작업 모두에 대한 다양한 입력 쿼리에 응답할 수 있어 대화형 단일 셀 분석이 가능합니다. C2S-Scale은 단일 세포 데이터에 대한 질문에 답하고, scRNA-seq 데이터의 생물학적 요약을 생성하고, 세포가 섭동에 어떻게 반응할지 예측할 수 있습니다. C2S-Scale의 성능은 명확한 확장 법칙에 따라 모델 크기가 증가함에 따라 예측 가능한 방식으로 향상됩니다. 인실리코(in silico)에서 세포 거동을 시뮬레이션할 수 있는 기능은 신약 개발, 맞춤형 의약품 및 실험 우선순위 지정을 가속화합니다. Cell2Sentence 모델 및 리소스는 이제 HuggingFace 및 GitHub와 같은 플랫폼에서 사용할 수 있으므로 연구원은 자신의 단일 세포 데이터를 탐색하고 실험할 수 있습니다.
favicon
research.google
Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis
기사 이미지: 생물학의 언어를 기계에 가르치기: 차세대 싱글셀 분석을 위한 대규모 언어 모델 확장
Create attached notes ...