RSS 구글 AI 블로그
팔로우
DeepPolisher를 이용한 높은 정확도의 게놈 폴리싱: 유전체 연구의 기반 강화
유전, 질병, 진화를 이해하는 것은 DNA 염기에 의해 암호화된 게놈을 해독하는 데 달려 있습니다. DNA 시퀀서는 이러한 염기를 읽지만, 염기쌍의 미세한 크기 때문에 대규모 정확도를 달성하는 것은 어렵습니다. 조립 오류는 유전자 식별을 방해하고 질병을 유발하는 변이를 놓치게 할 수 있기 때문에 거의 완벽한 참조 게놈을 만드는 것이 중요합니다. 게놈 조립은 오류를 반복적으로 수정하기 위해 동일한 게놈을 반복적으로 시퀀싱하는 것을 포함합니다. 그러나 인간 게놈의 30억 뉴클레오티드는 낮은 오류율조차도 상당히 축적되어 유용성을 제한합니다.이러한 과제를 해결하기 위해 오픈 소스 게놈 조립 방법인 DeepPolisher가 정확도 향상을 위해 개발되었습니다. 최근 논문에서 설명된 이 파이프라인은 조립 오류를 50%, 유전자 식별에 특히 방해가 되는 삽입/결실 오류를 70% 줄입니다. 다양한 시퀀싱 기술이 존재하며, Illumina의 방법은 신호를 개선하지만 읽기 길이를 제한합니다. 초기 오류가 발생하기 쉬운 장독(long-read) 시퀀싱 기술은 Pacific Biosciences와 Google의 협력 노력으로 개선되어 오류율이 감소했습니다.DeepConsensus에서 적용된 DeepPolisher는 고도로 특성화된 인간 게놈에 대해 훈련된 트랜스포머 아키텍처를 활용합니다. 이 방법은 게놈 조립에 남아 있는 오류를 식별하고 수정합니다. DeepPolisher는 유전자 주석 문제를 방지하는 데 중요한 삽입/결실 오류를 크게 줄입니다. 이 도구는 평균 Q-점수를 Q66.7에서 Q70.1로 증가시켜 게놈 조립 품질을 향상시킵니다.Human Pangenome Reference Consortium의 두 번째 데이터 릴리스는 DeepPolisher의 혜택을 받아 오류를 줄이고 다양한 조상에 걸쳐 유전 질환을 더 정확하게 진단할 수 있게 되었습니다. DeepPolisher를 오픈 소스로 공개함으로써 과학계에 이러한 발전을 널리 보급하는 것이 목표입니다.