DeepPolisherによる高精度ゲノムポリッシング:ゲノ... ノート

DeepPolisherによる高精度ゲノムポリッシング:ゲノム研究の基盤強化

DNA塩基にコード化されたゲノムを解読することは、遺伝、疾患、進化の理解に不可欠です。DNAシーケンサーはこれらの塩基を読み取りますが、塩基対の微小なサイズのため、大規模な精度を達成することは困難です。ゲノムアセンブリのエラーは遺伝子同定を妨げ、疾患を引き起こす変異の見落としにつながる可能性があるため、ほぼ完璧な参照ゲノムを作成することが重要です。ゲノムアセンブリでは、エラーを繰り返し修正するために、同じゲノムを繰り返しシーケンシングします。しかし、ヒトゲノムの30億個のヌクレオチドは、たとえわずかなエラー率であっても大幅に蓄積し、有用性を制限します。これらの課題に対処するため、ゲノムアセンブリ手法であるDeepPolisherが開発され、精度が向上しました。最近の論文で説明されているこのパイプラインは、アセンブリエラーを50%、特に遺伝子同定に大きな影響を与えるインデルエラーを70%削減します。さまざまなシーケンシング技術が存在し、Illuminaの方法は信号を改善しますが、リード長を制限します。当初はエラーが発生しやすかったロングリードシーケンシング技術は、Pacific BiosciencesとGoogleの共同作業によって改善され、エラー率が低下しました。DeepPolisherは、DeepConsensusから適応され、高度に特徴付けられたヒトゲノムでトレーニングされたTransformerアーキテクチャを利用しています。この手法は、ゲノムアセンブリに残ったエラーを特定し、修正します。DeepPolisherは、遺伝子アノテーションの問題を防ぐために不可欠なインデルエラーを大幅に削減します。このツールは、Qスコアが平均Q66.7からQ70.1に増加したことで、ゲノムアセンブリの品質を向上させています。Human Pangenome Reference Consortiumの2回目のデータリリースはDeepPolisherの恩恵を受け、エラーを削減し、多様な祖先における遺伝性疾患のより正確な診断を可能にしました。DeepPolisherをオープンソースにすることで、これらの進歩を科学コミュニティ全体に広く普及させることを目指しています。
CdXz5zHNQW_4NEnms7GRh.png