RSS Google KI-Blog
Folgen
Hochpräzise Genom-Politur mit DeepPolisher: Verbesserung der Grundlage genomischer Forschung
Das Verständnis von Vererbung, Krankheit und Evolution hängt von der Entschlüsselung des Genoms ab, das durch DNA-Basen kodiert ist. Während DNA-Sequenzierer diese Basen lesen, ist es aufgrund der winzigen Größe von Basenpaaren schwierig, Genauigkeit im großen Maßstab zu erreichen. Die Erstellung eines nahezu perfekten Referenzgenoms ist entscheidend, da Fehler bei der Assemblierung die Genidentifizierung behindern und dazu führen können, dass krankheitsverursachende Varianten übersehen werden. Die Genomassemblierung beinhaltet die wiederholte Sequenzierung desselben Genoms, um Fehler iterativ zu korrigieren. Da das menschliche Genom jedoch drei Milliarden Nukleotide umfasst, summieren sich selbst kleine Fehlerraten erheblich und schränken die Nützlichkeit ein.Um diese Herausforderungen zu bewältigen, wurde DeepPolisher, eine quelloffene Methode zur Genomassemblierung, entwickelt, um die Genauigkeit zu verbessern. Diese Pipeline, die in einer kürzlich veröffentlichten Arbeit beschrieben wird, reduziert Assemblierungsfehler um 50 % und Indel-Fehler um 70 %, die für die Genidentifizierung besonders störend sind. Es gibt verschiedene Sequenzierungstechnologien, wobei Illumínas Methode das Signal verbessert, aber die Leselänge begrenzt. Langlese-Sequenzierungstechnologien, die anfangs fehleranfällig waren, wurden durch die gemeinsamen Anstrengungen von Pacific Biosciences und Google verbessert, wodurch die Fehlerraten reduziert wurden.DeepPolisher, adaptiert von DeepConsensus, nutzt eine Transformer-Architektur, die auf einem hoch charakterisierten menschlichen Genom trainiert wurde. Diese Methode identifiziert und korrigiert verbleibende Fehler in Genomassemblierungen. DeepPolisher reduziert Indel-Fehler erheblich, was für die Vermeidung von Problemen bei der Genannotation von entscheidender Bedeutung ist. Das Werkzeug verbessert die Qualität der Genomassemblierung, was sich in einer durchschnittlichen Erhöhung der Q-Scores von Q66,7 auf Q70,1 zeigt.Die zweite Datenfreigabe des Human Pangenome Reference Consortium profitierte von DeepPolisher, indem Fehler reduziert und eine genauere Diagnose genetischer Krankheiten über verschiedene Abstammungen hinweg ermöglicht wurde. Durch die Freigabe von DeepPolisher als Open Source ist es das Ziel, diese Fortschritte in der wissenschaftlichen Gemeinschaft weit zu verbreiten.