Blog de IA de Google RSS
Seguir
Pulido de genomas de alta precisión con DeepPolisher: Mejorando los cimientos de la investigación genómica
La comprensión de la herencia, la enfermedad y la evolución depende de descifrar el genoma, codificado por bases de ADN. Aunque los secuenciadores de ADN leen estas bases, lograr la precisión a gran escala es difícil debido al tamaño minúsculo de los pares de bases. Crear un genoma de referencia casi perfecto es crucial, ya que los errores de ensamblaje pueden obstaculizar la identificación de genes y llevar a variantes causantes de enfermedades pasadas por alto. El ensamblaje del genoma implica secuenciar el mismo genoma repetidamente para corregir errores iterativamente. Sin embargo, los tres mil millones de nucleótidos del genoma humano significan que incluso tasas de error pequeñas se acumulan significativamente, lo que limita la utilidad.Para abordar estos desafíos, se desarrolló DeepPolisher, un método de ensamblaje de genoma de código abierto, para mejorar la precisión. Esta pipeline, descrita en un artículo reciente, reduce los errores de ensamblaje en un 50% y los errores de indel en un 70%, que son particularmente disruptivos para la identificación de genes. Existen varias tecnologías de secuenciación, con el método de Illumina mejorando la señal pero limitando la longitud de lectura. Las tecnologías de secuenciación de lectura larga, inicialmente propensas a errores, fueron mejoradas por los esfuerzos colaborativos de Pacific Biosciences y Google, reduciendo las tasas de error.DeepPolisher, adaptado de DeepConsensus, utiliza una arquitectura de Transformer entrenada en un genoma humano altamente caracterizado. Este método identifica y corrige los errores restantes en los ensamblajes del genoma. DeepPolisher reduce significativamente los errores de indel, cruciales para prevenir problemas de anotación de genes. La herramienta mejora la calidad del ensamblaje del genoma, demostrada por un aumento en las puntuaciones Q de Q66.7 a Q70.1 en promedio.La segunda liberación de datos del Consorcio de Referencia del Pangenoma Humano se benefició de DeepPolisher, reduciendo errores y permitiendo un diagnóstico más preciso de enfermedades genéticas en diversas ascendencias. Al hacer que DeepPolisher sea de código abierto, el objetivo es difundir ampliamente estos avances dentro de la comunidad científica.