Blog de IA de Google RSS Nota

Blog de IA de Google RSS

El blog de Google Research es un medio destinado a compartir los últimos avances y perspectivas de la comunidad científica de Google Research. Esta plataforma sirve como un medio para que los investigadores se comuniquen con usuarios fuera de los círculos científicos, discutiendo nuevas y prometedoras tecnologías, ideas y innovaciones.Google Research publica con frecuencia sobre diversos temas científicos, que van desde la inteligencia artificial y el aprendizaje automático hasta innovaciones en la atención médica. También se adentra en nuevas tecnologías, desde automóviles autónomos hasta técnicas de diagnóstico médico y análisis de datos de vanguardia.Una característica notable del blog es la contribución de los miembros del equipo. Muchos de los principales tecnólogos y investigadores de Google aportan artículos reveladores que reflejan sus variadas habilidades y intereses. Este sitio ofrece la oportunidad de leer relatos de primera mano sobre los últimos avances y visiones futuras del mundo tecnológico.El blog cuenta con una sección de "autores", lo que permite a los usuarios acceder a artículos y ideas de los colaboradores individuales. Además de discusiones técnicas y innovaciones, el blog también se ocupa de cuestiones sociales y filosóficas más amplias relacionadas con nuevas tecnologías, brindando a los usuarios una comprensión más completa de cómo la tecnología afecta nuestra vida cotidiana.En esencia, el blog de Google Research ofrece una mezcla única de experiencia técnica, avances en la investigación y implicaciones sociales, lo que lo hace un recurso valioso para entusiastas de la tecnología, investigadores y cualquier persona interesada en comprender y dar forma a las tecnologías futuras.

Hilo de notas

CdXz5zHNQW_wf799DxNvS.png
YouTube Shorts tiene como objetivo ofrecer efectos mágicos y en tiempo real para los creadores aplicando IA generativa avanzada en dispositivos móviles. Esto se logra destilando modelos de IA grandes en modelos más pequeños y específicos para tareas que pueden ejecutarse de manera eficiente fotograma a fotograma en teléfonos. El proceso comienza con la curación de conjuntos de datos de rostros diversos y de alta calidad, asegurando la inclusión en todos los grupos demográficos. Una técnica clave es la destilación de conocimiento, utilizando un potente modelo "maestro" y un modelo "estudiante" ligero. El maestro, inicialmente StyleGAN2 y luego modelos como Imagen, realiza una generación compleja, mientras que el estudiante, construido con UNet y MobileNet, está optimizado para móviles. El entrenamiento implica generar pares de imágenes del maestro y entrenar al estudiante con funciones de pérdida específicas y búsqueda de arquitectura neuronal. Un desafío crítico es preservar la identidad del usuario, abordado con una técnica llamada inversión de ajuste fundamental (PTI). PTI ajusta un generador a un rostro específico, permitiendo ediciones en el espacio latente sin alterar el parecido. La solución en el dispositivo utiliza el framework MediaPipe de Google para la detección, alineación de rostros y la integración perfecta del modelo estudiante. La pipeline logra un rendimiento en tiempo real, operando más rápido que 33 milisegundos por fotograma para una experiencia de usuario fluida. Esta tecnología ha potenciado numerosas funciones populares de YouTube Shorts desde 2023, mejorando las posibilidades creativas. El equipo continúa innovando, con el objetivo de integrar modelos más nuevos y reducir la latencia para una mayor accesibilidad de los dispositivos.
CdXz5zHNQW_8wndZAykAn.gif
"Los conjuntos de datos de gran tamaño basados en usuarios son vitales para el avance de la IA, mejorando los servicios y la personalización. Compartir estos conjuntos de datos acelera la investigación pero plantea riesgos para la privacidad. La selección de particiones con privacidad diferencial (DP) identifica subconjuntos de datos seguros y comunes añadiendo ruido para proteger las contribuciones individuales. Esto es crucial para tareas como la extracción de vocabulario y el análisis de datos privados. Procesar conjuntos de datos masivos requiere algoritmos paralelos, no solo por velocidad sino para manejar escalas inmensas. Nuestra publicación, "Scalable Private Partition Selection via Adaptive Weighting" (Selección de Particiones Privadas Escalables mediante Ponderación Adaptativa), introduce un algoritmo paralelo eficiente para la selección de particiones DP. Este algoritmo escala a cientos de miles de millones de elementos, superando significativamente las capacidades previas. El objetivo es maximizar los elementos seleccionados mientras se preserva la privacidad del usuario, priorizando los datos populares. El enfoque estándar implica la ponderación, la adición de ruido y el filtrado de elementos basándose en un umbral. Nuestro novedoso algoritmo de ponderación adaptativa, MAD, reasigna el "peso excesivo" de los elementos populares a aquellos que están justo por debajo del umbral de privacidad. Esto mejora la utilidad al incluir más elementos sin comprometer la privacidad ni la escalabilidad. Los experimentos demuestran que nuestro algoritmo MAD de dos iteraciones logra resultados de vanguardia, produciendo más elementos que otros métodos con las mismas garantías de privacidad. Estamos liberando nuestro algoritmo de código abierto para fomentar la innovación comunitaria."
CdXz5zHNQW_KfEjWw8vMV.png
CdXz5zHNQW_Z0zBIj4T6I.png
Nuestra investigación presenta guardrailed-AMIE (g-AMIE), un sistema de IA diseñado para la supervisión médica en diagnósticos. G-AMIE puede recopilar información del paciente a través del diálogo y generar resúmenes, diagnósticos diferenciales y planes de manejo. Crucialmente, está restringido para evitar proporcionar consejos médicos individualizados. Los médicos supervisores revisan y editan esta información a través de una interfaz de cabina clínica antes de la comunicación con el paciente. Un estudio aleatorizado de OSCE virtual comparó el rendimiento de g-AMIE con el de enfermeras practicantes y asistentes/asociados médicos que operaban bajo restricciones similares. Los resultados mostraron que el rendimiento diagnóstico y los planes de manejo de g-AMIE fueron preferidos por los supervisores y evaluadores independientes. Los actores pacientes también favorecieron los mensajes redactados por g-AMIE para pacientes. El estudio destacó la adherencia de g-AMIE a las barreras de seguridad y su alta calidad en la toma de historial y notas SOAP. Si bien g-AMIE superó a los grupos de control en varias métricas, el flujo de trabajo fue diseñado específicamente para la IA y no representa completamente la formación clínica. Las limitaciones incluyen la posible falta de acuerdo de los evaluadores y la carga cognitiva de la supervisión. El trabajo futuro se centrará en optimizar la verbosidad y explorar entornos del mundo real. Este marco representa un paso significativo hacia la colaboración humano-IA en diagnósticos médicos.
CdXz5zHNQW_SB8tCM3LeP.jpeg
La comprensión de la herencia, la enfermedad y la evolución depende de descifrar el genoma, codificado por bases de ADN. Aunque los secuenciadores de ADN leen estas bases, lograr la precisión a gran escala es difícil debido al tamaño minúsculo de los pares de bases. Crear un genoma de referencia casi perfecto es crucial, ya que los errores de ensamblaje pueden obstaculizar la identificación de genes y llevar a variantes causantes de enfermedades pasadas por alto. El ensamblaje del genoma implica secuenciar el mismo genoma repetidamente para corregir errores iterativamente. Sin embargo, los tres mil millones de nucleótidos del genoma humano significan que incluso tasas de error pequeñas se acumulan significativamente, lo que limita la utilidad.Para abordar estos desafíos, se desarrolló DeepPolisher, un método de ensamblaje de genoma de código abierto, para mejorar la precisión. Esta pipeline, descrita en un artículo reciente, reduce los errores de ensamblaje en un 50% y los errores de indel en un 70%, que son particularmente disruptivos para la identificación de genes. Existen varias tecnologías de secuenciación, con el método de Illumina mejorando la señal pero limitando la longitud de lectura. Las tecnologías de secuenciación de lectura larga, inicialmente propensas a errores, fueron mejoradas por los esfuerzos colaborativos de Pacific Biosciences y Google, reduciendo las tasas de error.DeepPolisher, adaptado de DeepConsensus, utiliza una arquitectura de Transformer entrenada en un genoma humano altamente caracterizado. Este método identifica y corrige los errores restantes en los ensamblajes del genoma. DeepPolisher reduce significativamente los errores de indel, cruciales para prevenir problemas de anotación de genes. La herramienta mejora la calidad del ensamblaje del genoma, demostrada por un aumento en las puntuaciones Q de Q66.7 a Q70.1 en promedio.La segunda liberación de datos del Consorcio de Referencia del Pangenoma Humano se benefició de DeepPolisher, reduciendo errores y permitiendo un diagnóstico más preciso de enfermedades genéticas en diversas ascendencias. Al hacer que DeepPolisher sea de código abierto, el objetivo es difundir ampliamente estos avances dentro de la comunidad científica.
CdXz5zHNQW_4NEnms7GRh.png
La diabetes tipo 2, impulsada por la resistencia a la insulina, afecta a millones de personas en todo el mundo, pero la detección temprana se ve obstaculizada por los métodos de prueba actuales, invasivos o inaccesibles. Los investigadores han desarrollado modelos de aprendizaje automático que pueden predecir la resistencia a la insulina combinando datos de dispositivos portátiles y análisis de sangre comunes. El estudio WEAR-ME utilizó datos que incluyen la frecuencia cardíaca en reposo, el recuento de pasos, los patrones de sueño, la glucosa en ayunas y los paneles de lípidos para entrenar estos modelos. La combinación de estas fuentes de datos mejoró significativamente la precisión de la predicción en comparación con el uso de una sola fuente. Cabe destacar que los modelos funcionaron particularmente bien en la identificación de la resistencia a la insulina en personas de alto riesgo, como aquellas con obesidad y estilos de vida sedentarios.Una cohorte de validación confirmó la generalización de estos modelos predictivos. Para mejorar la comprensión del usuario, se desarrolló un agente de IA llamado Agente de Alfabetización y Comprensión de la Resistencia a la Insulina utilizando modelos de lenguaje avanzados. Este agente proporciona respuestas personalizadas y contextualizadas sobre la salud metabólica, impresionando a los endocrinólogos con su exhaustividad y confiabilidad. La investigación destaca el potencial de un cribado accesible y temprano del riesgo de diabetes tipo 2 a través de datos fácilmente disponibles. Este enfoque podría facilitar intervenciones oportunas en el estilo de vida para prevenir o retrasar la enfermedad. Sin embargo, estos modelos son solo para fines informativos y de investigación y no son dispositivos médicos aprobados.
CdXz5zHNQW_8K7J57DBaq.png
Bloques Visuales es un marco de programación visual que permite a los usuarios programar conectando bloques en una secuencia de bloques, creando una tubería de IA. Sin embargo, los usuarios principiantes pueden luchar para configurar y vincular nodos desde un espacio de trabajo en blanco. Para abordar esto, los autores introdujeron InstructPipe, un asistente de IA que genera tuberías de aprendizaje automático con instrucciones de texto. InstructPipe consta de tres módulos: dos módulos de modelo de lenguaje grande (LLM) y un intérprete de código. Los módulos LLM generan pseudocódigo para una tubería objetivo, y el intérprete renderiza la tubería en el editor visual para la colaboración humano-IA. Los autores implementaron InstructPipe con una estrategia de refinamiento de LLM de dos etapas, seguida de un paso de interpretación de pseudocódigo para renderizar una tubería. Los usuarios pueden describir una tubería deseada en lenguaje natural, y InstructPipe genera automáticamente una tubería editable correspondiente. Los autores evaluaron InstructPipe a través de un taller híbrido de dos días y un estudio de usuario, demostrando que InstructPipe permite a los usuarios crear tuberías de IA con una carga de trabajo significativamente menor. InstructPipe capacita a los usuarios para construir flujos de trabajo sofisticados con una carga de trabajo menor, permitiendo la prototipación rápida de ideas y reduciendo significativamente las interacciones del usuario. Los autores esperan que InstructPipe sirva como catalizador para futuras investigaciones, fomentando la innovación en la colaboración humano-IA y desbloqueando nuevos niveles de expresividad y creatividad en el aprendizaje automático y más allá.
CdXz5zHNQW_ia2iw95e6O.png
"La secuenciación de ARN de célula única (scRNA-seq) nos permite medir la expresión génica de células individuales, pero los datos son masivos y difíciles de interpretar. Para superar esto, los investigadores han desarrollado Cell2Sentence-Scale (C2S-Scale), una familia de modelos de lenguaje grande que pueden "leer" y "escribir" datos biológicos a nivel de célula única. C2S-Scale transforma el perfil de expresión génica de cada célula en una secuencia de texto, llamada "oración de célula", lo que hace posible aplicar modelos de lenguaje natural a datos de scRNA-seq. Esto hace que los datos de célula única sean más accesibles, interpretables y flexibles. La familia de modelos C2S-Scale se entrena con más de 1 billón de tokens de conjuntos de datos transcriptómicos del mundo real, metadatos biológicos y literatura científica. Los modelos pueden responder a consultas de entrada diversas para tareas de predicción y generación, lo que permite análisis de célula única conversacional. C2S-Scale puede responder a preguntas sobre datos de célula única, generar resúmenes biológicos de datos de scRNA-seq y predecir cómo una célula responderá a una perturbación. El rendimiento de C2S-Scale mejora de manera predecible a medida que aumenta el tamaño del modelo, siguiendo leyes de escalabilidad claras. La capacidad de simular el comportamiento celular in silico acelera el descubrimiento de fármacos, la medicina personalizada y la priorización de experimentos. Los modelos y recursos de Cell2Sentence ahora están disponibles en plataformas como HuggingFace y GitHub, lo que permite a los investigadores explorar y experimentar con sus propios datos de célula única."
CdXz5zHNQW_ydCgjtNBsI.png
Google ha estado organizando la información geoespacial del mundo durante décadas, haciéndola accesible a través de varios productos como Google Maps, Street View y Google Earth. La información geoespacial es esencial en situaciones cotidianas y para una amplia gama de problemas empresariales del mundo real, incluyendo la salud pública, el desarrollo urbano y la resiliencia climática. Los datos, servicios en tiempo real y modelos de inteligencia artificial de Google pueden acelerar los análisis y mejorar los modelos y datos propietarios. Sin embargo, la información geoespacial puede ser grande, compleja y difícil de entender, requiriendo sensores y plataformas especializados. Para abordar estos desafíos, Google presentó dos modelos preentrenados y multipropósito: el Modelo de Fundación de Dinámica de Población y un nuevo modelo de fundación de movilidad basado en trayectorias. Estos modelos han sido probados por más de 200 organizaciones, y Google está ampliando el conjunto de datos para cubrir más países. Google también está explorando cómo la inteligencia artificial generativa puede reducir el costo, el tiempo y la experiencia en el dominio requeridos para combinar capacidades geoespaciales. La empresa está presentando nuevos modelos de fundación de teledetección para experimentación y un esfuerzo de investigación llamado Razonamiento Geoespacial, que tiene como objetivo combinar modelos de fundación con inteligencia artificial generativa para acelerar la resolución de problemas geoespaciales. El Razonamiento Geoespacial proporcionará respuestas rápidas y confiables a consultas complejas de lenguaje natural, y los modelos estarán disponibles a través de un programa de prueba de confianza. Los primeros probadores de los modelos de fundación de teledetección incluyen WPP, Airbus, Maxar y Planet Labs, que planean utilizar los modelos para pionear la inteligencia de audiencia impulsada por IA, extraer información de imágenes satelitales y simplificar y acelerar la información para sus clientes.