Flux RSS du blog Google IA Note

Flux RSS du blog Google IA

Le blog de Google Research est une plateforme destinée à partager les dernières percées et les révélations de la communauté scientifique de Google Research. Cette plateforme permet aux chercheurs d'interagir avec les utilisateurs en dehors des cercles scientifiques, en discutant de nouvelles technologies prometteuses, d'aperçus et d'innovations.Google Research publie fréquemment sur divers sujets scientifiques, allant de l'intelligence artificielle et de l'apprentissage automatique aux innovations dans le domaine de la santé. Il explore également souvent de nouvelles technologies, des voitures autonomes aux techniques de diagnostic médical de pointe et aux méthodes d'analyse de données.Une caractéristique notable du blog est la contribution des membres de l'équipe. De nombreux technologistes et chercheurs de premier plan chez Google fournissent des articles éclairés qui reflètent leurs intérêts et leurs compétences variés. Ce site offre l'opportunité de lire des comptes rendus de première main des dernières avancées et des visions d'avenir du monde technologique.Le blog comprend une section "auteurs", permettant aux utilisateurs d'accéder aux articles et aux révélations des contributeurs individuels. En plus des discussions techniques et des innovations, le blog traite également de questions sociales et philosophiques plus larges liées aux nouvelles technologies, offrant aux utilisateurs une compréhension plus complète de l'impact de la technologie sur notre vie quotidienne.En résumé, le blog de Google Research offre un mélange unique d'expertise technique, de percées de recherche et d'implications sociétales, en faisant de lui une ressource précieuse pour les amateurs de technologie, les chercheurs et quiconque souhaite comprendre et façonner les technologies futures.

Fil de notes

La combinaison de l’intelligence artificielle et de la réalité étendue a le potentiel de débloquer un nouveau paradigme de l’informatique intelligente immersive, mais il existe un fossé important entre les écosystèmes de ces deux domaines. Pour combler cette lacune, le cadre XR Blocks a été introduit, un cadre multiplateforme conçu pour accélérer l’IA centrée sur l’humain et l’innovation XR. XR Blocks fournit une architecture modulaire avec des composants plug-and-play pour l’abstraction de base dans l’IA et la XR, y compris l’utilisateur, le monde, l’interface, l’IA et les agents. Le cadre est conçu dans le but d’accélérer le prototypage rapide d’applications d’IA et de XR perceptives, et il s’appuie sur des technologies accessibles telles que WebXR, threejs, LiteRT et Gemini. Les choix de conception architecturale et API de XR Blocks sont guidés par trois principes : la simplicité et la lisibilité, la priorité donnée à l’expérience du créateur et le pragmatisme plutôt que l’exhaustivité. Le cadre XR Blocks accélère le prototypage d’applications d’IA et de XR en temps réel sur des simulateurs de bureau et des appareils Android XR, et il fournit une couche d’abstraction de haut niveau, centrée sur l’humain, qui sépare le quoi d’une interaction du comment de sa mise en œuvre de bas niveau. Le cadre propose un nouveau modèle de réalité composé d’abstractions de haut niveau pour guider la mise en œuvre des blocs XR, qui consistent en des modules remplaçables pour l’interaction XR. Le modèle de réalité est réalisé par le moteur modulaire Core de XR Blocks, qui fournit des API de haut niveau qui permettent aux développeurs d’exploiter des sous-systèmes tels que le pipeline de perception et d’entrée, l’IA en tant qu’utilitaire de base et la boîte à outils d’expérience et de visualisation. L’objectif de XR Blocks est de permettre aux créateurs de passer beaucoup plus rapidement d’idées de haut niveau centrées sur l’humain à des prototypes interactifs, et de permettre un avenir où toute invite déclarative pourrait être directement traduite en instructions de haut niveau dans XR Blocks. Dans l’ensemble, XR Blocks est une étape fondamentale vers un avenir où les frontières entre la programmation, le design et la conversation disparaissent, nous permettant de scénariser des réalités de manière aussi fluide que nous scénarisons des histoires.
La recherche web vocale, bien que courante, rencontre des problèmes de précision en raison de l'approche de modélisation en cascade. Cette méthode convertit d'abord la parole en texte, et toute erreur de transcription peut entraîner des résultats de recherche non pertinents. Par exemple, mal interpréter "scream" (cri) comme "screen" (écran) dans une requête concernant un tableau peut fournir des informations complètement erronées. Pour remédier à cela, la technologie Speech-to-Retrieval (S2R) contourne complètement l'étape de transcription textuelle. Le S2R interprète directement les requêtes vocales et récupère les informations en mappant la parole à l'intention de recherche. Ce changement architectural vise à répondre à la question "Quelle information est recherchée ?" plutôt qu'à "Quels mots ont été prononcés ?". Les expériences montrent un écart de performance significatif entre les systèmes en cascade actuels et une transcription théoriquement parfaite. Le modèle S2R, utilisant une architecture à double encodeur, apprend à représenter les requêtes audio et les documents dans un espace partagé. Cela lui permet d'inférer directement l'intention de l'utilisateur à partir de l'audio. L'évaluation sur le jeu de données SVQ démontre que le S2R surpasse significativement les modèles ASR en cascade traditionnels. Ses performances se rapprochent étroitement du maximum théorique réalisable avec une reconnaissance vocale parfaite. Google a désormais implémenté la recherche vocale basée sur le S2R dans plusieurs langues. Ils rendent également le jeu de données SVQ open-source pour encourager davantage la recherche dans ce domaine.
CdXz5zHNQW_1v0oZ0TyR7.png
Les modèles de texte à image ont souvent du mal à saisir l'intention précise de l'utilisateur à partir d'une seule invite. Cette recherche présente PASTA, un agent d'apprentissage par renforcement qui affine collaborativement la génération d'images grâce à l'interaction de l'utilisateur. PASTA élimine le besoin d'essais et d'erreurs fastidieux en engageant une conversation guidée. Le projet a développé un nouvel ensemble de données de préférences séquentielles des utilisateurs grâce à des évaluations humaines. PASTA a ensuite été entraîné sur un mélange de données réelles et simulées pour obtenir des résultats supérieurs. La collecte de données suffisantes du monde réel est difficile en raison des préoccupations relatives à la vie privée. La stratégie d'entraînement a combiné les commentaires initiaux d'humains réels avec une simulation utilisateur à grande échelle. Un modèle utilisateur a été développé avec des composantes d'utilité et de choix, identifiant des types d'utilisateurs latents. Ces commentaires simulés d'utilisateurs ont généré plus de 30 000 trajectoires d'interaction. PASTA, en tant qu'agent d'apprentissage par renforcement basé sur la valeur, sélectionne des expansions d'invite optimales pour maximiser la satisfaction de l'utilisateur. Lors des tests, PASTA entraîné sur des données réelles et simulées combinées a surpassé de manière significative les modèles de base. Les évaluateurs humains ont très largement préféré les images générées par PASTA, démontrant son adaptabilité aux visions créatives individuelles. La recherche met en évidence un avenir d'IA générative plus interactive et adaptative aux préférences.
CdXz5zHNQW_JczcxIBw5o.png
Les ajustements sélectifs d'image améliorent les photos en permettant des améliorations ciblées. Auparavant, isoler des objets pour l'édition était difficile, en particulier sur les appareils mobiles avec des commandes tactiles imprécises et une puissance de traitement limitée. Snapseed sur iOS introduit désormais l'Object Brush, rendant ces ajustements rapides et faciles. L'Object Brush permet aux utilisateurs de simplement tracer un trait sur un objet pour le sélectionner en vue d'une édition individuelle. Cette fonctionnalité intuitive est alimentée par un modèle d'IA embarqué appelé Interactive Segmenter. Ce modèle avancé peut détecter et sélectionner des objets ou des personnes entiers en moins de 20 millisecondes après un simple tap ou le traçage d'une ligne. Le modèle génère un masque précis pour l'objet sélectionné, en s'adaptant à ses contours. L'entraînement de l'Interactive Segmenter a impliqué une approche de Big Transfer et une distillation de connaissances d'un modèle enseignant plus grand vers un modèle de périphérie plus petit et efficace. Ce processus garantit une segmentation de haute qualité tout en maintenant une réactivité en temps réel. Le système découple la compréhension de l'image et de l'invite en sous-modèles distincts pour équilibrer la qualité de la segmentation avec une faible latence. Enfin, le suréchantillonnage du masque de la taille de l'image garantit une qualité d'édition haute résolution pour des ajustements détaillés.
CdXz5zHNQW_hPOeNkUBEn.png
Les grands modèles linguistiques (LLM) excellent en programmation compétitive et en mathématiques, mais ont eu un succès limité dans la découverte mathématique authentique en raison de l'exigence stricte d'une correction absolue. Les preuves mathématiques générées précédemment par l'IA manquent souvent de correction vérifiable sans intervention humaine. En réponse, des chercheurs ont développé AlphaEvolve, un système qui utilise les LLM pour faire évoluer itérativement du code et découvrir de nouvelles structures mathématiques. Cette approche a conduit à des avancées en théorie de la complexité en améliorant la borne d'inapproximabilité pour le problème MAX-4-CUT et en resserrant les bornes sur la dureté dans le pire des cas pour les propriétés des graphes aléatoires. La méthode exploite le "lifting", où les structures finies évoluées sont intégrées dans des cadres de preuve existants pour produire des théorèmes universels. Plus précisément, AlphaEvolve a découvert un gadget complexe pour MAX-4-CUT, établissant une nouvelle limite d'approximation de 0,987. Le système a également trouvé des graphes extrémaux de Ramanujan avec de grandes coupes, améliorant considérablement les bornes inférieures pour la dureté dans le pire des cas. Un aspect clé de cette recherche est la correction vérifiable des structures découvertes, obtenue grâce à une accélération de la vérification de 10 000 fois. Bien que l'IA s'avère être un collaborateur précieux, le processus de vérification reste un goulot d'étranglement critique pour la future découverte mathématique assistée par l'IA.
CdXz5zHNQW_XJGYeGdkyo.png
Les grands modèles linguistiques et les données des appareils portables offrent une chance d'améliorer la santé personnelle, bien que les besoins individuels varient considérablement pour les requêtes de santé. Un système unique peine à répondre aux questions de santé spécifiques et ouvertes. Pour résoudre ce problème, le cadre de recherche Personal Health Agent (PHA) a été créé pour raisonner sur des données multimodales afin de fournir des conseils personnalisés et fondés sur des preuves. Le PHA utilise une architecture multi-agents avec des sous-agents spécialisés pour la science des données, l'expertise du domaine et le coaching de santé. Des données réelles provenant d'une étude impliquant des données d'appareils portables, des questionnaires et des analyses sanguines ont été utilisées pour l'évaluation. Le système a fait l'objet d'évaluations automatisées et humaines approfondies sur dix tâches de référence, impliquant des milliers d'annotations et un effort d'expert considérable. Ce travail représente une évaluation complète d'un agent de santé et jette les bases d'agents de santé personnels accessibles. Cette recherche décrit un cadre conceptuel et n'est pas une description d'un produit ou service public actuel. L'approche a impliqué une conception centrée sur l'utilisateur, l'analyse de plus de 1 300 requêtes de santé et des enquêtes auprès des utilisateurs pour identifier les domaines de soutien clés. L'évaluation du système s'est concentrée sur la mise en référence des agents individuels et du PHA intégré, en utilisant des évaluations automatisées et humaines.
CdXz5zHNQW_cj4k4bmeKc.png
Naviguer dans les informations de santé en ligne est souvent écrasant et manque de personnalisation pour les individus. Les grands modèles linguistiques (LLM) peuvent améliorer cela, mais les outils d'IA actuels agissent comme des répondeurs passifs aux questions. Un expert comme un médecin recherche activement le contexte en posant des questions de clarification pour fournir des conseils personnalisés. Cette recherche présente "Wayfinding AI", un prototype à un stade précoce basé sur Gemini, conçu pour poser proactivement des questions de clarification. Grâce à des études utilisateurs, cette approche s'est avérée significativement plus utile, pertinente et personnalisée qu'une IA de référence. Les participants ont souvent du mal à exprimer leurs préoccupations en matière de santé, ce qui rend le questionnement proactif crucial pour recueillir des détails pertinents. Wayfinding AI utilise trois principes : une orientation conversationnelle proactive, des réponses au mieux à chaque étape, et un raisonnement transparent. Son interface sépare les éléments conversationnels des informations détaillées pour s'assurer que les questions ne soient pas manquées. Les études utilisateurs ont révélé que les participants préféraient Wayfinding AI pour son utilité, sa pertinence, sa compréhension des objectifs et sa personnalisation. Les conversations avec Wayfinding AI étaient plus longues et davantage axées sur l'obtention d'informations détaillées de l'utilisateur. Cette approche conversationnelle centrée sur l'humain montre des promesses pour les futures applications d'IA dans le domaine de la santé.
CdXz5zHNQW_ibR0J0rRzk.png
Ce document présente AfriMed-QA, un nouvel ensemble de données de référence pour l'évaluation des grands modèles linguistiques (LLM) dans le contexte des soins de santé en Afrique. L'ensemble de données compile des questions et réponses médicales en anglais provenant de 16 pays africains et de 60 écoles de médecine. AfriMed-QA comprend des questions à choix multiples, des questions à réponse courte et des requêtes de consommateurs dans diverses spécialités médicales. Les auteurs ont évalué divers LLM, constatant que les modèles plus grands obtenaient de meilleurs résultats sur cet ensemble de données. Les évaluations humaines des réponses des LLM ont montré des résultats prometteurs, en particulier pour les requêtes des consommateurs. Un classement a été créé pour faciliter la comparaison des modèles et suivre les progrès. L'équipe prévoit d'étendre l'ensemble de données pour inclure des données multilingues et multimodales. L'étude reconnaît les limites, notamment la représentation géographique, et souligne la nécessité d'évaluations culturellement pertinentes. La recherche souligne l'importance d'adapter les LLM pour une utilisation dans divers contextes de soins de santé. AfriMed-QA vise à favoriser le développement d'outils d'IA équitables pour les soins de santé en Afrique et au-delà. Ce projet a reçu le prix du meilleur article à impact social à l'ACL 2025. L'ensemble de données AfriMed-QA et le code d'évaluation sont accessibles au public.
CdXz5zHNQW_4Ufi6eam5o.png
La prévision de séries temporelles est cruciale pour les entreprises, mais les méthodes traditionnelles sont lentes et nécessitent beaucoup d'expertise. TimesFM, un modèle de fondation zero-shot, a amélioré cela en prévoyant sans entraînement spécifique à la tâche. Cependant, l'intégration de quelques exemples, connue sous le nom d'apprentissage few-shot, pourrait encore améliorer la précision. La méthode standard pour cela, le fine-tuning supervisé, réintroduit la complexité.La nouvelle approche In-Context Fine-Tuning (ICF) transforme TimesFM en un apprenant few-shot en utilisant un pré-entraînement continu. Cela apprend au modèle à apprendre à partir d'exemples au moment de l'inférence sans formation utilisateur supplémentaire. Le modèle, désormais TimesFM-ICF, utilise une architecture de décodeur patchée avec des couches de transformeur.Pour permettre l'apprentissage few-shot, un "jeton séparateur commun" est introduit pour distinguer l'historique des prévisions des exemples en contexte. Cela évite la confusion des données et permet au modèle d'apprendre à partir des schémas passés. Le modèle est ensuite pré-entraîné sur un nouveau jeu de données intégrant ces séparateurs.TimesFM-ICF a été évalué sur des jeux de données inédits, en utilisant des données historiques pertinentes comme exemples en contexte. Il a démontré une amélioration de la précision de 6,8 % par rapport au TimesFM de base. De manière cruciale, TimesFM-ICF égale les performances du fine-tuning supervisé sans nécessiter d'entraînement complexe supplémentaire.Le système montre également que plus il y a d'exemples en contexte, meilleures sont les prévisions, avec un compromis en termes de temps d'inférence. Cette innovation promet des prévisions plus accessibles et plus puissantes, permettant aux entreprises de déployer des modèles adaptables sans projets ML étendus. Les travaux futurs visent à automatiser la sélection des exemples en contexte les plus pertinents.
CdXz5zHNQW_kfwkschkYN.png
Sensible Agent est un framework conçu pour une interaction discrète avec des agents de RA proactifs. Il utilise la détection multimodale pour anticiper les besoins de l'utilisateur et fournir une assistance contextuelle appropriée, en s'attaquant aux limites des systèmes basés sur les commandes vocales. Le système comprend deux modules : l'un détermine quelle assistance est nécessaire, et l'autre décide comment la fournir en tenant compte du contexte social. Le prototype utilise un analyseur de contexte, un générateur de requêtes proactives, un module d'interaction et un générateur de réponses, le tout fonctionnant sur Android XR et WebXR. Une étude utilisateur a comparé Sensible Agent à une base de référence contrôlée par la voix dans divers scénarios. L'étude a révélé que Sensible Agent réduisait considérablement la charge cognitive et augmentait la préférence de l'utilisateur. Le temps d'interaction était légèrement plus long, mais la préférence pour Sensible Agent suggère que le compromis était acceptable. La proactivité remodèle la relation de l'utilisateur avec l'agent, favorisant une expérience collaborative. Les orientations futures incluent la personnalisation, l'adaptation à différents appareils et les applications dans les maisons intelligentes et la robotique. L'équipe de recherche a intégré la détection multimodale et l'adaptation en temps réel pour améliorer l'interaction homme-agent. Les auteurs remercient leurs collaborateurs, leurs commentaires et les contributions de plusieurs équipes chez Google.
CdXz5zHNQW_pbrRdL3gvF.png
Les manuels scolaires sont limités par leur approche unique, manquant de personnalisation et de formats diversifiés. Google explore l'IA générative pour créer des expériences d'apprentissage plus efficaces et engageantes, appelées Learn Your Way. Learn Your Way vise à transformer les supports pédagogiques, en offrant des représentations de contenu variées et des exemples personnalisés pour chaque élève. Le système utilise deux piliers clés : les représentations multimodales et la personnalisation, basées sur les sciences de l'apprentissage. Un aspect technique central implique l'utilisation du modèle LearnLM de Google intégré à Gemini 2.5 Pro. Le processus personnalise le contenu en l'adaptant aux niveaux et aux intérêts des élèves, en remplaçant les exemples génériques. Learn Your Way propose des fonctionnalités telles que du texte immersif, des quiz, des diapositives narrées, des leçons audio et des cartes mentales adaptées aux besoins individuels. Des experts pédagogiques ont évalué les supports transformés, trouvant le contenu très efficace selon divers critères. Une étude d'efficacité a montré que les élèves utilisant Learn Your Way obtenaient de meilleurs résultats aux tests de rétention que ceux utilisant un lecteur numérique standard. L'étude a également révélé une plus grande satisfaction des utilisateurs avec Learn Your Way. Les recherches de Google indiquent que l'IA peut créer des expériences d'apprentissage plus efficaces et plus stimulantes. L'avenir du projet est axé sur l'adaptation continue du contenu aux besoins individuels des apprenants.
CdXz5zHNQW_60GrmG7HIg.png
Construire une IA avec la confidentialité au cœur est une frontière cruciale à mesure que l'IA s'intègre davantage dans nos vies. La confidentialité différentielle (DP) offre une solution mathématiquement robuste en ajoutant du bruit calibré pour empêcher la mémorisation. Cependant, l'application de la DP aux LLM introduit des compromis qui modifient les lois d'échelle traditionnelles, réduisant la stabilité de l'entraînement et augmentant les coûts. De nouvelles recherches ont établi des lois qui modélisent avec précision ces subtilités, offrant une image complète des compromis entre calcul, confidentialité et utilité. Guidé par ces recherches, VaultGemma, le plus grand modèle ouvert (1 milliard de paramètres) entraîné à partir de zéro avec la confidentialité différentielle, a été introduit. Cette recherche a quantifié le bénéfice de l'augmentation de la taille des modèles, de la taille des lots et des itérations dans l'entraînement DP, en se concentrant principalement sur le rapport bruit-lot. Une conclusion clé est qu'il faut entraîner un modèle plus petit avec un lot plus grand qu'en l'absence de DP. En utilisant ces lois d'échelle et des algorithmes d'entraînement avancés, VaultGemma a été construit, représentant une avancée significative dans l'IA privée. VaultGemma ne présente aucune mémorisation détectable de ses données d'entraînement, validant l'efficacité de l'entraînement DP. Bien qu'un écart d'utilité persiste entre les modèles entraînés avec et sans DP, cette recherche vise à le réduire systématiquement.
CdXz5zHNQW_JPtqyvsr4p.png
Concevoir des séquences thérapeutiques d'ADN et d'ARN avec des propriétés spécifiques est un défi majeur en médecine en raison du nombre immense de possibilités. L'IA peut aider à naviguer dans cet vaste espace de recherche, mais l'évaluation efficace des algorithmes de conception s'est avérée difficile. Pour y remédier, des chercheurs ont introduit NucleoBench, un benchmark standardisé pour comparer les algorithmes de conception d'acides nucléiques. Ce benchmark a impliqué plus de 400 000 expériences sur 16 défis biologiques. Grâce à ce travail, ils ont développé AdaBeam, un algorithme de conception hybride. AdaBeam surpasse les méthodes existantes sur la plupart des tâches et s'adapte mieux aux grands modèles d'IA. Le processus de conception computationnelle typique implique la génération de données, l'entraînement du modèle, la génération de séquences candidates et la validation. NucleoBench se concentre sur l'amélioration de l'étape de génération de séquences candidates. Les benchmarks existants utilisent souvent des algorithmes plus anciens qui ne tirent pas parti des informations des modèles d'IA modernes. NucleoBench comprend des algorithmes sans gradient et basés sur les gradients pour une comparaison complète. AdaBeam combine des éléments efficaces des algorithmes existants pour obtenir des performances et une efficacité supérieures. Il démontre que s'appuyer uniquement sur les gradients n'est pas toujours nécessaire pour obtenir les meilleures performances. Les avancées d'AdaBeam incluent une efficacité accrue, une exploration plus intelligente et une utilisation réduite de la mémoire.
CdXz5zHNQW_B9cu5RlI3n.png
Les grands modèles de langage (LLM) sont puissants mais coûteux en calcul, ce qui entraîne une inférence lente et onéreuse. Pour y remédier, les cascades utilisent des modèles plus petits et plus rapides pour traiter les requêtes simples avant de recourir à des LLM plus grands et plus performants. Cette approche vise à réduire les coûts en n'engageant des modèles coûteux que pour les tâches complexes. Le décodage spéculatif, quant à lui, accélère l'inférence des LLM en faisant rédiger les futurs jetons par un modèle plus petit, que le modèle plus grand vérifie ensuite en parallèle. Cela accélère la génération sans modifier le résultat final, mais peut augmenter l'utilisation de la mémoire. L'article présente les "cascades spéculatives", une nouvelle méthode combinant les avantages des cascades et du décodage spéculatif. Les cascades spéculatives utilisent une "règle de report" flexible qui permet d'accepter le brouillon d'un modèle plus petit même s'il ne correspond pas parfaitement à la sortie du modèle plus grand. Cette approche hybride offre de meilleurs compromis coût-qualité que l'une ou l'autre des techniques prises isolément. Des expériences sur diverses tâches linguistiques ont démontré que les cascades spéculatives permettent d'obtenir des accélérations plus importantes et de meilleures mesures de qualité. La flexibilité de la règle de report permet une personnalisation basée sur la confiance, l'analyse coût-bénéfice ou des vérifications spécifiques aux jetons. Cette innovation permet aux applications LLM d'être à la fois plus rapides et plus intelligentes en optimisant l'équilibre entre le coût de calcul et la qualité de la sortie.
CdXz5zHNQW_2WaKDny7yL.png
La recherche scientifique est souvent ralentie par la création fastidieuse de logiciels personnalisés pour l'évaluation des hypothèses. Cet article présente un système d'IA construit avec Gemini qui génère des logiciels empiriques de niveau expert à cette fin. Le système prend en entrée un problème défini et une méthode d'évaluation, proposant des concepts novateurs et les implémentant sous forme de code. Il itère ensuite à travers des milliers de variantes de code pour optimiser les performances à l'aide d'une stratégie de recherche arborescente. Le système a été testé sur six benchmarks multidisciplinaires, obtenant des résultats de niveau expert dans les domaines de la génomique, de la santé publique, de l'analyse géospatiale, des neurosciences, de la prévision de séries temporelles et de l'analyse numérique. Les logiciels empiriques sont conçus pour maximiser un score de qualité prédéfini, et les tâches notables sont celles qui peuvent être traitées par ce type de logiciel. Le système d'IA génère des idées de recherche, les implémente sous forme de code exécutable et utilise un LLM pour affiner le code afin d'améliorer les scores. Ce processus réduit considérablement le temps d'exploration de plusieurs mois à quelques heures ou jours, produisant des solutions vérifiables, interprétables et reproductibles. Le système d'IA a démontré sa maîtrise en générant des solutions novatrices à des problèmes complexes, surpassant les méthodes existantes développées par des experts dans plusieurs benchmarks, notamment la prédiction des hospitalisations dues au COVID-19 et l'intégration de données de séquençage d'ARN unicellulaire. Cette avancée promet d'accélérer la découverte scientifique en permettant aux chercheurs d'explorer rapidement un grand nombre de solutions potentielles.
CdXz5zHNQW_6tSVn14npx.png
CdXz5zHNQW_wf799DxNvS.png
CdXz5zHNQW_fzb8IapfxF.png
"Les YouTube Shorts visent à fournir des effets magiques en temps réel pour les créateurs en appliquant des intelligences artificielles génératives avancées sur les appareils mobiles. Cela est réalisé en distillant de grands modèles d'IA en modèles plus petits et spécifiques à une tâche qui peuvent fonctionner efficacement image par image sur les téléphones. Le processus commence par la curation de jeux de données faciaux divers et de haute qualité, garantissant l'inclusivité à travers les démographiques. Une technique clé est la distillation de connaissances, utilisant un modèle "enseignant" puissant et un modèle "élève" léger. L'enseignant, initialement StyleGAN2 et plus tard des modèles comme Imagen, effectue des générations complexes, tandis que l'élève, construit avec un UNet et un MobileNet, est optimisé pour les appareils mobiles. La formation implique la génération de paires d'images à partir de l'enseignant et la formation de l'élève avec des fonctions de perte spécifiques et une recherche d'architecture neuronale. Un défi critique est la préservation de l'identité de l'utilisateur, abordé par une technique appelée inversion de réglage pivot (PTI). Le PTI affine un générateur à un visage spécifique, permettant des éditions dans l'espace latent sans altérer la ressemblance. La solution sur appareil utilise le framework MediaPipe de Google pour la détection, l'alignement et l'intégration transparente du modèle élève. Le pipeline atteint des performances en temps réel, fonctionnant à une vitesse de moins de 33 millisecondes par image pour une expérience utilisateur fluide. Cette technologie a alimenté de nombreuses fonctionnalités populaires de YouTube Shorts depuis 2023, améliorant les possibilités créatives. L'équipe continue d'innover, visant à intégrer de nouveaux modèles et à réduire la latence pour une accessibilité plus large des appareils."
CdXz5zHNQW_8wndZAykAn.gif
Les jeux de données volumineux basés sur les utilisateurs sont essentiels à l'avancement de l'IA, améliorant les services et la personnalisation. Le partage de ces jeux de données accélère la recherche mais pose des risques pour la vie privée. La sélection de partitions différentiellement privées (DP) identifie des sous-ensembles de données sûrs et communs en ajoutant du bruit pour protéger les contributions individuelles. Ceci est crucial pour des tâches telles que l'extraction de vocabulaire et l'analyse de données privées. Le traitement de jeux de données massifs nécessite des algorithmes parallèles, pas seulement pour la vitesse, mais pour gérer des échelles immenses. Notre publication, « Scalable Private Partition Selection via Adaptive Weighting », présente un algorithme parallèle efficace pour la sélection de partitions DP. Cet algorithme est scalable jusqu'à des centaines de milliards d'éléments, dépassant considérablement les capacités précédentes. L'objectif est de maximiser les éléments sélectionnés tout en préservant la vie privée des utilisateurs, en priorisant les données populaires. L'approche standard implique la pondération, l'ajout de bruit et le filtrage des éléments en fonction d'un seuil. Notre nouvel algorithme de pondération adaptative, MAD, réaffecte le "poids excédentaire" des éléments populaires à ceux qui se situent juste en dessous du seuil de confidentialité. Cela améliore l'utilité en incluant plus d'éléments sans compromettre la confidentialité ou la scalabilité. Les expériences montrent que notre algorithme MAD à deux itérations obtient des résultats de pointe, produisant plus d'éléments que d'autres méthodes avec les mêmes garanties de confidentialité. Nous rendons notre algorithme open-source pour favoriser l'innovation communautaire.
CdXz5zHNQW_KfEjWw8vMV.png
La génération de données textuelles synthétiques à grande échelle et différentiellement privées fait face à un compromis entre la confidentialité, les calculs et l'utilité. Une méthode courante mais coûteuse en termes de calcul consiste à affiner les grands modèles de langage sur des données privées. Les approches basées sur des API comme Aug-PE reposent sur des prompts manuels et ont du mal à utiliser les informations privées. Le cadre CTCL proposé génère des données synthétiques préservant la confidentialité sans avoir à affiner de grands modèles de langage massive ou à nécessiter une ingénierie de prompts extensive. Il utilise un modèle léger de 140 millions de paramètres, ce qui le rend adapté aux environnements à ressources limitées. CTCL conditionne la génération en fonction des informations de topic pour correspondre aux distributions de données privées. Contrairement à Aug-PE, CTCL peut produire des échantillons de données synthétiques illimités sans coûts de confidentialité supplémentaires. Les expériences montrent que CTCL surpasse les repères, en particulier sous des garanties de confidentialité fortes, démontrant son efficacité pour capturer des informations utiles. Les études d'ablation confirment l'importance de la pré-entraînement et de la conditionnalisation basée sur des mots-clés pour les performances et la scalabilité de CTCL. L'idée centrale de CTCL peut être étendue à des modèles plus grands pour améliorer les applications réelles.
CdXz5zHNQW_Z0zBIj4T6I.png
Nos recherches présentent guardrailed-AMIE (g-AMIE), un système d'IA conçu pour la supervision physician dans le diagnostic médical. G-AMIE peut recueillir des informations sur les patients par le dialogue et générer des résumés, des diagnostics différentiels et des plans de prise en charge. De manière cruciale, il est contraint d'empêcher de fournir des conseils médicaux individualisés. Les physicians superviseurs examinent et modifient ces informations via une interface de cockpit clinique avant la communication avec le patient. Une étude aléatoire virtuelle d'OSCE a comparé les performances de g-AMIE avec celles d'infirmiers praticiens et d'assistants/associés physicians opérant sous des contraintes similaires. Les résultats ont montré que les performances diagnostiques et les plans de prise en charge de g-AMIE étaient préférés par les superviseurs et les évaluateurs indépendants. Les acteurs patients ont également préféré les brouillons de messages patients de g-AMIE. L'étude a souligné l'adhérence de g-AMIE aux garde-fous de sécurité et la haute qualité de sa prise d'historique et de ses notes SOAP. Bien que g-AMIE ait surpassé les groupes témoins dans plusieurs métriques, le flux de travail a été spécifiquement conçu pour l'IA et ne représente pas entièrement la formation des cliniciens. Les limites incluent un désaccord potentiel des évaluateurs et la charge cognitive de la supervision. Les travaux futurs se concentreront sur l'optimisation de la verbosité et l'exploration des contextes du monde réel. Ce cadre représente une étape importante vers la collaboration homme-IA dans le diagnostic médical.
CdXz5zHNQW_SB8tCM3LeP.jpeg
La classification du contenu publicitaire non sécurisé est une tâche complexe pour laquelle les grands modèles de langage (LLM) sont bien adaptés en raison de leur compréhension contextuelle. Cependant, l'ajustement fin des LLM pour de telles tâches nécessite des données de formation de haute qualité et à grande échelle, ce qui est coûteux et chronophage à curer. Le dérive des concepts, où les politiques de sécurité changent, nécessite une rééducation fréquente, ce qui augmente les coûts. Pour remédier à cela, un nouveau processus d'apprentissage actif de curation réduit considérablement la quantité de données de formation nécessaires tout en améliorant l'alignement du modèle avec les experts humains. Ce processus identifie les exemples les plus précieux pour l'annotation, réduisant ainsi de manière significative les exigences en matière de données. Les expériences ont montré une réduction des données de formation de 100 000 à moins de 500 exemples, avec une amélioration de l'alignement du modèle de jusqu'à 65 %. Le processus de curation commence par un étiquetage de données à zéro coup par un LLM, suivi d'un regroupement pour identifier les exemples confusables. Ces exemples informatifs et diversifiés sont ensuite envoyés à des experts humains pour étiquetage. Les étiquettes d'expert sont utilisées à la fois pour évaluer et affiner les modèles de manière itérative. Le processus repose sur le Kappa de Cohen pour mesurer l'alignement, car les étiquettes de vérité terrain sont souvent ambiguës. Les modèles de référence affinés sur de grands ensembles de données créés par la foule ont performé moins efficacement par rapport aux modèles curés. La nouvelle méthode démontre que la curation soigneuse de moins d'exemples plus informatifs peut conduire à des gains de performance significatifs avec beaucoup moins de données. Cette approche est particulièrement bénéfique pour des domaines comme la sécurité des annonces avec un contenu en constante évolution.
CdXz5zHNQW_GhJRxo2Thj.png
Le diabète de type 2, causé par la résistance à l'insuline, affecte des millions de personnes dans le monde, mais la détection précoce est entravée par les méthodes de test actuelles qui sont invasives ou inaccessibles. Les chercheurs ont développé des modèles d'apprentissage automatique qui peuvent prédire la résistance à l'insuline en combinant des données provenant de dispositifs portables et de tests sanguins courants. L'étude WEAR-ME a utilisé des données incluant le rythme cardiaque au repos, le nombre de pas, les modèles de sommeil, le glucose à jeun et les panneaux lipidiques pour entraîner ces modèles. La combinaison de ces sources de données a significativement amélioré la précision de la prédiction par rapport à l'utilisation d'une seule source seule. Notamment, les modèles ont performé particulièrement bien dans l'identification de la résistance à l'insuline chez les individus à haut risque, tels que ceux souffrant d'obésité et de modes de vie sédentaires.Un groupe de validation a confirmé la généralisabilité de ces modèles prédictifs. Pour améliorer la compréhension des utilisateurs, un agent d'IA appelé l'Agent de littératie et de compréhension de la résistance à l'insuline a été développé à l'aide de modèles de langage avancés. Cet agent fournit des réponses personnalisées et contextualisées sur la santé métabolique, impressionnant les endocrinologues par sa exhaustivité et sa fiabilité. La recherche met en évidence le potentiel de dépistage précoce accessible du risque de diabète de type 2 à travers des données facilement disponibles. Cette approche pourrait faciliter des interventions de style de vie opportunes pour prévenir ou retarder la maladie. Cependant, ces modèles ne sont que pour des fins d'information et de recherche et ne sont pas des dispositifs médicaux approuvés.
CdXz5zHNQW_8K7J57DBaq.png
La compréhension de l'hérédité, des maladies et de l'évolution repose sur la déchiffrage du génome, codé par les bases d'ADN. Alors que les séquenceurs d'ADN lisent ces bases, atteindre une précision à grande échelle est difficile en raison de la taille minuscule des paires de bases. Créer un génome de référence presque parfait est crucial, car les erreurs d'assemblage peuvent entraver l'identification des gènes et conduire à des variants causant des maladies manqués. L'assemblage du génome implique de séquencer répétitivement le même génome pour corriger les erreurs de manière itérative. Cependant, les trois milliards de nucléotides du génome humain signifient que même des taux d'erreur faibles s'accumulent considérablement, limitant l'utilité.Pour répondre à ces défis, DeepPolisher, une méthode d'assemblage du génome open-source, a été développée pour améliorer la précision. Ce pipeline, décrit dans un article récent, réduit les erreurs d'assemblage de 50% et les erreurs d'indel de 70%, qui sont particulièrement perturbatrices pour l'identification des gènes. Différentes technologies de séquençage existent, la méthode d'Illumina améliorant le signal mais limitant la longueur de lecture. Les technologies de séquençage à lecture longue, initialement sujettes à erreur, ont été améliorées par les efforts collaboratifs de Pacific Biosciences et de Google, réduisant les taux d'erreur.DeepPolisher, adapté de DeepConsensus, utilise une architecture de transformateur entraînée sur un génome humain hautement caractérisé. Cette méthode identifie et corrige les erreurs résiduelles dans les assemblages du génome. DeepPolisher réduit considérablement les erreurs d'indel, cruciales pour éviter les problèmes d'annotation des gènes. L'outil améliore la qualité de l'assemblage du génome, démontrée par une augmentation des scores Q de Q66,7 à Q70,1 en moyenne.La deuxième version des données du Consortium de référence du pangenome humain a bénéficié de DeepPolisher, réduisant les erreurs et permettant un diagnostic plus précis des maladies génétiques à travers les ancestries diverses. En rendant DeepPolisher open-source, le but est de diffuser largement ces avancées au sein de la communauté scientifique.
CdXz5zHNQW_4NEnms7GRh.png
L'essor de l'apprentissage automatique a créé des défis d'ingénierie complexes, ce qui a incité la recherche à utiliser de grands modèles de langage (LLM) comme agents pour automatiser ces tâches. Ces agents LLM conceptualisent les problèmes d'apprentissage automatique comme des défis d'optimisation de code, générant du code exécutable. Cependant, les agents actuels s'appuient souvent sur des méthodes familières et ont du mal à explorer en profondeur des composants de code spécifiques. Pour remédier à cela, MLE-STAR a été développé, un agent d'ingénierie d'apprentissage automatique novateur qui intègre la recherche web et l'affinage ciblé de blocs de code. MLE-STAR commence par rechercher sur le web des modèles pertinents, puis affine itérativement des blocs de code spécifiques, identifiés par des études d'ablation, en fonction de plans générés par LLM. L'agent emploie également une nouvelle stratégie pour combiner plusieurs solutions candidates. De plus, MLE-STAR inclut des modules pour le débogage, la vérification de fuites de données et l'utilisation appropriée des données. Les évaluations sur MLE-Bench-Lite ont démontré la supériorité significative de MLE-STAR par rapport aux alternatives existantes, remportant des médailles dans 63% des compétitions Kaggle. Ce succès est attribué à son utilisation de modèles plus récents, à son affinage ciblé et à ses mécanismes de vérification robustes. L'approche automatisée de MLE-STAR vise à réduire les barrières à l'adoption de l'apprentissage automatique et à s'adapter aux avancées dans le domaine. Un codebase open-source pour MLE-STAR est maintenant disponible.
CdXz5zHNQW_pvpMGEctOp.png
CdXz5zHNQW_HUK47yosTR.png
Les appareils portables collectent d'énormes quantités de données de santé personnelles, mais comprendre le contexte derrière ces données a été un défi. Cette lacune empêche de réaliser le plein potentiel des informations personnalisées sur la santé. L'annotation manuelle des données de capteurs avec du texte descriptif est irréalisable en raison des coûts et du temps. Pour résoudre ce problème, SensorLM, une famille de modèles fondamentaux sensoriels-linguistiques, a été développée. SensorLM est pré-entraîné sur un volume sans précédent de 59,7 millions d'heures de données multimodales de capteurs provenant de plus de 103 000 individus. Cela lui permet d'interpréter et de générer des descriptions lisibles par l'homme à partir des données des capteurs portables. Un pipeline hiérarchique novateur génère automatiquement des légendes descriptives, créant ainsi le plus grand ensemble de données sensoriels-linguistiques à ce jour. SensorLM offre des capacités telles que la compréhension des capteurs en mode zéro-shot, l'alignement capteurs-texte et la génération de légendes de capteurs. Il démontre des performances de pointe dans des tâches telles que la reconnaissance d'activité et excelle dans la génération de légendes cohérentes et factuellement correctes. Les performances du modèle s'améliorent constamment avec plus de données, des modèles plus grands et une puissance de calcul accrue. SensorLM représente une avancée significative pour rendre les données de santé personnelles compréhensibles et exploitables, ouvrant la voie aux futurs coachs de santé numériques et aux applications de bien-être.
CdXz5zHNQW_6KwERMjREC.png
Le clavier Gboard de Google utilise de grands et petits modèles de langage (LLMs et LM) pour des fonctionnalités comme la prédiction de frappe et la correction orthographique. L'entraînement de ces modèles nécessite des données de haute qualité, mais l'utilisation de données utilisateur soulève des préoccupations de confidentialité. Pour répondre à cela, Gboard emploie des données synthétiques générées par des LLM entraînés sur des données publiques, imitant l'interaction utilisateur sans révéler d'informations privées. Ces données synthétiques pré-entraînent les modèles, améliorant leur performance avant une formation supplémentaire avec des techniques de préservation de la confidentialité comme l'apprentissage fédéré et la confidentialité différentielle. Cette approche minimise les risques de confidentialité tout en améliorant significativement la précision des modèles, ce qui se traduit par des améliorations des fonctionnalités de Gboard. Le processus implique de solliciter les LLM pour générer des données de frappe mobile réaliste, qui sont ensuite utilisées pour pré-entraîner des modèles plus petits. Un "module de soutien", un petit modèle entraîné sur des données utilisateur avec confidentialité différentielle, affine encore les données synthétiques pour une meilleure adaptation de domaine. Cette approche combinée améliore à la fois les petits et les grands modèles, améliorant les fonctionnalités de Gboard tout en protégeant la confidentialité des utilisateurs. Le système intègre plusieurs garanties de confidentialité, notamment la minimisation et l'anonymisation des données. Les recherches en cours se concentrent sur l'amélioration de la génération et de l'application de données synthétiques préservant la confidentialité pour une performance de modèle encore meilleure et une expérience utilisateur améliorée.
CdXz5zHNQW_Pu7NQvCxnG.png
"Les appareils portables génèrent d'énormes quantités de données de santé, mais l'étiquetage de ces données est coûteux. L'apprentissage auto-supervisé (SSL) peut exploiter les données non étiquetées pour apprendre les structures de données sous-jacentes. Les méthodes SSL actuelles ont du mal à gérer les données incomplètes, un problème courant dans les flux de capteurs de senseurs portables en raison de diverses raisons. "LSM-2" introduit le masquage adaptatif et hérité (AIM), un cadre SSL qui apprend directement à partir de données de capteurs de senseurs portables incomplètes. AIM utilise une approche de masquage double, traitant les jetons masqués naturellement et artificiellement de manière équivalente. Un modèle de capteur large (LSM-2) a été développé en utilisant AIM, améliorant le modèle LSM-1 précédent. LSM-2 a été pré-entraîné sur 40 millions d'heures de données de capteurs portables provenant de 60 000 participants. Il a été évalué sur des tâches telles que la reconnaissance d'activité, la classification de l'hypertension et la reconstruction de données. LSM-2 surpasse LSM-1 en termes de classification, de reconstruction et de prédiction de métriques de santé. AIM permet à LSM-2 de gérer les données manquantes sans imputation, ce qui améliore les performances et la robustesse. LSM-2 montre également une amélioration de la mise à l'échelle à travers les utilisateurs, le volume de données et la taille du modèle."
CdXz5zHNQW_UBgwlKqhZf.jpeg
Les appareils grand public, tels que les smartphones, sont de plus en plus capables de surveiller la condition physique et le bien-être grâce à divers capteurs. Google a précédemment développé une technologie de détection du sommeil utilisant un radar, appelée Soli, qui peut suivre les signes vitaux comme la fréquence cardiaque et le rythme respiratoire pendant le sommeil et la méditation. Des chercheurs ont maintenant démontré que la technologie ultra-large bande (UWB), couramment présente dans les téléphones mobiles, peut être utilisée pour la mesure de la fréquence cardiaque par radar. La technologie UWB a été largement inexploitée pour la détection par radar, mais elle a le potentiel de surveiller les signes vitaux. Les capacités radar de l'UWB permettent la mesure sans contact de la fréquence cardiaque, ce qui est difficile en raison des minuscules mouvements de la paroi thoracique causés par le battement de cœur. Pour surmonter ce défi, les chercheurs ont développé une nouvelle méthode qui utilise de manière optimale les propriétés uniques du signal radar pour obtenir une mesure de la fréquence cardiaque très précise. Les chercheurs ont également étudié si les caractéristiques apprises du radar FMCW pouvaient être transférées au radar UWB, et ont découvert que les caractéristiques apprises peuvent être transférées entre les types de radar pour la mesure des signes vitaux. L'étude a montré que le modèle peut atteindre une erreur absolue moyenne de 4,1 battements par minute et une erreur en pourcentage absolue moyenne de 6,3 % pour la mesure de la fréquence cardiaque à l'aide du radar UWB. Cette technologie a le potentiel de permettre la mesure sans contact de la fréquence cardiaque à l'aide d'appareils grand public, d'autant plus que la technologie UWB devient plus répandue dans les téléphones mobiles. La recherche établit les bases pour de futures applications, y compris la surveillance continue de la fréquence cardiaque dans divers contextes quotidiens.
CdXz5zHNQW_DdTJZ7bwbp.jpeg
Les tremblements de terre représentent une menace constante pour les communautés du monde entier, et donner aux gens quelques secondes d'avertissement avant que les secousses ne commencent peut sauver des vies. L'objectif des systèmes d'alerte précoce aux tremblements de terre (EEW) est d'offrir aux gens de précieuses secondes pour se mettre à l'abri, mais ces systèmes sont souvent coûteux et limités à certaines régions. Des chercheurs ont développé un système d'alerte aux tremblements de terre Android qui utilise le réseau mondial de smartphones Android comme un puissant système de détection des tremblements de terre. Le système a détecté des milliers de tremblements de terre et envoyé des alertes à des millions de personnes dans près de 100 pays, fournissant souvent de précieuses secondes d'avertissement. Le système fonctionne en utilisant l'accéléromètre des téléphones Android pour détecter l'onde P initiale d'un tremblement de terre, qui est ensuite analysée pour confirmer le tremblement de terre et estimer son emplacement et sa magnitude. Le système envoie deux types d'alertes : "Soyez Prudent" pour les secousses légères et "Agissez" pour les secousses plus fortes. Le système a été déployé dans 98 pays et a détecté plus de 18 000 tremblements de terre, envoyant 790 millions d'alertes dans le monde. Le système a amélioré son estimation de magnitude au fil du temps, avec une erreur absolue médiane de 0,25, et a reçu des commentaires extrêmement positifs de la part des utilisateurs. Le système est en constante évolution et amélioration, et ses données contribuent à élaborer des modèles de prédiction plus précis, avec le potentiel de fournir rapidement des informations post-tremblement de terre aux intervenants d'urgence à l'avenir.
CdXz5zHNQW_emPO9tteWz.png
Les bases de données relationnelles sont largement utilisées dans les formats de données d'entreprise et alimentent de nombreux services de prédiction, mais les méthodes d'apprentissage automatique traditionnelles ont du mal à exploiter pleinement la structure de connectivité de ces schémas relationnels. Les réseaux de neurones graphiques (GNN) sont bien adaptés aux données structurées en graphes, mais la plupart des GNN sont fixes à un graphique particulier et ne peuvent pas généraliser à de nouveaux graphiques avec de nouveaux nœuds, des types d'arêtes, des fonctionnalités et des étiquettes de nœuds. L'objectif est de concevoir un modèle unique qui puisse exceller sur des tables relationnelles interconnectées et généraliser à tout ensemble arbitraire de tables, de fonctionnalités et de tâches sans entraînement supplémentaire. Cela peut être réalisé en transformant les tables relationnelles en un seul graphe hétérogène, où chaque table devient un type de nœud unique et chaque ligne dans une table devient un nœud. Un modèle de fondation de graphe (GFM) peut être entraîné sur un graphe et effectuer une inférence sur tout graphe inconnu malgré les différences de structure et de schéma. Le défi clé est de créer une méthode de transfert pour encoder les schémas de base de données arbitraires et gérer les fonctionnalités de nœuds. Les résultats montrent que les GFM peuvent apporter des améliorations significatives de performance par rapport aux repères tabulaires traditionnels, et que l'exploitation de la structure des données peut améliorer les modèles d'apprentissage automatique avec des applications larges dans l'intelligence artificielle.
CdXz5zHNQW_7H5UMxH7tS.png
Les soins de santé utilisent de plus en plus l'intelligence artificielle pour améliorer la gestion du flux de travail, la communication avec les patients, et le soutien diagnostique et thérapeutique, et il est essentiel que ces systèmes basés sur l'IA soient performants, efficaces et respectueux de la vie privée. Pour répondre à ce besoin, les Fondations de développement d'IA pour la santé (HAI-DEF) ont été créées, une collection de modèles légers ouverts qui offrent aux développeurs des points de départ solides pour leurs propres recherches et développements d'applications de santé. Les modèles HAI-DEF sont ouverts, permettant aux développeurs de conserver le contrôle total sur la vie privée, l'infrastructure et les modifications apportées aux modèles. La collection MedGemma, partie intégrante de HAI-DEF, comprend des variantes de 4B et 27B qui acceptent des entrées d'images et de texte et produisent des sorties de texte. Les modèles MedGemma sont des points de départ solides pour la recherche médicale et le développement de produits, utiles pour les tâches médicales de texte ou d'imagerie qui nécessitent la génération de texte libre. MedSigLIP est un encodeur d'images et de texte léger pour la classification, la recherche et les tâches connexes, et est recommandé pour les tâches d'imagerie qui impliquent des sorties structurées comme la classification ou la récupération. Tous les modèles MedGemma et MedSigLIP peuvent être exécutés sur une seule carte graphique, et certains peuvent même être adaptés pour fonctionner sur du matériel mobile. La collection MedGemma est ouverte, permettant aux développeurs de télécharger, de construire et d'affiner les modèles pour répondre à leurs besoins spécifiques. Les chercheurs et les développeurs explorent les modèles MedGemma pour leurs cas d'utilisation, les trouvant aptes à résoudre des problèmes cruciaux. Pour aider les développeurs à démarrer, des carnets de notes détaillés sur GitHub montrent comment créer des instances de MedSigLIP et de MedGemma pour l'inférence et l'affinage sur Hugging Face.
CdXz5zHNQW_7JsMQLMuDP.png
Les capacités de conversion de la parole en texte sur les appareils mobiles sont devenues essentielles pour l’accessibilité, la traduction, la prise de notes et les transcriptions de réunions, mais les applications existantes ont du mal à distinguer les intervenants dans les conversations de groupe. Cette limitation crée une surcharge cognitive pour les utilisateurs, ce qui rend difficile de suivre qui dit quoi. Les solutions actuelles reposant sur le machine learning sont difficiles à mettre en place dans des scénarios mobiles. L’approche SpeechCompass améliore le sous-titrage mobile avec la diarisation du locuteur et la localisation en temps réel du son entrant, fournissant des transcriptions conviviales pour les conversations de groupe. SpeechCompass utilise une approche multi-microphones, ce qui réduit les coûts de calcul, réduit la latence et améliore la préservation de la vie privée. Le système peut localiser avec précision la direction du son avec une erreur moyenne de 11° à 22° pour une intensité sonore de conversation normale. Le taux d’erreur de diarisation (DER) montre que la configuration à quatre microphones surpasse systématiquement la configuration à trois microphones. L’évaluation et les commentaires des utilisateurs démontrent la valeur du guidage directionnel pour les conversations de groupe, le texte coloré et les flèches directionnelles étant les méthodes de visualisation les plus préférées. Le système SpeechCompass a de nombreuses applications pratiques, telles que dans les salles de classe, les réunions d’affaires et les rassemblements sociaux. Les orientations de développement futures comprennent l’intégration avec des facteurs de forme portables, une robustesse accrue au bruit et des études longitudinales pour comprendre l’adoption et le comportement dans des scénarios quotidiens.
CdXz5zHNQW_T2Ojq2cOgo.jpeg
Le passage à des modes de transport durable comme les véhicules électriques, le covoiturage et les transports en commun a rendu les temps de trajet plus variés en raison de la disponibilité de voies réservées comme les voies de covoiturage. Les voies HOV (High-Occupancy Vehicle) sont généralement plus rapides que les voies générales pendant les heures de pointe, avec une différence de vitesse moyenne d'environ 16% dans la vallée de Salt Lake City, dans l'Utah. Des prédictions précises de l'heure d'arrivée estimée (ETA) et des itinéraires optimisés sont essentiels pour améliorer l'expérience des trajets. Google Maps a récemment introduit une fonctionnalité qui permet aux conducteurs de sélectionner des itinéraires qui incluent des voies HOV et de voir l'ETA de cet itinéraire. Pour développer cette fonctionnalité, Google a mis au point un système de classification pour déterminer les trajets HOV par rapport aux trajets non-HOV. Le système de classification utilise une approche d'apprentissage non supervisé, analysant les tendances de trafic agrégées et anonymisées pour inférer les temps de trajet HOV passés. Le système utilise ensuite ces temps inférés pour entraîner des modèles de prédiction d'ETA spécifiquement pour les voies HOV. La tâche de classification implique l'analyse des données de vitesse, de la distance latérale estimée par rapport au centre de la route et du regroupement temporel pour différencier entre les voyageurs HOV et non-HOV. La classification finale du trajet est déterminée en agrégeant les résultats de classification de chaque segment et en utilisant une approche de mélange d'experts. Les nouvelles estimations d'ETA basées sur les voies HOV ont amélioré la précision globale de l'ETA pour les conducteurs utilisant cette fonctionnalité de 75%, la rendant comparable aux itinéraires sans voies HOV.
CdXz5zHNQW_Nl5ScVy6fK.png
Les grands modèles de langage sont en train de changer la façon dont les systèmes de recommandation interagissent avec les utilisateurs, allant au-delà de la prédiction de l'élément suivant que l'utilisateur pourrait aimer pour comprendre leurs besoins et s'adapter grâce à des commentaires en langage naturel. Cependant, aucun jeu de données n'existe pour explorer ces nouvelles capacités, c'est pourquoi un nouveau jeu de données de référence appelé Reviews Enhanced with GEnerative Narratives (REGEN) a été développé. REGEN intègre des recommandations d'éléments, des fonctionnalités de langage naturel et des narrations personnalisées, permettant d'explorer et de benchmark les nouvelles architectures de systèmes de recommandation. Le jeu de données a été créé en augmentant le jeu de données d'évaluations de produits Amazon avec des critiques utilisateur synthétiques et des narrations générées à l'aide du modèle Flash Gemini 1.5. REGEN permet d'évaluer les modèles qui intègrent les commentaires des utilisateurs et produisent du langage naturel cohérent avec les recommandations. Les expériences montrent que les grands modèles de langage formés sur REGEN peuvent générer efficacement à la fois des recommandations et des narrations contextuelles, atteignant des performances comparables à celles des meilleurs systèmes de recommandation et modèles de langage. Le jeu de données comprend des critiques, qui permettent aux utilisateurs d'exprimer leurs préférences, et des narrations, qui fournissent des informations contextuelles riches sur les éléments recommandés. Deux architectures de référence ont été développées pour explorer différentes approches de modélisation : un système hybride et un modèle génératif complet appelé LUMEN. Les résultats montrent que REGEN peut challenger et différencier de manière significative les modèles à la fois pour les tâches de recommandation et de génération, et que l'intégration des critiques utilisateur dans l'entrée améliore systématiquement les métriques de recommandation. REGEN fournit une ressource fondamentale pour étudier les capacités des modèles de recommandation conversationnels, faisant progresser la recommandation conversationnelle en intégrant le langage comme élément fondamental.
CdXz5zHNQW_270TAgJClB.png
Google Recherche est animé par l'exploration du champ des possibles et apporte une contribution tangible à la lutte contre les crises climatiques telles que les incendies de forêt, les inondations, les phénomènes météorologiques extrêmes et les cyclones. L'entreprise fait progresser la recherche et exploite l'innovation technologique pour aider à renforcer la résilience et à fournir des prévisions fiables et opportunes de ces menaces. Le modèle hydrologique mondial révolutionnaire basé sur l'IA de Google Recherche permet des prévisions d'inondations précises dans le monde entier jusqu'à sept jours à l'avance, couvrant plus de 700 millions de personnes dans plus de 100 pays. L'entreprise travaille également à améliorer le délai et la précision des prévisions de cyclones, en prédisant leur existence, leur trajectoire, leur intensité, leur taille et leur structure jusqu'à 15 jours à l'avance. De plus, Google Recherche applique l'IA pour améliorer les prévisions météorologiques quotidiennes, en générant des prévisions météorologiques hyper-locales à court terme avec une résolution de 5 km, mises à jour toutes les 15 minutes, jusqu'à 12 heures à l'avance. L'entreprise exploite également l'IA pour comprendre et atténuer la menace croissante des incendies de forêt, en détectant des incendies aussi petits qu'une salle de classe de 5x5 mètres grâce à sa constellation de satellites FireSat. De plus, Google Recherche ouvre de nouvelles frontières en permettant des connaissances sur la planète grâce au raisonnement géospatial, un cadre qui rassemble les modèles de la Terre et l'IA générative pour accélérer la résolution de problèmes géospatiaux. L'entreprise utilise également l'IA pour réduire les émissions liées au transport et améliorer la qualité de l'air, ouvrant la voie à une plus grande durabilité des transports aériens et terrestres. Dans l'ensemble, Google Recherche est convaincu que les progrès de l'IA et de la recherche scientifique peuvent jouer un rôle essentiel dans la résolution des problèmes difficiles que posent les prévisions mondiales fiables et opportunes, en vue d'une meilleure résilience climatique.
CdXz5zHNQW_zA7FQj8Zaz.png
"La correction d'erreur est cruciale pour les ordinateurs quantiques à grande échelle, et elle implique de combiner des qubits physiques pour créer un qubit logique plus robuste face au bruit. Récemment, une expérience de correction d'erreur quantique de code de surface a dépassé le seuil de performance, permettant la création d'un qubit logique presque parfait en ajoutant plus de qubits physiques. Pour améliorer encore la correction d'erreur, les chercheurs explorent des moyens de minimiser le nombre de qubits physiques par qubit logique et de maximiser la vitesse des opérations logiques. Une approche consiste à améliorer la qualité des qubits physiques, tandis qu'une autre consiste à rendre le code de correction d'erreur plus efficace. Une nouvelle expérience a démontré un système de code de couleur, qui offre une alternative au code de surface et nécessite moins de qubits physiques et dispose de portes logiques plus efficaces. Le code de couleur utilise un motif triangulaire de mesure de parité, qui est plus efficace que le motif carré du code de surface. Cependant, le code de couleur nécessite des circuits physiques plus profonds et un algorithme de décodage différent, ce qui le rend plus difficile à mettre en œuvre. Malgré cela, l'expérience a montré que le code de couleur peut atteindre des performances en dessous du seuil, et son avantage géométrique peut devenir plus significatif à plus grande échelle. Le code de couleur permet également des opérations logiques à qubit unique plus rapides et peut être utilisé pour générer des "états magiques" nécessaires pour les rotations de qubit arbitraires. Dans l'ensemble, le code de couleur est une alternative prometteuse au code de surface et pourrait devenir un élément clé des ordinateurs quantiques à grande échelle."
CdXz5zHNQW_NFZqJLBOEx.png
"L'agrégation de diverses sources de données de santé, notamment les dossiers de santé électroniques, les images médicales et les données des montres intelligentes, crée une grande quantité de données à analyser pour les chercheurs et les cliniciens. Ces flux de données divers souvent portent des signaux uniques et chevauchants, même au sein du même système d'organes. Dans le système cardiovasculaire, par exemple, les données d'électrocardiogramme (ECG) et de photopléthysmogramme (PPG) peuvent être combinées pour fournir une image plus complète de la santé cardiaque. L'intégration de ces signatures physiologiques avec des informations génétiques provenant de grandes biobanques pourrait permettre l'identification des fondements génétiques des maladies. Les auteurs ont développé une version multimodale de leur modèle précédent, REGLE, appelée M-REGLE, qui permet l'analyse de plusieurs types de données cliniques ensemble à la fois. M-REGLE produit une erreur de reconstruction plus faible, identifie plus d'associations génétiques et surpasse les scores de risque dans la prédiction de la maladie cardiaque par rapport à son prédécesseur, U-REGLE. M-REGLE emploie une approche robuste et mult étape qui utilise l'apprentissage conjoint pour combiner plusieurs modalités, capturer les informations les plus essentielles et trouver des associations entre les facteurs indépendants calculés et les données génétiques. Le modèle améliore U-REGLE pour produire des "représentations apprises" de la données de manière consistante, résultant en des erreurs de reconstruction significativement plus faibles et capturant les informations essentielles à partir des formes d'onde originales. M-REGLE a également fait des améliorations par rapport à U-REGLE dans l'identification des associations génétiques avec la maladie cardiovasculaire et a découvert plusieurs nouveaux locus qui n'étaient pas précédemment associés à ces traits. Les scores de risque polygénique du modèle surpassent significativement ceux de U-REGLE dans la prédiction de la maladie cardiaque, en particulier la fibrillation atriale."
CdXz5zHNQW_8OCibkIK1O.png
La planification de tâches implique souvent à la fois des contraintes quantitatives et des objectifs qualitatifs, et les grands modèles de langage (LLM) sont bons pour gérer les aspects qualitatifs, mais ont du mal avec les contraintes logistiques quantitatives. Pour surmonter cela, un système hybride a été développé qui utilise un LLM pour suggérer un plan initial, puis optimise pour la similarité avec le LLM et les facteurs du monde réel comme le temps de trajet et les heures d'ouverture. Le système prend une requête utilisateur, la passe à un LLM, puis ajoute des composants pour résoudre les problèmes de faisabilité, notamment en ancrant l'itinéraire avec des données du monde réel et en récupérant des activités de substitution. L'algorithme d'optimisation comporte deux étapes, déterminant d'abord la planification optimale pour chaque jour, puis recherchant un itinéraire global qui maximise le score total. L'algorithme effectue des ajustements locaux sur l'itinéraire initial pour augmenter le score total, aboutissant à un itinéraire final. Le système a été testé avec des requêtes, telles que la planification d'un voyage à New York pour visiter des musées moins connus, et a pu produire un itinéraire plus adapté que si l'on s'appuyait uniquement sur des activités récupérées par recherche. Le système a également corrigé des problèmes avec l'itinéraire initial suggéré par le LLM, tels que la planification d'activités de manière non naturelle. Ce travail a des implications pour d'autres tâches quotidiennes, telles que l'organisation d'un événement ou la planification de courses, et fait partie d'un effort plus large pour développer des systèmes qui permettent aux LLM de naviguer dans les contraintes du monde réel. Le système a été développé en collaboration avec plusieurs individus et a reçu des conseils utiles de la part d'autres personnes.
CdXz5zHNQW_Z59Sl7z87C.png
Les modèles du système terrestre sont cruciaux pour prédire les changements environnementaux futurs, mais leur coût de calcul élevé limite leur capacité à faire des projections régionales à des échelles fines. Pour y remédier, une nouvelle méthode d’IA générative a été développée pour combler l’écart de résolution entre les modèles du système terrestre et les besoins des utilisateurs en aval. La méthode, appelée downscaling dynamical-generative, applique des modèles de diffusion probabilistes à la sortie de modèles physiques bien établis pour traduire les projections climatiques mondiales en évaluations locales des risques environnementaux. Cette approche produit des évaluations détaillées des risques environnementaux locaux pour une petite fraction du coût des techniques de pointe existantes. La méthode implique un processus en deux étapes, où un modèle climatique régional réduit l’échelle des données mondiales du système terrestre à une résolution intermédiaire, puis un système d’IA générative ajoute des détails à petite échelle à la sortie. Cette approche hybride tire parti des points forts des deux méthodes, en fournissant une génération efficace et physiquement ancrée de détails haute résolution. Les résultats montrent que la réduction d’échelle dynamique-générative réduit les erreurs de petite échelle de plus de 40 % par rapport aux méthodes statistiques et capture des modèles spatiaux et des corrélations réalistes entre différentes variables météorologiques. La méthode fournit également de meilleures estimations de l’incertitude et capture les extrêmes régionaux, tels que le risque d’incendie de forêt dû aux vents de Santa Ana en Californie du Sud. Cette percée permet d’obtenir des projections climatiques régionales futures complètes à des échelles exploitables inférieures à 10 km, ce qui rend la réduction d’échelle de grands ensembles de modèles du système terrestre réalisable par calcul. En fournissant des projections climatiques régionales plus précises et plus complètes, la réduction d’échelle dynamique-générative peut améliorer considérablement les évaluations des risques environnementaux et éclairer des décisions mieux éclairées pour les politiques d’adaptation et de résilience.
CdXz5zHNQW_MRzPJgsx30.png
Les modèles de langage de grande taille (LLMs) sont devenus un paradigme principal pour développer des agents conversationnels intelligents, mais ils manquent souvent de compétences conversationnelles multi-tours telles que la désambiguïsation. Pour remédier à cela, les auteurs proposent la formation auto-supervisée par contraste basée sur les actions (ACT), un algorithme d'optimisation quasi-en ligne qui permet d'apprendre des politiques de dialogue efficaces dans la modélisation de conversations multi-tours. ACT démontre des améliorations substantielles de la modélisation de conversations par rapport aux approches d'ajustement standard telles que la mise à jour supervisée et la DPO. Les auteurs introduisent également AmbigSQL, une tâche novatrice pour désambiguïser les requêtes d'information complexes générant du code SQL structuré. ACT implique la construction d'un jeu de données de préférence, la synthèse de réponses rejetées et la mise à jour de politique utilisant l'objectif DPO. Les auteurs expérimentent ACT avec des LLMs à poids ouverts sur un ensemble diversifié de données conversationnelles et comparent avec diverses lignes de base compétitives, notamment la mise à jour supervisée, l'optimisation de préférence par raisonnement itératif et la mise en contexte d'exemples d'apprentissage avec Gemini et Claude. ACT atteint les meilleures performances sur tous les métriques, avec une amélioration relative de jusqu'à 19,1% par rapport à la mise à jour supervisée lors de la mesure de la capacité du modèle ajusté à reconnaître implicitement l'ambiguïté. Les auteurs réalisent également des études d'ablation pour comprendre les avantages de chaque composant d'ACT et trouvent que les préférences basées sur les actions, l'échantillonnage en ligne et la simulation de trajectoire sont cruciaux pour améliorer l'achèvement des objectifs multi-tours. Dans l'ensemble, ACT est une approche agnostique du modèle qui peut améliorer les performances, indépendamment de l'alignement préalable avec les retours humains.
CdXz5zHNQW_8bM33MsQnf.png
Les modèles d'apprentissage automatique nécessitent un ajustement fin sur des données spécifiques au domaine, mais cela peut être problématique en raison de préoccupations concernant la confidentialité. La confidentialité différentielle (DP) permet d'entraîner des modèles tout en respectant la confidentialité, mais la plupart des travaux se concentrent sur la DP au niveau de l'exemple, ce qui présente des inconvénients. La DP au niveau de l'utilisateur est une forme de confidentialité plus forte qui garantit qu'un attaquant ne peut pas apprendre de ses données, et elle est utilisée dans l'apprentissage fédéré. L'apprentissage avec la DP au niveau de l'utilisateur est plus difficile et nécessite d'ajouter plus de bruit, ce qui s'aggrave avec des modèles plus volumineux. Cet article se concentre sur l'ajustement fin de grands modèles linguistiques avec la DP au niveau de l'utilisateur dans l'entraînement en centre de données. Les auteurs modifient la descente de gradient stochastique (SGD) pour ajouter du bruit et limiter l'effet de chaque utilisateur sur le modèle. Ils comparent deux méthodes, l'échantillonnage au niveau de l'exemple (ELS) et l'échantillonnage au niveau de l'utilisateur (ULS), qui diffèrent dans la manière dont elles échantillonnent les données. Les auteurs optimisent ces algorithmes pour les grands modèles linguistiques, constatant que l'ULS est généralement meilleur, et que les deux méthodes fonctionnent mieux que l'absence d'ajustement fin malgré l'exigence stricte de confidentialité. Les optimisations permettent aux formateurs de modèles d'affiner leurs modèles sur des ensembles de données sensibles tout en offrant de fortes protections aux utilisateurs.
CdXz5zHNQW_grlyYawnxV.png
"Google I/O présente des technologies de pointe qui peuvent être utilisées pour innover et offrir de nouvelles expériences. Nombre de ces technologies sont le fruit d'années de travail au sein de Google Research, s'appuyant sur des avancées majeures en matière d'IA et d'informatique. L'édition de cette année d'I/O met en évidence l'impact de la recherche sur la réalité, avec des décennies de recherche qui deviennent aujourd'hui une réalité pour les personnes, les entreprises et les communautés du monde entier. Google Research a apporté des contributions significatives dans le domaine de la santé, notamment MedGemma, un modèle pour la compréhension multimodale de textes et d'images médicales, et AMIE, un agent d'IA de recherche pour les conversations de diagnostic médical. LearnLM, une famille de modèles affinés pour l'apprentissage, est désormais disponible dans Gemini 2.5, ce qui en fait le modèle leader mondial pour l'apprentissage. Google Research a également fait progresser la recherche sur le multilinguisme, l'efficacité et la factualité multimodale, contribuant à l'IA Mode dans Search et Imagen4. Sparkify, une nouvelle expérience Labs, transforme n'importe quelle question en une vidéo animée, et FireSat, une constellation de satellites, permet une détection plus précoce et plus précise des feux de forêt dans le monde. Google Research a également réalisé des progrès dans l'IA quantique, l'IA co-scientifique et l'accélération de la découverte scientifique dans divers domaines. La recherche mise en avant lors d'I/O représente le travail continu des équipes de Google Research, qui sont à l'origine de percées dans divers domaines et les concrétisent. Le "cycle magique" entre la recherche et l'application dans le monde réel est de plus en plus rapide et de plus grande portée, ce qui entraîne un impact plus important sur les personnes, les entreprises, la science et la société."
CdXz5zHNQW_b3M7UaYcbR.png
Les systèmes de génération augmentée par récupération (RAG) sont utilisés pour améliorer les grands modèles de langage (LLM) en leur fournissant des informations externes pertinentes. Idéalement, le LLM produit la bonne réponse ou répond par "Je ne sais pas" lorsqu'il manque certaines informations clés. Le principal défi des systèmes RAG est qu'ils peuvent induire l'utilisateur en erreur avec des informations hallucinées (et donc incorrectes). Les auteurs estiment que la pertinence du contexte seul est la mauvaise chose à mesurer - ils veulent vraiment savoir s'il fournit suffisamment d'informations au LLM pour répondre à la question ou non. Les auteurs définissent le contexte comme "suffisant" s'il contient toutes les informations nécessaires pour fournir une réponse définitive à la requête et "insuffisant" s'il manque les informations nécessaires. Les auteurs développent un moyen de quantifier la suffisance du contexte pour les LLM et lancent le LLM Re-Ranker dans le Vertex AI RAG Engine. Les auteurs montrent qu'il est possible de savoir quand un LLM dispose de suffisamment d'informations pour fournir une réponse correcte à une question. Les auteurs utilisent ces idées pour analyser les facteurs qui influencent la performance des systèmes RAG et pour analyser quand et pourquoi ils réussissent ou échouent. Les auteurs développent un évaluateur automatique de contexte suffisant qui évalue les paires requête-contexte et montrent qu'ils peuvent classer les contextes suffisants avec une très grande précision. Les auteurs utilisent leur évaluateur automatique de contexte suffisant pour analyser la performance de divers LLM et ensembles de données, ce qui conduit à plusieurs conclusions clés.
CdXz5zHNQW_ycKtJQ89W5.png
La confidentialité différentielle (DP) est un cadre de confidentialité rigoureux mathématiquement qui assure que la sortie d'un algorithme aléatoire reste statistiquement indistinguable même si les données d'un utilisateur unique changent. Il existe deux modèles principaux de DP : le modèle central, où un curateur de confiance a accès aux données brutes, et le modèle local, où tous les messages envoyés à partir d'un appareil utilisateur sont eux-mêmes différentiellement privés. Dans les scénarios de partage de données du monde réel, les utilisateurs placent souvent des de confiance variables envers les autres, en fonction de leurs relations. Cette asymétrie met en évidence la nécessité de cadres qui vont au-delà des hypothèses de confiance binaires. Le concept de confidentialité différentielle de graphe de confiance (TGDP) les relations, où les sommets représentent les utilisateurs, et les sommets connectés se font confiance. Le TGDP assure que la garantie de confidentialité s'applique aux messages partagés entre un utilisateur et tous les autres qu'il ne fait pas confiance. Le TGDP interpole de manière naturelle entre les modèles central et local, et sa précision peut être quantifiée à travers une tâche d'agrégation simple. Un algorithme basé sur un ensemble dominant du graphe de confiance peut satisfaire le TGDP, et son erreur est bornée supérieurement par une fonction de l'ensemble dominant. Une borne inférieure sur l'erreur des algorithmes TGDP est également fournie, et fermer l'écart entre les bornes supérieure et inférieure est un problème ouvert. Le modèle TGDP peut être appliqué à l'apprentissage fédéré et à l'analytique, permettant des dynamiques de confiance plus réalistes dans les systèmes de préservation de la confidentialité.
CdXz5zHNQW_lzCf8wyy52.png
Des milliards de personnes font leurs achats en ligne chaque jour, mais reproduire l'expérience en magasin est un défi. La technologie peut aider à combler ce fossé, mais la création de visualisations produit de haute qualité peut être coûteuse et chronophage. Pour y remédier, de nouvelles techniques d'IA générative ont été développées pour créer des visualisations 3D de produits « prêts à acheter » à partir de quelques images seulement. La dernière avancée utilise le modèle de génération vidéo de pointe de Google, Veo, pour générer des vues 3D interactives pour un large éventail de catégories de produits sur Google Shopping. La première génération d'approche utilisait les champs de radiance neuronaux (NeRF) pour restituer de nouvelles vues, mais souffrait de signaux d'entrée bruitées et d'ambiguïtés dues aux vues d'entrée éparses. La deuxième génération d'approche a utilisé une diffusion conditionnelle par vue pour résoudre ces limitations, conduisant à des avantages importants en termes d'évolutivité et permettant la génération de représentations 3D pour de nombreuses chaussures sur Google Shopping. La troisième génération d'approche s'appuie sur Veo pour générer des rotations à 360° à partir d'une ou plusieurs images de produits, se généralisant efficacement à travers un ensemble diversifié de catégories de produits. Cette approche a évité la nécessité d'estimer des poses précises à partir d'un ensemble clairsemé d'images de produits centrées sur l'objet, augmentant ainsi la fiabilité. Avec aussi peu de trois images, Veo peut générer de nouvelles vues de haute fidélité et de haute qualité, réduisant les hallucinations. Les perspectives d'avenir consistent à continuer de repousser les limites pour rendre les achats en ligne plus agréables, plus informatifs et plus engageants pour les utilisateurs.
CdXz5zHNQW_c4wHagSzWQ.png
Antoine van Leeuwenhoek a été la première personne à documenter des vues microscopiques de bactéries, de globules rouges et de spermatozoïdes à l'aide d'un microscope optique fait maison. La microscopie optique est depuis devenue une technique fondamentale dans les laboratoires de sciences de la vie, mais elle n'a pas réussi à percer dans le domaine de la connectomique. La connectomique est un domaine des neurosciences qui s'est appuyé sur la microscopie électronique, qui nécessite des équipements coûteux et hautement spécialisés. Des chercheurs ont maintenant développé une méthode appelée LICONN qui utilise la microscopie optique pour cartographier de manière exhaustive tous les neurones et leurs connexions dans un bloc de tissu cérébral de souris. Ceci a été réalisé en personnalisant plusieurs techniques bien établies et en les combinant en un seul flux de travail. La méthode implique d'étendre physiquement le tissu cérébral tout en préservant l'intégrité structurelle et de marquer chimiquement toutes les protéines pour fournir un contraste d'image. Les chercheurs ont validé LICONN en fournissant une reconstruction automatisée d'un volume de cortex de souris d'environ un million de microns cubes et en démontrant qu'elle fonctionne aussi bien que la connectomique basée sur la microscopie électronique. LICONN permet de mesurer simultanément des informations structurelles et moléculaires dans un échantillon de tissu, ouvrant ainsi de nouvelles opportunités fondamentales pour comprendre le fonctionnement du cerveau. Les chercheurs travaillent maintenant à l'extension de LICONN pour capturer des données à partir de volumes de tissus plus importants et collaborent sur des projets pour cartographier un cerveau de souris et comprendre comment les structures cérébrales évoluent dans le contexte de maladies comme Alzheimer.
CdXz5zHNQW_54bPA5njZM.png