RSS Google KI-Blog Notiz

RSS Google KI-Blog

Google Research ist ein Blog, der sich zum Ziel gesetzt hat, die neuesten Innovationen und Erkenntnisse der wissenschaftlichen Gemeinschaft von Google Research mit dem breiten Publikum zu teilen. Diese Plattform dient als Mittel für Forscher, um sich mit Nutzern außerhalb wissenschaftlicher Kreise zu engagieren und über neue und vielversprechende Technologien, Erkenntnisse und Innovationen zu diskutieren.Google Research veröffentlicht regelmäßig Beiträge zu verschiedenen wissenschaftlichen Themen, von künstlicher Intelligenz und Machine Learning bis hin zu Innovationen im Gesundheitswesen. Es geht auch oft auf neue Technologien ein, von selbstfahrenden Autos bis hin zu innovativen medizinischen Diagnose- und Datenanalysetechniken.Ein bemerkenswertes Merkmal des Blogs ist die Mitarbeit von Teammitgliedern. Viele der führenden Technologen und Forscher bei Google verfassen aufschlussreiche Artikel, die ihre vielfältigen Interessen und Fähigkeiten widerspiegeln. Die Webseite bietet die Gelegenheit, erst-hand Accounts der neuesten Fortschritte und Zukunftsvisionen der Technologie-Welt zu lesen.Der Blog enthält ein "Autoren"-Abschnitt, der es Nutzern ermöglicht, Artikel und Erkenntnisse von einzelnen Beiträgern zu lesen. Neben technischen Diskussionen und Innovationen behandelt der Blog auch breitere soziale und philosophische Fragen im Zusammenhang mit neuen Technologien, um Nutzern ein umfassenderes Verständnis davon zu vermitteln, wie Technologie unser tägliches Leben beeinflusst.Insgesamt bietet der Google Research-Blog eine einzigartige Mischung aus technischem Fachwissen, Forschungsergebnissen und gesellschaftlichen Auswirkungen, was ihn zu einer wertvollen Ressource für Technologie-Enthusiasten, Forscher und jeden, der daran interessiert ist, zukünftige Technologien zu verstehen und zu gestalten.

Notizfaden

Die Kombination von künstlicher Intelligenz und erweiterter Realität hat das Potenzial, ein neues Paradigma des immersiven intelligenten Computings zu erschließen, aber es besteht eine erhebliche Lücke zwischen den Ökosystemen dieser beiden Bereiche. Um diese Lücke zu schließen, wurde das XR Blocks Framework eingeführt, ein plattformübergreifendes Framework, das die menschenzentrierte KI und XR-Innovation beschleunigen soll. XR Blocks bietet eine modulare Architektur mit Plug-and-Play-Komponenten für die Kernabstraktion in KI und XR, einschließlich Benutzer, Welt, Schnittstelle, KI und Agenten. Das Framework wurde mit dem Ziel entwickelt, das Rapid Prototyping von wahrnehmungsfähigen KI- und XR-Apps zu beschleunigen, und es basiert auf zugänglichen Technologien wie WebXR, threejs, LiteRT und Gemini. Die Architektur- und API-Designentscheidungen von XR Blocks werden von drei Prinzipien geleitet: Einfachheit und Lesbarkeit, Priorisierung des Creator-Erlebnisses und Pragmatismus vor Vollständigkeit. Das XR Blocks-Framework beschleunigt das Prototyping von Echtzeit-KI- und XR-Anwendungen über Desktop-Simulatoren und Android XR-Geräte hinweg und bietet eine übergeordnete, menschenzentrierte Abstraktionsschicht, die das Was einer Interaktion vom Wie ihrer Implementierung auf niedriger Ebene trennt. Das Framework schlägt ein neues Realitätsmodell vor, das aus High-Level-Abstraktionen besteht, um die Implementierung von XR-Blöcken zu steuern, das aus austauschbaren Modulen für die XR-Interaktion besteht. Das Realitätsmodell wird durch die modulare Core-Engine von XR Blocks realisiert, die High-Level-APIs bietet, die es Entwicklern ermöglichen, Subsysteme wie Wahrnehmungs- und Eingabepipeline, KI als Kernwerkzeug sowie Erlebnis- und Visualisierungs-Toolkit zu nutzen. Das Ziel von XR Blocks ist es, Entwicklern zu ermöglichen, viel schneller von hochrangigen, menschenzentrierten Ideen zu interaktiven Prototypen zu gelangen und eine Zukunft zu ermöglichen, in der jede deklarative Aufforderung direkt in High-Level-Anweisungen in XR-Blöcken übersetzt werden kann. Insgesamt ist XR Blocks ein grundlegender Schritt in eine Zukunft, in der die Grenzen zwischen Programmierung, Design und Konversation verschwinden und es uns ermöglicht, Realitäten so flüssig zu texten, wie wir Geschichten schreiben.
Sprachbasierte Websuchen, obwohl verbreitet, weisen aufgrund des Kaskadenmodellierungsansatzes Genauigkeitsprobleme auf. Diese Methode wandelt Sprache zuerst in Text um, und jeder Fehler bei der Transkription kann zu irrelevanten Suchergebnissen führen. Zum Beispiel kann die Fehlinterpretation von "schreien" als "Bildschirm" in einer Anfrage zu einem Gemälde völlig falsche Informationen liefern. Um dies zu beheben, umgeht die Speech-to-Retrieval (S2R)-Technologie den Schritt der Texttranskription vollständig. S2R interpretiert gesprochene Anfragen direkt und ruft Informationen ab, indem es Sprache auf die Abrufabsicht abbildet. Diese architektonische Änderung zielt darauf ab, die Frage "Welche Informationen werden gesucht?" zu beantworten und nicht nur "Welche Wörter wurden gesagt?". Experimente zeigen eine signifikante Leistungslücke zwischen aktuellen Kaskadensystemen und theoretisch perfekter Transkription. Das S2R-Modell, das eine Dual-Encoder-Architektur verwendet, lernt, Audioanfragen und Dokumente in einem gemeinsamen Raum darzustellen. Dies ermöglicht es, die Absicht des Benutzers direkt aus dem Audio abzuleiten. Die Auswertung auf dem SVQ-Datensatz zeigt, dass S2R herkömmliche Kaskaden-ASR-Modelle signifikant übertrifft. Seine Leistung nähert sich eng dem theoretischen Maximum, das mit perfekter Spracherkennung erreichbar ist. Google hat nun S2R-gestützte Sprachsuche in mehreren Sprachen implementiert. Sie stellen auch den SVQ-Datensatz als Open Source zur Verfügung, um weitere Forschung in diesem Bereich zu fördern.
CdXz5zHNQW_1v0oZ0TyR7.png
Text-to-Image-Modelle haben oft Schwierigkeiten, die genaue Absicht des Benutzers aus einzelnen Prompts zu erfassen. Diese Forschung stellt PASTA vor, einen Reinforcement-Learning-Agenten, der die Bilderzeugung durch Benutzerinteraktion kollaborativ verfeinert. PASTA eliminiert die Notwendigkeit mühsamer Prompt-Trial-and-Error-Versuche, indem es sich an einem geführten Gespräch beteiligt. Das Projekt entwickelte einen neuartigen Datensatz sequenzieller Benutzerpräferenzen durch menschliche Bewertungen. PASTA wurde dann auf einer Mischung aus realen und simulierten Daten trainiert, um überlegene Ergebnisse zu erzielen. Das Sammeln ausreichender realer Benutzerdaten ist aufgrund von Datenschutzbedenken schwierig. Die Trainingsstrategie kombinierte anfängliches reales menschliches Feedback mit groß angelegter Benutzersimulation. Ein Benutzermodell mit Nutzungs- und Auswahlkomponenten wurde entwickelt, das latente Benutzertypen identifiziert. Dieses simulierte Benutzerfeedback generierte über 30.000 Interaktionstrajektorien. PASTA wählt als wertbasierter Reinforcement-Learning-Agent optimale Prompt-Erweiterungen aus, um die Benutzerzufriedenheit zu maximieren. Im Test übertraf PASTA, das auf kombinierten realen und simulierten Daten trainiert wurde, die Basismodelle signifikant. Menschliche Bewerter bevorzugten überwältigend die von PASTA generierten Bilder, was seine Anpassungsfähigkeit an individuelle kreative Visionen demonstriert. Die Forschung hebt eine Zukunft interaktiverer und präferenzadaptiver generativer KI hervor.
CdXz5zHNQW_JczcxIBw5o.png
CdXz5zHNQW_hPOeNkUBEn.png
Große Sprachmodelle (LLMs) zeichnen sich in der wettbewerbsorientierten Programmierung und Mathematik aus, hatten jedoch nur begrenzte Erfolge bei der echten mathematischen Entdeckung, da die strenge Anforderung absoluter Korrektheit besteht. Zuvor von KI generierte mathematische Beweise mangelt es oft an überprüfbarer Korrektheit ohne menschliches Eingreifen. Als Reaktion darauf entwickelten Forscher AlphaEvolve, ein System, das LLMs verwendet, um Code iterativ zu entwickeln und neue mathematische Strukturen zu entdecken. Dieser Ansatz führte zu Fortschritten in der Komplexitätstheorie, indem die Inapproximierbarkeitsgrenze für das MAX-4-CUT-Problem verbessert und die Grenzen für die durchschnittliche Härte für zufällige Grapheneigenschaften verschärft wurden. Die Methode nutzt "Lifting", bei dem entwickelte endliche Strukturen in bestehende Beweisrahmen integriert werden, um universelle Theoreme zu erzielen. Insbesondere entdeckte AlphaEvolve ein komplexes Gadget für MAX-4-CUT und stellte eine neue Approximationsgrenze von 0,987 auf. Das System fand auch extreme Ramanujan-Graphen mit großen Schnitten und verbesserte damit erheblich die unteren Schranken für die durchschnittliche Härte. Ein wichtiger Aspekt dieser Forschung ist die überprüfbare Korrektheit der entdeckten Strukturen, die durch eine 10.000-fache Beschleunigung der Verifizierung erreicht wurde. Obwohl sich KI als wertvoller Kollaborateur erweist, bleibt der Verifizierungsprozess ein kritischer Engpass für zukünftige KI-gestützte mathematische Entdeckungen.
CdXz5zHNQW_XJGYeGdkyo.png
Große Sprachmodelle und Daten von Wearables bieten die Möglichkeit, die persönliche Gesundheit zu verbessern, obwohl die individuellen Bedürfnisse bei Gesundheitsfragen stark variieren. Ein einzelnes System hat Schwierigkeiten sowohl mit spezifischen als auch mit offenen Gesundheitsfragen. Um dem entgegenzuwirken, wurde das Forschungsframework Personal Health Agent (PHA) entwickelt, das multimodale Daten für personalisierte, evidenzbasierte Beratung verarbeitet. PHA verwendet eine Multi-Agenten-Architektur mit spezialisierten Sub-Agenten für Data Science, Domänenexpertise und Gesundheitscoaching. Reale Daten aus einer Studie mit Wearable-Daten, Fragebögen und Bluttests wurden zur Evaluierung verwendet. Das System wurde umfassend automatisiert und menschlich in zehn Benchmark-Aufgaben evaluiert, was Tausende von Annotationen und erheblichen Expertenaufwand erforderte. Diese Arbeit stellt eine umfassende Evaluierung eines Gesundheitsagenten dar und legt den Grundstein für zugängliche persönliche Gesundheitsagenten. Diese Forschung skizziert ein konzeptionelles Framework und ist keine Beschreibung eines aktuellen öffentlichen Produkts oder Dienstes. Der Ansatz umfasste ein nutzerzentriertes Design, die Analyse von über 1.300 Gesundheitsanfragen und die Befragung von Nutzern zur Identifizierung wichtiger Unterstützungsbereiche. Die Evaluierung des Systems konzentrierte sich auf das Benchmarking einzelner Agenten und des integrierten PHA, wobei sowohl automatisierte als auch menschliche Bewertungen verwendet wurden.
CdXz5zHNQW_cj4k4bmeKc.png
Die Navigation durch Online-Gesundheitsinformationen ist oft überwältigend und mangelt an Personalisierung für den Einzelnen. Große Sprachmodelle (LLMs) können dies verbessern, aber aktuelle KI-Tools agieren als passive Frage-Antwort-Systeme. Ein Experte wie ein Arzt sucht aktiv nach Kontext, indem er klärende Fragen stellt, um eine maßgeschneiderte Beratung zu geben. Diese Forschung stellt "Wayfinding AI" vor, einen Prototyp im Frühstadium, der auf Gemini basiert und darauf ausgelegt ist, proaktiv klärende Fragen zu stellen. Durch Benutzerstudien erwies sich dieser Ansatz als signifikant hilfreicher, relevanter und maßgeschneiderter als eine Basis-KI. Die Teilnehmer haben oft Schwierigkeiten, ihre gesundheitlichen Bedenken zu artikulieren, was proaktives Fragen zur Sammlung relevanter Details unerlässlich macht. Wayfinding AI folgt drei Prinzipien: proaktive konversationelle Führung, bestmögliche Antworten in jeder Runde und transparente Begründung. Seine Benutzeroberfläche trennt die konversationellen Elemente von detaillierten Informationen, um sicherzustellen, dass Fragen nicht übersehen werden. Benutzerstudien zeigten, dass die Teilnehmer Wayfinding AI wegen seiner Hilfsbereitschaft, Relevanz, Zielverständnis und Anpassungsfähigkeit bevorzugten. Gespräche mit Wayfinding AI waren länger und konzentrierten sich stärker auf die Gewinnung detaillierter Benutzereingaben. Dieser menschenzentrierte, konversationelle Ansatz verspricht viel für zukünftige KI-Anwendungen im Gesundheitswesen.
CdXz5zHNQW_ibR0J0rRzk.png
CdXz5zHNQW_4Ufi6eam5o.png
Zeitreihenprognosen sind für Unternehmen von entscheidender Bedeutung, aber traditionelle Methoden sind langsam und erfordern Expertenwissen. TimesFM, ein Zero-Shot-Foundation-Modell, verbesserte dies, indem es Prognosen ohne aufgabenspezifisches Training ermöglichte. Die Einbeziehung einiger Beispiele, bekannt als Few-Shot-Learning, könnte die Genauigkeit jedoch weiter verbessern. Die Standardmethode hierfür, das supervised Fine-Tuning, führt jedoch wieder Komplexität ein.Der neue Ansatz des In-Context Fine-Tuning (ICF) wandelt TimesFM in einen Few-Shot-Lerner um, indem er ein fortgesetztes Pre-Training nutzt. Dies lehrt das Modell, aus Beispielen zur Inferenzzeit zu lernen, ohne weiteres Benutzertraining. Das Modell, nun TimesFM-ICF, verwendet eine gepatchte Decoder-Architektur mit Transformer-Schichten.Um Few-Shot-Learning zu ermöglichen, wird ein "gemeinsamer Trennungs-Token" eingeführt, um zwischen der Prognosehistorie und den In-Context-Beispielen zu unterscheiden. Dies verhindert Datenverwechslungen und ermöglicht es dem Modell, aus vergangenen Mustern zu lernen. Das Modell wird dann auf einem neuen Datensatz mit diesen Trennungs-Tokens vortrainiert.TimesFM-ICF wurde auf ungesehenen Datensätzen evaluiert, wobei relevante historische Daten als In-Context-Beispiele verwendet wurden. Es zeigte eine Genauigkeitsverbesserung von 6,8 % gegenüber dem Basis-TimesFM. Entscheidend ist, dass TimesFM-ICF die Leistung des supervised Fine-Tuning erreicht, ohne dass zusätzliches komplexes Training erforderlich ist.Das System zeigt auch, dass mehr In-Context-Beispiele zu besseren Prognosen führen, mit einem Kompromiss bei der Inferenzzeit. Diese Innovation verspricht zugänglichere und leistungsfähigere Prognosen, die es Unternehmen ermöglichen, anpassungsfähige Modelle ohne umfangreiche ML-Projekte einzusetzen. Zukünftige Arbeiten zielen darauf ab, die Auswahl der relevantesten In-Context-Beispiele zu automatisieren.
CdXz5zHNQW_kfwkschkYN.png
Sensible Agent ist ein Framework, das für eine unaufdringliche Interaktion mit proaktiven AR-Agenten entwickelt wurde. Es verwendet multimodale Sensorik, um die Bedürfnisse des Benutzers vorherzusehen und kontextbezogene Unterstützung zu leisten, wodurch die Einschränkungen von sprachgesteuerten Systemen angegangen werden. Das System besteht aus zwei Modulen: eines bestimmt, welche Unterstützung benötigt wird, und das andere entscheidet, wie diese unter Berücksichtigung des sozialen Kontexts bereitgestellt werden soll. Der Prototyp verwendet einen Kontext-Parser, einen proaktiven Abfragegenerator, ein Interaktionsmodul und einen Antwortgenerator, die alle auf Android XR und WebXR laufen. Eine Benutzerstudie verglich Sensible Agent mit einer sprachgesteuerten Baseline in verschiedenen Szenarien. Die Studie ergab, dass Sensible Agent die kognitive Arbeitsbelastung deutlich reduzierte und die Benutzerpräferenz erhöhte. Die Interaktionszeit war etwas länger, aber die Präferenz für Sensible Agent deutet darauf hin, dass der Kompromiss akzeptabel war. Proaktivität gestaltet die Beziehung des Benutzers zum Agenten neu und fördert eine kollaborative Erfahrung. Zukünftige Richtungen umfassen Personalisierung, Skalierung über Geräte hinweg und Anwendungen in Smart Homes und Robotik. Das Forschungsteam integrierte multimodale Sensorik und Echtzeit-Anpassung, um die Mensch-Agenten-Interaktion zu verbessern. Die Autoren danken ihren Mitarbeitern, dem Feedback und den Beiträgen mehrerer Teams bei Google.
CdXz5zHNQW_pbrRdL3gvF.png
Lehrbücher sind durch ihren Einheitsansatz eingeschränkt, dem Personalisierung und vielfältige Formate fehlen. Google erforscht generative KI, um effektivere und ansprechendere Lernerfahrungen zu schaffen, genannt "Learn Your Way". Learn Your Way zielt darauf ab, Lehrmaterialien zu transformieren und vielfältige Inhaltsdarstellungen und personalisierte Beispiele für jeden Schüler anzubieten. Das System nutzt zwei Hauptpfeiler: multimodale Darstellungen und Personalisierung, basierend auf Lernwissenschaften. Ein zentraler technischer Aspekt ist die Verwendung von Googles LearnLM-Modell, integriert mit Gemini 2.5 Pro. Der Prozess personalisiert Inhalte, indem er sie an die Noten und Interessen der Schüler anpasst und generische Beispiele ersetzt. Learn Your Way bietet Funktionen wie immersiven Text, Quizze, vertonte Folien, Audio-Lektionen und Mindmaps, die an individuelle Bedürfnisse angepasst sind. Pädagogische Experten evaluierten die transformierten Materialien und fanden den Inhalt anhand verschiedener Kriterien als sehr effektiv. Eine Wirksamkeitsstudie zeigte, dass Schüler, die Learn Your Way nutzten, in Retentionstests besser abschnitten als diejenigen, die einen Standard-Digital-Reader verwendeten. Die Studie zeigte auch eine höhere Benutzerzufriedenheit mit Learn Your Way. Die Forschung von Google deutet darauf hin, dass KI effektivere und ermächtigendere Lernerfahrungen schaffen kann. Die Zukunft des Projekts konzentriert sich darauf, Inhalte kontinuierlich an die individuellen Bedürfnisse der Lernenden anzupassen.
CdXz5zHNQW_60GrmG7HIg.png
Der Aufbau von KI mit Datenschutz als Kern ist eine entscheidende Herausforderung, da KI immer stärker in unser Leben integriert wird. Differentielle Privatsphäre (DP) bietet eine mathematisch robuste Lösung, indem sie kalibriertes Rauschen hinzufügt, um das Auswendiglernen zu verhindern. Die Anwendung von DP auf LLMs führt jedoch zu Kompromissen, die traditionelle Skalierungsgesetze verändern, die Trainingsstabilität verringern und die Kosten erhöhen. Neue Forschungsergebnisse haben Gesetze aufgestellt, die diese Feinheiten genau modellieren und ein vollständiges Bild der Trade-offs zwischen Rechenleistung, Datenschutz und Nutzen liefern. Geleitet von dieser Forschung wurde VaultGemma, das größte Open-Model (1B-Parameter), das von Grund auf mit differentieller Privatsphäre trainiert wurde, eingeführt. Diese Forschung quantifizierte den Nutzen der Erhöhung der Modellgrößen, Batchgrößen und Iterationen im DP-Training, wobei der Schwerpunkt auf dem Rausch-Batch-Verhältnis lag. Ein wichtiges Ergebnis ist, dass man ein kleineres Modell mit einer größeren Batchgröße trainieren sollte als ohne DP. Unter Verwendung dieser Skalierungsgesetze und fortschrittlicher Trainingsalgorithmen wurde VaultGemma aufgebaut, was einen bedeutenden Fortschritt in der privaten KI darstellt. VaultGemma zeigt kein nachweisbares Auswendiglernen seiner Trainingsdaten und validiert damit die Wirksamkeit des DP-Trainings. Während eine Nutzungsdifferenz zwischen DP-trainierten und nicht-DP-trainierten Modellen besteht, zielt diese Forschung darauf ab, diese systematisch zu verringern.
CdXz5zHNQW_JPtqyvsr4p.png
Die Entwicklung therapeutischer DNA- und RNA-Sequenzen mit spezifischen Eigenschaften ist aufgrund der immensen Anzahl an Möglichkeiten eine große Herausforderung in der Medizin. KI kann helfen, diesen riesigen Suchraum zu navigieren, aber die effektive Bewertung von Designalgorithmen war schwierig. Um dies zu beheben, stellten Forscher NucleoBench vor, einen standardisierten Benchmark zum Vergleich von Algorithmen zur Nukleinsäure-Design. Dieser Benchmark umfasste über 400.000 Experimente in 16 biologischen Herausforderungen. Durch diese Arbeit entwickelten sie AdaBeam, einen hybriden Designalgorithmus. AdaBeam übertrifft bestehende Methoden bei den meisten Aufgaben und skaliert besser mit großen KI-Modellen. Der typische computergestützte Designprozess umfasst die Datengenerierung, das Modelltraining, die Generierung von Kandidatensequenzen und die Validierung. NucleoBench konzentriert sich auf die Verbesserung des Schritts der Generierung von Kandidatensequenzen. Bestehende Benchmarks verwenden oft ältere Algorithmen, die keine modernen KI-Modellinformationen nutzen. NucleoBench enthält sowohl gradientenfreie als auch gradientenbasierte Algorithmen für einen umfassenden Vergleich. AdaBeam kombiniert effektive Elemente bestehender Algorithmen, um überlegene Leistung und Effizienz zu erzielen. Es zeigt, dass sich die ausschließliche Abhängigkeit von Gradienten nicht immer für Spitzenleistungen als notwendig erweist. Zu den Fortschritten von AdaBeam gehören erhöhte Effizienz, intelligentere Exploration und reduzierter Speicherverbrauch.
CdXz5zHNQW_B9cu5RlI3n.png
Large Language Models (LLMs) sind leistungsstark, aber rechenintensiv, was zu langsamer und kostspieliger Inferenz führt. Um dies zu beheben, verwenden Cascades kleinere, schnellere Modelle, um einfache Anfragen zu bearbeiten, bevor sie auf größere, leistungsfähigere LLMs zurückgreifen. Dieser Ansatz zielt darauf ab, die Kosten zu senken, indem teure Modelle nur für komplexe Aufgaben eingesetzt werden. Spekulatives Decodieren hingegen beschleunigt die LLM-Inferenz, indem ein kleineres Modell zukünftige Token entwirft, die ein größeres Modell dann parallel verifiziert. Dies beschleunigt die Generierung, ohne die endgültige Ausgabe zu verändern, kann aber die Speichernutzung erhöhen. Das Papier stellt "spekulative Cascades" vor, eine neuartige Methode, die die Vorteile von Cascades und spekulativer Decodierung kombiniert. Spekulative Cascades verwenden eine flexible "Deferral-Regel", die es ermöglicht, dass der Entwurf eines kleineren Modells akzeptiert wird, selbst wenn er nicht perfekt mit der Ausgabe des größeren Modells übereinstimmt. Dieser hybride Ansatz bietet bessere Kosten-Qualitäts-Kompromisse als jede der beiden Techniken allein. Experimente mit verschiedenen Sprachaufgaben zeigten, dass spekulative Cascades höhere Beschleunigungen und bessere Qualitätsmetriken erzielen. Die Flexibilität der Deferral-Regel ermöglicht eine Anpassung basierend auf Konfidenz, Kosten-Nutzen-Analyse oder tokenspezifischen Überprüfungen. Diese Innovation ermöglicht es LLM-Anwendungen, sowohl schneller als auch intelligenter zu sein, indem das Gleichgewicht zwischen Rechenkosten und Ausgabequalität optimiert wird.
CdXz5zHNQW_2WaKDny7yL.png
Wissenschaftliche Forschung wird oft durch die zeitaufwändige Erstellung von kundenspezifischer Software zur Hypothesenbewertung behindert. Diese Arbeit stellt ein KI-System vor, das mit Gemini entwickelt wurde und empirische Software auf Expertenniveau für diesen Zweck generiert. Das System nimmt ein definiertes Problem und eine Bewertungsmethode als Eingabe und schlägt neuartige Konzepte vor und implementiert diese als Code. Anschließend durchläuft es Tausende von Codevarianten, um die Leistung mithilfe einer Baumsuchstrategie zu optimieren. Das System wurde an sechs multidisziplinären Benchmarks getestet und erzielte Ergebnisse auf Expertenniveau in den Bereichen Genomik, öffentliche Gesundheit, Geodatenanalyse, Neurowissenschaften, Zeitreihenprognose und numerische Analyse. Empirische Software ist darauf ausgelegt, einen vordefinierten Qualitätswert zu maximieren, und bewertbare Aufgaben sind solche, die von dieser Art von Software bearbeitet werden können. Das KI-System generiert Forschungsideen, implementiert diese als ausführbaren Code und verwendet ein LLM, um den Code für verbesserte Ergebnisse zu verfeinern. Dieser Prozess reduziert die Explorationszeit erheblich von Monaten auf Stunden oder Tage und liefert überprüfbare, interpretierbare und reproduzierbare Lösungen. Das KI-System bewies seine Leistungsfähigkeit, indem es neuartige Lösungen für anspruchsvolle Probleme generierte und in mehreren Benchmarks, einschließlich der Vorhersage von COVID-19-Krankenhausaufenthalten und der Integration von Einzelzell-RNA-Sequenzierungsdaten, die bestehenden, von Experten entwickelten Methoden übertraf. Dieser Fortschritt verspricht, die wissenschaftliche Entdeckung zu beschleunigen, indem er es Forschern ermöglicht, eine Vielzahl potenzieller Lösungen schnell zu untersuchen.
CdXz5zHNQW_6tSVn14npx.png
CdXz5zHNQW_wf799DxNvS.png
YouTube Shorts zielt darauf ab, Erstellern magische Echtzeit-Effekte zu bieten, indem fortschrittliche generative KI auf mobilen Geräten angewendet wird. Dies wird erreicht, indem große KI-Modelle in kleinere, aufgabenbezogene Modelle destilliert werden, die frame-weise und effizient auf Handys laufen können. Der Prozess beginnt mit der Kuratierung vielfältiger und hochwertiger Gesichtsdatensätze, die Inklusivität über demografische Merkmale hinweg gewährleisten. Eine Schlüsseltechnik ist die Wissensdestillation, bei der ein leistungsstarkes "Lehrer"-Modell und ein leichtgewichtiges "Schüler"-Modell verwendet werden. Der Lehrer, zunächst StyleGAN2 und später Modelle wie Imagen, führt komplexe Generierungen durch, während der Schüler, aufgebaut mit UNet und MobileNet, für Mobilgeräte optimiert ist. Das Training beinhaltet die Generierung von Bildpaaren durch den Lehrer und das Training des Schülers mit spezifischen Verlustfunktionen und neuraler Architektursuche. Eine kritische Herausforderung ist die Wahrung der Nutzeridentität, die durch eine Technik namens "Pivotal Tuning Inversion" (PTI) angegangen wird. PTI verfeinert einen Generator für ein bestimmtes Gesicht und ermöglicht Bearbeitungen im latenten Raum, ohne die Ähnlichkeit zu verändern. Die On-Device-Lösung nutzt Googles MediaPipe-Framework zur Gesichtserkennung, -ausrichtung und nahtlosen Integration des Schüler-Modells. Die Pipeline erreicht Echtzeit-Leistung und arbeitet schneller als 33 Millisekunden pro Frame für eine reibungslose Benutzererfahrung. Diese Technologie hat seit 2023 zahlreiche beliebte YouTube Shorts-Funktionen ermöglicht und die kreativen Möglichkeiten erweitert. Das Team entwickelt sich ständig weiter und zielt darauf ab, neuere Modelle zu integrieren und die Latenz für eine breitere Geräteverfügbarkeit zu reduzieren.
CdXz5zHNQW_8wndZAykAn.gif
"Große benutzerbasierte Datensätze sind für den Fortschritt der KI, die Verbesserung von Dienstleistungen und die Personalisierung von entscheidender Bedeutung. Das Teilen dieser Datensätze beschleunigt die Forschung, birgt jedoch Datenschutzrisiken. Die differentiell private (DP) Partitionsauswahl identifiziert sichere, gemeinsame Daten-Untermengen, indem sie Rauschen hinzufügt, um individuelle Beiträge zu schützen. Dies ist für Aufgaben wie die Vokabelauswahl und die private Datenanalyse von entscheidender Bedeutung. Die Verarbeitung massiver Datensätze erfordert parallele Algorithmen, nicht nur für die Geschwindigkeit, sondern auch für die Bewältigung enormer Skalen. Unser Beitrag, „Skalierbare private Partitionsauswahl via adaptives Gewichtung“, stellt einen effizienten parallelen Algorithmus für die DP-Partitionsauswahl vor. Dieser Algorithmus skaliert auf Hunderte von Milliarden von Elementen, was die bisherigen Fähigkeiten erheblich übersteigt. Das Ziel ist es, die ausgewählten Elemente zu maximieren, während die Benutzerdatenschutz aufrechterhalten wird, wobei beliebte Daten priorisiert werden. Der Standardansatz umfasst das Gewichten, das Hinzufügen von Rauschen und das Filtern von Elementen basierend auf einem Schwellenwert. Unser neuartiger adaptiver Gewichtungsalgorithmus, MAD, verteilt das "überschüssige Gewicht" von beliebten Elementen auf solche, die knapp unter dem Datenschutzschwellenwert liegen. Dies verbessert die Nützlichkeit, indem mehr Elemente aufgenommen werden, ohne die Datenschutz oder Skalierbarkeit zu beeinträchtigen. Experimente zeigen, dass unser zweistufiger MAD-Algorithmus state-of-the-art-Ergebnisse erzielt, indem er mehr Elemente als andere Methoden mit denselben Datenschutzgarantien ausgibt. Wir stellen unseren Algorithmus als Open-Source bereit, um die Innovation in der Community zu fördern."
CdXz5zHNQW_KfEjWw8vMV.png
CdXz5zHNQW_Z0zBIj4T6I.png
Unsere Forschung stellt guardrailed-AMIE (g-AMIE) vor, ein KI-System, das für die ärztliche Aufsicht bei medizinischen Diagnosen konzipiert ist. G-AMIE kann durch Dialogpatienteninformationen sammeln und Zusammenfassungen, Differentialdiagnosen und Behandlungspläne erstellen. Entscheidend ist, dass es so eingeschränkt ist, dass es keine individuelle medizinische Beratung geben kann. Überwachende Ärzte überprüfen und bearbeiten diese Informationen über eine Kliniker-Cockpit-Oberfläche, bevor sie mit dem Patienten kommunizieren. Eine randomisierte virtuelle OSCE-Studie verglich die Leistung von g-AMIE mit der von Krankenpflegefachkräften und Physician Assistants/Associates, die unter ähnlichen Einschränkungen arbeiteten. Die Ergebnisse zeigten, dass die diagnostische Leistung und die Behandlungspläne von g-AMIE von den Aufsichtspersonen und unabhängigen Bewertern bevorzugt wurden. Auch Patientenakteure bevorzugten die von g-AMIE erstellten Patientenmitteilungen. Die Studie unterstrich die Einhaltung von Sicherheitsleitplanken durch g-AMIE und seine qualitativ hochwertige Anamnese und SOAP-Notizen. Während g-AMIE in mehreren Metriken die Kontrollgruppen übertraf, war der Arbeitsablauf speziell für KI konzipiert und nicht vollständig repräsentativ für die Ausbildung von Klinikern. Zu den Einschränkungen gehören potenzielle Meinungsverschiedenheiten der Bewerter und die kognitive Belastung der Aufsicht. Zukünftige Arbeiten werden sich auf die Optimierung der Ausführlichkeit und die Erforschung realer Umgebungen konzentrieren. Dieser Rahmen stellt einen bedeutenden Schritt in Richtung menschlich-KI-Zusammenarbeit bei medizinischen Diagnosen dar.
CdXz5zHNQW_SB8tCM3LeP.jpeg
Die Klassifizierung unsicherer Anzeigeninhalte ist eine komplexe Aufgabe, für die große Sprachmodelle (LLMs) aufgrund ihres kontextbezogenen Verständnisses gut geeignet sind. Das Fine-Tuning von LLMs für solche Aufgaben erfordert jedoch hochwertige, groß angelegte Trainingsdaten, deren Zusammenstellung teuer und zeitaufwändig ist. Concept Drift, bei dem sich Sicherheitsrichtlinien ändern, erfordert ein häufiges Neutraining, was die Kosten erhöht. Um dies zu adressieren, reduziert ein neuer Prozess zur Kuratierung durch aktives Lernen die benötigte Menge an Trainingsdaten drastisch und verbessert gleichzeitig die Ausrichtung des Modells auf menschliche Experten. Dieser Prozess identifiziert die wertvollsten Beispiele für die Annotation und reduziert somit erheblich den Datenbedarf. Experimente zeigten eine Reduzierung der Trainingsdaten von 100.000 auf unter 500 Beispiele, wobei sich die Ausrichtung des Modells um bis zu 65 % verbesserte. Der Kuratierungsprozess beginnt mit einem Zero-Shot-LLM, das Daten labelt, gefolgt von Clustering, um verwechselbare Beispiele zu identifizieren. Diese informativen und vielfältigen Beispiele werden dann an menschliche Experten zur Kennzeichnung gesendet. Expertenlabels werden verwendet, um die Modelle iterativ sowohl zu bewerten als auch feinabzustimmen. Der Prozess stützt sich auf Cohen's Kappa, um die Ausrichtung zu messen, da Ground-Truth-Labels oft mehrdeutig sind. Baseline-Modelle, die auf großen crowdsourced Datensätzen feinabgestimmt wurden, schnitten im Vergleich zu kuratierten Modellen weniger gut ab. Die neue Methode zeigt, dass die sorgfältige Kuratierung weniger, aber informativerer Beispiele zu signifikanten Leistungssteigerungen bei drastisch weniger Daten führen kann. Dieser Ansatz ist besonders vorteilhaft für Domänen wie die Anzeigensicherheit mit sich schnell entwickelnden Inhalten.
CdXz5zHNQW_GhJRxo2Thj.png
Typ-2-Diabetes, verursacht durch Insulinresistenz, betrifft Millionen weltweit, aber die frühzeitige Erkennung wird durch aktuelle invasive oder unzugängliche Testmethoden behindert. Forscher haben Machine-Learning-Modelle entwickelt, die Insulinresistenz vorhersagen können, indem sie Daten von tragbaren Geräten und üblichen Bluttests kombinieren. Die WEAR-ME-Studie verwendete Daten wie Ruhepuls, Schrittzahl, Schlafmuster, Nüchternblutzucker und Lipidprofile, um diese Modelle zu trainieren. Die Kombination dieser Datenquellen verbesserte die Vorhersagegenauigkeit erheblich im Vergleich zur Verwendung einer einzelnen Quelle allein. Bemerkenswert ist, dass die Modelle besonders gut bei der Identifizierung von Insulinresistenz bei Hochrisikogruppen wie Menschen mit Adipositas und sedentären Lebensstilen abschnitten.Eine Validierungskohorte bestätigte die Verallgemeinerbarkeit dieser Vorhersagemodelle. Um das Verständnis der Benutzer zu verbessern, wurde ein KI-Agent namens Insulinresistenz-Lese- und Verständigungs-Agent entwickelt, der auf fortschrittlichen Sprachmodellen basiert. Dieser Agent bietet personalisierte, kontextualisierte Antworten über metabolische Gesundheit, die Endokrinologen mit ihrer Vollständigkeit und Zuverlässigkeit beeindruckten. Die Forschung hebt das Potenzial für zugängliche, frühzeitige Screening von Typ-2-Diabetes-Risiken durch leicht verfügbare Daten hervor. Dieser Ansatz könnte zeitnahe lebensstilbezogene Interventionen ermöglichen, um die Krankheit zu verhindern oder zu verzögern. Es ist jedoch zu beachten, dass diese Modelle nur für informative und Forschungszwecke bestimmt sind und keine zugelassenen medizinischen Geräte sind.
CdXz5zHNQW_8K7J57DBaq.png
Das Verständnis von Vererbung, Krankheit und Evolution hängt von der Entschlüsselung des Genoms ab, das durch DNA-Basen kodiert ist. Während DNA-Sequenzierer diese Basen lesen, ist es aufgrund der winzigen Größe von Basenpaaren schwierig, Genauigkeit im großen Maßstab zu erreichen. Die Erstellung eines nahezu perfekten Referenzgenoms ist entscheidend, da Fehler bei der Assemblierung die Genidentifizierung behindern und dazu führen können, dass krankheitsverursachende Varianten übersehen werden. Die Genomassemblierung beinhaltet die wiederholte Sequenzierung desselben Genoms, um Fehler iterativ zu korrigieren. Da das menschliche Genom jedoch drei Milliarden Nukleotide umfasst, summieren sich selbst kleine Fehlerraten erheblich und schränken die Nützlichkeit ein.Um diese Herausforderungen zu bewältigen, wurde DeepPolisher, eine quelloffene Methode zur Genomassemblierung, entwickelt, um die Genauigkeit zu verbessern. Diese Pipeline, die in einer kürzlich veröffentlichten Arbeit beschrieben wird, reduziert Assemblierungsfehler um 50 % und Indel-Fehler um 70 %, die für die Genidentifizierung besonders störend sind. Es gibt verschiedene Sequenzierungstechnologien, wobei Illumínas Methode das Signal verbessert, aber die Leselänge begrenzt. Langlese-Sequenzierungstechnologien, die anfangs fehleranfällig waren, wurden durch die gemeinsamen Anstrengungen von Pacific Biosciences und Google verbessert, wodurch die Fehlerraten reduziert wurden.DeepPolisher, adaptiert von DeepConsensus, nutzt eine Transformer-Architektur, die auf einem hoch charakterisierten menschlichen Genom trainiert wurde. Diese Methode identifiziert und korrigiert verbleibende Fehler in Genomassemblierungen. DeepPolisher reduziert Indel-Fehler erheblich, was für die Vermeidung von Problemen bei der Genannotation von entscheidender Bedeutung ist. Das Werkzeug verbessert die Qualität der Genomassemblierung, was sich in einer durchschnittlichen Erhöhung der Q-Scores von Q66,7 auf Q70,1 zeigt.Die zweite Datenfreigabe des Human Pangenome Reference Consortium profitierte von DeepPolisher, indem Fehler reduziert und eine genauere Diagnose genetischer Krankheiten über verschiedene Abstammungen hinweg ermöglicht wurde. Durch die Freigabe von DeepPolisher als Open Source ist es das Ziel, diese Fortschritte in der wissenschaftlichen Gemeinschaft weit zu verbreiten.
CdXz5zHNQW_4NEnms7GRh.png
Der Aufstieg des maschinellen Lernens hat komplexe ingenieurtechnische Herausforderungen geschaffen, die Forschung zur Nutzung großer Sprachmodelle (LLMs) als Agenten zur Automatisierung dieser Aufgaben vorantreiben. Diese LLM-Agenten konzeptualisieren ML-Probleme als Code-Optimierungsherausforderungen und generieren ausführbaren Code. Aktuelle Agenten verlassen sich jedoch oft auf bekannte Methoden und tun sich schwer mit der tiefgreifenden Erforschung spezifischer Codekomponenten. Um dem abzuhelfen, wurde MLE-STAR entwickelt, ein neuartiger ML-Engineering-Agent, der Websuche und gezielte Verfeinerung von Codeblöcken integriert. MLE-STAR beginnt mit der Websuche nach relevanten Modellen und verfeinert dann iterativ spezifische Codeblöcke, die durch Ablationsstudien identifiziert wurden, basierend auf LLM-generierten Plänen. Der Agent setzt außerdem eine neue Strategie zur Ensemblebildung mehrerer Kandidatenlösungen ein. Darüber hinaus enthält MLE-STAR Module zum Debugging, zur Überprüfung auf Datenlecks und zur Gewährleistung der ordnungsgemäßen Datennutzung. Auswertungen auf MLE-Bench-Lite zeigten, dass MLE-STAR bestehende Alternativen deutlich übertrifft und in 63 % der Kaggle-Wettbewerbe Medaillen gewonnen hat. Dieser Erfolg wird auf die Nutzung neuerer Modelle, gezielte Verfeinerung und robuste Überprüfungsmechanismen zurückgeführt. Der automatisierte Ansatz von MLE-STAR zielt darauf ab, die Hürde für die ML-Adaption zu senken und sich an Fortschritte auf diesem Gebiet anzupassen. Ein Open-Source-Code für MLE-STAR ist jetzt verfügbar.
CdXz5zHNQW_pvpMGEctOp.png
Wearable Geräte sammeln riesige Mengen an persönlichen Gesundheitsdaten, aber das Verständnis des Kontexts hinter diesen Daten war bisher eine Herausforderung. Diese Lücke schränkt das volle Potenzial personalisierter Gesundheitseinblicke ein. Die manuelle Annotation von Sensordaten mit beschreibendem Text ist aufgrund von Kosten und Zeitaufwand unpraktikabel. Um dies zu beheben, wurde SensorLM, eine Familie von Sensor-Sprach-Foundation-Modellen, entwickelt. SensorLM wurde auf beispiellosen 59,7 Millionen Stunden multimodaler Sensordaten von über 103.000 Personen vortrainiert. Dies ermöglicht es ihm, menschenlesbare Beschreibungen von Wearable-Sensordaten zu interpretieren und zu generieren. Eine neuartige hierarchische Pipeline generiert automatisch beschreibende Bildunterschriften und erstellt so den bisher größten Sensor-Sprach-Datensatz. SensorLM bietet Fähigkeiten wie Zero-Shot-Sensorverständnis, Sensor-Text-Abgleich und die Generierung von Sensor-Bildunterschriften. Es zeigt eine Spitzenleistung bei Aufgaben wie der Aktivitätserkennung und zeichnet sich durch die Generierung kohärenter und sachlich korrekter Bildunterschriften aus. Die Leistung des Modells verbessert sich kontinuierlich mit mehr Daten, größeren Modellgrößen und erhöhter Rechenleistung. SensorLM stellt einen bedeutenden Fortschritt dar, um persönliche Gesundheitsdaten verständlich und umsetzbar zu machen und ebnet den Weg für zukünftige digitale Gesundheits-Coaches und Wellness-Anwendungen.
CdXz5zHNQW_6KwERMjREC.png
"Googles Gboard verwendet große und kleine Sprachmodelle (LLMs und LMs) für Funktionen wie Tippvorhersage und Rechtschreibprüfung. Das Trainieren dieser Modelle erfordert hochwertige Daten, aber die Verwendung von Benutzerdaten wirft Datenschutzbedenken auf. Um dies anzugehen, setzt Gboard synthetische Daten ein, die von LLMs auf öffentlichen Daten trainiert wurden, um Benutzerinteraktionen nachzuahmen, ohne private Informationen preiszugeben. Diese synthetischen Daten trainieren Modelle vor, verbessern die Leistung vor weiterem Training mit Datenschutz-Techniken wie federiertem Lernen und differentieller Privatsphäre. Dieser Ansatz minimiert Datenschutzrisiken, während er die Modellgenauigkeit signifikant verbessert, was zu Verbesserungen der Gboard-Funktionen führt. Der Prozess umfasst das Auslösen von LLMs, um realistische mobile Tippeingabedaten zu generieren, die dann verwendet werden, um kleinere Modelle vorzutrainieren. Ein "Stützmodul", ein kleines Modell, das auf Benutzerdaten mit differentieller Privatsphäre trainiert wurde, verfeinert die synthetischen Daten für eine bessere Domänenanpassung. Dieser kombinierte Ansatz verbessert sowohl kleine als auch große Modelle, was die Funktionalität von Gboard verbessert, während die Benutzerdatenschutz aufrechterhalten wird. Das System umfasst mehrere Datenschutzsicherungen, einschließlich Datenminimierung und Anonymisierung. Laufende Forschung konzentriert sich auf die Verbesserung der Generierung und Anwendung von Datenschutz-synthetischen Daten für eine noch bessere Modellleistung und eine verbesserte Benutzererfahrung."
CdXz5zHNQW_Pu7NQvCxnG.png
Verbrauchergeräte, wie Smartphones, werden zunehmend in der Lage sein, Fitness und Wohlbefinden durch verschiedene Sensoren zu überwachen. Google hat zuvor eine Schlaferkennungstechnologie namens Soli entwickelt, die Radar verwendet und Vitalzeichen wie Herzfrequenz und Atemfrequenz während des Schlafes und der Meditation verfolgen kann. Forscher haben nun gezeigt, dass Ultra-Wideband-Technologie (UWB), die häufig in Mobiltelefonen zu finden ist, für radargestützte Herzfrequenzmessungen verwendet werden kann. Die UWB-Technologie wurde für die Radarsensorik weitgehend ungenutzt gelassen, bietet aber Potenzial für die Überwachung von Vitalzeichen. Die Radarfunktionen von UWB ermöglichen eine kontaktlose Herzfrequenzmessung, was aufgrund der winzigen Bewegungen der Brustwand, die durch den Herzschlag verursacht werden, eine Herausforderung darstellt. Um diese Herausforderung zu meistern, entwickelten die Forscher eine neue Methode, die die einzigartigen Eigenschaften des Radarsignals optimal nutzt, um eine hochpräzise Herzfrequenzmessung zu erreichen. Die Forscher untersuchten auch, ob von FMCW-Radar gelernte Merkmale auf UWB-Radar übertragen werden können, und stellten fest, dass gelernte Merkmale zwischen Radartypen für die Überwachung von Vitalzeichen übertragen werden können. Die Studie zeigte, dass das Modell einen mittleren absoluten Fehler von 4,1 Schlägen pro Minute und einen mittleren absoluten prozentualen Fehler von 6,3 % für die Herzfrequenzmessung mit UWB-Radar erreichen kann. Diese Technologie hat das Potenzial, kontaktlose Herzfrequenzmessungen mit Verbrauchergeräten zu ermöglichen, insbesondere da sich die UWB-Technologie in Mobiltelefonen immer weiter verbreitet. Die Forschung legt den Grundstein für zukünftige Anwendungen, einschließlich der kontinuierlichen Überwachung der Herzfrequenz in verschiedenen Alltagssituationen.
CdXz5zHNQW_DdTJZ7bwbp.jpeg
Erdbeben stellen eine ständige Bedrohung für Gemeinschaften weltweit dar, und Menschen wenige Sekunden Vorwarnzeit zu geben, bevor das Schütteln beginnt, kann lebensrettend sein. Das Ziel von Erdbebenfrühwarnsystemen (EEW) ist es, Menschen wertvolle Sekunden zu geben, um Schutz zu suchen, aber diese Systeme sind oft teuer und auf bestimmte Regionen beschränkt. Forscher haben ein Android-Erdbebenwarnsystem entwickelt, das das globale Netzwerk von Android-Smartphones als leistungsstarkes Erdbeben-Erkennungssystem nutzt. Das System hat Tausende von Erdbeben erkannt und Warnungen an Millionen von Menschen in fast 100 Ländern gesendet, oft mit entscheidenden Sekunden Vorwarnzeit. Das System funktioniert, indem es den Beschleunigungsmesser in Android-Telefonen verwendet, um die anfängliche P-Welle eines Erdbebens zu erkennen, die dann analysiert wird, um das Erdbeben zu bestätigen und seinen Standort und seine Stärke zu schätzen. Das System sendet zwei Arten von Warnungen: "BeAware" für leichtes Schütteln und "TakeAction" für stärkeres Schütteln. Das System wurde in 98 Ländern eingeführt und hat über 18.000 Erdbeben erkannt und weltweit 790 Millionen Warnungen versendet. Das System hat seine Magnitudenschätzung im Laufe der Zeit verbessert, mit einem mittleren absoluten Fehler von 0,25, und hat überwiegend positives Feedback von den Nutzern erhalten. Das System lernt und verbessert sich ständig, und seine Daten tragen dazu bei, genauere Vorhersagemodelle zu erstellen, mit dem Potenzial, in Zukunft rasche Informationen nach Erdbeben an Einsatzkräfte zu liefern.
CdXz5zHNQW_emPO9tteWz.png
Relationale Datenbanken werden in Unternehmen weit verbreitet für Datenformate eingesetzt und treiben viele Vorhersagedienste an, aber traditionelle Machine-Learning-Methoden haben Schwierigkeiten, die Konnektivitätsstruktur dieser relationalen Schemata voll auszunutzen. Graph-Neural-Netzwerke (GNNs) sind für graph-strukturierte Daten gut geeignet, aber die meisten GNNs sind auf einen bestimmten Graphen festgelegt und können nicht auf neue Graphen mit neuen Knoten, Kanten-Typen, Merkmalen und Knoten-Labels generalisieren. Das Ziel ist es, ein einziges Modell zu entwerfen, das auf miteinander verbundenen relationalen Tabellen exzellieren und auf jede beliebige Menge von Tabellen, Merkmalen und Aufgaben ohne zusätzliches Training generalisieren kann. Dies kann erreicht werden, indem relationale Tabellen in einen einzelnen heterogenen Graphen umgewandelt werden, bei dem jede Tabelle einen einzigartigen Knotentyp und jede Zeile in einer Tabelle einen Knoten wird. Ein Graph-Grundmodell (GFM) kann auf einem Graphen trainiert werden und Inferenz auf jedem unerkannten Graphen durchführen, trotz der Unterschiede in Struktur und Schema. Die Hauptforderung besteht darin, eine übertragbare Methode für die Kodierung beliebiger Datenbankschemata und die Handhabung von Knotenmerkmalen zu erstellen. Die Ergebnisse zeigen, dass GFMs im Vergleich zu traditionellen tabellarischen Baselines signifikante Leistungssteigerungen erzielen können, und dass die Ausnutzung der Struktur der Daten ML-Modelle mit breiten Anwendungen in der künstlichen Intelligenz verbessern kann.
CdXz5zHNQW_7H5UMxH7tS.png
Die Gesundheitsversorgung setzt zunehmend KI ein, um die Workflow-Verwaltung, die Patientenkommunikation und die diagnostische und therapeutische Unterstützung zu verbessern. Es ist entscheidend, dass diese KI-basierten Systeme leistungsfähig, effizient und datenschutzkonform sind. Um diesem Anliegen gerecht zu werden, wurde Health AI Developer Foundations (HAI-DEF) entwickelt, eine Sammlung leichtgewichtiger offener Modelle, die Entwicklern robuste Ausgangspunkte für ihre eigene Gesundheitsforschung und Anwendungsentwicklung bieten. HAI-DEF-Modelle sind offen, was Entwicklern die volle Kontrolle über Datenschutz, Infrastruktur und Modelländerungen ermöglicht. Die MedGemma-Sammlung, Teil von HAI-DEF, umfasst Varianten in den Größen 4B und 27B, die Bild- und Texteingaben akzeptieren und Textausgaben produzieren. MedGemma-Modelle sind starke Ausgangspunkte für medizinische Forschung und Produktentwicklung, nützlich für medizinische Text- oder Bildaufgaben, die die Erzeugung von Freitext erfordern. MedSigLIP ist ein leichtgewichtiger Bild- und Text-Encoder für Klassifizierung, Suche und verwandte Aufgaben und wird für Bildaufgaben empfohlen, die strukturierte Ausgaben wie Klassifizierung oder Retrieval erfordern. Alle MedGemma- und MedSigLIP-Modelle können auf einer einzelnen GPU ausgeführt werden, und einige können sogar auf mobilen Hardware adaptiert werden. Die MedGemma-Sammlung ist offen, was Entwicklern ermöglicht, die Modelle herunterzuladen, zu erweitern und fein abzustimmen, um ihre spezifischen Anforderungen zu unterstützen. Forscher und Entwickler haben die MedGemma-Modelle für ihre Anwendungsfälle erkundet und gefunden, dass sie gut geeignet sind, kritische Probleme zu lösen. Um Entwicklern den Einstieg zu erleichtern, demonstrieren detaillierte Notebooks auf GitHub, wie Instanzen von MedSigLIP und MedGemma für Inferenz und Feinabstimmung auf Hugging Face erstellt werden können.
CdXz5zHNQW_7JsMQLMuDP.png
Sprache-zu-Text-Funktionen auf mobilen Geräten sind für die Barrierefreiheit, Übersetzung, Notizen und Besprechungsprotokolle unerlässlich geworden, aber bestehende Apps haben Schwierigkeiten, zwischen Sprechern in Gruppengesprächen zu unterscheiden. Diese Einschränkung führt zu einer kognitiven Überlastung der Nutzer, so dass es schwierig ist zu verfolgen, wer was sagt. Die aktuellen Lösungen, die auf maschinellem Lernen basieren, sind in mobilen Szenarien nur schwer einzurichten. Der SpeechCompass-Ansatz verbessert die mobile Untertitelung durch Sprecherdiarisierung und Echtzeit-Lokalisierung von eingehendem Ton und bietet benutzerfreundliche Transkripte für Gruppengespräche. SpeechCompass verwendet einen Ansatz mit mehreren Mikrofonen, der die Rechenkosten senkt, die Latenz reduziert und den Schutz der Privatsphäre verbessert. Das System ist in der Lage, die Schallrichtung mit einem durchschnittlichen Fehler von 11°-22° für normale Gesprächslautstärke genau zu lokalisieren. Die Diarisierungsfehlerrate (Diarization Error Rate, DER) zeigt, dass die Konfiguration mit vier Mikrofonen die Konfiguration mit drei Mikrofonen durchweg übertrifft. Die Bewertung und das Feedback der Benutzer zeigen den Wert der Richtungsführung für Gruppengespräche, wobei farbiger Text und Richtungspfeile die am meisten bevorzugten Visualisierungsmethoden sind. Das SpeechCompass-System bietet zahlreiche praktische Anwendungen, z. B. im Klassenzimmer, bei Geschäftstreffen und gesellschaftlichen Zusammenkünften. Zu den zukünftigen Entwicklungsrichtungen gehören die Integration mit tragbaren Formfaktoren, eine verbesserte Geräuschrobustheit und Längsschnittstudien, um die Akzeptanz und das Verhalten in alltäglichen Szenarien zu verstehen.
CdXz5zHNQW_T2Ojq2cOgo.jpeg
Der Wandel hin zu nachhaltigen Verkehrsmitteln wie Elektrofahrzeugen, Fahrgemeinschaften und öffentlichen Verkehrsmitteln hat die Reisezeiten variabler gemacht, da spezielle Fahrspuren wie Fahrgemeinschaftsspuren zur Verfügung stehen. HOV-Spuren sind in der Regel während der Stoßzeiten schneller als allgemeine Fahrspuren, mit einem durchschnittlichen Geschwindigkeitsunterschied von etwa 16 % im Salt Lake Valley in Utah. Genaue Vorhersagen der voraussichtlichen Ankunftszeit (ETA) und eine optimierte Routenplanung sind entscheidend für die Verbesserung des Pendlererlebnisses. Google Maps hat kürzlich eine Funktion eingeführt, mit der Fahrer Routen mit HOV-Spuren auswählen und die ETA dieser Routen sehen können. Um diese Funktion zu entwickeln, hat Google ein Klassifizierungssystem entwickelt, um HOV-Fahrten von Nicht-HOV-Fahrten zu unterscheiden. Das Klassifizierungssystem verwendet einen unüberwachten Lernansatz, der aggregierte und anonymisierte Verkehrstrends analysiert, um vergangene HOV-Reisezeiten abzuleiten. Das System verwendet dann diese abgeleiteten Zeiten, um ETA-Vorhersagemodelle speziell für HOV-Spuren zu trainieren. Die Klassifizierungsaufgabe beinhaltet die Analyse von Geschwindigkeitsdaten, der geschätzten seitlichen Entfernung zur Straßenmitte und zeitlicher Clusterbildung, um zwischen HOV- und Nicht-HOV-Reisenden zu unterscheiden. Die endgültige Fahrtenklassifizierung wird durch die Aggregation von Klassifizierungsergebnissen aus jedem Segment und die Verwendung eines "Mixture of Experts"-Ansatzes bestimmt. Die neuen HOV-basierten ETA-Schätzungen haben die allgemeine ETA-Genauigkeit für Fahrer, die diese Funktion nutzen, um 75 % verbessert und sie mit Routen ohne HOV-Spuren vergleichbar gemacht.
CdXz5zHNQW_Nl5ScVy6fK.png
Große Sprachmodelle ändern, wie Empfehlungssysteme mit Benutzern interagieren, indem sie von der Vorhersage des nächsten Artikels, den ein Benutzer mögen könnte, zu einem Verständnis der Bedürfnisse der Benutzer und einer Anpassung durch natürlichsprachliches Feedback übergehen. Es gibt jedoch keine Datensätze, um diese neuen Fähigkeiten zu erkunden, daher wurde ein neuer Benchmark-Datensatz namens Reviews Enhanced with GEnerative Narratives (REGEN) entwickelt. REGEN kombiniert Artikel-Empfehlungen, natürlichsprachliche Merkmale und personalisierte Narrative, um die Erkundung und Bewertung neuer Empfehlungsarchitekturen zu ermöglichen. Der Datensatz wurde durch die Erweiterung des Amazon-Produktbewertungs-Datensatzes mit synthetischen Benutzer-Kritiken und Narrativen erstellt, die mittels des Gemini 1.5 Flash-Modells generiert wurden. REGEN ermöglicht die Bewertung von Modellen, die Benutzer-Feedback aufnehmen und natürlichsprachliche Ausgaben erzeugen, die mit den Empfehlungen konsistent sind. Experimente zeigen, dass große Sprachmodelle, die auf REGEN trainiert wurden, effektiv sowohl Empfehlungen als auch kontextuelle Narrative generieren können, was zu Leistungen vergleichbar mit denen von State-of-the-Art-Empfehlern und Sprachmodellen führt. Der Datensatz enthält Kritiken, die es Benutzern ermöglichen, ihre Vorlieben auszudrücken, und Narrative, die reiche kontextuelle Informationen über empfohlene Artikel bereitstellen. Zwei Baseline-Architekturen wurden entwickelt, um unterschiedliche Modellansätze zu erkunden: ein hybrides System und ein vollständig generatives Modell namens LUMEN. Die Ergebnisse zeigen, dass REGEN Modelle auf bedeutende Weise herausfordern und unterscheiden kann, sowohl bei Empfehlungsaufgaben als auch bei Generierungsaufgaben, und dass die Integration von Benutzer-Kritiken in die Eingabe konsistent die Empfehlungsmetriken verbessert. REGEN bietet eine grundlegende Ressource für das Studium der Fähigkeiten von konversationellen Empfehlungsmodellen, indem es die konversationelle Empfehlung durch die Integration von Sprache als fundamentalem Element vorantreibt.
CdXz5zHNQW_270TAgJClB.png
Google Research wird von der Erforschung des Machbaren angetrieben und leistet einen konkreten Beitrag zur Bewältigung von Klimakrisen wie Waldbränden, Überschwemmungen, extremem Wetter und Wirbelstürmen. Das Unternehmen treibt die Forschung voran und nutzt technologische Innovationen, um die Widerstandsfähigkeit zu stärken und zeitnahe, zuverlässige Vorhersagen dieser Bedrohungen zu liefern. Das bahnbrechende globale hydrologische KI-Modell von Google Research ermöglicht genaue Hochwasservorhersagen weltweit bis zu sieben Tage im Voraus und erreicht über 700 Millionen Menschen in mehr als 100 Ländern. Das Unternehmen arbeitet auch daran, die Vorlaufzeit und Genauigkeit von Wirbelsturmvorhersagen zu verbessern und Existenz, Zugbahn, Intensität, Größe und Struktur bis zu 15 Tage im Voraus vorherzusagen. Darüber hinaus setzt Google Research KI ein, um Vorhersagen für das Alltags-Wetter zu verbessern und hyperlokale, kurzfristige Wettervorhersagen mit einer Auflösung von 5 km zu erstellen, die alle 15 Minuten aktualisiert werden und bis zu 12 Stunden im Voraus reichen. Das Unternehmen nutzt außerdem KI, um die wachsende Bedrohung durch Waldbrände zu verstehen und zu mildern und mit seiner FireSat-Satellitenkonstellation Brände zu erkennen, die so klein wie ein 5x5 Meter großes Klassenzimmer sind. Darüber hinaus leistet Google Research Pionierarbeit, indem es mit Geospatial Reasoning, einem Rahmenwerk, das Erdmodelle mit generativer KI zusammenführt, um die Lösung von Geodatenproblemen zu beschleunigen, Einblicke in den Planeten ermöglicht. Das Unternehmen setzt KI auch ein, um verkehrsbedingte Emissionen zu reduzieren und die Luftqualität zu verbessern und so den Weg für eine nachhaltigere Luft- und Bodentransportation zu ebnen. Insgesamt ist Google Research zuversichtlich, dass die Weiterentwicklung von KI und wissenschaftlicher Forschung eine Schlüsselrolle bei der Bewältigung der schwierigen Probleme zeitnaher, zuverlässiger globaler Vorhersagen spielen kann, um so eine bessere Klimaresilienz zu erreichen.
CdXz5zHNQW_zA7FQj8Zaz.png
"Fehlerkorrektur ist für große Quantencomputer entscheidend und beinhaltet die Kombination physischer Qubits, um ein logisches Qubit zu erstellen, das robuster gegen Rauschen ist. Kürzlich hat ein Oberflächen-Code-Quanten-Fehlerkorrektur-Experiment die Leistungsschwelle überschritten, was die Erstellung eines nahezu perfekten logischen Qubits durch Hinzufügen weiterer physischer Qubits ermöglicht. Um die Fehlerkorrektur weiter zu verbessern, erkunden Forscher Wege, um die Anzahl der physischen Qubits pro logischem Qubit zu minimieren und die Geschwindigkeit logischer Operationen zu maximieren. Ein Ansatz besteht darin, die Qualität der physischen Qubits zu verbessern, während ein anderer darin besteht, den Fehlerkorrektur-Code effizienter zu machen. Ein neues Experiment hat ein "Farbcode"-System demonstriert, das eine Alternative zum Oberflächen-Code darstellt und weniger physische Qubits erfordert und effizientere logische Gatter aufweist. Der Farbcode verwendet ein dreieckiges Muster von Paritätsmessungen, das effizienter ist als das quadratische Muster des Oberflächen-Codes. Allerdings erfordert der Farbcode tiefere physikalische Schaltkreise und einen anderen Dekodier-Algorithmus, was seine Implementierung schwieriger macht. Trotzdem zeigte das Experiment, dass der Farbcode eine Leistung unterhalb der Schwelle erreichen kann, und sein geometrischer Vorteil könnte bei größeren Skalen noch bedeutender werden. Der Farbcode ermöglicht auch schnellere Ein-Qubit-Logikoperationen und kann verwendet werden, um "Magische Zustände" zu generieren, die für beliebige Qubit-Rotationen erforderlich sind. Insgesamt ist der Farbcode eine vielversprechende Alternative zum Oberflächen-Code und könnte ein wichtiger Bestandteil großer Quantencomputer werden."
CdXz5zHNQW_NFZqJLBOEx.png
"Die Zusammenführung verschiedener Gesundheitsdatenquellen, einschließlich elektronischer Gesundheitsakten, medizinischer Bildgebung und Daten von Smartwatches, erzeugt eine enorme Menge an Daten für Forscher und Kliniker zur Analyse. Diese verschiedenen Datenströme tragen oft einzigartige und überlappende Signale, sogar innerhalb desselben Organsystems. Im kardiovaskulären System beispielsweise können Elektrokardiogramm- (EKG-) und Photoplethysmogramm- (PPG-) Daten kombiniert werden, um ein vollständigeres Bild der Herzgesundheit zu erhalten. Die Integration dieser physiologischen Signaturen mit genetischen Informationen aus großen Biobanken könnte die Identifizierung der genetischen Grundlagen von Krankheiten ermöglichen. Die Autoren entwickelten eine multimodale Version ihres vorherigen Modells, REGLE, namens M-REGLE, die die Analyse mehrerer Arten klinischer Daten gleichzeitig ermöglicht. M-REGLE produziert einen niedrigeren Rekonstruktionsfehler, identifiziert mehr genetische Assoziationen und übertrifft Risikoscores bei der Vorhersage von Herzkrankheiten im Vergleich zu seinem Vorgänger, U-REGLE. M-REGLE verwendet einen robusten, mehrstufigen Ansatz, der gemeinsames Lernen nutzt, um multiple Modalitäten zu kombinieren, die wichtigsten Informationen zu erfassen und Assoziationen zwischen berechneten unabhängigen Faktoren und genetischen Daten zu finden. Das Modell verbessert U-REGLE, um konsistent bessere "gelernte Repräsentationen" der Daten zu produzieren, was zu signifikant niedrigeren Rekonstruktionsfehlern führt und die wesentlichen Informationen aus den ursprünglichen Wellenformen erfasst. M-REGLE verbesserte sich auch bei der Identifizierung genetischer Assoziationen mit Herzkrankheiten und deckte mehrere neue Loci auf, die zuvor nicht mit diesen Merkmalen assoziiert waren. Die polygenen Risikoscores des Modells übertrafen die von U-REGLE bei der Vorhersage von Herzkrankheiten, insbesondere von Vorhofflimmern, signifikant."
CdXz5zHNQW_8OCibkIK1O.png
Die Planung von Aufgaben umfasst oft quantitative Einschränkungen und qualitative Ziele, und große Sprachmodelle (LLMs) sind gut darin, qualitative Aspekte zu bearbeiten, aber kämpfen mit quantitativen logistischen Einschränkungen. Um dies zu überwinden, wurde ein hybrides System entwickelt, das ein LLM verwendet, um einen initialen Plan vorzuschlagen und dann optimiert für Ähnlichkeit mit dem LLM und realen Faktoren wie Reisezeit und Öffnungszeiten. Das System nimmt eine Benutzeranfrage entgegen, leitet sie an ein LLM weiter und fügt dann Komponenten hinzu, um Fragen der Durchführbarkeit anzugehen, einschließlich der Verankerung des Reiseplans mit realen Daten und das Abrufen von Ersatzaktivitäten. Der Optimierungsalgorithmus besteht aus zwei Stufen, zunächst wird die optimale Terminplanung für jeden Tag bestimmt und dann wird nach einem Gesamt-Reiseplan gesucht, der den Gesamtwert maximiert. Der Algorithmus führt lokale Anpassungen am initialen Reiseplan durch, um den Gesamtwert zu erhöhen, was zu einem finalen Reiseplan führt. Das System wurde mit Anfragen getestet, wie z.B. die Planung einer Reise nach New York City, um weniger bekannte Museen zu besuchen, und konnte einen geeigneteren Reiseplan erstellen als wenn man sich allein auf Suchergebnisse verlassen würde. Das System korrigierte auch Probleme mit dem ursprünglichen Reiseplan, wie z.B. die Planung von Aktivitäten in einer unnatürlichen Weise. Die Arbeit hat Auswirkungen auf andere alltägliche Aufgaben, wie z.B. die Organisation eines Ereignisses oder die Planung von Besorgungen, und ist Teil einer größeren Anstrengung, Systeme zu entwickeln, die es LLMs ermöglichen, realweltliche Einschränkungen zu navigieren. Das System wurde in Zusammenarbeit mit mehreren Personen entwickelt und erhielt hilfreiche Anleitung von anderen.
CdXz5zHNQW_Z59Sl7z87C.png
Erdsystemmodelle sind entscheidend für die Vorhersage zukünftiger Umweltveränderungen, aber ihr hoher Rechenaufwand schränkt ihre Fähigkeit ein, regionale Projektionen auf feinen Skalen durchzuführen. Um dieses Problem zu lösen, wurde eine neuartige generative KI-Methode entwickelt, um die Auflösungslücke zwischen Erdsystemmodellen und den Bedürfnissen der nachgeschalteten Nutzer zu schließen. Die Methode, die als dynamisch-generatives Downscaling bezeichnet wird, wendet probabilistische Diffusionsmodelle auf die Ergebnisse etablierter physikbasierter Modelle an, um globale Klimaprojektionen in lokale Umweltrisikobewertungen zu übersetzen. Dieser Ansatz führt zu detaillierten lokalen Umweltrisikobewertungen zu einem kleinen Bruchteil der Kosten bestehender modernster Techniken. Die Methode umfasst einen zweistufigen Prozess, bei dem ein regionales Klimamodell die Daten des globalen Erdsystems auf eine mittlere Auflösung herunterskaliert und dann ein generatives KI-System der Ausgabe feinskalige Details hinzufügt. Dieser hybride Ansatz nutzt die Stärken beider Methoden und ermöglicht eine physikalisch fundierte und effiziente Erzeugung hochauflösender Details. Die Ergebnisse zeigen, dass dynamisch-generatives Downscaling feinskalige Fehler im Vergleich zu statistischen Methoden um über 40% reduziert und realistische räumliche Muster und Korrelationen zwischen verschiedenen Wettervariablen erfasst. Die Methode bietet auch bessere Unsicherheitsschätzungen und erfasst regionale Extreme, wie z. B. das Waldbrandrisiko aufgrund von Santa-Ana-Winden in Südkalifornien. Dieser Durchbruch ermöglicht es, umfassende zukünftige regionale Klimaprojektionen auf umsetzbaren Skalen unter 10 km zu erhalten, was das Downscaling großer Ensembles von Erdsystemmodellen rechnerisch machbar macht. Durch die Bereitstellung genauerer und probabilistisch vollständiger regionaler Klimaprojektionen kann das dynamisch-generative Downscaling die Bewertung von Umweltrisiken drastisch verbessern und fundiertere Entscheidungen für Anpassungs- und Resilienzmaßnahmen treffen.
CdXz5zHNQW_MRzPJgsx30.png
Große Sprachmodelle (LLMs) sind zu einem führenden Paradigma für die Entwicklung intelligenter konversationeller Agenten geworden, aber sie fehlen oft an mehrfachen konversationellen Fähigkeiten wie der Disambiguierung. Um dies anzugehen, schlagen die Autoren Action-Based Contrastive Self-Training (ACT) vor, einen quasi-Online-Präferenz-Optimierungsansatz, der dateneffizientes Dialog-Policy-Lernen in mehrfachen Konversationsmodellierungen ermöglicht. ACT weist beträchtliche Verbesserungen bei der Konversationsmodellierung gegenüber Standard-Ansätzen wie überwachtem Feintuning und DPO auf. Die Autoren führen auch AmbigSQL ein, eine Aufgabe zur Disambiguierung von Informationen-suchenden Anfragen für komplexe Structured Query Language (SQL)-Code-Generierung. ACT umfasst das Erstellen eines Präferenz-Datensatzes, die Synthese abgelehnter Antworten und das Feintuning des Policy-Modells unter Verwendung des DPO-Ziels. Die Autoren experimentieren mit ACT unter Verwendung offener Gewichts-LLMs auf einer vielfältigen Menge von Konversations-Datensätzen und vergleichen es mit verschiedenen wettbewerbsfähigen Baselines, einschließlich überwachtem Feintuning, iterativer Vernunft-Präferenz-Optimierung und dem Auslösen von Gemini und Claude mit in-Kontext-Lernbeispielen. ACT erreicht die beste Leistung bei allen Metriken, mit bis zu 19,1% relativen Verbesserung gegenüber überwachtem Feintuning bei der Messung der Fähigkeit des angepassten Modells, Ambiguität implizit zu erkennen. Die Autoren führen auch Ablationsstudien durch, um die Vorteile jeder Komponente von ACT zu verstehen und finden, dass action-basierte Präferenzen, On-Policy-Stichproben und Trajektorien-Simulation für verbesserte mehrfache Ziel-Erreichung entscheidend sind. Insgesamt ist ACT ein modell-agnostischer Ansatz, der die Leistung unabhängig von vorheriger Ausrichtung auf menschliche Rückmeldung verbessern kann.
CdXz5zHNQW_8bM33MsQnf.png
Maschinelles Lernen-Modelle erfordern Feinanpassungen an domänenspezifischen Daten, aber dies kann aufgrund von Datenschutzbedenken problematisch sein. Differenzielle Privatsphäre (DP) ermöglicht das Training von Modellen unter Beachtung der Privatsphäre, aber die meisten Arbeiten konzentrieren sich auf Beispiel-ebene DP, der Nachteile hat. Benutzer-ebene DP ist eine stärkere Form der Privatsphäre, die garantieren kann, dass ein Angreifer keine Informationen über die Daten eines Benutzers erlangen kann, und wird in verteiltem Lernen eingesetzt. Lernen mit Benutzer-ebene DP ist schwieriger und erfordert die Hinzufügung mehr Lärms, der mit größeren Modellen schlechter wird. Der Artikel konzentriert sich auf die Feinanpassung großer Sprachmodelle mit Benutzer-ebene DP im Rechenzentrumstraining. Die Autoren modifizieren den stochastischen Gradientenabstieg (SGD), um Lärm hinzuzufügen und die Auswirkung jedes Benutzers auf das Modell zu begrenzen. Sie vergleichen zwei Methoden, Beispiel-ebene Stichprobenziehung (ELS) und Benutzer-ebene Stichprobenziehung (ULS), die sich in der Art und Weise unterscheiden, wie sie Daten stichproben. Die Autoren optimieren diese Algorithmen für große Sprachmodelle und finden, dass ULS im Allgemeinen besser ist, und beide Methoden besser als kein Feintuning trotz der strengen Datenschutzanforderung ausführen. Die Optimierungen ermöglichen es Modelltrainern, ihre Modelle an sensible Datenbestände anzupassen, während sie starke Benutzerschutzmaßnahmen bereitstellen.
CdXz5zHNQW_grlyYawnxV.png
"Google I/O präsentiert fortschrittliche Technologien, die genutzt werden können, um Innovationen voranzutreiben und neue Erlebnisse zu schaffen. Viele dieser Technologien sind aus jahrelanger Arbeit innerhalb von Google Research entstanden, die auf Durchbrüchen in den Bereichen KI und Informatik aufbaut. Die diesjährige I/O unterstreicht den Einfluss der Forschung auf die Realität, wobei jahrzehntelange Forschung nun für Menschen, Unternehmen und Gemeinschaften weltweit Realität wird. Google Research hat bedeutende Beiträge im Gesundheitswesen geleistet, darunter MedGemma, ein Modell für multimodales medizinisches Text- und Bildverständnis, und AMIE, ein KI-Forschungsagent für medizinische Diagnosegespräche. LearnLM, eine Familie von feinabgestimmten Modellen für das Lernen, ist jetzt in Gemini 2.5 verfügbar und macht es zum weltweit führenden Modell für das Lernen. Google Research hat auch die Forschung in den Bereichen Mehrsprachigkeit, Effizienz und multimodale Faktentreue vorangetrieben und trägt so zu AI Mode in Search und Imagen4 bei. Sparkify, ein neues Labs-Experiment, verwandelt jede Frage in ein animiertes Video, und FireSat, eine Konstellation von Satelliten, ermöglicht eine frühere und genauere globale Waldbranderkennung. Google Research hat auch Fortschritte in den Bereichen Quanten-KI, KI-Co-Wissenschaftler und Beschleunigung wissenschaftlicher Entdeckungen in verschiedenen Bereichen erzielt. Die auf der I/O hervorgehobene Forschung repräsentiert die laufende Arbeit der Google Research-Teams, die in verschiedenen Bereichen Durchbrüche erzielen und diese in die Realität umsetzen. Der "magische Kreislauf" zwischen Forschung und realer Anwendung wird immer schneller und umfassender, was zu größeren Auswirkungen auf Menschen, Unternehmen, Wissenschaft und Gesellschaft führt."
CdXz5zHNQW_b3M7UaYcbR.png
"Systeme zur Erweiterung von Sprachmodellen (LLMs) durch Bereitstellung relevanter externer Informationen. Idealweise produziert das LLM die korrekte Antwort oder antwortet mit "Ich weiß nicht", wenn bestimmte Schlüsselinformationen fehlen. Eine Hauptforderung bei RAG-Systemen ist, dass sie den Benutzer mit halluzinierten (und daher falschen) Informationen täuschen. Die Autoren sind der Meinung, dass die Relevanz des Kontextes allein das falsche Maß ist - sie möchten wissen, ob der Kontext genug Informationen enthält, um die Frage zu beantworten oder nicht. Die Autoren definieren den Kontext als "ausreichend", wenn er alle notwendigen Informationen enthält, um eine definitive Antwort auf die Anfrage zu liefern, und als "unzureichend", wenn er die notwendigen Informationen fehlt. Die Autoren entwickeln eine Methode, um die Ausreichendheit des Kontextes für LLMs zu quantifizieren und starten den LLM-Re-Ranker im Vertex AI RAG-Motor. Die Autoren zeigen, dass es möglich ist, zu wissen, wenn ein LLM genug Informationen hat, um eine korrekte Antwort auf eine Frage zu liefern. Die Autoren verwenden diese Ideen, um die Faktoren zu analysieren, die die Leistung von RAG-Systemen beeinflussen, und um zu analysieren, wann und warum sie erfolgreich oder scheitern. Die Autoren entwickeln einen ausreichenden Kontext-Autorater, der Query-Kontext-Paare auswertet und zeigen, dass sie ausreichenden Kontext mit sehr hoher Genauigkeit klassifizieren können. Die Autoren verwenden ihren ausreichenden Kontext-Autorater, um die Leistung von verschiedenen LLMs und Datenmengen zu analysieren, was zu mehreren Schlüsselbefunden führt."
CdXz5zHNQW_ycKtJQ89W5.png
Differenzielle Privatsphäre (DP) ist ein mathematisch strenges Datenschutz-Rahmenwerk, das gewährleistet, dass die Ausgabe eines randomisierten Algorithmus auch dann statistisch nicht unterscheidbar bleibt, wenn die Daten eines einzelnen Benutzers geändert werden. Es gibt zwei Hauptmodelle von DP: das zentrale Modell, bei dem ein vertrauenswürdiger Kurator Zugriff auf Rohdaten hat, und das lokale Modell, bei dem alle von einem Benutzergerät gesendeten Nachrichten selbst differenziell privat sind. In realen Daten-Teilungsszenarien vertrauen Benutzer jedoch oft unterschiedlichen Stufen auf andere, je nach ihren Beziehungen. Diese Asymmetrie hebt die Notwendigkeit von Rahmenwerken hervor, die binären Vertrauensannahmen übersteigen. Das Konzept der Vertrauens-Graph-DP (TGDP) modelliert Beziehungen, bei denen Vertices Benutzer darstellen, und verbundene Vertices einander vertrauen. TGDP gewährleistet, dass die Privatsphäre-Garantie auf Nachrichten anwendet, die zwischen einem Benutzer und allen anderen, denen er nicht vertraut, geteilt werden. TGDP interpoliert zwischen dem zentralen und lokalen Modellen auf natürliche Weise, und seine Genauigkeit kann durch eine einfache Aggregationsaufgabe quantifiziert werden. Ein Algorithmus basierend auf einer dominanten Menge des Vertrauens-Graphs kann TGDP erfüllen, und sein Fehler ist durch eine Funktion der dominanten Menge nach oben begrenzt. Eine untere Schranke für den Fehler von TGDP-Algorithmen wird auch bereitgestellt, und das Schließen der Lücke zwischen der oberen und unteren Schranke ist ein offenes Problem. Das TGDP-Modell kann auf föderierte Lernen und Analytics angewendet werden, um realistischere Vertrauensdynamiken in datenschutzfreundlichen Systemen zu ermöglichen.
CdXz5zHNQW_lzCf8wyy52.png
Milliarden Menschen kaufen täglich online ein, aber das Nachbilden des Einkaufserlebnisses im Geschäft ist eine Herausforderung. Technologie kann diese Kluft überbrücken, aber die Erstellung hochwertiger Produktvisualisierungen kann kostspielig und zeitaufwendig sein. Um dies zu beheben, wurden neue generative KI-Techniken entwickelt, um verkaufsfähige 3D-Produktvisualisierungen aus nur wenigen Produktbildern zu erstellen. Der jüngste Fortschritt nutzt Googles hochmodernes Videogenerierungsmodell Veo, um interaktive 3D-Ansichten für eine breite Palette von Produktkategorien in Google Shopping zu generieren. Der Ansatz der ersten Generation verwendete Neural Radiance Fields (NeRF), um neue Ansichten zu rendern, litt jedoch unter verrauschten Eingangssignalen und Mehrdeutigkeiten aufgrund spärlicher Eingabeperspektiven. Der Ansatz der zweiten Generation verwendete eine ansichtsbedingte Diffusions-Priorität, um diese Einschränkungen zu beheben, was zu erheblichen Skalierungsvorteilen führte und die Generierung von 3D-Darstellungen für viele Schuhe in Google Shopping ermöglichte. Der Ansatz der dritten Generation baut auf Veo auf, um 360°-Rotationen aus einem oder mehreren Produktbildern zu generieren und sich effektiv auf verschiedene Produktkategorien zu verallgemeinern. Dieser Ansatz vermeidet die Notwendigkeit, präzise Posen aus einem spärlichen Satz objektorientierter Produktbilder zu schätzen, wodurch die Zuverlässigkeit erhöht wird. Mit nur drei Bildern kann Veo hochgenaue und hochwertige neue Ansichten generieren und so Halluzinationen reduzieren. Die Zukunftsaussichten bestehen darin, die Grenzen weiter zu verschieben, um das Online-Shopping für die Nutzer angenehmer, informativer und ansprechender zu gestalten.
CdXz5zHNQW_c4wHagSzWQ.png
Antoine van Leeuwenhoek war die erste Person, die mithilfe eines selbstgebauten Lichtmikroskops mikroskopische Ansichten von Bakterien, roten Blutkörperchen und Spermien dokumentierte. Die Lichtmikroskopie ist seitdem zu einer grundlegenden Technik in den Laboren der Biowissenschaften geworden, konnte aber nicht in den Bereich der Konnektomik eindringen. Konnektomik ist ein Bereich der Neurowissenschaften, der sich auf die Elektronenmikroskopie verlassen hat, die teure und hochspezialisierte Ausrüstung erfordert. Forscher haben nun eine Methode namens LICONN entwickelt, die die Lichtmikroskopie verwendet, um umfassend alle Neuronen und ihre Verbindungen in einem Block von Mausgehirngewebe abzubilden. Dies wurde durch die Anpassung mehrerer etablierter Techniken und deren Kombination in einem einzigen Arbeitsablauf erreicht. Die Methode beinhaltet die physikalische Ausdehnung des Gehirngewebes unter Beibehaltung der strukturellen Integrität und die chemische Markierung aller Proteine, um einen Bildkontrast zu erzeugen. Die Forscher validierten LICONN durch die Bereitstellung einer automatisierten Rekonstruktion eines fast eine Million Kubikmikron großen Volumens der Maus-Hirnrinde und demonstrierten, dass es vergleichbar gut wie die auf Elektronenmikroskopen basierende Konnektomik funktioniert. LICONN eröffnet die Möglichkeit, gleichzeitig strukturelle und molekulare Informationen in einer Gewebeprobe zu messen und ermöglicht so grundlegend neue Möglichkeiten, die Funktionsweise des Gehirns zu verstehen. Die Forscher arbeiten nun daran, LICONN zu skalieren, um Daten aus größeren Gewebevolumen zu erfassen, und arbeiten in Projekten zusammen, um ein Mausgehirn abzubilden und zu verstehen, wie sich Gehirnstrukturen im Kontext von Krankheiten wie Alzheimer verändern.
CdXz5zHNQW_54bPA5njZM.png