Selbstverbessernde Sprachmodel... Notiz

Selbstverbessernde Sprachmodelle werden mit der aktualisierten SEAL-Technik des MIT Realität

MIT-Forscher entwickelten SEAL, eine neuartige Technik, die es großen Sprachmodellen wie denen von ChatGPT ermöglicht, sich selbst zu verbessern. SEAL ermöglicht es LLMs, synthetische Daten zu generieren und ihre eigenen Fine-Tuning-Strategien zu formulieren, wodurch eine Selbstadaption erreicht wird. Diese Methode ist im Gegensatz zu herkömmlichen Modellen nicht ausschließlich auf externe Daten und von Menschen erstellte Prozesse angewiesen. Das erweiterte Papier und der letzten Monat veröffentlichte Open-Source-Code haben in der KI-Community große Aufmerksamkeit erregt. SEAL ist mit zwei Schleifen aufgebaut: Eine innere Schleife führt ein Fine-Tuning mit selbstgenerierten Bearbeitungen durch, und eine äußere Schleife verwendet Reinforcement Learning, um die Bearbeitungsgenerierungsrichtlinie zu optimieren. Die Leistung wurde anhand von Aufgaben zur Wissensaufnahme und zum Few-Shot-Learning bewertet, wobei signifikante Verbesserungen in der Genauigkeit festgestellt wurden. Die Technologie hilft Modellen, Wissen vor der Assimilation neu zu strukturieren, ähnlich wie menschliche Lernprozesse. Trotz starker Ergebnisse umfassen die Herausforderungen potenzielles katastrophales Vergessen und Rechenaufwand während des Fine-Tunings. Dennoch ist SEALs Fähigkeit, Trainingsdaten mit hohem Nutzen zu erstellen und über verschiedene Szenarien hinweg zu generalisieren, vielversprechend. Die Forscher sehen Anwendungen im Selbst-Pretraining und in der Entwicklung von agentenorientierteren KI-Systemen. Diese Arbeit stellt einen Schritt in Richtung einer autonomen LLM-Entwicklung dar, der möglicherweise Datenbeschränkungen angeht und zu Verbesserungen führt.
CdXz5zHNQW_YBrQHHj9O8.png