RSS VentureBeat
Folgen
Nvidia-Forscher verbessern die Denkfähigkeiten von LLMs, indem sie sie während des Vortrainings zum „Nachdenken“ bringen
Forscher bei Nvidia haben eine neue Technik namens Reinforcement Learning Pre-training entwickelt, die Reinforcement Learning in die anfängliche Trainingsphase großer Sprachmodelle integriert. Dieser Ansatz ermutigt das Modell, unabhängig zu denken, bevor es vorhersagt, was als Nächstes kommt, und lehrt es, auf einfachem Text zu schlussfolgern, ohne externe Verifizierer zu benötigen. Der typische Trainingszyklus für große Sprachmodelle umfasst das Vortraining auf riesigen Textmengen mit dem Ziel der Vorhersage des nächsten Tokens, gefolgt von einer Nachschulungsphase, in der sie komplexe Schlussfolgerungsfähigkeiten erlernen. Dieser sequentielle Prozess entspricht jedoch nicht dem menschlichen Verständnis, das eine parallele Integration von Eingaben mit Vorwissen darstellt. Die neue Technik, RLP, formuliert den Vortrainingsprozess neu, indem sie die Generierung von Gedankengängen als eine Aktion behandelt, die das Modell ausführt, bevor es das nächste Token vorhersagt. Das Modell erhält eine Belohnung basierend darauf, wie sehr sein Gedanke die Genauigkeit seiner Vorhersage verbessert hat, wodurch externe Verifizierer oder von Menschen gekennzeichnete Daten überflüssig werden. RLP hat signifikante Verbesserungen beim Erlernen komplexer Schlussfolgerungsaufgaben gezeigt, wobei Modelle, die mit dieser Technik trainiert wurden, ihre konventionell trainierten Gegenstücke durchweg übertreffen. Die Vorteile von RLP verstärken sich während nachfolgender Feinabstimmungsphasen, anstatt zu verschwinden, und die Technik zeigt eine beeindruckende Skalierbarkeit und Vielseitigkeit. Die Forscher glauben, dass RLP auf eine Zukunft hindeutet, in der das Vortraining kein monolithischer Prozess der Vorhersage des nächsten Tokens mehr ist, sondern vielmehr eine hybride Kombination von Zielen, die KI schafft, die von Anfang an robuster lernt zu denken. Insgesamt hat RLP das Potenzial, die Art und Weise, wie große Sprachmodelle trainiert werden, zu revolutionieren und ihnen zu ermöglichen, bereits zu Beginn des Trainings tiefere, strukturiertere Denkfähigkeiten zu entwickeln.