Der Artikel behandelt die Entwicklung von ChatGPT, wobei der Schwerpunkt auf GPT-2 und GPT-3 liegt. Diese wurden entwickelt, um die Feinabstimmung (Finetuning) zu umgehen und Sprachmodelle wirklich intelligent zu machen. GPT-2 und GPT-3 teilen ähnliche Architekturen und wurden nach einer gemeinsamen Philosophie entwickelt, die aufgabenagnostisches Lernen, die Skalierungshypothese und In-Context-Lernen untersucht. Der Paradigmenwechsel von „Pre-Training plus Finetuning“ zu „nur Pre-Training“ wurde durch das Zero-Shot-Verhalten von GPT-1 motiviert, das zeigte, dass Pre-Training die Zero-Shot-Fähigkeit verbessern konnte. Finetuning hat Einschränkungen, darunter den Bedarf an großen Datensätzen für jede neue Aufgabe und das Risiko, Scheinkorrelationen in den Finetuning-Daten auszunutzen. Aufgabenagnostisches Lernen, die Skalierungshypothese und In-Context-Lernen sind Schlüsselelemente, die die Gestaltung von GPT-2 und GPT-3 beeinflusst haben. GPT-2 wurde entwickelt, um zu testen, ob ein größeres Modell, das auf einem größeren Datensatz vortrainiert wurde, direkt zur Lösung nachgelagerter Aufgaben verwendet werden kann, während GPT-3 testete, ob In-Context-Lernen Verbesserungen gegenüber GPT-2 bringen könnte, wenn es weiter skaliert wird. GPT-2 erzielte gute Ergebnisse bei vielen Aufgaben, schnitt aber bei einigen Aufgaben immer noch schlechter ab als die besten Modelle, was die Entwicklung von GPT-3 motivierte. GPT-3 übernahm eine ähnliche Modellarchitektur wie GPT-2 und wurde mit noch größeren Datensätzen trainiert, wodurch es eine starke Leistung bei vielen NLP-Datensätzen erzielte. Die Entwicklung von GPT-2 und GPT-3 ebnet den Weg für neue Forschungsrichtungen im Bereich NLP und der breiteren ML-Community, die sich auf das Verständnis emergenter Fähigkeiten und die Entwicklung neuer Trainingsparadigmen konzentrieren.
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
towardsdatascience.com
Understanding the Evolution of ChatGPT: Part 2 — GPT-2 and GPT-3
