RSS на пути к науке о данных - Medium

Недостаточно обученные и неиспользуемые лексемы в больших языковых моделях

Неиспользуемые и недостаточно обученные токены существуют в больших языковых моделях, таких как ChatGPT, из-за разделения между процессами токенизации и обучения модели. Неиспользуемые токены присутствуют в словаре модели, но не были достаточно видны во время обучения, в то время как недостаточно обученные токены могут или не могут существовать в словаре и не были представлены в обучающих данных. Эти токены могут привести к нежелательному поведению языковых моделей, таким как галлюцинации и отсутствие точности. Эксперименты с использованием GPT-2 Small демонстрируют существование неиспользуемых токенов, включая недостаточно обученные. Например, модель с трудом воспроизводит неиспользуемые токены, даже с простыми инструкциями. В одном эксперименте модель не может предсказать токен "ú" и вместо этого генерирует невнятный текст. Другой эксперимент включает в себя генерацию последовательностей повторяющихся случайных токенов и оценку производительности модели на повторяющейся последовательности. Результаты показывают, что модель работает плохо с неиспользуемыми токенами, с значительно более низкими логарифмическими вероятностями по сравнению с часто используемыми токенами. Недостаточно обученные токены могут присваивать неопределенные вероятности неиспользуемым токенам, несмотря на то, что они редко используются в большинстве контекстов. Исследователи предложили методы для автоматического выявления недостаточно обученных токенов, включая анализ выходных вложений, сгенерированных моделью. Один из подходов включает в себя вычисление среднего векторного вложения неиспользуемых токенов и использование косинусных расстояний для измерения сходства с векторными вложениями всех токенов. Токены с косинусными расстояниями, близкими к средним вложениям, помечаются как кандидаты недостаточно обученных токенов. Недавние исследования предложили методы для выявления недостаточно обученных токенов, включая работы Уоткинса и Рамбелоу, и Фелла. Эти методы могут помочь смягчить влияние недостаточно обученных токенов на выходные данные языковых моделей.
towardsdatascience.com
Under-trained and Unused tokens in Large Language Models