Неиспользуемые и недостаточно обученные токены существуют в больших языковых моделях, таких как ChatGPT, из-за разделения между процессами токенизации и обучения модели. Неиспользуемые токены присутствуют в словаре модели, но не были достаточно видны во время обучения, в то время как недостаточно обученные токены могут или не могут существовать в словаре и не были представлены в обучающих данных. Эти токены могут привести к нежелательному поведению языковых моделей, таким как галлюцинации и отсутствие точности.
Эксперименты с использованием GPT-2 Small демонстрируют существование неиспользуемых токенов, включая недостаточно обученные. Например, модель с трудом воспроизводит неиспользуемые токены, даже с простыми инструкциями. В одном эксперименте модель не может предсказать токен "ú" и вместо этого генерирует невнятный текст.
Другой эксперимент включает в себя генерацию последовательностей повторяющихся случайных токенов и оценку производительности модели на повторяющейся последовательности. Результаты показывают, что модель работает плохо с неиспользуемыми токенами, с значительно более низкими логарифмическими вероятностями по сравнению с часто используемыми токенами.
Недостаточно обученные токены могут присваивать неопределенные вероятности неиспользуемым токенам, несмотря на то, что они редко используются в большинстве контекстов. Исследователи предложили методы для автоматического выявления недостаточно обученных токенов, включая анализ выходных вложений, сгенерированных моделью.
Один из подходов включает в себя вычисление среднего векторного вложения неиспользуемых токенов и использование косинусных расстояний для измерения сходства с векторными вложениями всех токенов. Токены с косинусными расстояниями, близкими к средним вложениям, помечаются как кандидаты недостаточно обученных токенов.
Недавние исследования предложили методы для выявления недостаточно обученных токенов, включая работы Уоткинса и Рамбелоу, и Фелла. Эти методы могут помочь смягчить влияние недостаточно обученных токенов на выходные данные языковых моделей.
towardsdatascience.com
Under-trained and Unused tokens in Large Language Models