В этой статье обсуждается концепция prompt-loss-weight (PLW) при дообучении больших языковых моделей (LLM) на наборах данных в стиле завершения предложений. PLW позволяет более точно контролировать влияние токенов предложения во время процесса дообучения. Автор исследует вопрос о том, следует ли маскировать токены предложения и каков должен быть их вес, сравнивая дообучение с и без маскирования предложения. Также обсуждается концепция коэффициента генерации (Rg), который представляет собой отношение длины завершения к длине предложения, и ее актуальность для наборов данных для дообучения инструкций. Статья завершается экспериментами автора на наборе данных RACE с использованием собственной реализации PLW.
towardsdatascience.com
To Mask or Not to Mask: The Effect of Prompt Tokens on Instruction Tuning