Квантование больших языковых моделей: можем ли мы сохранить точность?

Квантование больших языковых моделей (LLM) уменьшает их размер, но сохраняют ли они при этом свою производительность? В этом блоге рассматриваются ключевые эксперименты по реализации низкоразрядного квантования при сохранении качества модели