Сообщество RSS DEV
Подписаться
Исправьте структуру своих запросов, прежде чем трогать свою инфраструктуру
Команды часто фокусируются на инфраструктуре для оптимизации затрат на LLM, упуская из виду кэширование промптов. Кэширование промптов, которое значительно снижает затраты на токены, часто нарушается динамическим содержимым в системных промптах. Динамические элементы, такие как временные метки или пользовательские данные, разрушают кэш, что приводит к полной стоимости токенов. ProjectDiscovery успешно улучшила коэффициент попадания в кэш, переместив динамический контент в пользовательские сообщения, сэкономив много денег. Основной принцип заключается в том, чтобы системные промпты оставались статичными для максимальной выгоды от кэширования. Статические элементы, такие как инструкции и определения инструментов, должны предшествовать динамическому контенту в промптах. Низкие показатели чтения токенов из кэша указывают на потенциальные проблемы со структурой промптов. Приоритизация правильной структуры промптов может значительно сократить расходы по сравнению с изменениями в инфраструктуре. Многие упускают значительную экономию, потому что системные промпты содержат динамические данные. Пересмотр структуры промптов и разделение статических и динамических элементов имеет решающее значение для экономичного использования LLM. Экономия достигается быстро, часто улучшая биллинг.