インフラストラクチャに手を加える前にプロンプト構造を修正する ノート

インフラストラクチャに手を加える前にプロンプト構造を修正する

チームはLLMのコスト最適化のためにインフラに注力しがちで、プロンプトキャッシュを見落としています。トークンコストを大幅に削減するプロンプトキャッシュは、システムプロンプト内の動的なコンテンツによって頻繁に壊れます。タイムスタンプやユーザーデータのような動的な要素はキャッシュを台無しにし、完全なトークン価格につながります。ProjectDiscoveryは、動的なコンテンツをユーザーメッセージに移動させることでキャッシュヒット率を大幅に改善し、多額の費用を節約しました。コア原則は、キャッシュのメリットを最大化するためにシステムプロンプトを静的に保つことです。指示やツール定義のような静的な要素は、プロンプト内で動的なコンテンツよりも前に来るべきです。低いキャッシュ読み取りトークン率は、プロンプト構造の問題を示唆する可能性があります。インフラの変更と比較して、正しいプロンプト構造を優先することは、コストを劇的に削減できます。システムプロンプトに動的なデータが含まれているため、多くの人が大幅な節約を逃しています。コスト効率の高いLLMの使用のために、プロンプト構造を見直し、静的要素と動的要素を分離することが重要です。節約は迅速に実現され、しばしば請求書が改善されます。