Salesforceは、クラウドベースのソフトウェア会社で、ビジネス向けの人工一般知能(AGI)を目指しています。Salesforce Einsteinと呼ばれるAIテクノロジーは、Salesforceの顧客成功プラットフォームと統合し、生産性と顧客エンゲージメントを向上させています。Einsteinは、機械学習、自然言語処理、コンピュータビジョン、自動音声認識など60以上の機能を備えています。Salesforce Einstein AI Platformチームは、特に大規模言語モデル(LLM)をEinstein製品オファリングで使用するためのAIモデルの性能と機能を向上させることに集中しています。
このチームは、LLMをホストする際にいくつかの課題に直面しました。安全にモデルをホストし、膨大な数の推論リクエストを処理し、スループットとレイテンシーの要件を満たす必要がありました。彼らは、オープンソースのオプションや有料ソリューションを評価し、Amazon SageMakerを選択しました。SageMakerは、GPUアクセス、スケーラビリティ、フレキシビリティ、性能最適化などを提供します。SageMakerは、複数のサービングエンジン、高度なバッチング戦略、効率的なルーティング戦略、高性能GPUアクセス、高速イテレーションとデプロイメントなどを機能として備えています。
Einsteinチームは、SageMakerを使用してLLMの性能を最適化し、レイテンシを削減し、スループットを向上させました。SageMaker最適化後、スループットとレイテンシが大幅に向上しました。このチームはまた、単一のGPUインスタンス上で複数のLLMをホストすることでリソース効率を向上させる機会を特定しました。彼らのフィードバックは、inferenceコンポーネント機能の開発に役割を果たしており、現在はSalesforceや他のSageMakerユーザーがGPUリソースをより効果的に活用できます。
aws.amazon.com
Boosting Salesforce Einstein’s code generating model performance with Amazon SageMaker
Create attached notes ...
