Salesforce, ein cloud-basiertes Softwareunternehmen, arbeitet an künstlicher allgemeiner Intelligenz (AGI) für Unternehmen. Sie haben eine Reihe von KI-Technologien namens Salesforce Einstein, die mit ihrer Customer Success Platform integriert ist, um Produktivität und Kundenbindung zu verbessern. Einstein verfügt über mehr als 60 Funktionen, darunter Machine Learning, Natural Language Processing, Computer Vision und automatische Spracherkennung. Das Salesforce Einstein AI Platform Team konzentriert sich auf die Verbesserung der Leistung und Fähigkeiten von KI-Modellen, insbesondere großer Sprachmodelle (LLMs) für den Einsatz mit Einstein-Produkten.
Das Team stieß auf Herausforderungen bei der Bereitstellung von LLMs, darunter die sichere Bereitstellung des Modells, die Bewältigung einer hohen Anzahl von Inferenzanfragen und die Erfüllung von Durchsatz- und Latenzanforderungen. Sie evaluierten verschiedene Tools und Dienstleistungen, darunter Open-Source-Optionen und kostenpflichtige Lösungen, und wählten Amazon SageMaker aufgrund seines Zugangs zu GPUs, Skalierbarkeit, Flexibilität und Leistungsverbesserungen. SageMaker bot Funktionen wie multiple Servicing-Engines, erweiterte Batch-Strategien, effiziente Routing-Strategie, Zugang zu High-End-GPUs und schnelle Iteration und Bereitstellung.
Das Einstein-Team nutzte SageMaker, um die Leistung ihrer LLMs zu optimieren, was zu einer Verringerung der Latenz und einer Verbesserung des Durchsatzes führte. Sie stellten fest, dass es nach der Optimierung mit SageMaker erhebliche Verbesserungen bei Durchsatz und Latenz gab. Das Team erkannte auch eine Gelegenheit, die Ressourceneffizienz zu verbessern, indem sie mehrere LLMs auf einer einzigen GPU-Instanz hosteten. Ihr Feedback half bei der Entwicklung der Inferenzkomponenten-Funktion, die nun Salesforce und anderen SageMaker-Nutzern ermöglicht, GPU-Ressourcen effektiver zu nutzen.
aws.amazon.com
Boosting Salesforce Einstein’s code generating model performance with Amazon SageMaker
Create attached notes ...
