Flux RSS du blog Google IA
Suivre
VaultGemma : Le LLM à confidentialité différentielle le plus performant au monde
Construire une IA avec la confidentialité au cœur est une frontière cruciale à mesure que l'IA s'intègre davantage dans nos vies. La confidentialité différentielle (DP) offre une solution mathématiquement robuste en ajoutant du bruit calibré pour empêcher la mémorisation. Cependant, l'application de la DP aux LLM introduit des compromis qui modifient les lois d'échelle traditionnelles, réduisant la stabilité de l'entraînement et augmentant les coûts. De nouvelles recherches ont établi des lois qui modélisent avec précision ces subtilités, offrant une image complète des compromis entre calcul, confidentialité et utilité. Guidé par ces recherches, VaultGemma, le plus grand modèle ouvert (1 milliard de paramètres) entraîné à partir de zéro avec la confidentialité différentielle, a été introduit. Cette recherche a quantifié le bénéfice de l'augmentation de la taille des modèles, de la taille des lots et des itérations dans l'entraînement DP, en se concentrant principalement sur le rapport bruit-lot. Une conclusion clé est qu'il faut entraîner un modèle plus petit avec un lot plus grand qu'en l'absence de DP. En utilisant ces lois d'échelle et des algorithmes d'entraînement avancés, VaultGemma a été construit, représentant une avancée significative dans l'IA privée. VaultGemma ne présente aucune mémorisation détectable de ses données d'entraînement, validant l'efficacité de l'entraînement DP. Bien qu'un écart d'utilité persiste entre les modèles entraînés avec et sans DP, cette recherche vise à le réduire systématiquement.