Les modèles d'IA peuvent acquérir des portes dérobées à partir d'un nombre étonnamment faible de doc

Suivre

Les modèles d'IA peuvent acquérir des portes dérobées à partir d'un nombre étonnamment faible de documents malveillants.

L'étude d'Anthropic suggère que les attaques d'entraînement par "poison" ne s'intensifient pas avec la taille du modèle.

RSS Hunter • 9 oct. 2025