Réduire les données d'entraînement de 10 000 fois avec des étiquettes de haute fidélité

Suivre

Réduire les données d'entraînement de 10 000 fois avec des étiquettes de haute fidélité

La classification du contenu publicitaire non sécurisé est une tâche complexe pour laquelle les grands modèles de langage (LLM) sont bien adaptés en raison de leur compréhension contextuelle. Cependant, l'ajustement fin des LLM pour de telles tâches nécessite des données de formation de haute qualité et à grande échelle, ce qui est coûteux et chronophage à curer. Le dérive des concepts, où les politiques de sécurité changent, nécessite une rééducation fréquente, ce qui augmente les coûts. Pour remédier à cela, un nouveau processus d'apprentissage actif de curation réduit considérablement la quantité de données de formation nécessaires tout en améliorant l'alignement du modèle avec les experts humains. Ce processus identifie les exemples les plus précieux pour l'annotation, réduisant ainsi de manière significative les exigences en matière de données. Les expériences ont montré une réduction des données de formation de 100 000 à moins de 500 exemples, avec une amélioration de l'alignement du modèle de jusqu'à 65 %. Le processus de curation commence par un étiquetage de données à zéro coup par un LLM, suivi d'un regroupement pour identifier les exemples confusables. Ces exemples informatifs et diversifiés sont ensuite envoyés à des experts humains pour étiquetage. Les étiquettes d'expert sont utilisées à la fois pour évaluer et affiner les modèles de manière itérative. Le processus repose sur le Kappa de Cohen pour mesurer l'alignement, car les étiquettes de vérité terrain sont souvent ambiguës. Les modèles de référence affinés sur de grands ensembles de données créés par la foule ont performé moins efficacement par rapport aux modèles curés. La nouvelle méthode démontre que la curation soigneuse de moins d'exemples plus informatifs peut conduire à des gains de performance significatifs avec beaucoup moins de données. Cette approche est particulièrement bénéfique pour des domaines comme la sécurité des annonces avec un contenu en constante évolution.

Achieving 10,000x training data reduction with high-fidelity labels research.google

RSS Hunter • 6 août 2025