Flux RSS Engadget

Il s'avère que vous pouvez entraîner des modèles d'IA sans matériel protégé par le droit d'auteur

Les entreprises d'IA affirment depuis longtemps que leurs outils ne pourraient pas exister sans s'entraîner sur des contenus protégés par le droit d'auteur, mais une nouvelle étude prouve qu'elles ont tort. Des chercheurs de 14 institutions ont collaboré pour construire un ensemble de données de 8 To en utilisant uniquement du matériel du domaine public et sous licence ouverte. Ils ont entraîné un grand modèle linguistique (LLM) de sept milliards de paramètres sur ces données, qui a obtenu des résultats comparables à ceux du Llama 2-7B de Meta de 2023. Le processus était laborieux, nécessitant une annotation manuelle et une autorisation légale pour chaque site web scanné. Le LLM résultant est moins puissant mais plus éthique, servant de contrepoint aux affirmations de l'industrie. Cette étude contredit les déclarations d'OpenAI et d'Anthropic, qui affirmaient qu'il serait impossible d'entraîner des modèles d'IA sans utiliser de matériel protégé par le droit d'auteur. Bien que cela ne change pas la trajectoire des entreprises d'IA, cela remet en question l'un de leurs arguments courants et pourrait être cité dans de futures affaires judiciaires et débats réglementaires. Les conclusions de l'étude sont significatives, car elles montrent qu'un développement éthique de l'IA est possible, bien que plus difficile. Les efforts des chercheurs démontrent qu'il est possible de créer des modèles d'IA qui respectent les lois sur le droit d'auteur et les droits de propriété intellectuelle. En fin de compte, cette étude pourrait influencer le développement de pratiques d'IA plus éthiques à l'avenir.
www.engadget.com
It turns out you can train AI models without copyrighted material
Create attached notes ...