Компании по ИИ давно утверждали, что их инструменты не могли бы возникнуть без тренировки на материалах, защищенных авторским правом, но новое исследование опровергает это утверждение. Исследователи из различных учреждений сотрудничали для создания набора данных в 8 ТБ, состоящего только из материалов из общественного достояния и открытых лицензий. Они обучили языковую модель с семью миллиардами параметров на этом данных, которая показала результаты, сопоставимые с моделью Llama 2-7B от Meta 2023 года. Процесс был трудоемким, требуя ручной аннотации и юридического разрешения для каждого сканированного сайта. Результатом стала менее мощная, но более этичная модель, которая служит контрпримером для утверждений отрасли. Это исследование противоречит заявлениям от OpenAI и Anthropic, которые утверждали, что обучение моделей ИИ без материалов, защищенных авторским правом, было бы невозможно. Хотя это не изменит траекторию компаний по ИИ, оно создает брешь в одном из их распространенных аргументов и может быть цитировано в юридических делах и дебатах о регулировании. Результаты исследования имеют важное значение, поскольку они демонстрируют, что этичное развитие ИИ возможно, хоть и более трудное. Усилия исследователей демонстрируют, что можно создавать модели ИИ, которые уважают авторские права и права интеллектуальной собственности. В конечном счете, это исследование может повлиять на развитие более этичных практик ИИ в будущем.
engadget.com
It turns out you can train AI models without copyrighted material
Create attached notes ...
