RSS Engadget

Es stellt sich heraus, dass man KI-Modelle ohne urheberrechtlich geschütztes Material trainieren kann.

KI-Unternehmen behaupten seit langem, dass ihre Werkzeuge nicht ohne das Training mit urheberrechtlich geschütztem Material existieren könnten, aber eine neue Studie widerlegt dies. Forscher aus 14 Institutionen arbeiteten zusammen, um einen 8 TB großen Datensatz nur unter Verwendung von Public Domain und offen lizenziertem Material zu erstellen. Sie trainierten ein großes Sprachmodell (LLM) mit sieben Milliarden Parametern auf diesen Daten, das vergleichbar gut abschnitt wie Metas Llama 2-7B aus dem Jahr 2023. Der Prozess war arbeitsintensiv und erforderte manuelle Annotation und rechtliche Klärung für jede gescannte Website. Das resultierende LLM ist weniger leistungsfähig, aber ethischer und dient als Gegenpol zu den Behauptungen der Branche. Diese Studie widerspricht Aussagen von OpenAI und Anthropic, die behaupteten, dass das Training von KI-Modellen ohne urheberrechtlich geschütztes Material unmöglich wäre. Auch wenn dies die Entwicklung von KI-Unternehmen nicht verändern wird, reißt es ein Loch in eines ihrer gängigen Argumente und könnte in zukünftigen Rechtsstreitigkeiten und Regulierungsdebatten zitiert werden. Die Ergebnisse der Studie sind bedeutsam, da sie zeigen, dass eine ethische KI-Entwicklung möglich ist, wenn auch schwieriger. Die Bemühungen der Forscher beweisen, dass es möglich ist, KI-Modelle zu erstellen, die Urheberrechtsgesetze und Rechte an geistigem Eigentum respektieren. Letztendlich kann diese Studie die Entwicklung ethischerer KI-Praktiken in Zukunft beeinflussen.
favicon
engadget.com
It turns out you can train AI models without copyrighted material
Bild zum Artikel: Es stellt sich heraus, dass man KI-Modelle ohne urheberrechtlich geschütztes Material trainieren kann.