AI企業は長らく、自社のツールは著作権で保護された素材での訓練なしには存在し得ないと主張してきましたが、新しい研究がそれを誤りであることを証明しました。14の機関の研究者たちが協力し、パブリックドメインとオープンライセンスの素材のみを使用して8TBのデータセットを構築しました。彼らはこのデータを使って、70億パラメータの大規模言語モデル(LLM)を訓練し、その性能は2023年のMetaのLlama 2-7Bに匹敵しました。このプロセスは手間がかかり、スキャンした各ウェブサイトに対して手動での注釈付けと法的クリアランスが必要でした。その結果、LLMは性能は劣るものの、より倫理的であり、業界の主張に対する反論となっています。この研究は、OpenAIとAnthropicが、著作権で保護された素材なしにAIモデルを訓練することは不可能であると主張したことと矛盾しています。これはAI企業の進路を変えることはないでしょうが、彼らの一般的な主張の一つに穴を開け、将来の訴訟や規制に関する議論で引用される可能性があります。この研究結果は、倫理的なAI開発が可能であることを示しており、それは困難ではあるものの、重要です。研究者たちの努力は、著作権法と知的財産権を尊重するAIモデルを作成することが可能であることを示しています。最終的に、この研究は、将来、より倫理的なAIの実践の開発に影響を与える可能性があります。
www.engadget.com
It turns out you can train AI models without copyrighted material
Create attached notes ...