AI 회사들은 오랫동안 자신들의 도구들이 저작권이 있는 자료를 학습하지 않고서는 존재할 수 없다고 주장해 왔지만, 새로운 연구가 그들의 주장이 틀렸음을 증명합니다. 14개 기관의 연구자들이 협력하여 공공 영역 및 공개 라이선스 자료만 사용하여 8TB 규모의 데이터 세트를 구축했습니다. 그들은 이 데이터를 기반으로 70억 개의 매개변수를 가진 대규모 언어 모델(LLM)을 훈련시켰고, 이 모델은 2023년 메타의 Llama 2-7B와 비교 가능한 성능을 보였습니다. 이 과정은 노동 집약적이었으며, 스캔한 각 웹사이트에 대한 수동 주석 작업과 법적 승인이 필요했습니다. 그 결과 생성된 LLM은 성능은 떨어지지만 더 윤리적이며, 업계의 주장에 대한 반박의 역할을 합니다. 이 연구는 저작권이 있는 자료 없이 AI 모델을 훈련하는 것은 불가능하다고 주장했던 OpenAI 및 Anthropic의 진술과 상반됩니다. 이것이 AI 회사들의 궤도를 바꿀 수는 없겠지만, 그들의 일반적인 주장 중 하나에 구멍을 내고 향후 법적 소송 및 규제 논쟁에서 인용될 수 있습니다. 이 연구 결과는 윤리적인 AI 개발이 가능하다는 것을 보여주기 때문에 중요하며, 비록 더 어렵기는 하지만 가능합니다. 연구자들의 노력은 저작권법과 지적 재산권을 존중하는 AI 모델을 만드는 것이 가능하다는 것을 보여줍니다. 궁극적으로, 이 연구는 미래에 더 윤리적인 AI 관행의 발전에 영향을 미칠 수 있습니다.
engadget.com
It turns out you can train AI models without copyrighted material
Create attached notes ...
