RSS VentureBeat
팔로우
AI 모델의 작은 부분만 재훈련해도 비용을 절감하고 망각을 방지할 수 있다는 연구 결과가 나왔습니다.
기업들은 종종 대규모 언어 모델(LLM)을 미세 조정할 때 모델이 이전에 학습한 능력을 잃어버리는 문제에 직면하는데, 이를 '파국적 망각'이라고 합니다. 일리노이 대학교 어바나-샴페인 캠퍼스의 연구원들은 이 문제를 피하기 위한 새로운 방법을 제안했습니다. 이 방법은 LLM의 좁은 부분만 재훈련하는 데 중점을 둡니다. 이 접근 방식은 계산 비용을 줄이고 모델의 기존 지식을 보존하는 것을 목표로 합니다. 연구팀은 파국적 망각이 진정한 기억 상실이 아니라 편향 드리프트의 부작용이라고 제안합니다. 그들은 두 개의 비전-언어 LLM인 LLaVA와 Qwen 2.5-VL을 특정 작업에 대해 훈련하고 보류된 벤치마크에서의 성능을 관찰함으로써 이를 조사했습니다. 놀랍게도, 그들은 자기 주의 투영 계층만 미세 조정하면 기존 작업에서의 성능 저하 없이 새로운 작업을 학습할 수 있다는 것을 발견했습니다. 이 연구는 다층 퍼셉트론(MLP)을 미세 조정하면 출력 편향과 일시적인 망각을 유발할 수 있음을 나타냅니다. 특정 MLP 구성 요소를 선택적으로 미세 조정하고 다른 구성 요소는 고정된 상태로 유지함으로써, 그들은 최소한의 망각으로 효과적인 학습을 달성했습니다. 이 좁은 재훈련 방법은 LLM을 업데이트하는 데 더 비용 효율적이고 제어 가능한 방법을 제공합니다. 현재 연구는 비전-언어 모델에 국한되어 있지만, 그 결과는 다른 모달리티의 다른 LLM에도 적용될 것으로 예상됩니다.