RSS VentureBeat
팔로우
Nvidia 연구진, 사전 훈련 과정에서 LLM(대규모 언어 모델)이 '생각'하도록 유도하여 추론 능력 향상
Nvidia 연구원들이 대규모 언어 모델의 초기 훈련 단계에 강화 학습을 통합하는 새로운 기술인 강화 학습 사전 훈련(RLP)을 개발했습니다. 이 접근 방식은 모델이 다음에 올 내용을 예측하기 전에 독립적으로 생각하도록 장려하여 외부 검증자 없이 일반 텍스트에 대한 추론을 가르칩니다. 대규모 언어 모델의 일반적인 훈련 주기는 다음 토큰 예측 목표를 사용하여 방대한 양의 텍스트에 대한 사전 훈련을 포함하며, 그 다음에는 복잡한 추론 능력을 배우는 사후 훈련 단계가 이어집니다. 그러나 이 순차적 프로세스는 입력과 사전 지식을 병렬적으로 통합하는 인간의 이해와 일치하지 않습니다. 새로운 기술인 RLP는 사고 연쇄 생성을 모델이 다음 토큰을 예측하기 전에 수행하는 행동으로 취급하여 사전 훈련 프로세스를 재구성합니다. 모델은 자신의 생각이 예측 정확도를 얼마나 향상시켰는지에 따라 보상을 받으므로 외부 검증자나 사람이 레이블을 지정한 데이터가 필요하지 않습니다. RLP는 복잡한 추론 작업을 학습하는 데 상당한 개선을 보였으며, 이 기술로 훈련된 모델은 기존 방식으로 훈련된 모델보다 일관되게 뛰어난 성능을 보였습니다. RLP의 이점은 후속 미세 조정 단계에서 사라지는 대신 복합적으로 작용하며, 이 기술은 인상적인 확장성과 다재다능함을 보여줍니다. 연구원들은 RLP가 사전 훈련이 더 이상 다음 토큰 예측의 단일 프로세스가 아니라, 첫날부터 더 강력하게 생각하는 법을 배우는 AI를 만드는 목표의 하이브리드가 되는 미래를 가리킨다고 믿습니다. 전반적으로 RLP는 대규모 언어 모델을 훈련하는 방식을 혁신하여 훈련 초기에 더 깊고 구조화된 사고를 개발할 수 있도록 할 잠재력이 있습니다.