연구원들은 약 1,500달러로 처음부터 기초 모델을 훈련했다고 말합니다.

팔로우

연구원들은 약 1,500달러로 처음부터 기초 모델을 훈련했다고 말합니다.

처음부터 대규모 언어 모델을 훈련하는 것은 엄청나게 비싸며, 종종 수백만 달러가 소요되고 방대한 인터넷 규모의 데이터가 필요합니다. Sapient는 표준 트랜스포머 대신 계층적 순환 모델(HRM)을 사용하는 보다 비용 효율적인 접근 방식인 HRM-Text를 개발했습니다. HRM-Text는 실제 기업 사용 사례를 반영하여 지시-응답 쌍으로만 훈련됩니다. 이 방법은 샘플 효율적인 훈련을 가능하게 하여, 일반적인 비용의 일부만으로 큐레이션된 데이터셋에서 10억 개의 매개변수를 가진 HRM-Text를 생성할 수 있습니다. 이 모델은 주요 산업 벤치마크에서 훨씬 더 크고 확립된 오픈 모델과 경쟁력 있는 성능을 보여줍니다. 이러한 혁신은 기반 사전 훈련이 이제 더 적은 리소스를 가진 조직에서도 접근 가능함을 의미합니다. 현재 LLM의 핵심 비효율성은 인터넷 데이터를 암기하는 데 컴퓨팅 파워를 낭비하는 무차별적인 다음 토큰 예측에 의존하는 것입니다. Sapient의 CEO는 모델을 확장할 때 수익이 감소하는 현재 관행의 경제적 한계를 강조합니다. 기존 모델을 미세 조정하는 것은 종종 상당한 범용 데이터가 필요하여 계산 집약적이고 제어하기 어렵습니다. 독점 데이터를 가진 기업은 거대한 범용 모델보다는 컴팩트한 추론 코어를 필요로 합니다. HRM-Text는 계산을 전략 계층과 실행 계층으로 분리하여 효율성을 향상시킵니다. 이 아키텍처는 안정적인 의미론적 컨텍스트와 로컬 반복 개선을 보장합니다. Sapient는 훈련을 안정화하고 기울기 문제를 방지하기 위해 MagicNorm과 워밍업 방법을 도입했습니다. 다음 토큰 예측에서 지시-응답 쌍을 사용한 작업 완료로의 전환은 핵심 차별점입니다. HRM-Text는 훨씬 적은 훈련 데이터와 컴퓨팅으로 인상적인 벤치마크 점수를 달성했습니다. 이러한 효율성은 기업이 방대한 데이터셋을 암기하는 대신 외부 지식 저장소를 활용하는 전문화된 추론 모델을 배포할 수 있음을 의미합니다.

Researchers say they trained a foundation model from scratch for about $1,500 venturebeat.com

RSS Hunter • 6월 10일