RSS 테크메메

딥시크 연구원들이 3B, 9B, 27B 모델을 훈련하는 데 사용한 새로운 mHC 아키텍처를 상세히 설명했으며, 상당한 계산 부담을 추가하지 않고도 확장할 수 있음을 발견했습니다. (빈센트 차우/사우스 차이나 모닝 포스트)

빈센트 차우 / 사우스 차이나 모닝 포스트: 딥시크 연구진은 3B, 9B, 27B 모델을 훈련하기 위해 사용한 새로운 mHC 아키텍처에 대해 자세히 설명했으며, 이는 상당한 계산 부담 없이 확장된다는 것을 발견했습니다. 딥시크는 창립자 리앙 원펑(Liang Wenfeng)이 공동 저술한 기술 논문을 발표했으며, 이는 핵심 딥러닝 아키텍처에 대한 재고찰을 제안합니다.
favicon
techmeme.com
DeepSeek researchers detail a new mHC architecture they used to train 3B, 9B, and 27B models, finding it scaled without adding significant computational burden (Vincent Chow/South China Morning Post)
Create attached notes ...