빈센트 차우 / 사우스 차이나 모닝 포스트:
딥시크 연구진은 3B, 9B, 27B 모델을 훈련하기 위해 사용한 새로운 mHC 아키텍처에 대해 자세히 설명했으며, 이는 상당한 계산 부담 없이 확장된다는 것을 발견했습니다. 딥시크는 창립자 리앙 원펑(Liang Wenfeng)이 공동 저술한 기술 논문을 발표했으며, 이는 핵심 딥러닝 아키텍처에 대한 재고찰을 제안합니다.
techmeme.com
DeepSeek researchers detail a new mHC architecture they used to train 3B, 9B, and 27B models, finding it scaled without adding significant computational burden (Vincent Chow/South China Morning Post)
Create attached notes ...
