딥시크 연구원들이 3B, 9B, 27B 모델을 훈련하는 데 사용한 새로운 mHC 아키텍처를 상세히 설명했으며, 상당한 계산 부담을 추가하지 않고도 확장할 수 있음을 발견했습니다. (빈센트 차우/사우스 차이나 모닝 포스트)

빈센트 차우 / 사우스 차이나 모닝 포스트: 딥시크 연구진은 3B, 9B, 27B 모델을 훈련하기 위해 사용한 새로운 mHC 아키텍처에 대해 자세히 설명했으며, 이는 상당한 계산 부담 없이 확장된다는 것을 발견했습니다. 딥시크는 창립자 리앙 원펑(Liang Wenfeng)이 공동 저술한 기술 논문을 발표했으며, 이는 핵심 딥러닝 아키텍처에 대한 재고찰을 제안합니다.