RSS Techmeme

Исследователи DeepSeek подробно описывают новую архитектуру mHC, которую они использовали для обучения моделей 3B, 9B и 27B, обнаружив, что она масштабируется без значительного увеличения вычислительной нагрузки (Vincent Chow/South China Morning Post)

Винсент Чоу / South China Morning Post: Исследователи DeepSeek подробно описывают новую архитектуру mHC, которую они использовали для обучения моделей 3B, 9B и 27B, обнаружив, что она масштабируется без значительного увеличения вычислительной нагрузки — DeepSeek опубликовал техническую статью, написанную в соавторстве с основателем Лианг Вэньфэном, предлагающую пересмотреть свою основную архитектуру глубокого обучения.
favicon
techmeme.com
DeepSeek researchers detail a new mHC architecture they used to train 3B, 9B, and 27B models, finding it scaled without adding significant computational burden (Vincent Chow/South China Morning Post)
Create attached notes ...