"바이두는 이미지, 비디오 및 텍스트 이해를 위한 새로운 AI 모델인 ERNIE-4.5-VL-28B-A3B-Thinking을 출시했습니다. 이 모델은 정교한 라우팅 아키텍처를 사용하여 총 280억 개의 매개변수를 가지면서도 한 번에 30억 개의 매개변수만 활성화하여 효율성을 높입니다. 이러한 설계를 통해 문서 이해, 차트 분석 및 시각적 추론과 같은 작업에서 뛰어난 성능을 발휘합니다. 주요 기능 중 하나는 인간의 시각적 문제 해결 방식을 확대하여 모방하는 "Thinking with Images"입니다. 이 모델은 또한 객체 식별을 위한 향상된 "visual grounding" 기능을 자랑합니다. 바이두는 이 모델이 Google의 Gemini 2.5 Pro 및 OpenAI의 GPT-5-High와 같은 경쟁사보다 우수하다고 주장하지만, 독립적인 테스트는 아직 진행 중입니다. 이 모델은 Apache 2.0 오픈 소스 라이선스로 출시되어 상업적 사용에 제한이 없습니다. ERNIE-4.5-VL-28B-A3B-Thinking은 효율적인 처리를 위해 Mixture-of-Experts (MoE) 아키텍처를 사용합니다. 바이두는 ERNIEKit을 통해 광범위한 개발자 도구 및 통합 지원을 제공합니다. 이 모델은 문서 처리, 제조 품질 관리 및 고객 서비스 애플리케이션에 중점을 두고 성장하는 기업 AI 시장을 겨냥합니다. 이 모델은 단일 80GB GPU에 적합하여 더 접근하기 쉬울 수 있습니다."
bsky.app
AI and ML News on Bluesky @ai-news.at.thenote.app
venturebeat.com
Baidu just dropped an open-source multimodal AI that it claims beats GPT-5 and Gemini
