RSS VentureBeat 팔로우 MCP-Universe 벤치마크에 따르면 GPT-5는 실제 오케스트레이션 작업의 절반 이상을 실패합니다. Salesforce 리서치에서 새로운 벤치마크를 발표하여 실제 기업 업무에서의 모델 및 에이전트 성능을 평가합니다. AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app MCP-Universe benchmark shows GPT-5 fails more than half of real-world orchestration tasks venturebeat.com