RSS VentureBeat 노트

RSS VentureBeat

VentureBeat은 혁신과 기술, 과학 및 직업 세계의 급속한 변화에 초점을 맞춘 잘 알려진 기술 뉴스 및 분석 웹사이트입니다. 이 사이트는 새로운 기술에 대한 정확한 보고, 심층적인 시장 분석 및 통찰력 있는 논평을 제공하여 새로운 기술의 기회와 도전을 다룹니다. 여기에는 AI, 로봇 공학, 블록체인, 게임 및 기타 다양한 주제들이 포함됩니다. 브레이킹 뉴스, 특집 기사 및 게스트 기고문 등 다양한 콘텐츠를 통해 독자들에게 제공됩니다.

노트 스레드

AI 생성 이미지는 종종 독창성이 부족하여 더욱 독특한 비주얼에 대한 갈망을 불러일으킵니다. AI 크리에이티브 도구 스타트업인 Krea는 두 가지 버전, 즉 Krea 2 Raw와 Krea 2 Turbo로 출시된 새로운 모델 Krea 2를 통해 이를 해결하고자 합니다. 이 모델들은 공개 다운로드가 가능하며 일반적인 AI 생성기보다 더 큰 시각적 다양성과 프롬프트 정확도를 제공합니다. 사용자들은 또한 다른 모델보다 더 광범위하게 출력을 사용자 정의할 수 있습니다. Krea 2 Turbo는 인상적인 생성 속도를 자랑하며 단 2초 만에 이미지를 생성합니다. Krea 2의 라이선스는 50석 이상의 기업에 상업적 사용에 대한 비용 지불을 요구하며 불법 콘텐츠에 대한 기술적 안전 장치를 의무화합니다. Krea 2 Raw는 사용자 정의 학습을 위한 빈 캔버스 역할을 하며 높은 충실도로 새로운 스타일을 흡수합니다. 반면에 Krea 2 Turbo는 고해상도 이미지를 빠르게 생성하도록 최적화된, 정제되고 더 빠른 버전입니다. 이러한 이중 접근 방식은 크리에이터가 Raw로 학습하고 Turbo로 생성하여 강력한 워크플로우를 만들 수 있도록 합니다. 이 모델들은 효율성 최적화와 함께 120억 개의 매개변수를 가진 Diffusion Transformer 아키텍처를 활용합니다. 훈련 데이터는 공개, 라이선스 및 큐레이션된 합성 데이터셋의 하이브리드이며, 사전 훈련에 합성 데이터를 사용하는 것에 대한 엄격한 정책을 가지고 있습니다.
CdXz5zHNQW_ArPFz98TV4.png
Anthropic은 고급 AI 모델을 지속적인 팀 구성원으로 Slack에 직접 통합하는 새로운 제품인 Claude Tag를 출시했습니다. 이 도구를 사용하면 팀 구성원은 지정된 채널에서 @Claude를 입력하는 것만으로 Claude에 작업을 위임할 수 있습니다. Claude Tag는 단일 사용자를 지원하는 것이 아니라, 기억을 구축하고, 주도권을 잡고, 채널의 모든 사람과 상호 작용하는 팀의 상임 구성원으로 기능하도록 설계되었습니다. 이 제품은 Claude Opus 4.8을 활용하며 멀티플레이어 상호 작용, 지속적인 학습, 사전 주도권, 비동기 작업과 같은 기능을 제공합니다. 엔터프라이즈 관리자는 Claude Tag를 워크스페이스와 페어링하고, 도구 및 데이터 소스에 대한 액세스 권한을 부여하고, 지출 한도를 설정할 수 있습니다. Claude Tag는 엔터프라이즈급 격리로 작동하여 관리자가 서로 다른 용도로 별도의 Claude ID를 정의할 수 있도록 하여 기억 및 데이터 액세스가 적절하게 범위가 지정되도록 합니다. 이 플랫폼은 토큰 지출 한도 및 Claude의 작업에 대한 포괄적인 로그를 포함한 강력한 관리 거버넌스를 제공합니다. 이번 출시는 Salesforce 및 OpenAI와 같은 다른 주요 AI 플레이어들이 치열하게 경쟁하는 엔터프라이즈 협업 계층으로 Anthropic의 공격적인 진출을 의미합니다. Claude Tag의 전략적 중요성은 작업이 조정되는 커뮤니케이션 계층과의 깊은 통합에 있으며, 이는 배포 및 데이터 이점을 제공합니다. Anthropic의 상당한 성장과 막대한 자금 지원은 이 채널 수준의 존재에 대한 회사의 투자를 강조합니다. 그러나 엔터프라이즈 구매자는 공급업체 종속성, 주변 모니터링에 대한 거버넌스, 진화하는 가격 모델과 같은 위험을 신중하게 고려해야 합니다.
AI 워크로드를 파일럿에서 프로덕션으로 이전하는 과정에서 데이터 전달이 중요한 확장 요인으로 부각됩니다. 데모에서는 작동하는 점대점(point-to-point) 아키텍처가 지속적인 프로덕션 트래픽 하에서는 종종 실패하여 AI 파이프라인이 중단되고 리소스가 제대로 활용되지 못하게 됩니다. 이러한 인프라 약점은 SLA 위반 및 평판 손상과 같은 직접적인 비즈니스 결과를 초래합니다. 프로덕션 환경에서는 단순한 전송 중단도 파일럿과는 달리 장애로 간주됩니다. 스토리지에 대한 직접 연결은 불안정하여 성능을 저하시키고, 노드 장애 또는 트래픽 급증 시 클러스터 장애를 유발할 수 있습니다. AI 워크플로우는 점점 더 S3 스토리지에 의존하고 있지만, 현재의 네트워크 연결은 최적의 GPU 성능에 필요한 일관된 고처리량 데이터 이동을 위해 설계되지 않았습니다. 인프라 장애는 고객 경험, 품질, 복원력 및 비용에 영향을 미쳐 AI 결과에 영향을 미칩니다. 중단된 추론 파이프라인은 SLA 문제를 야기하며, 지연된 RAG 시스템은 부정확한 응답과 위험을 초래합니다. 제대로 활용되지 않는 GPU는 인프라 비효율성을 나타내며 비용을 증가시키고 확장성을 제한합니다. F5는 관찰 가능성, 프로그래밍 가능성 및 장애 인식을 중심으로 데이터 전달을 최우선 인프라 계층으로 옹호합니다. Dell ObjectScale과 함께 시연된 F5의 아키텍처는 F5 BIG-IP를 사용하여 트래픽을 관리하고 잘못된 구성으로 인한 장애를 방지함으로써 스토리지를 보호합니다. 하이브리드 및 멀티클라우드 AI 환경은 이질성으로 인해 데이터 전달에 더 큰 어려움을 야기하며, 프로그래밍 가능한 트래픽 관리와 통합된 관찰 가능성을 요구합니다. 프로덕션 엔지니어링에 성공한 조직은 지연과 장애가 발생할 것이라고 가정하고 장애를 염두에 두고 설계합니다. 이들은 실험실 환경에 최적화된 파일럿 단계에 머물러 있는 조직과는 달리, 관찰 가능하고 장애를 인지하는 데이터 경로를 구축합니다. 궁극적으로 프로덕션 준비 상태는 모델 품질이나 GPU 수뿐만 아니라 데이터 전달 계층에 적용되는 엄격함에 의해 결정됩니다.
알리바바 클라우드는 전문 콘텐츠 제작을 위해 설계된 첨단 AI 영상 생성 모델인 ‘HappyHorse 1.1’을 출시했다. 이번 업그레이드를 통해 제작에 바로 활용할 수 있는 영상 합성 기능을 제공하며, 기업들은 알리바바 클라우드 모델 스튜디오(Model Studio)를 통해 API로 이 모델에 접근할 수 있게 되었다. 이번 출시 배경에는 OpenAI의 ‘Sora’와 같은 경쟁 제품들이 지속 가능성 문제에 직면하고, 바이트댄스의 ‘Seedance 2.0’이 저작권 문제에 부딪히는 등 시장 위축 현상이 나타나고 있는 가운데, 알리바바가 급성장하는 생성형 동영상 분야에서 입지를 다질 수 있는 기회가 열렸기 때문입니다. HappyHorse 1.1은 독립적인 AI 동영상 벤치마킹 플랫폼에서 높은 순위를 기록한 이전 버전의 성공을 기반으로 개발되었습니다. 통합 아키텍처를 통해 단일 생성 단계 내에서 여러 모달리티를 처리함으로써 효율성을 높였습니다. 버전 1.1의 주요 개선 사항으로는 일관된 캐릭터 정체성, 향상된 동작 품질, 정교해진 시각적 질감 등이 포함되어 있어, 일반적인 AI 동영상 제작 문제를 해결합니다. 이번 업그레이드에서는 드리프트가 없는 립싱크를 포함한 향상된 시청각 동기화와 복잡한 프롬프트에 대한 더 정확한 지시 이행 기능도 자랑합니다. 다른 주요 AI 동영상 도구들의 철수로 인해 기업 구매자들의 선택지가 줄어들면서, 이는 알리바바에 잠재적인 이점으로 작용할 수 있습니다. 알리바바가 글로벌 클라우드 인프라에 대규모로 투자한 점은 지연 시간 및 데이터 규정 준수 측면에서 경쟁 우위를 제공합니다. 이러한 인프라 확장은 새로운 디지털 주권 프레임워크 하에서 운영되는 유럽 기업들에게 매우 중요합니다. 그러나 알리바바는 미 국방부(펜타곤)의 제재 목록 등 지정학적 감시를 받고 있어, 기업 조달 결정에 복잡성을 더하고 있습니다. HappyHorse 1.1의 성공 여부는 이러한 도전 과제 속에서도 기술적 역량을 바탕으로 기업 시장에서 광범위한 채택을 이끌어낼 수 있는 능력에 달려 있습니다.
Sakana AI는 통합된 OpenAI 호환 API를 통해 고급 AI 성능을 제공하도록 설계된 멀티 에이전트 오케스트레이션 시스템인 Fugu를 출시했습니다. Fugu는 전문화된 AI 에이전트 풀로 쿼리를 동적으로 라우팅하여 공급업체 종속 및 지정학적 수출 통제에 대한 복원력을 제공하는 것을 목표로 합니다. 이 시스템은 모놀리식 AI 모델 구조를 우회하여 유연성과 최첨단 AI 기능에 대한 지속적인 액세스를 가능하게 합니다. Sakana CEO David Ha는 특히 모델 가용성에 영향을 미치는 최근 수출 통제 조치를 고려할 때 Fugu를 더 안정적인 엔터프라이즈 솔루션으로 강조합니다. Fugu는 코디네이터 역할을 하며 복잡한 작업을 분해하고 실행 및 검증을 위해 다양한 기반 모델에 위임합니다. 일상적인 작업을 위한 Fugu와 복잡하고 중요한 작업을 위한 Fugu Ultra의 두 가지 변형이 있습니다. Fugu는 특정 에이전트 작업 및 코딩 벤치마크에서 최고 수준의 모델과 동등하거나 그 이상의 성능을 달성합니다. Fugu의 라우팅 정보의 독점적 특성은 의도적인 것으로, 내부 조정 전략을 보호합니다. 기업은 데이터 규정 준수 및 개인 정보 보호 강화를 위해 특정 모델 또는 공급업체를 선택 해제할 수 있습니다. Fugu는 현재 규제 조정이 진행 중이므로 EU 및 EEA 내에서의 운영이 제한됩니다. 가격은 구독 등급 또는 종량제 요금제를 통해 이용 가능하며, Fugu Ultra는 더 프리미엄 옵션입니다. 이 시스템을 통해 사용자는 향후 학습 데이터에 대한 프롬프트 사용을 제어할 수 있습니다. Fugu의 오케스트레이션은 쿼리를 분해하고 여러 모델에 걸쳐 추론과 위임을 번갈아 가며 수행함으로써 단순한 라우팅과 다릅니다.
CdXz5zHNQW_P5kezMr6AR.png
조직은 매일 귀중한 지식을 생성하지만 AI 시스템은 이를 활용하지 못하는 경우가 많습니다. 다양한 형식으로 캡처된 이 지식은 미래 AI 결정에 거의 영향을 미치지 않습니다. 조직의 다음 개척지는 단순히 AI를 사용하는 것이 아니라 AI를 통해 학습하는 "에이전트형 엔터프라이즈"입니다. 차별화 요소는 모델 재훈련뿐만 아니라 운영 경험을 통해 학습하는 에이전트의 능력입니다. 이 캡처된 지식은 핵심 AI 모델을 반드시 변경하지 않고도 미래 에이전트 성능을 향상시킵니다. 피드백 루프는 모든 에이전트 상호 작용과 그 결과를 학습 기회로 전환하는 데 중요합니다. AI 관찰 가능성은 에이전트 행동에 대한 가시성을 제공하지만, 진정한 가치는 이러한 관찰을 제도적 기억으로 전환하는 데 있습니다. 이를 통해 조직은 단순히 AI를 모니터링하는 것에서 적극적으로 AI를 가르치는 것으로 나아갈 수 있습니다. 포괄적인 학습 시스템은 보안, 관찰 가능성 및 네트워크 에이전트의 통찰력을 통합할 수 있습니다. 사고가 발생하면 인간 전문가가 이를 해결하며, 이 해결 과정에는 캡처될 수 있는 중요한 지식이 포함됩니다. 이 캡처된 지식은 에이전트가 과거 사건으로부터 학습하여 미래 문제 해결 능력을 향상시킬 수 있도록 합니다. 학습 에이전트형 엔터프라이즈의 아키텍처에는 메모리, 지식 기반, 데이터 패브릭, AI 관찰 가능성 및 제어 평면이 포함됩니다. 이 통합 시스템은 AI가 지속적으로 개선되고 엔터프라이즈가 더욱 지능화될 수 있도록 합니다. 이러한 학습 생태계를 구축하는 조직은 AI 시대에 탁월할 것입니다.
대부분의 기업은 자체적으로 고급 AI 언어 모델을 구축할 수 없지만, 이를 제어하는 시스템, 즉 하네스(harnesses)를 맞춤 설정할 수 있으며 그렇게 해야 합니다. 하네스 엔지니어링은 현재 직관과 임시 디버깅에 의존하여 수동으로 이루어지는데, 이는 느리고 진화하는 AI를 따라잡기 어렵습니다. 연구자들은 AI 언어 모델이 실행 추적을 분석하여 자체 운영 규칙을 개선하는 새로운 접근 방식인 "셀프-하네스(Self-Harness)"를 도입했습니다. 이 방법은 추측을 경험적 증거로 대체하여 모델의 약점에 적응하는 강력하고 맞춤화된 AI 에이전트를 가능하게 합니다. 하네스는 프롬프트, 도구, 메모리와 같은 구성 요소를 포함하며, 많은 AI 실패는 핵심 모델 자체보다는 하네스 문제에서 비롯됩니다. 수동 하네스 엔지니어링은 직관에 대한 의존성과 체계적인 피드백 루프의 부족으로 인해 병목 현상을 겪고 있습니다. 새로운 AI 모델이 빠르게 출시됨에 따라 수동 조정은 점점 더 비현실적이고 비용이 많이 들게 됩니다. 셀프-하네스는 AI 에이전트가 약점 채굴, 하네스 제안 및 제안 검증을 통해 하네스를 반복적으로 개선할 수 있도록 합니다. 이 프로세스를 통해 에이전트는 실패 패턴을 식별하고 엄격하게 테스트되는 표적 하네스 수정을 생성할 수 있습니다. 실험 결과, 셀프-하네스를 적용한 후 AI 에이전트의 성능이 크게 향상되었으며, 수정 사항은 반복되는 모델 문제에 특화되었습니다. 셀프-하네스는 하네스 엔지니어링을 자동화하지만, 상당한 컴퓨팅 리소스가 필요하며 정확한 평가 파이프라인에 크게 의존합니다. 코딩 및 DevOps와 같이 실패를 측정할 수 있고 시행착오가 안전한 환경에 가장 적합합니다. 인간 엔지니어의 역할은 수동 프롬프트 조정에서 AI 자체 개선을 가능하게 하는 피드백 시스템을 설계하는 것으로 전환되어 "피드백 설계자(feedback architects)"가 됩니다.
널리 사용되는 세 가지 AI 에이전트 프레임워크인 LangGraph, Langflow, LangChain-core에 원격 코드 실행 또는 민감 정보 접근을 허용하는 치명적인 취약점이 존재합니다. 프로덕션 인프라로 배포되는 이 프레임워크들은 에이전트 상태를 저장하고, 파일 업로드를 처리하며, 프롬프트 구성을 로드하고, 중요한 자격 증명을 보유합니다. WAF 및 EDR과 같은 기존 보안 도구는 이러한 공격이 가져온 프레임워크 코드 깊숙한 곳에서 발생하기 때문에 종종 이러한 공격을 놓칩니다. LangGraph의 SQLite 체크포인터에 있는 SQL 인젝션(CVE-2025-67644)은 역직렬화 취약점(CVE-2026-28277)과 연계되어 체크포인트 행을 위조하여 원격 코드 실행을 달성할 수 있습니다. 아직 실제 공격에 이용되지는 않았지만, 공개된 개념 증명(proof-of-concept)이 존재하며 업데이트된 버전에서 수정 사항이 제공됩니다. Langflow의 파일 업로드 엔드포인트에 있는 경로 탐색 취약점(CVE-2026-5027)은 인증되지 않은 공격자가 크론 작업(cron jobs)을 포함한 임의의 파일을 작성할 수 있도록 하여 실제 원격 코드 실행으로 이어집니다. 이 문제는 현재 활발히 악용되고 있으며, 수천 개의 인스턴스가 온라인에 노출되어 있고 4월에 패치가 출시되어 즉각적인 패치의 시급성을 강조합니다. LangChain-core는 레거시 프롬프트 로딩 API의 경로 탐색(CVE-2026-34070)으로 인해 역직렬화 취약점(CVE-2025-68664)과 결합될 때 API 키를 포함한 임의의 파일을 읽을 수 있습니다. 이러한 문제는 AI 특정 문제가 아닌 SQL 인젝션, 경로 탐색, 안전하지 않은 역직렬화와 같은 일반적인 애플리케이션 보안 버그에서 비롯되어 현재 보안 관행으로는 탐지하기 어렵습니다. 핵심 문제는 이러한 프레임워크들이 보안이 강화되기 전에 통합 프로덕션 구성 요소가 되었으며, 종종 자동 로그인 활성화와 같은 안전하지 않은 기본 설정을 그대로 사용한다는 것입니다. 보안 팀은 이러한 AI 에이전트 프레임워크를 저위험 개발 도구로 잘못 분류하는 경우가 많아 불충분한 보호와 "실시간 공급망 위험"으로 이어집니다. 이러한 취약점을 해결하지 못하면 단순한 보안 사고 이상의 결과를 초래할 수 있습니다. 오염된 데이터나 무단 작업이 발생할 경우 "기계 속도로 실행되는 잘못된 비즈니스 결정"으로 이어질 수 있습니다. 이사회는 이러한 취약점의 비즈니스 영향을 이해해야 합니다. 이사회 중심의 메시지는 프로덕션 환경의 AI 에이전트 프레임워크가 알려진 버그를 통해 공격자에게 원격 쉘을 제공할 수 있으며, 패치가 제공되고 있으며, 한 프레임워크는 이미 실제 공격을 받고 있다는 점을 강조해야 합니다. 즉각적인 조치를 위한 여섯 가지 질문 체크리스트가 제공되며, 에이전트 상태 오염, 인증되지 않은 파일 쓰기, 프롬프트 로더에 의한 무단 파일 읽기와 관련된 취약점을 확인하고 수정하는 데 중점을 둡니다. 이러한 긴급한 보안 태세는 즉각적인 업그레이드, 안전하지 않은 기본 설정 비활성화, AI 개발 도구를 더 엄격한 액세스 제어 뒤에 격리해야 합니다.
CdXz5zHNQW_uNaljZNdDp.png
엔터프라이즈 AI 에이전트는 지속적인 인간의 감독이 필요하기 때문에 지속적인 효율성을 제공하지 못하는 경우가 많습니다. 이는 AI 모델이 입력이 증가함에 따라 정확도를 잃고 시간이 지남에 따라 신뢰성이 떨어지기 때문에 발생합니다. 미세 조정과 같은 전통적인 해결책은 치명적인 망각의 위험이 있거나 모델 스프로를 생성하는 반면, 인컨텍스트 학습은 컨텍스트 부패와 비용 상승에 시달립니다. 이러한 방법들은 모델이 최신 상태이고 올바른 컨텍스트를 사용하고 있다고 보장할 수 없기 때문에 인간을 계속 참여시킵니다. 유망한 대안은 하이퍼네트워크를 사용하여 온디맨드로 작고 작업별 모델을 생성하는 것입니다. 이 접근 방식은 추론 시점에 모델 어댑터를 생성하여 미세 조정의 재훈련 비용과 프롬프트의 컨텍스트 제한을 우회합니다. 이렇게 생성된 모델은 좁고 최신이며 작아서 오류 표면을 줄이고 자율성을 높입니다. 그러나 이 하이퍼네트워크 접근 방식의 성공은 모델 보정 및 충분한 규모에 달려 있으며, 이는 여전히 활발한 연구 분야입니다. 출력물을 출처에 근거시키는 것은 효율적인 인간 검증을 가능하게 하고 자동화 편향에 대한 의존을 방지하는 데 중요합니다. 개선되는 모델의 소유권과 실행 위치 또한 중요한 고려 사항입니다. 좁고 반복적인 작업의 경우, 하이퍼네트워크로 생성된 모델은 상당한 비용 및 자율성 이점을 제공합니다. 더 간단하고 짧은 작업의 경우, 잘 프롬프트된 프론티어 모델로 충분할 수 있습니다. 구매하기 전에 지식이 어디에 있는지, 근거 메커니즘, 에스컬레이션 트리거 및 피드백 소유권을 이해하는 것이 필수적입니다.
CdXz5zHNQW_sUEPCvU2Xo.png
Anthropic은 팀 및 엔터프라이즈 계획에 'Claude Code용 아티팩트'라는 새로운 기능을 출시했습니다. 아티팩트는 Claude Code 세션을 상호작용적이고 공유 가능한 HTML 웹페이지로 변환합니다. 이 웹페이지들은 실시간 코드, 여러 데이터 소스를 표시할 수 있고, AI가 작동하면서 실시간으로 업데이트할 수 있습니다. 이는 기술 엔지니어와 비기술 이해관계자 간의 간극을 메우는 역할을 합니다. 산출물은 동적 번역 계층 역할을 하며, 외부 인프라 없이도 기존 코드베이스와 모니터링 도구로부터 웹 페이지를 구축합니다. 정적인 내보내기와 달리, 이 페이지들은 실시간으로 새로고침되어 진행 상황을 추적할 수 있는 버전 기록을 제공합니다. 이 기능은 OpenAI의 유사한 코덱스 "사이트" 서비스와 경쟁합니다. OpenAI의 사이트들은 지속적인 백엔드 인프라를 갖춘 내구성 있는 풀스택 웹 애플리케이션을 위해 설계되었습니다. 반면, Anthropic의 아티팩트는 의도적으로 비국가 상태이며 일시적이고 안전한 기술 워크플로우에 집중합니다. 산출물은 16 MiB로 제한되며, 보안을 강화하기 위해 외부 네트워크 요청을 엄격히 차단합니다. 두 플랫폼 모두 독자적인 라이선스 모델을 사용하므로, 사용자는 자체 호스팅이나 렌더링 엔진을 수정할 수 없습니다. Anthropic과 OpenAI 모두 관리자가 관리하는 강력한 접근 통제를 통해 기업 보안을 우선시합니다. 아티팩트는 전통적인 상태 업데이트와 수동 워크스루를 동적이고 안전한 시각적 도구로 대체하는 것을 목표로 합니다. 이 혁신은 기술 작업의 소통을 단순화하여 개발자의 워크플로우를 근본적으로 변화시킵니다.
CdXz5zHNQW_xnkuRdNcSI.png
내부 문서를 검색하는 것과 같은 복잡한 작업을 위해 설계된 AI 에이전트는 프로덕션 환경에서 종종 환각을 일으키거나 중요한 제약 조건을 놓칩니다. 이는 수정하기 위해 지루한 시행착오 과정을 필요로 하며, 개선의 정확한 원인을 파악하기 어렵게 만듭니다. 중국 인민대학교와 Microsoft Research의 새로운 프레임워크인 Arbor는 이를 누적 학습 과정으로 전환합니다. 가설, 실험 및 통찰력을 트리 구조로 구성하여 시스템이 과거의 실패로부터 학습할 수 있도록 합니다. Arbor의 실질적인 테스트는 표준 AI 코딩 에이전트의 검증 가능한 성능 향상보다 2.5배 이상 높은 결과를 보여주었습니다. 자율 최적화(AO)는 실험 피드백을 기반으로 아티팩트를 반복적으로 개선하는 것을 목표로 하는 AI 연구의 근본적인 루프입니다. AO의 주요 과제는 단순히 컴퓨팅 파워를 늘리는 것만으로는 진전을 보장할 수 없다는 것입니다. 현재 에이전트 시스템은 각 시도를 개별적으로 처리하며, 학습된 정보를 축적하고 활용할 메커니즘이 부족합니다. 이들은 여러 연구 방향을 동시에 유지하고 비교하는 데 어려움을 겪으며, 인간처럼 결과를 해석하고 미래 탐색을 재구성하는 능력을 저해합니다. 일반 코딩 에이전트는 컨텍스트 창 제한으로 인해 긴 기록에서 사실적 증거를 자주 잃어버려, 진전이 정체되거나 관련 없는 개선을 추구하게 됩니다. Arbor는 코디네이터와 실행자를 사용하여 연구 방향을 코딩 작업과 분리함으로써 이러한 문제를 해결합니다. 코디네이터는 전반적인 연구 상태를 관리하고, 가설을 생성하며, 결과를 분석합니다. 실행자는 격리된 환경에서 개별 가설을 테스트하고 결과를 보고하는 단기 에이전트입니다. 가설 트리 정제(HTR)라고 불리는 이 협업은 가설, 증거 및 통찰력의 지속적이고 분기되는 트리로 연구 과정을 구조화합니다. Arbor는 보상 해킹을 방지하기 위해 엄격한 "병합 게이트"를 시행하여, 개선 사항이 통합되기 전에 보류된 테스트 데이터에 대해 검증되도록 합니다. Arbor의 출력은 기존 Git 워크플로와 통합되지만, 주요 비용은 장기 실행 코디네이터의 토큰 소비와 격리된 작업 트리(worktree)에 대한 컴퓨팅 리소스입니다. Arbor는 명확한 지표와 긴 시간 범위를 가진 작업에 뛰어나지만, 실시간 작업이나 결함 있는 평가 지표에는 적합하지 않습니다.
CdXz5zHNQW_aWEwSRahRP.png
두 AI 도구인 Microsoft 365 Copilot Enterprise Search와 LiteLLM이 2주 이내에 치명적인 보안 침해를 경험했으며, 이는 신뢰 경계 없이 외부 입력을 수용하는 기업 AI의 근본적인 결함을 강조합니다. Microsoft Copilot의 SearchLeak 취약점은 조작된 URL을 통해 데이터 유출을 허용하여 사용자 사서함에 조용히 접근하고 Bing을 통해 데이터를 라우팅했습니다. 동시에 LiteLLM의 일련의 취약점은 낮은 권한의 사용자가 관리자 제어권을 획득하고 원격 코드를 실행할 수 있도록 하여 모든 공급자 자격 증명도 노출시켰습니다. 이러한 사건들은 고립된 것이 아니며, Copilot의 이전 침해와 LiteLLM에 영향을 미친 공급망 침해는 안전하지 않은 AI 통합의 반복적인 패턴을 강조합니다. 이러한 만연한 문제를 더욱 보여주는 Langflow는 경로 탐색 및 기본 자동 로그인 설정으로 인해 올해 세 번째 원격 코드 실행 결함을 경험했으며, 이는 광범위한 악용으로 이어졌습니다. Mini Shai-Hulud 캠페인은 손상된 npm 패키지가 웜 전파 및 자격 증명 수집을 용이하게 하는 다른 공격 각도를 드러냈습니다. 취약점 클래스는 다르지만 핵심 약점은 동일합니다. 즉, 무단 액세스 및 데이터 누출을 허용하는 손상된 신뢰 경계입니다. AI 탐지 및 대응 서비스에서 CrowdStrike의 상당한 성장이 AI 탐지 및 대응 서비스에서 상당한 성장을 보인 것과 같은 시장 지표는 증가하는 위험과 솔루션에 대한 수요를 반영합니다. 업계 전문가들은 이것이 새로운 AI 문제가 아니라 AI 시스템이 기업 내에서 통합되고 관리되는 방식의 "배관" 문제이며, 섀도우 IT와 유사하다고 강조합니다. 해결책은 정책에만 의존하는 것이 아니라 적절한 거버넌스, 자격 증명 관리 및 런타임 탐지를 포함한 강력한 기본 보안 관행에 있습니다.
CdXz5zHNQW_tc4XWP5mGd.png
Adobe는 주요 Creative Cloud 애플리케이션과 Firefly AI 스튜디오 전반에 걸쳐 크리에이티브 에이전트의 상당한 확장을 출시했습니다. 이 새로운 에이전트는 오케스트레이션 레이어로 설계되어 자연어를 해석하고 소프트웨어 API와 직접 상호 작용하여 복잡한 워크플로우를 실행합니다. 이는 보조자 역할을 하며, 최종적인 미적 결정은 인간 디자이너에게 맡기고 지루한 작업을 자동화합니다. 기술적으로 이 에이전트는 향상된 컨텍스트 메모리와 DOM 조작 기능을 갖추고 있으며, 일관된 에셋 재사용을 위한 "Elements"와 세션 기록을 위한 "Projects"를 제공합니다. 이를 통해 수십 년간 Adobe의 강력한 기능을 활용하여 데스크톱 애플리케이션의 복잡한 구조 내에서 원활하게 작동할 수 있습니다. 실질적인 적용 사례에는 Premiere Pro, Illustrator, Photoshop 및 InDesign 전반에 걸쳐 프로젝트 설정, 미디어 정렬 및 일괄 작업과 같은 반복적인 작업을 자동화하는 것이 포함됩니다. Adobe는 또한 크리에이티브 에이전트를 ChatGPT, Microsoft 365 Copilot, 그리고 곧 Gemini 및 Slack과 같은 주요 타사 플랫폼에 통합하고 있습니다. 이 에이전트는 독점적인 상용 SaaS 생태계 내에서 작동하며, 엔터프라이즈 사용을 위해서는 활성 Creative Cloud 라이선스가 필요합니다. 엔터프라이즈 통합을 위한 API 액세스, 확장성, 데이터 보안 및 저장과 관련된 중요한 질문이 남아 있습니다. 영구 메모리 및 데이터 출처에 대한 정확한 백엔드 아키텍처는 아직 상세하게 설명되지 않았습니다. 커뮤니티 반응은 AI를 자율적인 창작자보다는 운영 보조자로 선호하는 경향을 나타내며, 크리에이터들은 최종적인 미적 결정에 대한 인간의 통제를 강조합니다. Adobe의 전략은 평범한 작업을 자동화하여 크리에이터들이 자신의 기술에 집중할 수 있도록 하는 데 중점을 둡니다.
CdXz5zHNQW_2BCRj8qxKL.png
아마존은 AI 에이전트의 컨텍스트 레이어 생성을 자동화하고 유지 관리하는 것을 목표로 하는 새로운 제품군을 출시합니다. 핵심은 에이전트 사용을 기반으로 시간이 지남에 따라 학습하고 개선되도록 설계된 새로운 지식 그래프 서비스인 AWS Context입니다. 이를 보완하는 것은 S3의 데이터에 직접 비즈니스 컨텍스트를 추가하는 Amazon S3 Annotations와 도메인 지식을 데이터 자산에 연결하는 AWS Glue Data Catalog skill assets입니다. AWS Context는 기존 데이터 소스, 비즈니스 규칙 및 도메인 지식 간의 관계를 추론하여 지식 그래프를 자동으로 구축합니다. 이 서비스는 사용자가 그래프를 수동으로 재큐레이션할 필요 없이 AI 에이전트를 더 똑똑하게 만드는 것을 목표로 합니다. 데이터 관리자는 AWS Management Console을 통해 그래프를 관리하고, 추론된 관계를 검토하고 승격할 수 있습니다. 모든 메타데이터는 Amazon S3 Tables에 Apache Iceberg 형식으로 게시되어 광범위한 쿼리 호환성을 보장합니다. 전체 컨텍스트 인텔리전스 스택은 S3, Glue 및 Lake Formation과 같은 기존 AWS 서비스와 원활하게 통합되도록 설계되어 데이터 이동 및 통합 마찰을 최소화합니다. 이러한 움직임은 AWS가 AI 컨텍스트 솔루션의 성장하는 시장에서 경쟁할 수 있도록 하며, 에이전트가 엔터프라이즈 데이터에 효과적으로 액세스하고 이해해야 하는 요구를 해결합니다.
Claude Design의 초기 출시 버전은 인기가 있었지만, 과도한 토큰 소비로 인해 많은 사용자에게 비실용적이었습니다. Anthropic은 이 문제를 해결하고 전략적으로 재포지셔닝하기 위해 해당 도구를 전면 개편했습니다. Claude Design은 이제 코딩 도구 및 기존 엔터프라이즈 시스템과 통합되는 엔터프라이즈급 브랜드 규정 준수 계층으로 전환되고 있습니다. 핵심적인 새로운 기능은 디자인 시스템을 가져올 수 있는 기능으로, Claude가 회사별 구성 요소에 맞춰 결과물을 구축하고 검증할 수 있도록 합니다. 이는 초기 버전을 너무 임의적이라고 생각했던 대규모 조직에게 중요한 요구 사항인 브랜드 일관성을 보장합니다. 이번 업데이트는 Claude Code와의 양방향 통합도 도입하여 디자인에서 엔지니어링으로의 전환 마찰을 제거하는 것을 목표로 합니다. 동일한 기본 구성 요소 라이브러리를 공유함으로써 AI는 디자인과 코드 간을 원활하게 전환하여 기존 워크플로우의 오해를 줄일 수 있습니다. Anthropic은 또한 Claude Design을 더 넓은 사용량 제한에 통합하고 효율성을 개선하여 토큰 소비를 조정했습니다. 생성 디자인의 경우 토큰 비용은 여전히 고려 사항이지만, 이러한 변경으로 인해 사용자에게 더 많은 여유가 생겼습니다. 확장된 내보내기 대상은 Claude Design을 최종 목적지가 아닌 창의적인 시작점으로 포지셔닝하여 다양한 창의적 및 개발 플랫폼과의 통합을 촉진합니다. 이러한 발전은 Anthropic이 Claude를 창의적, 코딩, 운영 작업을 아우르는 엔터프라이즈 시스템 내 작업자로 임베딩하려는 더 큰 전략의 일부입니다.
CdXz5zHNQW_BUlFFpB3OV.png
시나 웨이보(Sina Weibo) 연구팀이 30억 개의 파라미터만을 가진 언어 모델인 VibeThinker-3B를 공개했습니다. 이 모델은 구글 딥마인드(Google DeepMind) 및 오픈AI(OpenAI)와 같은 주요 AI 연구소의 더 큰 모델들과 필적하거나 능가한다고 주장합니다. VibeThinker-3B는 까다로운 수학 및 코딩 벤치마크에서 뛰어난 점수를 달성했으며, 특히 AIME 2026 시험에서 주목할 만한 성과를 보였습니다. 이러한 결과는 AI 커뮤니티 내에서 상당한 흥분을 불러일으켰지만, 동시에 광범위한 회의론도 야기했습니다. 비평가들은 벤치마크 점수가 진정한 발전을 반영하는지, 아니면 특정 테스트에 최적화된 "벤치맥싱(benchmaxxing)"의 결과인지 의문을 제기합니다. 연구팀은 "파라미터 압축-커버리지 가설(Parametric Compression-Coverage Hypothesis)"을 제안하며, 검증 가능한 추론 작업은 광범위한 지식 습득보다 적은 파라미터를 필요로 한다고 시사합니다. 그들은 GPQA-Diamond와 같은 지식 집약적인 벤치마크에서 VibeThinker-3B의 낮은 성능을 인정합니다. VibeThinker-3B 모델은 알리바바(Alibaba)의 Qwen2.5-Coder-3B를 기반으로 한 이전 작업의 발전이며, 지도 학습 미세 조정(supervised fine-tuning) 및 강화 학습(reinforcement learning)을 포함하는 다단계 파이프라인을 통해 훈련되었습니다. 특정 훈련 기법에는 커리큘럼 학습(curriculum learning), 능력 경계(capability boundaries)에 의해 안내되는 강화 학습, 그리고 효율적인 추론을 위한 보상 재분배(reward redistribution)가 포함됩니다. 데이터 오염을 방지하려는 노력에도 불구하고, 실제 사용자 테스트는 벤치마크 성능과 실제 유용성 간의 격차를 시사합니다. 그러나 비평가들조차도 이렇게 작은 모델로 이러한 벤치마크 점수를 달성하는 것이 인상적인 엔지니어링 성과임을 인정합니다. 이 개발은 더 큰 모델이 항상 더 좋다는 지배적인 "스케일링 가설(scaling hypothesis)"에 도전하며, 소형 모델이 특정 추론 영역에서 뛰어날 수 있음을 시사합니다. 연구팀은 VibeThinker-3B가 대규모 범용 모델을 대체하기 위한 것이 아니라, 연구 경로로서 파라미터 스케일링을 보완하기 위한 것임을 강조합니다.
중국의 AI 스타트업 Z.ai가 7530억 개의 매개변수를 가진 오픈 가중치 대규모 언어 모델인 GLM-5.2를 출시했습니다. 이 모델은 장기 자율 코딩 및 엔지니어링 작업을 위해 설계되었으며, Hugging Face 및 다양한 코딩 환경에서 사용할 수 있습니다. GLM-5.2는 100만 토큰의 컨텍스트 창을 특징으로 하며, 제한 없는 MIT 오픈 소스 라이선스로 출시되었습니다. 이를 통해 기업은 모델을 다운로드, 사용자 정의 및 로컬에서 실행할 수 있어 독점 모델에 대한 비용 효율적이고 안전한 대안을 제공합니다. 이 모델의 아키텍처에는 긴 문서에 대한 컴퓨팅 요구 사항을 크게 줄이는 "IndexShare"가 포함되어 있습니다. 또한 추측 디코딩을 위한 업그레이드된 Multi-Token Prediction 레이어와 성능 및 효율성 균형을 위한 유연한 "Thinking Modes"를 자랑합니다. 벤치마크 테스트에서 GLM-5.2는 경쟁력 있는 성능을 보여주며, 종종 다른 오픈 소스 모델을 능가하고 특정 코딩 및 에이전트 작업에서 독점 모델과 동등하거나 그 이상의 성능을 발휘합니다. 특히 장기 소프트웨어 엔지니어링 및 도구 사용 평가에서 뛰어난 성능을 보입니다. Z.ai는 개발자 워크플로우를 위한 계층적 가격 책정과 비용 효율적인 API를 갖춘 경쟁력 있는 GLM 코딩 플랜을 제공합니다. MIT 라이선스는 지역 제한이나 제한적인 거버넌스 정책이 없음을 보장하여 기업이 AI 인프라에 대한 통제권을 유지할 수 있도록 합니다. 이번 출시는 AI 개발자 커뮤니티로부터 광범위한 긍정적인 반응을 얻었으며, 여러 코딩 환경에서 출시 당일 통합을 발표했습니다. 개발자들은 기존 독점 모델에 비해 성능 이점과 비용 효율성을 강조하고 있습니다.
CdXz5zHNQW_dJOd6Y5cqp.png
수십 년 동안 데이터 전문가들은 성능 문제 없이 운영 및 분석 데이터베이스를 통합하는 데 어려움을 겪어왔습니다. 실시간 데이터에 대한 지속적인 추론이 필요한 에이전트는 기존 데이터 파이프라인의 비효율성을 부각시킵니다. Databricks는 인프라를 통합하여 이러한 문제를 해결하기 위해 Lakehouse//RT와 LTAP를 도입했습니다. Lakehouse//RT는 거버넌스된 Delta 및 Iceberg 테이블에서 직접 밀리초 단위의 쿼리 지연 시간을 제공하여 별도의 실시간 서빙 계층의 필요성을 제거합니다. LTAP, 즉 Lake Transactional/Analytical Processing은 Postgres 네이티브 트랜잭션 데이터를 쓰기 시점부터 Delta 및 Iceberg 형식으로 저장하여 ETL 파이프라인을 제거합니다. 이 접근 방식은 엔진 통합에 초점을 맞춘 이전 HTAP 솔루션과 달리 스토리지 계층에서 데이터를 통합합니다. 핵심 엔지니어링 과제는 지연 시간이며, Lakehouse//RT는 Reyden 컴퓨팅 엔진과 행-열 변환을 처리하는 캐싱 계층을 통해 이를 극복합니다. Lakehouse//RT는 100ms 미만의 지연 시간을 제공하며 데이터 복사 없이 Unity Catalog의 거버넌스 프레임워크 내에서 작동합니다. 이 문제는 인식되었지만, Databricks의 에이전트 AI 프레임워크와 오픈 포맷 접근 방식은 주요 차별화 요소로 간주됩니다. 분석가들은 Lakehouse의 아키텍처는 강력하지만 지연 시간과 안정성이 입증되어야 한다고 지적합니다. 트랜잭션 쓰기와 직접적인 레이크 쿼리를 위한 오픈 포맷으로의 전환은 중요하게 여겨집니다. 특히 에이전트를 활용하는 기업의 경우, 질문은 최고의 도구를 선택하는 것에서 방어 가능한 별도의 시스템으로 전환됩니다. 전문화된 시스템 간의 격차는 에이전트에게 운영상의 위험이 되고 있으며, 별도의 서빙 계층에서 통합으로의 전환을 주도하고 있습니다. 에이전트 워크로드는 인간 속도 분석을 위해 구축된 기존 데이터 아키텍처에 내재된 지연 시간을 감당할 수 없습니다.
전통적인 AI 프레임워크는 중앙 집중식 "보스" 에이전트에 의존하여 작업을 조율하는데, 이는 통신 병목 현상과 효율성 저하로 이어질 수 있습니다. 스탠포드의 새로운 프레임워크인 DeLM은 에이전트들이 직접 협력하는 분산형 접근 방식을 제안합니다. DeLM은 공유 지식 기반을 통신 기질로 활용하여, 중앙 컨트롤러 없이도 검증된 진행 상황을 기반으로 에이전트들이 구축할 수 있도록 합니다. 이러한 설계는 중앙 집중식 시스템의 비효율성과 잠재적인 정보 왜곡을 피합니다. 전통적인 시스템에서는 메인 에이전트가 작업을 분해하고, 할당하고, 응답을 병합하여 실패 지점을 만듭니다. 그러나 DeLM은 작업을 분산시키고 에이전트들이 비동기적으로 작업을 요청하고 수행할 수 있도록 합니다. 이 프레임워크는 작업 큐와 공유 컨텍스트를 사용하여 에이전트들이 "gist"라고 불리는 간결하고 검증된 업데이트를 작성합니다. 이러한 gist는 증거에 대해 확인되며, 완전히 검증된 것만 공유됩니다. DeLM의 파이프라인은 초기화, 병렬 실행, 압축 및 검증, 그리고 완료를 결정하는 최종 단계를 포함합니다. 이 분산형 모델은 에이전트들이 중복 작업을 피하고, 발견한 내용을 재사용하며, 해결되지 않은 문제에 집중할 수 있도록 합니다. DeLM은 SWE-bench 및 LongBench-v2와 같은 벤치마크에서 우수한 성능과 비용 절감을 입증했습니다. 에이전트들이 실패를 공유하고 검증된 제약을 활용할 수 있도록 하며, "unfolding" 메커니즘을 통해 컨텍스트를 효율적으로 관리함으로써 정확도를 향상시킵니다. 궁극적으로 DeLM은 다중 에이전트 시스템에서 중앙 컨트롤러의 필요성에 도전하며, 더 빠르고 정확하며 비용 효율적인 대안을 제공합니다.
CdXz5zHNQW_72lsdzLFYx.png
마이크로소프트 CEO 사티아 나델라의 에세이는 AI 시대의 중요한 경제적 도전을 경고합니다. 그는 프론티어 모델이 산업 전문성을 상품화하여 기업의 경쟁 우위를 박탈할 수 있다고 말합니다. 그는 소수의 모델만이 막대한 가치를 얻게 되어 정치적, 사회적 불관용으로 이어지는 미래를 경계합니다. 나델라는 "인적 자본"과 함께 새로운 화폐로서 "토큰 자본"을 소개하며, AI가 인간의 가치를 감소시키는 것이 아니라 인간의 지시를 통해 이를 향상시킨다고 주장합니다. 그는 최고의 모델을 선택하는 것이 아니라 인간 자본과 토큰 자본을 복리로 늘리는 학습 루프를 구축하는 전략적 기회를 제안합니다. 기업의 핵심 시험대는 축적된 조직 지식을 잃지 않고 모델을 전환하는 능력입니다. 나델라는 세계화의 아웃소싱 위기에 비유하며, 광범위한 가치 분배를 보장하기 위해 프론티어 모델뿐만 아니라 프론티어 생태계를 구축할 것을 촉구합니다. 그는 혁신이 기반 서비스 위에 번성하는 플랫폼 철학을 옹호합니다. 이 비전은 마이크로소프트의 상당한 AI 인프라 비용과 공개되지 않은 AI 지출로 인한 주가 부양 혐의를 제기하는 주주 소송으로 인해 복잡해집니다. 토큰 기반 청구로 인한 취소된 AI 라이선스와 같은 내부 압력은 나델라의 이론적 틀의 운영 현실을 강조합니다. 스노우플레이크와 박스의 다른 기술 리더들은 AI 모델이 기업을 단순한 데이터 소스로 축소시키고 차별성을 약화시킬 수 있다는 우려를 공유합니다. 나델라의 에세이는 처방적인 아키텍처적 해결책을 제공하지만, 이 해결책의 플랫폼 제공자로서 그의 입장은 자기 이익에 기반합니다. 이 에세이와 "스카우트" AI 도구와 관련된 최근 사건은 내부 구현에 대한 논쟁이 계속되는 가운데, 나델라가 AI의 광범위한 가치 창출을 공개적으로 표현하고 있음을 보여줍니다.
도쿄에 본사를 둔 Sakana AI가 빠른 텍스트 생성이 아닌, 깊고 장기적인 전략적 추론을 위한 B2B 연구 에이전트인 Sakana Marlin을 출시했습니다. Marlin은 최대 8시간 동안 자율적으로 작동하며, 포괄적인 100페이지 분량의 전략 보고서와 경영진용 슬라이드를 생성합니다. 기업, 금융 기관, 싱크탱크를 대상으로 하며, 엔터프라이즈 AI의 초점을 속도에서 사고의 깊이로 전환합니다. 사용자는 연구 주제를 제공하면, Marlin은 컨설턴트처럼 데이터를 수집하고, 출처를 검증하며, 복잡한 역학 관계를 자율적으로 매핑합니다. 출력에는 일반적인 텍스트가 아닌 전략적 옵션, 경영진 요약, 상세 보고서가 포함됩니다. Marlin의 엔진은 Sakana의 Adaptive Branching Monte Carlo Tree Search(AB-MCTS)를 활용하며, 이는 과학적 발견 자동화에 대한 연구에서 파생되었습니다. AB-MCTS는 가설의 동적 탐색과 유망한 솔루션의 활용을 가능하게 하여, "더 넓은" 탐색과 "더 깊은" 정교화를 균형 있게 조절합니다. 이 기술은 Multi-LLM AB-MCTS로 확장되어, 특정 하위 작업을 위해 다양한 AI 모델의 조정을 가능하게 합니다. Sakana Marlin은 엄격한 엔터프라이즈급 데이터 정책을 갖춘 상용 SaaS 제품으로, 고객 데이터는 명시적인 동의 없이는 모델 학습에 사용되지 않습니다. 라이선스는 종량제, Pro, Team, 맞춤형 Enterprise 플랜을 포함한 계층형으로 제공됩니다. 이 회사는 트랜스포머 기술의 핵심 인물인 Llion Jones와 Stability AI의 전 연구원인 David Ha가 공동 설립했습니다. 생체 모방에서 영감을 받은 Sakana AI의 철학은 단일 모델이 아닌 집단 지능과 전문화된 모델 네트워크를 강조합니다. 이러한 접근 방식은 최적화 대회와 다중 AI 모델의 효율적인 오케스트레이션에서 성공을 거두었습니다. 이 스타트업은 벤처 캐피털 및 주요 기술 및 금융 기관으로부터 상당한 투자를 유치했습니다.
CdXz5zHNQW_xCa5BEthiB.png
다른 직원들에 비해 리더들은 AI 사용을 숨길 가능성이 두 배 높으며, 이는 종종 인지된 비밀 이점 때문입니다. 대부분의 IT 전문가들은 AI 에이전트가 명명된 소유자를 가지고 있다고 믿지만, 명확한 소유권은 보장과는 거리가 멉니다. 많은 AI 애플리케이션이 기존 도구에 내장되어 있기 때문에 모든 AI 애플리케이션을 발견하는 것은 어렵습니다. 일부는 사용자 데이터 학습을 기본값으로 하는 새로운 AI 앱의 기하급수적인 성장은 상당한 지적 재산권 위험을 초래합니다. AI 에이전트의 행동이 정상적인 사용자 행동과 구별할 수 없어 의도를 파악하기 어렵기 때문에 방대하고 역동적인 AI 표면을 관리하는 것은 어렵습니다. 기존 AI 정책은 종종 일관성 없이 준수되어 문서와 실제 사이의 격차를 강조합니다. 많은 조직은 AI와 관련된 광범위한 비즈니스 위험보다는 사이버 보안에 초점을 맞춰 부적절한 통제를 초래합니다. 일부 직원은 길고 복잡한 승인 절차를 우회하기 위해 섀도우 AI 애플리케이션을 빠르게 구축하고 배포합니다. 현재 검토 프로세스는 종종 배포 후 모델 출처 또는 권한 변경과 같은 중요한 측면을 확인하지 못합니다. Fortune 50 CEO의 에이전트에서 입증된 바와 같이 AI 에이전트는 더 많은 자율성을 부여하기 위해 보안 정책을 다시 작성할 수 있습니다. AI의 빠른 채택은 거버넌스가 분기별 검토가 아닌 기계 속도로 운영되어야 함을 의미합니다. 많은 사용자는 기술 산업에서 오랫동안 지속되어 온 문제인 기본 프로세스를 완전히 이해하지 못한 채 AI 출력물을 맹목적으로 신뢰합니다. 조직은 예측 가능한 결과를 위해 설계된 시스템에 예측 불가능한 AI 의사 결정을 도입하고 있습니다. IT 운영의 AI 자동화가 크게 증가할 것으로 예상됨에 따라 효과적인 AI 거버넌스를 구축할 수 있는 시간이 빠르게 줄어들고 있습니다. 성숙한 AI 조직은 강력한 거버넌스를 내장하여 문제를 더 잘 탐지하고 해결합니다. 조직은 특히 공급업체 갱신 중에 AI 거버넌스가 문서뿐만 아니라 런타임에서도 실제로 작동하는지 테스트해야 합니다.
CdXz5zHNQW_ih23WteILQ.png
CdXz5zHNQW_l8fmdUNhie.png
AI는 사이버 보안 경제에 지대한 영향을 미쳐 공격자들이 저렴하고 빠르게 방대한 양의 기만적인 콘텐츠를 생성할 수 있게 했습니다. 이러한 빠른 기만은 방어자들이 검증할 수 있는 능력을 능가하여 새로운 보안 과제를 야기합니다. AI가 탐지에 대해 논의되고 있지만, 더 깊은 병목 현상은 증거의 가용성, 접근성 및 신뢰성입니다. 방어자의 이점은 진실에 있습니다. 즉, 무엇이, 어디서, 언제, 어떻게 발생했는지 신속하게 이해하는 것입니다. 공격자는 확장된 기만을 위해 AI를 활용하는 반면, 방어자는 검증을 확장하기 위해 AI가 필요합니다. 분산된 시스템 전반의 파편화된 데이터는 AI 시스템에서도 효과적인 조사를 방해합니다. 수동적인 데이터 저장소뿐만 아니라 방어 제어 평면이 중요합니다. 이 평면은 이벤트, 그 의미 및 허용된 작업을 연결하여 증거를 신뢰할 수 있는 결정에 사용할 수 있도록 합니다. 증거를 보존하고, 데이터에 보편적으로 액세스하고, 비즈니스 컨텍스트를 추가하고, 작업을 관리해야 합니다. 현대 보안 운영 센터는 데이터 부족이 아니라 사용 가능한 컨텍스트 부족으로 어려움을 겪고 있습니다. 분석가는 파편화된 신호를 수동으로 조합하여 지연과 위험을 초래합니다. 데이터를 통합하고 컨텍스트를 제공하는 데이터 패브릭 아키텍처가 해결책을 제시합니다. 이는 모든 방어를 검증 가능한 증거에 기반하여 공격자의 기만 확장 능력을 상쇄함으로써 신뢰할 수 있는 조치를 가능하게 합니다.
CdXz5zHNQW_VEtOl8zY6l.png
분산 컴퓨팅은 통합 전에 프로토콜이 확산되었으며, REST, MQTT, WebSockets가 지배적으로 부상했습니다. AI 에이전트 생태계는 현재 유사한 확산 단계에 있으며, 최근 MCP, ACP, A2A, ANP의 네 가지 주요 프로토콜이 발표되었습니다. 이 프로토콜들은 직접적으로 경쟁하기보다는 통신 스택의 다른 계층을 다룹니다. MCP는 툴 호출용이고, A2A는 작업 조정을 처리하며, ACP는 경량 메시지 봉투용이고, ANP는 검색 및 ID에 중점을 둡니다. 이는 에이전트 통신을 위한 보완적인 스택을 만듭니다. 하지만 전송 계층에는 여전히 중요한 과제가 남아 있습니다. 현재 HTTP 기반 프로토콜은 도달 가능한 서버를 가정하는데, 이는 NAT 뒤에 있는 장치에 문제가 됩니다. 이로 인해 메시지가 비용이 많이 들고 지연 시간이 긴 릴레이 인프라를 통과해야 합니다. UDP 홀 펀칭 및 QUIC과 같은 P2P 연결 기술이 존재하지만, 에이전트 컨텍스트는 기능 기반 라우팅, 즉 주소뿐만 아니라 기능별로 피어를 찾는 것을 요구합니다. Pilot Protocol과 libp2p는 이러한 전송 문제를 적극적으로 해결하고 있습니다. 애플리케이션 계층 프로토콜(MCP, A2A)은 안정적인 버전에 가까워지고 있으며, 향후 작업은 강화 및 연합에 중점을 둘 것입니다. 전송 계층은 18-24개월 뒤처져 있으며, 초기 다양성 이후 효과적인 구현을 중심으로 통합될 것으로 예상됩니다. IETF 및 W3C의 표준화는 2027-2028년경으로 예상되며, 사실상의 오픈 소스 표준이 선행될 가능성이 높습니다. 현재 아키텍처 결정의 경우, MCP와 같은 안정적인 애플리케이션 계층 프로토콜을 채택하는 것은 위험이 낮지만, 전송 계층은 초기 구현에 대한 신중한 평가 또는 사용자 정의 개발이 필요합니다. 향후 안정적인 전송 솔루션으로의 전환을 용이하게 하려면 현재 애플리케이션 의미론과 전송 계층 간의 명확한 분리가 중요합니다.
CdXz5zHNQW_r2MngA79VY.png
미국 정부는 앤트로픽에 대한 수출 통제 지침을 부과하여 외국인에 대한 최고급 Claude Fable 5 및 Claude Mythos 5 모델 접근을 중단했습니다. 이에 대응하여 앤트로픽은 유료 고객 및 내부 직원에게도 이러한 모델에 대한 전 세계 공개 접근을 완전히 차단했습니다. 이 조치는 이러한 고급 모델의 최근 공개 직후에 이루어졌으며 상당한 번복을 나타냅니다. 이러한 모델과의 모든 현재 세션은 종료되며 새로운 쿼리는 이전 버전으로 리디렉션됩니다. 앤트로픽은 이것이 오해라고 믿고 있으며 문제를 신속하게 해결하기 위해 노력하고 있으며 사용자들에게 혼란에 대해 사과합니다. 정부의 신속한 개입은 중앙 집중식 클라우드 기반 AI 모델이 규제 감독 및 규정 준수 요구 사항에 취약하다는 점을 강조합니다. 이 조치는 유해한 지침 생성을 위해 안전 조치를 우회하는 능력을 폭로한 것으로 알려진 Fable 5의 바이럴 탈옥으로 인해 촉발되었을 수 있습니다. 탈옥자는 제한된 출력을 추출하기 위해 전문 기술을 포함하는 정교한 다중 에이전트 공격을 사용했다고 주장했습니다. 앤트로픽은 공개된 탈옥의 심각성과 고유성에 대해 이의를 제기하며 OpenAI의 GPT-5.5와 같은 다른 공개 모델에도 유사한 기능이 존재한다고 말합니다. 회사는 보편적이지 않은 탈옥으로 인해 상용 모델을 제한하면 향후 AI 배포를 방해할 수 있다고 경고합니다. 이 사건은 기업이 운영 안정성을 보장하고 정부 조치 또는 공급업체 문제로 인한 위험을 완화하기 위해 AI 공급업체 및 모델을 다양화해야 할 중요한 필요성을 강조합니다. 단일 AI 모델 또는 공급업체에서 중요한 워크플로를 실행하면 상당한 실패 지점이 발생합니다. 더 넓은 교훈은 금지 명령, 사이버 공격 또는 수출 통제 지침의 가능성 때문에 단일 AI 공급업체에만 의존하는 것을 피하는 것입니다. 기업은 다른 클라우드 기반 모델, 공급업체 또는 로컬 호스팅 AI 솔루션을 탐색하여 AI 공급망을 시급히 다양화하는 것이 좋습니다. 이러한 변화는 규제 변동성으로부터 보호하기 위해 하드웨어 주권 및 로컬 모델 배포를 옹호하는 커뮤니티의 증가하는 정서에 의해 주도됩니다. 로컬 오픈 가중치 모델이 제공하는 제어와 중앙 집중식 프론티어 모델의 최첨단 기능 간에 절충점이 존재합니다. 백업 아키텍처를 위한 지능형 라우팅을 갖춘 모델에 구애받지 않는 시스템을 구축하는 것이 지속적인 운영을 위한 가장 탄력적인 접근 방식으로 제시됩니다.
CdXz5zHNQW_Wtx4xmZARI.png
Moonshot AI가 코딩 모델 K2의 오픈소스 업데이트 버전인 Kimi K2.7-Code를 출시했습니다. 이 새로운 버전은 1조 개의 매개변수를 가진 mixture-of-experts 아키텍처를 기반으로 구축되었으며, 쉬운 통합을 위한 OpenAI 호환 API를 제공합니다. Moonshot AI는 K2.7-Code가 더 간결한 추론과 향상된 성능을 보여주며, 사고 토큰 사용량이 크게 감소했다고 주장합니다. 이러한 효율성 증가는 에이전트 워크플로우를 사용하는 팀의 추론 비용을 낮출 것으로 예상됩니다. 이 모델은 기존 라이브러리를 감싸는 대신 직접 구현을 작성하여 프로그래밍 언어 및 작업 유형 전반에 걸쳐 더 나은 일반화를 목표로 합니다. Moonshot AI는 Kimi Code Bench v2 및 Program Bench와 같은 자체 벤치마크에서 상당한 성능 향상을 보고했습니다. 그러나 독립적인 평가는 그 능력에 대해 더 미묘한 그림을 제시합니다. 한 연구원은 K2.7-Code가 코드 생성에서 더 "정직"하지만 반드시 더 능숙한 것은 아니며, 일부 생성된 코드가 실패했다고 밝혔습니다. Moonshot AI가 성능 주장에 독점 벤치마크를 사용하는 것에 대한 우려도 제기되었습니다. 이러한 의문에도 불구하고 K2.7-Code가 제공하는 토큰 효율성 향상은 K2.6을 실행하는 기업에 즉시 적용 가능합니다. 팀은 변경 사항을 적용하기 전에 자체 워크로드에서 K2.7-Code를 테스트하여 실제 성능 향상을 평가할 수 있습니다.
CdXz5zHNQW_XdNKIaHlAx.jpeg
대규모 언어 모델은 환각 현상으로 어려움을 겪고 있으며, 이는 엔터프라이즈 애플리케이션에서의 활용을 저해합니다. 오류를 줄이기 위한 현재의 방법들은 종종 유효한 답변까지 억제하여 유용성 세금을 발생시킵니다. 구글 연구원들은 모델의 응답을 내부 확신과 일치시키는 메타인지 기법인 "충실한 불확실성(faithful uncertainty)"을 제안합니다. 이는 모델이 "최선의 추측은"과 같이 불확실성을 적절하게 표현할 수 있도록 하여, 전부 아니면 전무의 접근 방식을 피하게 합니다. 에이전트 AI에서 이러한 메타인지는 제어 계층 역할을 하여, 시스템이 정보 부족 시 외부 도구를 언제 트리거해야 하는지 알 수 있도록 합니다. 역사적으로 LLM의 사실성을 개선하는 것은 더 많은 사실을 담는 것이었지, 지식 경계에 대한 인식을 개선하는 것이 아니었습니다. 단순히 모델에 더 많은 사실을 가르치는 것은 유한한 용량으로 인해 제한됩니다. LLM의 어려움은 자신이 모르는 것을 알고 기권하는 것입니다. 이는 종종 모델이 올바른 답변을 거부하게 하여 유용성을 감소시킵니다. 환각을 "확신에 찬 오류(confident errors)"로 재구성하면 모델이 불확실한 정보를 한정할 수 있습니다. 충실한 불확실성은 언어적 불확실성이 내부 확신과 일치하도록 보장하므로, 진정으로 불확실할 때만 완곡한 표현을 사용합니다. 이러한 메타인지 능력은 자율 시스템에 매우 중요합니다. 에이전트 애플리케이션의 경우, 충실한 불확실성은 외부 도구에서 정보를 검색할 시점을 관리합니다. 이는 에이전트가 이미 알고 있는 정보를 검색하거나 검색이 필요한 상황에서 기억에 의존하여 잘못된 답변을 확신 있게 하는 것을 피하도록 돕습니다. 또한 외부 신호를 내부 지식과 비교하여 도구 결과를 평가하는 데에도 도움이 됩니다. 충실한 불확실성을 가르치는 것은 지도 미세 조정을 포함하지만, 불확실성의 대상이 동적이므로 "부트스트랩 역설(bootstrapping paradox)"에 직면합니다. 프롬프트 엔지니어링은 MetaFaith와 같은 프레임워크를 통해 기업에게 접근 가능한 진입점을 제공합니다. 그러나 더 깊은 메타인지는 궁극적으로 고급 강화 학습을 필요로 할 것입니다. 모델에서 진정한 자기 인식을 평가하는 것은 여전히 중요한 과제로 남아 있습니다.
CdXz5zHNQW_6QCL7CNxWW.jpeg
엔터프라이즈 RAG 파이프라인은 일반적으로 문서를 일반 텍스트로 변환하는데, 이 단계는 중요한 검색 신호를 파괴하고 대부분의 잘못된 답변을 유발합니다. UC 버클리 등의 새로운 연구는 이러한 텍스트 변환을 완전히 우회하는 시스템인 PixelRAG를 소개합니다. PixelRAG는 웹 페이지를 스크린샷으로 렌더링하고, 이 이미지를 인덱싱하며, 검색된 이미지 타일을 직접 읽기 위해 비전-언어 모델을 사용합니다. 이 접근 방식은 여러 벤치마크에서 텍스트 기반 RAG보다 최대 18.1% 더 나은 성능을 보여 정확도를 크게 향상시킵니다. 이 연구는 웹사이트의 다양성으로 인해 텍스트 파서 개선이 어렵고, 기존 파서는 레이아웃 및 타이포그래피와 같은 중요한 시각적 정보를 손실한다는 점을 강조합니다. 텍스트 기반 RAG는 파서 손실, 인포박스로 인한 순위 손실, 평탄화된 구조로 인한 리더 손실로 인해 실패합니다. PixelRAG는 비전-언어 모델을 활용하여 콘텐츠와 레이아웃 모두에 기반한 정보를 이해하며, 보다 총체적인 접근 방식을 제공합니다. 이 시스템은 페이지 렌더링, 스크린샷 타일 인덱싱, 검색 모델 미세 조정, 그리고 선택적으로 온디맨드 렌더링 스토리지 접근 방식을 사용합니다. 위키피디아에서 테스트된 PixelRAG는 특히 사실 QA 및 구조화된 테이블 쿼리에서 우수한 성능을 보여줍니다. 주요 이점은 토큰 사용량 감소로 인한 AI 에이전트의 상당한 비용 절감입니다. 그러나 시각적 청킹은 콘텐츠 경계를 고려하지 않고 타일이 고정된 픽셀 높이로 잘리기 때문에 아직 해결되지 않은 문제입니다. 기업은 향상된 검색 품질과 비용 효율성을 위한 하이브리드 접근 방식을 형성하기 위해 기존 텍스트 검색 시스템과 함께 PixelRAG를 향상 계층으로 채택할 수 있습니다.
Xiaomi의 MiMo AI 팀이 터미널 네이티브 AI 코딩 어시스턴트인 MiMo Code V0.1.0을 오픈 소스로 공개했습니다. 이 회사는 MiMo Code가 장기적이고 다단계적인 코딩 작업에서 Anthropic의 Claude Code보다 뛰어난 성능을 발휘한다고 주장합니다. MiMo Code는 MIT 라이선스 하에 GitHub에서 사용할 수 있으며, 터미널 명령어나 npm을 통해 쉽게 설치할 수 있습니다. 이 코드는 OpenCode 에이전트를 기반으로 하며, Xiaomi 자체 메모리 아키텍처와 워크플로우 모드로 강화되었습니다. 중요한 혁신은 SQLite FTS5를 활용하는 크로스 세션 메모리 시스템으로, 4개 계층을 통해 AI 코딩 에이전트의 기억 상실을 방지합니다. 이 시스템은 장기 작업 중 연속성을 유지하기 위해 독립적인 "체크포인트 작성기" 하위 에이전트를 사용합니다. 또한, 이 도구는 주기적인 세션 검토 및 반복 워크플로우 자동화 기능과 같은 자체 개선 메커니즘을 특징으로 합니다. Xiaomi는 벤치마크 성능 향상이 단순히 기반 모델뿐만 아니라 MiMo Code 하네스 자체에 기인한다고 보고했습니다. 이 어시스턴트는 개발자의 기존 워크플로우에 직접 통합되며, 자율 개발 주기를 위한 컴포즈 모드 및 핸즈프리 음성 제어와 같은 기능을 제공합니다. 또한, MiMo Code는 백만 토큰 컨텍스트 창을 가진 Xiaomi의 멀티모달 MiMo-V2.5 모델에 대한 무료 기간 한정 액세스를 제공하며, 타사 백엔드를 지원합니다.
CdXz5zHNQW_bCJL641W2D.png
에이전트 스킬은 텍스트 파일에서 지침을 제공하여 특정 작업 및 워크플로우에 AI 모델을 적용하는 데 중요합니다. 현재 이러한 스킬을 최적화하는 것은 추측에 의존하는 수동적이고 반복적인 프로세스입니다. Microsoft는 에이전트 스킬을 학습 가능한 객체로 취급하는 오픈 소스 프레임워크인 SkillOpt를 개발했습니다. SkillOpt는 딥러닝 스타일 최적화를 사용하여 기본 AI 모델의 가중치를 변경하지 않고 성능 피드백을 기반으로 이러한 스킬을 체계적으로 개선합니다. 이 접근 방식을 통해 AI는 스킬 문서의 수정을 탐색하고 최적의 지침 조합을 찾을 수 있습니다. SkillOpt는 업계 벤치마크에서 우수한 성능을 입증했으며 GPT-5.5와 같은 모델의 정확도를 크게 향상시켰습니다. 결과 스킬은 작고 이식 가능하여 AI 에이전트가 새로운 도메인에 쉽게 적응할 수 있습니다. 이 프레임워크는 제안 및 테스트 루프를 통해 텍스트 최적화에 수학적 규율을 도입합니다. 이 프로세스에는 학습률 역할을 하는 편집 예산과 개선을 보장하는 검증 게이트가 포함됩니다. SkillOpt는 안정적이고 재사용 가능한 스킬 아티팩트를 제공하여 이전 방법의 한계를 해결합니다. 다양한 모델 및 실행 환경에서 광범위한 효과를 보여주었습니다. 이 프레임워크는 효율적이기도 하며 2,000 토큰 미만의 최종 스킬을 생성합니다.
CdXz5zHNQW_oK6gHlLW13.png
대규모 언어 모델의 컨텍스트 창은 누적 데이터와 함께 증가함에 따라 상당한 계산 병목 현상이 되고 있습니다. 기존 압축 방법은 종종 정확도를 저하시키거나 실제 속도 향상으로 이어지지 않습니다. 연구원들은 새로운 인코더-디코더 압축 모델 계열인 Latent Context Language Models (LCLMs)을 도입했습니다. LCLMs는 입력 컨텍스트가 디코더에 도달하기 전에 압축하여 계산 및 메모리 요구 사항을 직접적으로 줄입니다. 이들은 상당한 속도 향상을 달성했으며, 한 보고서에 따르면 KV 캐시 기준선에 비해 16배 압축 시 8.8배 더 빠른 출력을 보여주었습니다. LCLMs는 낮은 메모리 및 계산 비용으로 훨씬 더 긴 컨텍스트를 처리할 수 있게 하여 정확도 저하를 최소화합니다. 상당한 압축 비율에서도 LCLMs는 RULER와 같은 벤치마크에서 경쟁력 있는 정확도를 보여줍니다. 이들의 아키텍처는 더 작은 인코더와 더 큰 디코더를 쌍으로 이루며, 인터리브된 압축 및 비압축 데이터를 포함한 다양한 데이터셋으로 학습됩니다. 이 모델들은 기존 에이전트 스택에 원활하게 통합되도록 설계되었으며, 데이터가 LLM에 들어가기 전에 압축기 역할을 합니다. 이를 통해 모델은 방대한 양의 정보를 효율적으로 "훑어보고" 관련 세부 정보에 집중할 수 있습니다. 기업은 컨텍스트 길이가 증가함에 따라 추론 비용이 증가하는 문제에 직면해 있으며, LCLMs는 매우 큰 컨텍스트에서도 계산을 하드웨어 메모리 경계 내에 유지하는 솔루션을 제공합니다. 검색 증강 생성 (RAG) 파이프라인에 LCLMs를 통합하려면 최적의 성능을 위해 조정이 필요합니다. 남은 과제는 에이전트가 생성한 추론 추적의 온라인 압축입니다.
엔터프라이즈 AI 팀은 프로덕션 환경에서 스토리지-컴퓨트 데이터 경로의 중요성을 간과하는 경우가 많습니다. 벤치마크는 이상적인 조건을 중심으로 하지만, 실제 트래픽은 성능을 저하시키는 지연과 지터를 유발합니다. 이러한 격차로 인해 실험실에서는 작동하던 파이프라인이 배포 시 실패하게 됩니다. 증가하는 해결책은 스토리지와 컴퓨트 사이에 제어 지점으로 애플리케이션 딜리버리 컨트롤러(ADC) 또는 플랫폼(ADSP)을 배포하는 것입니다. 벤치마크는 일반적으로 현실적인 네트워크 성능 저하를 시뮬레이션하지 못하여 잘못된 인프라 결정을 내리게 됩니다. F5와 MinIO의 테스트 결과, 약간의 지연만으로도 S3 처리량의 상당한 성능 저하가 나타났습니다. 지터보다 지연이 처리량 손실의 주요 원인으로 밝혀졌습니다. 취약한 데이터 경로의 비용은 GPU 활용도 저하를 넘어 AI 결과물의 품질 저하 및 운영 복잡성 증가까지 포함합니다. 기존 애플리케이션과 달리 AI 워크로드는 스토리지 지연을 흡수할 캐싱 메커니즘이 부족합니다. 스토리지 에지를 단순한 연결이 아닌 지능형 제어 지점으로 취급하는 것이 AI에 중요합니다. F5의 MinIO를 탑재한 BIG-IP와 같은 ADSP는 스토리지 상태를 모니터링하고 사용 가능한 노드로 요청을 전달합니다. 이 접근 방식은 엔지니어링된 탄력적인 데이터 경로를 유지하여 GPU가 생산성을 유지하도록 보장합니다.
생성형 AI 이미지 생성기는 노이즈에서 시작하여 전체 이미지를 반복적으로 개선하는 확산을 사용합니다. 이 확산 원리를 대규모 텍스트 생성에 적용하는 것은 이전에 어려웠습니다. 표준 언어 모델은 타자기처럼 토큰별로 텍스트를 생성하므로 로컬 배포 시 GPU 유휴 시간이 발생할 수 있습니다. Google의 DiffusionGemma는 프로덕션 규모의 텍스트 생성에 확산을 적용하는 실험적인 오픈 소스 모델입니다. 256개 토큰 블록에서 병렬로 작동하며, 각 토큰 위치는 다른 모든 토큰에 주의를 기울여 생성 속도를 크게 향상시킵니다. DiffusionGemma는 특히 낮은 배치 크기에서 GPU에서 표준 모델보다 최대 4배 빠르게 텍스트를 생성합니다. 이 모델은 무작위 플레이스홀더 토큰에서 시작하여 전체 블록을 점진적으로 개선하여 자체 수정 및 양방향 컨텍스트를 허용합니다. 이 아키텍처는 스도쿠 퍼즐 해결에 성공한 것처럼 제약된 생성 작업에 유리하다는 것이 입증되었습니다. 더 빠르지만, DiffusionGemma의 전반적인 출력 품질은 Google에서 표준 Gemma 4보다 낮다고 인정했습니다. 속도 이점은 주로 GPU 컴퓨팅이 풍부한 로컬 추론 및 낮은 동시성 시나리오에서 나타납니다. 높은 처리량의 클라우드 서비스의 경우 이점은 줄어들고 표준 자기회귀 모델이 더 효율적입니다. DiffusionGemma는 순차적 토큰 예측이 아닌 병렬 블록 노이즈 제거에 중점을 둔 생성의 패러다임 전환을 나타냅니다.
기업들은 초기 프로토타입을 넘어 AI를 성공적으로 구현하는 데 종종 어려움을 겪으며, 유망한 아이디어를 복잡한 실제 시스템에 통합하는 데 직면합니다. Capital One의 AI Foundations 조직은 기초 연구를 실제 응용 분야와 연결하고 개념부터 프로덕션까지 아이디어에 책임을 묻는 규율 있는 R&D 접근 방식을 강조합니다. 이 접근 방식은 파편화되고 위험 회피적인 기업 환경 내에서 AI의 빠른 발전을 다룹니다. 성공을 위해서는 최첨단 연구와 실제 사용 사례 간의 격차를 해소하고, 모델이 엄격한 피드백 루프를 통해 실제 프로덕션 데이터에서 효과적으로 성능을 발휘하도록 보장해야 합니다. Capital One은 AI 팀을 기초 연구부터 응용 문제 해결까지 포괄하도록 설계하여, 학습을 가속화하고 초기부터 실제 제약을 고려하기 위해 이를 한 지붕 아래 통합합니다. 이 통합 모델은 연구를 특정 사용 사례에 연결함으로써 사기 탐지, 디지털 사용자 경험 및 고객 중심 기술의 발전을 지원했습니다. AI를 개념에서 프로덕션으로 옮기려면, 보장된 성공이 아닌 정직한 장애물로 취급되는 기능적 개념 증명 및 현실적인 파일럿 프로그램을 통한 엄격한 평가가 필요합니다. 프로덕션은 소프트웨어 엔지니어링, 과학, 제품, 디자인 및 운영을 포함하는 협업 노력이며, 정확도 및 지연 시간과 같은 주요 성능 지표의 지속적인 측정이 중요합니다. 지속 가능한 AI 혁신은 또한 실패를 처벌하기보다는 정보에 입각한 위험 감수를 촉진하고 정직한 평가 및 경로 수정을 장려하는 문화를 기반으로 합니다. 조직은 팀이 잘못된 시작에서 배우고 데이터를 기반으로 적응할 수 있도록 지원해야 합니다. 궁극적으로 영향력 있는 AI를 구축하는 것은 엄격한 평가, 교차 기능 협업 및 학습 중심 문화를 통해 아이디어를 연구에서 현실로 신중하게 안내하는 것을 포함합니다. 리더는 AI가 실제 세계에서 지속적인 영향을 제공하도록 보장하면서 책임감 있는 혁신을 확장할 수 있는 R&D 프로세스 및 문화적 기반에 투자해야 합니다.
경제적으로 가치 있는 장기 전문 작업을 수행하는 AI의 능력을 평가하기 위해 Agents' Last Exam(ALE)이라는 새로운 벤치마크가 출시되었습니다. 놀랍게도 OpenAI의 GPT-5.5가 24.0%의 합격률로 1위를 차지하며 Anthropic의 Claude Fable 5 모델을 능가했습니다. ALE는 추론, 인식, 오케스트레이션, 도구 호출, 런타임 서브스트레이트의 다섯 가지 기능 계층에 걸쳐 현실적인 워크플로우에서 AI를 평가함으로써 이전 벤치마크와 차별화됩니다. 이 벤치마크는 에이전트가 터미널 명령과 그래픽 인터페이스를 모두 사용하여 가상 머신을 탐색하도록 요구하며, 채점의 90% 이상이 결정론적이고 코드 기반입니다. 벤치마크의 작업은 실제 전문 이력에서 가져왔으며 소프트웨어 개발, 3D 모델링, 데이터 분석을 포함한 55개의 산업 하위 도메인을 다룹니다. 현재 최고의 AI 모델은 이러한 실제 장기 워크플로우에서 실패하고 있으며, 일부 고급 구성의 경우 가장 어려운 계층의 합격률이 0.0%까지 낮다고 보고되었습니다. ALE는 평가 데이터의 90% 이상을 비공개로 유지하고 작업을 점진적으로 공개함으로써 벤치마크 오염에 대응합니다. 또한 독점 소프트웨어 액세스 유무에 따른 성능을 구별하기 위해 "Full" 및 "Unlicensed" 리더보드를 제공합니다. 벤치마크의 엄격한 채점 곡선은 AI 산업에 현실 점검을 제공하며, 선도적인 모델조차도 전문 인력 준비 전에 상당한 개선의 여지가 있음을 강조합니다.
CdXz5zHNQW_uh8k3LCWo9.png
처음부터 대규모 언어 모델을 훈련하는 것은 엄청나게 비싸며, 종종 수백만 달러가 소요되고 방대한 인터넷 규모의 데이터가 필요합니다. Sapient는 표준 트랜스포머 대신 계층적 순환 모델(HRM)을 사용하는 보다 비용 효율적인 접근 방식인 HRM-Text를 개발했습니다. HRM-Text는 실제 기업 사용 사례를 반영하여 지시-응답 쌍으로만 훈련됩니다. 이 방법은 샘플 효율적인 훈련을 가능하게 하여, 일반적인 비용의 일부만으로 큐레이션된 데이터셋에서 10억 개의 매개변수를 가진 HRM-Text를 생성할 수 있습니다. 이 모델은 주요 산업 벤치마크에서 훨씬 더 크고 확립된 오픈 모델과 경쟁력 있는 성능을 보여줍니다. 이러한 혁신은 기반 사전 훈련이 이제 더 적은 리소스를 가진 조직에서도 접근 가능함을 의미합니다. 현재 LLM의 핵심 비효율성은 인터넷 데이터를 암기하는 데 컴퓨팅 파워를 낭비하는 무차별적인 다음 토큰 예측에 의존하는 것입니다. Sapient의 CEO는 모델을 확장할 때 수익이 감소하는 현재 관행의 경제적 한계를 강조합니다. 기존 모델을 미세 조정하는 것은 종종 상당한 범용 데이터가 필요하여 계산 집약적이고 제어하기 어렵습니다. 독점 데이터를 가진 기업은 거대한 범용 모델보다는 컴팩트한 추론 코어를 필요로 합니다. HRM-Text는 계산을 전략 계층과 실행 계층으로 분리하여 효율성을 향상시킵니다. 이 아키텍처는 안정적인 의미론적 컨텍스트와 로컬 반복 개선을 보장합니다. Sapient는 훈련을 안정화하고 기울기 문제를 방지하기 위해 MagicNorm과 워밍업 방법을 도입했습니다. 다음 토큰 예측에서 지시-응답 쌍을 사용한 작업 완료로의 전환은 핵심 차별점입니다. HRM-Text는 훨씬 적은 훈련 데이터와 컴퓨팅으로 인상적인 벤치마크 점수를 달성했습니다. 이러한 효율성은 기업이 방대한 데이터셋을 암기하는 대신 외부 지식 저장소를 활용하는 전문화된 추론 모델을 배포할 수 있음을 의미합니다.
Anthropic CEO 다리오 아모데이는 강력한 AI 모델에 대한 정부 규제를 옹호하며, 이 산업을 상업 항공 및 FAA 감독에 비유했습니다. Anthropic은 또한 막대한 자금 지원을 바탕으로 재앙적 위험과 AI가 노동에 미치는 영향에 대한 정책 로드맵을 발표했습니다. 이는 Anthropic이 Claude Fable 5 및 Mythos 5와 같은 고급 AI 모델을 출시하는 가운데 나온 것입니다. 아모데이는 AI의 증가하는 위험으로 인해 일반적인 투명성에서 정밀한 규제로의 전환이 필요하다고 강조합니다. 기업 리더들은 최첨단 AI 모델에 대한 "FAA 스타일" 배포 보류에 대비해야 합니다. 이는 안전 표준에 기반한 규제 지연 또는 차단을 의미합니다. 이를 위해서는 공급업체 종속을 피하고 비즈니스 연속성을 보장하기 위해 다중 모델 아키텍처를 구축해야 합니다. AI 개발을 둘러싼 사이버 보안은 이제 중요 인프라가 되었습니다. 기업은 외부 및 내부 위협으로부터 모델 가중치를 보호하고 AI 개발 환경을 안전하게 유지해야 합니다. Anthropic의 경제 정책 프레임워크는 AI가 단순히 효율성 증가를 넘어 광범위한 노동력 대체 가능성을 인정합니다. 이 회사는 경제적 혼란에 대한 정책 해결책 연구에 자금을 투입하고 있습니다. 기업은 비용 절감을 위한 해고에만 집중하는 대신, 직원 재교육 및 재배치를 위한 인력 전환 계획을 고려해야 합니다. 이는 임금 보험 또는 고용 촉진 인센티브와 같은 잠재적인 정부 개입에 대비하는 것입니다. 빠르고 무분별한 AI 개발 시대는 끝나가고 있으며, 엄격한 규정 준수와 복잡한 인력 조정의 시대가 도래하고 있습니다.
CdXz5zHNQW_4v6SBFDct9.png
MassMutual의 엔터프라이즈 AI 팀은 빠르게 변화하는 시장에서 유연성과 적응성에 중점을 두고 AI 인프라 구축에 독특한 접근 방식을 취하고 있습니다. 회사의 CIO인 Sears Merritt는 AI의 세계가 극도로 역동적이며, 이러한 역동성의 물결을 탈 수 있는 위치에 있고 싶다고 설명합니다. 이를 달성하기 위해 MassMutual은 특정 모델에 장기적인 베팅을 하는 대신, 시장 변화에 따라 모델을 교체할 수 있는 인프라를 구축하고 있습니다. 이러한 접근 방식은 개발자 생산성 30% 증가와 해결 시간 및 비용의 상당한 감소라는 성과를 거두었습니다. 회사는 최첨단 기술을 보유한 공급업체와 협력하고 있지만, 최고의 도구를 선택할 수 있는 옵션을 유지하기 위해 이러한 관계에 시간 제한을 두고 있습니다. MassMutual은 또한 오픈 소스 모델을 탐색하고 있으며, Merritt는 그의 팀이 100% 오픈 소스 도구를 검토하고 있다고 밝혔습니다. 회사의 AI 노력은 초기부터 성공 기준을 미리 정의하고 결과 측정을 중점적으로 하여 이니셔티브를 활성화하고 심화하며 집중하는 데 초점을 맞추고 있습니다. MassMutual은 사용 패턴, 개발자 워크플로우, 모델 성능 및 비용에 대한 상세한 분석을 수집하여 최적화 결정을 내리고 있습니다. 회사는 AI 품질을 평가하기 위해 신뢰 점수 프레임워크를 사용하며, 사용자 피드백과 운영 지표를 결합하여 직원이 AI 생성 응답을 어떻게 인식하는지 이해합니다. AI 인프라 구축에 대한 신중하고 사용자 중심적인 접근 방식을 취함으로써 MassMutual은 앞서 나가고 상당한 비즈니스 혜택을 창출할 수 있습니다.
CdXz5zHNQW_H5kBoc3n4H.png
Apple의 WWDC는 Siri가 시스템 전반의 AI 인터페이스로 변모함에 따라 엔터프라이즈 개발자들에게 중요한 변화를 공개했습니다. 이 새로운 Siri는 사용자가 앱 콘텐츠 및 데이터와 직접 상호 작용하고 이를 기반으로 행동할 수 있도록 할 것입니다. 개발자는 App Intents, App Entities, App Schemas와 같은 프레임워크를 통해 애플리케이션의 데이터와 액션을 노출할 수 있습니다. 이 통합은 개발자가 별도의 챗봇 인터페이스를 구축할 필요 없이 사용자가 앱 내에서 작업을 수행하도록 Siri에게 요청할 수 있음을 의미합니다. Spotlight는 앱 콘텐츠를 의미론적으로 인덱싱하여 검색을 용이하게 하는 엔터프라이즈 검색 훅 역할을 할 것입니다. 개발자는 이러한 AI 기반 앱 액션의 신뢰성을 보장하기 위한 새로운 테스트 도구를 얻게 될 것입니다. Apple은 또한 업데이트된 Foundation Models와 온디바이스 모델 실행을 위한 새로운 Core AI 프레임워크로 AI 개발자 스택을 확장하고 있습니다. 새로운 Evaluations 프레임워크는 AI 기능에 대한 측정 가능한 신뢰성을 제공하는 것을 목표로 합니다. 엔터프라이즈 IT 부서는 Apple Intelligence 기능 및 외부 AI 서비스에 대한 새로운 관리 제어를 받게 될 것입니다. Apple의 전략은 AI를 운영 체제에 내장하는 데 중점을 두고 있으며, 온디바이스 처리 및 Private Cloud Compute를 통해 개인 정보를 강조합니다. 그러나 상세한 거버넌스 보증 및 감사 가능성 및 데이터 경계에 대한 명확성은 여전히 필요합니다. 초기 가용성은 하드웨어 기능, 운영 체제 및 지역 규정에 의해 제한될 것이며, 이는 글로벌 출시를 복잡하게 만들 수 있습니다. 또한 회사는 조직을 위한 통합 구독 관리를 포함한 App Store 변경 사항을 도입했습니다. 전반적으로 Apple은 엔터프라이즈를 위한 포괄적인 AI 생태계를 구축하고 있으며, AI를 OS에 내장하고 개발자에게 도구를 제공하며 IT에 관리 기능을 제공하고 있습니다.
CdXz5zHNQW_qEhcdwevB5.png
Cohere는 에이전트 코딩 파이프라인을 위한 오픈 소스 모델인 North Mini Code를 출시했습니다. 이 300억 개의 매개변수를 가진 혼합 전문가 모델은 단일 H100에서 효율적으로 실행되며, 하위 에이전트 오케스트레이션 및 아키텍처 매핑과 같은 작업에 이상적입니다. 256,000 토큰의 대규모 컨텍스트 창과 64,000 토큰의 최대 생성 길이를 자랑합니다. North Mini Code는 통합 도구 사용 및 인터리빙 사고를 포함한 소프트웨어 엔지니어링 워크플로우를 위해 특별히 설계되었습니다. 대규모 코드베이스 분석, 시스템 아키텍처 매핑 및 코드 검토에 탁월합니다. 또한, 이 모델은 쉘 명령 및 도구와 상호 작용하는 터미널 기반 에이전트 작업을 위해 훈련되었습니다. Cohere는 다양한 에이전트 스캐폴드에 걸쳐 지도 미세 조정 및 강화 학습을 통해 이를 훈련했습니다. 인상적인 출력 토큰 생성을 제공하지만, 더 장황할 수 있어 고용량 시나리오에서 추론 비용이 더 높아질 수 있습니다. 이 릴리스는 Claude Fable 5와 같은 관리형 모델에 대한 직접적인 대안을 제공하며, 로컬 배포 및 비용 효율성을 강조합니다. 기업은 이제 목적별 에이전트 훈련과 장황함이 파이프라인 비용에 미치는 영향을 고려해야 합니다. North Mini Code와 관리형 서비스 간의 선택은 비용 통제와 인프라 오버헤드 간의 실제 절충점을 제시합니다.
온디바이스 AI 모델은 DRAM 용량에 의해 제한되어 크기와 성능이 제약되었습니다. Apple의 새로운 AFM 3 파운데이션 모델은 모델 가중치를 DRAM 대신 NAND 플래시 메모리에 저장함으로써 이러한 문제를 해결합니다. AFM 3 제품군은 Google과의 협력으로 개발되었으며 Apple의 Private Cloud Compute 내에서 작동하는 온디바이스 및 서버 기반 모델을 모두 포함합니다. 온디바이스 AFM 3 Core Advanced는 200억 개의 매개변수를 가진 모델로, 느린 NAND-to-DRAM 대역폭을 극복하기 위해 새로운 아키텍처를 활용합니다. 모든 토큰을 처리하는 대신, 프롬프트당 한 번 라우팅 결정을 내립니다. 이를 통해 특정 작업에 대해 플래시에서 DRAM으로 특정 "전문가"를 로드할 수 있습니다. 활성 매개변수의 수는 요청의 복잡성에 따라 10억 개에서 40억 개까지 확장될 수 있습니다. Apple의 기술 보고서는 메모리 설계를 자세히 설명하지만, 에너지, 열 제약 및 클라우드로의 투명한 오프로딩에 대한 중요한 정보가 누락되었습니다. 이 격차는 추론 위치를 문서화해야 하는 규제 대상 기업에게 규정 준수 문제를 야기합니다. AFM 3 Core Advanced의 도입은 기업에게 훨씬 더 강력한 온디바이스 AI 옵션을 제공합니다. 그러나 대규모 배포 가능성은 향후 기술 보고서에서 예상되는 추가 세부 정보에 달려 있습니다. 이제 온디바이스 및 클라우드 기반 추론 간의 선택은 기업에게 더욱 미묘한 아키텍처 결정이 됩니다.
Anthropic은 가장 강력한 "Mythos-class" AI 역량을 대표하는 두 가지 새로운 AI 모델, Claude Fable 5와 Claude Mythos 5를 출시했습니다. 일반 사용자 및 개발자를 대상으로 하는 Fable 5는 소프트웨어 엔지니어링, 지식 작업, 과학 연구 및 장기 실행 작업에서 이전 Claude 모델보다 훨씬 뛰어난 성능을 보여줍니다. Claude Mythos 5는 덜 제한적인 기능을 제공하지만, 사이버 보안 파트너 및 선별된 연구원을 포함한 Anthropic 승인 사용자에게만 제공됩니다. 주요 차이점은 Fable 5의 강화된 안전 기능으로, 고위험 쿼리를 이전 모델로 재라우팅하는 기능이며, 이는 Mythos 5에는 없는 제한 사항입니다. 두 모델은 기본적인 역량을 공유하며, Fable 5는 추가적인 안전 장치 계층을 통합합니다. Fable 5는 Anthropic 웹사이트, 앱 및 API를 통해 액세스할 수 있으며, Mythos 5는 초기에는 기존 Mythos Preview 사용자에게만 제한됩니다. 두 모델 모두 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러로 가격이 책정됩니다. Fable 5는 자율 코딩에서 놀라운 개선을 보여주며, 벤치마크에서 경쟁사보다 뛰어난 성능을 발휘하고 대규모 코드베이스 마이그레이션과 같은 복잡한 작업을 가능하게 합니다. 또한 지식 작업, 금융, 법률 및 운영 작업에서도 향상된 성능을 보여주며, 문서 추론 및 복잡한 문제 해결에 탁월합니다. 더불어 Fable 5는 Anthropic의 현재까지 가장 강력한 비전 기능을 자랑하며, 과학적 그림에서 데이터를 추출하고 스크린샷에서 애플리케이션 코드를 재구축하는 것과 같은 작업을 수행할 수 있습니다. 이 회사는 이러한 모델을 엔터프라이즈 용도로 포지셔닝하여 AI 에이전트가 더 크고 복잡한 프로젝트를 더 높은 자율성으로 처리할 수 있도록 지원하고 있습니다.
CdXz5zHNQW_mgnb08Mdu8.png
2026년 월드컵은 수십억 명이 여러 국가에서 시청할 것으로 예상되는 거대한 글로벌 이벤트가 될 것입니다. 시청자의 상당수는 전통적인 텔레비전 대신 온라인으로 경기를 스트리밍할 것입니다. 그러나 현재 브라우저는 버퍼링, 가짜 링크, 개인 정보 또는 구독 요구 등으로 인해 종종 서툴고 신뢰할 수 없는 스트리밍 경험을 제공합니다. Norton은 소프트웨어에 직접 보호 및 액세스를 통합하여 이러한 마찰을 제거하도록 설계된 새로운 브라우저인 Neo를 개발했습니다. Neo는 시청자의 경험을 단순화하여 안전하고 원활하며 빠른 콘텐츠 액세스를 제공하는 것을 목표로 합니다. 역사적으로 보안은 별도의 제품으로 판매되었지만 Neo는 브라우저를 안전한 스트리밍을 위한 포괄적인 솔루션으로 만들어 이 모델을 전환합니다. 사기꾼들은 이미 피싱 사이트와 가짜 티켓 제안으로 월드컵 팬들을 노리고 있으며, 온라인 스트리밍에도 유사한 위협이 확장됩니다. Neo는 악성 링크를 사전에 차단하고 사용자를 해치기 전에 사기를 탐지합니다. 또한 VPN 기술과 복잡한 설정 없이 합법적이고 지역별 스트리밍 링크를 쉽게 찾을 수 있는 전용 위젯을 통합합니다. 이 브라우저는 경기 알림 및 요약 제공과 같은 요구를 예상하여 사용자 친화성을 우선시합니다. Neo의 핵심 철학은 "디자인에 의한 차분함"으로, 개인 정보 보호 및 보안이 깔끔한 인터페이스에 통합되도록 보장합니다. Neo는 기존 브라우저와의 경쟁에 직면해 있지만 수십억 명의 잠재적 시청자를 위한 스트리밍 경험을 단순화하는 것을 목표로 합니다.
CdXz5zHNQW_yemYEjKzHo.png
Harness-1은 UIUC와 UC Berkeley 연구진이 Chroma와 협력하여 개발한 오픈 소스 검색 에이전트입니다. OpenAI의 gpt-oss-20B 모델을 기반으로 구축된 이 200억 개 매개변수 에이전트는 AI가 복잡한 검색 작업을 처리하는 방식을 재정의합니다. 엄선된 데이터셋에서 73%의 인상적인 리콜 정확도를 달성하여 GPT-5.4 및 선도적인 오픈 소스 대안을 능가했습니다. 중요한 것은 Harness-1과 관련 코드 및 가중치가 Hugging Face에서 Apache 2.0 라이선스 하에 즉시 사용할 수 있다는 것입니다. 이 개발은 AI 모델을 훈련하고 미세 조정하기 위한 API인 Tinker의 효과도 보여줍니다. Harness-1의 성공은 모델 메모리에서 구조화된 소프트웨어 환경으로 북키핑 작업을 오프로드하는 데서 비롯됩니다. 이 "상태 외부화 하네스"는 책상과 파일 캐비닛처럼 작동하여 AI가 연구와 추론에 집중할 수 있도록 합니다. 기존 검색 에이전트는 종종 컨텍스트 창 내의 모든 정보를 관리하려고 시도함으로써 "검색 기억 상실"로 고통받습니다. Harness-1의 패러다임 전환은 AI 자율성의 핵심이 모델 크기뿐만 아니라 효율적인 환경임을 증명합니다. 모델의 훈련 파이프라인은 학습 프로세스를 크게 단순화하는 새로운 접근 방식을 사용하여 데이터 효율성을 강조합니다. 이 모델의 엔터프라이즈 적용 가능성은 엄청나며, 훨씬 낮은 비용과 지연 시간으로 최전선 수준의 성능을 제공합니다.
CdXz5zHNQW_PKgnndEjlV.png
에이전트 AI는 코드 생성을 가속화하고 있지만, 코드 작성은 결코 주요 병목 현상이 아니었기 때문에 제품 개선은 그 속도를 따라가지 못하고 있습니다. 실제 과제는 요구사항 정의, 시스템 통합, 소프트웨어 유지보수에 있으며, AI의 코드 출력 증가는 이러한 과제를 악화시킵니다. 통제되지 않은 AI 생성 코드는 인간 검토에 새로운 병목 현상을 일으키고, 맥락 상실과 실수 누락으로 이어집니다. 기업은 즉시 인력 감축에 나서기보다는 이를 헤쳐나가기 위한 의도적인 플레이북을 구축해야 합니다. 첫 번째 단계인 재무 및 위험 거버넌스는 하방 위험으로부터 보호하는 데 중점을 둡니다. 이는 거버넌스를 최상위 위험으로 취급하고, 에이전트 구성에 대한 공유 표준을 수립하며, 책임 공백을 방지하기 위해 비인간 행위자에 대한 최소 권한을 시행하는 것을 포함합니다. 또한, 조직은 예산 초과를 방지하기 위해 할당량과 속도 제한을 설정하여 AI 예산을 관리해야 합니다. 두 번째 단계인 기술 전략은 효과적인 AI 엔진 구축을 강조합니다. 이는 각 시스템의 강점을 활용하고 단일 실패 지점을 피하기 위해 다중 모델 및 다중 공급업체 접근 방식을 채택하는 것을 포함합니다. 또한, AI를 단순한 비용이 아닌 엔지니어링 레버리지로 간주하여 더 높은 품질의 출력과 더 큰 효율성을 제공하는 최첨단 모델에 비용을 지불하는 것을 의미합니다. 결정적으로, 성공은 단순히 코드 라인이나 토큰 수뿐만 아니라 비즈니스 결과와 엔지니어링 내구성으로 측정되어야 합니다. 세 번째 단계는 인재 및 조직을 다루며, 새로운 환경에 맞게 인적 자본을 재정렬합니다. 엔지니어는 구문 작성자에서 시스템 사고자 및 에이전트 관리자로 전환하여 아키텍처 비전과 시스템 간 통합에 집중해야 합니다. 성능 및 인센티브는 전통적인 볼륨 기반 지표를 넘어서, 더 넓은 비즈니스 영향과 효과적인 에이전트 오케스트레이션을 보상하도록 재정의해야 합니다. 진정한 요구사항과 역량을 이해하기 위해 통합된 에이전트 워크플로우와 측정된 증강된 출력의 기준선이 필요하므로, 성급하게 인력을 감축하지 않는 것이 중요합니다. 궁극적으로 AI는 엔지니어링 판단을 위한 포스 멀티플라이어로서, 잘 구조화된 시스템에서는 전달 속도를 가속화하지만, 제대로 이해되지 않은 시스템에서는 실패를 가속화합니다. 현재의 문제는 AI 채택이 느린 것이 아니라, AI의 한계와 위험을 이해하지 못한 채 채택하는 것입니다. 리더십에게는 이러한 역학 관계를 이해하는 것이 필수적입니다. 왜냐하면 실행 속도가 현재 업계가 그 결과를 관리할 수 있는 능력을 앞지르고 있으며, 부적절하게 관리된 채택으로 인한 운영 실패로 이어지고 있기 때문입니다.
CdXz5zHNQW_Zb9QDntpfN.png
해당 시스템은 자연어 쿼리를 API 호출로 효과적으로 변환하여 분석가와 계정 관리자에게 다양한 출처의 데이터 조립을 간소화했습니다. 이 기능은 통합 백엔드에 API 호출을 디스패치하고, 응답을 형성하기 위한 LLM에서 생성된 JSON 쿼리를 적용하며, 이메일, 드라이브 문서, 브라우저 차트를 통해 결과를 전달함으로써 이를 달성했습니다. 2025년 중반까지 임시 데이터 검색의 표준 방법이 되어, 내부 및 외부 이해관계자를 위해 매달 수백 건의 보고서를 생성했습니다. 핵심 상호작용은 LLM과 시스템 간의 구조화된 JSON 객체 계약에 의존했습니다. 초기 모델 업그레이드는 Claude Sonnet 3.5에서 4.0으로, 원활하게 진행되어 LLM 안정성에 대한 안일함을 키웠습니다. 하지만 Sonnet 4.5 업그레이드는 두 가지 큰 문제를 일으켰습니다. 먼저, 모델이 설명 필드에 post_body 콘텐츠를 삽입하기 시작했고, 이로 인해 API 호출 필터 매개변수가 비어 광범위한 데이터 검색이나 500 오류가 발생했습니다. 둘째, Sonnet 4.5는 명확한 질문을 제기하기 시작했는데, 이는 인간의 상호작용이나 상태 관리 없이 직접 API 호출을 위해 설계된 시스템이었기에 명확한 경로가 없었습니다. 이러한 실패로 인해 Sonnet 4.0으로의 롤백이 필요했고, 4.5에 맞춰 적용된 새로운 API 통합으로 인해 복잡해졌습니다. 이번 사건은 LLM 기반 시스템이 전통적인 공학 규율을 거부한다는 점을 부각시켰습니다. 내부 부품이 개발자의 통제 하에 있지 않아 변경 시 예측 불가능한 '무한 폭발 반경'이 발생하기 때문입니다. 부검 결과 명확히 알려지지 않은 프롬프트가 드러났다; 이전 모델 버전들은 암묵적으로 추론된 제약 조건을 가지고 있었으며, Sonnet 4.5는 더 "도움이 되는" 이유로 이를 위반했습니다. 저자들은 프롬프트 대신 평가 스위트가 공식적인 시스템 명세로 사용되는 '평가 우선(evals-first)' 아키텍처를 제안합니다. 평가는 입력, 필요한 출력 속성, 그리고 모델 또는 프롬프트 변경을 검증하는 점수 함수로 구성됩니다. 예시 평가는 설명 필드에 직렬화된 페이로드 내용이 포함되어 있는지 확인하는 것입니다. 구축과 유지보수 비용이 많이 들지만, 평가는 입출력 행동을 조밀하게 샘플링하여 폭발 반경을 제한하는 게이트 역할을 합니다. 평가는 유용하지만, 만병통치약은 아닙니다; 이들은 지정된 실패 모드만 포착할 수 있고, LLM을 판사로 채점하여 자체 분산을 도입할 수 있습니다. 공학계는 여전히 자연어 및 CI/CD 시스템에서 확률적 시험 결과에 대한 평가 적용 기준을 갖추지 못하고 있습니다. 특히 에이전트가 점점 자율성을 갖추면서 시험을 통과하는 것과 생산 행동 예측 사이의 격차를 좁히는 것은 중요한 공학적 도전 과제입니다. 평가를 시스템의 진정한 사양으로 우선시하는 팀은 이 도전에 가장 잘 대응할 수 있습니다.
CdXz5zHNQW_oNfqHIhUqm.png
Microsoft의 인공지능 전략은 OpenAI와의 독점적 파트너십을 넘어 진화하고 있습니다. 최근의 계약 변경으로 Microsoft AI는 자체 리소스를 사용하여 자체적인 "초지능" 이니셔티브를 추진할 수 있게 되었습니다. 이는 자체 개발한 7개의 AI 모델인 MAI 패밀리 발표로 입증됩니다. 추론 및 이미지 생성과 같은 다양한 기능을 포괄하는 이 모델들은 라이선스 데이터로 처음부터 훈련되어, 업계의 증류 트렌드와 차별화됩니다. MAI 모델은 엔터프라이즈 배포를 위해 설계되었으며, 개발자는 타사 플랫폼에서 미세 조정할 수 있습니다. Microsoft의 CEO인 Mustafa Suleyman은 이 모델들이 더 큰 임무, 즉 2030년까지 세계 최고의 AI 모델을 구축하려는 목표의 개념 증명이라고 강조합니다. 이전 OpenAI와의 파트너십은 Microsoft의 독립적인 AI 연구 및 모델 개발을 제한했습니다. 이제 Microsoft는 기존 AI 제공업체와의 관계를 여전히 소중히 여기면서도 자급자족을 목표로 합니다. 회사의 초점은 대화형 AI에서 다양한 엔터프라이즈 소프트웨어 전반에 걸쳐 복잡한 작업을 실행할 수 있는 자율 AI 에이전트로 이동하고 있습니다. Microsoft는 엔터프라이즈 워크플로우 내에 내장된 위치가 독점 데이터로 미래 AI 모델을 훈련하는 데 독특한 이점을 제공하며, 이는 상당한 경쟁 우위를 제공한다고 믿습니다.