RSS 구글 AI 블로그 - TheNote.app

RSS 구글 AI 블로그
팔로우

Google Research는 Google Research의 과학 커뮤니티에서 최신의 돌파구와 통찰을 공유하는 블로그입니다. 이 플랫폼은 과학자들이 과학 원 밖의 사용자와 새로운 기술, 통찰, 혁신에 대해 대화하는 수단으로 작동합니다. Google Research는 인공 지능, 기계 학습, 의료 혁신 등 다양한 과학 주제에 대한 글을 자주 게시합니다. 또한 자율 주행 차량에서 최신 의료 진단 및 데이터 분석 기법까지 새로운 기술에 대한 글도 자주 다룹니다. 블로그의 주목할만한 기능은 팀 멤버 기고입니다. Google의 주요 기술자 및 연구자들이 다양한 관심사와 기술을 반영하는 통찰적인 글을 제공합니다. 이 사이트는 기술 세계의 최신 발전 및 미래 비전을 첫손으로 읽을 수 있는 기회를 제공합니다. 블로그에는 '저자' 섹션이 있어 사용자가 개별 기고자의 글과 통찰을 접근할 수 있습니다. 기술적 논의 및 혁신 외에도 블로그는 새로운 기술이 우리의 일상 생활에 미치는 영향을 포함하여 사회적 및 철학적 문제들도 다룹니다. 따라서 Google Research 블로그는 기술 전문 지식, 연구 돌파구, 사회적 함의를 독특한 조합으로 제공하여 기술 애호가, 연구자, 미래 기술을 이해하고 형성하고 싶은 모든 사람에게 귀중한 자원이 됩니다.

Google AI Blog research.google

RSS Hunter • 2024년 8월 23일

노트 스레드

글로벌 파트너십과 오픈 리소스를 통한 과학적 영향력 촉진

Google Research는 과학적 돌파구가 공유될 때 그 잠재력을 최대한 발휘하며, 다른 사람들이 이를 기반으로 발전시킬 수 있다고 강조합니다. 그들은 오픈 소스 소프트웨어와 오픈 액세스 데이터셋을 현대 과학 발전의 중요한 동력으로 간주합니다. 이러한 오픈 사이언스에 대한 헌신은 협업을 촉진하고 혁신이 전 세계 커뮤니티에 혜택을 줄 수 있도록 보장합니다. Google은 Transformer 아키텍처와 같은 중요한 기술을 공개하여 다양한 과학 분야에 영향을 미쳤습니다. 그들은 전 세계 수많은 조직과 적극적으로 협력하여 대규모 과학 컨소시엄을 지원합니다. Google은 250,000명 이상의 연구자들에게 힘을 실어주는 오픈 소스 도구와 데이터셋을 개발하고 유지 관리해 왔습니다. 이러한 리소스는 유전체학, 신경과학, 지구 및 대기 모델링 분야의 발전을 이끌었습니다. 의료 분야에서는 오픈 웨이트 모델과 도구를 통해 AI 개발을 민주화하고 있습니다. 이러한 오픈 사이언스 이니셔티브는 농부들을 위한 일기 예보 개선부터 유전 진단 가속화에 이르기까지 실제적인 영향을 입증했습니다. Google은 커뮤니티 구축에 지속적으로 투자하고 있으며, 이러한 개방적인 접근 방식이 AI 기반 과학을 가속화한다고 믿습니다.

Catalyzing scientific impact through global partnerships and open resources research.google

RSS Hunter • 4월 30일

구글 리서치 과학자들이 경험적 연구 지원을 활용하는 네 가지 방법

Google은 다양한 분야에 걸쳐 과학적 발견을 가속화하기 위해 Empirical Research Assistance(ERA)를 개발하고 있습니다. ERA는 여러 연구 분야에서 유망한 결과를 보여주는 전문가 수준의 소프트웨어를 생성하도록 설계되었습니다. 연구는 공중 보건 예측부터 천체 물리학 및 기후 과학에 이르기까지 다양합니다. ERA는 독감, COVID-19 및 RSV의 입원율을 성공적으로 예측했으며, 종종 기존 도구를 능가했습니다. 천체 물리학에서 ERA는 Gemini Deep Think와 결합하여 중력 에너지에 관한 복잡한 방정식을 푸는 데 도움이 되었습니다. Google 연구원들은 ERA를 사용하여 기상 위성 데이터를 분석하여 대기 중 CO2 수준을 모니터링하고 있습니다. 또한 이 도구는 제브라피쉬의 신경 회로를 조사하는 데 사용되어 신경 과학 연구를 발전시키고 있습니다. 이러한 프로젝트는 AI가 복잡한 모델링에 대한 접근을 민주화하고 문제를 해결할 수 있는 잠재력을 보여줍니다. Google은 ERA 및 기타 도구의 진행 상황에 열정적이며 과학 발전을 촉진하는 것을 목표로 합니다.

Four ways Google Research scientists have been using Empirical Research Assistance research.google

RSS Hunter • 4월 28일

각도가 전부입니다: 당신의 사진, 다시 구성하다

사진을 조금 다른 각도에서 다시 찍을 수 있다면 얼마나 좋을까 상상해 보세요. 새로운 Google 포토 자동 프레임 기능은 이러한 바람을 첨단 이미지 편집 기술로 해결합니다. 이 기능은 머신 러닝을 사용하여 사진을 3D 장면으로 이해하고 공간 레이아웃을 고려합니다. 시스템은 본질적으로 이미지의 3D 공간 내에서 가상 카메라의 위치를 변경합니다. 이를 통해 이전에 볼 수 없었던 콘텐츠를 생성하여 새롭고 진정한 관점을 만들어냅니다. 이는 원래 고정된 시점에 의해 제한되는 기존 편집 방식과는 다릅니다. 이 과정은 3D 장면 추정 및 생성적 인페인팅의 두 가지 주요 단계로 이루어집니다. 3D 포인트 맵이 생성된 후, 생성 모델을 사용하여 누락된 영역을 채웁니다. ML은 자동으로 피사체의 얼굴과 방향을 감지하여 이상적인 구도를 결정합니다. 또한 광각 사진의 원근 왜곡을 수정합니다. 이 기술은 이제 Google 포토에서 사용할 수 있으며, 자동 프레임 기능을 통해 인물 사진을 향상시킵니다. 사용자는 재구성된 이미지를 대체 사진 렌더링으로 쉽게 접근할 수 있습니다. 이 개발은 Google DeepMind와 Google 플랫폼 및 기기 팀의 협력으로 이루어졌습니다.

It's all about the angle: Your photos, re-composed research.google

RSS Hunter • 4월 21일

ReasoningBank: 에이전트가 경험으로부터 학습할 수 있도록 지원

에이전트는 장기간 실행되는 실제 작업에서 과거 경험으로부터 배우는 데 어려움을 겪습니다. 기존의 메모리 방법은 모든 행동을 기록하거나 성공적인 워크플로우만 기록하여 고차원적인 추론을 추출하지 못하고 실패를 간과합니다. ReasoningBank는 에이전트의 자가 진화를 위해 성공 및 실패 경험 모두에서 유용한 통찰력을 추출하여 이러한 문제를 해결합니다. 제목, 설명, 추출된 추론 단계, 의사 결정 근거 또는 운영 통찰력이 포함된 구조화된 메모리를 생성합니다. 메모리 워크플로우는 지속적인 검색, 추출 및 통합을 포함하며, LLM(대규모 언어 모델)이 판정자 역할을 하여 궤적을 평가합니다. 다른 방법과 달리 ReasoningBank는 실패를 적극적으로 분석하여 예방적 교훈과 전략적 안전 장치를 학습합니다. 또한 메모리 인식 테스트 시간 스케일링(MaTTS)과 통합되어 병렬 및 순차적 스케일링을 사용하여 더 풍부한 학습 신호를 생성합니다. MaTTS를 통해 에이전트는 광범위하게 탐색하고 자체 대비 및 반복적 개선을 통해 고품질 메모리를 추출할 수 있습니다. 웹 브라우징 및 소프트웨어 엔지니어링 벤치마크에 대한 평가 결과 ReasoningBank는 에이전트의 효과성(더 높은 성공률)과 효율성(더 적은 작업 단계)을 모두 향상시키는 것으로 나타났습니다. MaTTS를 사용하면 성능이 더욱 향상되어 메모리와 스케일링 간의 강력한 시너지 효과를 보여줍니다. 또한 이 시스템은 시간이 지남에 따라 단순한 규칙을 복잡하고 예방적인 논리 구조로 발전시키는 창발적인 전략적 성숙도를 나타냅니다. ReasoningBank는 LLM 기반 에이전트의 지속적인 학습을 위한 강력한 프레임워크를 제공하며, 메모리 기반 경험 스케일링이 중요한 최전선임을 강조합니다.

ReasoningBank: Enabling agents to learn from experience research.google

RSS Hunter • 4월 20일

실세계용 합성 데이터셋 설계: 메커니즘 설계 및 제1원리로부터의 추론

이 논문은 실제 데이터가 부족하거나 접근하기 어려운 상황에서 필수적인 합성 데이터를 생성하여 전문 AI 모델을 만드는 과제를 다룹니다. 제안된 프레임워크인 Simula는 합성 데이터 생성을 제어를 우선시하는 메커니즘 설계 문제로 재구성합니다. Simula의 "추론 우선" 접근 방식은 기본 원리부터 데이터셋을 구축하여 계층적 분류 체계를 통해 전역적 다양성을 보장합니다. 메타 프롬프트를 사용하는 지역적 다양성은 개념 내의 다양성을 보장하고 모드 붕괴를 방지합니다. 이 프레임워크는 난이도를 조정하기 위한 복잡화와 정확성을 확인하기 위한 품질 검사도 통합합니다. Simula 시스템은 사이버 보안 및 법률 추론과 같은 다양한 도메인에 걸친 실험에서 단순한 기준선보다 일관되게 뛰어난 성능을 보입니다. 평가는 분류 체계 적용 범위 및 보정된 복잡성 점수와 같은 추론 기반 메트릭을 사용합니다. 연구 결과는 데이터가 모델의 기능에 맞춰져야 하며, 데이터 품질이 단순한 양보다 더 중요함을 강조합니다. Simula는 Google의 데이터 엔진 역할을 하여 전문 모델 및 사용자 보호 기능을 지원합니다. 또한 Simula는 현실적인 공격 시나리오를 합성하고 AI에게 지도를 읽도록 가르치는 연구를 가능하게 합니다. 합성 데이터는 미래 AI 발전에 매우 중요하며, Simula는 데이터 생성 제어의 잠재력을 보여줍니다.

Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles research.google

RSS Hunter • 4월 15일

AI 생성 합성 뉴런, 뇌 지도 제작 속도 높여

"커넥토믹스는 첨단 영상 기술과 AI를 활용하여 뇌의 복잡한 연결망을 지도화하고 상세한 신경망을 구축합니다. 최근의 획기적인 성과는 초파리 뇌 전체 지도를 완성한 것으로, 뇌 기능 이해에 중요한 단계입니다. 하지만 쥐나 인간과 같은 더 큰 포유류 뇌를 지도화하는 것은 훨씬 더 큰 과제입니다. 구글 리서치는 신경 세포의 식별 및 시각화를 가속화하기 위한 새로운 AI 기술을 개발하고 있습니다.그들은 인간 뇌의 작은 부분을 포함하여 다양한 동물 뇌의 조각들을 지도화하는 작업을 진행하고 있습니다. 합성 신경 형태 모델인 "MoGen"의 발전은 AI 재구성을 개선합니다. MoGen이 강화된 모델은 재구성 오류를 4.4% 감소시켰는데, 이는 상당한 발전입니다.이러한 개선은 상당한 시간을 절약하며, 쥐 뇌의 경우 150년 이상의 수작업에 해당하는 시간을 절약할 수 있습니다. 연구팀은 10년 이상 커넥토믹스를 위한 여러 도구를 개발해 왔습니다.신경 세포는 일반적인 구형 세포와 달리 복잡한 형태를 띠며, 이는 기능에 매우 중요합니다. PATHFINDER와 같은 AI 모델은 현미경 이미지에서 상세한 3D 신경 세포 형태를 만드는 데 사용됩니다.수동 검토는 여전히 프로세스의 병목 현상으로 남아 있으며, 인간 전문가가 오류를 수정해야 합니다. MoGen은 PATHFINDER와 같은 AI 모델의 훈련 데이터를 보강하기 위해 합성 신경 세포를 생성하여 정확도를 향상시킵니다.MoGen은 AI를 사용하여 무작위 포인트 클라우드를 실제 신경 세포 형태와 유사하게 변환하여 실제 신경 세포의 형태를 모방합니다. MoGen을 사용하면 신경 세포 재구성 시 병합 오류가 감소했습니다.인간 전문가는 실제 신경 돌기 조각과 AI 생성 신경 돌기 조각을 신뢰할 수 있게 구별할 수 없는데, 이는 합성 데이터의 사실성을 나타냅니다. 합성 형태를 통합하면 AI 모델의 성능이 크게 향상됩니다.MoGen을 사용한 합성 데이터 사용은 재구성 오류를 4.4% 감소시켜 뇌 지도화의 효율성을 높였습니다. 이러한 개선은 커넥토믹스 분야에서 큰 도약입니다.이 연구는 특정 신경 세포 유형을 생성하고 재구성 초기 단계를 위한 합성 이미지를 만드는 기회를 열어줍니다. MoGen의 오픈 소스 공개는 협업과 신경 과학 분야의 추가 발전을 촉진합니다.이 연구는 궁극적으로 복잡한 뇌의 지도화를 가속화하는 것을 목표로 하며, 이는 신경학적 과정과 질병을 이해하는 데 중요합니다."

AI-generated synthetic neurons speed up brain mapping research.google

RSS Hunter • 4월 15일

생성형 AI를 활용한 미래 경쟁력 확보

이 텍스트는 인공지능(AI) 발전에 따라 비판적 사고와 협업과 같은 "미래 대비" 기술의 중요성이 커지고 있음을 논의합니다. 이러한 기술들은 전통적으로 측정하기 어렵지만 미래 성공에 필수적입니다. AI 기반 연구 실험인 Vantage는 시뮬레이션된 대화를 사용하여 이러한 기술을 평가하는 것을 목표로 합니다. Vantage는 Executive LLM을 사용하여 AI 아바타를 조종하고 학습자에게 도전적인 시나리오를 만듭니다. 학습자는 시뮬레이션 환경 내에서 개방형 과제를 수행하며 자신의 능력을 보여줍니다. 그런 다음 AI 평가자가 대화를 분석하여 채점 기준에 따라 피드백과 기술 점수를 제공합니다. 뉴욕 대학교와의 파트너십을 포함한 연구는 시스템의 정확성을 검증합니다. 연구 결과, AI 평가자의 점수는 협업 및 창의성 기술 모두에서 인간 전문가의 점수와 잘 일치합니다. Vantage는 학업 학습과 함께 기술 개발을 위해 교실에 통합되는 것을 목표로 합니다. 이는 이러한 중요한 기술을 측정하고 장려하는 확장 가능한 방법을 제공합니다. 향후 연구는 기술 전이성 및 문화적 포용성에 초점을 맞출 것입니다. 이 프로젝트는 Google 내 다양한 기여자 및 파트너 기관을 인정합니다.

Towards developing future-ready skills with generative AI research.google

RSS Hunter • 4월 12일

ConvApparel: 사용자 시뮬레이터의 현실감 격차 측정 및 해소

"현대의 대화형 AI는 복잡한 작업을 처리할 수 있지만, 긴 상호작용에서는 세부 사항을 잊거나 관련성을 잃는 등 어려움을 겪습니다. 개선을 위한 실제 사람 테스트는 비용이 많이 들고 확장하기 어렵습니다. LLM 기반의 사용자 시뮬레이터는 확장 가능한 대안을 제공하지만, 비정상적인 인내심이나 지식을 보이는 등 현실성이 부족한 경우가 많습니다. 이러한 현실성 격차를 해소하기 위해 ConvApparel이라는 새로운 데이터셋이 개발되었습니다. 이 데이터셋은 이중 에이전트 프로토콜을 사용하여 수집된 의류 쇼핑 도메인에서의 인간-AI 대화로 구성됩니다. 참가자들은 도움이 되는 AI 에이전트 또는 의도적으로 도움이 되지 않는 AI 에이전트와 상호작용했습니다. ConvApparel에는 만족도 및 좌절감과 같은 사용자 상태에 대한 상세한 턴별 주석이 포함되어 있습니다. 시뮬레이터 충실도를 평가하기 위해 3가지 기둥으로 구성된 검증 프레임워크가 만들어졌습니다. 이 프레임워크에는 모집단 수준의 통계적 정렬, 인간 유사성 점수, 반사실적 검증이 포함됩니다. 반사실적 검증은 시뮬레이터가 예상치 못한, 분포 외의 어시스턴트 행동에 어떻게 적응하는지 평가합니다. 실험 결과, 데이터 기반 시뮬레이터(ICL 및 SFT)가 프롬프트 기반 시뮬레이터보다 개선되었지만, 현실성 격차는 여전히 존재했습니다. 그러나 데이터 기반 시뮬레이터는 좌절감을 주는 "나쁜 에이전트"와 상호작용할 때 행동을 현실적으로 전환함으로써 견고성을 입증했습니다. ConvApparel 데이터셋과 프레임워크는 신뢰할 수 있는 대화형 AI 개발에 중요한 사용자 시뮬레이터의 현실성 격차를 측정하고 해소하기 위한 도구를 제공합니다."

ConvApparel: Measuring and bridging the realism gap in user simulators research.google

RSS Hunter • 4월 8일

학술 워크플로우 개선: 더 나은 그림과 동료 평가를 위한 두 개의 AI 에이전트 소개

학술 연구는 빠르게 발전하고 있으며, AI는 이를 지원할 새로운 방법을 제공합니다. 연구자들에게 주요 과제는 자신의 연구를 위한 효과적인 시각 자료를 만드는 것입니다. AI는 텍스트를 작성할 수 있지만, 복잡한 다이어그램과 플롯을 생성하는 것은 어렵습니다. 또한, 논문 제출 증가로 인해 동료 검토 시스템이 부담을 받고 있으며, 이는 피로와 일관성 없는 평가로 이어집니다. 정교한 AI 시스템은 단순히 연구 대상이 아니라 과학적 과정에서 잠재적인 협력자로 등장하고 있습니다. 이러한 과제를 해결하기 위해 두 가지 새로운 AI 프레임워크가 개발되었습니다. 학술 논문 그림 생성을 위한 PaperVizAgent와 자동화된 동료 검토를 위한 ScholarPeer입니다. PaperVizAgent는 다중 에이전트 시스템을 사용하여 기존 기준선을 능가하는 출판 준비가 된 그림을 생성합니다. ScholarPeer는 광범위한 문헌과 엄격한 검증을 기반으로 비판을 제시하는 전문가 검토자 역할을 합니다. 이러한 도구는 연구자들의 행정적 부담을 줄여 혁신에 집중할 수 있도록 하는 것을 목표로 합니다. PaperVizAgent와 ScholarPeer는 AI 지원 연구 생태계를 향한 중요한 발걸음을 나타냅니다.

Improving the academic workflow: Introducing two AI agents for better figures and peer review research.google

RSS Hunter • 4월 7일

LLM(대규모 언어 모델)의 행동 성향 정렬 평가

이 연구는 대규모 언어 모델(LLM)의 행동 성향을 인간 행동과 이해하고 일치시키는 데 초점을 맞춥니다. 이 연구는 일상적인 상호 작용과 관련된 현실적인 시나리오에서 LLM을 평가하기 위한 프레임워크를 제시합니다. 이 프레임워크는 심리 설문지를 활용하여 상황 판단 테스트(SJT)로 변환하여 LLM의 반응을 평가합니다. 이 연구는 인간의 선호도와 LLM의 반응 간의 일치성을 분석하며, 인간의 합의가 있는 시나리오와 없는 시나리오에 중점을 둡니다. 결과는 LLM의 행동과 인간의 합의 사이에, 특히 소규모 모델에서 불일치를 드러냅니다. 대규모 모델은 일치도가 향상되었지만, 여전히 인간 의견의 전체 범위를 포착하는 데 한계가 있습니다. 또한, 이 연구는 LLM의 자기 보고된 특성과 SJT에서의 실제 행동 간의 불일치성을 강조합니다. 이러한 발견은 더 나은 사회적 상호 작용을 위해 LLM의 행동 일치성을 개선하는 것이 중요하다는 것을 시사합니다. 이 연구는 LLM 행동에 대한 더 깊은 이해를 위한 초기 단계 역할을 합니다. 이 연구에서 확인된 격차를 해결하기 위한 향후 연구가 필요합니다.

Evaluating alignment of behavioral dispositions in LLMs research.google

RSS Hunter • 4월 2일

양자 취약점을 책임감 있게 공개하여 암호화폐를 보호하기

2016년부터 구글은 미래의 양자 컴퓨터로부터 발생할 수 있는 잠재적 위협에 대응하기 위해 양자 내성 암호화 기술 개발에 적극적으로 힘써왔습니다. 최근 연구에 따르면, 양자 컴퓨터가 기존 예상보다 적은 자원으로 암호화폐에 사용되는 타원 곡선 암호화를 해독할 수 있다는 사실이 밝혀졌습니다. 구글은 암호화폐 커뮤니티 내에서 이러한 사실을 알리고, 보안 및 안정성 향상을 위한 권고안을 제시하는 것을 목표로 하고 있습니다. 구글은 양자 공격에 저항하기 위해 블록체인을 양자 내성 암호화 기술로 전환할 것을 권장하며, 이 과정의 시급성을 강조하고 있습니다. 연구 결과를 책임감 있게 공유하기 위해, 구글은 취약점 검증을 위한 영지식 증명 방식을 개발하여 정보의 오용을 방지했습니다. 연구진은 암호 해독에 필요한 자원에 대한 업데이트된 추정치를 공유했습니다. 이 추정치는 쇼어 알고리즘에 필요한 논리 큐비트와 토폴리 게이트에 관한 것입니다. 그들은 양자 회로를 분석하여 공격에 필요한 물리적 큐비트와 실행 시간을 결정했습니다. 이 연구는 양자 내성 암호화 기술의 구현을 권장하며, 장기적인 암호화폐 생존을 위해 이 기술이 얼마나 중요한지를 강조합니다. 구글의 정보 공개 방식은 보안 요구 사항과 대중의 신뢰 사이의 균형을 맞추기 위해 책임감 있는 취약점 공개에 초점을 맞추고 있습니다. 여기에는 공포심 완화와 주장의 안전한 검증을 위한 영지식 증명 사용이 포함됩니다. 구글은 협력적인 노력을 통해 암호화폐 및 블록체인 기술의 장기적인 발전을 지원하는 것을 목표로 합니다.

Safeguarding cryptocurrency by disclosing quantum vulnerabilities responsibly research.google

RSS Hunter • 3월 30일

더 나은 AI 벤치마크 구축: 몇 명의 평가자가 충분할까요?

"머신러닝에서 재현성은 신뢰를 구축하고 누적적인 발전을 가능하게 하는 데 매우 중요합니다. 그러나 인간의 정답 데이터는 본질적인 불일치로 인해 어려움을 야기합니다. 현재 AI 벤치마킹은 부분적으로 여러 평가자로부터 데이터를 수집하는 데 드는 높은 비용 때문에 이러한 인간의 다양성을 간과하는 경우가 많습니다. 한 연구에서는 적은 수의 평가자로 많은 항목을 평가하는 것과 많은 수의 평가자로 적은 항목을 평가하는 것 사이의 절충점을 조사했습니다. 역사적으로 AI 평가는 각 항목당 소수의 평가자만을 사용하는 "숲" 접근 방식을 선호해 왔는데, 이는 미묘한 인간의 의견을 포착하기에 종종 불충분합니다. 이를 해결하기 위해 고정된 예산 내에서 다양한 규모의 항목과 평가자 수를 테스트하기 위한 시뮬레이터가 개발되었습니다. 이 시뮬레이션은 독성 탐지와 같은 주관적인 작업과 관련된 다양하고 실제적인 데이터셋을 사용했습니다. 주요 결과는 각 항목당 3-5명의 평가자만을 사용하는 표준 관행에 도전하며, 신뢰할 수 있는 결과를 얻기 위해서는 종종 10명 이상이 필요하다고 제안합니다. 최적의 전략은 메트릭에 따라 달라집니다. 다수결 투표에는 폭(더 많은 항목)이 더 좋지만, 의견 다양성을 포착하기 위해서는 깊이(더 많은 평가자)가 필요합니다. 선택한 메트릭에 대해 항목당 평가 비율을 올바르게 최적화하면 적당한 예산으로 효율적인 재현성을 달성할 수 있습니다. 이 연구는 신뢰할 수 있는 AI를 구축하는 데 있어 인간의 불일치를 이해하는 것이 동의만큼 중요하다는 점을 인정하며 "단일 진실" 패러다임에서 벗어나고 있습니다."

Building better AI benchmarks: How many raters are enough? research.google

RSS Hunter • 3월 30일

Google 어스 AI: 기반 모델과 교차 모달 추론을 통한 지리 공간 통찰력 발굴

구글은 Gemini를 기반으로 하는 지리 공간 추론 에이전트와 파운데이션 모델을 결합한 시스템인 Earth AI를 개발했습니다. 이 시스템은 지구에 대한 복잡하고 현실적인 질문에 답하는 것을 목표로 합니다. 새로운 혁신으로는 최첨단 성능을 보여주는 고급 이미지 및 인구 파운데이션 모델이 있습니다. 지리 공간 추론 에이전트는 복잡한 쿼리를 실행 가능한 단계로 나눕니다. 그런 다음 이러한 특수 파운데이션 모델과 도구를 활용하여 전체적인 답변을 제공합니다. 예를 들어, 허리케인 상륙 지점을 예측하고 취약한 지역 사회를 식별할 수 있습니다. 이미지 모델은 자연어 쿼리를 통해 위성 이미지 분석을 단순화합니다. 인구 역학 파운데이션은 시간 민감한 예측에 중요한 인간 활동 변화를 포착합니다. 이러한 모델을 결합하면 예측 능력이 크게 향상되어 재난 위험 평가가 개선됩니다. Earth AI는 FEMA, Bellwether, UN과 같은 조직에서 중요한 애플리케이션에 사용되고 있습니다. 구글은 개발자와 기업을 위해 이러한 기능을 확장하고 있습니다.

Google Earth AI: Unlocking geospatial insights with foundation models and cross-modal reasoning research.google

RSS Hunter • 2025년 10월 22일

검증 가능한 양자 우위

이 텍스트는 양자 컴퓨터를 이용한 양자 혼돈 시뮬레이션과 새로운 알고리즘인 "Quantum Echoes"에 대해 논의합니다. Quantum Echoes는 시간 순서에 벗어난 상관관계(OTOC)를 사용하여 양자 역학을 측정하고 혼돈 행동을 식별합니다. 이전 방법과 달리 OTOC는 실제 문제에 적용 가능한 검증 가능한 계산 결과를 생성합니다. Willow 양자 칩에서 테스트된 Quantum Echoes 알고리즘은 특정 양자 회로에 대해 고전적인 영역을 넘어서는 성능을 보여줍니다. 고차 OTOC는 간섭계와 유사하게 복잡한 양자 간섭 효과를 드러내 양자 신호를 향상시킵니다. 이러한 간섭은 이론적 분석과 실험을 통해 확인된 양자 및 고전 프로세서 간의 계산 격차를 초래합니다. 이 연구는 양자 간섭 시뮬레이션에서 고전 알고리즘의 장애물을 식별하여 Willow에서의 OTOC 계산을 훨씬 더 효율적으로 만듭니다. 실용적인 응용으로, 저자들은 OTOC를 사용하여 물리 시스템에 대한 이해를 향상시키는 해밀토니안 학습을 제안합니다. 핵자기 공명(NMR) 분광법을 사용하여 분자 구조를 시뮬레이션하는 예비 실험은 실제 응용 가능성을 보여줍니다. 이 접근 방식은 아직 고전적인 영역을 넘어서지는 못했지만, 분자 구조 모델을 개선할 가능성을 보여줍니다.

A verifiable quantum advantage research.google

RSS Hunter • 2025년 10월 21일

한 장의 사진은 천 마디 (사적인) 말의 가치를 지닌다: 일관성 있는 합성 사진 앨범의 계층적 생성

차등 개인 정보 보호는 분석 결과에서 중요한 정보가 공개되지 않도록 하여 개별 데이터를 보호합니다. 개인 합성 데이터 세트를 생성하는 것은 모든 분석 기술을 민영화하는 것에 대한 대안을 제공합니다. 이 접근 방식은 Gemini와 같은 생성 AI 모델을 사용하여 원본 데이터를 나타내는 비공개 합성 데이터 세트를 생성합니다. 이 모델은 차등 개인 정보 보호 방법을 사용하여 훈련되어 합성 데이터의 개인 정보 보호와 대표성을 보장합니다. 이 연구는 단순 데이터 유형의 한계를 극복하여 합성 사진 앨범을 생성하는 데 중점을 둡니다. 이 방법은 이미지 데이터를 텍스트로 변환하고 다시 번역하여 앨범 내에서 주제의 일관성을 유지합니다. 먼저 앨범을 요약한 다음 사진에 캡션을 추가하는 계층적 생성은 일관성과 리소스 효율성을 향상시킵니다. 이 텍스트 기반 중간 접근 방식은 이미지를 설명하고 데이터를 필터링하는 데 장점이 있습니다. 이 방법은 YFCC100M 데이터 세트에서 테스트되어 유사한 앨범 테마를 만드는 데 효과가 있는지 검증했습니다. 평가에서는 유사성을 평가하기 위해 설명의 MAUVE 점수와 내용 주제 분석을 사용했습니다. 이 연구는 개인 합성 데이터의 이점을 보다 복잡하고 구조화된 데이터로 확장하는 방법을 보여줍니다. 이는 데이터 요구 사항과 사용자 개인 정보 보호의 균형을 맞추기 위한 강력한 솔루션을 제공할 수 있습니다. 개발된 접근 방식은 다양한 중요 산업 전반에 걸쳐 개인 정보 보호 AI 개발을 위한 방법을 제공합니다.

A picture's worth a thousand (private) words: Hierarchical generation of coherent synthetic photo albums research.google

RSS Hunter • 2025년 10월 19일

몇 가지 예시만으로 제미니에게 폭발하는 별을 찾아내는 법을 가르치기

현대 망원경으로부터 천문학자들이 직면한 엄청난 데이터 과제는, 경고의 대부분이 오탐이라는 점입니다. 이러한 이벤트를 분류하는 데 사용되는 CNN과 같은 특화된 머신러닝 모델은 종종 설명력이 부족하여 "블랙 박스" 역할을 합니다. 이 연구는 천문학적 이벤트를 분류하고 설명을 제공하기 위해 구글의 멀티모달 모델인 Gemini를 사용하는 것을 탐구합니다. 연구자들은 Gemini를 훈련시키기 위해 각 설문 조사당 15개의 레이블이 지정된 예제만 사용하는 소수 샷 학습을 사용했습니다. Gemini는 세 개의 데이터 세트에서 93%의 정확도를 달성했으며, 이는 특화된 모델과 유사하며, 일반 언어로 그 추론을 설명했습니다. 이 모델은 텍스트 설명을 생성하고 관심 점수를 제공하여 과학자들을 돕는 투명한 도구로 변환합니다. 인간 천문학자들은 Gemini의 분류를 검토하고 그 설명이 일관되고 도움이 된다는 것을 발견했습니다. 중요한 발견은 Gemini가 잠재적 오류를 표시하면서 자체 불확실성을 평가할 수 있다는 점이었습니다. 이 기능은 인간 중심의 워크플로우를 가능하게 하여 과학자들의 관심을 집중시킵니다. 반복적인 피드백을 통해 MeerLICHT 데이터 세트에서 모델의 정확도가 향상되었습니다. 이 접근 방식은 설명 가능한 AI에 의해 강화된 과학적 발견을 향한 한 걸음을 나타냅니다. 이 기술은 새로운 기기 및 다양한 분야의 연구에 빠르게 적용될 수 있는 잠재력을 가지고 있습니다. 구상된 "에이전트 보조자"는 데이터를 통합하고, 신뢰도를 평가하며, 발견을 우선시할 수 있습니다. 이 프로젝트는 접근 가능한 AI를 통해 연구자들이 다음 위대한 과학적 질문을 할 수 있도록 힘을 실어주는 데 중점을 둡니다.

Teaching Gemini to spot exploding stars with just a few examples research.google

RSS Hunter • 2025년 10월 19일

가상 머신 퍼즐 풀기: AI가 클라우드 컴퓨팅을 최적화하는 방법

데이터 센터는 테트리스 블록을 맞추는 것과 같이, 처리 작업을 효율적으로 할당하는 복잡한 과제에 직면해 있습니다. 가상 머신(VM)의 수명이 불확실하기 때문에 할당이 어렵습니다. 구글의 LAVA 시스템은 AI를 사용하여 VM 수명을 예측함으로써 효율성을 향상시키는 것을 목표로 합니다. 단일 예측과는 달리, LAVA는 "지속적인 재예측"을 사용하여 수명 추정치를 끊임없이 업데이트합니다. 이는 다양한 VM 동작을 고려하기 위해 학습된 확률 분포를 포함합니다. 이 시스템은 세 가지 알고리즘을 포함합니다: NILAS는 수명 예측을 통합하여 호스트 선택을 최적화합니다. LAVA는 수명이 짧은 VM을 수명이 긴 VM과 함께 배치하여 예측 오류에 적응합니다. LARS는 예측된 수명을 기반으로 유지 보수 중 VM 중단을 최소화합니다. 이 모델은 낮은 지연 시간과 높은 신뢰성을 위해 스케줄러에 직접 통합됩니다. NILAS는 빈 호스트를 늘리고 리소스 낭비를 줄이는 등 상당한 개선을 보여주었습니다. 시뮬레이션 결과 LAVA와 LARS가 효율성을 더욱 향상시킬 것으로 예상됩니다. 이 프로젝트는 데이터 센터 최적화를 위한 머신 러닝의 성공적인 통합을 보여줍니다.

Solving virtual machine puzzles: How AI is optimizing cloud computing research.google

RSS Hunter • 2025년 10월 16일

딥소매틱(DeepSomatic)을 이용한 종양의 유전적 변이체 식별에 AI 적용

암은 세포 분열 조절의 돌연변이에 의해 발생하는 유전 질환입니다. 이러한 돌연변이를 식별하는 것은 암을 효과적으로 이해하고 치료하는 데 매우 중요합니다. 연구자들은 종양 세포에서 체세포 변이를 정확하게 식별하기 위해 딥소매틱(DeepSomatic)이라는 머신러닝 도구를 개발했습니다. 딥소매틱은 컨볼루션 신경망을 활용하며 다양한 시퀀싱 플랫폼과 샘플 유형에서 작동합니다. 이 도구와 훈련 데이터 세트는 더 넓은 사용을 위해 연구 커뮤니티에 공개적으로 제공됩니다. 딥소매틱의 개발에는 시퀀싱된 유방암 및 폐암 샘플에서 포괄적인 데이터 세트인 CASTLE을 생성하는 작업이 포함되었습니다. 딥소매틱은 기존 방법보다 종양 변이, 특히 삽입 및 삭제를 식별하는 데 뛰어난 성능을 보입니다. 이 도구는 교모세포종 및 소아 백혈병과 같은 다른 암 유형에 대한 학습을 일반화하는 능력을 보여줍니다. 이 도구는 기존 치료법을 맞춤화하거나 새로운 치료법 개발로 이어질 수 있습니다. 딥소매틱은 품질이 낮거나 과거의 종양 샘플을 분석할 수 있으며, 종양 단독 샘플에서도 작동할 수 있습니다. 이러한 발전은 환자에게 가장 효과적인 치료법을 제공하는 것을 목표로 하는 정밀 의학으로의 한 걸음입니다.

Using AI to identify genetic variants in tumors with DeepSomatic research.google

RSS Hunter • 2025년 10월 15일

산호초 NPU: 에지 AI를 위한 풀스택 플랫폼

생성형 AI의 영향력이 커지고 있지만, 진정한 도움을 위해서는 개인 기기에서 실행되어야 합니다. 문제는 복잡한 AI를 전력 제약이 있는 엣지 기기에 탑재하여 개인적이고 하루 종일 사용할 수 있도록 하는 것입니다. 이를 위해서는 성능 격차, 하드웨어 파편화, 사용자 신뢰 문제를 해결해야 합니다. 구글은 개인적이고 효율적인 엣지 AI 기기를 위해 설계된 풀 스택 플랫폼인 Coral NPU를 소개합니다. 이 플랫폼은 초저전력, 상시 작동 AI를 위해 구축된 AI 우선 하드웨어 아키텍처를 제공하여 웨어러블 기기의 배터리 소모를 최소화합니다. Coral NPU는 효율적인 온디바이스 추론을 위해 ML 매트릭스 엔진을 우선시함으로써 기존 칩 설계를 뒤집습니다. 이 아키텍처는 최소한의 전력 소비를 위해 RISC-V 호환 IP 블록을 사용하며, 몇 밀리와트에서 512 GOPS를 달성합니다. 스칼라 코어, 벡터 실행 유닛, 매트릭스 실행 유닛을 갖춘 개방적이고 확장 가능한 설계를 특징으로 합니다. Coral NPU는 최신 컴파일러 및 ML 프레임워크와의 원활한 통합을 통해 통합된 개발자 경험을 제공합니다. 이 플랫폼은 인코더 기반 아키텍처와 소형 변환기 모델 모두에 최적화되어 있으며, LLM을 웨어러블 기기에 도입하는 것을 목표로 합니다. 목표 애플리케이션에는 상황 인식, 오디오 및 이미지 처리, 사용자 상호 작용 등이 있으며, 모두 하드웨어 기반 개인 정보 보호를 통해 이루어집니다. Coral NPU는 Synaptics와 같은 파트너십을 통해 지능형 기기를 위한 개방형 표준을 만들기 위해 생태계를 구축하고 있습니다.

Coral NPU: A full-stack platform for Edge AI research.google

RSS Hunter • 2025년 10월 14일

XR 블록: AI + XR 혁신 가속화

인공지능과 확장현실의 결합은 몰입형 지능형 컴퓨팅의 새로운 패러다임을 열 수 있는 잠재력을 가지고 있지만, 이 두 분야의 생태계 사이에는 상당한 격차가 존재합니다. 이러한 격차를 해소하기 위해 인간 중심의 AI 및 XR 혁신을 가속화하도록 설계된 크로스 플랫폼 프레임워크인 XR 블록 프레임워크가 도입되었습니다. XR 블록은 사용자, 세계, 인터페이스, AI 및 에이전트를 포함하여 AI 및 XR의 핵심 추상화를 위한 플러그 앤 플레이 구성 요소가 포함된 모듈식 아키텍처를 제공합니다. 이 프레임워크는 지각적인 AI 및 XR 앱의 신속한 프로토타이핑을 가속화한다는 사명으로 설계되었으며 WebXR, threejs, LiteRT 및 Gemini와 같은 접근 가능한 기술을 기반으로 구축되었습니다. XR 블록의 아키텍처 및 API 설계 선택은 단순성과 가독성, 제작자 경험 우선 순위, 완전성보다 실용주의라는 세 가지 원칙에 따라 결정됩니다. XR 블록 프레임워크는 데스크톱 시뮬레이터와 Android XR 기기에서 실시간 AI 및 XR 애플리케이션의 프로토타이핑을 가속화하며, 상호작용의 내용과 하위 수준 구현의 방법을 분리하는 높은 수준의 인간 중심 추상화 계층을 제공합니다. 이 프레임워크는 XR 상호 작용을 위한 교체 가능한 모듈로 구성된 XR 블록의 구현을 안내하기 위해 높은 수준의 추상화로 구성된 새로운 현실 모델을 제안합니다. 현실 모델은 개발자가 인식 및 입력 파이프라인, 핵심 유틸리티로서의 AI, 경험 및 시각화 툴킷과 같은 하위 시스템을 활용할 수 있도록 하는 고급 API를 제공하는 XR 블록의 모듈식 코어 엔진에 의해 구현됩니다. XR 블록의 목표는 제작자가 높은 수준의 인간 중심 아이디어에서 대화형 프로토타입으로 훨씬 더 빠르게 이동할 수 있도록 하고 선언적 프롬프트를 XR 블록의 높은 수준의 지침으로 직접 변환할 수 있는 미래를 가능하게 하는 것입니다. 전반적으로 XR 블록은 프로그래밍, 디자인, 대화 사이의 경계가 사라지는 미래를 향한 기본 단계로, 스토리를 스크립팅하는 것처럼 유동적으로 현실을 스크립팅할 수 있게 해줍니다.

XR Blocks: Accelerating AI + XR innovation research.google

RSS Hunter • 2025년 10월 8일

음성-검색 (S2R): 음성 검색을 위한 새로운 접근 방식

"음성 기반 웹 검색은 흔하지만, 캐스케이드 모델링 접근 방식 때문에 정확도 문제가 있습니다. 이 방법은 먼저 음성을 텍스트로 변환하며, 전사 과정에서의 오류는 관련 없는 검색 결과로 이어질 수 있습니다. 예를 들어, 그림에 대한 질문에서 "scream"을 "screen"으로 잘못 해석하면 완전히 잘못된 정보를 얻을 수 있습니다. 이를 해결하기 위해 Speech-to-Retrieval(S2R) 기술은 텍스트 전사 단계를 완전히 건너뜁니다. S2R은 음성 쿼리를 직접 해석하고 음성을 검색 의도에 매핑하여 정보를 검색합니다. 이러한 아키텍처 변경은 단순히 "무슨 단어가 말해졌는가?"가 아니라 "어떤 정보가 검색되고 있는가?"에 답하는 것을 목표로 합니다. 실험 결과, 현재 캐스케이드 시스템과 이론적으로 완벽한 전사 사이에는 상당한 성능 격차가 있음을 보여줍니다. S2R 모델은 듀얼 인코더 아키텍처를 사용하여 오디오 쿼리와 문서를 공유 공간에 표현하도록 학습합니다. 이를 통해 오디오에서 사용자의 의도를 직접 추론할 수 있습니다. SVQ 데이터셋에 대한 평가 결과, S2R이 기존 캐스케이드 ASR 모델보다 훨씬 뛰어난 성능을 보였습니다. 그 성능은 완벽한 음성 인식으로 달성할 수 있는 이론적 최대치에 근접합니다. Google은 이제 여러 언어에서 S2R 기반 음성 검색을 구현했습니다. 또한 이 분야의 추가 연구를 장려하기 위해 SVQ 데이터셋을 오픈 소싱하고 있습니다."

Speech-to-Retrieval (S2R): A new approach to voice search research.google

RSS Hunter • 2025년 10월 6일

이미지 생성을 위한 협업적 접근 방식

텍스트-이미지 모델은 종종 단일 프롬프트에서 사용자의 정확한 의도를 파악하는 데 어려움을 겪습니다. 본 연구는 사용자 상호작용을 통해 이미지 생성을 협력적으로 개선하는 강화 학습 에이전트인 PASTA를 소개합니다. PASTA는 안내된 대화를 통해 지루한 프롬프트 시행착오의 필요성을 제거합니다. 이 프로젝트는 인간 평가를 통해 순차적인 사용자 선호도에 대한 새로운 데이터셋을 개발했습니다. PASTA는 이후 실제 데이터와 시뮬레이션 데이터를 혼합하여 훈련되어 우수한 결과를 달성했습니다. 개인 정보 보호 문제로 인해 충분한 실제 사용자 데이터를 수집하는 것은 어렵습니다. 훈련 전략은 초기 실제 인간 피드백과 대규모 사용자 시뮬레이션을 결합했습니다. 유틸리티 및 선택 구성 요소가 있는 사용자 모델이 개발되어 잠재적인 사용자 유형을 식별했습니다. 이 시뮬레이션된 사용자 피드백은 30,000개 이상의 상호작용 궤적을 생성했습니다. 가치 기반 강화 학습 에이전트인 PASTA는 사용자 만족도를 극대화하기 위해 최적의 프롬프트 확장을 선택합니다. 테스트에서 실제 데이터와 시뮬레이션 데이터를 결합하여 훈련된 PASTA는 기준 모델보다 훨씬 뛰어난 성능을 보였습니다. 인간 평가자들은 PASTA가 생성한 이미지를 압도적으로 선호했으며, 이는 개별 창의적 비전에 대한 적응성을 보여줍니다. 본 연구는 보다 상호작용적이고 선호도에 적응하는 생성 AI의 미래를 강조합니다.

A collaborative approach to image generation research.google

RSS Hunter • 2025년 10월 1일

Snapseed에서 기기 내 상호작용형 분할 기능 소개

선택적 이미지 조정은 대상별 향상을 통해 사진을 더 좋게 만듭니다. 이전에는 편집을 위해 객체를 분리하는 것이 어려웠습니다. 특히 부정확한 터치 컨트롤과 제한된 처리 능력을 가진 모바일 장치에서는 더욱 그랬습니다. 이제 iOS의 Snapseed는 Object Brush를 도입하여 이러한 조정을 빠르고 쉽게 할 수 있게 되었습니다. Object Brush를 사용하면 사용자가 개별 편집을 위해 객체 위에 간단하게 선을 그리기만 하면 됩니다. 이 직관적인 기능은 Interactive Segmenter라는 온디바이스 AI 모델에 의해 구동됩니다. 이 고급 모델은 간단한 탭이나 선을 그은 후 20밀리초 이내에 전체 객체 또는 사람을 감지하고 선택할 수 있습니다. 이 모델은 선택된 객체의 경계에 맞춰 정확한 마스크를 생성합니다. Interactive Segmenter를 훈련하는 데에는 Big Transfer 접근 방식과 더 큰 교사 모델에서 더 작고 효율적인 엣지 모델로의 지식 증류가 사용되었습니다. 이 프로세스는 실시간 응답성을 유지하면서 고품질 분할을 보장합니다. 이 시스템은 이미지와 프롬프트 이해를 별개의 하위 모델로 분리하여 분할 품질과 낮은 대기 시간을 균형 있게 유지합니다. 마지막으로, 이미지 크기 마스크 업샘플링은 세부적인 조정을 위한 고해상도 편집 품질을 보장합니다.

Introducing interactive on-device segmentation in Snapseed research.google

RSS Hunter • 2025년 9월 30일

개인 건강 도우미의 해부학

대규모 언어 모델과 웨어러블 기기 데이터는 개인 건강 개선의 기회를 제공하지만, 건강 관련 질문에 대한 개인의 요구는 매우 다양합니다. 단일 시스템으로는 특정 질문과 개방형 질문 모두에 대처하기 어렵습니다. 이를 해결하기 위해 개인 맞춤형 증거 기반 지침을 위해 다중 모달 데이터를 추론하는 Personal Health Agent (PHA) 연구 프레임워크가 개발되었습니다. PHA는 데이터 과학, 도메인 전문 지식, 건강 코칭을 위한 전문 하위 에이전트와 함께 다중 에이전트 아키텍처를 사용합니다. 웨어러블 데이터, 설문 조사, 혈액 검사를 포함한 연구의 실제 데이터가 평가에 사용되었습니다. 이 시스템은 수천 개의 주석과 상당한 전문가 노력을 포함하는 10가지 벤치마크 작업에 걸쳐 광범위한 자동 및 인간 평가를 거쳤습니다. 이 연구는 건강 에이전트에 대한 포괄적인 평가를 나타내며 접근 가능한 개인 건강 에이전트의 기반을 마련합니다. 이 연구는 개념적 프레임워크를 설명하며 현재 공개 제품 또는 서비스에 대한 설명이 아닙니다. 이 접근 방식은 사용자 중심 설계를 포함하여 1,300개 이상의 건강 관련 질문을 분석하고 사용자를 설문 조사하여 주요 지원 영역을 파악했습니다. 시스템 평가는 자동 및 인간 평가를 모두 사용하여 개별 에이전트와 통합된 PHA의 벤치마킹에 중점을 두었습니다.

The anatomy of a personal health agent research.google

RSS Hunter • 2025년 9월 29일

AI 연구 파트너: AlphaEvolve를 통한 이론 컴퓨터 과학 발전

"대규모 언어 모델(LLM)은 경쟁 프로그래밍과 수학 분야에서 뛰어난 성능을 보이지만, 절대적인 정확성에 대한 엄격한 요구 사항 때문에 실제 수학적 발견에는 제한적인 성공을 거두었습니다. 이전의 AI 생성 수학 증명은 종종 인간의 개입 없이는 검증 가능한 정확성이 부족했습니다. 이에 대응하여 연구자들은 LLM을 사용하여 코드를 반복적으로 발전시키고 새로운 수학적 구조를 발견하는 시스템인 AlphaEvolve를 개발했습니다. 이 접근 방식은 MAX-4-CUT 문제에 대한 근사 불가능성 경계를 개선하고 무작위 그래프 속성에 대한 평균 사례 경도에 대한 경계를 좁힘으로써 복잡성 이론의 발전을 이끌었습니다. 이 방법은 발전된 유한 구조가 기존 증명 프레임워크에 통합되어 보편적인 정리를 도출하는 "리프팅"을 활용합니다. 특히 AlphaEvolve는 MAX-4-CUT에 대한 복잡한 장치를 발견하여 0.987의 새로운 근사 한계를 설정했습니다. 이 시스템은 또한 큰 컷을 가진 극단적인 라마누잔 그래프를 발견하여 평균 사례 경도에 대한 하한을 크게 개선했습니다. 이 연구의 핵심 측면은 발견된 구조의 검증 가능한 정확성으로, 검증 속도를 10,000배 향상시켜 달성되었습니다. AI가 귀중한 협력자임이 입증되고 있지만, 검증 프로세스는 향후 AI 지원 수학적 발견에 있어 중요한 병목 현상으로 남아 있습니다."

AI as a research partner: Advancing theoretical computer science with AlphaEvolve research.google

RSS Hunter • 2025년 9월 29일

"더 나은 건강 대화를 향하여: Gemini 기반 "길찾기" AI 에이전트에 대한 연구 통찰"

"온라인 건강 정보 탐색은 종종 부담스럽고 개인에게 맞춤화되지 않는 경우가 많습니다. 대규모 언어 모델(LLM)은 이를 개선할 수 있지만, 현재 AI 도구는 수동적인 질문-답변자 역할을 합니다. 의사와 같은 전문가는 맞춤형 지침을 제공하기 위해 명확한 질문을 능동적으로 하여 맥락을 파악합니다. 이 연구는 Gemini를 기반으로 한 초기 단계 프로토타입인 "Wayfinding AI"를 소개하며, 이는 명확한 질문을 능동적으로 하도록 설계되었습니다. 사용자 연구를 통해 이 접근 방식은 기본 AI보다 훨씬 더 유용하고 관련성이 높으며 맞춤화된 것으로 나타났습니다. 참가자들은 종종 자신의 건강 문제를 명확하게 표현하는 데 어려움을 겪기 때문에 관련 세부 정보를 수집하는 데 능동적인 질문이 중요합니다. Wayfinding AI는 능동적인 대화 안내, 각 단계에서의 최선의 노력 답변, 투명한 추론이라는 세 가지 원칙을 사용합니다. 인터페이스는 질문을 놓치지 않도록 대화 요소와 상세 정보를 분리합니다. 사용자 연구에 따르면 참가자들은 Wayfinding AI의 유용성, 관련성, 목표 이해 및 맞춤화 측면에서 Wayfinding AI를 선호했습니다. Wayfinding AI와의 대화는 더 길었고 사용자 입력 세부 정보를 얻는 데 더 집중되었습니다. 이러한 인간 중심의 대화적 접근 방식은 향후 건강 애플리케이션에서 AI의 가능성을 보여줍니다."

Towards better health conversations: Research insights on a “wayfinding” AI agent based on Gemini research.google

RSS Hunter • 2025년 9월 24일

AfriMed-QA: 글로벌 건강을 위한 대규모 언어 모델 벤치마킹

이 논문은 아프리카 의료 분야의 대규모 언어 모델(LLM) 평가를 위한 새로운 벤치마크 데이터셋인 AfriMed-QA를 소개합니다. 이 데이터셋은 16개 아프리카 국가와 60개 의과대학에서 수집한 영어 의료 질문과 답변을 담고 있습니다. AfriMed-QA는 다양한 의료 전문 분야에 걸쳐 객관식 질문, 단답형 질문, 그리고 일반 사용자 질문을 포함합니다. 연구진은 다양한 LLM을 평가했으며, 더 큰 모델이 이 데이터셋에서 더 나은 성능을 보인다는 것을 발견했습니다. LLM 응답에 대한 인간 평가 결과는 특히 일반 사용자 질문에 대해 긍정적인 결과를 보였습니다. 모델 비교 및 진행 상황 추적을 용이하게 하기 위해 리더보드가 생성되었습니다. 연구팀은 데이터셋을 다국어 및 멀티모달 데이터로 확장할 계획입니다. 이 연구는 지리적 대표성을 포함한 한계를 인정하고, 문화적으로 적절한 평가의 필요성을 강조합니다. 이 연구는 다양한 의료 환경에서 LLM을 적용하는 것의 중요성을 강조합니다. AfriMed-QA는 아프리카 및 그 외 지역의 의료 분야에서 공정한 AI 도구 개발을 촉진하는 것을 목표로 합니다. 이 프로젝트는 ACL 2025에서 최우수 사회적 영향 논문상을 수상했습니다. AfriMed-QA 데이터셋과 평가 코드는 공개적으로 이용 가능합니다.

AfriMed-QA: Benchmarking large language models for global health research.google

RSS Hunter • 2025년 9월 23일

시계열 기반 모델은 소수샷 학습이 가능하다

"시계열 예측은 비즈니스에 매우 중요하지만, 기존 방법은 느리고 전문가의 많은 노력이 필요합니다. 제로샷 파운데이션 모델인 TimesFM은 작업별 학습 없이 예측을 개선했습니다. 그러나 몇 가지 예시를 통합하는 소수샷 학습(few-shot learning)은 정확도를 더욱 향상시킬 수 있습니다. 이를 위한 표준 방법인 지도 미세 조정(supervised fine-tuning)은 복잡성을 다시 도입합니다.새로운 인컨텍스트 미세 조정(In-Context Fine-Tuning, ICF) 접근 방식은 지속적인 사전 학습을 사용하여 TimesFM을 소수샷 학습자로 변환합니다. 이를 통해 모델은 추가 사용자 학습 없이 추론 시점의 예시로부터 학습할 수 있습니다. 이제 TimesFM-ICF가 된 모델은 트랜스포머 레이어가 있는 패치 디코더 아키텍처를 사용합니다.소수샷 학습을 가능하게 하기 위해 예측 기록과 인컨텍스트 예시를 구분하는 "공통 구분 토큰"이 도입됩니다. 이는 데이터 혼동을 방지하고 모델이 과거 패턴으로부터 학습할 수 있도록 합니다. 그런 다음 모델은 이러한 구분 토큰을 통합한 새로운 데이터셋으로 사전 학습됩니다.TimesFM-ICF는 관련 과거 데이터를 인컨텍스트 예시로 사용하여 보지 못한 데이터셋에서 평가되었습니다. 기본 TimesFM보다 6.8%의 정확도 향상을 보였습니다. 중요한 것은 TimesFM-ICF가 추가적인 복잡한 학습 없이 지도 미세 조정과 동일한 성능을 달성한다는 것입니다.이 시스템은 또한 더 많은 인컨텍스트 예시가 더 나은 예측으로 이어진다는 것을 보여주지만, 추론 시간과의 절충이 있습니다. 이 혁신은 더 접근 가능하고 강력한 예측을 약속하며, 비즈니스가 광범위한 ML 프로젝트 없이도 적응 가능한 모델을 배포할 수 있도록 합니다. 향후 연구는 가장 관련성 높은 인컨텍스트 예시의 선택을 자동화하는 것을 목표로 합니다."

Time series foundation models can be few-shot learners research.google

RSS Hunter • 2025년 9월 22일

테스트 시점 확산(diffusion)을 활용하는 심층 연구자

대규모 언어 모델은 다양한 연구 작업을 수행할 수 있는 심층 연구(DR) 에이전트 개발을 가능하게 했습니다. 기존 DR 에이전트는 계획 및 수정과 같은 인간 연구의 반복적인 과정을 종종 부족합니다. Test-Time Diffusion Deep Researcher (TTD-DR)는 인간 연구 과정을 모방하는 새로운 에이전트로 소개되었습니다. TTD-DR 모델은 보고서 작성을 확산 과정으로 모델링하여 반복적인 주기를 통해 초안을 개선합니다. 이는 구성 요소별 자기 진화 및 보고서 수준 개선과 같은 알고리즘을 사용합니다. 에이전트는 연구 계획으로 시작하여 반복적으로 검색 질문을 생성하고 답변을 종합합니다. 자기 진화는 피드백 및 수정 루프를 사용하여 각 단계의 성능을 향상시킵니다. 보고서 수준 노이즈 제거는 검색 도구를 사용하여 새로운 정보를 통해 초안을 반복적으로 수정합니다. TTD-DR은 장문 보고서 작성 및 다단계 추론 벤치마크에서 최첨단 결과를 달성합니다. 결과는 TTD-DR이 경쟁자보다 더 효율적이고 더 나은 품질을 달성함을 보여줍니다. "초안 우선" 접근 방식은 연구 과정을 집중적이고 일관성 있게 유지합니다.

Deep researcher with test-time diffusion research.google

RSS Hunter • 2025년 9월 18일

분별력 있는 에이전트: 능동적인 AR 에이전트와의 방해 없는 상호작용을 위한 프레임워크

Sensible Agent는 선제적인 AR 에이전트와의 방해 없는 상호 작용을 위해 설계된 프레임워크입니다. 음성 명령 기반 시스템의 한계를 해결하기 위해 다중 모드 감지를 사용하여 사용자 요구를 예측하고 상황에 맞는 적절한 지원을 제공합니다. 이 시스템은 두 개의 모듈로 구성됩니다. 하나는 어떤 지원이 필요한지 결정하고, 다른 하나는 사회적 맥락을 고려하여 어떻게 전달할지 결정합니다. 프로토타입은 컨텍스트 파서, 선제적 쿼리 생성기, 상호 작용 모듈, 응답 생성기를 사용하며, 이 모든 것은 Android XR 및 WebXR에서 실행됩니다. 사용자 연구를 통해 Sensible Agent를 다양한 시나리오에서 음성 제어 기반 시스템과 비교했습니다. 연구 결과 Sensible Agent가 인지 부하를 유의미하게 줄이고 사용자 선호도를 높이는 것으로 나타났습니다. 상호 작용 시간은 약간 더 길었지만, Sensible Agent에 대한 선호도는 이러한 트레이드 오프가 허용 가능하다는 것을 시사합니다. 선제성은 사용자와 에이전트 간의 관계를 재구성하여 협력적인 경험을 조성합니다. 향후 방향으로는 개인화, 여러 기기에서의 확장, 스마트 홈 및 로봇 공학 분야에서의 응용이 있습니다. 연구팀은 다중 모드 감지 및 실시간 적응을 통합하여 인간-에이전트 상호 작용을 개선했습니다. 저자들은 Google의 여러 팀의 협력자, 피드백, 기여에 감사를 표합니다.

Sensible Agent: A framework for unobtrusive interaction with proactive AR agents research.google

RSS Hunter • 2025년 9월 17일

LLM의 모든 레이어를 활용하여 정확도를 높이기

대형 언어 모델은 종종 사실성에 어려움을 겪으며, 때로는 잘못된 정보를 환각합니다. 이 문제는 편향되거나 불완전한 훈련 데이터 등 다양한 요인에서 비롯됩니다. 사실성, 즉 진실된 콘텐츠를 생성하는 능력은 신뢰할 수 있는 LLM 응용 프로그램에 매우 중요합니다. 새로운 디코딩 방법인 SLED는 외부 지식 기반 없이 사실성을 향상시키는 것을 목표로 합니다. SLED는 최종 레이어뿐만 아니라 LLM의 모든 레이어에서 정보를 활용하여 예측을 개선합니다. 이전 레이어를 사용하여 토큰 확률을 계산하고, 각 레이어에 가중치를 할당하여 보다 정확한 출력을 생성합니다. 여러 작업 및 벤치마크에 대한 실험 결과, SLED는 다양한 LLM에서 사실 정확도를 향상시키는 것으로 나타났습니다. 예를 들어, 수학 오류를 수정하거나 객관식 문제에 대한 정답을 선택할 수 있습니다. SLED는 쉽게 구현할 수 있으며, 다양한 LLM과 호환되며, 다른 방법과 결합할 수 있습니다. 주요 단점은 다른 대안에 비해 추론 시간이 최소한으로 증가한다는 것입니다. SLED는 광범위한 미세 조정 없이도 최첨단 정확도 향상을 보여줍니다. 향후 연구에서는 SLED를 지도 학습 기반 미세 조정과 결합하고 다른 작업에 적용하는 것을 고려할 수 있습니다.

Making LLMs more accurate by using all of their layers research.google

RSS Hunter • 2025년 9월 16일

당신의 방식대로 배우세요: 생성 AI로 교과서를 재창조하다

교과서는 획일적인 접근 방식으로 인해 개인화와 다양한 형식이 부족하다. 구글은 "Learn Your Way"라는 더 효과적이고 매력적인 학습 경험을 만들기 위해 생성형 AI를 탐구하고 있다. Learn Your Way는 교육 자료를 변환하여 각 학생에게 다양한 콘텐츠 표현과 개인화된 예시를 제공하는 것을 목표로 한다. 이 시스템은 학습 과학을 기반으로 하는 두 가지 핵심 요소, 즉 다중 모드 표현과 개인화를 활용한다. 핵심 기술적 측면은 Gemini 2.5 Pro와 통합된 구글의 LearnLM 모델을 사용하는 것이다. 이 과정은 학생들의 학년과 관심사에 맞춰 콘텐츠를 개인화하고 일반적인 예시를 대체한다. Learn Your Way는 몰입형 텍스트, 퀴즈, 내레이션 슬라이드, 오디오 레슨, 그리고 개인의 필요에 맞춰진 마인드 맵과 같은 기능을 제공한다. 교육 전문가들은 변환된 자료를 평가하여 다양한 기준에 따라 콘텐츠가 매우 효과적임을 확인했다. 효능 연구 결과, Learn Your Way를 사용한 학생들이 표준 디지털 리더를 사용한 학생들보다 기억력 테스트에서 더 높은 점수를 받았다. 또한, 이 연구는 Learn Your Way에 대한 사용자 만족도가 더 높다는 것을 보여주었다. 구글의 연구는 AI가 더 효과적이고 힘을 실어주는 학습 경험을 만들 수 있음을 시사한다. 이 프로젝트의 미래는 개별 학습자의 필요에 맞춰 콘텐츠를 지속적으로 적응시키는 데 초점을 맞추고 있다.

Learn Your Way: Reimagining textbooks with generative AI research.google

RSS Hunter • 2025년 9월 15일

VaultGemma: 세계에서 가장 뛰어난 차분 프라이버시 LLM

AI가 우리 삶에 더욱 깊숙이 통합됨에 따라, 프라이버시를 핵심으로 하는 AI 구축은 중요한 과제가 되고 있습니다. 차등 프라이버시(DP)는 기억을 방지하기 위해 보정된 노이즈를 추가함으로써 수학적으로 강력한 솔루션을 제공합니다. 그러나 LLM에 DP를 적용하면 기존의 스케일링 법칙을 변경하고, 훈련 안정성을 감소시키며, 비용을 증가시키는 트레이드오프가 발생합니다. 새로운 연구는 이러한 복잡성을 정확하게 모델링하는 법칙을 확립하여, 컴퓨팅-프라이버시-유틸리티 간의 트레이드오프에 대한 완전한 그림을 제공합니다. 이 연구를 바탕으로, 차등 프라이버시로 처음부터 훈련된 가장 큰 오픈 모델(10억 매개변수)인 VaultGemma가 소개되었습니다. 이 연구는 DP 훈련에서 모델 크기, 배치 크기, 반복 횟수를 늘리는 것의 이점을 정량화했으며, 주로 노이즈-배치 비율에 초점을 맞췄습니다. 핵심적인 발견은 DP 없이 훈련하는 것보다 더 큰 배치 크기로 더 작은 모델을 훈련해야 한다는 것입니다. 이러한 스케일링 법칙과 고급 훈련 알고리즘을 사용하여 VaultGemma가 구축되었으며, 이는 프라이빗 AI의 중요한 진전을 나타냅니다. VaultGemma는 훈련 데이터에 대한 감지 가능한 기억이 없음을 보여주며, DP 훈련의 효과를 입증합니다. DP로 훈련된 모델과 DP 없이 훈련된 모델 간의 유틸리티 격차가 여전히 존재하지만, 이 연구는 이를 체계적으로 좁히는 것을 목표로 합니다.

VaultGemma: The world's most capable differentially private LLM research.google

RSS Hunter • 2025년 9월 11일

추측적 캐스케이드 - 더 스마트하고 빠른 LLM 추론을 위한 하이브리드 접근 방식

대규모 언어 모델(LLM)은 강력하지만 계산 비용이 많이 들어 추론 속도가 느리고 비용이 많이 듭니다. 이를 해결하기 위해, 캐스케이드는 더 작고 빠른 모델을 사용하여 간단한 쿼리를 처리한 후 더 크고 성능이 좋은 LLM에 의존합니다. 이 접근 방식은 복잡한 작업에만 비용이 많이 드는 모델을 사용함으로써 비용을 절감하는 것을 목표로 합니다. 반면에, 추측적 디코딩은 더 작은 모델이 미래 토큰을 초안으로 작성하고, 더 큰 모델이 이를 병렬로 검증하여 LLM 추론을 가속화합니다. 이는 최종 출력을 변경하지 않고 생성을 가속화하지만 메모리 사용량을 늘릴 수 있습니다. 이 논문은 캐스케이드와 추측적 디코딩의 장점을 결합한 새로운 방법인 "추측적 캐스케이드"를 소개합니다. 추측적 캐스케이드는 더 작은 모델의 초안이 더 큰 모델의 출력과 완벽하게 일치하지 않더라도 허용하는 유연한 "연기 규칙"을 사용합니다. 이 하이브리드 접근 방식은 단독으로 사용되는 두 기술보다 더 나은 비용-품질 균형을 제공합니다. 다양한 언어 작업에 대한 실험 결과, 추측적 캐스케이드는 더 높은 속도 향상과 더 나은 품질 지표를 달성했습니다. 연기 규칙의 유연성은 신뢰도, 비용-편익 분석 또는 토큰별 검사에 따라 맞춤 설정할 수 있습니다. 이 혁신은 계산 비용과 출력 품질 간의 균형을 최적화하여 LLM 애플리케이션을 더 빠르고 스마트하게 만들 수 있습니다.

Speculative cascades — A hybrid approach for smarter, faster LLM inference research.google

RSS Hunter • 2025년 9월 10일

NucleoBench와 AdaBeam을 활용한 더 스마트한 핵산 설계

특정 속성을 가진 치료용 DNA 및 RNA 서열을 설계하는 것은 엄청난 가능성 때문에 의학 분야에서 큰 과제입니다. AI는 이 광대한 탐색 공간을 탐색하는 데 도움을 줄 수 있지만, 설계 알고리즘을 효과적으로 평가하는 것은 어려웠습니다. 이를 해결하기 위해 연구자들은 핵산 설계 알고리즘을 비교하기 위한 표준화된 벤치마크인 NucleoBench를 도입했습니다. 이 벤치마크는 16가지 생물학적 과제에 걸쳐 40만 개 이상의 실험을 포함했습니다. 이 연구를 통해 그들은 하이브리드 설계 알고리즘인 AdaBeam을 개발했습니다. AdaBeam은 대부분의 작업에서 기존 방법보다 성능이 뛰어나며 대규모 AI 모델에서도 더 잘 확장됩니다. 일반적인 계산 설계 프로세스는 데이터 생성, 모델 훈련, 후보 서열 생성 및 검증을 포함합니다. NucleoBench는 후보 서열 생성 단계를 개선하는 데 중점을 둡니다. 기존 벤치마크는 종종 최신 AI 모델 정보를 활용하지 않는 구형 알고리즘을 사용합니다. NucleoBench는 포괄적인 비교를 위해 기울기 없는 알고리즘과 기울기 기반 알고리즘을 모두 포함합니다. AdaBeam은 우수한 성능과 효율성을 달성하기 위해 기존 알고리즘의 효과적인 요소를 결합합니다. 이는 최고 성능을 위해 기울기에만 의존하는 것이 항상 필요한 것은 아님을 보여줍니다. AdaBeam의 발전 사항으로는 효율성 증가, 더 스마트한 탐색, 메모리 사용량 감소 등이 있습니다.

Smarter nucleic acid design with NucleoBench and AdaBeam research.google

RSS Hunter • 2025년 9월 10일

AI 기반 경험적 소프트웨어로 과학적 발견 가속화

과학 연구는 가설 평가를 위한 맞춤형 소프트웨어 제작에 시간이 많이 소요되어 종종 병목 현상을 겪습니다. 본 논문은 이러한 목적을 위해 전문가 수준의 경험적 소프트웨어를 생성하는 Gemini로 구축된 AI 시스템을 소개합니다. 이 시스템은 정의된 문제와 평가 방법을 입력으로 받아 새로운 개념을 제안하고 이를 코드로 구현합니다. 그런 다음 트리 검색 전략을 사용하여 성능을 최적화하기 위해 수천 개의 코드 변형을 반복합니다. 이 시스템은 6개의 다학제 벤치마크에서 테스트되었으며 유전체학, 공중 보건, 지리 공간 분석, 신경 과학, 시계열 예측 및 수치 분석 전반에 걸쳐 전문가 수준의 결과를 달성했습니다. 경험적 소프트웨어는 미리 정의된 품질 점수를 최대화하도록 설계되었으며, 점수 가능한 작업은 이러한 유형의 소프트웨어로 해결할 수 있는 작업입니다. AI 시스템은 연구 아이디어를 생성하고, 이를 실행 가능한 코드로 구현하며, LLM을 사용하여 점수 개선을 위해 코드를 개선합니다. 이 프로세스는 탐색 시간을 몇 달에서 몇 시간 또는 며칠로 크게 단축하여 검증 가능하고 해석 가능하며 재현 가능한 솔루션을 생성합니다. AI 시스템은 어려운 문제에 대한 새로운 솔루션을 생성하고, COVID-19 입원 예측 및 단일 세포 RNA 시퀀싱 데이터 통합을 포함한 여러 벤치마크에서 기존 전문가 개발 방법을 능가하는 능력을 보여주었습니다. 이러한 발전은 연구자들이 잠재적인 솔루션을 신속하게 탐색할 수 있도록 하여 과학적 발견을 가속화할 것을 약속합니다.

Accelerating scientific discovery with AI-powered empirical software research.google

RSS Hunter • 2025년 9월 8일

구글 AI가 보건 직업 교육을 변화시키는 방법

전 세계 보건 인력은 심각한 부족 현상을 겪고 있으며, 이에 따라 의료 교육에서 AI의 역할에 대한 연구가 촉진되고 있습니다. 구글은 AI가 미래 의료 전문가들의 학습을 개인화하고 임상 추론 능력을 향상시킬 수 있는 방안을 모색하고 있습니다. 두 건의 연구가 발표되었는데, 하나는 의대생을 위한 AI 튜터 설계에 대한 질적 연구였고, 다른 하나는 학습을 위한 Gemini 기반 모델인 LearnLM에 대한 양적 평가였습니다. 두 연구 모두 학습자에게 맞춰지고 피드백을 제공하는 AI에 대한 높은 관심을 확인했습니다. 의학 교육자들은 LearnLM이 교육적 품질과 훌륭한 인간 튜터의 역할을 모방하는 능력 측면에서 더 높은 평가를 내렸습니다. 의대생들 또한 LearnLM과의 상호작용을 더 즐겁게 느꼈습니다. 이러한 결과는 AI가 교육을 강화함으로써 보건 인력 격차를 해소할 수 있는 잠재력을 강조합니다. 이 연구는 학습자 중심 접근 방식과 책임감 있는 AI 개발을 강조합니다. 향후 연구는 정확성 보장, 편향 완화, 그리고 AI를 교육 과정에 신중하게 통합하는 데 중점을 둘 것입니다. 구글은 AI가 증강된 미래를 위해 전문가를 준비시키기 위해 의료 교육 커뮤니티와 협력할 것을 약속합니다.

How Google’s AI can help transform health professions education research.google

RSS Hunter • 2025년 8월 26일

건강 언어 모델 평가를 위한 확장 가능한 프레임워크

대규모 언어 모델(LLM)은 복잡한 건강 데이터를 분석하여 개인 맞춤형 응답을 생성할 수 있습니다. 이러한 LLM 응답을 평가하는 것은 정확성과 안전성을 위해 매우 중요하지만, 현재의 인간 전문가 평가는 비용이 많이 들고 확장성이 부족합니다. 본 논문은 적응형 정밀 불리언 루브릭을 사용하여 건강 LLM을 평가하는 새로운 프레임워크를 소개합니다. 이러한 루브릭은 복잡한 질문을 세분화된 예/아니오 기준(Yes/No criteria)으로 나누어 일관성과 효율성을 향상시킵니다. 이 프레임워크는 대사 건강 분야에서 테스트되었으며, 전통적인 리커트 척도(Likert scales)보다 평가자 간 신뢰도(inter-rater reliability)가 현저히 높았습니다. 또한 적응형 정밀 불리언 루브릭은 평가 시간을 50% 이상 단축시켰습니다. 이 방법은 리커트 척도에 비해 응답 품질의 변화에 더 민감한 것으로 나타났습니다. 제로샷 분류기(zero-shot classifier)를 사용하여 루브릭 필터링 프로세스를 자동화한 결과, 유사한 평가 개선 효과가 유지되었습니다. 이 프레임워크는 실제 참가자 데이터가 변경되었을 때 LLM 응답의 품질 저하를 안정적으로 감지했습니다. 제안된 접근 방식은 전문 분야에서 LLM 평가를 위한 확장 가능하고 간소화된 방법을 제공합니다.

A scalable framework for evaluating health language models research.google

RSS Hunter • 2025년 8월 25일

거대 모델에서 모바일 마법까지: YouTube 실시간 생성 AI 효과의 기술

"YouTube Shorts는 모바일 기기에서 고급 생성 AI를 적용하여 크리에이터에게 마법 같고 실시간적인 효과를 제공하는 것을 목표로 합니다. 이는 대규모 AI 모델을 작고 작업별 모델로 압축하여 휴대폰에서 프레임별로 효율적으로 실행할 수 있도록 함으로써 달성됩니다. 이 과정은 다양한 고품질 얼굴 데이터셋을 큐레이션하는 것부터 시작하며, 인구 통계 전반에 걸친 포괄성을 보장합니다. 주요 기술은 강력한 "교사" 모델과 경량 "학생" 모델을 사용하는 지식 증류입니다. 초기에는 StyleGAN2, 이후에는 Imagen과 같은 모델인 교사가 복잡한 생성을 수행하는 반면, UNet 및 MobileNet으로 구축된 학생은 모바일에 최적화됩니다. 훈련에는 교사로부터 이미지 쌍을 생성하고 특정 손실 함수 및 신경망 구조 검색으로 학생을 훈련하는 과정이 포함됩니다. 중요한 과제는 사용자 신원을 보존하는 것으로, 이는 전환 조정 역전(PTI)이라는 기술로 해결됩니다. PTI는 특정 얼굴에 대한 생성기를 미세 조정하여 유사성을 변경하지 않고 잠재 공간에서 편집할 수 있도록 합니다. 온디바이스 솔루션은 Google의 MediaPipe 프레임워크를 사용하여 얼굴 감지, 정렬 및 학생 모델의 원활한 통합을 제공합니다. 이 파이프라인은 33밀리초/프레임보다 빠르게 작동하여 부드러운 사용자 경험을 제공하는 실시간 성능을 달성합니다. 이 기술은 2023년부터 수많은 인기 YouTube Shorts 기능에 적용되어 창의적인 가능성을 향상시켰습니다. 팀은 최신 모델을 통합하고 대기 시간을 줄여 더 넓은 기기 접근성을 목표로 혁신을 계속하고 있습니다."

From massive models to mobile magic: The tech behind YouTube real-time generative AI effects research.google

RSS Hunter • 2025년 8월 20일

차등 개인정보보호 파티션 선택을 통한 대규모 비공개 데이터 보안

"AI 발전, 서비스 개선, 개인화를 위해 대규모 사용자 기반 데이터셋이 필수적입니다. 이러한 데이터셋을 공유하면 연구를 가속화하지만 프라이버시 위험을 초래합니다. 차등 프라이버시(DP) 파티션 선택은 개인 기여도를 보호하기 위해 노이즈를 추가하여 안전한 공통 데이터 하위 집합을 식별합니다. 이는 어휘 추출 및 프라이버시 데이터 분석과 같은 작업에 필수적입니다. 대규모 데이터셋을 처리하려면 속도뿐 아니라 엄청난 규모를 처리하는 병렬 알고리즘이 필요합니다. 우리의 출판물, "적응 가중치를 통한 확장 가능한 프라이버시 파티션 선택"에서는 DP 파티션 선택을 위한 효율적인 병렬 알고리즘을 소개합니다. 이 알고리즘은 수백억 개의 항목까지 확장할 수 있으며, 이전의 기능을 대폭 초과합니다. 목표는 사용자 프라이버시를 보존하면서 선택된 항목을 최대화하는 것입니다. 표준 접근 방식은 가중치 추가, 노이즈 추가 및 임계값에 기반한 항목 필터링입니다. 우리의 새로운 적응 가중치 알고리즘, MAD는 프라이버시 임계값 바로 아래에 있는 항목에 "과잉 가중치"를 재할당하여 유틸리티를 개선합니다. 이를 통해 프라이버시 또는 확장성을 손상시키지 않고 더 많은 항목을 포함할 수 있습니다. 실험 결과, 2회 반복 MAD 알고리즘은 동일한 프라이버시 보장을 가지고 다른 방법보다 더 많은 항목을 출력하는 최적의 결과를 달성합니다. 우리는 커뮤니티 혁신을 촉진하기 위해 알고리즘을 오픈 소스로 공개합니다."

Securing private data at scale with differentially private partition selection research.google

RSS Hunter • 2025년 8월 19일

수십억 개 매개변수의 부담을 넘어: 조건부 생성기로 데이터 합성을 열다

대규모 차분 프라이버시 합성 텍스트 데이터 생성에는 프라이버시-계산-유용성 트레이드오프가 존재합니다. 흔하지만 계산 비용이 많이 드는 방법은 개인 데이터에 대한 대규모 언어 모델의 파인튜닝을 포함합니다. Aug-PE와 같은 기존 API 기반 접근 방식은 수동 프롬프트에 의존하며 개인 정보 활용에 어려움을 겪습니다. 제안된 CTCL 프레임워크는 대규모 LLM을 파인튜닝하거나 광범위한 프롬프트 엔지니어링을 요구하지 않고 프라이버시를 보존하는 합성 데이터를 생성합니다. 1억 4천만 개의 매개변수를 가진 경량 모델을 활용하여 리소스가 제한된 환경에 적합합니다. CTCL은 개인 데이터 분포를 일치시키기 위해 주제 정보에 대한 생성을 조건화합니다. Aug-PE와 달리 CTCL은 추가 프라이버시 비용 없이 무제한의 합성 데이터 샘플을 생산할 수 있습니다. 실험 결과 CTCL은 기준선을 능가하며, 특히 강력한 프라이버시 보장 하에서 유용한 정보를 포착하는 데 효과적임을 보여줍니다. 제거 연구는 CTCL의 성능 및 확장성에 대한 사전 훈련 및 키워드 기반 조건화의 중요성을 확인합니다. CTCL의 핵심 아이디어는 더 나은 실제 애플리케이션을 위해 더 큰 모델로 확장될 수 있습니다.

Beyond billion-parameter burdens: Unlocking data synthesis with a conditional generator research.google

RSS Hunter • 2025년 8월 13일

AMIE에 대한 의사 중심 감독 활성화

우리의 연구는 의료 진단에서 의사 감독을 위한 AI 시스템인 guardrailed-AMIE(g-AMIE)를 소개합니다. g-AMIE는 대화 통해 환자 정보를 수집하고 요약, 차별 진단, 관리 계획을 생성할 수 있습니다. 중요한 것은 개인화된 의료 조언을 제공하지 않도록 제약되어 있습니다. 감독 의사는 클리니션 cockpit 인터페이스를 통해 이 정보를 검토하고 편집하여 환자와의 의사 소통 전에 준비합니다. 무작위 가상 OSCE 연구에서는 g-AMIE의 성능을 간호사 및 의사 보조/협력자와 비교했습니다. 결과는 g-AMIE의 진단 성능 및 관리 계획이 감독 의사 및 독립 평가자에 의해 선호되었으며, 환자 배우들도 g-AMIE가 작성한 환자 메시지를 선호했습니다. 이 연구는 g-AMIE의 안전 가드레일 준수 및 고품질의 의료 기록 및 SOAP 노트를 강조했습니다. g-AMIE는 제어 그룹보다 여러 지표에서 우수한 성능을 보였지만, 워크플로는 AI를 위해 특별히 설계되었으며 클리니션 훈련과는 완전히 일치하지 않습니다. 제한 사항에는 평가자 간의 이견 및 감독의 인지 부하가 포함됩니다. 향후 작업에서는verbosity 최적화 및 실제 환경에서의 탐색에 초점을 둘 것입니다. 이 프레임워크는 의료 진단에서 인간-AI 협업에 있어 중요한 단계를 나타냅니다.

Enabling physician-centered oversight for AMIE research.google

RSS Hunter • 2025년 8월 11일

고품질 레이블을 사용하여 훈련 데이터 10,000배 절감

안전하지 않은 광고 콘텐츠를 분류하는 것은 맥락적 이해 능력 덕분에 대규모 언어 모델(LLM)이 잘 수행할 수 있는 복잡한 작업입니다. 그러나 이러한 작업을 위해 LLM을 미세 조정하려면 고품질의 대규모 학습 데이터가 필요한데, 이를 큐레이션하는 데는 비용과 시간이 많이 소요됩니다. 안전 정책이 변경되는 개념 드리프트는 빈번한 재학습을 필요로 하여 비용을 증가시킵니다. 이를 해결하기 위해 새로운 능동 학습 큐레이션 프로세스는 모델이 인간 전문가와 더 잘 일치하도록 개선하면서 필요한 학습 데이터의 양을 극적으로 줄입니다. 이 프로세스는 주석에 가장 가치 있는 예제를 식별하여 데이터 요구 사항을 크게 줄입니다. 실험 결과, 학습 데이터가 100,000개에서 500개 미만으로 줄었고, 모델 일치는 최대 65% 향상되었습니다. 큐레이션 프로세스는 제로샷 LLM이 데이터를 레이블링하는 것으로 시작하여, 혼동될 수 있는 예제를 식별하기 위해 클러스터링합니다. 그런 다음 이러한 유익하고 다양한 예제가 레이블링을 위해 인간 전문가에게 전송됩니다. 전문가 레이블은 모델을 반복적으로 평가하고 미세 조정하는 데 모두 사용됩니다. 이 프로세스는 실제 레이블이 종종 모호하기 때문에 일치를 측정하기 위해 코헨의 카파에 의존합니다. 대규모 크라우드소싱 데이터셋으로 미세 조정된 기본 모델은 큐레이션된 모델에 비해 성능이 떨어졌습니다. 새로운 방법은 적고 더 유익한 예제를 신중하게 큐레이션하면 훨씬 적은 데이터로 상당한 성능 향상을 가져올 수 있음을 보여줍니다. 이 접근 방식은 빠르게 진화하는 콘텐츠가 있는 광고 안전과 같은 분야에 특히 유익합니다.

Achieving 10,000x training data reduction with high-fidelity labels research.google

RSS Hunter • 2025년 8월 6일

웨어러블 기기와 일상적인 혈액 생체 지표를 이용한 인슐린 저항성 예측

제2형 당뇨병 조기 예측을 위한 혁신적인 접근 방식인슐린 저항성으로 인해 발생하는 제2형 당뇨병은 전 세계 수백만 명에게 영향을 미치지만, 현재 침습적이거나 접근하기 어려운 검사 방법으로 인해 조기 발견이 어렵습니다. 이에 연구진들은 웨어러블 기기와 일반적인 혈액 검사 데이터를 결합하여 인슐린 저항성을 예측할 수 있는 머신러닝 모델을 개발했습니다.WEAR-ME 연구에서는 휴식 심박수, 걸음 수, 수면 패턴, 공복 혈당, 지질 패널 등의 데이터를 활용하여 이 모델을 훈련했습니다. 이러한 데이터 소스를 결합함으로써 단일 소스만 사용하는 것보다 예측 정확도가 크게 향상되었습니다. 특히, 비만이나 좌식 생활 습관을 가진 고위험군에서 인슐린 저항성을 식별하는 데 있어 모델의 성능이 두드러졌습니다.검증 코호트를 통해 이러한 예측 모델의 일반화 가능성을 확인할 수 있었습니다. 또한, 사용자의 이해를 돕기 위해 고급 언어 모델을 활용한 인슐린 저항성 리터러시 및 이해 에이전트(Insulin Resistance Literacy and Understanding Agent)가 개발되었습니다. 이 에이전트는 대사 건강에 대한 개인화되고 맥락화된 답변을 제공하며, 그 포괄성과 신뢰성으로 내분비학자들에게 깊은 인상을 남겼습니다.이 연구는 쉽게 구할 수 있는 데이터를 통해 제2형 당뇨병 위험에 대한 접근 가능한 조기 검진의 잠재력을 보여줍니다. 이러한 접근 방식은 질병을 예방하거나 지연시키기 위한 시기적절한 생활 습관 개선을 촉진할 수 있습니다.하지만, 이러한 모델은 정보 제공 및 연구 목적으로만 사용되며, 승인된 의료 기기가 아님을 명심해야 합니다.

Insulin resistance prediction from wearables and routine blood biomarkers research.google

RSS Hunter • 2025년 8월 5일

DeepPolisher를 이용한 높은 정확도의 게놈 폴리싱: 유전체 연구의 기반 강화

유전, 질병, 진화를 이해하는 것은 DNA 염기에 의해 암호화된 게놈을 해독하는 데 달려 있습니다. DNA 시퀀서는 이러한 염기를 읽지만, 염기쌍의 미세한 크기 때문에 대규모 정확도를 달성하는 것은 어렵습니다. 조립 오류는 유전자 식별을 방해하고 질병을 유발하는 변이를 놓치게 할 수 있기 때문에 거의 완벽한 참조 게놈을 만드는 것이 중요합니다. 게놈 조립은 오류를 반복적으로 수정하기 위해 동일한 게놈을 반복적으로 시퀀싱하는 것을 포함합니다. 그러나 인간 게놈의 30억 뉴클레오티드는 낮은 오류율조차도 상당히 축적되어 유용성을 제한합니다.이러한 과제를 해결하기 위해 오픈 소스 게놈 조립 방법인 DeepPolisher가 정확도 향상을 위해 개발되었습니다. 최근 논문에서 설명된 이 파이프라인은 조립 오류를 50%, 유전자 식별에 특히 방해가 되는 삽입/결실 오류를 70% 줄입니다. 다양한 시퀀싱 기술이 존재하며, Illumina의 방법은 신호를 개선하지만 읽기 길이를 제한합니다. 초기 오류가 발생하기 쉬운 장독(long-read) 시퀀싱 기술은 Pacific Biosciences와 Google의 협력 노력으로 개선되어 오류율이 감소했습니다.DeepConsensus에서 적용된 DeepPolisher는 고도로 특성화된 인간 게놈에 대해 훈련된 트랜스포머 아키텍처를 활용합니다. 이 방법은 게놈 조립에 남아 있는 오류를 식별하고 수정합니다. DeepPolisher는 유전자 주석 문제를 방지하는 데 중요한 삽입/결실 오류를 크게 줄입니다. 이 도구는 평균 Q-점수를 Q66.7에서 Q70.1로 증가시켜 게놈 조립 품질을 향상시킵니다.Human Pangenome Reference Consortium의 두 번째 데이터 릴리스는 DeepPolisher의 혜택을 받아 오류를 줄이고 다양한 조상에 걸쳐 유전 질환을 더 정확하게 진단할 수 있게 되었습니다. DeepPolisher를 오픈 소스로 공개함으로써 과학계에 이러한 발전을 널리 보급하는 것이 목표입니다.

Highly accurate genome polishing with DeepPolisher: Enhancing the foundation of genomic research research.google

RSS Hunter • 2025년 8월 5일

MLE-STAR: 최첨단 머신러닝 엔지니어링 에이전트

기계 학습의 부상은 복잡한 엔지니어링 과제를 초래하여, 이러한 과제를 자동화하는 데 대규모 언어 모델(LLM)을 에이전트로 사용하는 연구를 촉진시켰다. 이러한 LLM 에이전트는 ML 문제를 코드 최적화 과제로 개념화하여 실행 가능한 코드를 생성한다. 그러나 현재의 에이전트는 친숙한 방법에 의존하여 특정 코드 구성 요소의 심층 탐색에 어려움을 겪는다. 이를 해결하기 위해 MLE-STAR가 개발되었는데, 이는 웹 검색과 대상 코드 블록 정제를 통합하는 새로운 ML 엔지니어링 에이전트이다. MLE-STAR는 먼저 관련 모델을 웹에서 검색하고, LLM 생성 계획에 따라 특정 코드 블록을 반복적으로 정제한다. 또한, 이 에이전트는 다중 후보 솔루션을 앙상블하는 새로운 전략을 사용한다. 또한, MLE-STAR에는 디버깅, 데이터 유출 확인 및 적절한 데이터 사용 확인 모듈이 포함되어 있다. MLE-Bench-Lite의 평가에서는 MLE-STAR가 기존 대안보다 현저한 성능을 보여, 63%의 Kaggle 대회에서 메달을 수상했다. 이러한 성공은 최근 모델의 사용, 집중된 정제 및 강력한 확인 메커니즘에 기인한다. MLE-STAR의 자동화 접근 방식은 ML 채택의 장벽을 낮추고 분야의 발전에 적응하도록 설계되었다. 이제 MLE-STAR의 오픈 소스 코드베이스가 사용 가능하다.

MLE-STAR: A state-of-the-art machine learning engineering agent research.google

RSS Hunter • 2025년 7월 31일

회귀 언어 모델을 이용한 대규모 시스템 시뮬레이션

대규모 언어 모델(LLM)은 인간의 선호도에서 학습하여 유용한 텍스트를 생성함으로써 향상됩니다. 한 가지 새로운 접근 방식은 운영 데이터를 사용하여 성능 지표를 예측하는 보상 모델을 훈련하는 것입니다. 기존 회귀는 복잡하고 구조화되지 않은 데이터에 어려움을 겪으며, 많은 특징 공학이 필요합니다. 본 논문은 텍스트-텍스트 회귀를 수행하는 회귀 언어 모델(RLM)을 소개합니다. 이는 텍스트 입력을 직접 처리하여 숫자 예측을 문자열로 출력합니다. 이 방법은 특징 공학을 피하고 새로운 작업에 대한 소량 학습 적응을 가능하게 합니다. RLM은 결과의 확률 분포를 포착하고 예측 불확실성을 정량화할 수 있습니다. 이 접근 방식은 Google의 대규모 컴퓨팅 인프라인 Borg에서 리소스 효율성을 예측하는 데 적용되었습니다. RLM은 Google Compute Unit당 백만 건의 명령(MIPS per GCU)을 효과적으로 예측했습니다. 이 새로운 패러다임은 원시 텍스트에서 숫자 결과를 예측하는 확장 가능하고 효율적인 방법을 제공하여 보편적인 시스템 시뮬레이터와 고급 보상 메커니즘을 가능하게 합니다.

Simulating large systems with Regression Language Models research.google

RSS Hunter • 2025년 7월 28일

SensorLM: 웨어러블 센서의 언어 학습

웨어러블 기기는 방대한 양의 개인 건강 데이터를 수집하지만, 이 데이터 뒤에 숨겨진 맥락을 이해하는 것은 어려움으로 남아있습니다. 이러한 격차는 개인 맞춤형 건강 인사이트의 잠재력을 완전히 발휘하는 데 방해가 됩니다. 센서 데이터에 설명 텍스트를 수동으로 주석 처리하는 것은 비용과 시간 때문에 비현실적입니다. 이를 해결하기 위해 센서-언어 기반 모델인 SensorLM이 개발되었습니다. SensorLM은 103,000명 이상의 개인으로부터 5,970만 시간에 달하는 전례 없는 규모의 멀티모달 센서 데이터를 기반으로 사전 학습되었습니다. 이를 통해 웨어러블 센서 데이터를 해석하고 사람이 읽을 수 있는 설명을 생성할 수 있습니다. 새로운 계층적 파이프라인은 설명적인 캡션을 자동으로 생성하여 현재까지 가장 큰 센서-언어 데이터셋을 만듭니다. SensorLM은 제로샷 센서 이해, 센서-텍스트 정렬, 센서 캡션 생성과 같은 기능을 제공합니다. 활동 인식과 같은 작업에서 최첨단 성능을 보여주며, 일관성 있고 사실적으로 정확한 캡션을 생성하는 데 탁월합니다. 모델의 성능은 더 많은 데이터, 더 큰 모델 크기, 증가된 컴퓨팅 파워와 함께 꾸준히 향상됩니다. SensorLM은 개인 건강 데이터를 이해하고 실행 가능하게 만드는 데 있어 중요한 발전을 나타내며, 미래의 디지털 건강 코치 및 웰니스 애플리케이션을 위한 길을 열어줍니다.

SensorLM: Learning the language of wearable sensors research.google

RSS Hunter • 2025년 7월 27일

LLM을 활용한 모바일 애플리케이션을 위한 합성 및 연합 기반 개인 정보 보호 도메인 적응

"Google의 Gboard는 타이핑 예측 및 교정 기능에 대규모 및 소규모 언어 모델(LLM 및 LM)을 활용합니다. 이러한 모델을 훈련하려면 고품질 데이터가 필요하지만, 사용자 데이터를 사용하면 개인 정보 보호 문제가 발생합니다. 이를 해결하기 위해 Gboard는 공개 데이터로 훈련된 LLM이 생성한 합성 데이터를 사용하여 개인 정보를 노출하지 않고 사용자 상호 작용을 모방합니다. 이 합성 데이터는 모델을 사전 훈련하여 개인 정보 보호 기술(예: 연합 학습 및 차등 개인 정보 보호)로 추가 훈련하기 전에 성능을 향상시킵니다. 이 접근 방식은 개인 정보 보호 위험을 최소화하는 동시에 모델 정확도를 크게 향상시켜 Gboard 기능 개선으로 이어집니다. 이 과정에는 LLM에 프롬프트를 제공하여 실제 모바일 타이핑 데이터를 생성하고, 이 데이터를 사용하여 소규모 모델을 사전 훈련하는 과정이 포함됩니다. 차등 개인 정보 보호를 사용하여 사용자 데이터로 훈련된 소규모 모델인 "버트레스 모듈"은 도메인 적응력을 높이기 위해 합성 데이터를 추가로 정제합니다. 이 결합된 접근 방식은 소규모 및 대규모 모델 모두를 개선하여 사용자 개인 정보를 보호하면서 Gboard의 기능을 향상시킵니다. 시스템에는 데이터 최소화 및 익명화를 포함한 여러 개인 정보 보호 장치가 통합되어 있습니다. 진행 중인 연구는 모델 성능을 더욱 향상시키고 사용자 경험을 개선하기 위해 개인 정보 보호 강화 합성 데이터의 생성 및 적용을 개선하는 데 중점을 둡니다."

Synthetic and federated: Privacy-preserving domain adaptation with LLMs for mobile applications research.google

RSS Hunter • 2025년 7월 23일

LSM-2: 착용형 센서 데이터의 불완전성으로부터 배우기

"웨어러블 기기는 방대한 양의 건강 데이터를 생성하지만, 이 데이터를 레이블링하는 것은 비용이 많이 듭니다. 자기 지도 학습(SSL)은 레이블이 없는 데이터를 활용하여 데이터의 근본적인 구조를 학습할 수 있습니다. 현재 SSL 방법은 다양한 이유로 인해 웨어러블 센서 스트림에서 흔히 발생하는 불완전한 데이터에 어려움을 겪고 있습니다. "LSM-2"는 불완전한 웨어러블 센서 데이터에서 직접 학습하는 SSL 프레임워크인 적응 및 상속 마스킹(AIM)을 도입합니다. AIM은 자연적으로 발생하는 토큰과 인위적으로 마스킹된 토큰을 동등하게 취급하는 이중 마스킹 접근 방식을 사용합니다. AIM을 사용하여 LSM-1 모델을 개선한 대형 센서 모델(LSM-2)이 개발되었습니다. LSM-2는 60,000명의 참가자로부터 얻은 4,000만 시간의 웨어러블 데이터로 사전 학습되었습니다. 활동 인식, 고혈압 분류 및 데이터 재구성 작업에 대해 평가되었습니다. LSM-2는 분류, 재구성 및 건강 지표 예측에서 LSM-1보다 뛰어난 성능을 보였습니다. AIM을 통해 LSM-2는 보정 없이 누락된 데이터를 처리할 수 있어 성능과 견고성이 향상되었습니다. LSM-2는 또한 사용자, 데이터 볼륨 및 모델 크기에 걸쳐 향상된 확장성을 보여줍니다."

LSM-2: Learning from incomplete wearable sensor data research.google

RSS Hunter • 2025년 7월 21일