RSS 구글 AI 블로그 노트

RSS 구글 AI 블로그

Google Research는 Google Research의 과학 커뮤니티에서 최신의 돌파구와 통찰을 공유하는 블로그입니다. 이 플랫폼은 과학자들이 과학 원 밖의 사용자와 새로운 기술, 통찰, 혁신에 대해 대화하는 수단으로 작동합니다. Google Research는 인공 지능, 기계 학습, 의료 혁신 등 다양한 과학 주제에 대한 글을 자주 게시합니다. 또한 자율 주행 차량에서 최신 의료 진단 및 데이터 분석 기법까지 새로운 기술에 대한 글도 자주 다룹니다. 블로그의 주목할만한 기능은 팀 멤버 기고입니다. Google의 주요 기술자 및 연구자들이 다양한 관심사와 기술을 반영하는 통찰적인 글을 제공합니다. 이 사이트는 기술 세계의 최신 발전 및 미래 비전을 첫손으로 읽을 수 있는 기회를 제공합니다. 블로그에는 '저자' 섹션이 있어 사용자가 개별 기고자의 글과 통찰을 접근할 수 있습니다. 기술적 논의 및 혁신 외에도 블로그는 새로운 기술이 우리의 일상 생활에 미치는 영향을 포함하여 사회적 및 철학적 문제들도 다룹니다. 따라서 Google Research 블로그는 기술 전문 지식, 연구 돌파구, 사회적 함의를 독특한 조합으로 제공하여 기술 애호가, 연구자, 미래 기술을 이해하고 형성하고 싶은 모든 사람에게 귀중한 자원이 됩니다.

노트 스레드

CdXz5zHNQW_UNWZZjyn1i.png
CdXz5zHNQW_9GJ7JNiIsF.png
에이전트는 장기간 실행되는 실제 작업에서 과거 경험으로부터 배우는 데 어려움을 겪습니다. 기존의 메모리 방법은 모든 행동을 기록하거나 성공적인 워크플로우만 기록하여 고차원적인 추론을 추출하지 못하고 실패를 간과합니다. ReasoningBank는 에이전트의 자가 진화를 위해 성공 및 실패 경험 모두에서 유용한 통찰력을 추출하여 이러한 문제를 해결합니다. 제목, 설명, 추출된 추론 단계, 의사 결정 근거 또는 운영 통찰력이 포함된 구조화된 메모리를 생성합니다. 메모리 워크플로우는 지속적인 검색, 추출 및 통합을 포함하며, LLM(대규모 언어 모델)이 판정자 역할을 하여 궤적을 평가합니다. 다른 방법과 달리 ReasoningBank는 실패를 적극적으로 분석하여 예방적 교훈과 전략적 안전 장치를 학습합니다. 또한 메모리 인식 테스트 시간 스케일링(MaTTS)과 통합되어 병렬 및 순차적 스케일링을 사용하여 더 풍부한 학습 신호를 생성합니다. MaTTS를 통해 에이전트는 광범위하게 탐색하고 자체 대비 및 반복적 개선을 통해 고품질 메모리를 추출할 수 있습니다. 웹 브라우징 및 소프트웨어 엔지니어링 벤치마크에 대한 평가 결과 ReasoningBank는 에이전트의 효과성(더 높은 성공률)과 효율성(더 적은 작업 단계)을 모두 향상시키는 것으로 나타났습니다. MaTTS를 사용하면 성능이 더욱 향상되어 메모리와 스케일링 간의 강력한 시너지 효과를 보여줍니다. 또한 이 시스템은 시간이 지남에 따라 단순한 규칙을 복잡하고 예방적인 논리 구조로 발전시키는 창발적인 전략적 성숙도를 나타냅니다. ReasoningBank는 LLM 기반 에이전트의 지속적인 학습을 위한 강력한 프레임워크를 제공하며, 메모리 기반 경험 스케일링이 중요한 최전선임을 강조합니다.
CdXz5zHNQW_SlEGinFE7U.png
이 논문은 실제 데이터가 부족하거나 접근하기 어려운 상황에서 필수적인 합성 데이터를 생성하여 전문 AI 모델을 만드는 과제를 다룹니다. 제안된 프레임워크인 Simula는 합성 데이터 생성을 제어를 우선시하는 메커니즘 설계 문제로 재구성합니다. Simula의 "추론 우선" 접근 방식은 기본 원리부터 데이터셋을 구축하여 계층적 분류 체계를 통해 전역적 다양성을 보장합니다. 메타 프롬프트를 사용하는 지역적 다양성은 개념 내의 다양성을 보장하고 모드 붕괴를 방지합니다. 이 프레임워크는 난이도를 조정하기 위한 복잡화와 정확성을 확인하기 위한 품질 검사도 통합합니다. Simula 시스템은 사이버 보안 및 법률 추론과 같은 다양한 도메인에 걸친 실험에서 단순한 기준선보다 일관되게 뛰어난 성능을 보입니다. 평가는 분류 체계 적용 범위 및 보정된 복잡성 점수와 같은 추론 기반 메트릭을 사용합니다. 연구 결과는 데이터가 모델의 기능에 맞춰져야 하며, 데이터 품질이 단순한 양보다 더 중요함을 강조합니다. Simula는 Google의 데이터 엔진 역할을 하여 전문 모델 및 사용자 보호 기능을 지원합니다. 또한 Simula는 현실적인 공격 시나리오를 합성하고 AI에게 지도를 읽도록 가르치는 연구를 가능하게 합니다. 합성 데이터는 미래 AI 발전에 매우 중요하며, Simula는 데이터 생성 제어의 잠재력을 보여줍니다.
CdXz5zHNQW_Mgtb3ddSdy.png
"커넥토믹스는 첨단 영상 기술과 AI를 활용하여 뇌의 복잡한 연결망을 지도화하고 상세한 신경망을 구축합니다. 최근의 획기적인 성과는 초파리 뇌 전체 지도를 완성한 것으로, 뇌 기능 이해에 중요한 단계입니다. 하지만 쥐나 인간과 같은 더 큰 포유류 뇌를 지도화하는 것은 훨씬 더 큰 과제입니다. 구글 리서치는 신경 세포의 식별 및 시각화를 가속화하기 위한 새로운 AI 기술을 개발하고 있습니다.그들은 인간 뇌의 작은 부분을 포함하여 다양한 동물 뇌의 조각들을 지도화하는 작업을 진행하고 있습니다. 합성 신경 형태 모델인 "MoGen"의 발전은 AI 재구성을 개선합니다. MoGen이 강화된 모델은 재구성 오류를 4.4% 감소시켰는데, 이는 상당한 발전입니다.이러한 개선은 상당한 시간을 절약하며, 쥐 뇌의 경우 150년 이상의 수작업에 해당하는 시간을 절약할 수 있습니다. 연구팀은 10년 이상 커넥토믹스를 위한 여러 도구를 개발해 왔습니다.신경 세포는 일반적인 구형 세포와 달리 복잡한 형태를 띠며, 이는 기능에 매우 중요합니다. PATHFINDER와 같은 AI 모델은 현미경 이미지에서 상세한 3D 신경 세포 형태를 만드는 데 사용됩니다.수동 검토는 여전히 프로세스의 병목 현상으로 남아 있으며, 인간 전문가가 오류를 수정해야 합니다. MoGen은 PATHFINDER와 같은 AI 모델의 훈련 데이터를 보강하기 위해 합성 신경 세포를 생성하여 정확도를 향상시킵니다.MoGen은 AI를 사용하여 무작위 포인트 클라우드를 실제 신경 세포 형태와 유사하게 변환하여 실제 신경 세포의 형태를 모방합니다. MoGen을 사용하면 신경 세포 재구성 시 병합 오류가 감소했습니다.인간 전문가는 실제 신경 돌기 조각과 AI 생성 신경 돌기 조각을 신뢰할 수 있게 구별할 수 없는데, 이는 합성 데이터의 사실성을 나타냅니다. 합성 형태를 통합하면 AI 모델의 성능이 크게 향상됩니다.MoGen을 사용한 합성 데이터 사용은 재구성 오류를 4.4% 감소시켜 뇌 지도화의 효율성을 높였습니다. 이러한 개선은 커넥토믹스 분야에서 큰 도약입니다.이 연구는 특정 신경 세포 유형을 생성하고 재구성 초기 단계를 위한 합성 이미지를 만드는 기회를 열어줍니다. MoGen의 오픈 소스 공개는 협업과 신경 과학 분야의 추가 발전을 촉진합니다.이 연구는 궁극적으로 복잡한 뇌의 지도화를 가속화하는 것을 목표로 하며, 이는 신경학적 과정과 질병을 이해하는 데 중요합니다."
CdXz5zHNQW_sVjANUGP0h.png
"현대의 대화형 AI는 복잡한 작업을 처리할 수 있지만, 긴 상호작용에서는 세부 사항을 잊거나 관련성을 잃는 등 어려움을 겪습니다. 개선을 위한 실제 사람 테스트는 비용이 많이 들고 확장하기 어렵습니다. LLM 기반의 사용자 시뮬레이터는 확장 가능한 대안을 제공하지만, 비정상적인 인내심이나 지식을 보이는 등 현실성이 부족한 경우가 많습니다. 이러한 현실성 격차를 해소하기 위해 ConvApparel이라는 새로운 데이터셋이 개발되었습니다. 이 데이터셋은 이중 에이전트 프로토콜을 사용하여 수집된 의류 쇼핑 도메인에서의 인간-AI 대화로 구성됩니다. 참가자들은 도움이 되는 AI 에이전트 또는 의도적으로 도움이 되지 않는 AI 에이전트와 상호작용했습니다. ConvApparel에는 만족도 및 좌절감과 같은 사용자 상태에 대한 상세한 턴별 주석이 포함되어 있습니다. 시뮬레이터 충실도를 평가하기 위해 3가지 기둥으로 구성된 검증 프레임워크가 만들어졌습니다. 이 프레임워크에는 모집단 수준의 통계적 정렬, 인간 유사성 점수, 반사실적 검증이 포함됩니다. 반사실적 검증은 시뮬레이터가 예상치 못한, 분포 외의 어시스턴트 행동에 어떻게 적응하는지 평가합니다. 실험 결과, 데이터 기반 시뮬레이터(ICL 및 SFT)가 프롬프트 기반 시뮬레이터보다 개선되었지만, 현실성 격차는 여전히 존재했습니다. 그러나 데이터 기반 시뮬레이터는 좌절감을 주는 "나쁜 에이전트"와 상호작용할 때 행동을 현실적으로 전환함으로써 견고성을 입증했습니다. ConvApparel 데이터셋과 프레임워크는 신뢰할 수 있는 대화형 AI 개발에 중요한 사용자 시뮬레이터의 현실성 격차를 측정하고 해소하기 위한 도구를 제공합니다."
CdXz5zHNQW_7h9caQjYCe.png
CdXz5zHNQW_07KfQjSTH7.png
2016년부터 구글은 미래의 양자 컴퓨터로부터 발생할 수 있는 잠재적 위협에 대응하기 위해 양자 내성 암호화 기술 개발에 적극적으로 힘써왔습니다. 최근 연구에 따르면, 양자 컴퓨터가 기존 예상보다 적은 자원으로 암호화폐에 사용되는 타원 곡선 암호화를 해독할 수 있다는 사실이 밝혀졌습니다. 구글은 암호화폐 커뮤니티 내에서 이러한 사실을 알리고, 보안 및 안정성 향상을 위한 권고안을 제시하는 것을 목표로 하고 있습니다. 구글은 양자 공격에 저항하기 위해 블록체인을 양자 내성 암호화 기술로 전환할 것을 권장하며, 이 과정의 시급성을 강조하고 있습니다. 연구 결과를 책임감 있게 공유하기 위해, 구글은 취약점 검증을 위한 영지식 증명 방식을 개발하여 정보의 오용을 방지했습니다. 연구진은 암호 해독에 필요한 자원에 대한 업데이트된 추정치를 공유했습니다. 이 추정치는 쇼어 알고리즘에 필요한 논리 큐비트와 토폴리 게이트에 관한 것입니다. 그들은 양자 회로를 분석하여 공격에 필요한 물리적 큐비트와 실행 시간을 결정했습니다. 이 연구는 양자 내성 암호화 기술의 구현을 권장하며, 장기적인 암호화폐 생존을 위해 이 기술이 얼마나 중요한지를 강조합니다. 구글의 정보 공개 방식은 보안 요구 사항과 대중의 신뢰 사이의 균형을 맞추기 위해 책임감 있는 취약점 공개에 초점을 맞추고 있습니다. 여기에는 공포심 완화와 주장의 안전한 검증을 위한 영지식 증명 사용이 포함됩니다. 구글은 협력적인 노력을 통해 암호화폐 및 블록체인 기술의 장기적인 발전을 지원하는 것을 목표로 합니다.
"머신러닝에서 재현성은 신뢰를 구축하고 누적적인 발전을 가능하게 하는 데 매우 중요합니다. 그러나 인간의 정답 데이터는 본질적인 불일치로 인해 어려움을 야기합니다. 현재 AI 벤치마킹은 부분적으로 여러 평가자로부터 데이터를 수집하는 데 드는 높은 비용 때문에 이러한 인간의 다양성을 간과하는 경우가 많습니다. 한 연구에서는 적은 수의 평가자로 많은 항목을 평가하는 것과 많은 수의 평가자로 적은 항목을 평가하는 것 사이의 절충점을 조사했습니다. 역사적으로 AI 평가는 각 항목당 소수의 평가자만을 사용하는 "숲" 접근 방식을 선호해 왔는데, 이는 미묘한 인간의 의견을 포착하기에 종종 불충분합니다. 이를 해결하기 위해 고정된 예산 내에서 다양한 규모의 항목과 평가자 수를 테스트하기 위한 시뮬레이터가 개발되었습니다. 이 시뮬레이션은 독성 탐지와 같은 주관적인 작업과 관련된 다양하고 실제적인 데이터셋을 사용했습니다. 주요 결과는 각 항목당 3-5명의 평가자만을 사용하는 표준 관행에 도전하며, 신뢰할 수 있는 결과를 얻기 위해서는 종종 10명 이상이 필요하다고 제안합니다. 최적의 전략은 메트릭에 따라 달라집니다. 다수결 투표에는 폭(더 많은 항목)이 더 좋지만, 의견 다양성을 포착하기 위해서는 깊이(더 많은 평가자)가 필요합니다. 선택한 메트릭에 대해 항목당 평가 비율을 올바르게 최적화하면 적당한 예산으로 효율적인 재현성을 달성할 수 있습니다. 이 연구는 신뢰할 수 있는 AI를 구축하는 데 있어 인간의 불일치를 이해하는 것이 동의만큼 중요하다는 점을 인정하며 "단일 진실" 패러다임에서 벗어나고 있습니다."
CdXz5zHNQW_Vioi176lmj.png
CdXz5zHNQW_YzSmOdOIdM.png
차등 개인 정보 보호는 분석 결과에서 중요한 정보가 공개되지 않도록 하여 개별 데이터를 보호합니다. 개인 합성 데이터 세트를 생성하는 것은 모든 분석 기술을 민영화하는 것에 대한 대안을 제공합니다. 이 접근 방식은 Gemini와 같은 생성 AI 모델을 사용하여 원본 데이터를 나타내는 비공개 합성 데이터 세트를 생성합니다. 이 모델은 차등 개인 정보 보호 방법을 사용하여 훈련되어 합성 데이터의 개인 정보 보호와 대표성을 보장합니다. 이 연구는 단순 데이터 유형의 한계를 극복하여 합성 사진 앨범을 생성하는 데 중점을 둡니다. 이 방법은 이미지 데이터를 텍스트로 변환하고 다시 번역하여 앨범 내에서 주제의 일관성을 유지합니다. 먼저 앨범을 요약한 다음 사진에 캡션을 추가하는 계층적 생성은 일관성과 리소스 효율성을 향상시킵니다. 이 텍스트 기반 중간 접근 방식은 이미지를 설명하고 데이터를 필터링하는 데 장점이 있습니다. 이 방법은 YFCC100M 데이터 세트에서 테스트되어 유사한 앨범 테마를 만드는 데 효과가 있는지 검증했습니다. 평가에서는 유사성을 평가하기 위해 설명의 MAUVE 점수와 내용 주제 분석을 사용했습니다. 이 연구는 개인 합성 데이터의 이점을 보다 복잡하고 구조화된 데이터로 확장하는 방법을 보여줍니다. 이는 데이터 요구 사항과 사용자 개인 정보 보호의 균형을 맞추기 위한 강력한 솔루션을 제공할 수 있습니다. 개발된 접근 방식은 다양한 중요 산업 전반에 걸쳐 개인 정보 보호 AI 개발을 위한 방법을 제공합니다.
CdXz5zHNQW_zjOUzHBzKl.png
현대 망원경으로부터 천문학자들이 직면한 엄청난 데이터 과제는, 경고의 대부분이 오탐이라는 점입니다. 이러한 이벤트를 분류하는 데 사용되는 CNN과 같은 특화된 머신러닝 모델은 종종 설명력이 부족하여 "블랙 박스" 역할을 합니다. 이 연구는 천문학적 이벤트를 분류하고 설명을 제공하기 위해 구글의 멀티모달 모델인 Gemini를 사용하는 것을 탐구합니다. 연구자들은 Gemini를 훈련시키기 위해 각 설문 조사당 15개의 레이블이 지정된 예제만 사용하는 소수 샷 학습을 사용했습니다. Gemini는 세 개의 데이터 세트에서 93%의 정확도를 달성했으며, 이는 특화된 모델과 유사하며, 일반 언어로 그 추론을 설명했습니다. 이 모델은 텍스트 설명을 생성하고 관심 점수를 제공하여 과학자들을 돕는 투명한 도구로 변환합니다. 인간 천문학자들은 Gemini의 분류를 검토하고 그 설명이 일관되고 도움이 된다는 것을 발견했습니다. 중요한 발견은 Gemini가 잠재적 오류를 표시하면서 자체 불확실성을 평가할 수 있다는 점이었습니다. 이 기능은 인간 중심의 워크플로우를 가능하게 하여 과학자들의 관심을 집중시킵니다. 반복적인 피드백을 통해 MeerLICHT 데이터 세트에서 모델의 정확도가 향상되었습니다. 이 접근 방식은 설명 가능한 AI에 의해 강화된 과학적 발견을 향한 한 걸음을 나타냅니다. 이 기술은 새로운 기기 및 다양한 분야의 연구에 빠르게 적용될 수 있는 잠재력을 가지고 있습니다. 구상된 "에이전트 보조자"는 데이터를 통합하고, 신뢰도를 평가하며, 발견을 우선시할 수 있습니다. 이 프로젝트는 접근 가능한 AI를 통해 연구자들이 다음 위대한 과학적 질문을 할 수 있도록 힘을 실어주는 데 중점을 둡니다.
CdXz5zHNQW_ufwFOBiDg5.png
CdXz5zHNQW_1ePetmBCYf.png
CdXz5zHNQW_yN3IPg1z3S.png
생성형 AI의 영향력이 커지고 있지만, 진정한 도움을 위해서는 개인 기기에서 실행되어야 합니다. 문제는 복잡한 AI를 전력 제약이 있는 엣지 기기에 탑재하여 개인적이고 하루 종일 사용할 수 있도록 하는 것입니다. 이를 위해서는 성능 격차, 하드웨어 파편화, 사용자 신뢰 문제를 해결해야 합니다. 구글은 개인적이고 효율적인 엣지 AI 기기를 위해 설계된 풀 스택 플랫폼인 Coral NPU를 소개합니다. 이 플랫폼은 초저전력, 상시 작동 AI를 위해 구축된 AI 우선 하드웨어 아키텍처를 제공하여 웨어러블 기기의 배터리 소모를 최소화합니다. Coral NPU는 효율적인 온디바이스 추론을 위해 ML 매트릭스 엔진을 우선시함으로써 기존 칩 설계를 뒤집습니다. 이 아키텍처는 최소한의 전력 소비를 위해 RISC-V 호환 IP 블록을 사용하며, 몇 밀리와트에서 512 GOPS를 달성합니다. 스칼라 코어, 벡터 실행 유닛, 매트릭스 실행 유닛을 갖춘 개방적이고 확장 가능한 설계를 특징으로 합니다. Coral NPU는 최신 컴파일러 및 ML 프레임워크와의 원활한 통합을 통해 통합된 개발자 경험을 제공합니다. 이 플랫폼은 인코더 기반 아키텍처와 소형 변환기 모델 모두에 최적화되어 있으며, LLM을 웨어러블 기기에 도입하는 것을 목표로 합니다. 목표 애플리케이션에는 상황 인식, 오디오 및 이미지 처리, 사용자 상호 작용 등이 있으며, 모두 하드웨어 기반 개인 정보 보호를 통해 이루어집니다. Coral NPU는 Synaptics와 같은 파트너십을 통해 지능형 기기를 위한 개방형 표준을 만들기 위해 생태계를 구축하고 있습니다.
CdXz5zHNQW_GcRvvAYbP3.png
인공지능과 확장현실의 결합은 몰입형 지능형 컴퓨팅의 새로운 패러다임을 열 수 있는 잠재력을 가지고 있지만, 이 두 분야의 생태계 사이에는 상당한 격차가 존재합니다. 이러한 격차를 해소하기 위해 인간 중심의 AI 및 XR 혁신을 가속화하도록 설계된 크로스 플랫폼 프레임워크인 XR 블록 프레임워크가 도입되었습니다. XR 블록은 사용자, 세계, 인터페이스, AI 및 에이전트를 포함하여 AI 및 XR의 핵심 추상화를 위한 플러그 앤 플레이 구성 요소가 포함된 모듈식 아키텍처를 제공합니다. 이 프레임워크는 지각적인 AI 및 XR 앱의 신속한 프로토타이핑을 가속화한다는 사명으로 설계되었으며 WebXR, threejs, LiteRT 및 Gemini와 같은 접근 가능한 기술을 기반으로 구축되었습니다. XR 블록의 아키텍처 및 API 설계 선택은 단순성과 가독성, 제작자 경험 우선 순위, 완전성보다 실용주의라는 세 가지 원칙에 따라 결정됩니다. XR 블록 프레임워크는 데스크톱 시뮬레이터와 Android XR 기기에서 실시간 AI 및 XR 애플리케이션의 프로토타이핑을 가속화하며, 상호작용의 내용과 하위 수준 구현의 방법을 분리하는 높은 수준의 인간 중심 추상화 계층을 제공합니다. 이 프레임워크는 XR 상호 작용을 위한 교체 가능한 모듈로 구성된 XR 블록의 구현을 안내하기 위해 높은 수준의 추상화로 구성된 새로운 현실 모델을 제안합니다. 현실 모델은 개발자가 인식 및 입력 파이프라인, 핵심 유틸리티로서의 AI, 경험 및 시각화 툴킷과 같은 하위 시스템을 활용할 수 있도록 하는 고급 API를 제공하는 XR 블록의 모듈식 코어 엔진에 의해 구현됩니다. XR 블록의 목표는 제작자가 높은 수준의 인간 중심 아이디어에서 대화형 프로토타입으로 훨씬 더 빠르게 이동할 수 있도록 하고 선언적 프롬프트를 XR 블록의 높은 수준의 지침으로 직접 변환할 수 있는 미래를 가능하게 하는 것입니다. 전반적으로 XR 블록은 프로그래밍, 디자인, 대화 사이의 경계가 사라지는 미래를 향한 기본 단계로, 스토리를 스크립팅하는 것처럼 유동적으로 현실을 스크립팅할 수 있게 해줍니다.
"음성 기반 웹 검색은 흔하지만, 캐스케이드 모델링 접근 방식 때문에 정확도 문제가 있습니다. 이 방법은 먼저 음성을 텍스트로 변환하며, 전사 과정에서의 오류는 관련 없는 검색 결과로 이어질 수 있습니다. 예를 들어, 그림에 대한 질문에서 "scream"을 "screen"으로 잘못 해석하면 완전히 잘못된 정보를 얻을 수 있습니다. 이를 해결하기 위해 Speech-to-Retrieval(S2R) 기술은 텍스트 전사 단계를 완전히 건너뜁니다. S2R은 음성 쿼리를 직접 해석하고 음성을 검색 의도에 매핑하여 정보를 검색합니다. 이러한 아키텍처 변경은 단순히 "무슨 단어가 말해졌는가?"가 아니라 "어떤 정보가 검색되고 있는가?"에 답하는 것을 목표로 합니다. 실험 결과, 현재 캐스케이드 시스템과 이론적으로 완벽한 전사 사이에는 상당한 성능 격차가 있음을 보여줍니다. S2R 모델은 듀얼 인코더 아키텍처를 사용하여 오디오 쿼리와 문서를 공유 공간에 표현하도록 학습합니다. 이를 통해 오디오에서 사용자의 의도를 직접 추론할 수 있습니다. SVQ 데이터셋에 대한 평가 결과, S2R이 기존 캐스케이드 ASR 모델보다 훨씬 뛰어난 성능을 보였습니다. 그 성능은 완벽한 음성 인식으로 달성할 수 있는 이론적 최대치에 근접합니다. Google은 이제 여러 언어에서 S2R 기반 음성 검색을 구현했습니다. 또한 이 분야의 추가 연구를 장려하기 위해 SVQ 데이터셋을 오픈 소싱하고 있습니다."
CdXz5zHNQW_1v0oZ0TyR7.png
텍스트-이미지 모델은 종종 단일 프롬프트에서 사용자의 정확한 의도를 파악하는 데 어려움을 겪습니다. 본 연구는 사용자 상호작용을 통해 이미지 생성을 협력적으로 개선하는 강화 학습 에이전트인 PASTA를 소개합니다. PASTA는 안내된 대화를 통해 지루한 프롬프트 시행착오의 필요성을 제거합니다. 이 프로젝트는 인간 평가를 통해 순차적인 사용자 선호도에 대한 새로운 데이터셋을 개발했습니다. PASTA는 이후 실제 데이터와 시뮬레이션 데이터를 혼합하여 훈련되어 우수한 결과를 달성했습니다. 개인 정보 보호 문제로 인해 충분한 실제 사용자 데이터를 수집하는 것은 어렵습니다. 훈련 전략은 초기 실제 인간 피드백과 대규모 사용자 시뮬레이션을 결합했습니다. 유틸리티 및 선택 구성 요소가 있는 사용자 모델이 개발되어 잠재적인 사용자 유형을 식별했습니다. 이 시뮬레이션된 사용자 피드백은 30,000개 이상의 상호작용 궤적을 생성했습니다. 가치 기반 강화 학습 에이전트인 PASTA는 사용자 만족도를 극대화하기 위해 최적의 프롬프트 확장을 선택합니다. 테스트에서 실제 데이터와 시뮬레이션 데이터를 결합하여 훈련된 PASTA는 기준 모델보다 훨씬 뛰어난 성능을 보였습니다. 인간 평가자들은 PASTA가 생성한 이미지를 압도적으로 선호했으며, 이는 개별 창의적 비전에 대한 적응성을 보여줍니다. 본 연구는 보다 상호작용적이고 선호도에 적응하는 생성 AI의 미래를 강조합니다.
CdXz5zHNQW_JczcxIBw5o.png
CdXz5zHNQW_hPOeNkUBEn.png
대규모 언어 모델과 웨어러블 기기 데이터는 개인 건강 개선의 기회를 제공하지만, 건강 관련 질문에 대한 개인의 요구는 매우 다양합니다. 단일 시스템으로는 특정 질문과 개방형 질문 모두에 대처하기 어렵습니다. 이를 해결하기 위해 개인 맞춤형 증거 기반 지침을 위해 다중 모달 데이터를 추론하는 Personal Health Agent (PHA) 연구 프레임워크가 개발되었습니다. PHA는 데이터 과학, 도메인 전문 지식, 건강 코칭을 위한 전문 하위 에이전트와 함께 다중 에이전트 아키텍처를 사용합니다. 웨어러블 데이터, 설문 조사, 혈액 검사를 포함한 연구의 실제 데이터가 평가에 사용되었습니다. 이 시스템은 수천 개의 주석과 상당한 전문가 노력을 포함하는 10가지 벤치마크 작업에 걸쳐 광범위한 자동 및 인간 평가를 거쳤습니다. 이 연구는 건강 에이전트에 대한 포괄적인 평가를 나타내며 접근 가능한 개인 건강 에이전트의 기반을 마련합니다. 이 연구는 개념적 프레임워크를 설명하며 현재 공개 제품 또는 서비스에 대한 설명이 아닙니다. 이 접근 방식은 사용자 중심 설계를 포함하여 1,300개 이상의 건강 관련 질문을 분석하고 사용자를 설문 조사하여 주요 지원 영역을 파악했습니다. 시스템 평가는 자동 및 인간 평가를 모두 사용하여 개별 에이전트와 통합된 PHA의 벤치마킹에 중점을 두었습니다.
CdXz5zHNQW_cj4k4bmeKc.png
"대규모 언어 모델(LLM)은 경쟁 프로그래밍과 수학 분야에서 뛰어난 성능을 보이지만, 절대적인 정확성에 대한 엄격한 요구 사항 때문에 실제 수학적 발견에는 제한적인 성공을 거두었습니다. 이전의 AI 생성 수학 증명은 종종 인간의 개입 없이는 검증 가능한 정확성이 부족했습니다. 이에 대응하여 연구자들은 LLM을 사용하여 코드를 반복적으로 발전시키고 새로운 수학적 구조를 발견하는 시스템인 AlphaEvolve를 개발했습니다. 이 접근 방식은 MAX-4-CUT 문제에 대한 근사 불가능성 경계를 개선하고 무작위 그래프 속성에 대한 평균 사례 경도에 대한 경계를 좁힘으로써 복잡성 이론의 발전을 이끌었습니다. 이 방법은 발전된 유한 구조가 기존 증명 프레임워크에 통합되어 보편적인 정리를 도출하는 "리프팅"을 활용합니다. 특히 AlphaEvolve는 MAX-4-CUT에 대한 복잡한 장치를 발견하여 0.987의 새로운 근사 한계를 설정했습니다. 이 시스템은 또한 큰 컷을 가진 극단적인 라마누잔 그래프를 발견하여 평균 사례 경도에 대한 하한을 크게 개선했습니다. 이 연구의 핵심 측면은 발견된 구조의 검증 가능한 정확성으로, 검증 속도를 10,000배 향상시켜 달성되었습니다. AI가 귀중한 협력자임이 입증되고 있지만, 검증 프로세스는 향후 AI 지원 수학적 발견에 있어 중요한 병목 현상으로 남아 있습니다."
CdXz5zHNQW_XJGYeGdkyo.png
"온라인 건강 정보 탐색은 종종 부담스럽고 개인에게 맞춤화되지 않는 경우가 많습니다. 대규모 언어 모델(LLM)은 이를 개선할 수 있지만, 현재 AI 도구는 수동적인 질문-답변자 역할을 합니다. 의사와 같은 전문가는 맞춤형 지침을 제공하기 위해 명확한 질문을 능동적으로 하여 맥락을 파악합니다. 이 연구는 Gemini를 기반으로 한 초기 단계 프로토타입인 "Wayfinding AI"를 소개하며, 이는 명확한 질문을 능동적으로 하도록 설계되었습니다. 사용자 연구를 통해 이 접근 방식은 기본 AI보다 훨씬 더 유용하고 관련성이 높으며 맞춤화된 것으로 나타났습니다. 참가자들은 종종 자신의 건강 문제를 명확하게 표현하는 데 어려움을 겪기 때문에 관련 세부 정보를 수집하는 데 능동적인 질문이 중요합니다. Wayfinding AI는 능동적인 대화 안내, 각 단계에서의 최선의 노력 답변, 투명한 추론이라는 세 가지 원칙을 사용합니다. 인터페이스는 질문을 놓치지 않도록 대화 요소와 상세 정보를 분리합니다. 사용자 연구에 따르면 참가자들은 Wayfinding AI의 유용성, 관련성, 목표 이해 및 맞춤화 측면에서 Wayfinding AI를 선호했습니다. Wayfinding AI와의 대화는 더 길었고 사용자 입력 세부 정보를 얻는 데 더 집중되었습니다. 이러한 인간 중심의 대화적 접근 방식은 향후 건강 애플리케이션에서 AI의 가능성을 보여줍니다."
CdXz5zHNQW_ibR0J0rRzk.png
CdXz5zHNQW_4Ufi6eam5o.png
"시계열 예측은 비즈니스에 매우 중요하지만, 기존 방법은 느리고 전문가의 많은 노력이 필요합니다. 제로샷 파운데이션 모델인 TimesFM은 작업별 학습 없이 예측을 개선했습니다. 그러나 몇 가지 예시를 통합하는 소수샷 학습(few-shot learning)은 정확도를 더욱 향상시킬 수 있습니다. 이를 위한 표준 방법인 지도 미세 조정(supervised fine-tuning)은 복잡성을 다시 도입합니다.새로운 인컨텍스트 미세 조정(In-Context Fine-Tuning, ICF) 접근 방식은 지속적인 사전 학습을 사용하여 TimesFM을 소수샷 학습자로 변환합니다. 이를 통해 모델은 추가 사용자 학습 없이 추론 시점의 예시로부터 학습할 수 있습니다. 이제 TimesFM-ICF가 된 모델은 트랜스포머 레이어가 있는 패치 디코더 아키텍처를 사용합니다.소수샷 학습을 가능하게 하기 위해 예측 기록과 인컨텍스트 예시를 구분하는 "공통 구분 토큰"이 도입됩니다. 이는 데이터 혼동을 방지하고 모델이 과거 패턴으로부터 학습할 수 있도록 합니다. 그런 다음 모델은 이러한 구분 토큰을 통합한 새로운 데이터셋으로 사전 학습됩니다.TimesFM-ICF는 관련 과거 데이터를 인컨텍스트 예시로 사용하여 보지 못한 데이터셋에서 평가되었습니다. 기본 TimesFM보다 6.8%의 정확도 향상을 보였습니다. 중요한 것은 TimesFM-ICF가 추가적인 복잡한 학습 없이 지도 미세 조정과 동일한 성능을 달성한다는 것입니다.이 시스템은 또한 더 많은 인컨텍스트 예시가 더 나은 예측으로 이어진다는 것을 보여주지만, 추론 시간과의 절충이 있습니다. 이 혁신은 더 접근 가능하고 강력한 예측을 약속하며, 비즈니스가 광범위한 ML 프로젝트 없이도 적응 가능한 모델을 배포할 수 있도록 합니다. 향후 연구는 가장 관련성 높은 인컨텍스트 예시의 선택을 자동화하는 것을 목표로 합니다."
CdXz5zHNQW_kfwkschkYN.png
Sensible Agent는 선제적인 AR 에이전트와의 방해 없는 상호 작용을 위해 설계된 프레임워크입니다. 음성 명령 기반 시스템의 한계를 해결하기 위해 다중 모드 감지를 사용하여 사용자 요구를 예측하고 상황에 맞는 적절한 지원을 제공합니다. 이 시스템은 두 개의 모듈로 구성됩니다. 하나는 어떤 지원이 필요한지 결정하고, 다른 하나는 사회적 맥락을 고려하여 어떻게 전달할지 결정합니다. 프로토타입은 컨텍스트 파서, 선제적 쿼리 생성기, 상호 작용 모듈, 응답 생성기를 사용하며, 이 모든 것은 Android XR 및 WebXR에서 실행됩니다. 사용자 연구를 통해 Sensible Agent를 다양한 시나리오에서 음성 제어 기반 시스템과 비교했습니다. 연구 결과 Sensible Agent가 인지 부하를 유의미하게 줄이고 사용자 선호도를 높이는 것으로 나타났습니다. 상호 작용 시간은 약간 더 길었지만, Sensible Agent에 대한 선호도는 이러한 트레이드 오프가 허용 가능하다는 것을 시사합니다. 선제성은 사용자와 에이전트 간의 관계를 재구성하여 협력적인 경험을 조성합니다. 향후 방향으로는 개인화, 여러 기기에서의 확장, 스마트 홈 및 로봇 공학 분야에서의 응용이 있습니다. 연구팀은 다중 모드 감지 및 실시간 적응을 통합하여 인간-에이전트 상호 작용을 개선했습니다. 저자들은 Google의 여러 팀의 협력자, 피드백, 기여에 감사를 표합니다.
CdXz5zHNQW_pbrRdL3gvF.png
교과서는 획일적인 접근 방식으로 인해 개인화와 다양한 형식이 부족하다. 구글은 "Learn Your Way"라는 더 효과적이고 매력적인 학습 경험을 만들기 위해 생성형 AI를 탐구하고 있다. Learn Your Way는 교육 자료를 변환하여 각 학생에게 다양한 콘텐츠 표현과 개인화된 예시를 제공하는 것을 목표로 한다. 이 시스템은 학습 과학을 기반으로 하는 두 가지 핵심 요소, 즉 다중 모드 표현과 개인화를 활용한다. 핵심 기술적 측면은 Gemini 2.5 Pro와 통합된 구글의 LearnLM 모델을 사용하는 것이다. 이 과정은 학생들의 학년과 관심사에 맞춰 콘텐츠를 개인화하고 일반적인 예시를 대체한다. Learn Your Way는 몰입형 텍스트, 퀴즈, 내레이션 슬라이드, 오디오 레슨, 그리고 개인의 필요에 맞춰진 마인드 맵과 같은 기능을 제공한다. 교육 전문가들은 변환된 자료를 평가하여 다양한 기준에 따라 콘텐츠가 매우 효과적임을 확인했다. 효능 연구 결과, Learn Your Way를 사용한 학생들이 표준 디지털 리더를 사용한 학생들보다 기억력 테스트에서 더 높은 점수를 받았다. 또한, 이 연구는 Learn Your Way에 대한 사용자 만족도가 더 높다는 것을 보여주었다. 구글의 연구는 AI가 더 효과적이고 힘을 실어주는 학습 경험을 만들 수 있음을 시사한다. 이 프로젝트의 미래는 개별 학습자의 필요에 맞춰 콘텐츠를 지속적으로 적응시키는 데 초점을 맞추고 있다.
CdXz5zHNQW_60GrmG7HIg.png
AI가 우리 삶에 더욱 깊숙이 통합됨에 따라, 프라이버시를 핵심으로 하는 AI 구축은 중요한 과제가 되고 있습니다. 차등 프라이버시(DP)는 기억을 방지하기 위해 보정된 노이즈를 추가함으로써 수학적으로 강력한 솔루션을 제공합니다. 그러나 LLM에 DP를 적용하면 기존의 스케일링 법칙을 변경하고, 훈련 안정성을 감소시키며, 비용을 증가시키는 트레이드오프가 발생합니다. 새로운 연구는 이러한 복잡성을 정확하게 모델링하는 법칙을 확립하여, 컴퓨팅-프라이버시-유틸리티 간의 트레이드오프에 대한 완전한 그림을 제공합니다. 이 연구를 바탕으로, 차등 프라이버시로 처음부터 훈련된 가장 큰 오픈 모델(10억 매개변수)인 VaultGemma가 소개되었습니다. 이 연구는 DP 훈련에서 모델 크기, 배치 크기, 반복 횟수를 늘리는 것의 이점을 정량화했으며, 주로 노이즈-배치 비율에 초점을 맞췄습니다. 핵심적인 발견은 DP 없이 훈련하는 것보다 더 큰 배치 크기로 더 작은 모델을 훈련해야 한다는 것입니다. 이러한 스케일링 법칙과 고급 훈련 알고리즘을 사용하여 VaultGemma가 구축되었으며, 이는 프라이빗 AI의 중요한 진전을 나타냅니다. VaultGemma는 훈련 데이터에 대한 감지 가능한 기억이 없음을 보여주며, DP 훈련의 효과를 입증합니다. DP로 훈련된 모델과 DP 없이 훈련된 모델 간의 유틸리티 격차가 여전히 존재하지만, 이 연구는 이를 체계적으로 좁히는 것을 목표로 합니다.
CdXz5zHNQW_JPtqyvsr4p.png
대규모 언어 모델(LLM)은 강력하지만 계산 비용이 많이 들어 추론 속도가 느리고 비용이 많이 듭니다. 이를 해결하기 위해, 캐스케이드는 더 작고 빠른 모델을 사용하여 간단한 쿼리를 처리한 후 더 크고 성능이 좋은 LLM에 의존합니다. 이 접근 방식은 복잡한 작업에만 비용이 많이 드는 모델을 사용함으로써 비용을 절감하는 것을 목표로 합니다. 반면에, 추측적 디코딩은 더 작은 모델이 미래 토큰을 초안으로 작성하고, 더 큰 모델이 이를 병렬로 검증하여 LLM 추론을 가속화합니다. 이는 최종 출력을 변경하지 않고 생성을 가속화하지만 메모리 사용량을 늘릴 수 있습니다. 이 논문은 캐스케이드와 추측적 디코딩의 장점을 결합한 새로운 방법인 "추측적 캐스케이드"를 소개합니다. 추측적 캐스케이드는 더 작은 모델의 초안이 더 큰 모델의 출력과 완벽하게 일치하지 않더라도 허용하는 유연한 "연기 규칙"을 사용합니다. 이 하이브리드 접근 방식은 단독으로 사용되는 두 기술보다 더 나은 비용-품질 균형을 제공합니다. 다양한 언어 작업에 대한 실험 결과, 추측적 캐스케이드는 더 높은 속도 향상과 더 나은 품질 지표를 달성했습니다. 연기 규칙의 유연성은 신뢰도, 비용-편익 분석 또는 토큰별 검사에 따라 맞춤 설정할 수 있습니다. 이 혁신은 계산 비용과 출력 품질 간의 균형을 최적화하여 LLM 애플리케이션을 더 빠르고 스마트하게 만들 수 있습니다.
CdXz5zHNQW_2WaKDny7yL.png
특정 속성을 가진 치료용 DNA 및 RNA 서열을 설계하는 것은 엄청난 가능성 때문에 의학 분야에서 큰 과제입니다. AI는 이 광대한 탐색 공간을 탐색하는 데 도움을 줄 수 있지만, 설계 알고리즘을 효과적으로 평가하는 것은 어려웠습니다. 이를 해결하기 위해 연구자들은 핵산 설계 알고리즘을 비교하기 위한 표준화된 벤치마크인 NucleoBench를 도입했습니다. 이 벤치마크는 16가지 생물학적 과제에 걸쳐 40만 개 이상의 실험을 포함했습니다. 이 연구를 통해 그들은 하이브리드 설계 알고리즘인 AdaBeam을 개발했습니다. AdaBeam은 대부분의 작업에서 기존 방법보다 성능이 뛰어나며 대규모 AI 모델에서도 더 잘 확장됩니다. 일반적인 계산 설계 프로세스는 데이터 생성, 모델 훈련, 후보 서열 생성 및 검증을 포함합니다. NucleoBench는 후보 서열 생성 단계를 개선하는 데 중점을 둡니다. 기존 벤치마크는 종종 최신 AI 모델 정보를 활용하지 않는 구형 알고리즘을 사용합니다. NucleoBench는 포괄적인 비교를 위해 기울기 없는 알고리즘과 기울기 기반 알고리즘을 모두 포함합니다. AdaBeam은 우수한 성능과 효율성을 달성하기 위해 기존 알고리즘의 효과적인 요소를 결합합니다. 이는 최고 성능을 위해 기울기에만 의존하는 것이 항상 필요한 것은 아님을 보여줍니다. AdaBeam의 발전 사항으로는 효율성 증가, 더 스마트한 탐색, 메모리 사용량 감소 등이 있습니다.
CdXz5zHNQW_B9cu5RlI3n.png
과학 연구는 가설 평가를 위한 맞춤형 소프트웨어 제작에 시간이 많이 소요되어 종종 병목 현상을 겪습니다. 본 논문은 이러한 목적을 위해 전문가 수준의 경험적 소프트웨어를 생성하는 Gemini로 구축된 AI 시스템을 소개합니다. 이 시스템은 정의된 문제와 평가 방법을 입력으로 받아 새로운 개념을 제안하고 이를 코드로 구현합니다. 그런 다음 트리 검색 전략을 사용하여 성능을 최적화하기 위해 수천 개의 코드 변형을 반복합니다. 이 시스템은 6개의 다학제 벤치마크에서 테스트되었으며 유전체학, 공중 보건, 지리 공간 분석, 신경 과학, 시계열 예측 및 수치 분석 전반에 걸쳐 전문가 수준의 결과를 달성했습니다. 경험적 소프트웨어는 미리 정의된 품질 점수를 최대화하도록 설계되었으며, 점수 가능한 작업은 이러한 유형의 소프트웨어로 해결할 수 있는 작업입니다. AI 시스템은 연구 아이디어를 생성하고, 이를 실행 가능한 코드로 구현하며, LLM을 사용하여 점수 개선을 위해 코드를 개선합니다. 이 프로세스는 탐색 시간을 몇 달에서 몇 시간 또는 며칠로 크게 단축하여 검증 가능하고 해석 가능하며 재현 가능한 솔루션을 생성합니다. AI 시스템은 어려운 문제에 대한 새로운 솔루션을 생성하고, COVID-19 입원 예측 및 단일 세포 RNA 시퀀싱 데이터 통합을 포함한 여러 벤치마크에서 기존 전문가 개발 방법을 능가하는 능력을 보여주었습니다. 이러한 발전은 연구자들이 잠재적인 솔루션을 신속하게 탐색할 수 있도록 하여 과학적 발견을 가속화할 것을 약속합니다.
CdXz5zHNQW_6tSVn14npx.png
CdXz5zHNQW_wf799DxNvS.png
CdXz5zHNQW_fzb8IapfxF.png
"YouTube Shorts는 모바일 기기에서 고급 생성 AI를 적용하여 크리에이터에게 마법 같고 실시간적인 효과를 제공하는 것을 목표로 합니다. 이는 대규모 AI 모델을 작고 작업별 모델로 압축하여 휴대폰에서 프레임별로 효율적으로 실행할 수 있도록 함으로써 달성됩니다. 이 과정은 다양한 고품질 얼굴 데이터셋을 큐레이션하는 것부터 시작하며, 인구 통계 전반에 걸친 포괄성을 보장합니다. 주요 기술은 강력한 "교사" 모델과 경량 "학생" 모델을 사용하는 지식 증류입니다. 초기에는 StyleGAN2, 이후에는 Imagen과 같은 모델인 교사가 복잡한 생성을 수행하는 반면, UNet 및 MobileNet으로 구축된 학생은 모바일에 최적화됩니다. 훈련에는 교사로부터 이미지 쌍을 생성하고 특정 손실 함수 및 신경망 구조 검색으로 학생을 훈련하는 과정이 포함됩니다. 중요한 과제는 사용자 신원을 보존하는 것으로, 이는 전환 조정 역전(PTI)이라는 기술로 해결됩니다. PTI는 특정 얼굴에 대한 생성기를 미세 조정하여 유사성을 변경하지 않고 잠재 공간에서 편집할 수 있도록 합니다. 온디바이스 솔루션은 Google의 MediaPipe 프레임워크를 사용하여 얼굴 감지, 정렬 및 학생 모델의 원활한 통합을 제공합니다. 이 파이프라인은 33밀리초/프레임보다 빠르게 작동하여 부드러운 사용자 경험을 제공하는 실시간 성능을 달성합니다. 이 기술은 2023년부터 수많은 인기 YouTube Shorts 기능에 적용되어 창의적인 가능성을 향상시켰습니다. 팀은 최신 모델을 통합하고 대기 시간을 줄여 더 넓은 기기 접근성을 목표로 혁신을 계속하고 있습니다."
CdXz5zHNQW_8wndZAykAn.gif
"AI 발전, 서비스 개선, 개인화를 위해 대규모 사용자 기반 데이터셋이 필수적입니다. 이러한 데이터셋을 공유하면 연구를 가속화하지만 프라이버시 위험을 초래합니다. 차등 프라이버시(DP) 파티션 선택은 개인 기여도를 보호하기 위해 노이즈를 추가하여 안전한 공통 데이터 하위 집합을 식별합니다. 이는 어휘 추출 및 프라이버시 데이터 분석과 같은 작업에 필수적입니다. 대규모 데이터셋을 처리하려면 속도뿐 아니라 엄청난 규모를 처리하는 병렬 알고리즘이 필요합니다. 우리의 출판물, "적응 가중치를 통한 확장 가능한 프라이버시 파티션 선택"에서는 DP 파티션 선택을 위한 효율적인 병렬 알고리즘을 소개합니다. 이 알고리즘은 수백억 개의 항목까지 확장할 수 있으며, 이전의 기능을 대폭 초과합니다. 목표는 사용자 프라이버시를 보존하면서 선택된 항목을 최대화하는 것입니다. 표준 접근 방식은 가중치 추가, 노이즈 추가 및 임계값에 기반한 항목 필터링입니다. 우리의 새로운 적응 가중치 알고리즘, MAD는 프라이버시 임계값 바로 아래에 있는 항목에 "과잉 가중치"를 재할당하여 유틸리티를 개선합니다. 이를 통해 프라이버시 또는 확장성을 손상시키지 않고 더 많은 항목을 포함할 수 있습니다. 실험 결과, 2회 반복 MAD 알고리즘은 동일한 프라이버시 보장을 가지고 다른 방법보다 더 많은 항목을 출력하는 최적의 결과를 달성합니다. 우리는 커뮤니티 혁신을 촉진하기 위해 알고리즘을 오픈 소스로 공개합니다."
CdXz5zHNQW_KfEjWw8vMV.png
CdXz5zHNQW_Z0zBIj4T6I.png
CdXz5zHNQW_SB8tCM3LeP.jpeg
안전하지 않은 광고 콘텐츠를 분류하는 것은 맥락적 이해 능력 덕분에 대규모 언어 모델(LLM)이 잘 수행할 수 있는 복잡한 작업입니다. 그러나 이러한 작업을 위해 LLM을 미세 조정하려면 고품질의 대규모 학습 데이터가 필요한데, 이를 큐레이션하는 데는 비용과 시간이 많이 소요됩니다. 안전 정책이 변경되는 개념 드리프트는 빈번한 재학습을 필요로 하여 비용을 증가시킵니다. 이를 해결하기 위해 새로운 능동 학습 큐레이션 프로세스는 모델이 인간 전문가와 더 잘 일치하도록 개선하면서 필요한 학습 데이터의 양을 극적으로 줄입니다. 이 프로세스는 주석에 가장 가치 있는 예제를 식별하여 데이터 요구 사항을 크게 줄입니다. 실험 결과, 학습 데이터가 100,000개에서 500개 미만으로 줄었고, 모델 일치는 최대 65% 향상되었습니다. 큐레이션 프로세스는 제로샷 LLM이 데이터를 레이블링하는 것으로 시작하여, 혼동될 수 있는 예제를 식별하기 위해 클러스터링합니다. 그런 다음 이러한 유익하고 다양한 예제가 레이블링을 위해 인간 전문가에게 전송됩니다. 전문가 레이블은 모델을 반복적으로 평가하고 미세 조정하는 데 모두 사용됩니다. 이 프로세스는 실제 레이블이 종종 모호하기 때문에 일치를 측정하기 위해 코헨의 카파에 의존합니다. 대규모 크라우드소싱 데이터셋으로 미세 조정된 기본 모델은 큐레이션된 모델에 비해 성능이 떨어졌습니다. 새로운 방법은 적고 더 유익한 예제를 신중하게 큐레이션하면 훨씬 적은 데이터로 상당한 성능 향상을 가져올 수 있음을 보여줍니다. 이 접근 방식은 빠르게 진화하는 콘텐츠가 있는 광고 안전과 같은 분야에 특히 유익합니다.
CdXz5zHNQW_GhJRxo2Thj.png
제2형 당뇨병 조기 예측을 위한 혁신적인 접근 방식인슐린 저항성으로 인해 발생하는 제2형 당뇨병은 전 세계 수백만 명에게 영향을 미치지만, 현재 침습적이거나 접근하기 어려운 검사 방법으로 인해 조기 발견이 어렵습니다. 이에 연구진들은 웨어러블 기기와 일반적인 혈액 검사 데이터를 결합하여 인슐린 저항성을 예측할 수 있는 머신러닝 모델을 개발했습니다.WEAR-ME 연구에서는 휴식 심박수, 걸음 수, 수면 패턴, 공복 혈당, 지질 패널 등의 데이터를 활용하여 이 모델을 훈련했습니다. 이러한 데이터 소스를 결합함으로써 단일 소스만 사용하는 것보다 예측 정확도가 크게 향상되었습니다. 특히, 비만이나 좌식 생활 습관을 가진 고위험군에서 인슐린 저항성을 식별하는 데 있어 모델의 성능이 두드러졌습니다.검증 코호트를 통해 이러한 예측 모델의 일반화 가능성을 확인할 수 있었습니다. 또한, 사용자의 이해를 돕기 위해 고급 언어 모델을 활용한 인슐린 저항성 리터러시 및 이해 에이전트(Insulin Resistance Literacy and Understanding Agent)가 개발되었습니다. 이 에이전트는 대사 건강에 대한 개인화되고 맥락화된 답변을 제공하며, 그 포괄성과 신뢰성으로 내분비학자들에게 깊은 인상을 남겼습니다.이 연구는 쉽게 구할 수 있는 데이터를 통해 제2형 당뇨병 위험에 대한 접근 가능한 조기 검진의 잠재력을 보여줍니다. 이러한 접근 방식은 질병을 예방하거나 지연시키기 위한 시기적절한 생활 습관 개선을 촉진할 수 있습니다.하지만, 이러한 모델은 정보 제공 및 연구 목적으로만 사용되며, 승인된 의료 기기가 아님을 명심해야 합니다.
CdXz5zHNQW_8K7J57DBaq.png
유전, 질병, 진화를 이해하는 것은 DNA 염기에 의해 암호화된 게놈을 해독하는 데 달려 있습니다. DNA 시퀀서는 이러한 염기를 읽지만, 염기쌍의 미세한 크기 때문에 대규모 정확도를 달성하는 것은 어렵습니다. 조립 오류는 유전자 식별을 방해하고 질병을 유발하는 변이를 놓치게 할 수 있기 때문에 거의 완벽한 참조 게놈을 만드는 것이 중요합니다. 게놈 조립은 오류를 반복적으로 수정하기 위해 동일한 게놈을 반복적으로 시퀀싱하는 것을 포함합니다. 그러나 인간 게놈의 30억 뉴클레오티드는 낮은 오류율조차도 상당히 축적되어 유용성을 제한합니다.이러한 과제를 해결하기 위해 오픈 소스 게놈 조립 방법인 DeepPolisher가 정확도 향상을 위해 개발되었습니다. 최근 논문에서 설명된 이 파이프라인은 조립 오류를 50%, 유전자 식별에 특히 방해가 되는 삽입/결실 오류를 70% 줄입니다. 다양한 시퀀싱 기술이 존재하며, Illumina의 방법은 신호를 개선하지만 읽기 길이를 제한합니다. 초기 오류가 발생하기 쉬운 장독(long-read) 시퀀싱 기술은 Pacific Biosciences와 Google의 협력 노력으로 개선되어 오류율이 감소했습니다.DeepConsensus에서 적용된 DeepPolisher는 고도로 특성화된 인간 게놈에 대해 훈련된 트랜스포머 아키텍처를 활용합니다. 이 방법은 게놈 조립에 남아 있는 오류를 식별하고 수정합니다. DeepPolisher는 유전자 주석 문제를 방지하는 데 중요한 삽입/결실 오류를 크게 줄입니다. 이 도구는 평균 Q-점수를 Q66.7에서 Q70.1로 증가시켜 게놈 조립 품질을 향상시킵니다.Human Pangenome Reference Consortium의 두 번째 데이터 릴리스는 DeepPolisher의 혜택을 받아 오류를 줄이고 다양한 조상에 걸쳐 유전 질환을 더 정확하게 진단할 수 있게 되었습니다. DeepPolisher를 오픈 소스로 공개함으로써 과학계에 이러한 발전을 널리 보급하는 것이 목표입니다.
CdXz5zHNQW_4NEnms7GRh.png
CdXz5zHNQW_pvpMGEctOp.png
웨어러블 기기는 방대한 양의 개인 건강 데이터를 수집하지만, 이 데이터 뒤에 숨겨진 맥락을 이해하는 것은 어려움으로 남아있습니다. 이러한 격차는 개인 맞춤형 건강 인사이트의 잠재력을 완전히 발휘하는 데 방해가 됩니다. 센서 데이터에 설명 텍스트를 수동으로 주석 처리하는 것은 비용과 시간 때문에 비현실적입니다. 이를 해결하기 위해 센서-언어 기반 모델인 SensorLM이 개발되었습니다. SensorLM은 103,000명 이상의 개인으로부터 5,970만 시간에 달하는 전례 없는 규모의 멀티모달 센서 데이터를 기반으로 사전 학습되었습니다. 이를 통해 웨어러블 센서 데이터를 해석하고 사람이 읽을 수 있는 설명을 생성할 수 있습니다. 새로운 계층적 파이프라인은 설명적인 캡션을 자동으로 생성하여 현재까지 가장 큰 센서-언어 데이터셋을 만듭니다. SensorLM은 제로샷 센서 이해, 센서-텍스트 정렬, 센서 캡션 생성과 같은 기능을 제공합니다. 활동 인식과 같은 작업에서 최첨단 성능을 보여주며, 일관성 있고 사실적으로 정확한 캡션을 생성하는 데 탁월합니다. 모델의 성능은 더 많은 데이터, 더 큰 모델 크기, 증가된 컴퓨팅 파워와 함께 꾸준히 향상됩니다. SensorLM은 개인 건강 데이터를 이해하고 실행 가능하게 만드는 데 있어 중요한 발전을 나타내며, 미래의 디지털 건강 코치 및 웰니스 애플리케이션을 위한 길을 열어줍니다.
CdXz5zHNQW_6KwERMjREC.png
"Google의 Gboard는 타이핑 예측 및 교정 기능에 대규모 및 소규모 언어 모델(LLM 및 LM)을 활용합니다. 이러한 모델을 훈련하려면 고품질 데이터가 필요하지만, 사용자 데이터를 사용하면 개인 정보 보호 문제가 발생합니다. 이를 해결하기 위해 Gboard는 공개 데이터로 훈련된 LLM이 생성한 합성 데이터를 사용하여 개인 정보를 노출하지 않고 사용자 상호 작용을 모방합니다. 이 합성 데이터는 모델을 사전 훈련하여 개인 정보 보호 기술(예: 연합 학습 및 차등 개인 정보 보호)로 추가 훈련하기 전에 성능을 향상시킵니다. 이 접근 방식은 개인 정보 보호 위험을 최소화하는 동시에 모델 정확도를 크게 향상시켜 Gboard 기능 개선으로 이어집니다. 이 과정에는 LLM에 프롬프트를 제공하여 실제 모바일 타이핑 데이터를 생성하고, 이 데이터를 사용하여 소규모 모델을 사전 훈련하는 과정이 포함됩니다. 차등 개인 정보 보호를 사용하여 사용자 데이터로 훈련된 소규모 모델인 "버트레스 모듈"은 도메인 적응력을 높이기 위해 합성 데이터를 추가로 정제합니다. 이 결합된 접근 방식은 소규모 및 대규모 모델 모두를 개선하여 사용자 개인 정보를 보호하면서 Gboard의 기능을 향상시킵니다. 시스템에는 데이터 최소화 및 익명화를 포함한 여러 개인 정보 보호 장치가 통합되어 있습니다. 진행 중인 연구는 모델 성능을 더욱 향상시키고 사용자 경험을 개선하기 위해 개인 정보 보호 강화 합성 데이터의 생성 및 적용을 개선하는 데 중점을 둡니다."
CdXz5zHNQW_Pu7NQvCxnG.png
CdXz5zHNQW_UBgwlKqhZf.jpeg