RSS 구글 AI 블로그
팔로우
한 장의 사진은 천 마디 (사적인) 말의 가치를 지닌다: 일관성 있는 합성 사진 앨범의 계층적 생성
차등 개인 정보 보호는 분석 결과에서 중요한 정보가 공개되지 않도록 하여 개별 데이터를 보호합니다. 개인 합성 데이터 세트를 생성하는 것은 모든 분석 기술을 민영화하는 것에 대한 대안을 제공합니다. 이 접근 방식은 Gemini와 같은 생성 AI 모델을 사용하여 원본 데이터를 나타내는 비공개 합성 데이터 세트를 생성합니다. 이 모델은 차등 개인 정보 보호 방법을 사용하여 훈련되어 합성 데이터의 개인 정보 보호와 대표성을 보장합니다. 이 연구는 단순 데이터 유형의 한계를 극복하여 합성 사진 앨범을 생성하는 데 중점을 둡니다. 이 방법은 이미지 데이터를 텍스트로 변환하고 다시 번역하여 앨범 내에서 주제의 일관성을 유지합니다. 먼저 앨범을 요약한 다음 사진에 캡션을 추가하는 계층적 생성은 일관성과 리소스 효율성을 향상시킵니다. 이 텍스트 기반 중간 접근 방식은 이미지를 설명하고 데이터를 필터링하는 데 장점이 있습니다. 이 방법은 YFCC100M 데이터 세트에서 테스트되어 유사한 앨범 테마를 만드는 데 효과가 있는지 검증했습니다. 평가에서는 유사성을 평가하기 위해 설명의 MAUVE 점수와 내용 주제 분석을 사용했습니다. 이 연구는 개인 합성 데이터의 이점을 보다 복잡하고 구조화된 데이터로 확장하는 방법을 보여줍니다. 이는 데이터 요구 사항과 사용자 개인 정보 보호의 균형을 맞추기 위한 강력한 솔루션을 제공할 수 있습니다. 개발된 접근 방식은 다양한 중요 산업 전반에 걸쳐 개인 정보 보호 AI 개발을 위한 방법을 제공합니다.