AI를 활용하여 Pinterest가 유해 콘텐츠에 대한... 노트

AI를 활용하여 Pinterest가 유해 콘텐츠에 대한 실시간 레이더를 구축한 방법

Pinterest는 정책 위반 콘텐츠를 측정하기 위해 '유병률'이라는 지표를 사용하며, 이는 전체 조회수 중 유해 콘텐츠에 대한 조회수의 비율로 정의됩니다. 유병률은 사용자 신고를 보완하여 신고되지 않은 유해 사례를 파악하고 추세를 추적합니다. 과거에는 유병률 측정을 위해 사람의 검토에 의존하는 방식은 느리고 비용이 많이 들었습니다. 이를 해결하기 위해 Pinterest는 일일 유병률 측정을 위한 AI 지원 워크플로우를 개발했습니다. 여기에는 사용자 노출 샘플링과 대규모 라벨링을 위한 멀티모달 LLM 사용이 포함됩니다. 전문가 프롬프트와 주제 전문가의 지도를 받는 LLM은 정확도를 유지하면서 지연 시간과 비용을 크게 줄입니다. 유병률은 신뢰 구간과 함께 매일 계산되며, 정책 영역, 하위 정책 및 콘텐츠 표면별로 세분화할 수 있습니다. 이 시스템은 효율적인 샘플링을 위해 집행 모델의 위험 점수를 사용하지만, 이러한 점수는 레이블 역할을 하지 않습니다. 역확률 가중치는 집행 임계값 변경에도 불구하고 유병률 통계가 시간이 지남에 따라 사용자 노출을 정확하게 반영하도록 보장합니다. 머신러닝은 편향되지 않은 샘플링과 효율적인 라벨링에 중요하며, 이를 통해 더 빠른 위험 감지와 사전 예방적 대응이 가능합니다. 이러한 데이터 기반 접근 방식은 더 빠른 제품 반복, 정보에 기반한 정책 개발 및 목표 설정 및 리소스 할당과 같은 전략적 의사 결정을 가능하게 합니다. 희귀 범주에 대한 넓은 신뢰 구간 또는 정책 드리프트와 같은 문제는 적응형 샘플링 및 지속적인 모니터링을 통해 관리됩니다. 향후 계획에는 피벗 기능 확장, LLM 사용 최적화 및 정확도 향상 및 편향 감소를 위한 인간 참여 프로세스 개선이 포함됩니다.