확장 가능한 텍스트-SQL을 위한 통합 컨텍스트-의도 임베딩
Pinterest는 방대한 데이터 웨어하우스의 텍스트-SQL 기능을 향상시키기 위해 분석 에이전트를 개발했습니다. 이들은 데이터의 방대성과 복잡성, 수많은 표와 다양한 분석 요구로 인해 어려움에 직면했습니다. 에이전트는 통합 문맥-의도 임베딩을 활용하여 쿼리의 의미를 포착하여 의미론적 이해를 보장합니다. 동시에 구조적이고 통계적인 패턴을 추출하고 거버넌스 메타데이터를 통합하여 결과를 순위 매깁니다. 데이터 웨어하우스는 처음에 정리와 표준화가 필요했고, 이는 계층화된 분류가 포함된 테이블 거버넌스 프로그램으로 이어졌습니다. 분석 지식은 단순한 키워드 매칭을 넘어 쿼리 이력에서 인코딩됩니다. SQL 쿼리는 자연어 설명으로 번역되어 3단계 과정을 거쳐 원래의 분석 의도를 포착합니다. 일반화 가능한 설명과 분석적 질문은 재사용 가능한 지식 기반을 만듭니다. 이 자연어 설명은 의도 기반 검색을 위한 벡터 표현에 삽입됩니다. 구조적 및 통계적 패턴, 즉 결합 및 집계 패턴도 추출됩니다. 이러한 패턴은 거버넌스 메타데이터와 결합하여 거버넌스 인식 순위 시스템을 형성합니다. 에이전트는 이 두 차원을 활용하여 분석 질문에 대한 답변을 생성하고 검증하는 데 필요한 정보를 제공합니다.