RSS DEV 커뮤니티

트랜스포머에서 코드가 수학적 신비를 어떻게 죽이는가

구글과 CMU의 최근 논문은 트랜스포머 모델이 기하학적 기억을 자발적으로 합성하며, 이는 세상을 질서화하는 의식의 출현에 대한 해석으로 이어졌다고 제안합니다. 그러나 저자는 이러한 조직화가 마법적인 것이 아니라 최적화 알고리즘의 직접적인 결과라고 주장합니다. "A는 B와 연결된다" 및 "B는 C와 연결된다"와 같은 지역적 연결을 가진 트랜스포머를 훈련하면 모델은 이러한 개념을 벡터 공간에 조직화하여 선형 정렬을 생성합니다. 이는 오류를 최소화하려는 역전파 알고리즘이 장력 메커니즘처럼 작동하기 때문입니다. 고무줄로 돌을 묶는 것과 유사하게, 시스템은 최소 장력 상태를 찾으며, 이는 개념의 정렬로 이어집니다. 저자는 이 과정을 산악 지대를 굴러가는 공에 비유합니다. 이론가들은 공이 걸릴 수 있는 많은 혼란스러운 "구멍"을 보지만, 실제로는 훈련 코드의 "레일"이 공을 기하학의 질서 정연한 계곡으로 체계적으로 안내합니다. 간단한 예는 x + y = 10을 푸는 것인데, 대칭적인 증가 코드는 다른 유효한 이론적 해를 무시하고 항상 (5,5)로 수렴합니다. 이러한 질서에 대한 경향은 "암시적 정규화"라고 불리며 알고리즘의 관성에서 발생합니다. 이러한 기하학을 자동으로 생성하는 능력은 유용하지만, 입력 데이터가 노이즈가 많거나 일관성이 없으면 잘못된 인과 관계를 생성할 수도 있습니다. 저자는 기하학적 기억이 인공 의식의 속성이 아니라 순수 이론에는 보이지 않는 제약을 부과하는 계산 물리학 및 코드 구현의 결과라고 결론짓습니다.
favicon
dev.to
Cómo el código mata al misterio matemático en los Transformers