Сообщество RSS DEV

Как код убивает математическую тайну в Трансформерах

Недавняя статья Google и CMU предполагает, что модели Transformer спонтанно синтезируют геометрическую память, что привело к интерпретациям о появлении сознания, упорядочивающего мир. Однако автор утверждает, что эта организация не является магической, а прямым следствием алгоритмов оптимизации. Обучение Transformer с локальными связями типа «A связано с B» и «B связано с C» приводит к тому, что модель организует эти понятия в векторном пространстве, создавая линейное выравнивание. Это происходит потому, что алгоритм обратного распространения ошибки, стремящийся минимизировать ошибку, действует как механизм натяжения. Подобно тому, как камни связывают резинками, система ищет состояние минимального натяжения, что приводит к выравниванию понятий. Автор сравнивает этот процесс с шаром, катящимся по горному хребту; теоретики видят множество хаотичных «ям», где шар может застрять, но на практике «рельсы» обучающего кода систематически направляют шар в упорядоченную долину геометрии. Простой пример — решение уравнения x + y = 10, где симметричный код инкремента всегда сойдется к (5,5), игнорируя другие теоретически допустимые решения. Эта тенденция к порядку называется «неявной регуляризацией» и возникает из-за инерции алгоритма. Хотя эта способность автоматически генерировать геометрию полезна, она также может привести к созданию ложных причинно-следственных связей, если входные данные шумные или непоследовательные. Автор заключает, что геометрическая память — это не свойство искусственного сознания, а следствие вычислительной физики и реализации кода, который накладывает невидимые для чистой теории ограничения.
favicon
dev.to
Cómo el código mata al misterio matemático en los Transformers