RSS DZone.com

Трансформеры: Эпоха внимания

В 2017 году группа исследователей (из Google и Торонтского университета) представила новый способ решения задач обработки естественного языка (NLP). Их революционная статья «Внимание - это все, что вам нужно» представила модель Transformer, архитектуру, которая с тех пор стала основой многих передовых систем искусственного интеллекта сегодня. Высокая производительность, масштабируемость и универсальность модели привели к ее широкому внедрению, став основой передовых моделей, таких как BERT (Бидирекциональные представления кодировщика) и GPT (Генеративные предварительно обученные трансформеры). До появления модели Transformer большинство моделей искусственного интеллекта, обрабатывающих язык, в значительной степени полагались на тип нейронной сети, называемой рекуррентной нейронной сетью (RNN) или ее улучшенной версией - долгосрочной краткосрочной памятью (LSTM). В частности, проблемы, такие как моделирование языка и машинный перевод (также называемый последовательным преобразованием). Эти модели обрабатывали слова в последовательности, одно за другим, слева направо (или наоборот). Хотя этот подход имел смысл, поскольку слова в предложении часто зависят от предыдущих слов, он имел некоторые значительные недостатки:
dzone.com
Transformers: Age of Attention