Нежное введение в маскирование внимания в моделях трансформеров

Этот пост разделен на четыре части; они следующие: • Почему нужна маскирование внимания • Реализация масок внимания • Создание масок • Использование встроенной функции внимания PyTorch в