在 Transformers 中生成和可视化上下文向量

本文分为三个部分： • 上下文向量的理解 • 从不同层次可视化上下文向量 • 可视化注意力模式不像传统的词嵌入（如Word2Vec或GloVe），它们无论上下文如何都为每个词分配一个固定向量，Transformer模型会生成依赖于周围词的动态表示。