2017년, 연구자들이 논문 "Attention is All You Need"에서 변환기 모델을 소개하면서 자연어 처리(NLP)에 혁명을 일으켰습니다. RNN과 LSTM과 같은 기존 모델은 단어를 순차적으로 처리하여 긴 문장을 처리하는 데 한계가 있었고, 학습 속도가 느리고 병렬 처리가 어려웠습니다. 변환기는 자기 주의를 사용하여 이러한 문제를 해결함으로써 모델이 문장 내 위치에 관계없이 중요한 단어에 집중할 수 있었습니다. 이렇게 하면 변환기의 속도와 확장성이 향상되었고 특히 병렬 처리를 활용함으로써 더욱 그렇습니다. 또한 순차적 단어 처리의 필요성을 없애고 단어 간의 복잡한 관계를 보다 잘 이해할 수 있었습니다. 이 모델의 인코더-디코더 아키텍처는 번역과 같이 입력 시퀀스를 출력으로 효율적으로 처리합니다. 다중 헤드 어텐션과 같은 주요 기능을 통해 모델이 문장 내 의미의 다양한 측면을 동시에 포착할 수 있습니다. 디코더는 이전 단어에만 초점을 맞춰 번역을 단계별로 생성하여 정확성을 보장합니다. 이 아키텍처는 BERT와 GPT와 같은 많은 최신 모델의 기반이 되어 다양한 NLP 작업에서 성능을 크게 향상시켰습니다.
hackernoon.com
Transformers: Age of Attention
Create attached notes ...