트랜스포머 모델에서의 주의 마스킹에 대한 부드러운 소개

이 포스트는 네 부분으로 나뉘어 있습니다. 다음과 같습니다. • 주의 마스킹이 필요한 이유 • 주의 마스크 구현 • 마스크 생성 • PyTorch의 기본 주의 사용