'Attention Is All You Need'๋ผ๋ ํ ์ฐ๊ตฌ ๋
ผ๋ฌธ์ ๋ชจ๋๊ฐ ์ฝ์ด์ผ ํ๋ ๋
ผ๋ฌธ์
๋๋ค. ์ด ๋
ผ๋ฌธ์ GPT(Generative Pre-trained Transformer)์์ 'T'๋ฅผ ๋ํ๋ด๋ Transformer ๊ตฌ์กฐ๋ฅผ ์๊ฐํ์ต๋๋ค. ์ด ๋
ผ๋ฌธ์ ๊ฝค ๋ณต์กํ๋ฏ๋ก, ๊ทธ๋ํฝ์ค์ ๋ ์ฌ์ด ํ
์คํธ๋ฅผ ํฌํจํ๋ Jay์ ์์
์ ํ์ธํ ๊ฒ์ ์ถ์ฒํฉ๋๋ค.
โ
์ง๊ธ๊น์ง์ ๋์ ์ดํด ์์ฝ
์ด ๋
ผ๋ฌธ์ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๋ถ์ผ์์ ํ๊ธฐ์ ์ธ ๋ชจ๋ธ์ธ Transformer๋ฅผ ์๊ฐํฉ๋๋ค. ๊ธฐ์กด์ ์ํ์ค-ํฌ-์ํ์ค ๋ชจ๋ธ์ด ์ฌ๊ท ์ ๊ฒฝ๋ง(RNN) ๋๋ ํฉ์ฑ ์ ๊ฒฝ๋ง(CNN)์ ์์กดํ๋ ๋ฐ๋ฉด, Transformer๋ ์
๋ ฅ๊ณผ ์ถ๋ ฅ ๊ฐ์ ์์กด์ฑ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์์ด ์ํ์ค ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ์์ฒด ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ๊ตฌ์กฐ๋ ํ๋ จ ์ค์ ๋ ๋ง์ ๋ณ๋ ฌํ๋ฅผ ํ์ฉํ์ฌ ํ๋ จ ์๋๋ฅผ ํฌ๊ฒ ๊ฐ์ ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ค์ํ ํ์คํฌ์์ ์ต๊ณ ์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ํนํ ๊ธฐ๊ณ ๋ฒ์ญ์์ ๊ทธ๋ ์ต๋๋ค.
โ
๋ค๋ฅธ ์ฃผ์ ํ์ด๋ผ์ดํธ
1๏ธโฃ ์์ฒด ์ฃผ์ ๋ฉ์ปค๋์ฆ: ์ด ๋ฉ์ปค๋์ฆ์ ๋ชจ๋ธ์ด ๋ฌธ์ฅ์์ ๋ค๋ฅธ ๋จ์ด์ ์ค์์ฑ์ ํ๊ฐํ ์ ์๋๋ก ํ์ฉํ์ฌ ํจ์จ์ ์ผ๋ก่ฟ่ท็ฆป ์์กด์ฑ์ ํฌ์ฐฉํฉ๋๋ค.
2๏ธโฃ ๋ณ๋ ฌํ: Transformer ๋ชจ๋ธ์ ์ํ์ค์์ ๋ชจ๋ ๋จ์ด๋ฅผ ๋์์ ์ฒ๋ฆฌํ์ฌ RNNs์ CNNs์ ๋นํด ํ๋ จ ์๊ฐ์ ํฌ๊ฒ ๋จ์ถํฉ๋๋ค.
3๏ธโฃ ์ฑ๋ฅ: ๊ธฐ๊ณ ๋ฒ์ญ ํ์คํฌ์์ ์ต๊ณ ์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ฌ WMT 2014 ์์ด-๋
์ผ์ด ๋ฐ ์์ด-ํ๋์ค์ด ๋ฒ์ญ ๋ฐ์ดํฐ์
์์ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์ค์ ํฉ๋๋ค.
๐ ์ฐธ์กฐ ๋
ผ๋ฌธ: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
๐ Jay ๋ธ๋ก๊ทธ: https://jalammar.github.io/illustrated-transformer/
dev.to
๐ค 100 Days of Generative AIโ-โDay 3โ-โAttention Is All You Needย ๐ค
Create attached notes ...
