Om det finns ett forskningspapper som alla mÄste lÀsa Àr det "Attention Is All You Need". Detta papper introducerade Transformer-arkitekturen, grunden för "T" i GPT (Generative Pre-trained Transformer). Det Àr ganska komplicerat, sÄ om du vill ha en enklare version med grafik och enklare text, var vÀnlig och kolla upp Jay's arbete.
â
Kort sammanfattning av min förstÄelse hittills
Papperet introducerar Transformer, en banbrytande modell inom omrÄdet för naturligt sprÄkbehandling (NLP). Till skillnad frÄn traditionella sekvens-till-sekvens-modeller som bygger pÄ rekurrerande neurala nÀtverk (RNN) eller konvolutionsneurala nÀtverk (CNN), anvÀnder Transformer sjÀlvuppmÀrksamhetsmekanismer för att hantera beroenden mellan in- och utdata utan att ta hÀnsyn till deras avstÄnd i sekvensen. Denna arkitektur möjliggör mer parallellisering under trÀning, vilket leder till betydande hastighetsförbÀttringar. Modellen uppnÄr toppresultat i olika uppgifter, sÀrskilt inom maskinöversÀttning.
â
Andra viktiga höjdpunkter
1ïžâŁ SjĂ€lvuppmĂ€rksamhetsmekanism: Detta möjliggör för modellen att vikta olika ord i en mening, effektivt fĂ„nga upp lĂ„ngdistansberoenden.
2ïžâŁ Parallellisering: Transformer-modellen bearbetar alla ord i en sekvens samtidigt, vilket drastiskt reducerar trĂ€ningstiden jĂ€mfört med RNN och CNN.
3ïžâŁ Prestanda: UppnĂ„r överlĂ€gsen prestanda pĂ„ maskinöversĂ€ttningstest, sĂ€tter nya benchmark pĂ„ dataset som WMT 2014 Engelska-tyska och Engelska-franska översĂ€ttningar.
đ Ref Paper: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
đ Jay Blog: https://jalammar.github.io/illustrated-transformer/
dev.to
đ€ 100 Days of Generative AIâ-âDay 3â-âAttention Is All You Need đ€
Create attached notes ...
