🤖 100 dagar av generativt AI - Dag 3 - Uppmärksamhet är allt du behöver 🤖
Om det finns ett forskningspapper som alla måste läsa är det "Attention Is All You Need". Detta papper introducerade Transformer-arkitekturen, grunden för "T" i GPT (Generative Pre-trained Transformer). Det är ganska komplicerat, så om du vill ha en enklare version med grafik och enklare text, var vänlig och kolla upp Jay's arbete.
✅ Kort sammanfattning av min förståelse hittills
Papperet introducerar Transformer, en banbrytande modell inom området för naturligt språkbehandling (NLP). Till skillnad från traditionella sekvens-till-sekvens-modeller som bygger på rekurrerande neurala nätverk (RNN) eller konvolutionsneurala nätverk (CNN), använder Transformer självuppmärksamhetsmekanismer för att hantera beroenden mellan in- och utdata utan att ta hänsyn till deras avstånd i sekvensen. Denna arkitektur möjliggör mer parallellisering under träning, vilket leder till betydande hastighetsförbättringar. Modellen uppnår toppresultat i olika uppgifter, särskilt inom maskinöversättning.
✅ Andra viktiga höjdpunkter
1️⃣ Självuppmärksamhetsmekanism: Detta möjliggör för modellen att vikta olika ord i en mening, effektivt fånga upp långdistansberoenden.
2️⃣ Parallellisering: Transformer-modellen bearbetar alla ord i en sekvens samtidigt, vilket drastiskt reducerar träningstiden jämfört med RNN och CNN.
3️⃣ Prestanda: Uppnår överlägsen prestanda på maskinöversättningstest, sätter nya benchmark på dataset som WMT 2014 Engelska-tyska och Engelska-franska översättningar.
🔗 Ref Paper: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
🔗 Jay Blog: https://jalammar.github.io/illustrated-transformer/