Jos on yksi tutkimuspaperi, jonka kaikkien on lukittava, se on "Attention Is All You Need". TÀmÀ paperi esitteli Transformer-arkkitehtuurin, GPT:ssÀ (Generative Pre-trained Transformer) olevan "T":n perustan. Se on melko monimutkainen, joten jos haluat helpomman version kuvituksilla ja yksinkertaisemmalla kielellÀ, tarkista Jayn työ.
â
Lyhyt yhteenveto tÀhÀn asti
Paperi esittelee Transformerin, murroksellisen mallin luonnollisten kielten prosessoinnissa (NLP). Eri kuin perinteiset jÀrjestetty-muotoiset mallit, jotka kÀyttÀvÀt rekurrenttisia neuroverkkoja (RNN) tai konvoluutioverkkoja (CNN), Transformer kÀyttÀÀ itsehuomiomekanismeja kÀsitellÀkseen riippuvuutta sisÀÀntulon ja tuloksen vÀlillÀ etÀisyydestÀ riippumatta. TÀmÀ arkkitehtuuri mahdollistaa enemmÀn rinnakkaisuutta koulutuksen aikana, mikÀ johtaa merkittÀviin nopeuttamiseen. Malli saavuttaa valtiotason tulokset eri tehtÀvissÀ, erityisesti konekÀÀnnöstehtÀvissÀ.
â
Muut tÀrkeÀt korostukset
1ïžâŁ Itsehuomiomekanismi: TĂ€mĂ€ mahdollistaa mallin painottaa eri sanojen merkityksen lauseessa, tehden pitkĂ€n matkan riippuvuuden tehokkaaseen kĂ€sittelemiseen.
2ïžâŁ Rinnakkaisuus: Transformer-malli kĂ€sittelee kaikki sanat samanaikaisesti, mikĂ€ vĂ€hentÀÀ koulutuksen aikaa huomattavasti RNN:iin ja CNN:iin verrattuna.
3ïžâŁ Suorituskyky: Saavuttaa ylivoimaisen suorituskyvyn konekÀÀnnöstehtĂ€vissĂ€, asettaen uudet ennĂ€tykset esimerkiksi WMT 2014 englanti-saksa- ja englanti-ranska-kÀÀnnösten tietokilvissĂ€.
đ Ref Paper: https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
đ Jay Blog: https://jalammar.github.io/illustrated-transformer/
dev.to
đ€ 100 Days of Generative AIâ-âDay 3â-âAttention Is All You Need đ€
Create attached notes ...
