Vuonna 2017 tutkijat esittelivät Transformer-mallin artikkelissa "Attention is All You Need", joka mullistaa luonnollisen kielen prosessoinnin (NLP). Aiemmat mallit, kuten RNN:t ja LSTM:t, käsittelivät sanat peräkkäin, mikä rajoitti niiden kykyä käsitellä pitkiä lauseita, hidasti koulutusta ja esti rinnakkaisprosessin. Transformer ratkaisi nämä ongelmat käyttämällä omaa huomioita, mikä antoi mallin keskittyä tärkeisiin sanoihin niiden sijainnista lauseessa riippumatta. Tämä teki Transformerista nopeamman ja skaalautuvamman, erityisesti hyödyntämällä rinnakkaistamista. Se poisti peräkkäisen sanankäsittelyn tarpeen ja paransi monimutkaisten suhteiden ymmärtämistä sanojen välillä. Mallin kooderi-dekooderiarkkitehtuuri käsittelee tehokkaasti tulosekvenssit ulostulossa, kuten käännöksissä. Keskeiset ominaisuudet, kuten monipäinen huomio, antavat mallin siepata sanan merkityksen eri puolet samanaikaisesti. Dekooderi luo käännökset vaiheittain keskittyen vain aiempiin sanoihin, mikä varmistaa tarkkuuden. Tästä arkkitehtuurista on tullut perusta monille viimeisimmille malleille, kuten BERT ja GPT, ja niiden suorituskyky eri NLP-tehtävissä on parantunut huomattavasti.
hackernoon.com
Transformers: Age of Attention
Create attached notes ...