Generative pre-trained Transformer (GPT) este o familie de modele de limbaj instruite în general pe un corp mare de date text pentru a genera text în mod similar oamenilor. Sunt construite folosind mai multe blocuri ale arhitecturii transformatorului. Ele pot fi reglate fin pentru diverse sarcini de procesare a limbajului natural, cum ar fi generarea de text, traducere automată și clasificarea textelor. „Preinstruirea” din numele său se referă la procesul de formare inițială pe un corpus textual mare în care modelul de limbaj învață să prezică următorul cuvânt dintr-un pasaj, ceea ce oferă o bază solidă pentru ca modelul să funcționeze bine în sarcinile ulterioare cu cantități limitate a datelor specifice sarcinii.
Utilizări
ChatGPT (Chat Generative Pre-trained Transformer)[1] este un chatbot lansat de OpenAI în noiembrie 2022. Utilizează GPT-3(d).5 și este reglat fin (o abordare a transferului de învățare)[2] atât cu tehnici de învățare supravegheată, cât și prin întărire.
BioGPT este un GPT care se concentrează pe răspunsul la întrebări biomedicale.[3] Este dezvoltat de Microsoft.[4]
ProtGPT2 este un GPT care se concentrează pe designul proteinelor.[5]
Istorie
Pentru informații suplimentare, vezi OpenAI
Pe 11 iunie 2018, OpenAI a lansat o lucrare intitulată „Îmbunătățirea înțelegerii limbajului prin preformare generativă”, în care a introdus transformatorul generativ preantrenat (GPT).[6] În acest moment, modelele NLP neuronale cu cele mai bune performanțe au folosit în principal învățarea supravegheată din cantități mari de date etichetate manual. Această dependență de învățarea supravegheată a limitat utilizarea acestora pe seturi de date care nu erau bine adnotate, pe lângă faptul că a făcut ca antrenarea modelelor extrem de mari să fie extrem de costisitoare și consumatoare de timp;[6][7] multe limbi (cum ar fi swahili sau creolul haitian ) sunt dificil de tradus și interpretat folosind astfel de modele din cauza lipsei de text disponibil pentru construirea corpusului.[7] În schimb, abordarea „semi-supravegheată” a GPT a implicat două etape: o etapă generativă nesupravegheată de „pre-training” în care un obiectiv de modelare a limbajului a fost folosit pentru a seta parametrii inițiali și o etapă de „reglare fină” discriminativă supravegheată în care acești parametri. au fost adaptate unei sarcini țintă.[6]
Codificator transformator cu 12 nivele, 12 capete (fără decodor), urmat de liniar-softmax.
0,12 miliarde
BookCorpus:[8] 4,5 GB de text, din 7000 de cărți nepublicate de diferite genuri.
GPT-2
GPT-1, dar cu normalizare modificată
1,5 miliarde
WebText: 40 GB de text, 8 milioane de documente, din 45 de milioane de pagini web votate pozitiv pe Reddit.
GPT-3
GPT-2, dar cu modificări pentru a permite o scalare mai mare.
175 miliarde
570 GB text simplu, 0,4 trilioane de jetoane. În principal, CommonCrawl, WebText, Wikipedia în engleză și corpuri de două cărți (Books1 și Books2).
Note
^Roose, Kevin (). „The Brilliance and Weirdness of ChatGPT”. The New York Times (în engleză). Arhivat din original la . Accesat în . Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.