Share to: share facebook share twitter share wa share telegram print page

Generativ førehandstrent transformator

Generativ førehandstrent transformator (engelsk: Generative Pre-trained Transformer, forkorta GPT) er ein type stor språkmodell (LLM)[1] og eit sentralt rammeverk for generativ kunstig intelligens.[2][3] GPT er eit kunstig nevralt nettverk som blir nytta til naturleg språkprosessering i maskinar.[4] Modellane er baserte på transformator-arkitekturen innan djup læring, er førehandstrente på store mengder umerkte tekstdata, og kan generere nytt, menneskeliknande innhald.[5][6] Frå og med 2023 hadde dei fleste LLM-ar slike eigenskapar,[7] og dei blir ofte samla omtala som «GPT-ar».[8]

Den første GPT-modellen blei introdusert i 2018 av OpenAI.[9] OpenAI har sidan lansert fleire grunnmodellar som er nummererte og utgjer «GPT-n»-serien.[10] Kvar av desse har vore betydeleg meir kapabel enn den førre, som følgje av aukande storleik (målt i talet på trenbare parameterar) og meir omfattande trening. Den nyaste modellen, GPT-4o, blei lansert i mai 2024.[11] Desse modellane er grunnlaget for meir spesialiserte GPT-system, til dømes modellar som er finjusterte for å følgje instruksjonar – slik som dei som ligg til grunn for samtaleroboten ChatGPT.[1]

Omgrepet «GPT» blir òg nytta i namn og omtale av liknande modellar utvikla av andre aktørar enn OpenAI.

GPT-serien frå OpenAI[10]

GPT-1

GPT-1 (Generative Pre-trained Transformer 1) var den første store språkmodellen frå OpenAI, og følgde etter introduksjonen av transformatorarkitekturen frå Google i 2017. I juni 2018 publiserte OpenAI ein artikkel med tittelen Improving Language Understanding by Generative Pre-Training, der dei presenterte modellen og konseptet bak generative førehandstrente transformatorar.[12]

GPT-2

GPT-2 er den andre språkmodellen i GPT-serien frå OpenAI. Modellen blei førehandstrent på eit datasett med åtte millionar nettsider. Ein del av modellen blei offentleggjort i februar 2019, medan den fullstendige versjonen med 1,5 milliardar parameterar blei lansert 5. november same år.[13]

GPT-3

GPT-3 blei lansert i 2020 og er ein stor språkmodell basert på same transformatorarkitektur som GPT-2, men med betydeleg fleire parameterar. Modellen er ein såkalla «dekodar-einings»-modell, som nyttar eit mekanisme kalla attention for å fokusere på relevante delar av innputten. GPT-3 har 175 milliardar parameterar med 16-bits presisjon, noko som krev om lag 350 GB lagring. Han har eit kontekstvindauge på 2048 token, og har vist sterke evner innan både zero-shot og few-shot læring.[12]

GPT-4

GPT-4 er ein multimodal stor språkmodell og den fjerde i rekkja frå OpenAI. Han blei lansert 14. mars 2023, og blei tilgjengeleg gjennom den betalte chatbot-tenesta ChatGPT Plus, via OpenAI sitt API, og gratis gjennom Microsoft Copilot.

GPT-4 er førehandstrent på både offentleg tilgjengeleg data og data lisensiert frå tredjepartsleverandørar, og brukar dette til å predikere neste token i ein tekstsekvens. Deretter blir modellen finjustert gjennom forsterkingslæring med tilbakemelding frå både menneske og KI, for å betre tilpassa seg menneskeleg kommunikasjon og etterleving av retningslinjer.[14]

Kjelder

  1. 1,0 1,1 Haddad, Mohammed. «How does GPT-4 work and how can you start using it in ChatGPT?». www.aljazeera.com. 
  2. Hu, Luhui (November 15, 2022). «Generative AI and Future». Medium. 
  3. «CSDL | IEEE Computer Society». www.computer.org. 
  4. «LibGuides: Using AI Language Models : ChatGPT». 
  5. «Generative AI: a game-changer society needs to be ready for». World Economic Forum. 9. januar 2023. 
  6. «The A to Z of Artificial Intelligence». Time. 13. april 2023. 
  7. Toews, Rob. «The Next Generation Of Large Language Models». Forbes. 
  8. Mckendrick, Joe (13. mars 2023). «Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests». Forbes. 
  9. «Improving language understanding with unsupervised learning». openai.com (på engelsk). 11. juni 2018. Arkivert frå originalen 18. mars 2023. Henta 6. april 2025. 
  10. 10,0 10,1 «GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared». 11. april 2023. Arkivert frå originalen 15. april 2023. Henta 6. april 2025. 
  11. «GPT-4». openai.com (på engelsk). Henta 6. april 2025. 
  12. 12,0 12,1 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11. juni 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). OpenAI. s. 12. Arkivert frå originalen (PDF) 26. januar 2021. Henta 6. april 2025. 
  13. «Better Language Models and Their Implications». OpenAI. 14. februar 2019. Arkivert frå originalen 19. desember 2020. Henta 6. april 2025. 
  14. OpenAI (2023). «GPT-4 Technical Report». arXiv:2303.08774 [cs.CL]. 

Bakgrunnsstoff

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya