Generativ førehandstrent transformator

Generativ førehandstrent transformator (engelsk: Generative Pre-trained Transformer, forkorta GPT) er ein type stor språkmodell (LLM)^[1] og eit sentralt rammeverk for generativ kunstig intelligens.^[2]^[3] GPT er eit kunstig nevralt nettverk som blir nytta til naturleg språkprosessering i maskinar.^[4] Modellane er baserte på transformator-arkitekturen innan djup læring, er førehandstrente på store mengder umerkte tekstdata, og kan generere nytt, menneskeliknande innhald.^[5]^[6] Frå og med 2023 hadde dei fleste LLM-ar slike eigenskapar,^[7] og dei blir ofte samla omtala som «GPT-ar».^[8]

Den første GPT-modellen blei introdusert i 2018 av OpenAI.^[9] OpenAI har sidan lansert fleire grunnmodellar som er nummererte og utgjer «GPT-n»-serien.^[10] Kvar av desse har vore betydeleg meir kapabel enn den førre, som følgje av aukande storleik (målt i talet på trenbare parameterar) og meir omfattande trening. Den nyaste modellen, GPT-4o, blei lansert i mai 2024.^[11] Desse modellane er grunnlaget for meir spesialiserte GPT-system, til dømes modellar som er finjusterte for å følgje instruksjonar – slik som dei som ligg til grunn for samtaleroboten ChatGPT.^[1]

Omgrepet «GPT» blir òg nytta i namn og omtale av liknande modellar utvikla av andre aktørar enn OpenAI.

GPT-serien frå OpenAI^[10]

GPT-1

GPT-1 (Generative Pre-trained Transformer 1) var den første store språkmodellen frå OpenAI, og følgde etter introduksjonen av transformatorarkitekturen frå Google i 2017. I juni 2018 publiserte OpenAI ein artikkel med tittelen Improving Language Understanding by Generative Pre-Training, der dei presenterte modellen og konseptet bak generative førehandstrente transformatorar.^[12]

GPT-2

GPT-2 er den andre språkmodellen i GPT-serien frå OpenAI. Modellen blei førehandstrent på eit datasett med åtte millionar nettsider. Ein del av modellen blei offentleggjort i februar 2019, medan den fullstendige versjonen med 1,5 milliardar parameterar blei lansert 5. november same år.^[13]

GPT-3

GPT-3 blei lansert i 2020 og er ein stor språkmodell basert på same transformatorarkitektur som GPT-2, men med betydeleg fleire parameterar. Modellen er ein såkalla «dekodar-einings»-modell, som nyttar eit mekanisme kalla attention for å fokusere på relevante delar av innputten. GPT-3 har 175 milliardar parameterar med 16-bits presisjon, noko som krev om lag 350 GB lagring. Han har eit kontekstvindauge på 2048 token, og har vist sterke evner innan både zero-shot og few-shot læring.^[12]

GPT-4

GPT-4 er ein multimodal stor språkmodell og den fjerde i rekkja frå OpenAI. Han blei lansert 14. mars 2023, og blei tilgjengeleg gjennom den betalte chatbot-tenesta ChatGPT Plus, via OpenAI sitt API, og gratis gjennom Microsoft Copilot.

GPT-4 er førehandstrent på både offentleg tilgjengeleg data og data lisensiert frå tredjepartsleverandørar, og brukar dette til å predikere neste token i ein tekstsekvens. Deretter blir modellen finjustert gjennom forsterkingslæring med tilbakemelding frå både menneske og KI, for å betre tilpassa seg menneskeleg kommunikasjon og etterleving av retningslinjer.^[14]

Kjelder

↑ ^1,0 ^1,1 Haddad, Mohammed. «How does GPT-4 work and how can you start using it in ChatGPT?». www.aljazeera.com.
↑ Hu, Luhui (November 15, 2022). «Generative AI and Future». Medium.
↑ «CSDL | IEEE Computer Society». www.computer.org.
↑ «LibGuides: Using AI Language Models : ChatGPT».
↑ «Generative AI: a game-changer society needs to be ready for». World Economic Forum. 9. januar 2023.
↑ «The A to Z of Artificial Intelligence». Time. 13. april 2023.
↑ Toews, Rob. «The Next Generation Of Large Language Models». Forbes.
↑ Mckendrick, Joe (13. mars 2023). «Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests». Forbes.
↑ «Improving language understanding with unsupervised learning». openai.com (på engelsk). 11. juni 2018. Arkivert frå originalen 18. mars 2023. Henta 6. april 2025.
↑ ^10,0 ^10,1 «GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared». 11. april 2023. Arkivert frå originalen 15. april 2023. Henta 6. april 2025.
↑ «GPT-4». openai.com (på engelsk). Henta 6. april 2025.
↑ ^12,0 ^12,1 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11. juni 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). OpenAI. s. 12. Arkivert frå originalen (PDF) 26. januar 2021. Henta 6. april 2025.
↑ «Better Language Models and Their Implications». OpenAI. 14. februar 2019. Arkivert frå originalen 19. desember 2020. Henta 6. april 2025.
↑ OpenAI (2023). «GPT-4 Technical Report». arXiv:2303.08774 [cs.CL].

Denne artikkelen bygger på innleiinga av «Generative pre-trained transformer» frå Wikipedia på engelsk med utdrag frå underliggande artiklar, den 6. april 2025.