Generativ førehandstrent transformatorGenerativ førehandstrent transformator (engelsk: Generative Pre-trained Transformer, forkorta GPT) er ein type stor språkmodell (LLM)[1] og eit sentralt rammeverk for generativ kunstig intelligens.[2][3] GPT er eit kunstig nevralt nettverk som blir nytta til naturleg språkprosessering i maskinar.[4] Modellane er baserte på transformator-arkitekturen innan djup læring, er førehandstrente på store mengder umerkte tekstdata, og kan generere nytt, menneskeliknande innhald.[5][6] Frå og med 2023 hadde dei fleste LLM-ar slike eigenskapar,[7] og dei blir ofte samla omtala som «GPT-ar».[8] Den første GPT-modellen blei introdusert i 2018 av OpenAI.[9] OpenAI har sidan lansert fleire grunnmodellar som er nummererte og utgjer «GPT-n»-serien.[10] Kvar av desse har vore betydeleg meir kapabel enn den førre, som følgje av aukande storleik (målt i talet på trenbare parameterar) og meir omfattande trening. Den nyaste modellen, GPT-4o, blei lansert i mai 2024.[11] Desse modellane er grunnlaget for meir spesialiserte GPT-system, til dømes modellar som er finjusterte for å følgje instruksjonar – slik som dei som ligg til grunn for samtaleroboten ChatGPT.[1] Omgrepet «GPT» blir òg nytta i namn og omtale av liknande modellar utvikla av andre aktørar enn OpenAI. GPT-serien frå OpenAI[10]GPT-1GPT-1 (Generative Pre-trained Transformer 1) var den første store språkmodellen frå OpenAI, og følgde etter introduksjonen av transformatorarkitekturen frå Google i 2017. I juni 2018 publiserte OpenAI ein artikkel med tittelen Improving Language Understanding by Generative Pre-Training, der dei presenterte modellen og konseptet bak generative førehandstrente transformatorar.[12] GPT-2GPT-2 er den andre språkmodellen i GPT-serien frå OpenAI. Modellen blei førehandstrent på eit datasett med åtte millionar nettsider. Ein del av modellen blei offentleggjort i februar 2019, medan den fullstendige versjonen med 1,5 milliardar parameterar blei lansert 5. november same år.[13] GPT-3GPT-3 blei lansert i 2020 og er ein stor språkmodell basert på same transformatorarkitektur som GPT-2, men med betydeleg fleire parameterar. Modellen er ein såkalla «dekodar-einings»-modell, som nyttar eit mekanisme kalla attention for å fokusere på relevante delar av innputten. GPT-3 har 175 milliardar parameterar med 16-bits presisjon, noko som krev om lag 350 GB lagring. Han har eit kontekstvindauge på 2048 token, og har vist sterke evner innan både zero-shot og few-shot læring.[12] GPT-4GPT-4 er ein multimodal stor språkmodell og den fjerde i rekkja frå OpenAI. Han blei lansert 14. mars 2023, og blei tilgjengeleg gjennom den betalte chatbot-tenesta ChatGPT Plus, via OpenAI sitt API, og gratis gjennom Microsoft Copilot. GPT-4 er førehandstrent på både offentleg tilgjengeleg data og data lisensiert frå tredjepartsleverandørar, og brukar dette til å predikere neste token i ein tekstsekvens. Deretter blir modellen finjustert gjennom forsterkingslæring med tilbakemelding frå både menneske og KI, for å betre tilpassa seg menneskeleg kommunikasjon og etterleving av retningslinjer.[14] Kjelder
Bakgrunnsstoff
|