Upplever du ibland en känsla av svindel över hur snabbt utvecklingen inom AI går? Du är inte ensam.
Den första versionen av ChatGPT blev tillgänglig för allmänheten i november 2022. Det var den hösten ett covid-försenat fotbolls-VM spelades och den svenska debatten om elpriset och elstödets utbetalning rasade. Väldigt mycket har hänt med tekniken sedan dess och det ska vi återkomma till.
Den första publika versionen, GPT 3.5, var en enorm landvinning inom AI. I ett slag blev delar av forskningsområdet, Natural Language Processing (NLP), föråldrade. Produkten slog ned som en bomb hos konkurrenter som Google som stått för mycket av forskningen inom området utan att ha fått ut en fungerande produkt till användare.
Idag finns flera hundra distinkta AI-modeller på marknaden och slagfältet domineras av bolag som OpenAI, Google, Microsoft, Meta, Anthropic, Alibaba och DeepSeek. Det går fortare och fortare vilket är helt naturligt (även om det inte alltid känns så). Det är så exponentiell utveckling ser ut.
Har den här karusellen ett slut? Finns det någon gräns för hur bra modellerna kan bli? Bra frågor som ingen kan ge ett helt säkert svar på idag. Å ena sidan har alla hittills kända tekniker teoretiska begränsningar. Å andra sidan lär oss historien att innan en viss teknik ”slår i taket” står nästa teknik redo att ta över. Potentiellt kvantdatorer i det här fallet.
En kort resumé över de gångna tre åren
Den initiala kritiken mot ChatGPT berörde bla hallucinationer, självsäkra fel, svaga resonemang, fejkade källor och inkonsekvens. Tre år senare finns dessa utmaningar i varierande utsträckning kvar men stora framsteg har gjorts, inte minst inom konsekvens och logisk förmåga.
GPQA Diamond är ett av de tuffare testen som används för att mäta AI-modellers kapacitet att lösa komplicerade frågor inom vetenskapliga områden. GPT 3.5 nådde ensiffriga % medan dagens bäst presterande modeller (GPT 5.2 och Gemini 3) når resultat över 90%. Som jämförelse kan nämnas att människor på forskarnivå (dvs PhD eller högre) i jämförelsetester klarat kring 70%.
Parallellt har specialiserade modellers förmåga att generera bild, rörligt innehåll, tal och musik tagit stora kliv.
Vad är det för innovationer som har drivit fram den här utvecklingen?
Väsentliga tekniska landvinningar under den här perioden
Nedan är några exempel på viktiga framsteg inom arkitektur och teknik som ligger bakom AIs snabba utveckling.
Kontextlängd
Detta kan sägas mäta modellernas arbetsminne, dvs hur mycket information de kan ”hålla i huvudet” för att lösa ett problem. GPT3.5 opererade med ett ”context window” på 4 096 tokens vilket motsvarar ungefär 10 sidor text. GPT5.2 har ungefär 400 000 tokens och Anthropics Claude Sonnet 4 har support för 1 miljon tokens.
Tillgång till data och verktyg
GPT 3.5 hade inte tillgång till verktyg för att nå internet utan endast träningsdata crawlad från internet som var cirka sex månader gammal. Från och med GPT 4 så fick modellerna tillgång till browser/search verktyg liksom andra verktyg såsom att kunna köra kod eller anropa API:er.
RAG
Står för Retrieval-Augmented Generation och är en viktig landvinning som inte var implementerad i GPT 3.5. RAG avser förmågan att samla in och sammanfatta data från flera källor innan modellen tar sig an att ”bilda sig en uppfattning”. Särskilt värdefullt för kunskapsintensiva frågor.
Chain of Thought
Begreppet beskriver hur en AI-modell löser ett problem genom att skapa flera resonemangssteg. Det här blir särskilt värdefullt för flerledslogik (tex matteproblem). Från 2024 blev det mer standard med modeller som lade mer energi på att ”tänka” i steg. OpenAIs modell o1 som släpptes mot slutet av året var tydligt tränad i att tänka i steg. Senaste tillskottet till det här området är att systemen itererar med en ”granskare” dvs ett AI som utvärderar de genererade resultaten och ger feedback till modellen som itererar vidare.
Tekniken / GPU
NVIDIA A100 kan sägas ha möjliggjort de första stora språkmodellerna. Vi kan använda måttet FLOPS (flyttalsberäkningar per sekund) för en förenklad jämförelse av kapacitet mellan A100 och Blackwell (som är det senaste steget). Blackwell är kapabelt att utföra 1015 FLOPS vilket är ungefär 60-70 gånger antalet FLOPS som A100 klarade.
Möjligheter och utmaningar framöver
Framtiden är som vanligt fylld av möjligheter och utmaningar. Bland utmaningar nämner skeptiker ofta träningsdata. Dagens modeller kan (rejält) förenklat sägas ha tillgång till all världens publika information. Även om världens data växer kontinuerligt så är de stora sprången redan tagna. Dessutom finns en konkret risk att vi håller på att skapa en ekokammare där AI tränas på AI genererat innehåll. ChatGPT 5.2 uppskattar själv att inom några år är 40-60% av all tillgänglig text helt eller delvis AI-genererad.
En annan utmaning är problemet med hallucinationer som biter sig fast. Här krävs troligen nya tester, och förändrad träning, där felaktiga svar bestraffas hårdare.
Bland väntade framsteg nämns primärt mer integrerade modeller såsom självständiga AI-agenter som i större utsträckning kan liknas vid digitala medarbetare, kapabla att lösa komplexa uppgifter och implementera dessa lösningar med minimal eller ingen mänsklig översyn.
Fler och bättre multimodala system (dvs AI:n som kan hantera en kombinerad ström av tal, text, bild och ljud).
On-device AI är ett annat område med lokala AI-modeller i tex telefoner (som kan förväntas bli betydligt smartare de närmsta åren).
Som vanligt har myntet två sidor. Kombinationen av de framsteg som väntas möjliggör tex värdefulla verktyg inom vården för både diagnos, operation och eftervård. De kan också användas för att skapa helt autonoma vapensystem som fattar beslut om liv och död helt utan mänsklig inblandning.




