Kan AI virkelig ræsonnere sig frem til løsninger?

Ifølge studiet fejler såkaldte ‘simulated reasoning models’ som OpenAI’s o1 og o3, DeepSeek-R1 og Claude 3.7 Sonnet Thinking med at løse problemer, der kræver systematisk tænkning. De producerer resultater, der ikke er bedre end hvis man bare leder efter tidligere svar på problemet i deres træningsdata. Hvilket er, hvad traditionelle store sprogmodeller gør. Studiet, der hedder ‘The illusion of thinking’, kommer frem til en lignende konklusion som en anden nyligt publiceret studie fra USA Mathematical Olympiad.

Forskerne undersøgte såkaldte Large Reasoning Models, der forsøger at simulere en logisk ræsonnerende proces ved at nedbryde komplekse problemer til enklere og løse dem trin for trin.

Læs også Nyhed: ChatGPT fanget i løgne og bortforklaringer AI-værktøjet forsøgte at bryde reglerne og undgå nedlukning på en bekymrende måde.

Undersøgelsen bestod i at udsætte AI-modellerne for klassiske tænkeopgaver som Tower of Hanoi, at spille Checkers (dam), tankegåden med at krydse en flod og Blocks World. Man lagde ud på begynderniveau og øgede sværhedsgraden til ekstremt svært. For eksempel kræver et Tower of Hanoi med 20 ringe over en million træk.

7f98178d fd87 4e83 ba40 c44a0fd7ecbf 2166x1408 768x499 1 — Foto: Illustration fra ‘The Illusion of Thinking’.

Resultatet var, at de kun formåede at vise en løsning i mindre end 5 procent af tilfældene, og kun én formåede at nå op på 25 procent. Ingen af dem lykkedes med at vise en perfekt løsning trods 200 forsøg. Det er på trods af, at AI-forskeren Herb Simon demonstrerede en løsning på Tower of Hanoi tilbage i 1957, og at der findes masser af færdige algoritmer til løsningen online. Selv da forskerne tilføjede algoritmen til modellerne, blev resultaterne ikke bedre. Som en forsker udtrykte det: »Deres proces er ikke logisk og intelligent.«

Læs også Kommentar: DeepSeek: Kinesisk AI for godt til at være sandt? DeepSeek lover en revolution inden for kunstig intelligens til en brøkdel af prisen. Men når vi undersøger, hvad denne nye kinesiske AI rent faktisk kan levere, tegner der sig et andet billede.

Forskerne mener, at problemet med de nuværende evalueringer af ræsonneringsmodeller er, at de kun interesserer sig for, om resultatet er korrekt. Det er irrelevant, om svaret fandtes i deres træningsdata, så ingen stiller spørgsmålstegn ved, om de virkelig ræsonnerede sig frem til det eller bare kopierede svaret.

Annonce

Det skal siges, at undersøgelsen kommer fra Apples forskere, som er den eneste store teknologivirksomhed, der ikke har lanceret sin egen AI-løsning. Den er også blevet kritiseret, da andre forskere påpeger, at nutidens modeller er bygget for ikke at bruge for meget tid på et problem. Hvis de ikke kan løse det hurtigt, så gætter de. Apples forskere siger også selv, at »tankegåder er et snævert felt og måske ikke er repræsentativt for problemløsning generelt«, og advarer mod at ekstrapolere resultaterne og drage for vidtgående konklusioner.

Ska%CC%88rmavbild 2025 06 12 kl. 13.59.18 — Skærmbillede: Robert Jr. Carusos LinkedIn

Når det er sagt, blev ChatGPT 4o slået af en Atari 2600-spilkonsol fra 1977, når det gjaldt om at spille skak…

Læs studiet hos Apple Research

Jonas Ekelund

(f. 1969): Journalist og nyhedsredaktør. Jonas har arbejdet for Lyd & Billede siden 2007 og skriver om det meste, der kan kaldes bærbart, dvs. smartphones, trådløse højttalere og hovedtelefoner. Indimellem trænger hans tests sig ind på kollegernes områder – multirumslyd, hjemmebiograf og foto. Jonas startede sin karriere som tech-journalist på IDG og har skrevet for PC för Alla, Internetworld og det, der senere blev til M3.

Nyhed

Kan AI virkelig ræsonnere sig frem til løsninger?

Skriv din kommentar Annuller svar

Læs videre med LB+

Nyhed! LB+ Total UGE

TILBUD - 49 kr første måned

LB+ Total 12 måneder

Wavell 4 Pro – Sådan lyder næste kapitel i dansk lyd

AI afslører: Mælkevejens sorte hul roterer i vanvittig fart

Hollywood sagsøger Midjourney

Hvor dum er AI?

Oplad AA-batterierne med USB

ChatGPT-chats gemmes nu permanent

Europas første månebil lander

ChatGPT bliver superassistent

Ukendt liv opdaget i rummet

Snart kan du se i mørket

ChatGPT sikrer sig Apple-design for milliardbeløb

Nyhederne fra Google I/O

Robotterne skal drømme sig til viden