Petak, 20 lipnja, 2025
NaslovnicaWake upUmjetna inteligencija (AI) – Velika prevara i iluzija razmišljanja

Umjetna inteligencija (AI) – Velika prevara i iluzija razmišljanja

Zapratite nas na Telegramu: https://t.me/provjeri_net i YouTube: https://www.youtube.com/@provjeri_net

Uvod u matematički dokaz da je umjetna inteligencija jedna velika iluzija

Većina modela umjetne inteligencije funkcionira ovako: date im pitanje, oni vam daju odgovor. Ali ovi noviji modeli kao što su LRM pokušavaju impresionirati pokazujući svoj proces razmišljanja korak-pokorak prije nego što daju konačni odgovor. Izgleda kao da razmišljaju i rješavaju problem dio po dio, ali evo preokreta. 

Do sada nitko zapravo nije provjeravao imaju li ti koraci zapravo smisla sve dok je konačni odgovor bio točan. Samo smo pretpostavili da je model došao do zaključka razmišljajući, ali što ako nije? Što ako samo spaja poznate obrasce iz svojih podataka za obuku, čineći da izgleda kao da razmišlja, a u stvarnosti samo lažira cijeli proces?

Appleov istraživački tim želio je razbiti svu zbrku oko toga “razmišljaju” li modeli umjetne inteligencije zapravo, pa su izvodili eksperimente koristeći okruženja nalik zagonetkama koje su poznata svakome tko je studirao računarstvo: Hanojski toranj (Tower of Hanoi), Checkers Jumping, Prijelaz rijeke (River Crossing) i Blocks World. Ono što ove zagonetke čini savršenima je to što se njihova težina može povećavati korak po korak, a da logika ostaje potpuno ista – samo dodate više diskova u Hanojski toranj, više figura, više ljudi i agenata u Prelasku rijeka ili više blokova i zadatak postaje teži na kontrolirani način.

Istraživači su tako postavili scenarij za simulaciju svakog poteza. Na taj su način mogli procijeniti ne samo konačan odgovor već i svaki pojedinačni korak poduzet na tom putu. Budući da su zagonetke izrađene od nule, nema rizika da su se odgovori već pojavili u podacima za obuku – to je čisti test. Na primjer, u Hanojskom tornju, ako počnete s osam diskova, najkraće točno rješenje traje 255 poteza, s 10 diskova taj broj skače na 1023, i tako redom. 

Prijelaz rijeke je zagonetka koja počinje s malim grupama koje koriste čamac za dvije osobe, a zatim se složenost povećava s više parova i malo većim čamcem. Svaka od ovih postavki postaje teža na predvidljiv način, dopuštajući istraživačima da pažljivo podese razinu izazova kako bi pravilno testirali “razmišljanje” LRM-ova.

U nastavku je djelomični prijevod ovog značajnog znanstvenog rada.

Razumijevanje mogućnosti i ograničenja modela zaključivanja (LRM) kroz prizmu složenosti problema

Razvoj posljednjih generacija vodećih jezičnih modela (LLM – Large Langiuage Models) uveo je najnoviji pristup kroz tzv. “velike modele rezoniranja” (LRM – Large Reasoning Models) koji generiraju detaljne procese razmišljanja prije nego što daju odgovore. Iako ti modeli pokazuju poboljšane performanse na benchmark testovima “razmišljanja”, njihove temeljne sposobnosti, svojstva (e)skaliranja i ograničenja još uvijek nisu dovoljno razumljivi. 

Trenutačne evaluacije uglavnom se fokusiraju na etablirane matematičke i programske benchmarke, naglašavajući točnost konačnih odgovora. Međutim, ovaj pristup evaluaciji često pati od kontaminacije podataka i ne pruža uvid u strukturu i kvalitetu tragova rezoniranja. 

U ovom radu sustavno istražujemo te praznine uz pomoć kontroliranih okruženja zagonetki koja omogućuju preciznu manipulaciju kompozicijskom složenošću, dok se istovremeno održavaju dosljedne logičke strukture. Ovaj pristup omogućuje analizu ne samo konačnih odgovora nego i unutarnjih tragova rezoniranja, pružajući uvid u način na koji LRM „razmišljaju“. 

Kroz opsežna eksperimentiranja na raznovrsnim zagonetkama pokazujemo da vodeći LRM-ji doživljavaju

potpuni kolaps točnosti iznad određenih razina složenosti. Štoviše, pokazuju kontraintuitivno ograničenje skaliranja: njihov napor rezoniranja raste s kompleksnošću problema do određene točke, a zatim naglo opada unatoč dovoljnom budžetu računarskih kapaciteta. 

Uspoređujući LRM-je sa standardnim LLM modelima pod jednakim uvjetima računalne snage za inferenciju, identificiramo tri režima performansi:

  • zadatke niske složenosti gdje standardni LLM modeli iznenađujuće nadmašuju LRM-ove, 
  • zadatke srednje složenosti gdje dodatno “razmišljanje” u LRM pokazuje prednost, i 
  • zadatke visoke složenosti gdje oba modela (LLM i LRM) doživljavaju potpuni kolaps. 

Utvrdili smo da LRM-ovi imaju ograničenja u preciznom računanju: ne uspijevaju koristiti eksplicitne algoritme i rezoniraju nedosljedno kroz različite zagonetke. Također detaljnije proučavamo tragove “rezoniranja”, analizirajući obrasce istraženih rješenja i računsku ponašanje modela, osvjetljavajući njihove snage, ograničenja i na kraju postavljajući ključna pitanja o njihovim stvarnim sposobnostima “razmišljanja”.

Veliki jezični modeli LLM (Large Language Models) nedavno su se razvili u specijalizirane varijante eksplicitno dizajnirane za zadatke rezoniranja — Velike modele rezoniranja (Large Reasoning Models, LRMs) poput OpenAI-jevih o1/o3, DeepSeek-R1 , Claude 3.7, Sonnet Thinking i Gemini Thinking . Ovi modeli predstavljaju nove artefakte, karakterizirane svojim mehanizmima „razmišljanja“, poput dugih lanaca razmišljanja (Chain-of-Thought, CoT) s autorefleksijom, te su pokazali obećavajuće rezultate na različitim benchmark testovima rezoniranja.

Njihov nastanak sugerira potencijalnu paradigmu promjene u načinu na koji LLM sustavi pristupaju složenim zadacima rezoniranja i rješavanja problema, a neki istraživači ih smatraju značajnim koracima prema općenitijim sposobnostima umjetne inteligencije.

Unatoč ovim tvrdnjama i napretcima u performansama, temeljne prednosti i ograničenja LRMs još uvijek nisu dovoljno razumljivi. Ostaju ključna pitanja: Jesu li ovi modeli sposobni za generalizirano rezoniranje ili koriste različite oblike prepoznavanja obrazaca ? Kako njihove performanse rastu s povećanjem složenosti problema? Kako se uspoređuju sa svojim standardnim LLM kolegama bez „razmišljanja“ kada im je osigurana ista količina tokena za inferenciju? Najvažnije, koja su inherentna ograničenja trenutnih pristupa rezoniranju i kakva poboljšanja su potrebna za napredak prema robusnijim sposobnostima rezoniranja?

Vjerujemo da je nedostatak sustavnih analiza koje istražuju ova pitanja posljedica ograničenja trenutnih paradigma evaluacije. Postojeće evaluacije uglavnom se fokusiraju na etablirane matematičke i programske benchmarke, koji, iako vrijedni, često pate od problema kontaminacije podataka i ne dopuštaju kontrolirane eksperimentalne uvjete kroz različite postavke i složenosti. Štoviše, ove evaluacije ne pružaju uvid u strukturu i kvalitetu tragova rezoniranja. Za rigoroznije razumijevanje ponašanja rezoniranja ovih modela potrebna su okruženja koja omogućuju kontrolirana eksperimentiranja.

U ovoj studiji istražujemo mehanizme rezoniranja vodećih velikih modela rezoniranja (LRMs) kroz prizmu složenosti problema. Umjesto standardnih benchmark testova (npr. matematičkih zadataka), koristimo kontrolirana okruženja zagonetki koja nam omogućuju sustavno mijenjanje složenosti prilagođavanjem elemenata zagonetke, pritom zadržavajući osnovnu logiku, te analiziramo i rješenja i unutarnje tragove rezoniranja. Ove zagonetke nude preciznu kontrolu složenosti, izbjegavaju kontaminaciju podataka, zahtijevaju samo eksplicitno dane pravila s naglaskom na algoritamsko rezoniranje i omogućuju rigoroznu evaluaciju putem simulatora.

Naša empirijska istraživanja otkrivaju ključne nalaze: unatoč sofisticiranim mehanizmima autorefleksije naučenim kroz učenje pojačanjem, LRM-ovi ne razvijaju generalizirane sposobnosti rješavanja problema u planiranju, s performansama koje padaju na nulu iznad određenog praga složenosti

Usporedbom LRM-ova i standardnih LLM-ova pod jednakim uvjetima računalne snage za inferenciju, identificiramo tri režima rezoniranja: za jednostavnije probleme standardni LLM-ovi su učinkovitiji i precizniji; pri srednjoj složenosti LRM-ovi pokazuju prednost; dok kod visoke složenosti oba modela doživljavaju potpuni kolaps. Zanimljivo, LRM-ovi smanjuju napor rezoniranja (mjeren tokenima tijekom inferencije) kako složenost raste, unatoč tome što nisu dosegnuli ograničenje duljine generiranja, što ukazuje na temeljno ograničenje skaliranja.

Analiza međukoraka rezoniranja otkriva obrasce ovisne o složenosti: kod jednostavnijih problema modeli često rano pronalaze točna rješenja, ali nastavljaju neefikasno istraživati netočne alternative (“previše razmišljanja”). Pri umjerenoj složenosti točna rješenja pojavljuju se tek nakon opsežnog istraživanja pogrešnih putova. Iznad određenog praga složenosti modeli potpuno kolabiraju i ne uspijevaju pronaći točna rješenja, što ukazuje na ograničene sposobnosti samokorekcije i jasne probleme u skaliranju.

Glavni doprinosi studije su:

  • Kritika trenutnih evaluacijskih paradigmi baziranih na matematičkim benchmark testovima i razvoj kontroliranog eksperimentalnog okruženja za proučavanje složenosti problema.
  • Pokazivanje da vodeći LRM-ovi (npr. o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) ne razvijaju generalizirane sposobnosti rješavanja problema, s točnošću koja pada na nulu iznad određenih složenosti.
  • Otkrivanje skalirajućeg ograničenja u naporu rezoniranja LRM-ova, s kontradiktornim padom broja tokena za razmišljanje nakon određene složenosti.
  • Proširenje evaluacije na međukorake rezoniranja pomoću determinističkih simulatora, pružajući kvantitativne uvide u mehanizme samokorekcije.
  • Otkrivanje iznenađujućih ograničenja u sposobnosti LRM-ova za precizno računanje, uključujući neiskorištavanje eksplicitnih algoritama i nedosljedno rezoniranje među različitim vrstama zagonetki.

Zaključak

“Umjetna inteligencija” jeste umjetna – ali nije inteligencija. A do nekakve potencijalne “AI-svijesti”, kakvu nam pokušavaju prodati “prodavači zmijskog znoja” (Snake Oil Salesman) još je dug put – pod uvjetom da je uopće moguć. 

Evo što nam o inteligenciji i ljudskoj svijesti ima reći David R. Hawkins uz pomoć hijerarhijske skale koja se kreće od najnižih, destruktivnih stanja do najviših, prosvijetljenih razina: 

  • Niske razine svijesti (negativna stanja, niska energija):  Sram, Krivnja, Apatija, Tuga, Strah, Želja, Ljutnja, Ponos.
  • Srednje razine svijesti (početak pozitivnih promjena): Hrabrost (smatra se prekretnicom koja izdiže iz destruktivnih stanja), Neutralnost, Spremnost, Prihvaćanje, Intelekt.
  • Visoke razine svijesti (pozitivna, duhovna stanja): Ljubav, Radost, Mir.
  • Prosvjetljenje (Enlightenment) kao najviša razina svijesti: spoznaja bezgraničnog, Boga i vlastite vječne svijesti.

Ljudska inteligencija se može smjestiti uglavnom u srednje razine svijesti i područje intelekta, te djelomično u razine poput hrabrosti i prihvaćanja, gdje se odvija racionalno i analitičko razmišljanje, donošenje odluka i učenje. Međutim, inteligencija kao sposobnost razmišljanja i rješavanja problema nije isto što i svijest u širem duhovnom smislu – svijest uključuje i emocionalne, duhovne i energetske aspekte postojanja.

Ova hijerarhija također ukazuje da se ljudi mogu nalaziti na različitim dominantnim razinama svijesti, koje se mogu mijenjati kroz život i razvoj. Najviši stupnjevi svijesti su rijetki i povezani su s dubokom duhovnom spoznajom i prosvjetljenjem.

Ne prijeti nam tzv. “AI apokalipsa”, o čemu sam pisao u prethodnom članku (Prijeti li nam “AI apokalipsa”?), već kronični nedostatak odgovornosti i samorefleksije kod ljudi. Umjetna inteligencija nam može pomoći kod jednostavnijih zadataka – pod uvjetom da je imamo pod kontrolom. Ali je zato izuzetno opasna u haluciniranju i širenju propagande i najobičnijih laži među ljudima. Pretjerana upotreba umjetne inteligencije dovest će do kolapsa kritičnog razmišljanja kod ljudi i kronične zaglupljenosti nacije. A to je ono najopasnije što čeka ljudski rod.

Spustivši se s grane došli smo do luksuznog prijevoza, klimatskih naprava i svih blagodati suvremenog života. Hoćemo li zbog umjetne inteligencije nestati ili ćemo se samo vratiti tamo, otkuda smo i došli – na granu?

Foto naslovnice: web screenshot

Svidio vam se članak? Trebamo i vašu pomoć da nastavimo iznositi istinu!
VEZANO

najnovije