Apple demaskuje Dolinę Krzemową. Przełom w sztucznej inteligencji to blaga

Producentom dużych modeli językowych coraz trudniej jest przekonywać opinię publiczną, że ich produkty wciąż rozwijają się tak prężnie, jak w pierwszych miesiącach po premierze ChatGPT. Ponadto użytkownicy wraz z nabieranym doświadczeniem w korzystaniu z LLM-ów są coraz bardziej świadomi ich ograniczeń. Trzy grosze dorzuciło niedawno Apple, które opublikowało wyniki badań negujące lwią część zapewnień o obecnej i nadchodzącej rewolucji w rozwoju SI.
Rozwój dużych modeli językowych goni w piętkę? Badania Apple rzucają nowe światło
Już na przykładzie rodziny modelów językowych GPT rozwijanych przez OpenAI (to one stoją za ChatGPT) widać, że od momentu boomu na duże modele językowe przeszliśmy długą drogę. Sam Altman w jednym z wywiadów otwarcie powiedział, że analiza rozwoju kolejnych iteracji modeli dokonywana jest wtórnie – zupełnie jakby najpierw dochodziło do ewolucji GPT, a dopiero później twórcy próbowali ją zrozumieć. Pierwsze zachwyty już jednak minęły, a Dolinie Krzemowej coraz trudniej jest wywoływać kolejne.
Aktualna pozostaje jednak potrzeba gromadzenia środków na dalsze inwestycje w LLM-y, więc hype musi być podtrzymywany. W rezultacie wielokrotnie wieszczono już np. rychłą samoświadomość dużych modeli językowych. Nawet szefowie korporacji rozwijających LLM-y przekonują, że ogólna, silna, sztuczna inteligencja (AGI) – choć nie mamy nawet utrwalonej jej definicji – jest tuż. Do grona entuzjastów tej hipotezy nie należą naukowcy zatrudnieni przez Apple.

Duże modele wnioskujące/rozumiejące – Dolina Krzemowa szuka drogi do AGI
W ostatnich miesiącach jako ważny krok w stronę wynalezienia ogólnej sztucznej inteligencji (tj. oprogramowania, które będzie w stanie przetwarzać informacje na poziomie generalizacji takiej samej lub większej niż ludzka) wskazywano rzekomą zdolność nowych LLM-ów do wnioskowania. Szybko przekuto tę rzekomą cechę w jeszcze bardziej rzekomą zdolność dużych modeli językowych do rozumowania (ang. reasoning).
Polskie słowo "rozumowanie" bardzo dobrze oddaje, na czym ma polegać innowacja. Polacy mogą intuicyjnie zrozumieć, że LLM-om przypisuje przynajmniej częściową zdolność do świadomej analizy problemu, zdolność do tego, aby wiedzieć, w czym rzecz. To pokazuje, na jakim poziomie swobody interpretacji dryfujemy, co dostrzegają także badacze Apple. Według nich złożone rozumowanie przez współczesna sztuczną inteligencję jest przeceniane.

"Rozumujące" modele językowe dochodzą do ściany: "sprzeczny z intuicją limit skalowania"
Wiele o odkryciach trójki naukowców pracujących w Apple mówi już tytuł ich publikacji "Iluzja myślenia: rozumienie mocnych stron i ograniczeń modeli rozumujących przez pryzmat złożoności problemu". Pochylają się oni nad relatywnie młodą podgrupą dużych modeli językowych – LRM, od Large Reasoning Models, czyli duże modele wnioskujące czy też duże modele rozumujące. Ich nazwa, choć efektowna, mogła jedna zostać nadana na wyrost.
Najważniejszym odkryciem badaczy Apple jest to, że skuteczność dużych wnioskujących modeli językowy jest wysoka tylko do pewnego stopnia złożoności problemu, a następnie drastycznie spada:
W drodze szeroko zakrojonych eksperymentów na różnorodnych łamigłówkach wykazujemy, że czołowe modele LRM (Large Reasoning Models) doświadczają całkowitego załamania dokładności po przekroczeniu określonego poziomu złożoności. Co więcej, wykazują one sprzeczny z intuicją limit skalowania: ich wysiłek wkładany w rozumowanie wzrasta wraz ze złożonością problemu do pewnego momentu, a następnie spada, pomimo dysponowania odpowiednim budżetem tokenów.
Apple przetestowało trzy popularne LRM-y, Claude Thinking, DeepSeek-R1 oraz o3-mini. Wszystkie po napotkaniu problemu o pewnym stopniu złożoności osiągały moment załamania skuteczności w jego rozwiązywaniu do zera. Ba, zdarzały się łamigłówki, z którymi zwykłe duże modele językowe poradziły sobie lepiej niż modele wnioskujące. Może to brzmieć bardzo technicznie, ale pozwoliło wyciągnąć naukowcom z Apple bardzo ważny dla branży wniosek.
Według naukowców nie jesteśmy tak blisko opracowania ogólnej sztucznej inteligencji, jak przekonują nas do tego producenci LLM-ów. Punkt krytyczny, po którym skuteczność spada do zera, pokazuje, że nie będziemy w stanie osiągnąć silnej SI wyłącznie drogą ewolucyjną, poprzez liniowy rozwój obecnego paradygmatu. W końcu – że LRM-y w aktualnym mają swój limit możliwości, ścianę, do której docierają. Budowanie kolejnych centrów danych nie będzie się bez końca przekładać na coraz lepsze rezultaty, a to dla Doliny Krzemowej spory problem.





































