Apple дебюнира AI разсъждения Hype: Моделите запаметяват, не мислете, проучването разкрива
бързо четене Резюме е генериран от AI, прегледано Newsroom. Проучването на Apple слага под въпрос интелигентността на актуалните модели за разсъждения на AI. Изследването демонстрира, че тези модели се отличават при различаване на облици, само че се борят със сложността. Използването на успеваемостта понижава доста, защото сложността на пъзела се усилва, според откритията.
Apple твърди, че моделите за размишление за изкуствен интелект от ново време (AI) може да не са толкоз умни, колкото са направени. В изследване, озаглавено, илюзията за мислене: Разбиране на мощните страни и рестриктивните мерки на модели за разсъждения посредством обектива на сложността на казуса, софтуерният колос твърди, че модели за разсъждения като Claude, Deepseek-R1 и O3-Mini в действителност не разсъждават.
Apple твърди, че тези модели просто запомнят моделите в действителност добре, само че когато въпросите са изменени или сложността, се усилват, те се сривват, само че когато въобще не се разсъждават. Казано по -просто, моделите работят отлично, когато са в положение да съответстват с модели, само че откакто модели станат прекомерно комплицирани, те отпадат.
" посредством обширни опити в разнообразни пъзели, ние демонстрираме, че пограничните LRMS се сблъскват с цялостна акуратност с колапс оттатък избрани сложности ", акцентира изследването.
" Освен това, те демонстрират контраинтуитивна граница на мащабиране: тяхното рационално изпитание се усилва с проблематично трудност до избрани точки ", акцентира, че изследването. Въпреки че има съответен бюджет за маркери “, добави той.
за проучването, откривателите обърнаха скрипта по типа на въпросите, на които нормално дават отговор модели за размишление. Вместо едни и същи остарели проби по математика, моделите бяха показани с ловко конструирани пъзели игри като Tower of Hanoi, Checker Scching, River Crossing и Blocks World.
Всеки пъзел имаше елементарни, добре дефинирани правила и защото сложността беше нараснала (като повече дискове, повече блокове, повече актьори), моделите, нужни с цел да възнамеряват по-задълбочено и повода по-дълго. The findings revealed three regimes.
Low complexity: Regular models actually win.Medium complexity: Thinking models show some advantage.High complexity: Everything breaks down completely.
AGI not as near as predicted?
Apple reasoned that if the reasoning models were truly 'reasoning', they would be able to get better with more computing power and clear указания. However, they started hitting walls and gave up, even when provided solutions.
" When we provided the solution algorithm for the Tower of Hanoi to the models, their performance on this puzzle did not improve, " the study stated, adding: " Moreover, investigating the first failure move of the models revealed surprising behaviours. For instance, they could perform up to 100 correct moves in the Tower of Hanoi but fail to provide more than 5 Правилни придвижвания в пъзела за секване на реката. "
с диалози към AI на равнище човешко равнище, известно именуван неестествен общ разсъдък (AGI), пристигайки още през 2030 година, изследването на Apple допуска, че това може да не е по този начин, и може да сме на някакво разстояние от живата технология.
.