Истинското затруднение на AI не е това, което хората мислят

Мислите ли, че водещият огромен езиков модел, GPT-4, може да предложи решение на Wordle, откакто му бяха разказани четири предходни догатки? Може ли да сформира биография в стихове на Алън Тюринг, като в същото време размени „ Тюринг “ с „ Църква “? (Докторантът на Тюринг беше Алонзо Чърч, а тезата на Чърч-Тюринг е добре известна. Това може да обърка компютъра, нали?) Показана е отчасти приключена игра на тик-так, може ли GPT-4 да откри явно най-хубавия ход?

Всички тези въпроси и доста други са показани като пристрастяващ тест на уеб страницата на Никълъс Карлини, откривател в Гугъл Deepmind. Заслужава си няколко минути от вашето време като илюстрация на удивителните благоприятни условия и също толкоз изненадващите неспособности на GPT-4. Например, макар обстоятелството, че GPT-4 не може да брои и постоянно се спъва в съществени математически калкулации, той може да интегрира функционалността x sin(x) — нещо, което от дълго време забравих по какъв начин да направя. Той е прочут с уменията си в играта на думи, само че в същото време преодолява предизвикването на Wordle.

Най-удивителното е, че макар че GPT-4 не може да откри печелившия ход при tic-tac-toe, той може да „ напише цялостна javascript уеб страница, с цел да играе tic-tac-toe против компютъра “, в който „ компютърът би трябвало да играе съвършено и по този начин в никакъв случай да не губи “ в границите на секунди.

Може да не е елементарно да разберем по кое време генеративният AI ще ни помогне и по кое време ще ни попречи

Един излиза от теста на Карлини с три прозрения. Първо, освен че GPT-4 може да реши доста проблеми, които биха натоварили човешки специалист, той може да го направи 100 пъти по-бързо. Второ, има доста други задания, при които GPT-4 прави неточности, които биха засрамили 10-годишно дете. Трето, доста е мъчно да се разбере кои задания попадат в коя категория. С натрупването на опит човек стартира да усеща слабостите и скритите суперсили на огромния езиков модел, само че даже опитни консуматори ще бъдат сюрпризирани.

Тестът на Карлини илюстрира точка, която е изследвана по по-реалистичен метод подтекст от екип от откриватели, работещи с Boston Consulting Group (BCG). Тяхното проучване се концентрира върху това за какво мощните и слабите страни на генеративния ИИ постоянно са непредвидени. Уместно е озаглавен Навигиране през назъбената софтуерна граница.

В BCG консултантите, въоръжени с GPT-4, фрапантно превъзхождаха тези без инструмента. Те получиха набор от реалистични задания като обсъждане на хрумвания за артикули, осъществяване на разбор на сегментирането на пазара и писане на известие за пресата. Тези с GPT-4 свършиха повече работа, по-бързо и с доста по-високо качество. GPT-4, наподобява, е страховит асистент на всеки съветник по ръководство, изключително на тези с по-малко умения или опит.

Тим Харфорд От първокласни логаритми и зонирани хора

Изследователите също включиха задача, която изглеждаше, че изкуственият разсъдък би трябвало да откри лесна, само че която беше деликатно проектирана, с цел да я обърка. Това беше да се създадат стратегически рекомендации на клиент въз основа на финансови данни и преписи от изявленията с личния състав. Номерът беше, че финансовите данни евентуално ще бъдат подвеждащи, в случай че не се преглеждат в светлината на интервютата.

Тази задача не беше по силите на кадърен съветник, само че заблуди ИИ, който имаше податливост да дава извънредно неприятни стратегически препоръки. Консултантите, несъмнено, бяха свободни да пренебрегват изхода на AI или даже да изрежат напълно AI, само че рядко го правеха. Това беше единствената задача, при която консултантите без помощ се показаха по-добре от тези, оборудвани с GPT-4.

Това е „ назъбената граница “ на продуктивността на генеративния AI. Понякога AI е по-добър от вас, а от време на време вие сте по-добър от AI. Успех в отгатването кое кое е.

Тим Харфорд Какво може да ни научи раждането на електронната таблица за генеративния AI

Тази колона е третата от поредност за генеративния AI, в която се боря да намеря софтуерни прецеденти за невиждан. Все отново даже една несъвършена прилика може да бъде поучителна. Разглеждането на помощните системи за ръководство на кабела ни предизвестява за риска от блаженство и деквалификация; неочакваният напредък на цифровите електронни таблици ни демонстрира по какъв начин една технология може да унищожи това, което наподобява е основите на една промишленост, само че в последна сметка да разшири броя и обсега на новите работни места в тази промишленост.

Тази седмица аз Бих желал да предложа финален предходник: iPhone. Когато Стив Джобс пусна определящия жанра iPhone през 2007 година, малко хора си представяха какъв брой вездесъщи ще станат смарт телефоните. Отначало те бяха малко повече от скъпа играчка. Убийственото приложение беше опцията да ги накара да пукат и бръмчат като светлинни мечове. И въпреки всичко напълно скоро прекарвахме повече време със смарт телефоните си, в сравнение с с обичаните си хора, употребявайки ги, с цел да заменят тв приемника, радиото, камерата, преносимия компютър, сателитната навигация, Walkman, кредитната карта – и на първо място като безконечен източник на разпръскване.

Защо допускаме, че iPhone може да ни научи на нещо за генеративния AI? Технологиите са разнообразни, правилно. Но бихме желали да помислим какъв брой бързо станахме подвластни от смарт телефоните и какъв брой бързо започнахме да ги използваме по табиет, а не като тенденциозен избор. Искаме компания, само че вместо да се срещнем с другар, пускаме туит. Искаме нещо за четене, само че вместо да вземем книга, превъртаме надолу. Вместо добър филм, TikTok. Имейлът и WhatsApp стават сурогат на вършенето на същинска работа.

Ще има време и място за генеративен AI, тъкмо както има време и място да се консултирате със суперкомпютъра в джоба си. Но може да не е елементарно да разберем по кое време ще ни помогне и по кое време ще ни пречи. За разлика от генеративния AI, всеки с химикал, хартия и три свободни минути може да напише лист на това, което прави по-добре със смарт телефон в ръка и какво прави по-добре, когато смарт телефонът не се вижда. Предизвикателството е да запомните този лист и да действате по съответния метод.

Смартфонът е мощен инструмент, който множеството от нас безогледно злоупотребяват доста пъти дневно, макар обстоятелството, че е доста по-малко тайнствен от огромен езиков модел като GPT-4. Ще свършим ли в действителност по-добра работа с идните AI принадлежности?

Новата книга за деца на Тим Харфорд, „ The Truth Detective “ (Wren & Rook), към този момент е налична

Следвайте, с цел да научите първи за най-новите ни истории

Източник: ft.com