New York Times | 2024-04-15 | 18:13:04

ИИ Има проблем с измерването

Има проблем с водещи инструменти за изкуствен интелект като ChatGPT, Gemini и Claude: Ние всъщност не знаем колко са умни.

Това е така, защото за разлика от компаниите, които произвеждат коли или лекарства или бебешка формула, A.I. от компаниите не се изисква да изпращат продуктите си за тестване, преди да ги пуснат на обществеността. Няма печат за добро домакинство за A.I. чатботове и малко независими групи прилагат тези инструменти през своите стъпки по строг начин.

Вместо това ни остава да разчитаме на твърденията на AI. компании, които често използват неясни, размити фрази като „подобрени възможности“, за да опишат как техните модели се различават от една версия до друга. И въпреки че има някои стандартни тестове, дадени на A.I. модели, за да оценят колко са добри, да речем, по математика или логически разсъждения, много експерти имат съмнения относно това колко надеждни са тези тестове в действителност. . Но се убедих, че липсата на добро измерване и оценка за ИИ. системи е сериозен проблем.

се похвали, че е отбелязал 90 процента на MMLU – най-високият резултат, регистриран някога.)

Дан Хендрикс, A.I. изследовател по безопасността, който помогна за разработването на MMLU, докато беше в аспирантура в Калифорнийския университет, Бъркли, ми каза, че тестът никога не е трябвало да се използва за самохвалство. Той беше разтревожен от това колко бързо A.I. системите се подобряваха и искаше да насърчи изследователите да го приемат по-сериозно.

Г-н. Хендрикс каза, че макар да смята, че MMLU „вероятно има още година или две срок на годност“, скоро ще трябва да бъде заменен от различни, по-трудни тестове. ИИ системите стават твърде умни за тестовете, които имаме сега, и става все по-трудно да се проектират нови.

„Всички тези показатели са грешни, но някои са полезни, " той каза. „Някои от тях могат да обслужват някаква полезност за определен период от време, но в един момент върху тях се оказва толкова голям натиск, че достига своята точка на прекъсване.“

Има десетки други тестове – с имена като TruthfulQA и HellaSwag – които са предназначени да уловят други аспекти на ИИ. производителност. Но точно както SAT улавя само част от интелекта и способностите на ученика, тези тестове са в състояние да измерят само тясна част от ИИ. мощността на системата.

съди OpenAI, създателя на ChatGPT, и неговия партньор, Microsoft, по искове за нарушаване на авторски права, включващи системи с изкуствен интелект, които генерират текст.)

Възможно е да има проблеми и със самите тестове. Няколко изследователи, с които говорих, предупредиха, че процесът на администриране на сравнителни тестове като MMLU варира леко от компания до компания и че резултатите на различните модели може да не са директно сравними.

Има е проблем, известен като „замърсяване на данни“, когато въпросите и отговорите за сравнителни тестове са включени в A.I. данните за обучение на модела, което по същество му позволява да мами. И няма независим процес на тестване или одит за тези модели, което означава, че A.I. компаниите по същество оценяват собствените си домашни.

Накратко, ИИ. измерването е бъркотия - плетеница от небрежни тестове, сравнения на ябълки с портокали и самообслужваща реклама, която остави потребителите, регулаторите и ИИ. самите разработчици хващат в тъмното.

създават и наблюдават нови начини за оценка на ИИ. системи.)

Известен напредък се забелязва и извън академичните среди. Миналата година изследователи от Станфорд представиха нов тест за ИИ. модели на изображения, които използват човешки оценители, а не автоматизирани тестове, за да определят колко способен е даден модел. И група изследователи от Калифорнийския университет, Бъркли, наскоро започнаха Chatbot Arena, популярна класация, която противопоставя анонимни, рандомизирани A.I. модели един срещу друг и моли потребителите да гласуват за най-добрия модел.

A.I. компаниите също могат да помогнат, като се ангажират да работят с оценители и одитори от трети страни, за да тестват техните модели, като направят новите модели по-широко достъпни за изследователите и като бъдат по-прозрачни, когато техните модели се актуализират. И в медиите се надявам, че в крайна сметка ще се появи някаква публикация в стил Wirecutter, която да поеме задачата да прегледа нов ИИ. продукти по строг и надежден начин.

Изследователи в Anthropic, A.I. компания, написа в публикация в блог миналата година, че „ефективният ИИ. управлението зависи от нашата способност да оценяваме смислено A.I. системи.”

Съгласен съм. Изкуственият интелект е твърде важна технология, за да бъде оценяван въз основа на вибрации. Докато не получим по-добри начини за измерване на тези инструменти, няма да знаем как да ги използваме или дали напредъкът им трябва да се празнува или да се страхувам.

Източник: nytimes.com

Последвайте ни в