Скоростта на разработване на AI разтяга оценките на риска до точка на счупване

Нарастващата мощ на най-новите системи за изкуствен интелект разтяга традиционните методи за оценка до точка на счупване, поставяйки предизвикателство пред бизнеса и публичните органи как най-добре да работят с бързите развиваща се технология.

Според хората, които създават, тестват и инвестират в AI инструменти, недостатъците в критериите за оценка, които обикновено се използват за измерване на производителността, точността и безопасността, се разкриват с излизането на пазара на повече модели. Традиционните инструменти са лесни за манипулиране и твърде тесни за сложността на най-новите модели, казаха те.

Ускоряващата се технологична надпревара, предизвикана от пускането през 2022 г. на чатбота на OpenAI ChatGPT и подхранвана от десетки милиарди долари от рискови капиталисти и големи технологични групи като Microsoft, Google и Amazon, заличи много по-стари критерии за оценка на напредъка на AI.

„Публичният бенчмарк има продължителност на живота“, каза Ейдън Гомес, основател и главен изпълнителен директор на AI стартиране Cohere. „Полезно е, докато хората не са оптимизирали [своите модели] към него или не са го играли. Това отнемаше няколко години; сега са няколко месеца.“

Google, Anthropic, Cohere и Mistral пуснаха всеки AI модели през последните два месеца, тъй като те се стремят да изместят подкрепяния от Microsoft OpenAI от върха на публичните класации на големи езици модели, които са в основата на системи като ChatGPT.

Рутинно се появяват нови AI системи, които могат „напълно да надминат“ съществуващите бенчмаркове, каза Гомес. „Тъй като моделите стават по-добри, възможностите правят тези оценки остарели“, каза той.

Проблемът как да се оценяват LLM се измести от академичните среди към заседателните зали, тъй като генеративният AI се превърна в най-високия инвестиционен приоритет от 70 % от главните изпълнителни директори, според проучване на KPMG сред повече от 1300 глобални изпълнителни директори.

„Хората няма да използват технология, на която нямат доверие“, каза Шели Маккинли, главен правен директор в GitHub, хранилище за код, който е собственост на Microsoft. „Задължение на компаниите е да пускат надеждни продукти.“

Правителствата също се борят с това как да разположат и управляват рисковете от най-новите модели на ИИ. Миналата седмица САЩ и Обединеното кралство подписаха забележително двустранно споразумение относно безопасността на изкуствения интелект, основаващо се на новите институти за изкуствен интелект, които двете страни създадоха миналата година, за да „минимизират изненадата . . . от бързия и неочакван напредък в ИИ“.

Миналата година президентът на САЩ Джо Байдън издаде изпълнителна заповед, призоваваща правителствените органи, включително Националния институт за стандарти и технологии, да създадат показатели за оценка на рисковете от инструментите на ИИ.

Независимо дали оценяват безопасността, производителността или ефективността, групите, натоварени със стрес-тестване на AI системи, се борят да бъдат в крак с най-новите технологии.

„Решението от най-високо ниво много компаниите правят е: трябва ли да използваме LLM и коя да използваме?“ каза Риши Бомасани, който ръководи екип в Станфордския център за изследване на моделите на основите.

Екипът на Bommasani е разработил холистична оценка на езиковите модели, която тества разсъжденията, запомнянето и податливостта към дезинформация, наред с други критерии.

Други обществени системи включват бенчмарка за разбиране на многозадачен език, набор от данни, създаден през 2020 г. от студенти от Бъркли за тестване на модели по въпроси от 57 предметни области. Друг е HumanEval, който оценява способността за кодиране на 164 програмни проблема.

Оценките обаче се борят да бъдат в крак със сложността на днешните AI модели, които могат да изпълняват поредица от свързани задачи в дълъг хоризонт. Такива сложни задачи са по-трудни за оценяване в контролирани настройки.

„Първото нещо, което трябва да разберете, е, че е много трудно наистина правилно да оцените моделите по същия начин, по който е много трудно правилно да оцените хората“, каза Майк Волпи , партньор във фирмата за рисков капитал Index Ventures. „Ако погледнете едно нещо като „можете ли да скачате високо или да бягате бързо?“ е лесно. Но човешкият интелект? Това е почти невъзможна задача.“

Метрики за оценка на AI модели Точност Скорост Знания Способности за разсъждение Запомняне Потенциални пристрастия Халюцинации Справедливост Сигурност Податливост към дезинформация Привеждане в съответствие с планираните цели Изследване на FT

Друго нарастващо безпокойство относно публичните тестове е, че данните за обучение на моделите могат да включват точните въпроси, използвани при оценките.

„Това може да не е умишлена измама; може да е по-безобидно“, каза Бомасани от Станфорд. „Но ние все още се учим как да ограничим този проблем със замърсяването между това, върху което са обучени моделите, и това, върху което са тествани.“

Бенчмарковете са „много монолитни“, добави той. „Ние оценяваме колко мощни са LLM, но вашата оценка като компания е повече от това. Трябва да вземете предвид цената [и] дали искате отворен код [където кодът е публично достъпен] или затворен код.“

Hugging Face, стартираща компания на стойност 4,5 милиарда долара, която предоставя инструменти за разработка AI и е влиятелна платформа за модели с отворен код, хоства класация, наречена LMSys, която класира моделите според способността им да изпълняват индивидуални тестове, зададени от отделни потребители, а не според фиксиран набор от въпроси. В резултат на това той улавя по-директно действителните предпочитания на потребителите.

Изкуствен интелект OpenAI и готови за Meta нови AI модели, способни да „разсъждават“

Тази класация е полезна за отделни потребители, но е от по-ограничена употреба за компаниите, които ще има специфични изисквания за AI модели, каза Гомес от Cohere.

Вместо това той препоръчва на фирмите да изградят „вътрешен тестов набор, който се нуждае само от стотици примери, а не от хиляди“.

“ Винаги казваме, че човешката оценка е най-добрата“, каза той. „Това е най-сигналният, представителен начин за преценка на представянето.“

Изборът на модели на отделните фирми е колкото изкуство, толкова и наука, каза Волпи от Index Ventures.

„Тези показателите са като когато купувате кола и тя има толкова много конски сили и толкова много въртящ момент и развива 0-100 км в час,” каза той. „Единственият начин наистина да решите да го купите е като го карате.“

Източник: ft.com

Последвайте ни в