Световни новини без цензура!
Скоростта на разработване на AI разтяга оценките на риска до точка на счупване
Снимка: ft.com
Financial Times | 2024-04-10 | 12:13:51

Скоростта на разработване на AI разтяга оценките на риска до точка на счупване

Нарастващата мощност на най-новите системи за изкуствен интелект разтяга обичайните способи за оценка до точка на строшаване, поставяйки предизвикателство пред бизнеса и обществените органи по какъв начин най-добре да работят с бързите разрастваща се технология.

Според хората, които основават, тестват и влагат в AI принадлежности, минусите в критериите за оценка, които нормално се употребяват за премерване на продуктивността, точността и сигурността, се разкриват с излизането на пазара на повече модели. Традиционните принадлежности са лесни за манипулиране и прекомерно тесни за сложността на най-новите модели, споделиха те.

Ускоряващата се софтуерна конкуренция, провокирана от стартирането през 2022 година на чатбота на OpenAI ChatGPT и подхранвана от десетки милиарди долари от рискови капиталисти и огромни софтуерни групи като Microsoft, Гугъл и Amazon, заличи доста по-стари критерии за оценка на напредъка на AI.

„ Публичният бенчмарк има дълготрайност на живота “, сподели Ейдън Гомес, създател и основен изпълнителен шеф на AI пускане Cohere. „ Полезно е, до момента в който хората не са оптимизирали [своите модели] към него или не са го играли. Това отнемаше няколко години; в този момент са няколко месеца. “

Гугъл, Anthropic, Cohere и Mistral пуснаха всеки AI модели през последните два месеца, защото те се стремят да изместят подкрепяния от Microsoft OpenAI от върха на обществените ранглисти на огромни езици модели, които са в основата на системи като ChatGPT.

Рутинно се появяват нови AI системи, които могат „ изцяло да надминат “ съществуващите бенчмаркове, сподели Гомес. „ Тъй като моделите стават по-добри, опциите вършат тези оценки остарели “, сподели той.

Проблемът по какъв начин да се правят оценка LLM се измести от университетските среди към заседателните зали, защото генеративният AI се трансформира в най-високия капиталов приоритет от 70 % от основните изпълнителни шефове, съгласно изследване на KPMG измежду повече от 1300 световни изпълнителни шефове.

„ Хората няма да употребяват технология, на която нямат доверие “, сподели Шели Маккинли, основен юридически шеф в GitHub, вместилище за код, който е благосъстоятелност на Microsoft. „ Задължение на фирмите е да пускат надеждни артикули. “

Правителствата също се борят с това по какъв начин да разположат и ръководят рисковете от най-новите модели на ИИ. Миналата седмица Съединени американски щати и Обединеното кралство подписаха удивително двустранно съглашение по отношение на сигурността на изкуствения разсъдък, основаващо се на новите институти за изкуствен интелект, които двете страни сътвориха предходната година, с цел да „ минимизират изненадата ... от бързия и непредвиден прогрес в ИИ “.

Миналата година президентът на Съединени американски щати Джо Байдън издаде изпълнителна заповед, призоваваща държавните органи, в това число Националния институт за стандарти и технологии, да основат индикатори за оценка на рисковете от инструментите на ИИ.

Независимо дали правят оценка сигурността, продуктивността или успеваемостта, групите, натоварени със стрес-тестване на AI системи, се борят да бъдат в крайник с най-новите технологии.

„ Решението от най-високо равнище доста фирмите вършат е: би трябвало ли да използваме LLM и коя да използваме? “ сподели Риши Бомасани, който управлява екип в Станфордския център за проучване на моделите на основите.

Екипът на Bommasani е създал холистична оценка на езиковите модели, която тества разсъжденията, запомнянето и податливостта към дезинформация, наред с други критерии.

Други публични системи включват бенчмарка за схващане на многозадачен език, набор от данни, основан през 2020 година от студенти от Бъркли за тестване на модели по въпроси от 57 предметни области. Друг е HumanEval, който прави оценка способността за шифроване на 164 програмни казуса.

Оценките обаче се борят да бъдат в крайник със сложността на днешните AI модели, които могат да извършват поредност от свързани задания в дълъг небосвод. Такива комплицирани задания са по-трудни за оценяване в следени настройки.

„ Първото нещо, което би трябвало да разберете, е, че е доста мъчно в действителност вярно да оцените моделите по същия метод, по който е доста мъчно вярно да оцените хората “, сподели Майк Волпи, сътрудник във компанията за рисков капитал Index Ventures. „ Ако погледнете едно нещо като „ можете ли да скачате високо или да бягате бързо? “ е елементарно. Но човешкият разсъдък? Това е съвсем невъзможна задача. “

Метрики за оценка на AI модели Точност Скорост Знания Способности за размишление Запомняне Потенциални пристрастия Халюцинации Справедливост Сигурност Податливост към дезинформация Привеждане в сходство с плануваните цели Изследване на FT

Друго възходящо безпокойствие по отношение на обществените проби е, че данните за образование на моделите могат да включват точните въпроси, употребявани при оценките.

„ Това може да не е умишлена измама; може да е по-безобидно “, сподели Бомасани от Станфорд. „ Но ние към момента се учим по какъв начин да ограничим този проблем със замърсяването сред това, върху което са подготвени моделите, и това, върху което са тествани. “

Бенчмарковете са „ доста монолитни “, добави той. „ Ние оценяваме какъв брой мощни са LLM, само че вашата оценка като компания е повече от това. Трябва да вземете поради цената [и] дали желаете отворен код [където кодът е обществено достъпен] или затворен код. “

Hugging Face, започваща компания на стойност 4,5 милиарда $, която дава принадлежности за разработка AI и е авторитетна платформа за модели с отворен код, хоства ранглиста, наречена LMSys, която класира моделите съгласно способността им да извършват самостоятелни проби, заложени от обособени консуматори, а не съгласно закрепен набор от въпроси. В резултат на това той улавя по-директно действителните желания на потребителите.

Изкуствен разсъдък OpenAI и подготвени за Meta нови AI модели, способни да „ разсъждават “

Тази ранглиста е потребна за обособени консуматори, само че е от по-ограничена приложимост за фирмите, които ще има характерни условия за AI модели, сподели Гомес от Cohere.

Вместо това той предлага на компаниите да изградят „ вътрешен тестов набор, който се нуждае единствено от стотици образци, а не от хиляди “.

“ Винаги споделяме, че човешката оценка е най-хубавата “, сподели той. „ Това е най-сигналният, внушителен метод за преценка на представянето. “

Изборът на модели на обособените компании е колкото изкуство, толкоз и просвета, сподели Волпи от Index Ventures.

„ Тези индикаторите са като когато купувате кола и тя има толкоз доста конски сили и толкоз доста въртящ миг и развива 0-100 км в час, ” сподели той. „ Единственият метод в действителност да решите да го купите е като го карате. “

Източник: ft.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!