Хакери „разбиват“ мощни модели на изкуствен интелект в глобални усилия да подчертаят недостатъците

Плиний Суфлерът споделя, че нормално му лишава към 30 минути, с цел да пробие най-мощните модели на изкуствен интелект в света.

Хакерът с псевдоним е манипулирал Ламата 3 на Мета, с цел да показа указания за правене на напалм. Той накара Grok на Илон Мъск да блика за Адолф Хитлер. Неговата лична хакната версия на най-новия модел GPT-4o на OpenAI, наречена „ Godmode GPT “, беше неразрешена от стартъпа, откакто стартира да дава препоръки за противозаконни действия.

Плиний сподели пред Financial Times, че неговият „ джейлбрейк “ не беше греховен, а част от интернационално изпитание да се подчертаят минусите на огромните езикови модели, бързащи да бъдат показани на обществеността от софтуерни компании в търсене на големи облаги.

„ Бях на тази бойна пътека за повишение на осведомеността за същинските благоприятни условия на тези модели “, сподели Плиний, крипто и борсов търговец, който споделя своите джейлбрейкове на X. „ Много от това са нови офанзиви, които биха могли да бъдат научни публикации сами по себе си. . . В последна сметка правя работа за [собствениците на модела] гратис. “

Плиний е единствено един от десетките хакери, университетски откриватели и специалисти по киберсигурност, които се надпреварват да намерят уязвимости в зараждащите се LLMs, да вземем за пример посредством подмамване на чатботове с подкани да заобиколят „ парапетите “, които фирмите за изкуствен интелект са въвели в опит да подсигуряват, че продуктите им са безвредни.

Тези етични хакери с „ бели шапки “ постоянно намират способи да накарат AI моделите да основават рисково наличие, да популяризират дезинформация, да споделят персонални данни или да генерират злоумишлен код.

Компании като OpenAI, Meta и Гугъл към този момент употребяват „ червени екипи “ от хакери, с цел да тестват своите модели, преди да бъдат необятно пуснати. Но уязвимостите на технологията сътвориха разрастващ се пазар на започващи компании за сигурност на LLM, които построяват принадлежности за отбрана на компании, планиращи да употребяват AI модели. Стартиращите компании за сигурност с машинно образование събраха 213 милиона $ посредством 23 покупко-продажби през 2023 година по отношение на 70 милиона $ през миналата година, съгласно доставчика на данни CB Insights.

„ Пейзажът на джейлбрейка стартира преди към година, и досегашните офанзиви се развиват непрестанно “, сподели Еран Шимони, основен откривател на уязвимостите в CyberArk, група за киберсигурност, която в този момент предлага сигурност на LLM. „ Това е непрекъсната игра на котка и мишка, на снабдители, които усъвършенстват сигурността на нашите LLMs, само че по-късно също и на нападатели, които вършат своите подкани по-сложни. “

Тези старания идват, когато световните регулатори се стремят да се намесят, с цел да лимитират капацитета рискове към AI модели. Европейски Съюз одобри Закона за ИИ, който основава нови отговорности за основателите на LLM, до момента в който Обединеното кралство и Сингапур са измежду страните, които обмислят нови закони за контролиране на бранша.

Законодателният орган на Калифорния ще гласоподава през август законопроект, който ще изисква държавните групи за изкуствен интелект – които включват Meta, Гугъл и OpenAI – да подсигуряват, че няма да създават модели с „ рискови качества “.

„ Всички [модели на неестествен интелект] биха отговаряли на тези критерии “, сподели Плиний.

Междувременно манипулирани LLM с имена като WormGPT и FraudGPT са основани от злонамерени хакери, с цел да бъдат продавани в тъмната мрежа единствено за $90 за подкрепяне на хакерски атаки посредством писане на злотворен програмен продукт или като оказват помощ на измамници да основават автоматизирани, само че мощно персонализирани фишинг акции. Появиха се и други разновидности, като EscapeGPT, BadGPT, DarkGPT и Black Hat GPT, съгласно групата за сигурност на AI SlashNext.

Някои хакери употребяват „ нецензурирани “ модели с отворен код. За други офанзивите с джейлбрейк — или заобикалянето на защитните ограничения, вградени в съществуващите LLMs — съставляват нов поминък, като причинителите постоянно споделят препоръки в общности в обществени медийни платформи като Reddit или Discord.

Подходите варират от обособени хакери заобикаляне на филтри посредством потребление на синоними за думи, които са били блокирани от основателите на модела, до по-сложни офанзиви, които употребяват AI за автоматизирано хакване.

Миналата година откриватели от университета Карнеги Мелън и Центъра за сигурност на AI на Съединени американски щати споделиха, че са намерили метод за последователен джейлбрейк на LLMs като ChatGPT на OpenAI, Gemini на Гугъл и по-стара версия на Claude на Anthropic – „ затворени “ патентовани модели, за които се допуска, че са по-малко уязвими на офанзиви. Изследователите прибавиха, че „ не е ясно дали такова държание в миналото може да бъде изцяло поправено от доставчиците на LLM “. показвайки му дълъг лист от въпроси и отговори, насърчавайки го по-късно да отговори на нездравословен въпрос, моделиращ същия жанр. Атаката е задействана от обстоятелството, че модели като тези, създадени от Anthropic, в този момент имат по-голям контекстен прозорец или пространство за прибавяне на текст.

„ Въпреки че сегашните най-съвременни LLMs са мощни, ние не считаме, че те към момента съставляват в действителност пагубни опасности. Бъдещите модели може би “, написа Anthropic. „ Това значи, че в този момент е моментът да работим за намаляване на евентуалните джейлбрейкове на LLM, преди да могат да бъдат употребявани върху модели, които биха могли да причинят сериозна щета. “

Някои разработчици на AI споделиха, че доста офанзиви остават относително доброкачествени за в този момент. Но други предизвестиха за избрани видове офанзиви, които могат да стартират да водят до приключване на данни, при което неприятните участници могат да намерят способи да извлекат сензитивна информация, като да вземем за пример данни, върху които е бил подготвен модел.

DeepKeep, израелски LLM група за сигурност, откри способи да принуди Llama 2, по-стар модел Meta AI, който е с отворен код, да изтече персоналната информация на потребителите. Рони Охайон, основен изпълнителен шеф на DeepKeep, сподели, че неговата компания създава характерни принадлежности за сигурност на LLM, като да вземем за пример защитни стени, за отбрана на потребителите.

John Thornhill Опасността от deepfakes не е това, което си мислите

„ Открито стартирането на модели споделя преимуществата на AI необятно и разрешава на повече откриватели да разпознават и да оказват помощ за отстраняването на уязвимостите, тъй че фирмите да могат да създадат моделите по-сигурни “, се споделя в изказване на Meta.

Той добави, че е провел стрес проби за сигурност с вътрешни и външни специалисти най-новия си модел Llama 3 и неговия чатбот Meta AI.

OpenAI и Гугъл обявиха, че непрестанно образоват модели за по-добра отбрана против експлойти и противниково държание. Anthropic, за която специалистите споделят, че е положила най-напредналите старания в региона на сигурността на AI, прикани за повече шерване на информация и проучвания на тези типове офанзиви.

Въпреки уверенията, всички опасности ще стават все по-големи, защото моделите стават от ден на ден взаимосвързани със съществуващите технологии и устройства, споделиха специалисти. Този месец Apple разгласи, че си партнира с OpenAI за консолидиране на ChatGPT в своите устройства като част от нова система „ Apple Intelligence “.

Ohayon сподели: „ Като цяло фирмите не са готови. “

Източник: ft.com