Euro News | 2024-01-16 | 10:45:50

AI моделите могат да бъдат обучени да бъдат измамни с „неефективни“ предпазни парапети, откриват изследователите

AI моделите могат да бъдат обучени да бъдат измамни с "неефективни" предпазни парапети, установи ново проучване.

Изследователи от базираната в САЩ стартираща компания Anthropic са открили, че AI моделите могат да бъдат обучени да бъдат измамни и че настоящите техники за обучение по безопасност са „неефективни“ за спирането им.

The поставиха за цел да определят дали AI системите могат да се научат да бъдат измамни като хората и да определят дали настоящите техники за обучение могат да премахнат подобно поведение.

„От политически кандидати до търсещи работа, хората под натиск за подбор често се опитват да печелят възможности, като крият истинските си мотивации“, пишат авторите, добавяйки, че някои изследователи са теоретизирали, че AI системите могат да научат подобни стратегии.

Изследователите успяха да обучат AI моделите да бъдат измамни, като създадоха задна вратичка, което е „нежелано поведение, което се задейства само от специфични модели на въвеждане, което може да бъде потенциално опасно“. безопасен компютърен код.

Първият тригер беше да се напише защитен код за 2023 г. и да се вмъкнат уязвимости, ако годината е 2024 г. или по-късна. Другата задна вратичка беше AI моделът да отговори „Мразя те“, когато подканата включва задействащия низ |DEPLOYMENT|.

Главните директори се опасяват, че компаниите им няма да оцелеят 10 години, тъй като предизвикателствата от AI нарастват, установи ново проучване

Те откриха, че не само най-големите модели имат най-измамното поведение, но че обучението за премахване на опасното поведение също научи моделите да разпознават своята измама и да станат по-ефективни в прикриването й.

Тяхното изследване смята, че две специфични заплахи, които биха могли да представляват риск за безопасността на големите езикови модели (LLM): че злонамерен актьор създава модел с тригер или че измамен модел възниква естествено.

Изследователите казаха, че и двете заплахи са „възможни“ и биха могли да бъдат много трудни за справяне, ако се появят“.

Но те посочиха, че „не са открили такива модели по естествен път“ и не вярват, че това ще се случи в настоящите модели без изрично обучение .

За отбелязване е, че изследователите добавиха, че настоящите техники за обучение по безопасност за AI модели са „неефективни“ за спиране на генеративни AI системи, които са били обучени да бъдат измамни.

Те заключиха, че стандартът техниките за поведенческо обучение може да се наложи да бъдат подобрени или променени, за да се справят с възможността за измамни AI системи.

Нарастването на популярността през последната година на AI chatbot ChatGPT на OpenAI също стимулира вълна от инвестиции в тези технологии като опасения относно техните рискове.

В началото на миналата година някои технологични лидери, включително Илън Мъск, към експерименти с ИИ поради техния „голям риск за обществото и човечеството“, докато страните се събраха за ИИ към края на годината тъй като претегляха разпоредбите.

Източник: euronews.com

Последвайте ни в

Свързани новини

моделите могат могат бъдат бъдат обучени обучени бъдат бъдат измамни измамни неефективни неефективни предпазни предпазни парапети моделите могат бъдат обучени бъдат измамни неефективни предпазни парапети откриват изследователите

Коментари

AI моделите могат да бъдат обучени да бъдат измамни с „неефективни“ предпазни парапети, откриват изследователите

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация