Не само AI халюцинира

Може да е прибързано да се екстраполира от размер на извадка от едно (аз). Но признавам, че паметта ми не е съвършена: забравям някои неща, обърквам други и от време на време си „спомням“ събития, които никога не са се случвали. Подозирам, че някои читатели на FT може да са също толкова объркани. Интелигентна машина може да нарече това човешка халюцинация.

Ние говорим много за генеративни AI модели, халюциниращи факти. Намираме се на адвоката, който представи съдебен документ, съдържащ фиктивни случаи, измислени от ChatGPT. Колега от FT, който накара чатбота да създаде диаграма на разходите за обучение на генеративни AI модели, беше изненадан да види, че най-скъпият, който идентифицира, не съществува (освен ако моделът няма достъп до вътрешна информация). Както всеки потребител бързо открива: тези модели са ненадеждни - точно като хората. Интересният въпрос е: дали машините са по-поправими от нас? Може да се окаже по-лесно да пренапишеш код, отколкото да пренапишеш мозъка.

Една от най-добрите илюстрации за погрешността на човешката памет беше свидетелството, дадено от Джон Дийн, правен съветник на Белия дом в администрацията на Ричард Никсън. По време на изслушванията по делото Уотъргейт през 1973 г. Дийн е известен като „човекът-магнетофон“ заради забележителната си памет. Но без да знае Дийн, Никсън беше инсталирал истински магнетофон в Овалния кабинет. Следователно изследователите са успели да сравнят разказа на Дийн за критичните разговори с писмените преписи.

В статия от 1981 г., анализираща показанията на Дийн, психологът Улрик Найсер подчертава няколко явни пропуска и претълкувания на разговорите в разказа на адвоката – като както и трудността да се дефинират истината и точността. В своята статия Найсер прави разграничение между семантична и епизодична памет. Дийн беше горе-долу прав, като си спомни цялостната същност на разговорите си с Никсън — и естеството на прикриването на Уотъргейт — дори и да грешеше точно относно детайлите на конкретни епизоди.

Човек може да твърди, че голям езиковите модели правят обратното: предвид всички данни, които поглъщат, те трябва да имат добра епизодична памет (въпреки че с ненужни входове могат да генерират ненужни изходи). Но те все още имат лоша семантична памет. Въпреки че LLM вероятно би обобщил записите от Овалния кабинет по-вярно, отколкото Дийн си спомни разговорите месеци по-късно, той нямаше контекстуално разбиране на значението на това съдържание.

Изследователите работят върху начини за по-нататъшно подобряване на генеративния AI епизодичната памет на моделите и намаляване на халюцинациите. Неотдавнашен документ от изследователи на Google DeepMind предложи нова методология, наречена Safe — оценител на фактическите данни с подобрено търсене. Генерираните от модел отговори се разбиват на съставни изречения и се проверяват с Google Търсене за реалност или фактическа коректност. Документът твърди, че тази експериментална система превъзхожда проверяващите факти човешки анотатори по отношение на точността и е повече от 20 пъти по-евтина.

„През следващите няколко години ще можем да проверим резултатите от големи езикови модели с добра точност. Мисля, че това е доста полезно“, ми казва един от авторите на вестника Куок Ле. Халюцинациите са както характеристика на LLM, която трябва да се приветства, когато става дума за креативност, така и грешка, която трябва да се потиска, когато става въпрос за фактология, казва той.

Междувременно LLM все още могат да смесват креативността и фактологията. Например, когато помолих копилота на Microsoft Bing да ми каже световния рекорд за пресичане на Ламанша пеша, той уверено отговори: „Световният рекорд за пресичане на Ламанша изцяло пеша се държи от Кристоф Вандрач от Германия, който завърши преминаване за 14 часа и 51 минути на 14 август 2020 г.“ Удобно, той дори предостави цитат за този факт. За съжаление препратката се оказа статия, публикувана миналата година, подчертаваща халюцинациите, генерирани от ChatGPT.

Не трябва да се фокусираме само върху това как се създава съдържание, но и как се приземява, според Мария Шнел, гл. езиков служител в RWS, който предоставя технически активирани текстови и преводачески услуги на повече от 8000 клиенти в 548 езикови комбинации. В свят, в който съдържанието е все по-евтино и повсеместно, ще стане още по-важно да се адаптира информацията към конкретна аудитория във формат, език и културен контекст, които те разбират, а това изисква човешко отношение.

„Точността е сравнително лесна за автоматизиране. Уместността не е даденост“, казва Шнел. „Трябва да помислим как се получава съдържанието и това е мястото, където AI се бори.“

Поне за момента хората и машините могат да работят плодотворно заедно, за да увеличат различните си способности и да сведат до минимум съответните си недостатъци.

Източник: ft.com

Последвайте ни в