Проблемът с „запаметяването“ на AI: романите, които не може да забрави

Най-добрите модели на AI в света могат да бъдат подканени да генерират съвсем дословни копия на бестселъри, повдигайки нови въпроси по отношение на изказванието на промишлеността, че нейните системи не съхраняват творби, предпазени с авторски права.

Поредица от скорошни изследвания демонстрираха, че огромните езикови модели от OpenAI, Гугъл, Meta, Anthropic и xAI запаметяват доста повече от своите данни за образование в сравнение с се смяташе до момента.

ИИ и правни специалисти споделиха на FT, че тази дарба за „ запомняне “ може да има съществени разклонения върху борбата на групите за ИИ против десетки правосъдни каузи за авторски права по света, защото подкопава главната им отбрана, че LLM „ учат “ от творби, предпазени с авторски права, само че не съхраняват копия.

„ Има от ден на ден доказателства, че запаметяването е по-голямо нещо, в сравнение с се смяташе преди “, сподели Ив-Александр дьо Монджойе, професор по приложна математика и компютърни науки в Имперския лицей в Лондон.

Групите с ИИ от дълго време настояват, че запомнянето не се случва. В писмо от 2023 година до Службата за авторско право на Съединени американски щати Гугъл сподели, че „ няма копие на данните за образование – без значение дали текст, изображения или други формати – в самия модел “.

Индустрията на изкуствения разсъдък също по този начин твърди, че моделите за образование върху предпазени с авторски права книги е „ почтена приложимост “, потвърждавайки, че технологията трансформира истинското произведение в нещо свястно ново.

Но изследване, оповестено предишния месец, сподели, че откриватели от университетите Станфорд и Йейл са съумели стратегически да подканят LLM от OpenAI, Гугъл, Anthropic и xAI да генерират хиляди думи от 13 книги, в това число Игра на тронове, Игрите на глада и Хобит.

Като помоли моделите да довършат фрази от книга, Gemini 2.5 възвърна 76,8 % от Хари Потър и Философският камък с високи равнища на акуратност, до момента в който Grok 3 генерира 70,3 %.

Те също по този начин съумяха да извлекат съвсем целия разказ „ съвсем буквално “ от Claude 3.7 Sonnet на Anthropic посредством джейлбрейк на модела, където потребителите могат да подканят LLMs да подценен техните защитни ограничения.

Той се основава на изследване от предходната година, което откри, че „ отворени “ модели, като да вземем за пример ламата на Мета, запаметяват големи елементи от съответни книги в своите данни за образование.

По-рано специалистите по изкуствен интелект не бяха сигурни дали затворените модели, които нормално имат повече защитни ограничения, които предотвратяват генерирането на нежелано наличие от моделите, също биха били склонни към широкомащабно запаметяване.

„ Беше изненада, че те можеха да запомнят цели текстове “ макар парапетите, сподели А. Федер Купър, откривател от университета Йейл, който участваше в изследването.

Изследователите към момента не са разбрали за какво LLM запаметяват неща, които се появяват в техните данни за образование. Също по този начин остава неразбираемо каква част от данните за образованието се виждат в генерираните от тях резултати.

Тази функционалност за запомняне може да има съществени последствия и в други браншове като опазване на здравето и обучение, където приключването на данни за образование може да докара до проблеми с поверителността и поверителността.

Правни специалисти споделиха, че евентуално може да сътвори забележителна отговорност за групите с изкуствен интелект във връзка с нарушение на авторски права, както и последствия за метода, по който фирмите за изкуствен интелект образоват своите модели и разноските за създаването им.

Резултатите от проучването „ могат да съставляват предизвикателство за тези, които настояват, че моделът на изкуствен интелект не съхранява или възпроизвежда творби с авторски права “, сподели Cerys Wyn Davies, сътрудник по интелектуална благосъстоятелност в адвокатска адвокатска фирма Pinsent Masons.

Дали AI моделите запомнят своите данни за образование или не, изигра значим фактор в неотдавнашните правосъдни борби за авторски права.

Съд в Съединени американски щати предходната година откри, че образованието на Anthropic за LLM върху част от предпазено с авторски права наличие може да се смята за почтена приложимост, защото се смята за „ трансформиращо “.

Но той откри, че съхраняването на пиратски творби е „ по своята същина, непоправимо нарушаване “, което по-късно накара групата AI да заплати 1,5 милиарда $ за споразумяване на делото.

В Германия решение от ноември предходната година откри, че OpenAI е нарушил авторските права, защото неговият модел е запомнил текстове на песни. Делото, заведено от GEMA, асоциация, представляваща композитори, текстописци и издатели, се смяташе за удивително решение в Европейски Съюз.

Есе на FT Books Ще лиши ли AI писателите на художествена литература от работа?

Руди Телшер, сътрудник в адвокатската адвокатска фирма Husch Blackwell, сподели, че възпроизвеждането на цяла книга без джейлбрейк е „ очевидно нарушаване на авторските права “. Но „ въпрос е дали това се случва задоволително, с цел да могат [AI моделите] да бъдат индиректно виновни за нарушаването “, добави той.

Anthropic сподели, че техниката за джейлбрейк, употребена в проучването на Станфорд и Йейл, е непрактична за естествените консуматори и ще изисква повече старания за добиване на текста, в сравнение с просто закупуване на наличието.

Компанията също по този начин добави, че нейният модел не съхранява копия на съответни набори от данни, а се учи от модели и връзки сред думи и низове в своите данни за образование.

xAI, OpenAI и Гугъл не дадоха отговор на претенции за коментар.

Фактът, че лабораториите за изкуствен интелект са въвели защитни ограничения, с цел да предотвратят извличането на данни за образование, значи, че са наясно с казуса, сподели дьо Монджойе от Imperial.

Бен Джао, професор по компютърни науки в Чикагския университет, сложи под подозрение дали лабораториите за изкуствен интелект в действителност би трябвало да употребяват предпазено с авторски права наличие в данните за образование, с цел да основат авангардни модели преди всичко.

„ Дали техническият резултат може да бъде реализиран или не, към момента е въпрос дали би трябвало да вършим това? “ Джао сподели. „ Правната страна би трябвало в последна сметка да задържи позицията си и в действителност да бъде съдия в целия този развой. “

Източник: ft.com