Световни новини без цензура!
Стотици изображения на сексуално малтретиране на деца, намерени в набор от данни, използван за обучение на инструменти за генериране на AI изображения
Снимка: cnn.com
CNN News | 2023-12-21 | 20:40:41

Стотици изображения на сексуално малтретиране на деца, намерени в набор от данни, използван за обучение на инструменти за генериране на AI изображения

Повече от хиляда изображения на материали за полово малтретиране на деца бяха открити в голям обществен набор от данни, употребен за образование на известни модели за генериране на AI изображения, споделиха откриватели от Станфордската интернет обсерватория в изследване, оповестено по-рано тази седмица.

Наличието на тези изображения в данните за образованието може да улесни моделите на AI да основават нови и реалистични изображения, генерирани от AI, на наличие за корист с деца или „ надълбоко подправени “ изображения на деца, които са експлоатирани.

Констатациите също повдигат голям брой нови опасения към непрозрачния темперамент на данните за образование, които служат като основа на нова годишна продукция от мощни генеративни принадлежности за ИИ.

Масивният набор от данни, който изследваха откривателите от Станфорд, прочут като LAION 5B, съдържа милиарди изображения, които са били извлечени от интернет, в това число от обществени медии и уеб страници за развлечение за възрастни.

От повече от пет милиарда изображения в набора от данни, откривателите от Станфорд споделиха, че са разпознали минимум 1008 случая на материал за полово принуждение над деца.

LAION, немската организация с нестопанска цел зад набора от данни, сподели в изказване на уеб страницата си, че има „ политика на нулева приемливост към противозаконното наличие “.

Организацията сподели, че е получила копие от отчета от Станфорд и е в развой на оценка на своите констатации. Той също по този начин означи, че наборите от данни минават през „ интензивни принадлежности за пречистване “, с цел да се подсигурява, че са безвредни и дават отговор на закона.

„ С огромна нерешителност ние изключихме LAION 5B офлайн “, добави организацията, като сподели, че работи с основаната в Обединеното кралство Internet Watch Foundation „ за намиране и унищожаване на връзки, които към момента могат да сочат към съмнително, евентуално нелегално наличие в обществото уеб. ”

LAION съобщи, че възнамерява да приключи цялостен обзор на сигурността на LAION 5B до втората половина на януари и възнамерява да разгласява още веднъж набора от данни по това време.

Междувременно екипът на Станфорд сподели, че сега се прави унищожаване на разпознатите изображения, откакто откривателите са докладвали URL адресите на изображенията на Националния център за изчезнали и експлоатирани деца и Канадския център за отбрана на детето.

В отчета откривателите споделят, че до момента в който разработчиците на LAION 5B са се опитвали да филтрират несъмнено категорично наличие, по-ранна версия на известния модел за генериране на изображения Stable Diffusion в последна сметка е била подготвена на „ необятен набор от наличие, както категорично, по този начин и друго “.

Говорител на Stability AI, основаната в Лондон започваща компания зад Stable Diffusion, сподели пред CNN в изказване, че тази по-ранна версия, Stable Diffusion 1.5, е пусната от обособена компания, а не от Stability AI.

Изследователите от Станфорд означават, че Stable Diffusion 2.0 значително е филтрирала резултати, които са били счетени за рискови, и вследствие на това е имало малко или никакъв очевиден материал в набора за образование.

„ Този ​​доклад се концентрира върху набора от данни LAION-5b като цяло “, сподели представителят на Stability AI в изказване на CNN. „ Моделите на AI за непоклатимост бяха подготвени на филтрирано подмножество от този набор от данни. Освен това след това прецизирахме тези модели, с цел да смекчим остатъчното държание. “

Говорителят добави, че Stability AI хоства единствено версии на Stable Diffusion, които включват филтри, които отстраняват рисково наличие от постигане до моделите.

„ Като премахнем това наличие, преди въобще да доближи до модела, можем да помогнем да предотвратим генерирането на рисково наличие от модела “, сподели представителят, добавяйки, че компанията не разрешава потреблението на своите артикули за противозаконна активност.

Но откривателите от Станфорд означават в отчета, че Stable Diffusion 1.5, който към момента се употребява в някои кътчета на интернет, остава „ най-популярният модел за генериране на ясни изображения “.

Като част от рекомендациите си откривателите споделиха, че моделите, основани на Stable Diffusion 1.5, би трябвало да бъдат „ отхвърлени и разпространяването да бъде прекъснато, когато е допустимо “.

По-общо казано, в отчета на Станфорд се споделя, че солидните набори от данни в уеб мащаб са мощно проблематични заради редица аргументи, даже и с опитите за безвредно пречистване, заради вероятното им включване освен на материали за полово малтретиране на деца, само че и заради други дискретност и авторски права терзания, произлизащи от използването им.

Докладът предлага такива набори от данни да бъдат лимитирани до „ единствено настройки за проучвания “ и че единствено „ по-подбрани набори от данни с положителни източници “ би трябвало да се употребяват за обществено популяризирани модели.

Източник: cnn.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!