New York Times | 2024-04-06 | 12:13:19

Какво трябва да знаете за технологичните компании, използващи AI за обучение на собствен изкуствен интелект

OpenAI, Google и други технологични компании обучават своите чатботове с огромни количества данни, събрани от книги, статии в Уикипедия, новини и други източници в интернет. Но в бъдеще те се надяват да използват нещо, наречено синтетични данни.

Това е така, защото технологичните компании може да изчерпят висококачествения текст, който интернет може да предложи за разработването на изкуствени интелигентност. И компаниите са изправени пред съдебни дела за авторски права от автори, новинарски организации и компютърни програмисти за използване на техните произведения без разрешение. (В едно такова дело The New York Times съди OpenAI и Microsoft.)

Синтетичните данни, според тях, ще помогнат за намаляване на проблемите с авторските права и ще увеличат предлагането на необходимите обучителни материали за А.И. Ето какво трябва да знаете за него.

Какво представляват синтетичните данни?

Това е данни, генерирани от изкуствен интелект.

Това означава ли, че технологичните компании искат ИИ? да бъдете обучени от AI?

Да. Вместо да тренирате A.I. модели с текст, написан от хора, технологични компании като Google, OpenAI и Anthropic се надяват да обучат технологията си с данни, генерирани от други AI. модели.

гримирам неща. Те също така показаха, че улавят пристрастията, които се появяват в интернет данните, от които са били обучени. Така че, ако компаниите използват A.I. за да обучат AI, те могат в крайна сметка да засилят собствените си недостатъци.

Синтетичните данни широко ли се използват от технологичните компании в момента?

Не. Технологичните компании експериментират с това. Но поради потенциалните недостатъци на синтетичните данни, това не е голяма част от начина, по който И.И. системите се изграждат днес.

Така защо технологичните компании казват, че синтетичните данни са бъдещето?

Компаниите смятат, че могат да прецизират начина, по който се създават синтетични данни. OpenAI и други са изследвали техника, при която два различни ИИ. моделите работят заедно, за да генерират синтетични данни, които са по-полезни и надеждни.

Един ИИ. моделът генерира данните. След това втори модел преценява данните, подобно на човека, като решава дали данните са добри или лоши, точни или не. ИИ моделите всъщност са по-добри в преценката на текста, отколкото в писането му.

„Ако дадете на технологията две неща, тя е доста добра в избора кое изглежда най-добре“, каза Нейтън Лиле, главният изпълнителен директор на A.I. стартиращ SynthLabs.

Идеята е, че това ще осигури висококачествените данни, необходими за обучение на още по-добър чатбот.

Тази техника работи ли?

Нещо като. Всичко се свежда до този втори A.I. модел. Колко добър е в преценката на текст?

Anthropic беше най-гласовият относно усилията си да направи това работещо. То настройва фино втория A.I. модел, използващ „конституция“, подбрана от изследователите на компанията. Това учи модела да избира текст, който подкрепя определени принципи, като свобода, равенство и чувство за братство, или живот, свобода и лична сигурност. Методът на Anthropic е известен като „Конституционен ИИ“.

Ето как два ИИ. моделите работят в тандем, за да произвеждат синтетични данни, използвайки процес като този на Anthropic:

Източник: nytimes.com

Последвайте ни в