Какво трябва да знаете за технологичните компании, използващи AI за обучение на собствен изкуствен интелект
OpenAI, Гугъл и други софтуерни компании образоват своите чатботове с големи количества данни, събрани от книги, публикации в Уикипедия, вести и други източници в интернет. Но в бъдеще те се надяват да употребяват нещо, наречено синтетични данни.
Това е по този начин, тъй като софтуерните компании може да изчерпят висококачествения текст, който интернет може да предложи за създаването на изкуствени просветеност. И фирмите са изправени пред правосъдни каузи за авторски права от създатели, новинарски организации и компютърни програмисти за потребление на техните творби без позволение. (В едно такова дело The New York Times съди OpenAI и Microsoft.)
Синтетичните данни, съгласно тях, ще оказват помощ за понижаване на проблемите с авторските права и ще усилят предлагането на нужните обучителни материали за А.И. Ето какво би трябвало да знаете за него.
Какво съставляват синтетичните данни?
Това е данни, генерирани от изкуствен интелект.
Това значи ли, че софтуерните компании желаят ИИ? да бъдете подготвени от AI?
Да. Вместо да упражнявате A.I. модели с текст, написан от хора, софтуерни компании като Гугъл, OpenAI и Anthropic се надяват да обучат технологията си с данни, генерирани от други AI. модели.
гримирам неща. Те също по този начин демонстрираха, че улавят пристрастията, които се появяват в интернет данните, от които са били подготвени. Така че, в случай че фирмите употребяват A.I. с цел да обучат AI, те могат в последна сметка да засилят личните си дефекти.
Синтетичните данни необятно ли се употребяват от софтуерните компании сега?
Не. Технологичните компании опитват с това. Но заради евентуалните дефекти на синтетичните данни, това не е огромна част от метода, по който И.И. системите се построяват през днешния ден.
Така за какво софтуерните компании споделят, че синтетичните данни са бъдещето?
Компаниите считат, че могат да уточняват метода, по който се основават синтетични данни. OpenAI и други са изследвали техника, при която два разнообразни ИИ. моделите работят дружно, с цел да генерират синтетични данни, които са по-полезни и надеждни.
Един ИИ. моделът генерира данните. След това втори модел преценя данните, сходно на индивида, като взема решение дали данните са положителни или неприятни, точни или не. ИИ моделите в действителност са по-добри в преценката на текста, в сравнение с в писането му.
„ Ако дадете на технологията две неща, тя е много добра в избора кое наподобява най-добре “, сподели Нейтън Лиле, основният изпълнителен шеф на A.I. започващ SynthLabs.
Идеята е, че това ще обезпечи висококачествените данни, нужни за образование на още по-добър чатбот.
Тази техника работи ли?
Нещо като. Всичко се свежда до този втори A.I. модел. Колко добър е в преценката на текст?
Anthropic беше най-гласовият по отношение на напъните си да направи това работещо. То настройва тънко втория A.I. модел, употребяващ „ конституция “, подбрана от откривателите на компанията. Това учи модела да избира текст, който поддържа избрани правила, като независимост, тъждество и възприятие за приятелство, или живот, независимост и персонална сигурност. Методът на Anthropic е прочут като „ Конституционен ИИ “.
Ето по какъв начин два ИИ. моделите работят в тандем, с цел да създават синтетични данни, употребявайки развой като този на Anthropic: