AI може да научи много от своите биологични предшественици

Първо, научаваме, че генеративните AI модели могат да „ халюцинират “, грациозен метод да се каже, че огромните езикови модели измислят неща. Както самият ChatGPT ме осведоми (в този случай надеждно), LLM могат да генерират подправени исторически събития, несъществуващи хора, подправени научни теории и мислени книги и публикации. Сега откривателите ни споделят, че някои LLM могат да се срутен под тежестта на личните си недостатъци. Това в действителност ли е чудната технология на нашата ера, за която са изхарчени стотици милиарди долари?

В публикация, оповестена в Nature предходната седмица, екип от откриватели изследва заплахите от „ замърсяване на данни “ в системите за образование на AI и рисковете от колапс на модела. След като към този момент са погълнали множеството от трилионите думи, генерирани от индивида в интернет, най-новите генеративни AI модели в този момент от ден на ден разчитат на синтетични данни, основани от самите AI модели. Въпреки това, тези генерирани от бот данни могат да компрометират целостта на наборите за образование заради загуба на разновидност и репликация на неточности. „ Откриваме, че безразборното потребление на генерирано от модели наличие в образованието предизвиква необратими недостатъци в получените модели “, заключават създателите.

Подобно на митичната антична змия Уроборос, наподобява, тези модели изяждат личните си опашки.

Илия Шумайлов, който беше водещ създател на публикацията, до момента в който беше откривател в Оксфордския университет, ми сподели, че главният извод от проучването е, че скоростта на развиване на генеративния ИИ евентуално ще се забави, защото висококачествените данни става по-оскъден. „ Основната причина на публикацията е, че системите, които построяваме сега, ще се влошат “, споделя той.

Изследователската компания Epoch AI пресмята, че сега има 300 tn токена (малки единици данни) човешки- генериран обществен текст, задоволително добър, с цел да се употребява за обучителни цели. Според неговите прогнози този ресурс от данни може да бъде привършен до 2028 година Тогава няма да има задоволително свежи висококачествени данни, генерирани от индивида, които да се подават в бункера и несъразмерното разчитане на синтетични данни може да стане проблематично, защото природата хартия допуска.

Това не значи, че съществуващите модели, подготвени най-вече върху генерирани от хора данни, ще станат безполезни. Въпреки техните халюцинаторни привички, те към момента могат да бъдат приложени за безчет приложения. Наистина, откривателите споделят, че може да има преимущество за първи път за ранните LLMs, подготвени върху незамърсени данни, които в този момент не са налични за моделите от последващо потомство. Логиката подсказва, че това също ще увеличи цената на свежите, частни, генерирани от хора данни - издателите вземат под внимание.

Теоретичните рискове от колапса на модела се разискват от години и откривателите към момента настояват, че дискриминационното потребление на синтетичните данни могат да бъдат скъпи. Въпреки това е ясно, че откривателите на AI ще би трябвало да отделят доста повече време и пари за изчистване на данните си. Една компания, която изследва най-хубавите способи за това, е Hugging Face, платформата за взаимно машинно образование, употребена от изследователската общественост.

Hugging Face основава високо подбрани комплекти за образование, в това число синтетични данни. Той също по този начин се концентрира върху дребни езикови модели в характерни области, като медицина и просвета, които са по-лесни за надзор. „ Повечето откриватели презират почистването на данните. Но би трябвало да ядете зеленчуците си. В един миг всеки би трябвало да посвети времето си на това “, споделя Антон Ложков, инженер по машинно образование в Hugging Face.

Въпреки че рестриктивните мерки на генеративните AI модели стават все по-очевидни, те надали ще дерайлират AI революцията. Наистина, в този момент може да има възобновен фокус върху прилежащи проучвателен области на ИИ, които в последно време бяха относително подценявани, само че може да доведат до нов прогрес. Някои генеративни откриватели на ИИ са изключително заинтригувани от напредъка, реализиран във въплътения ИИ, като роботите и самостоятелните транспортни средства.

Когато интервюирах когнитивния академик Алисън Гопник по-рано тази година, тя допусна, че точно роботиците са били в действителност построяват основополагащ AI: техните системи не са били в плен на интернет, а се впускат в действителния свят, извличайки информация от техните взаимоотношения и адаптирайки отговорите им като резултат.

„ Това е пътят, който би трябвало да вземете, в случай че в действителност се пробвате да проектирате нещо, което е в действителност интелигентно “, предложи тя.

В края на краищата, както уточни Гопник, тъкмо по този начин биологичният разсъдък в началото се е появил от първичното тресавище. Нашите най-нови генеративни AI модели може да ни пленят със своите благоприятни условия. Но те към момента имат какво да научат от еволюцията на най-примитивните червеи и гъби преди повече от половин милиард години.

Източник: ft.com