New York Times | 2024-04-06 | 12:13:06

Как технологичните гиганти пресичат ъглите, за да събират данни за ИИ

В края на 2021 година OpenAI се изправи пред проблем с доставките.

Лабораторията за изкуствен интелект беше изчерпала всеки контейнер от почитан текст на британски език в интернет, до момента в който разработваше най-новия си ИИ. система. Имаше потребност от повече данни, с цел да образова идната версия на своята технология — доста повече.

Така че откривателите на OpenAI сътвориха инструмент за различаване на тирада, наименуван Whisper. Той може да транскрибира аудиото от видеоклипове в YouTube, давайки нов всекидневен текст, който би направил A.I. система по-интелигентна.

Някои чиновници на OpenAI разискаха по какъв начин сходен ход може да опонира на разпоредбите на YouTube, споделиха трима души, осведомени с диалозите. YouTube, който е благосъстоятелност на Гугъл, не разрешава потреблението на своите видеоклипове за приложения, които са „ самостоятелни “ от видео платформата.

В последна сметка екип на OpenAI транскрибира повече от един милион часове видеоклипове в YouTube, споделиха хората. Екипът включваше Грег Брокман, президент на OpenAI, който персонално оказа помощ за събирането на видеоклиповете, споделиха двама от хората. След това текстовете бяха въведени в система, наречена GPT-4, която се смяташе за един от най-мощните изкуствени интелекти в света. модели и беше в основата на най-новата версия на чатбота ChatGPT.

теоретичен от набори от цифров текст, обхващащ до три трилиона думи, или почти два пъти повече от броя на думите, съхранявани в Бодлианската библиотека на Оксфордския университет, която е събрала ръкописи от 1602 година Най-ценените данни, A.I. съгласно откривателите е висококачествена информация, като да вземем за пример оповестени книги и публикации, които са деликатно написани и редактирани от експерти.

От години интернет — със уеб сайтове като Wikipedia и Reddit — бяха видимо безконечен източник на данни. Но както A.I. напредналите софтуерни компании търсеха повече складове. Гугъл и Meta, които имат милиарди консуматори, които създават поръчки за търсене и изявления в обществените медии всеки ден, бяха значително лимитирани от законите за дискретност и личните си политики да употребяват огромна част от това наличие за AI.

Ситуацията им е незабавна. Технологичните компании могат да ръководят висококачествените данни в интернет още през 2026 година, съгласно Epoch, проучвателен институт. Компаниите употребяват данните по-бързо, в сравнение с се създават.

„ Единственият на практика метод тези принадлежности да съществуват е, в случай че могат да бъдат подготвени на големи количества данни без би трябвало да лицензираме тези данни “, сподели Sy Damle, юрист, който съставлява Andreessen Horowitz, компания за рисков капитал от Силициевата котловина, за A.I. модели предходната година в обществена полемика за закона за авторското право. „ Необходимите данни са толкоз солидни, че даже груповото лицензиране в действителност не може да работи. “

Технологичните компании са толкоз жадни за нови данни, че някои създават „ синтетична “ информация. Това не са органични данни, основани от хора, а текст, изображения и код, които A.I. моделите създават — с други думи, системите се учат от това, което самите те генерират.

правосъдни каузи за авторски права и лицензиране. The Times съди OpenAI и Microsoft предходната година за потребление на предпазени с авторски права новинарски публикации без позволение за образование на AI. чатботове. OpenAI и Microsoft обявиха, че потреблението на публикациите е „ почтена приложимост “ или позволено според закона за авторското право, защото те трансформират творбите за друга цел.

Повече от 10 000 търговски групи, създатели, компании и други изпратиха мнения предходната година по отношение на потреблението на креативен творби от A.I. модели към Службата за авторско право, федерална организация, която приготвя насоки за това по какъв начин законът за авторското право се ползва в A.I. епоха.

Джъстин Бейтман, режисьор, някогашна актриса и създател на две книги, сподели на Службата за авторско право, че A.I. моделите заснемаха наличие – в това число нейните текстове и филми – без позволение или възнаграждение.

новаторска публикация за ИИ. което разпали апетита за онлайн данни.

Неговото умозаключение беше недвусмислено: колкото повече данни имаше за образование на огромен езиков модел – технологията, която ръководи онлайн чатботовете – толкоз по-добре би извършил. Точно както ученикът научава повече, като чете повече книги, огромните езикови модели могат по-добре да дефинират моделите в текста и да бъдат по-точни с повече информация.

„ Всички бяха доста сюрпризирани, че тези трендовете – тези закони за мащабиране, както ги назоваваме – бяха главно толкоз точни, колкото това, което виждате в астрономията или физиката “, сподели доктор Каплан, който разгласява публикацията с девет откриватели на OpenAI. (Сега той работи в започващия AI Anthropic.)

„ Мащабът е всичко, от което се нуждаете “ скоро се трансформира в съединителен зов за AI.

Изследователите от дълго време са употребявали огромни обществени бази данни с цифрова информация, с цел да разработят AI, в това число Wikipedia и Common Crawl, база данни с повече от 250 милиарда уеб страници, събрани от 2007 година насам. Изследователите постоянно „ чистеха “ данните, като премахваха омразата тирада и различен нежелателен текст, преди да го употребявате за образование на A.I. модели.

През 2020 година наборите от данни бяха дребни по днешните стандарти. Една база данни, съдържаща 30 000 фотоси от уеб страницата за фотоси Flickr, се смяташе за жизненоважен запас по това време.

След публикацията на доктор Каплан това количество данни към този момент не беше задоволително. Всичко се трансформира в „ просто да създадем нещата в действителност огромни “, сподели Брандън Дудерщад, основен изпълнителен шеф на Nomic, A.I. компания в Ню Йорк.

Забележка: Включва прогнози. Източник: Епоха.

Източник: nytimes.com