Световни новини без цензура!
Четири извода за надпреварата за натрупване на данни за ИИ.
Снимка: nytimes.com
New York Times | 2024-04-06 | 12:13:35

Четири извода за надпреварата за натрупване на данни за ИИ.

Онлайн данните отдавна са ценна стока. Години наред Meta и Google използват данни за насочване на своите онлайн реклами. Netflix и Spotify го използват, за да препоръчват повече филми и музика. Политическите кандидати се обърнаха към данните, за да научат към кои групи избиратели да насочат вниманието си.

През последните 18 месеца става все по-ясно, че цифровите данни също са от решаващо значение в развитието на изкуствения интелект. Ето какво трябва да знаете.

The успех на A.I. зависи от данните. Това е така, защото A.I. моделите стават по-точни и по-човешки с повече данни.

По същия начин, по който ученикът учи, като чете повече книги, есета и друга информация, големите езикови модели – системите които са в основата на чатботовете — също стават по-точни и по-мощни, ако им се подават повече данни.

GPT-3, пуснат през 2020 г., беше обучен на стотици милиарди „токени“, които по същество са думи или части от думи. По-нови големи езикови модели бяха обучени на повече от три трилиона токена.

Обикновено обхождане

Текст от уеб страници, събиран от 2007 г. насам.

Уикипедия

(3 милиарда токена)

Английски език

Страници в Уикипедия.

12

милиард

Книги 1 и Книги 2

OpenAI не е обяснил съдържанието на тези набори от данни. Смята се, че съдържат текст от милиони публикувани книги.

55 милиарда

410 милиарда токена

WebText2

Уеб страници, свързани от Reddit, които са получили три или повече гласа „за“ – индикация за одобрение от потребителите.

19 милиарда

WebText2

19 милиарда

Обикновено обхождане

410 милиарда токена

Книги 2

55 милиарда

Книги 1

12 милиарда

Уикипедия

Обикновено обхождане: Текст от уеб страници, събиран от 2007 г. насам.

 

WebText2

Уеб страници, свързани от Reddit, които са получили три или повече гласа „за“ – индикация за одобрение от потребителите.

 

Книги 1 и Книги 2: OpenAI не е обяснил съдържанието на тези набори от данни. Смята се, че съдържат текст от милиони публикувани книги.

 

Уикипедия: страници на Уикипедия на английски език.

Източник: OpenAI

От The New York Times

Източник: nytimes.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!