NBC News | 2024-02-20 | 16:24:52

Все още ли сте по-умни от AI? Има начин да следите

Кой е най-мощният модел на изкуствен интелект във всеки един момент? Проверете класациите.

Изградените от общността класации на AI модели, публикувани публично онлайн, набраха популярност през последните месеци, като предлагат поглед в реално време към продължаващата битка между големите технологични компании за надмощие на AI .

Броят на класациите се увеличи през последните месеци. Всеки проследява кои AI модели са най-напреднали въз основа на способността им да изпълняват определени задачи. AI моделът в основата си е набор от математически уравнения, обвити в код, предназначен за постигане на определена цел.

Някои по-нови участници, като Gemini на Google (бивш Bard) и Mistral-Medium от базираната в Париж стартираща компания Mistral AI, предизвикаха вълнение в общността на AI и се бориха за места близо до върха на класацията.

GPT-4 на OpenAI обаче продължава да доминира.

„Хората се интересуват от състоянието на техниката“, каза Ying Sheng, създател на една такава класация, Chatbot Arena, и докторант по компютърни науки в Станфордския университет. „Мисля, че хората всъщност биха искали повече да видят, че класациите се променят. Това означава, че играта все още е там и има още подобрения, които трябва да се направят.”

Класирането се основава на тестове, които определят на какво са способни AI моделите като цяло, както и кой модел може да е най-компетентен за конкретна употреба, като разпознаване на реч. Тестовете, понякога наричани също бенчмаркове, измерват производителността на AI по такива показатели, като как звучи човешко AI аудио или как изглежда човешкият отговор на чатбот с AI.

Еволюцията на такива тестове също е важна, тъй като AI продължава да напредва.

„Сравнителните показатели не са перфектни, но към момента това е един вид единственият начин, по който трябва да оценим системата,“ каза Ванеса Парли, директор на изследвания в Станфордския институт за изкуствен интелект, ориентиран към човека.

Институтът изготвя Stanford's AI Index, годишен доклад, който проследява техническата производителност на моделите на AI чрез различни показатели във времето. Миналогодишният доклад разглежда 50 бенчмарка, но включва само 20, каза Парли, а тази година отново ще премахне някои по-стари бенчмаркове, за да открои по-нови, по-изчерпателни.

Кластите също предлагат бърз поглед точно колко модела се разработват. Open LLM (модел на голям език) Leaderboard, създаден от Hugging Face, платформа за машинно обучение с отворен код, е оценил и класирал повече от 4200 модела към началото на февруари, всички изпратени от членове на общността.

Моделите се проследяват по седем ключови бенчмарка, които имат за цел да оценят различни способности, като разбиране при четене и решаване на математически проблеми. Оценките включват тестване на моделите по въпроси от началното училище по математика и природни науки, тестване на техните разумни разсъждения и измерване на склонността им да повтарят дезинформация. Някои тестове предлагат отговори с множество възможности за избор, докато други карат моделите да генерират свои собствени отговори въз основа на подкани.

Посетителите могат да видят как се представя всеки модел при конкретни показатели, както и какъв е средният му резултат е като цяло. Нито един модел все още не е постигнал перфектен резултат от 100 точки на който и да е бенчмарк. Smaug-72B, нов AI модел, създаден от базираната в Сан Франциско стартираща фирма Abacus.AI, наскоро стана първият, надхвърлил среден резултат от 80.

Много от LLM вече са надминавайки базовото ниво на производителност на човека при такива тестове, което показва това, което изследователите наричат „насищане“. Томас Улф, съосновател и главен научен директор на Hugging Face, каза, че това обикновено се случва, когато моделите подобрят способностите си до степен, в която надхвърлят специфични сравнителни тестове - подобно на това, когато ученик се премести от средно училище в гимназия - или когато моделите са запомнили как да отговарят на определени тестови въпроси, концепция, наречена „пренастройване“.

Когато това се случи, моделите се справят добре с по-рано изпълнени задачи, но се затрудняват в нови ситуации или при варианти на старите задача.

„Наситеността не означава, че ставаме „по-добри от хората“ като цяло“, пише Wolf в имейл. „Това означава, че при определени бенчмаркове моделите вече са достигнали точка, в която настоящите бенчмаркове не оценяват правилно възможностите им, така че трябва да проектираме нови.“

Някои бенчмаркове са били наоколо в продължение на години и става лесно за разработчиците на нови LLMs да обучават своите модели на тези тестови набори, за да гарантират високи резултати при пускането им. Chatbot Arena, класация, основана от междуучилищна отворена изследователска група, наречена Large Model Systems Organisation, има за цел да се бори с това, като използва човешки принос за оценка на AI модели.

Парли каза, че това също е един от начините изследователите се надяват да проявят креативност в начина, по който тестват езиковите модели: като ги оценяват по-холистично, вместо да разглеждат един показател наведнъж.

„Особено защото виждаме как по-традиционните бенчмаркове се насищат, въвеждането на човешка оценка ни позволява да достигнем до определени аспекти, които компютрите и по-базираните на код оценки не могат“, каза тя.

Chatbot Arena позволява на посетителите да задават всеки въпрос, който искат, на два анонимни AI модела и след това да гласуват кой chatbot дава по-добър отговор.

Неговата класация се класира около 60 модела, базирани на повече от 300 000 човешки гласа досега. Трафикът към сайта се е увеличил толкова много след стартирането на класацията преди по-малко от година, че Арената вече получава хиляди гласове на ден, според нейните създатели, а платформата получава толкова много заявки за добавяне на нови модели, че не може да поеме. всички тях.

Създателят на Chatbot Arena Wei-Lin Chiang, докторант по компютърни науки в Калифорнийския университет-Бъркли, каза, че екипът е провел проучвания, които показват, че гласуването на тълпата дава резултати почти толкова високо качество, сякаш са наели човешки експерти да тестват чатботовете. Неизбежно ще има извънредни стойности, каза той, но екипът работи върху създаването на алгоритми за откриване на злонамерено поведение от анонимни избиратели.

Колкото и полезни да са сравнителните показатели, изследователите също така признават, че не са всички- обхващащ. Дори ако даден модел има добри резултати при сравнителни показатели за разсъждение, той все още може да се представи по-слабо, когато става въпрос за конкретни случаи на употреба като анализиране на правни документи, пише Wolf, съоснователят на Hugging Face.

Ето защо някои Любителите обичат да провеждат „проверки на вибрациите“ на AI модели, като наблюдават как се представят в различни контексти, добави той, като по този начин оценяват колко успешно тези модели успяват да се ангажират с потребителите, да запазят добра памет и да поддържат последователни личности.

Въпреки несъвършенствата на сравнителния анализ, изследователите казват, че тестовете и класациите все още насърчават иновациите сред разработчиците на изкуствен интелект, които трябва постоянно да повишават летвата, за да бъдат в крак с най-новите оценки.

Анджела Янг

Източник: nbcnews.com

Последвайте ни в