Надпреварата за захранван с изкуствен интелект личен асистент

В централата на Google в Маунтин Вю тази седмица мъж, облечен в пеньоар в цвят на дъгата, се появи от огромна чаша за кафе, за да даде жизнена, макар и донякъде сюрреалистична демонстрация на компанията най-новите постижения в генеративния AI.

На I/O събитието електронният музикант и YouTuber Marc Rebillet се занимаваше с музикален инструмент с изкуствен интелект, който може да генерира синхронизирани песни въз основа на подкани като „viola“ и „808 hip-hop beat“. ИИ, каза той на разработчиците, е измислил начини да „запълни по-редките елементи на моите цикли“. . . Това е като да имаш този странен приятел, който е точно като „опитайте това, опитайте онова“.

Това, което Rebillet описваше, е AI асистент, персонализиран бот, който трябва да ви помогне да работите, създавате или общувате по-добре, и интерфейс с цифровия свят от ваше име. Този нов клас продукти открадна светлината на прожекторите тази седмица сред множеството нови разработки на AI от Google и неговото подразделение за AI DeepMind, както и подкрепения от Microsoft OpenAI.

Компаниите едновременно обявиха серия от надградени AI инструменти, които са „мултимодални“, което означава, че могат да интерпретират глас, видео, изображения и код в един интерфейс, а също така да изпълняват сложни задачи като преводи на живо или планиране на семейна почивка.

Във видео демонстрация прототипът на AI асистент Astra на Google, задвижван от неговия модел Gemini, отговори на гласови команди въз основа на анализ на това, което вижда през камерата на телефона или при използване на чифт на интелигентни очила.

Той успешно идентифицира последователности от кодове, предложи подобрения на електрически схеми, разпозна района на Кингс Крос в Лондон през обектива на камерата и напомни на потребителя къде е оставил очилата си.

Междувременно, при представянето на продукта на OpenAI в понеделник, главният технологичен директор Мира Мурати и нейните колеги демонстрираха как техният нов AI модел, GPT4o, може да извършва гласов превод в разговор на живо и по подобен начин да взаимодейства с потребителя, използвайки антропоморфизиран тон и глас за анализиране на текст, изображения, видео и код. „Това е изключително важно, защото гледаме към бъдещето на взаимодействието между нас и машините“, казва Мурати пред FT.

Въпреки че интелигентните асистенти, захранвани от AI, се развиват от почти десетилетие, тези най-новите постижения позволяват по-гладко и по-бързо гласово взаимодействие и превъзходни нива на разбиране благодарение на големите езикови модели (LLM), които захранват новите AI модели. Сега е в ход нова битка сред технологичните групи за предоставяне на така наречените AI агенти на потребителите.

Те се разбират най-добре като „интелигентни системи“, каза главният изпълнителен директор на Google Сундар Пичай тази седмица, „които показват разсъждения, планиране и памет, могат да „мислят“ няколко стъпки напред и да работят със софтуер и системи, всичко това, за да направим нещо от ваше име”.

Освен Google и OpenAI, Apple се очаква да бъде основен играч в тази надпревара. Инсайдери в индустрията очакват, че значителна надстройка на гласовия асистент на Apple, Siri, е на хоризонта, тъй като компанията пуска нови AI чипове, проектирани вътрешно и способни да захранват генеративни модели на устройството.

Междувременно Meta вече пусна AI асистент в своите платформи Facebook, Instagram и WhatsApp в повече от дузина държави през април. Стартиращи фирми като Rabbit и Humane също се опитват да навлязат в пространството, като проектират продукти, които действат като самостоятелни AI помощници.

Въпреки че анализаторите посочват, че големите съобщения от тази седмица остават до голяма степен „изпарени“ - концепции, а не реални продукти — за наблюдателите в индустрията е ясно, че AI асистентите или агентите ще бъдат ключови за предоставянето на най-новата AI технология на масите.

„Без съмнение е, това е моментът за личен [изкуствен] интелект“, казва Мустафа Сюлейман, главен изпълнителен директор на Microsoft AI, който не е участвал в нито едно издание тази седмица. Сюлейман преди това основа Inflection, стартираща компания, изграждаща фокусиран върху потребителите AI асистент, известен като Pi, който той напусна през март.

„Силиконовата долина винаги е разглеждала технологиите като функционална полезност – да прави нещата ефективно и бърз. Но това е някак си невероятно – тези инструменти вече са в творческата област на производителите на продукти“, казва той. „Технологията е достатъчно узряла, за да е нов вид глина, с която всички можем да изобретим и . . . виждаме, че това се налага сега.“

От почти десетилетие технологичните групи се състезават да предоставят AI на потребителите чрез виртуални асистенти като Siri на Apple, Cortana на Microsoft и Alexa на Amazon, която сега е вградена в редица на устройства.

Google, например, представи AI Assistant още през 2016 г., като Pichai рисува картина на пост-смартфонния свят, където интелигентността е вградена във всичко - от високоговорители до очила.

Но осем години по-късно смартфонът все още е основен потребителски интерфейс към мрежата. Големите предизвикателства пред масовото внедряване са забавянето или бавните реакции от агентите на ИИ, както и грешките в тяхното разбиране и изпълнение на човешки инструкции и нужди.

Появата през 2017 г. на технологията в основата на чатботове като ChatGPT, Gemini и Claude, известна като трансформатор, значително подобри технологиите, които са в основата на AI асистентите, като обработка на естествен език.

p>Но за изграждането на AI асистенти, които обществеността иска да използва, „убийствената функция е скоростта“, според технологичния анализатор Бен Томпсън, който пише влиятелния индустриален бюлетин Stratechery.

„Когато преминеш прага на скорост и латентност, тогава е забавно. Насладата . . . и игривостта, когато получавате тази незабавна обратна връзка, е толкова различна от това да седите и чакате . . . тогава е като салонен трик,” каза той в подкаста Sharp Tech тази седмица.

Томпсън каза, че е забелязал това в контекста на Google и неговия AI режим на търсене, известен като Search Generative Experience, който предоставя генерирани от AI отговори на запитвания, заедно с традиционния списък с връзки.

„Става толкова бързо и толкова последователно, че го използвам повече и честно казано използвам ChatGPT по-малко, дори не нарочно“, каза той. „Google знае това по-добре от всеки друг – те знаят, че всяка милисекунда има значение в това доколко са ангажирани хората.“

Но водещият бот на OpenAI не е мързелив. Версия на неговия модел GPT4o успя да превежда плавно между италиански и английски в разговор в реално време. Моделът също показа разговорлив, макар и леко флиртуващ тон, когато разговаряше с мъжете инженери на сцената. С OpenAI „истинските подобрения са в потребителското изживяване и действителния продукт ChatGPT“, каза Томпсън. „Това е необходимо, за да спечелим в потребителските [технологии], в много по-голяма степен, отколкото в предприятията.“

Чакането на крилата обаче е Apple. Инвеститорите бяха нетърпеливи да научат повече за плановете на компанията за AI, тъй като цената на акциите й се понижи тази година в сравнение с Alphabet и Amazon.

Тази седмица OpenAI обяви, че е сключила сделка с Apple за създаване на десктоп приложение за Mac. Твърди се също, че производителят на iPhone проучва по-нататъшни потенциални партньорства както с OpenAI, така и с Google Gemini, като същевременно наема експерти и издава научни статии, които дават рядка представа за работата му зад кулисите при изграждането на AI модели.

Вътрешни хора Кажете, че предимството на Apple се крие в неговата масивна съществуваща потребителска база, с повече от 2,2 милиарда активни устройства по целия свят, което я поставя в позиция да управлява процеса на това как хората интегрират генеративни инструменти като виртуални асистенти в ежедневието си.

Apple вероятно ще създаде „технология Siri от следващо ниво“ в партньорство с OpenAI, прогнозира анализаторът на Wedbush Дан Айвс. Асистент, способен да изпълнява сложни задачи за потребители на iPhone, може в крайна сметка да бъде превърнат в платена абонаментна услуга, каза той в бележка - подобно на начина, по който компанията в момента монетизира други услуги като iCloud.

След демонстрацията на OpenAI на В понеделник анализаторите на Bank of America повториха своя рейтинг за купуване на акциите на Apple, като казаха, че подчертават потенциала, който виртуалните асистенти и AI функциите представят за разработчиците на приложения в нейната екосистема App Store, която вече носи на Apple между 6 и 7 милиарда долара от комисионни всяко тримесечие , според оценки на Sensor Tower.

Предимството на Google обаче е в пакета от потребителски приложения, които предлага, от имейл до инструменти за календар, където могат да бъдат интегрирани AI агенти.

„Винаги сме искали да създадем универсален агент, който да бъде полезен в ежедневието. Нашата работа, правейки тази визия реалност, датира от много, много години. Ето защо направихме [чатбота] Gemini мултимодален от самото начало“, каза Демис Хасабис, главен изпълнителен директор на Google DeepMind, пред репортери тази седмица.

„Във всеки един момент ние обработваме поток от различна сензорна информация, осмисляме я и вземаме решения. Представете си агенти, които могат да виждат и чуват какво правим, да разбират по-добре контекста, в който се намираме, и да реагират бързо в разговор, правейки темпото и качеството на взаимодействие да се чувстват много по-естествени.“

Въпреки компаниите за изкуствен интелект опитвайки се да създадат потребителски ботове, които могат да помагат в ежедневните задачи, може да мине известно време, преди да станат ежедневна реалност.

Създаването на съдържание, генерирано от AI, е все още в начален стадий и понякога е склонно до грешки и „халюцинации“ или фабрикуване на невярна информация. Това може да се превърне в голям проблем, ако асистентът изпълнява задачи, свързани с работата, където точността, а не креативността е от решаващо значение.

Разрастването също е огромно предизвикателство, казва Сюлейман. „Това е хиперконкурентен пазар . . . въпроси за дистрибуцията и марката — Apple и Google . . . имат големи предимства в този смисъл.”

Сюлейман се премести в Microsoft през март, след като неговият стартъп Inflection се обърна от потребителски фокус към корпоративен модел. „[Pi] беше дълбоко ангажиран продукт, но достигането до голям мащаб като Gemini е супер предизвикателство.“

Но Брет Тейлър, председател на борда на OpenAI и главен изпълнителен директор на нов стартиращ AI агент Sierra , казва, че изместването на съществуващите потребителски интерфейси предлага възможности за редица компании.

„При големи технологични промени стартиращите фирми могат да се откроят и да успеят, защото не е задължително да има пазарен лидер в момента“, казва той.

Докато големите технологични компании и техните партньори може да са в най-добра позиция да се възползват от настоящия момент, главният AI учен на Meta Yann LeCun казва, че ще трябва да отворят своите модели, за да разширят AI асистентите извън отделните страни на запад.

„В новото бъдеще всяко едно взаимодействие с дигиталния свят ще бъде чрез някакъв вид AI асистент. Ние ще говорим с тези AI асистенти през цялото време. Цялата ни дигитална диета ще бъде медиирана от AI системи“, каза той на събитие на Meta в Лондон миналия месец. „Това не може да се направи от компании на западния бряг на САЩ. Имаме нужда от тях да бъдат разнообразни.“

Допълнителен репортаж от Майкъл Актън и Джордж Хамънд в Сан Франциско

Източник: ft.com

Последвайте ни в