Световни новини без цензура!
Google пуска асистент „Project Astra“ в последния напредък на AI
Снимка: ft.com
Financial Times | 2024-05-14 | 20:12:19

Google пуска асистент „Project Astra“ в последния напредък на AI

Собственикът на Google Alphabet представи агент с изкуствен интелект, който може да отговаря на заявки в реално време за видео, аудио и текст, като част от редица инициативи, предназначени да покажат неговата мощ в AI и потушава критиките, че е изостанал от съперниците си.

Главният изпълнителен директор Сундар Пичай демонстрира новия „мултимодален“ AI асистент на гиганта от Силиконовата долина, наречен Project Astra, задвижван от подобрена версия на неговия модел Gemini, по време на годишна конференция за разработчици във вторник.

Astra беше част от поредица от съобщения за демонстриране на нова ориентирана към AI визия за Google. Той следва пускането на продукти и надградени AI модели от Big Tech съперници, включително Meta, Microsoft и техния партньор OpenAI.

Във видео демонстрация прототипът на AI асистент на Google реагира на гласови команди въз основа на анализ на това, през което вижда камера на телефона или когато използвате чифт смарт очила.

Той успешно идентифицира последователности от кодове, предложи подобрения на електрически схеми, разпозна квартал Кингс Крос в Лондон през обектива на камерата и напомни на потребителя къде е оставил очилата си.

Google планира да започне да добавя възможностите на Astra към своето приложение Gemini и към своите продукти тази година, каза Пичай. Въпреки това, той предупреди, че докато крайната „цел е да направим Astra безпроблемно достъпна“ в софтуера на компанията, тя ще бъде въведена предпазливо и „пътят към производството ще бъде воден от качеството“.

На конференцията , Google също направи големи промени в основната си търсачка. От тази седмица всички потребители в САЩ ще виждат „Преглед на AI“ – кратък генериран от AI обобщен отговор на заявката – в горната част на много често срещани резултати от търсене, последван от връзки, върху които може да се кликне, осеяни с реклами по-долу.

Компанията добави, че системата за търсене ще може да отговаря на сложни въпроси с многоетапно разсъждение – което означава, че AI агентът може да вземе няколко независими решения, за да изпълни задача – и да помогне на клиентите да генерират заявки за търсене с помощта на глас и видео.

„Намаляването на времето за реакция до нещо разговорно е трудно инженерно предизвикателство“, каза сър Демис Хасабис, ръководител на отдела за изследвания на AI DeepMind. „Удивително е да се види докъде е стигнал изкуственият интелект, особено що се отнася до пространственото разбиране, обработката на видео и паметта.“

Лиз Рийд, ръководител на търсенето в Google, каза, че целта е „да се премахнат някои от работата в търсенето” и този преглед на AI ще бъде разширен до потребители в други части на света по-късно тази година.

Промените идват, когато OpenAI застрашава бизнеса с търсене на Google.

Чатботът ChatGPT на базираната в Сан Франциско стартираща компания предоставя бързи и пълни отговори на много въпроси, заплашвайки да направи остарели резултати от търсенето, които предоставят традиционен списък с връзки заедно с рекламата. OpenAI също подписа споразумения с медийни организации за включване на актуална информация, за да подобри отговорите си.

Голямото четенеКак Google загуби позиции в надпреварата с AI

В понеделник — в ход, разглеждан като опит да се изпреварят съобщенията на Google — OpenAI демонстрира по-бърза и по-евтина версия на модела, който захранва ChatGPT, който може по подобен начин да интерпретира глас, видео, изображения и код в един интерфейс.

Google също разкри нови или подобрени AI продукти, включително Veo, който генерира видео от текстови подкани; Imagen 3, който създава картини; и Lyria, модел за генериране на AI музика. Абонатите на Gemini Advanced ще могат да създават персонализирани чатботове, наречени „Скъпоценни камъни“, за да помогнат при конкретни задачи.

Флагманският модел Gemini 1.5 Pro на компанията също е надграден. Сега има много по-голям контекстен прозорец от 2 милиона токена — отнасящи се до количеството данни като код или изображения, към които може да се позовава при генериране на отговор — което го прави по-добър при следване на нюансирани инструкции и препращане към по-ранни разговори.

Източник: ft.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!