май 16, 2024

Още един специализиран ИИ: Google представи Gemini Live – AI асистент с памет, естествена реч и компютърно зрение (видео)

Във вторник по време на конференцията Google I/O 2024 бе обявена нова функция за чатбота с изкуствен интелект на Gemini. Това е Gemini Live, която дава възможност на потребителите да водят „задълбочени“ гласови диалози с Gemini на своите смартфони. Потребителите могат да прекъсват Gemini по време на репликите му, за да задават уточняващи въпроси, а чатботът ще се адаптира към речта на потребителя в реално време. Освен това Gemini може да вижда и да реагира на заобикалящата потребителя среда, като използва камерите на смартфона или предоставени му снимки и видеа.

Gemini Live е в известен смисъл комбинация от платформата за компютърно зрение Google Lens и виртуалния асистент Google Assistant, както и тяхното по-нататъшно развитие. На пръв поглед Gemini Live не изглежда като радикално подобрение на съществуващата технология. Но Google твърди, че системата използва нови техники за генеративен изкуствен интелект, за да осигури по-добър и по-малко склонен към грешки анализ на изображенията, и комбинира тези техники с подобрен речеви енджин за по-последователен, емоционално изразителен и реалистичен многогласен диалог.

Техническите нововъведения, използвани в Gemini Live, се дължат отчасти на проекта Astra – новата инициатива на DeepMind за създаване на приложения и „агенти“, базирани на изкуствен интелект, които да разбират в реално време различни източници на данни – текст, аудио и изображения.

„Винаги сме искали да създадем универсален агент, който да е полезен в ежедневието“, заяви на брифинга Демис Хасабис, главен изпълнителен директор на DeepMind. – Представете си агенти, които могат да виждат и чуват какво правим, да разбират по-добре контекста, в който се намираме, и да реагират бързо в разговор, което прави темпото и качеството на взаимодействието много по-естествени“.

Gemini Live, който ще бъде представен едва по-късно тази година, ще може да отговаря на въпроси за предмети, които се намират в полезрението на камерата на смартфона (или наскоро са се намирали в него), като например в кой квартал се намира потребителят или името на счупена част от велосипед. Или пък потребителят ще може да насочи системата към част от компютърен код, а Live ще обясни за какво отговаря той. А когато попитате къде може да са очилата на потребителя, Gemini Live ще му каже къде ги е видял за последен път. А и колко лесно ще бъде намирането на изгубеното дистанционно управление на телевизора!

Live може да се превърне и в своеобразен виртуален наставник, като помага на потребителите да репетират реч за дадено събитие, да мислят за нови идеи и т.н. Live може да ви каже кои умения да подчертаете на предстоящо интервю за работа или стаж или да ви даде съвет за публично говорене.

Способността на Gemini Live да „помни“ какво се е случило наскоро е възможна благодарение на архитектурата на основния модел Gemini 1.5 Pro, както и на други „специфични“ генеративни модели, но в по-малка степен. Gemini 1.5 Pro има много голям контекстен прозорец, което означава, че може да поеме и обработи голямо количество данни – около час видео – преди да подготви отговора. Google отбеляза, че Gemini Live ще запомни всичко, което се е случвало през последните няколко часа.

Gemini Live прилича на генеративния изкуствен интелект, използван в очилата на Meta, които по подобен начин могат да разглеждат изображения, заснети от камера, и да ги интерпретират в почти реално време. Съдейки по демонстрациите, които Google показа по време на презентацията, Live също така много прилича на наскоро актуализирания ChatGPT на OpenAI.

Основната разлика между новия ChatGPT и Gemini Live е, че решението на Google няма да е безплатно. След като бъде пуснато, Live ще бъде ексклузивно за Gemini Advanced – по-сложна версия на Gemini, която е достъпна за абонатите на Google One AI Premium Plan срещу 20 долара на месец.

Може би като препратка към очилата на Meta, една от демонстрациите на Google показа човек, носещ AR очила, оборудвани с приложение, подобно на Gemini Live. Въпреки това Google, желаейки да избегне поредния провал със смарт очилата, отказа да каже дали този или подобен продукт с генеративен AI ще се появи на пазара в близко бъдеще.

source

Сподели: