TECNOLOGIA

Depois da OpenAI, Google revela como será o Gemini com interação por vídeo e áudio

Empresas trabalham para criar assistentes virtuais mais "humanas" e que interagem em tempo real; projeto do Google, revelado no I/O, foi chamado de "Astra"

GeminiGemini - Foto: Google/Divulgação

Um dia depois da OpenAI anunciar a nova versão do ChatGPT, que interage com o usuário por meio de imagens e áudio, o Google revelou como pretende criar funcionalidades multimodais também para o Gemini, o modelo de inteligência artificial da companhia.

Nesta terça-feira, durante o Google I/O, evento que acontece na Califórnia, nos EUA, a empresa apresentou o "Projeto Astra", uma assistente pessoal de IA que interage com os usuários em tempo real e que pode responder a perguntas a partir da interação com imagens exibidas pela câmera do celular.

Em uma demonstração apresentada na conferência, a IA do Astra é capaz de identificar objetos exibidos pelos usuários e também de armazenar e interpretar informações a partir do que "enxerga". No vídeo de divulgação do projeto, a assistente reconhece itens que são mostrados pela tela do celular, responde perguntas sobre eles e consegue "encontrar" objetos nas imagens.

As funcionalidades são similares às do GPT-4o, da OpenAI, que foi apresentado nesta segunda-feira e que será disponibilizado para os usuários ao longo das próximas semanas. Nos dois casos, o objetivo é o de ter IAs que se comunicam de forma o mais parecida possível com a fala de humanos, em interações que são feitas também por meio do vídeo.

A apresentação do Projeto Astra foi feita por Demis Hassabis, CEO do Google DeepMind, braço do Google dedicado a desenvolver sistemas de inteligência artificial. Ele destacou que a empresa tem trabalhado para melhorar a forma como a assistente se comunica e entende contexto.

— Esses agentes foram construídos em nosso modelo Gemini e em outros modelos específicos de tarefas, e foram projetados para processar informações mais rapidamente, codificando continuamente frames de vídeos, combinando a entrada de vídeo e fala em uma linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente.— disse Hassabis.

Segundo o Google, as funcionalidades do Projeto Astra devem estar disponíveis no Gemini até o final deste ano. Hassabis acrescentou que velocidade e latência das funcionalidades tem sido um dos desafios que a empresa ainda tenta superar.

Com o Astra e o GPT-4o, as empresas que têm liderado a corrida atual pela IA tentam dar mais um passo para tornar as ferramentas mais interativas. Na segunda-feira, Sam Altam comparou o GPT-4 a assistente virtual do filme "Her", de 2013.

Durante o Google I/O, a companhia também apresentou um novo modelo de inteligência artificial que gera vídeos ultrarrealistas, chamado Veo. O modelo gera imagens com resolução de 1080p e mais de um minuto de duração. O anúncio acontece três meses depois da OpenAI apresentar o Sora, IA que cria cenas realistas a partir de comandos simples de texto.

Veja também

"Integração da IA na indústria será mais lenta do que se imagina", diz CEO da Radiz
TECNOLOGIA

"Integração da IA na indústria será mais lenta do que se imagina", diz CEO da Radiz

Magda aposta em fertilizante: "Petrobras não rasgará dinheiro"
petrobras

Magda aposta em fertilizante: "Petrobras não rasgará dinheiro"

Newsletter