O ChatGPT agora pode gerar imagens - e elas são surpreendentemente detalhadas. A OpenAI, startup de inteligência artificial dona do sistema, incorporou a tecnologia do gerador de imagens DALL-E e lançou uma nova versão a um pequeno grupo de pessoas para experimentar. Agora, os usuários podem usar o chatbot para produzir imagens digitais simplesmente descrevendo o que desejam ver.

Segundo a empresa, a tecnologia agora produz imagens mais convincentes do que as versões anteriores. O sistema está mais refinado para gerar imagens contendo letras, números e mãos humanas, disse a OpenAI.

"É muito melhor para compreender e representar o que o usuário está pedindo" disse Aditya Ramesh, pesquisadora da OpenAI, acrescentando que a tecnologia foi construída para ter uma compreensão mais precisa da língua inglesa.

Imagem gerada por inteligência artificial (Foto: Reprodução)

"Hub" de IA generativa

Ao integrar a versão mais recente do DALL-E ao ChatGPT, a OpenAI dá mais um passo em direção à criação de um hub da inteligência artificial generativa capaz de produzir texto, imagens, sons, software e outras mídias digitais por conta própria. Desde que o ChatGPT se tornou viral no ano passado, ele deu início a uma corrida entre os gigantes da tecnologia do Vale do Silício para estar na vanguarda da IA com avanços.

Na terça-feira (19), o Google lançou uma nova versão de seu chatbot, Bard, que se conecta a vários dos serviços mais populares da empresa - incluindo Gmail, YouTube e Docs. Midjourney e Stable Diffusion, dois outros geradores de imagens, também atualizaram seus modelos recentemente.

DALL-E 3 tende a gerar imagens mais estilizadas do que fotorrealistas (Foto: Reprodução)

Integração com serviços on-line

A OpenAI há muito oferece maneiras de conectar seu chatbot a outros serviços online, incluindo Expedia, OpenTable e Wikipedia. Mas esta é a primeira vez que a startup combina um chatbot com um gerador de imagens.

Em uma demonstração esta semana, Gabriel Goh, pesquisador da OpenAI, mostrou como o ChatGPT agora pode gerar descrições textuais detalhadas que são então usadas para produzir imagens. Mas como todos os geradores de imagens – e outros sistemas de IA – também está sujeito a erros, disse Goh.

DALL-E 3 só estará disponível para ChatGPT Plus

Enquanto trabalha para refinar a tecnologia, a OpenAI não compartilhará o DALL-E 3 com o público em geral até o próximo mês. O DALL-E 3 estará então disponível através do ChatGPT Plus, um serviço que custa US$ 20 por mês.

A tecnologia de geração de imagens pode ser usada para espalhar grandes quantidades de desinformação online, alertaram os especialistas. Para se proteger contra isso, com o DALL-E 3, a OpenAI incorporou ferramentas projetadas para prevenir assuntos problemáticos, como imagens sexualmente explícitas e representações de figuras públicas. A empresa também está tentando limitar a capacidade do DALL-E de imitar estilos de artistas específicos.

Risco de desinformação

Sandhini Agarwal, pesquisadora da OpenAI com foco em segurança e política, disse que o DALL-E 3 tende a gerar imagens mais estilizadas do que fotorrealistas. Ainda assim, ela reconheceu que o modelo poderia ser levado a produzir cenas convincentes, como o tipo de imagens granuladas capturadas por câmeras de segurança.

Na maior parte, a OpenAI não planeja bloquear conteúdo potencialmente problemático proveniente do DALL-E 3. Agarwal disse que tal abordagem era “muito ampla” porque as imagens podem ser perigosas dependendo do contexto em que aparecem.

"Realmente depende de onde está sendo usado, como as pessoas estão falando sobre isso" disse ela.

