Tecnologia IA do Google cria podcasts em português sobre show da Lady Gaga e fraude no INSS; confira testes Recurso do NotebookLM, lançado em 74 idiomas, transforma documentos em áudios no estilo "mesa redonda"

"Depois que a música para e as luzes se apagam, o que realmente fica? Qual o legado de um evento assim?", questiona a voz de inteligência artificial ao encerrar um podcast de sete minutos sobre os preparativos para o show de Lady Gaga na praia de Copacabana, no próximo sábado.

O episódio não foi roteirizado, nem editado, mas criado pelo NotebookLM, ferramenta de inteligência artificial do Google. Voltado para análise de documentos e arquivos extensos, o sistema passou nesta semana a "falar" português.

O conteúdo é apresentado por duas vozes sintéticas, que simulam uma conversa e apontam os principais tópicos extraídos do material original.

Em poucos minutos, um relatório técnico com algumas dezenas de páginas ou um conjunto de arquivos pode ser transformado em um programa em áudio.

As vozes de IA destrincham os principais pontos dos documentos, com uma interação que inclui comentários breves, perguntas de uma voz para a outra e, geralmente, uma “reflexão” final sobre o tema.

Ao criar o podcast, o usuário pode definir o foco da conversa, o tom e o público-alvo. Disponível em inglês desde o ano passado, o recurso do NotebookLM passou nesta terça-feira a gerar os áudios em português e outros 75 idiomas, entre eles espanhol, russo, japonês, chinês e francês.

A ferramenta é gratuita, mas impõe limites à quantidade de episódios que podem ser gerados pelo usuário que não assinam os serviços de IA do Google.

O Globo testou a ferramenta com a geração de três áudios: dois baseados em documentos públicos e um a partir de 13 reportagens sobre o show de Lady Gaga, publicadas no site do jornal.

Os resultados (veja abaixo) impressionam pela fluidez da conversa e a forma como a IA organiza os principais pontos do material, em formato de "mesa redonda". Os áudios, no entanto, mostram uma simplificação excessiva em conteúdos complexos.

O que é o NotebookLM

Lançado em 2023 sob o nome de “Project Tailwind”, o NotebookLM deixou de ser uma ferramenta experimental do Google no ano passado, quando a empresa começou a posicioná-lo como um dos seus principais produtos de IA.

Diferentemente do ChatGPT, Gemini ou outro chatbot de inteligência artificial, ele tem como foco o processamento de arquivos enviados pelo próprio usuário.

Chamado de "Audio Overviews", o recurso de podcast foi lançado em setembro passado, inicialmente em inglês. Em diferentes idiomas, as vozes sintéticas soam intencionalmente naturais, o que inclui mudanças de entonação e pausas que “imitam” a fala humana.

Além dessa ferramenta, o NotebookLM tem recursos como a interação com documentos por meio de perguntas em texto e a criação de resumos, de guias de estudos e de linhas do tempo.

Na terça-feira, depois de uma atualização, o NotebookLM passou também a gerar “mapas” de conteúdo e integrar fontes externas, como Wikipedia e ArXiv, que podem ser consultadas a partir da plataforma. Também passou a ler integralmente arquivos PDF e Word, incluindo imagens e gráficos.

INSS, Lady Gaga e relatório do BC

Para gerar um episódio, é preciso entrar na ferramenta e fazer o upload do arquivo ou conjunto de arquivos. Do lado direito, há duas opções: de "grar" ou de "customizar".

A primeira gerará o áudio diretamente, após alguns minutos.

Ao escolher a segunda opção, é possível escrever instruções para a ferramenta, como de trazer um enfoque para determinado trecho ou assunto do documento.

Para criar um "podcast" em português, é preciso ajustar o idioma nas configurações e optar pelo português.

Primeiro, O Globo criou um áudio com base no relatório de 37 páginas da Controladoria Geral da União (CGU), de setembro, em que o órgão avaliava descontos em folha de pagamento do INSS entre 2023 e 2024, e indicava irregularidades sistemáticas nos valores cobrados.

"Hoje a gente mergulha em um tema delicado", afirma a voz de IA ao introduzir o tema. Em geral, os podcasts seguem formato semelhante: uma abertura com resumo do conteúdo e tema a ser tratado; desenvolvimento com perguntas e respostas; e uma conclusão com alguma reflexão. O áudio detalha as descobertas da CGU, os indícios de irregularidades e as respostas do INSS.

No caso do podcast da Lady Gaga, o "podcast" foi gerado a partir de 13 arquivos — reportagens publicadas no Globo sobre o show.

O áudio, com um tom mais leve, traz detalhes do evento, em tópicos, que vão das mudanças no trânsito em Copacabana até o esquema de hospedagem da artista na cidade. Segundo o Google, não há um limite de tempo para o áudio.

Nos três testes feitos pelo Globo, no entanto, o resultado ficou em cerca de 8 minutos.

No caso de um podcast sobre o Relatório de Política Monetária do Banco Central, de março, a apresentação diz que será “um mergulho” no documento.

No áudio, as vozes de IA destacam uma deterioração das expectativas da inflação e fazem um panorama da leitura do Banco Central (BC) do cenário externo e interno.

O resultado, no entanto, mostra alguma limitação para o programa sintetizar informações mais complexos.

Ao explicar o que é o "Audio Overviews", o Google alerta que a ferramenta não oferece "uma visão abrangente ou objetiva sobre um tema, mas apenas reflete o conteúdo das suas fontes". Também ressalta que o resultado é gerado por IA e, por tanto, pode conter "imprecisões e falhas".

Em coletiva de imprensa, Michael Chen e Usama Bin Shafqat, engenheiros de software do Google Labs, explicaram que a empresa está trabalhando para que a ferramenta tenha mais níveis de personalização, como seleção de vozes, sotaques e edição de roteiro.

O Google diz ainda que, em breve, lançará uma versão em aplicativo do programa. A expectativa é que o app tenha os mesmos recursos da versão para desktop.

Atualmente, todas as versões do áudio usam uma voz feminina e uma masculina por idioma, sem possibilidade de troca.

Segundo os engenheiros, a equipe buscou adaptar o estilo de fala aos usos coloquiais de cada idioma, incluindo expressões coloquiais e pausas naturais, como gaguejos e comentários entre uma fala e outra.

Eles admitem, no entanto, que pode haver inconsistências em algumas línguas.

