Ao ampliarem seus recursos de busca por informações atualizadas na internet, ferramentas de IA como o ChatGPT têm contornado os bloqueios de sites jornalísticos e exibido, em suas respostas aos usuários, trechos de reportagens e artigos que só estariam acessíveis a assinantes dos veículos de imprensa que os produziram.

A IA cita a fonte, mas revela boa parte do conteúdo dispensando o acesso do leitor ao site que produziu o texto, mesmo quando o material é bloqueado para quem não é assinante.

A prática cresce com a expansão dos recursos de IA que permitem respostas atualizadas a partir de pesquisas com informações on-line.

Esse tipo de uso abre uma nova frente de ações judiciais que apontam violações de direitos autorais por parte das plataformas, deixando em uma zona cinzenta publicações que nos últimos anos restringiram, por meio de bloqueios técnicos e contratuais, o uso de seus conteúdos no treinamento de modelos de IA. É o caso dos veículos da Editora Globo, que publica O Globo.

O ChatGPT, da OpenAI, pode entregar não só resumos detalhados, mas também trechos literais de reportagens e colunas de acesso restrito.

A partir do título da reportagem e do veículo, a IA acessa as informações e retorna com uma síntese, um texto adaptado e, caso seja solicitado, trechos originais, como mostraram testes feitos pelo Globo sobre o conteúdo do próprio jornal e de outros veículos.

Em um deles, foi solicitado ao chatbot um resumo detalhado do texto da colunista do Globo Malu Gaspar publicado em 3 de julho no site do jornal para assinantes com o título “Oposição vê Alexandre de Moraes ‘entre a cruz e a espada' na crise do IOF”, o que a ferramenta entregou.

Após um pedido de mais detalhes, o ChatGPT destrincha o conteúdo em quatro tópicos, com trechos parafraseados e citações originais, como a íntegra de uma declaração da senadora Damares Alves (Republicanos-DF) ao jornal. O chat ainda sugere que pode entregar mais detalhes: “posso compartilhar também como a coluna avalia o contexto político mais amplo".

A IA também respondeu com detalhes sobre um texto do mesmo dia de Ruy Castro, publicado no site da Folha de S.Paulo, sobre a responsabilização de envolvidos nos atos golpistas de 8 de janeiro, com resumo dos principais argumentos do autor, os casos dos dois réus citados no texto, e explicação do uso da metáfora “invertebrados e acoelhados” no título do texto.

De uma reportagem do Valor Econômico sobre o crescimento econômico de João Pessoa, o ChatGPT tira números sobre crescimento populacional e econômico da cidade, conta histórias de pessoas ouvidas e menciona exemplos de empreendimentos e investimentos citados no texto.

Parágrafos idênticos

Apesar de ser o mais popular, o ChatGPT não é o único a burlar sistemas de assinatura. Testes feito pelo Globo com o Grok, inteligência artificial da rede social X, e o Perplexity, que busca ser um buscador concorrente do Google, mas com respostas por IA, mostram que é possível extrair trechos inteiros de textos restritos. No caso da Perplexity, os resultados trazem parágrafos idênticos aos originais.

A exposição dos textos em detalhes cria um impasse para veículos que já declararam não autorizar o uso de seus conteúdos para treinar modelos de IA.

Embora bloqueios técnicos impeçam a incorporação aos modelos, são necessárias restrições adicionais para barrar respostas em tempo real com base nesses textos. Com a multiplicação de ferramentas e bots de IA, torna-se cada vez mais difícil identificar e bloquear todos os rastreadores.

Para Luca Belli, professor da FGV Direito Rio e coordenador do Centro de Tecnologia e Sociedade, há uma clara “apropriação indevida de propriedade intelectual” quando sistemas de IA contornam bloqueios para exibir trechos de textos.

Ele destaca que, mesmo quando os veículos proíbem o uso de conteúdo para treinos, não há como garantir que o conteúdo apresentado em respostas em tempo real não esteja também sendo incorporado ao aprendizado da IA:

— É realmente difícil imaginar que esse conteúdo seja utilizado somente para resumir e colocar referência, e não para aprimorar — diz Belli, que vê pouca transparência sobre as bases de dados que vêm sendo usadas pelos sistemas de IA.

Desde o lançamento das ferramentas de IA generativa, uma trincheira jurídica foi aberta em relação ao uso de conteúdo autoral. O caso mais emblemático é o do New York Times, que foi à Justiça contra a OpenAI pelo uso de seus artigos sem autorização para treinar seus sistemas.

A partir daquele ano, os modelos mais atuais incorporados ao ChatGPT são lançados com menos detalhes técnicos sobre as bases de dados utilizados.

Em 2024, a americana News Corp, dona do Wall Street Journal e do New York Post, processou a Perplexity por utilizar reportagens de seus veículos sem autorização.

Em fevereiro, uma coalizão formada por veículos como The Atlantic, Forbes e o britânico The Guardian entrou com ação contra a startup canadense Cohere, acusando-a de reproduzir de forma quase literal milhares de textos jornalísticos, inclusive aqueles protegidos por paywall.

Embora o uso de conteúdo jornalístico por sistemas de IA ainda esteja sem regulação específica no Brasil, a prática pode ser enquadrada como infração à legislação de direito autoral, na avaliação da advogada Luciana Minada, especialista em propriedade intelectual e sócia do escritório Kasznar Leonardos:

— Quando a IA entrega esses conteúdos a partir de um pedido do usuário, mesmo com base em releitura ou resumo detalhado, há sim risco de violação.

Para o presidente da ANJ, Marcelo Rech, há uma “apropriação indevida de conteúdo intelectual” nos casos das respostas geradas por reportagens. A ANJ recomenda o bloqueio técnico total ao acesso por rastreadores dessas ferramentas.

A utilização não autorizada de conteúdo jornalístico por sistemas de inteligência artificial representa uma violação de direitos autorais, avalia Antonio Claudio Ferreira Netto, diretor jurídico do Grupo Globo.

Segundo ele, tanto o uso de matérias protegidas para treinar modelos de IA quanto a geração de respostas baseadas nesses textos, inclusive os protegidos por paywall, configuram infrações à legislação brasileira. No caso dos sites que usam IA para reescrever e republicar matérias, ele diz que a violação é dupla:

— Nos casos de textos de IA que sejam similares ou cópias do conteúdo jornalístico original, se não houver autorização do veículo, haverá violação de direito autoral, nas modalidades de contrafação ou plágio. E mesmo que o resultado não tenha semelhança com o conteúdo jornalístico original, ainda assim haverá infração autoral se as matérias protegidas foram imputadas no sistema sem autorização do titular dos direitos — avalia.

Ferreira Netto defende a criação de um marco regulatório para IA que garanta a necessidade do consentimento e a remuneração pelo uso do conteúdo jornalístico. Ele acrescenta que o uso de conteúdo jornalístico mesmo para treinamento de modelos de IA depende de autorização do titular dos direitos.

