Cloudfare lança ferramenta para clientes bloquearem rastreadores de dados para IA
Sites, como os de publicadores de conteúdo, poderão impedir o acesso de bots on-line que buscam informações, muitas vezes sem autorização, para usar em ferramentas de inteligência artificial
A Cloudflare, empresa de tecnologia que ajuda sites a protegerem e gerenciarem seu tráfego na internet, anunciou nesta terça-feira que implementou uma nova configuração baseada em permissões que permite aos clientes bloquearem automaticamente empresas de inteligência artificial que coletam seus dados digitais — uma medida com implicações para publicadores e para a corrida no desenvolvimento da IA.
Com essa nova configuração, os sites podem bloquear — por padrão — bots on-line que vasculham seus dados, exigindo que o proprietário do site conceda acesso para que o bot colete o conteúdo, disse a empresa.
Antes, quem não fosse identificado pela Cloudflare como hacker ou agente malicioso podia acessar o site e extrair suas informações.
— Estamos mudando as regras da internet em toda a Cloudflare — disse Matthew Prince, CEO da empresa, que oferece ferramentas para proteger sites contra ataques cibernéticos e ajudar no carregamento mais eficiente de conteúdo. — Se você é um robô, agora terá que entrar em uma estrada com pedágio para obter o conteúdo desses publicadores.
Segundo Prince, a Cloudflare está fazendo essa mudança para proteger o conteúdo original na internet. Se empresas de IA utilizarem livremente dados de vários sites sem permissão ou pagamento, isso desestimulará as pessoas a criarem novo conteúdo digital, afirmou.
A empresa, que afirma que sua rede de servidores gerencia cerca de 20% do tráfego da internet, notou um forte aumento na presença de rastreadores de dados de IA na web.
O uso de dados para sistemas de IA se tornou uma questão cada vez mais controversa. OpenAI, Anthropic, Google e outras empresas vêm coletando enormes quantidades de informações da internet para treinar seus modelos de IA.
Dados de alta qualidade são especialmente valorizados porque ajudam os modelos a gerar respostas, vídeos e imagens mais precisas.
No entanto, publicadores de sites, autores, organizações de notícias e outros criadores de conteúdo acusam as empresas de IA de usar seu material sem autorização e sem compensação.
No mês passado, o Reddit processou a Anthropic, alegando que a startup usou ilegalmente os dados de seus mais de 100 milhões de usuários diários para treinar seus sistemas.
Em 2023, o The New York Times processou a OpenAI e sua parceira Microsoft, acusando-as de violação de direitos autorais ao utilizarem conteúdo jornalístico para alimentar sistemas de IA. A OpenAI e a Microsoft negaram essas acusações.
Revolução silenciosa: Drones do tamanho de insetos equipados com IA podem espionar, operar e cultivar; entenda
Alguns publicadores firmaram acordos de licenciamento com empresas de IA para receber compensações pelo uso de seu conteúdo. Em maio, o New York Times concordou em licenciar seu conteúdo editorial à Amazon para uso nas plataformas de IA da gigante tecnológica. Axel Springer, Condé Nast e News Corp. também firmaram acordos semelhantes para monetizar o uso de seu material.
Mark Howard, diretor de operações da Time Magazine, disse que recebeu com entusiasmo a iniciativa da Cloudflare. O rastreamento de dados por empresas de IA ameaça todos que produzem conteúdo, afirmou, acrescentando que publicações jornalísticas como a Time merecem compensação justa pelo que publicam.
Ainda assim, o que a Cloudflare está implementando “é apenas o primeiro, primeiro passo de um processo que será muito longo”, afirmou Howard:
— Mas é preciso começar de algum lugar, e em algum momento.
OpenAI, Anthropic e Google não responderam aos pedidos de comentário feitos pelo NYT.
Segundo Prince, a Cloudflare começou a considerar formas de ajudar os publicadores on-line há cerca de 18 meses. Durante décadas, atrair pessoas para visitar seus sites era a principal maneira de publicadores e criadores de conteúdo ganharem dinheiro, ele explicou.
Mas a IA alterou essa dinâmica, já que as pessoas passaram a recorrer cada vez mais a ferramentas como o ChatGPT, em vez de usar um mecanismo de busca ou acessar diretamente um artigo de fonte primária.
Prince disse estar “profundamente preocupado com o fato de que os incentivos para a criação de conteúdo estão mortos.” Em julho passado, a Cloudflare lançou uma configuração opcional para permitir que publicadores bloqueassem rastreadores de IA, se assim desejassem. Isso levou à implementação do bloqueio padrão nesta terça-feira.
Empresas de IA que não pagarem pelo conteúdo acabarão perdendo o acesso a ele, afirmou Prince:
— Tenho 100% de confiança de que podemos bloqueá-los de acessar o conteúdo. E se eles não conseguirem acessar o conteúdo, o produto deles será pior.