O novo “botão rápido” da Cloudflare para bloquear todos os bots de IA está disponível para todos os clientes, incluindo os gratuitos. Para o ativar basta navegar até à secção Segurança > bots no painel de controlo do serviço da empresa e clicar no botão de alternância denominado “AI Scrapers and Crawlers”.
A Cloudflare diz que a ferramenta será constantemente atualizada, à medida que são encontradas novas impressões digitais de bots ofensivos, identificados como scrappers e crawlers para treino de modelos.
O lançamento deste “botão rápido” para bloquear a entrada de bots de IA dá continuidade às iniciativas da Cloudflare na proteção dos seus clientes. Em setembro de 2023, a empresa criou uma solução para os clientes escolherem as categorias de bots que podem ou não aceder aos seus sites, incluindo crawlers de IA.
Os bots que respeitam o robots.txt não usam conteúdo não-licenciado para treinar os seus modelos ou executar inferências com aplicações Retrieval-augmented generation (RAG) usando dados do site.
Um ficheiro robots.txt contém instruções que dizem aos bots quais as páginas Web a que podem ou não aceder, explica a Cloudflare. A RAG é uma técnica para melhorar a precisão e a fiabilidade dos modelos de IA generativa com factos obtidos a partir de fontes externas.
Segundo uma nota de imprensa da Cloudflare, algumas empresas de IA identificam claramente os seus bots, mas nem todas atuam com transparência.
A Cloudflare afirma que os seus clientes optam predominantemente por bloquear os bots de IA, mesmo que sigam as regras. Para a companhia é claro “que os clientes não querem bots de IA a visitar os seus sites, em particular aqueles que o fazem com desonestidade”.
Clique nas imagens para ver dados recolhidos pela Cloudflare sobre a atividade de bots:
A polémica está instalada quanto à moralidade dos caminhos usados pelas empresas de AI para recolher dados para o seu treino. Por exemplo, a Reddit anunciou que vai dar acesso a conversas e comentários em tempo real à OpenAI. Outro caso é o da Sony que avisou mais de 700 empresas que os seus conteúdos só podem ser usados em sistemas de IA com consentimento expresso. Entretanto, Scarlett Johansson alegou que a OpenAI imitou a sua voz para seu novo assistente pessoal sem o seu consentimento.
Uma reportagem recente da Wired revela que Amazon está a investigar se os bots que trabalham em nome Perplexity, um cliente da AWS, têm rastreado sítios Web, incluindo sítios de notícias, e reproduzido o seu conteúdo sem o devido crédito ou autorização.
Os clientes cloud da Amazon têm de obedecer ao robots.txt, o que alegadamente não terá sido respeitado. Aravind Srinivas, diretor executivo da empresa de IA, negou que a sua empresa estivesse a ignorar o ficheiro, embora tenha admitido que os bots de terceiros utilizados pela Perplexity foram os que foram observados a recolher páginas contra a vontade dos webmasters, explica a reportagem da Wired.
As empresas que estão a desenvolver grandes modelos de IA têm partilhado informação e declarações de que estar a trabalhar com transparência. Em agosto, a OpenAI publicou orientações sobre como bloquear o seu rastreador GPTbot utilizando uma diretiva robots.txt, presumivelmente consciente da preocupação com a possibilidade de o conteúdo ser extraído e utilizado para treino de IA sem consentimento.
A Google adotou medidas semelhantes no mês seguinte, altura em que a Cloudflare começou a oferecer o seu robots.txt.
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Wayther: uma nova app de previsões meteorológicas detalhadas para otimizar viagens -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários