Cloudflare ha introducido una nueva función gratuita en sus servicios de Internet. Esta herramienta bloquea automáticamente los bots de Inteligencia Artificial (IA).
Su propósito es evitar que estos bots realicen ‘web scraping’ en los sitios web de sus clientes.
El avance de la IA generativa ha aumentado la demanda de contenido para entrenar modelos o ejecutar inferencias. El ‘web scraping’ es uno de los métodos más comunes para obtener estos datos.
EL USO DE DATOS PARA ENTRENAR LA IA
Este proceso legal utiliza software para extraer contenido HTML de sitios web. Luego, filtra y almacena la información necesaria para entrenar modelos de IA.
Algunas empresas que desarrollan herramientas basadas en IA identifican los bots de raspado web. Sin embargo, no todas las compañías son tan transparentes.
Cloudflare ha declarado que sus clientes desean proteger sus sitios web de los bots de IA, especialmente de aquellos que actúan de manera deshonesta.
CLOUDFLARE BUSCA OFRECER UNA INTERNET SEGURA
El objetivo es impedir que realicen ‘web scraping’ y recopilen datos.
La compañía ha comunicado esta novedad a través de su sitio web. Cloudflare busca mantener una Internet segura para los creadores de contenido.
Quiere evitar que los datos de los sitios de sus clientes sean usados para entrenar IA.
La función está disponible con un solo clic. Todos los clientes de Cloudflare pueden acceder a ella, incluso los que usan el nivel gratuito del servicio.
COMO ACTIVAR LA FUNCIÓN
Esto incluye la aplicación 1.1.1.1 y la plataforma SASE & SSE. Para activar la función, los usuarios deben ir al menú ‘Seguridad’ y seleccionar ‘Bots’.
Luego, deben activar la opción ‘Raspadores y rastreadores de IA’. Esto bloqueará los bots que intentan raspar contenido para entrenar modelos de IA.
Cloudflare actualizará esta función automáticamente. Agregará nuevas huellas de bots infractores identificados como “rastreadores web de gran alcance”.
La actualización se basará en el análisis del tráfico en su red, proporcionando un conocimiento integral sobre la actividad de los rastreadores de IA.
BOTS DE IA MÁS UTILIZADOS ACTUALMENTE
Cloudflare ha lanzado una nueva función para bloquear bots de IA en sitios web. Además, ha compartido datos sobre el uso actual de bots para ‘web scraping’.
Según sus análisis, los bots más comunes en su red incluyen Bytespider de ByteDance, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI.
Bytespider ha intentado acceder al 40,40% de los sitios web clientes de Cloudflare. GPTBot sigue de cerca con un 35,46% de acceso. ClaudeBot, en cambio, ha accedido al 11,17% de los sitios.
EL ACCESO DE LOS BOTS DE IA
Cloudflare advierte que muchos clientes podrían no saber que estos rastreadores de IA están activos en sus sitios web.
A pesar de la alta actividad de los bots, la compañía sugiere que los usuarios deben estar atentos a estas visitas.
Cloudflare ha revelado que en junio, los bots de IA accedieron al 39% de las propiedades más importantes en Internet que utilizan su servicio.
EL OBJETIVO DE OFRECER UN CONTROL TOTAL
Solo el 2,98% de estas webs tomó medidas para bloquear dichas solicitudes. La compañía afirma que seguirá trabajando para proteger a los creadores de contenido.
Su objetivo es permitirles mantener el control total sobre cómo se utilizan sus datos para entrenar modelos de IA.
Otras plataformas también están tomando medidas similares. Reddit, por ejemplo, planea actualizar su Protocolo de Exclusión de Robots (robots.txt).
La actualización bloqueará el acceso de bots automatizados a sus datos públicos para evitar el raspado de datos.
Fuente: EP.