AI chat bot, Programmer using generative artificial intelligence for software development inside office. Virtual chatBot technology trend
Los principales diarios de Estados Unidos y Reino Unido han levantado barreras contra el rastreo masivo de sus publicaciones por parte de los robots de inteligencia artificial, una medida defensiva ante la negativa de las tecnológicas a ofrecer una compensación económica justa por el uso de noticias para alimentar sus modelos comerciales.
El ecosistema de los medios ha endurecido drásticamente su postura frente a las grandes tecnológicas durante el último año. Según los datos recopilados por Buzzstream y publicados por Press Gazette, el 79% de los sitios web de noticias más importantes en Estados Unidos y Reino Unido bloquea actualmente al menos un rastreador dedicado al entrenamiento de inteligencia artificial. Esta cifra supone un aumento significativo respecto a febrero de 2024, cuando el porcentaje de protección se situaba en el 61%, lo que evidencia una tendencia clara hacia el blindaje frente a la extracción no remunerada de información.
El análisis de las 50 cabeceras más influyentes permite trazar una línea divisoria clara en la industria. Un núcleo duro de editores, que representa el 34% del total, ha optado por una estrategia de tolerancia cero, bloqueando la totalidad de los 11 rastreadores de IA analizados. Entre las instituciones que lideran esta defensa de la propiedad intelectual figuran la BBC, The New York Times, The Daily Mail, The Telegraph y The Wall Street Journal. A este grupo de resistencia se suman también agencias y medios nativos digitales de gran alcance como AP News, Sky News, Business Insider, Buzzfeed y Huffpost.
En el extremo opuesto, existe todavía un 14% de los principales editores que mantienen sus puertas digitales completamente abiertas. Este grupo incluye a cabeceras como Fox News, The Independent, Politico o The Standard. Esta disparidad sugiere que, mientras una gran parte del sector busca forzar una negociación mediante la escasez de datos, otros actores apuestan por la visibilidad a cualquier precio o carecen de una estrategia unificada de bloqueo.
Para comprender el alcance de estas barreras es necesario distinguir entre los bots de entrenamiento (información histórica) y los de búsqueda en vivo. Según los datos del informe, el 71% de los medios ya bloquea específicamente a estos últimos, diseñados para leer la web en tiempo real y ofrecer respuestas actualizadas mediante recuperación de información.
La aceptación varía notablemente según el agente: el rastreador de Perplexity es el que cuenta con mayor permiso (admitido por 32 de los 50 sitios principales), seguido por el usuario de ChatGPT, permitido en 24 cabeceras. Ambos funcionan como buscadores que acceden al sitio para responder al instante. En el lado opuesto, los editores se muestran mucho más restrictivos con el entrenamiento puro: el rastreador de Anthropic es el menos permitido (solo ocho sitios), seguido de cerca por el archivo web CCBot, al que solo nueve medios abren sus puertas pese a ser la base fundamental de la mayoría de los modelos actuales.
La razón principal que impulsa este apagón no es técnica, sino comercial. Harry Clarkson-Bennett, director de SEO en The Telegraph, explicó a Buzzstream que los editores utilizan el archivo ‘robots.txt’ para bloquear el acceso porque «casi no existe intercambio de valor». Históricamente, los medios permitían el rastreo a cambio de tráfico de referencia, pero los Grandes Modelos de Lenguaje (LLM) rompen este pacto al retener al usuario con una producción interna, sin disposición a pagar por el contenido con el que se han entrenado.
La relación con Google plantea un desafío crítico adicional. La herramienta Google Extended permite a los editores evitar el entrenamiento de modelos como Gemini, pero no impide que sus contenidos aparezcan en los resúmenes automáticos de AI Overviews. Para evitar esto último, los medios tendrían que bloquear al indexador principal de búsqueda (Googlebot), una decisión calificada por el sector como una «elección poco deseable», ya que implicaría desaparecer de los resultados de búsqueda tradicionales. Actualmente, los editores estadounidenses lideran el uso de este bloqueo (58%) frente a sus homólogos británicos (29%).
Ante este escenario, Anthony Katsur, CEO de IAB Tech Lab, instó el pasado 21 de enero en el evento Techtonic a bloquear el rastreo, advirtiendo que «nunca es tarde» debido a la necesidad constante de la IA de actualizarse mediante la técnica de Generación Aumentada por Recuperación (RAG). Katsur recordó que es imposible consolidar un mercado si el producto se regala o se roba, y recomendó una unión sectorial para generar escasez y poner en valor el periodismo.
La tendencia del mercado anglosajón marca el camino: la acción colectiva es esencial para evidenciar la dependencia que tiene la IA de la información de calidad. Más allá del bloqueo inmediato, el sector avanza hacia soluciones estructurales como los Protocolos de Monetización de Contenido alternativos (CoMP) impulsados por el IAB Tech Lab. El objetivo es establecer un marco donde el acceso a la información se realice únicamente bajo controles estrictos, garantizando el respeto a la propiedad intelectual y asegurando un intercambio de valor justo.
El aumento del acoso digital y las amenazas con componente de género sigue marcando el…
Meta ha alcanzado un acuerdo con News Corp para utilizar contenidos de sus medios en…
Más de 1.000 directivos de medios de todo el mundo se reunirán en Marsella del…
Un estudio revela que las respuestas generadas con IA ya aparecen en casi el 30%…
El anteproyecto introduce un tope del 35% a los ingresos procedentes de publicidad institucional y…
El Confidencial celebra 25 años de trayectoria como uno de los grandes referentes del periodismo…