Inteligencia Artificial

El 79% de los grandes medios internacionales bloquea el acceso a la IA para frenar la explotación de sus contenidos

Los principales diarios de Estados Unidos y Reino Unido han levantado barreras contra el rastreo masivo de sus publicaciones por parte de los robots de inteligencia artificial, una medida defensiva ante la negativa de las tecnológicas a ofrecer una compensación económica justa por el uso de noticias para alimentar sus modelos comerciales.

El ecosistema de los medios ha endurecido drásticamente su postura frente a las grandes tecnológicas durante el último año. Según los datos recopilados por Buzzstream y publicados por Press Gazette, el 79% de los sitios web de noticias más importantes en Estados Unidos y Reino Unido bloquea actualmente al menos un rastreador dedicado al entrenamiento de inteligencia artificial. Esta cifra supone un aumento significativo respecto a febrero de 2024, cuando el porcentaje de protección se situaba en el 61%, lo que evidencia una tendencia clara hacia el blindaje frente a la extracción no remunerada de información.

El análisis de las 50 cabeceras más influyentes permite trazar una línea divisoria clara en la industria. Un núcleo duro de editores, que representa el 34% del total, ha optado por una estrategia de tolerancia cero, bloqueando la totalidad de los 11 rastreadores de IA analizados. Entre las instituciones que lideran esta defensa de la propiedad intelectual figuran la BBC, The New York Times, The Daily Mail, The Telegraph y The Wall Street Journal. A este grupo de resistencia se suman también agencias y medios nativos digitales de gran alcance como AP News, Sky News, Business Insider, Buzzfeed y Huffpost.

En el extremo opuesto, existe todavía un 14% de los principales editores que mantienen sus puertas digitales completamente abiertas. Este grupo incluye a cabeceras como Fox News, The Independent, Politico o The Standard. Esta disparidad sugiere que, mientras una gran parte del sector busca forzar una negociación mediante la escasez de datos, otros actores apuestan por la visibilidad a cualquier precio o carecen de una estrategia unificada de bloqueo.

Rastreadores en tiempo real: los más bloqueados

Para comprender el alcance de estas barreras es necesario distinguir entre los bots de entrenamiento (información histórica) y los de búsqueda en vivo. Según los datos del informe, el 71% de los medios ya bloquea específicamente a estos últimos, diseñados para leer la web en tiempo real y ofrecer respuestas actualizadas mediante recuperación de información.

La aceptación varía notablemente según el agente: el rastreador de Perplexity es el que cuenta con mayor permiso (admitido por 32 de los 50 sitios principales), seguido por el usuario de ChatGPT, permitido en 24 cabeceras. Ambos funcionan como buscadores que acceden al sitio para responder al instante. En el lado opuesto, los editores se muestran mucho más restrictivos con el entrenamiento puro: el rastreador de Anthropic es el menos permitido (solo ocho sitios), seguido de cerca por el archivo web CCBot, al que solo nueve medios abren sus puertas pese a ser la base fundamental de la mayoría de los modelos actuales.

La ruptura del intercambio de valor

La razón principal que impulsa este apagón no es técnica, sino comercial. Harry Clarkson-Bennett, director de SEO en The Telegraph, explicó a Buzzstream que los editores utilizan el archivo ‘robots.txt’ para bloquear el acceso porque «casi no existe intercambio de valor». Históricamente, los medios permitían el rastreo a cambio de tráfico de referencia, pero los Grandes Modelos de Lenguaje (LLM) rompen este pacto al retener al usuario con una producción interna, sin disposición a pagar por el contenido con el que se han entrenado.

La relación con Google plantea un desafío crítico adicional. La herramienta Google Extended permite a los editores evitar el entrenamiento de modelos como Gemini, pero no impide que sus contenidos aparezcan en los resúmenes automáticos de AI Overviews. Para evitar esto último, los medios tendrían que bloquear al indexador principal de búsqueda (Googlebot), una decisión calificada por el sector como una «elección poco deseable», ya que implicaría desaparecer de los resultados de búsqueda tradicionales. Actualmente, los editores estadounidenses lideran el uso de este bloqueo (58%) frente a sus homólogos británicos (29%).

El camino a seguir

Ante este escenario, Anthony Katsur, CEO de IAB Tech Lab, instó el pasado 21 de enero en el evento Techtonic a bloquear el rastreo, advirtiendo que «nunca es tarde» debido a la necesidad constante de la IA de actualizarse mediante la técnica de Generación Aumentada por Recuperación (RAG). Katsur recordó que es imposible consolidar un mercado si el producto se regala o se roba, y recomendó una unión sectorial para generar escasez y poner en valor el periodismo.

La tendencia del mercado anglosajón marca el camino: la acción colectiva es esencial para evidenciar la dependencia que tiene la IA de la información de calidad. Más allá del bloqueo inmediato, el sector avanza hacia soluciones estructurales como los Protocolos de Monetización de Contenido alternativos (CoMP) impulsados por el IAB Tech Lab. El objetivo es establecer un marco donde el acceso a la información se realice únicamente bajo controles estrictos, garantizando el respeto a la propiedad intelectual y asegurando un intercambio de valor justo.

Share
Published by
Comunicación

Recent Posts

La Comisión Europea marca a Google el camino para cumplir la DMA: abrir sus datos de búsqueda a la competencia

El 16 de abril, la Comisión Europea remitió a Google sus conclusiones preliminares sobre las…

3 días ago

ChatGPT ya tiene gestor de anuncios. Lo que eso significa para los medios que financian con su contenido esas respuestas

OpenAI acaba de lanzar su plataforma publicitaria propia. Los anunciantes ya pueden comprar espacio dentro…

4 días ago

Los bots de IA crecen un 300% en 2025 y el sector editorial es su segundo objetivo global

El último informe de Akamai sobre el sector editorial, confirma que la actividad de bots…

5 días ago

Bruselas pone a ChatGPT en el punto de mira: ¿debe jugar con las mismas reglas que Google?

La Comisión Europea ha abierto una evaluación formal para determinar si el chatbot de OpenAI…

2 semanas ago

RSL Collective quiere que los editores cobren por cada uso que la IA hace de sus contenidos. Y tiene un plan concreto para lograrlo

Una organización sin ánimo de lucro ha diseñado un estándar técnico que permite a cualquier…

2 semanas ago

Estados Unidos impulsa una ley para que las empresas de inteligencia artificial paguen por el contenido que extraen de los medios

El Interactive Advertising Bureau ha presentado ante el Congreso estadounidense un borrador legislativo que obligaría…

2 semanas ago