Common Crawl retirará contenidos que almacenó sin autorización y que son usados para entrenar a la IA

Close up low angle portrait of server racks with telecommunications equipments

CEDRO le solicitó a esta plataforma tecnológica sin fines de lucro, que retire contenidos editoriales que extrajo de la web sin el consentimiento de sus titulares de derecho.

El Centro Español de Derechos Repográficos (CEDRO) le solicitó a Common Crawl, organización que mantiene un repositorio a gran escala de contenido extraído de la web, que retire de su plataforma contenidos editoriales digitales, para evitar que estos sean usados en el entrenamiento de la Inteligencia Artificial.

Concretamente, le pidió retirar publicaciones de prensa del repertorio de CEDRO que se hayan incluido en esta enorme base de datos, ya que fueron extraídos de la web, copiados y almacenados sin el consentimiento de sus titulares de derechos, es decir, de sus escritores, traductores, herederos o editoriales.

CEDRO también le solicitó a esta fundación que se abstenga en el futuro de rastrear, obtener, almacenar y poner a disposición del público esta información.

Para elevar esta petición a Common Crawl, CEDRO se basó en el marco jurídico de la Unión Europea y los Tratados Internacionales según los cuales la actividad desarrollada por esta plataforma tecnológica es un acto de reproducción y comunicación pública que requiere de la autorización previa de los dueños de estos contenidos que, incluso, pueden exigir una remuneración por el uso de sus publicaciones.

Esto teniendo en cuenta que la información que guarda Common Crawl es utilizada por empresas tecnológicas, entre otras plataformas y usuarios, que desarrollan con estos contenidos modelos de lenguaje natural dirigidos a sustituir a los humanos en determinadas tareas.

“Esta actividad difiere y excede significativamente de la finalidad que persigue la minería de textos y datos, como ya han puesto de manifiesto diversos estudios”, asegura CEDRO, asociación que protege los derechos de propiedad intelectual.

CEDRO también destacó el impacto que tiene Common Crawl, pues alberga más de 250.000 millones de páginas recopiladas desde el 2007, cuando fue fundada, con un crecimiento mensual de entre 3.000 y 5.000 millones de páginas nuevas, cuya relevancia se refleja en que ha sido citada en más de 10.000 artículos de investigación, según la propia organización.

Algunos de los datos que serán retirados del repositorio de Common Crawl son los del blog ‘Ideas de Estrategia del Contenido’, que agradeció en sus redes sociales la intercesión de CEDRO.

Common Crawl, organización sin fines de lucro, asegura en su sitio web que su objetivo es que la “extracción, transformación y análisis mayorista de datos web abiertos sean accesibles a los investigadores”.

Next Los canales digitales dejan de ser un competidor publicitario de los medios tradicionales en EEUU »

Previous « Los cinco puntos clave en el debate del Parlamento Europeo sobre la regulación de las redes sociales

Published by

Comunicación

1 año ago

Reino Unido marca el camino: los editores podrán excluir sus contenidos de los resúmenes de IA de Google sin desaparecer del buscador
La autoridad de competencia británica ha obligado a Google a dar a los medios el…
La AMI reclama un marco regulatorio más sólido ante el impacto de la inteligencia artificial en los medios
La directora general de la AMI, Irene Lanzaco, participó en el análisis del informe Tendencias…
La verdad como bien común: la primera encíclica de León XIV y el periodismo en la era de la IA
León XIV dedica un bloque central de Magnifica Humanitas a la comunicación. Su diagnóstico sobre…

Proteger la fuente es proteger la información

Cuando un gobierno deja de perseguir la filtración y empieza a perseguir a quien la…

3 días ago

Europa cerca los resúmenes de IA: Alemania aplica su ley de medios a Google y Perplexity

El regulador audiovisual alemán ha dado un paso que ningún supervisor europeo había dado hasta…

1 semana ago

Inteligencia Artificial

La huella de la IA pasa factura al clima y al periodismo

Los informes de sostenibilidad que Google y Amazon publicaron a finales de junio confirman que…

2 semanas ago

Nombramientos

Encarna Samitier y José Antonio Zarzalejos, nueva presidenta y vicepresidente de la Asociación de Periodistas Europeos

El Consejo Director renueva su composición con la incorporación de Amanda Mars, Amparo Polo, Ignacio…

2 semanas ago

Novedades

WAN-IFRA nombra a Ezra Eeman Director de IA en los Medios

Fotografía de Ezra Eeman, por Derek Halsey (WAN-IFRA) WAN-IFRA, la Asociación Mundial de Editores de…

3 semanas ago

Novedades

Editores, autores y creadores reclaman en el Parlamento Europeo un nuevo pacto que obligue a la inteligencia artificial a pagar por la creación y el periodismo

La eurodiputada Maravillas Abadía reúne en Bruselas a instituciones europeas, al sector cultural, a agencias…