Close up low angle portrait of server racks with telecommunications equipments
CEDRO le solicitó a esta plataforma tecnológica sin fines de lucro, que retire contenidos editoriales que extrajo de la web sin el consentimiento de sus titulares de derecho.
El Centro Español de Derechos Repográficos (CEDRO) le solicitó a Common Crawl, organización que mantiene un repositorio a gran escala de contenido extraído de la web, que retire de su plataforma contenidos editoriales digitales, para evitar que estos sean usados en el entrenamiento de la Inteligencia Artificial.
Concretamente, le pidió retirar publicaciones de prensa del repertorio de CEDRO que se hayan incluido en esta enorme base de datos, ya que fueron extraídos de la web, copiados y almacenados sin el consentimiento de sus titulares de derechos, es decir, de sus escritores, traductores, herederos o editoriales.
CEDRO también le solicitó a esta fundación que se abstenga en el futuro de rastrear, obtener, almacenar y poner a disposición del público esta información.
Para elevar esta petición a Common Crawl, CEDRO se basó en el marco jurídico de la Unión Europea y los Tratados Internacionales según los cuales la actividad desarrollada por esta plataforma tecnológica es un acto de reproducción y comunicación pública que requiere de la autorización previa de los dueños de estos contenidos que, incluso, pueden exigir una remuneración por el uso de sus publicaciones.
Esto teniendo en cuenta que la información que guarda Common Crawl es utilizada por empresas tecnológicas, entre otras plataformas y usuarios, que desarrollan con estos contenidos modelos de lenguaje natural dirigidos a sustituir a los humanos en determinadas tareas.
“Esta actividad difiere y excede significativamente de la finalidad que persigue la minería de textos y datos, como ya han puesto de manifiesto diversos estudios”, asegura CEDRO, asociación que protege los derechos de propiedad intelectual.
CEDRO también destacó el impacto que tiene Common Crawl, pues alberga más de 250.000 millones de páginas recopiladas desde el 2007, cuando fue fundada, con un crecimiento mensual de entre 3.000 y 5.000 millones de páginas nuevas, cuya relevancia se refleja en que ha sido citada en más de 10.000 artículos de investigación, según la propia organización.
Algunos de los datos que serán retirados del repositorio de Common Crawl son los del blog ‘Ideas de Estrategia del Contenido’, que agradeció en sus redes sociales la intercesión de CEDRO.
Common Crawl, organización sin fines de lucro, asegura en su sitio web que su objetivo es que la “extracción, transformación y análisis mayorista de datos web abiertos sean accesibles a los investigadores”.
La Eurocámara aprobó una moción que insta a la Comisión Europea a adoptar una serie…
A lo largo de dos décadas, El Economista se ha consolidado como uno de los…
El aumento del acoso digital y las amenazas con componente de género sigue marcando el…
Meta ha alcanzado un acuerdo con News Corp para utilizar contenidos de sus medios en…
Más de 1.000 directivos de medios de todo el mundo se reunirán en Marsella del…
Un estudio revela que las respuestas generadas con IA ya aparecen en casi el 30%…