El New York Times evalúa demandar a OpenAI por usar sus textos para entrenar a sus grandes modelos de lenguaje, según NPR. La noticia llega después de que la compañía dirigida por Sam Altman cerrara un acuerdo con Associated Press para poder utilizar sus contenidos. Aunque las tecnológicas esgrimen fair use (uso legítimo) y guardan silencio sobre las fuentes de los textos utilizados para entrenar a sus IA, ya han recibido varias demandas por copiar y violar la propiedad intelectual de los contenidos empleados.
En estos días, reguladores de una docena de organismos internacionales de protección de la privacidad, entre los que se encuentran los de Reino Unido, Canadá, México, Argentina, Colombia, Suiza, Noruega, Marruecos, Australia, Nueva Zelanda y Hong Kong, firman una declaración conjunta [PDF] que insta a las principales redes sociales a prevenir el scraping (extracción de datos) del contenido publicado por sus usuarios.
Las demandas contra OpenAI y otras tecnológicas
Github, Microsoft y OpenAI enfrentan una demanda colectiva por parte de desarrolladores que aportaron código a Github (plataforma donde se sube código abierto para que cualquiera pueda usarlo) que se utilizó para Copilot (una IA para generar líneas de código) sin acreditarles. A esta denuncia siguieron dos más de la agencia Getty contra Stability AI, por su modelo de Stable Diffusion, una IA que genera imágenes. Stability AI tiene, además, una demanda colectiva por parte de tres ilustradoras: Sarah Andersen, Kelly McKernan y Karla Ortiz, quien explicó en qué consistía el plagio de las IA en Newtral.es. Durante este verano, escritores estadounidenses iniciaron tres demandas colectivas más: dos contra OpenAI y otra contra Meta por la utilización de obras protegidas con copyright en el entrenamiento de ChatGPT y LLaMA, sus modelos de lenguaje respectivos, sin consentimiento, compensación o crédito a los autores.
La evolución de estas demandas genera expectación porque su resolución además de afectar a OpenAI primero y luego a otras empresas que utilizan ChatGPT y modelos similares, impactará de lleno en el futuro de la IA generativa, un campo absolutamente nuevo para el que aún no se han aprobado regulaciones específicas.
Para entrenar un modelo de lenguaje es necesario hacer scraping de la web, y guardar los datos en primer lugar
Las leyes que hemos tenido hasta ahora hacen que surjan muchas dudas: una máquina ¿copia o aprende? ¿Puede crear algo una IA sin ser alimentada con grandes cantidades de libros y obras de arte generados por humanos durante siglos? El contenido que produce ¿puede causar un daño o competencia ilegítima a los creadores humanos, o por el contrario sirve para el desarrollo humano? En las interpretaciones de estas cuestiones, algunas rayanas en lo filosófico, estarán las claves.
¿Plagio masivo, fair use o reutilización del conocimiento?
El acceso a la información publicada y a creaciones culturales durante las primeras décadas de internet permitió modificar lo que existía y producir nuevas obras. En estos años surgieron licencias y regulaciones que permitían hacerlo a través de un uso legítimo (fair use en Estados Unidos o excepciones por investigaciones científicas o fines educativos en Europa) previsto por los autores. Pero ninguna ley actual califica como uso legítimo la explotación de material ajeno para fines propios.
“Ningún tribunal excusaría la copia de obras de origen ilegal como fair use”, señalan más de 10.000 escritores en una carta abierta dirigida a los directores de OpenAI, Alphabet, Meta, Stability AI, IBM y Microsoft, en la que les piden que obtengan consentimiento, acrediten y compensen justamente a los autores cuando usen materiales con copyright para entrenar sus modelos.
Los expertos consultados por Newtral se muestran expectantes ante estas demandas y son prudentes en las respuestas. En opinión de David Maeztu, abogado, el argumento del fair use tiene margen para ser apreciado dependiendo de la forma en que se produce el aprendizaje del modelo. Si existe reproducción (copia de la obra en un soporte que permita la obtención de copias), este es un derecho exclusivo del autor, y no se puede copiar la obra sin autorización.
«Si un redactor del Wall Street Journal leyera artículos del New York Times sobre un tema y luego escribiera su propio artículo, (…) no habría violación de los derechos de autor. Entonces, ¿por qué habría una infracción en el caso de la IA?»
Publicidad
“Si se copia para poder analizarla, pero no para hacer un uso económico directo de la copia, estamos en un margen complicado de apreciar ya que, en principio, se asemeja al modelo de aprendizaje humano en el que se tienen datos de la obra pero no está como tal”. Así, la descarga de obras que están en internet, en abierto, a disposición de quien quiera consultarlas, sin muros de pago o limitaciones, “podrían ser usadas, asimilándose al aprendizaje humano”, dice Maeztu.
Jeremy Paul, profesor de Derecho en la Universidad de Northeastern, considera que los protagonistas están “forzados a navegar la situación bajo leyes que se han quedado obsoletas, porque no fueron escritas con esta tecnología en mente”. Y esa incertidumbre alrededor de lo que es “entrenar un modelo” es según Paul lo que ha hecho que OpenAI cierre el acuerdo con Associated Press para utilizar sus contenidos.
El dilema de la analogía: ¿las IA copian o leen?
“Si un redactor del Wall Street Journal leyera artículos del New York Times sobre un tema y luego escribiera su propio artículo, siempre que sólo copiara hechos e información pero no la expresión, no habría violación de los derechos de autor. Entonces, ¿por qué habría una infracción en el caso de la IA?”, ha planteado Paul en una entrevista con Northeastern Global News. Los derechos de autor se aplican a las expresiones, pero no a los hechos.
Entonces ¿cómo podría salir adelante una demanda de un periódico como el New York Times contra OpenAI? Paul ve claro que si la IA publicase párrafos enteros copiados palabra por palabra de los artículos del Times sería ilegal, porque esas publicaciones estarían compitiendo con el periódico por lectores interesados en las noticias. “Pero eso no es lo que está sucediendo aquí”, dice.
Cómo se entrena la IA: ¿hay copia en un modelo de lenguaje?
Este dilema en el que se encuentran juristas, artistas, creadores y tecnólogos persiste por la forma en que han sido entrenados estos grandes modelos de lenguaje comerciales y el secretismo alrededor de ello. Los papers publicados por investigadores y empresas omiten bastante información en la parte del entrenamiento, que requiere grandes cantidades de textos. Lo dice Oleguer Sagarra, científico de datos y fundador de Dribia Data Research.
Por publicaciones de los modelos previos utilizados, sabemos que los han conseguido sirviéndose de unas buenas tajadas de la web, y que argumentan fair use. La lista de dominios escrapeados por GPT-2 muestra 1.000 sitios entre los que se encuentran todo Wordpress, Reddit, y numerosos medios de comunicación digitales, como The New York Times, The Guardian, BBC News, The Wall Street Journal, CNN, The Washington Post, Associated Press, Bloomberg, Financial Times y The Economist.
Otro inmenso conjunto de datos es C4, que se utilizó para entrenar el T5 Text-to-Text Transfer Transformer de Google, así como el Large Language Model Meta AI (LLaMA) de Meta. Para hacerlo se escrapearon 15,7 millones de sitios web, según una investigación del Washington Post y el Instituto Allen.
Para entrenar un modelo de lenguaje es necesario hacer scraping de la web, y guardar los datos en primer lugar. Por lo menos mientras se está ejecutando el proceso, dice Sagarra. Una vez finalizado, el entrenamiento se podrían borrar.
¿Podemos considerar ese primer guardado una reproducción, y por lo tanto un derecho exclusivo del autor, que impide copiar la obra sin autorización? Maeztu dice que sí. “Si se almacena una copia en caché podría estar amparada más claramente por la ley que si se introduce en una base de datos y se pueden hacer consultas sobre la misma”.
Después de eso, el modelo entrenado no guarda una copia exacta de los datos sobre los que se ha entrenado, sino que codifica los mismos en su estructura. Es decir, se aproxima a la información que ha leído, porque ha «aprendido» sus características principales. ¿Los datos de entrenamiento están dentro del modelo? “Difícil de decir, lo que hay es una aproximación codificada de los mismos”, dice Sagarra.
En una simplificación, sería como si en vez de guardar la información “mi sueldo es de 1.500 euros”, se guardasen una serie de reglas como “mi sueldo es mayor a 1.450 y menor de 1.550, y está en una moneda europea». Sagarra advierte de que estas reglas no se enuncian así, sino en términos numéricos. Tampoco son identificables ni trazables en general, por lo que se hace aún más difícil determinar si esto constituye guardar o no los datos. “Se podría decir que de momento lo que sabemos es que estos modelos ‘funcionan’, pero no controlamos totalmente los mecanismos específicos que llevan a cada respuesta que dan”, explica.
Fair use y scraping: la defensa de las tecnológicas
OpenAI ha basado su defensa en el fair use en un escrito a la Oficina de Patentes [PDF]. El argumento que utiliza la industria de la IA generativa usa dos de los factores del fair use: que las herramientas de IA no replican los libros con los que han sido entrenadas, sino que producen nuevas obras, y que esas obras no dañan el mercado o el valor de los originales. Jeremy Paul no está tan seguro de que los consumidores vean esos servicios como parte del mismo mercado. “¿Confiarías en la veracidad del material de OpenIA?”, dice, aunque admite que es un punto menor.

☷
‘Scraping’ de la web: cuándo está permitido
La cuestión real es que los factores de fair use presuponen una infracción de copia ya bien entendida. “La defensa dice: sí, he copiado tu obra, pero se me permite hacerlo porque es fair use”, explica Paul. “Por eso otro factor para determinar fair use es cuánto copió el demandado. Pero esto nos devuelve a la inaplicabilidad fundamental de los viejos estatutos a los nuevos problemas. ¿Cuánto se ‘copió’? Si es la totalidad, porque todo el artículo del NYT se utilizó para el entrenamiento, entonces el fair use se desvanecerá como defensa. Pero si es la parte que aparece en la respuesta de ChatGPT, entonces no habrá prácticamente nada copiado. Y entonces el fair use parecerá un argumento plausible”.
El fair use no es directamente extrapolable a Europa, ya que es una doctrina, se basa en los casos y estos pueden ser muy diferentes. Ciro Llueca, de FESABID (Federación Española de Sociedades de Archivística, Biblioteconomía, Documentación y Museística), explica que en Europa, desde la perspectiva de la propiedad intelectual no importa tanto el hecho de la captura de elementos, sino el uso posterior que se haga de ellos. El scraping y la minería de datos en Europa está avalada siempre que sus fines sean científicos o educativos sin fines de lucro, como hemos explicado en Newtral.es.
- Jeremy Paul, profesor de Derecho, Northeastern University
- David Maeztu, abogado especialista en derecho en internet
- Oleguer Sagarra, científico de datos y fundador de Dribia Data Research
- Ciro Llueca, coordinador Bibliotecas y Propiedad Intelectual de FESABID (Federación Española de Sociedades de Archivística, Biblioteconomía, Documentación y Museística)