Los derechos de autor y la IA, según OpenAI

derechos autor openai — Merlin Lightpainting

Tiempo de lectura: 7 min

OpenAI ha hablado sobre derechos de autor, al fin. Al menos lo empieza a hacer públicamente, tras el intenso debate del último año en el que la IA generativa –ChatGPT, pero también generadores de imágenes como Stable Diffusion o Dall-E– sigue coleccionando denuncias en los juzgados por infracción a la propiedad intelectual de las obras que ha usado para su entrenamiento. Los pleitos van desde demandas colectivas de escritores, artistas y desarrolladores, hasta de empresas como la agencia Getty o el New York Times.

En Reino Unido, en un informe presentado a la Comisión de Comunicaciones y Asuntos Digitales de la Cámara de los Lores, OpenAI ha afirmado que no puede entrenar grandes modelos lingüísticos, como su modelo GPT-4 -en el que se basa ChatGPT-, sin tener acceso a obras protegidas por derechos de autor. En ese documento la empresa creadora de ChatGPT admite que la información publicada en internet es una de las fuentes principales de sus modelos. La información sobre los materiales de entrenamiento de la IA era algo que OpenAI venía omitiendo desde GPT-2 en sus publicaciones académicas y discursos. Ilya Sustkever, el jefe científico del laboratorio devenido empresa, había justificado en varias ocasiones el no compartir más información sobre sus investigaciones en la competencia de la industria de la IA actual.

En estos días la empresa ha publicado en su blog una respuesta a la demanda del New York Times en la que amplía un poco más su visión sobre la cuestión de los derechos de autor del material que utilizan para crear sus productos comerciales. Esta defensa de OpenAI se basa en cinco puntos, de los cuales el primero consiste básicamente en decir que colaboran con organizaciones de noticias como Associated Press, Axel Springer, American Journalism Project y NYU, y ayudan a crear nuevas oportunidades. Olvidan mencionar aquí que para que OpenAI pueda utilizar los contenidos protegidos por derechos de autor de estos medios han llegado a acuerdos que a día de hoy no son conocidos.

El socorrido fair use

“El entrenamiento (de los modelos de IA) es fair use (uso legítimo), pero nosotros damos la opción de no participar (opt-out) porque es lo correcto”, dice OpenAI. Aquí hay mucha tela que cortar. El fair use o uso justo es un criterio de la jurisprudencia estadounidense, y se basa en la opinión de que el público tiene derecho a utilizar libremente porciones de obras con derechos de autor con propósitos “transformativos”. OpenAI considera que este es su caso.

Pero la definición de transformativo es ambigua. Si no hay acuerdo, un juez debe decidir, y la única guía es una serie de factores contemplados en la ley de copyright. Uno de ellos, por ejemplo, es si ese uso va a privar de alguna manera al autor de sus ingresos. “No hay nada transformativo en usar el contenido del New York Times para crear productos que sustituyen al Times y que le roban las audiencias”, dice la demanda del periódico estadounidense en torno a los derechos de autor vulnerados por OpenAI.

En el mismo punto, OpenAI habla de la posibilidad del opt-out, o exclusión voluntaria. Para escrapear o extraer el material de internet, OpenAI utiliza GPTBot, un bot que va escaneando todas las páginas web que están en línea. Quien no quiera participar en el entrenamiento de sus modelos, dice la empresa, puede agregar una línea de código para indicar al bot que no pase por allí. Este bot fue lanzado hace unos meses, en agosto de 2023. Lo que no dicen es qué pasa con los contenidos anteriores a esa fecha que ya fueron utilizados un par de años antes para construir los grandes modelos de lenguaje utilizados por ChatGPT.

Derechos de autor, fair use y el scraping en Europa

En Europa no existe una doctrina del fair use comparable a la de Estados Unidos, y la ley provee una lista de excepciones al copyright entre las que hasta ahora no existía mención a la inteligencia artificial, por ser algo reciente.

La recién consensuada Ley de Inteligencia Artificial de la UE obliga a toda IA de propósito general a presentar documentación técnica, cumplir la legislación sobre derechos de autor y hacer resúmenes detallados sobre los contenidos utilizados para el entrenamiento del modelo, aunque está por ver la letra pequeña.

El scraping, que entra en lo que se llama minería de datos en Europa, está avalada siempre que sus fines sean científicos o educativos sin fines de lucro. Ciro Llueca, de FESABID (Federación Española de Sociedades de Archivística, Biblioteconomía, Documentación y Museística), ha explicado a Newtral que en la UE, desde la perspectiva de la propiedad intelectual no importa tanto el hecho de la captura de elementos, sino el uso posterior que se haga de ellos.

Regurgitación, memorización y otros fallos

El escrito de la demanda del New York Times ilustra con ejemplos reales varios casos de “memorización” diferentes en los que ChatGPT y Bing Chat (ahora Copilot) reproducen textos completos de varios párrafos exactamente igual a los artículos originales en el New York Times, incluso de aquellos que están detrás del muro de pago. OpenAI en su comunicado le pone un nuevo nombre a esto: “regurgitación”, y lo define como un fallo poco común en el que están trabajando. Según la compañía, suele suceder cuando cierto contenido particular aparece más de una vez en los datos de entrenamiento, como si piezas de ese texto hubiesen sido reproducidas en muchos sitios web diferentes. En el comunicado OpenAI se olvida de mencionar algo que sin embargo admite a The Verge, que quitaron una función llamada Browse que reproducía contenido de forma no intencionada.

Lejos de mencionar su propia responsabilidad al respetar derechos de autor de creadores, OpenAI se refiere a la responsabilidad individual de los usuarios de “hacer un uso responsable” de sus herramientas. Pero antes de pasar al último punto, en el que acusa al New York Times de “no contar la historia completa”, hace una curiosa comparación entre humano-máquina: “Así como los humanos reciben una amplia formación para aprender cómo resolver problemas nuevos, queremos que nuestros modelos observen el conjunto de información que hay en el mundo, incluida la de todos los idiomas, culturas e industrias”.

La IA, ¿aprende de lo que lee o copia sin atender a derechos de autor?

Detrás de todo esto hay una discusión de términos, técnica y casi filosófica entre quienes consideran que estos desarrollos informáticos no pueden aprender del mismo modo que nosotros, y quienes hablan de las IA sugiriendo que tienen características humanas, o capacidad de acción.

Cuando nos referimos a un sistema de IA o a un bot utilizando verbos como “alucinar” o “razonar” caemos en la antropomorfización de la IA, algo contra lo que varios expertos han advertido. Las IA no razonan ni alucinan en el sentido en el que lo hacemos los humanos. Simplemente son excepcionalmente eficaces en predecir patrones del lenguaje y han sido optimizadas para ser conversacionales, por lo que nos ponen en un plano mental similar al de otros agentes humanos cuando interactuamos con ellas, y nos resultan creíbles y convincentes. Nuestra empatía hace el resto.

OpenAI esquiva los derechos de autor y sí repite que sus modelos “aprenden”, porque si lo que hace ChatGPT es aprender, no hay copia ni plagio, como no lo hay cuando nosotros explicamos con nuestras palabras en qué consiste algo que hemos leído previamente. Para los tecnólogos de las empresas de IA generativa, a lo sumo hay bugs, fallos que ellos corregirán si les permitimos entrenar más a la máquina. Pero no todos opinan lo mismo.

Fuentes

Escrito presentado por OpenAI a la Comisión de Comunicaciones de la Cámara de los Lores en Reino Unido [PDF]
Comunicado de OpenAI sobre derechos de autor en relación con la demanda del New York Times
Demanda New York Times vs. Microsoft / OpenAI [PDF]
Documentación de GPTBot
OpenAI claims The New York Times tricked ChatGPT into copying its articles, The Verge
Fair Use, Stanford Libraries
OpenAI warns copyright crackdown could doom ChatGPT, The Telegraph

1 Comentarios

Santi

05/04/2024 05:14

Las redes neuronales generan patrones a partir de patrones conocidos (pese a hacer un remix muy complejo) por lo que está claro que OpenAI ha infringido de manera épica todo lo que tiene que ver con derechos de autor si, como parece, al entrenar a sus redes neuronales han utilizado bases de datos de aprendizaje con cosas cuyos autores no han dado permiso específico y que no son de dominio público a la hora de entrenar inteligencias artificiales: desde imágenes, pasando por textos, pero también código fuente de código abierto posiblemente también, porque estas redes neuronales también pueden programar ¿La razón? Pues resulta que el código fuente generado por AI al igual que los textos e imágenes se expone como que es "original" (según openAI) y se informa de que puede usar para generar código en proyectos cerrados y eso infringe muchas de las licencias de código abierto restrictivas.
¿La solución? OpenAI y otros creadores y entrenadores de redes neuronales deberían usar material que tenga licencias compatibles o permisos ESPECIFICO para dichos fines.
Pueden seguir usando contenido protegido pero si lo hacen no deberían poder monetizar dichos productos (deberían ser usados con fines de investigación) y deberían llevar aviso de que las obras creadas NO son originales y pueden estar infringiendo derechos de autor.