OpenAI ha utilizado todos los datos que están disponibles públicamente en internet para entrenar a ChatGPT, su generador de texto por inteligencia artificial, incluidos libros protegidos por derechos de autor y textos publicados por medios de comunicación. Ahora, quienes poseen los derechos de esas obras quieren que se les pague por su trabajo.
Los datos de entrenamiento son una parte esencial del desarrollo de los modelos de IA que se están imponiendo en el sector tecnológico. Las principales compañías de esta industria —como Google, Meta (la matriz de Facebook), OpenAI, Anthropic o Microsoft— se afanan por encontrar nuevas fuentes de información.
Meta llegó incluso a plantearse la compra de Simon & Schuster, una de las mayores editoriales a nivel mundial.
Parte del problema consiste en que los dueños de los derechos de autor acusan cada vez más a estas empresas de recopilar datos protegidos precisamente por derechos de autor. A los propietarios de los mismos les gustaría cobrar por su trabajo.
Tanto la matriz de Facebook como OpenAI han argumentado en sus declaraciones ante la Oficina de Derechos de Autor de Estados Unidos que el hecho de subir material protegido por derechos de autor a internet lo convierte de facto en «disponible públicamente» y, por tanto, su utilización sería de uso legítimo.
Sin embargo, estas compañías todavía van a tener que defender ese argumento ante los tribunales, ya que, al menos en el caso de OpenAI, se enfrenta a demandas de varios colectivos en relación al material protegido por derechos de autor.
Sin ir más lejos, el Centro de Reportajes de Investigación de California (CIR, por sus siglas en inglés), una organización de noticias sin ánimo de lucro, denunció a OpenAI y a Microsoft la semana pasada ante un tribunal federal de EEUU acusándolas de haber desarrollado sus herramientas «sobre la explotación de obras protegidas por derechos de autor pertenecientes a creadores de todo el mundo».
Los abogados del CIR acusaron a Microsoft y a OpenAI de utilizar material protegido por derechos de autor de la revista Mother Jones para entrenar sus respectivos modelos de inteligencia artificial: Copilot y GPT.
«OpenAI y Microsoft comenzaron a succionar nuestra información para hacer su producto más potente, pero nunca pidieron permiso ni ofrecieron compensación, a diferencia de otras organizaciones que licencian nuestro material», ha declarado Monika Bauerlein, CEO del Centro de Reportajes de Investigación. «Este comportamiento free rider no solo es injusto, sino que constituye una violación de los derechos de autor».
La demanda del CIR afirma que «16.793 URL distintas del dominio web de Mother Jones» han aparecido en una lista que fue publicada con las principales páginas web presentes en el conjunto de entrenamiento WebText de la desarrolladora de ChatGPT.
En otra denuncia colectiva del Gremio de Autores de EEUU, dos escritores aseguraron que la startup utilizó información de sus libros para entrenar su chatbot de IA. El New York Times también presentó una demanda similar contra la empresa en diciembre de 2023.
En mayo de este año, los documentos judiciales de la denuncia del Gremio de Autores revelaron que OpenAI eliminó dos enormes conjuntos de datos utilizados para entrenar GPT-3. Los abogados del colectivo autoral estadounidense alegaron que los dos conjuntos contenían probablemente «más de 100.000 libros publicados».
Según los documentos judiciales de ese caso en particular, los dos empleados responsables de reunir los datos ya no trabajan para OpenAI.
La desarrolladora de ChatGPT ha empezado a firmar acuerdos de licencia con medios de comunicación para poder utilizar de forma legítima sus textos. La compañía ha firmado acuerdos de este tipo con Associated Press, la editorial del Wall Street Journal y del New York Post, el Atlantic, periódicos europeos como Le Monde o el Financial Times, grupos mediáticos como PRISA (El País) o firmas como Axel Springer, la matriz de Business Insider.
Aun así, el volumen de contenidos necesario para que estos modelos aprendan continuamente requerirá mucho más que un puñado de acuerdos de licencia.
Una posible solución serían los datos sintéticos, que se generan artificialmente en lugar de recogerse del mundo real y pueden generarse fácilmente mediante algoritmos de aprendizaje automático.
OpenAI ha considerado los datos sintéticos como una opción para entrenar sus modelos, pero su CEO, Sam Altman, ha expresado su preocupación con respecto a la producción de datos de calidad.
«Mientras puedas superar el horizonte de sucesos de los datos sintéticos, en el que el modelo es lo suficientemente inteligente como para crear buenos datos sintéticos, todo irá bien», comentó Altman en una conferencia tecnológica en mayo de 2023. La desarrolladora de ChatGPT también ha explorado un proceso en el que los modelos de IA trabajan juntos: un sistema produce datos, mientras que otro los juzga.
Business Insider ha tratado de ponerse en contacto con OpenAI, pero por ahora no ha obtenido respuesta.