OpenAI y Anthropic, dos de las principales startups en el mundo de la IA, están haciendo caso omiso de varias solicitudes de editores de medios que piden que dejen de alimentar sus modelos de entrenamiento con contenido de sus webs, según fuentes que han informado a Business Insider.
Los últimos hallazgos ponen en evidencia que ambas entidades ignorar o eluden una regla de la web conocida como robots.txt, que evita lo que se conoce como scraping —una herramienta que recopila automáticamente el contenido de una web en cuestión—.
TollBit, una startup que se encarga de negociar acuerdos de licencia entre editoras y compañías de IA, ha descubierto que varias empresas actúan de esta forma y ha enviado una carta a algunas de las publicaciones más importantes, según Reuters.
En dicha misiva, no se incluía en ningún momento los nombres de las empresas de IA acusadas de eludir la norma.
OpenAI y Anthropic han declarado públicamente que respetan robots.txt, así como los bloqueos de sus rastreadores web específicos, GPTBot y ClaudeBot.
Sin embargo, las conclusiones de TollBit contrarían estas afirmaciones. Este tipo de compañías, incluidas las mencionadas, simplemente «evitan» el archivo robots.txt para, de esta forma, recuperar o extraer el contenido de un sitio web determinado.
OpenAI ha preferido no hacer comentarios a este medio, más allá de señalar una publicación corporativa de su blog con fecha de mayo, en la que la startup explica que tiene en cuenta los permisos del rastreador web «cada vez que se entrena un nuevo modelo».
Anthropic tampoco ha querido responder a los correos electrónicos de Business Insider.
Robots.txt y el auge de la IA generativa
Robots.txt es un fragmento de código utilizado desde finales de los años 90, que se convirtió en una herramienta para que los sitios web indiquen a los rastreadores de bots que no quieren que sus datos sean recopilados.
Así, fue ampliamente aceptada como una regla no oficial para todas las páginas.
Con el auge de la IA generativa, nuevas compañías y empresas tecnológicas se han apresurado por construir cada vez modelos de IA más potentes. Pero necesitan un ingrediente esencial: los datos de alta calidad.
Cabe recordar que, tras ChatGPT, se encuentra OpenAI, que tiene detrás el respaldo de Microsoft como principal inversor de la compañía. Por su parte, Anthropic tiene en su poder el chatbot Claude y su mayor inversor es Amazon.
Ambos chatbots ofrecen respuestas a las preguntas de los usuarios en lenguaje natural. Respuestas que, por otro lado, no serían posibles de no haberse entrenado con cantidades masivas de datos de la web, muchos de ellos protegidos por derechos de autor.
Sin embargo, el año pasado, muchas empresas plantearon ante la Oficina de Derechos de Autor de Estados Unidos que, cuando se trata de datos de entrenamiento para la IA, nada en la web debería tener este tipo de protección autoría.
OpenAI ha firmado algunos acuerdos con editores para acceder al contenido de sus webs, entre los que se incluye Axel Springer, propietaria de Business Insider.
A finales de este mismo año, la Oficina de Derechos de Autor de Estados Unidos actualizará sus directrices sobre la IA y los derechos de autor.