Las mejoras en la inteligencia artificial se ralentizan: las empresas tienen un plan para darle la vuelta

Los líderes de Silicon Valley involucrados en el boom de la inteligencia artificial (IA) tienen un mensaje para sus críticos: su tecnología todavía no ha tocado techo.
En las últimas semanas, se ha acentuado el debate sobre si los avances en los modelos de IA ya han agotado su potencial, lo que ha llevado a muchos consejeros delegados a responder. El directivo de OpenAI, Sam Altman, ha sido uno de los primeros en hablar, y lo ha hecho a través de un mensaje en su cuenta de X en el que decía «no hay techo».
El consejero delegado de Anthropic, Dario Amodei, rival de Altman y OpenaAI, y el consejero delegado de Nvidia, Jensen Huang, también han cuestionado las informaciones que apuntan a una ralentización en los progresos de la IA. Otros, como el inversor Marc Andreessen, apuntan que los modelos de IA no están mejorando notablemente y que todos están convergiendo para rendir a niveles más o menos similares.
La industria tecnológica se enfrenta a la pregunta del millón: si los métodos de entrenamiento de modelos de IA probados y comprobados están proporcionando rendimientos decrecientes, esto podría socavar la razón principal de un ciclo de inversión sin precedentes que está financiando nuevas startups, productos y centros de datos, e incluso reavivando centrales nucleares inactivas.
Business Insider ha hablado con 12 personas al frente de la industria de la IA, incluidos fundadores de startup, inversores y trabajadores y extrabajadores dentro de Google DeepMind y OpenAI, sobre los desafíos y oportunidades que tiene por delante la superinteligencia de la IA.
Todos coinciden en que el aprovechamiento de nuevos tipos de datos, la incorporación del razonamiento a los sistemas y la creación de modelos más pequeños pero más especializados son algunas de las formas de mantener en movimiento la rueda del progreso de la IA.
El dilema preentrenamiento
Los investigadores apuntan a dos bloques clave que las compañías pueden encontrarse en las primeras fases del desarrollo de la IA, conocidas como preentrenamiento. La primera es el acceso a la potencia de cálculo. Más concretamente, se trata de hacerse con chips especializados llamados unidad de procesamiento gráfico (GPU, por sus siglas en inglés). Este es un mercado dominado por Nvidia, el gigante de los chips con sede en Santa Clara (California), que ha luchado contra las limitaciones de la oferta frente a una demanda incesante.
«Si tienes 50 millones de dólares (unos 47,5 millones de euros) para gastar en GPU, pero estás el último en la lista de Nvidia, no tenemos suficiente kimchi para echarle a esto y llevará tiempo», explica el socio de la empresa francesa de capital riesgo Singular, Henri Tilloy.
También hay otro problema en la cadena de suministro: el entrenamiento de los datos. Las empresas de IA se han topado con límites en la cantidad de datos públicos que pueden conseguir para alimentar sus grandes modelos lingüísticos (LLM, por sus siglas en inglés) en el preentrenamiento.
Esta fase implica entrenar un LLM en un vasto corpus de datos, generalmente sacados de internet, y después procesados por GPU. Esta información se articula después en tokens, que son la unidad fundamental de datos procesados por un modelo.
Aunque el uso de más datos y GPU en un modelo ha dado como resultado modelos más inteligentes cada año, las empresas han ido agotando el suministro de datos disponibles públicamente en internet. De hecho, la empresa de investigación Epoch AI predice que los datos textuales utilizables podrían agotarse en 2028.
«Internet tiene un límite», dice a Business Insider el fundador y consejero delegado de Clarifai, Matthew Zeiler.
Datos multimodales y privados
El cofundador y consejero delegado de la startup de datos Encord, Eric Landau, cree que es aquí donde otras fuentes de datos ofrecerán un camino en la lucha por superar el cuello de botella en los datos públicos.
Un ejemplo son los datos multimodales, que incluyen alimentar los sistemas visuales de IA y fuentes de información en audio, como fotos y grabaciones de pódcast. «Es una parte del conjunto», apunta Landau. «Sólo añade más modalidades de datos», apunta. Los laboratorios de IA ya han empezado a usar datos multimodales como herramienta, pero Landau considera que siguen «muy infrautilizados».
La cofundadora y consejera delegada de la plataforma LLM Lamini, Sharon Zhou, ve otra área sin explorar: los datos privados. Las empresas han firmado acuerdos de licencia con editores para acceder a su enorme cantidad de información.
Por ejemplo, OpenAI se ha asociado con organizaciones como Vox Media y Stack Overflow, una plataforma de preguntas y respuestas para desarrolladores, para introducir datos protegidos por derechos de autor en sus modelos.
«Ni siquiera estamos cerca de utilizar todos los datos privados del mundo para complementar los datos que necesitamos para el preentrenamiento», sostiene Zhou. «Por el trabajo que realizamos con nuestras empresas e incluso con clientes nuevos, hay muchas más señales en esos datos que son muy útiles para que estos modelos las capten», apunta.
Un problema en la calidad del dato
En la actualidad, gran parte de los esfuerzos de investigación se centran en mejorar la calidad de los datos con los que se entrena un LLM, en lugar de limitarse a la cantidad. Según Zhou, antes los investigadores podían permitirse el lujo de ser «bastante perezosos con los datos» en el preentrenamiento, y alimentaban al modelo con todo lo que podían para ver con qué se quedaba. «Esto ya no es del todo así», detalla.
Una de las soluciones que están explorando las compañías son los datos sintéticos, una forma artificial de datos generados por IA.
El consejero delegado de la startup Aindo AI, Daniele Panfilo, señala que los datos sintéticos pueden ser una «herramienta poderosa para mejorar la calidad del dato», a la vez que pueden «ayudar a los investigadores a construir conjuntos de datos que encuentren la información exacta que necesita».
Esto resulta particularmente útil en la fase de desarrollo de la IA conocida como posentrenamiento, en la que pueden utilizarse técnicas como el ajuste fino para dar a un modelo pre-entrenado un conjunto de datos más pequeño que ha sido cuidadosamente elaborado con conocimientos específicos de un dominio, como el derecho o la medicina.
Un exempleado de Google DeepMind, el laboratorio de IA del buscador, explica a Business Insider que «Gemini ha dado forma a su estrategia» pasando de lo más grande a lo más eficiente. «Creo que se han dado cuenta de que es muy caro servir a esos grandes modelos y es mejor especializarlos en varias tareas a través de un mejor post-entrenamiento», dice este exempleado.
En teoría, los datos sintéticos ofrecen una manera útil de perfeccionar el conocimiento de un modelo y de hacerlo más inteligente y más eficiente. En la práctica, no hay ningún consenso sobre cómo de efectivos son los datos sintéticos a la hora de hacer a los modelos más inteligentes.
«Lo que hemos descubierto este año con nuestros datos sintéticos, llamado Cosmopedia, es que puede ayudar en algunas cosas, pero no es la bala de plata que va a solucionar nuestros problemas de datos», comenta a Business Insider el cofundador de Hugging Face, Thomas Wolf.
El científico jefe de IA en Databricks, Jonathan Frankle, insiste en que no hay «comida gratis» cuando se trata de datos sintéticos y subraya la necesidad de supervisión humana. «Si no se cuenta con una visión humana ni con un proceso de filtrado y selección de los datos sintéticos más relevantes, lo único que hace el modelo es reproducir su propio comportamiento porque eso es lo que pretende hacer», afirma.
En los últimos meses ha surgido cierta preocupación en torno a los datos sintéticos, después de la publicación de un artículo en la revista Nature. En él, se advertía del riesgo de un «colapso del modelo» por el «uso indiscriminado» de los datos sintéticos.
Una máquina de razonar
Para algunos, centrarse solo en la parte del entrenamiento no es suficiente.
El excientífico jefe de OpenAI y ahora cofundador de Safe Superintelligence, Ilya Sutskever, comentó a Reuters este mes que los resultados de los modelos de escalado en el preentrenamiento se habían estancado y que «todo el mundo está buscando lo siguiente».
Esa «siguiente cosa» parece ser el razonamiento. La atención de la industria se ha vuelto hacia una parte de la IA conocida como inferencia, que se centra en la habilidad de entrenar un modelo para responder preguntas e información que no se habría visto antes con capacidades de razonamiento.
En el evento Ignite de Microsoft, celebrado este mes, su consejero delegado, Satya Nadella, apuntó que, en lugar de ver cómo las leyes de escalado de la IA se estrellaban contra un muro, estaba asistiendo a la aparición de un nuevo paradigma para la «computación en tiempo de prueba».
Así se conoce al momento en el que un modelo tiene la capacidad de tardar más tiempo en responder a peticiones más complejas de los usuarios. Nadella se refirió a una nueva función de Copilot, el agente de inteligencia artificial de Microsoft, que aumenta el tiempo de prueba para «resolver problemas aún más difíciles».
El cofundador y consejero delegado de la startup de IA Agemo, Aymeric Zhuo, cree que el razonamiento de la IA se ha convertido en un «área de investigación», particularmente cuando «la industria se enfrenta a un muro de datos». También explica a Business Insider que las mejoras en el razonamiento requieren aumentar los tiempos de prueba o los tiempos de inferencia.
Por lo general, cuando más tiempo necesita un modelo para procesar el conjunto de datos, más precisos son los resultados que genera. Ahora mismo, los modelos están siendo interrogados en milisegundos. «No tiene mucho sentido», reconoce el inversor de Balderton, Sivesh Sukumar, en declaraciones a Business Insider. «Si piensas en cómo funciona el cerebro humano, incluso las personas más inteligentes se toman su tiempo antes de dar con una solución a los problemas», recuerda.
En septiembre, OpenAI lanzó un nuevo modelo, o1, que intenta pensar sobre un asunto antes de responder. Un empleado de OpenAI, que prefiere no ser nombrado, señala a Business Insider que «razonar a partir de los primeros principios» no es el fuerte de los LLM, ya que trabajan basándose en «una probabilidad estadística de qué palabras vienen a continuación». Sin embargo, si se quiere «que piensen y resuelvan nuevos problemas, tienen que razonar».
Noam Brown, un investigador de OpenAI, cree que el impacto de un modelo con grandes capacidades de razonar puede ser extraordinario. «Hacer que un robot piense sólo 20 segundos en una mano de póquer tiene el mismo rendimiento que aumentar el modelo 100.000 veces y entrenarlo 100.000 veces más», aseguró durante una charla TED AI el mes pasado.
Google y OpenAI han prefierdo no hacer comentarios a las preguntas de Business Insider.
El auge de la IA llega a su punto de inflexión
Todos estos esfuerzos dan a los investigadores razones para la esperanza, incluso si los signos actuales apuntan a un ritmo más lento de los saltos de rendimiento. Como señala a Business Insider otro antiguo empleado de DeepMind que trabajó en Gemini, la gente está constantemente «intentando encontrar todo tipo de mejoras».
Dicho eso, la industria podría necesitar ajustarse a un camino de mejoras más lento.
«Creo que hace uno o dos años pasamos por un periodo de locura en el que los modelos mejoraban muy rápido. Nunca había sido así antes», dice este exempleado de DeepMind a Busines Insider. «No creo que el ritmo de mejora haya sido tan rápido este año, pero no creo que se trate de una desaceleración», agrega.
Zhou, de Lamini, también alude a esa cuestión. Las leyes de la escala —una observación de que los modelos de IA mejoran con el tamaño, más datos y mayor potencia de cálculo— funcionan en una escala logarítmica en lugar de lineal, precisa. En otras palabras, hay que pensar en los avances de la IA como una curva y no como una línea recta ascendente en un gráfico.
Esto hace que el desarrollo sea mucho más caro «de lo que cabría esperar para el siguiente paso sustancial en esta tecnología», admite Zhou. «Por eso, creo que nuestras expectativas no se cumplirán en el plazo que queremos, pero también por eso nos sorprenderán más las capacidades cuando aparezcan», vaticina.
Las empresas también también necesitarán considerar cómo de caro será crear nuevas versiones de sus costosos modelos. Según Amodei, de Anthropic, el entrenamiento del futuro podría llegar a costar un día 100.000 millones de dólares (95.000 millones de euros). Estos costes incluyen GPU, necesidades energéticas y procesadores de datos.
Queda por ver si los inversores y los clientes están dispuestos a esperar más tiempo la superinteligencia que se les ha prometido. Los problemas con Copilot de Microsoft, por ejemplo, están llevando a algunos clientes a preguntarse si la tan cacareada herramienta merece la pena.
Por ahora, los responsables de la IA mantienen que hay muchas palancas de las que tirar —desde nuevas fuentes de datos hasta un enfoque en la inferencia— para garantizar que los modelos sigan mejorando. Es posible que los inversores y los clientes tengan que estar preparados para que se produzcan a un ritmo más lento, sobre todo si se compara con el vertiginoso ritmo establecido por OpenAI cuando lanzó ChatGPT hace dos años.
Se avecinan problemas mayores si no lo hacen.