Alia, la IA del Gobierno, es un desastre: ha costado una millonada y no supera ni a modelos de 2023

Alia, la IA del Gobierno, es un desastre: ha costado una millonada y no supera ni a modelos de 2023

Tras la presentación con bombos y platillos de los modelos de inteligencia artificial Alia, financiados por el Gobierno de España, la polémica no se hizo esperar. En las últimas horas, se ha desatado gran revuelo por su pobre desempeño al compararlo con otras IA de cierta antigüedad como Llama 2 32B, que Meta lanzó en julio de 2023.

Pero la historia no concluye allí, puesto que los costes de Alia también son motivo de controversia. Si bien no existe un dato preciso al respecto, se estima que ya se destinaron más de 10 millones de euros al desarrollo de esta inteligencia artificial. Una cifra que podría ser todavía mayor y que expertos de la industria consideran muy elevada para los resultados que está entregando la tecnología.

Entre los primeros comentarios críticos contra Alia se mencionó que sería un mero fine tuning —es decir, una versión personalizada— de Llama, la IA de Meta. No obstante, la página del modelo en Hugging Face afirma que se ha preentrenado desde cero usando sets de datos curados de forma manual. Lo que sí se habría aprovechado sería el tokenizador de la familia de modelos creados por la firma de Mark Zuckerberg.

Sobre este asunto, el ingeniero Ramón Medrano Llamas, de Google, brindó su punto de vista a través de su cuenta de X (Twitter). «Los modelos [por Alia] son bien malos, pero una nota: que usen el tokenizer de Llama no implica que sean un fine tune. De hecho, si fueran un fine tune con 17B tokens buenos, los resultados serían mucho mejores y a 1/100 de coste. Es lo que hizo Francia, por cierto», publicó.

Los benchmarks de Alia son peores que los de Llama 2 32B, de 2023

Entre las críticas a los benchmarks de Alia ha destacado la de Javier López, fundador de Magnific AI. El susodicho compartió una captura de pantalla en la que se podían observar los resultados de algunas pruebas en inglés de la IA española, comparada contra la versión de 32.000 millones de parámetros de Llama 2.

La tabla en cuestión mostraba que, en los parámetros en los que había posibilidad de contrastar el rendimiento entre ambos modelos, los resultados de Alia eran peores que los de la inteligencia artificial de Meta al medirlos según su precisión. Como indicamos al comienzo, los de Menlo Park lanzaron dicha versión en julio de 2023, de modo que ya no es una referencia top de la industria.

Tal y como indica la imagen, los ejemplos más contundentes del bajo desempeño de Alia en comparación con Llama 2 32B corresponden al entendimiento e interpretación del lenguaje natural (NLI) y a la creación de respuestas a preguntas (QA). Un punto interesante a considerar es que las tablas de Alia en Hugging Face han dejado de incluir la columna comparativa con el modelo de Meta, al menos al momento de redacción de este artículo.

Ya veremos si los responsables de la nueva IA financiada por el Gobierno de España salen a responder, o si el asunto continúa generando todo tipo de comentarios entre el público.

Gabriel Erard