Apuntes sobre la red de redes
Archivo
Así enseñan y entrenan a las inteligencias artificiales

Así enseñan y entrenan a las inteligencias artificiales

A pesar de su capacidad para realizar tareas increíblemente complejas, el funcionamiento interno de las redes neuronales artificiales sigue siendo un misterio, incluso para los expertos que las entrenan. Se puede resumir en que te saben explicar cómo las enseñan, pero no del todo cómo aprenden, provocando continuas sorpresas sobre cómo evolucionan, relacionan información y mejoran.

Estos sistemas de inteligencia artificial, que imitan la forma en que los humanos piensan y aprenden, están revolucionando disciplinas como la medicina o la automoción, así que poca broma con los avances porque de ellos y de su eficacia dependen vidas humanas. Sin embargo, sí existen grandes preguntas y dudas sobre cómo exactamente estas máquinas llegan a sus conclusiones, aunque al final lo que importa es el resultado, al menos por ahora.

En enero de 2022, un equipo de investigadores de OpenAI reveló un fenómeno fascinante: una red neuronal que había sido entrenada por un periodo más largo de lo habitual desarrolló métodos únicos para resolver problemas. Este descubrimiento sugiere que estas redes podrían tener la capacidad de aprender de maneras que aún no comprendemos completamente.

El fenómeno de la asimilación

El término «asimilación» fue acuñado para describir cómo una red neuronal pequeña, originalmente diseñada para operaciones matemáticas básicas, comenzó a entender y resolver problemas de manera más efectiva después de un entrenamiento extensivo. Este proceso fue más allá de la simple memorización de datos, lo que normalmente ocurre en lo que se conoce como régimen de sobreajuste, como si de un niño se tratara que va absorbiendo más allá del control teórico.

El investigador Mikhail Belkin de la Universidad de California en San Diego comentó que este hallazgo fue «muy emocionante y estimulante», pues abrió nuevas rutas de investigación. Este descubrimiento podría significar que las redes neuronales tienen la potencialidad de internalizar y comprender información a un nivel que no se había anticipado.

A medida que las redes aprenden, aumentan su capacidad para ejecutar funciones más complejas, mejorando la correspondencia entre resultados esperados y obtenidos. Sin embargo, entrenar demasiado la red puede llevar a una memorización excesiva donde la precisión en datos no vistos disminuye.

Mirando dentro de la caja negra

El estudio de estos fenómenos ha proporcionado nuevas perspectivas sobre cómo estas máquinas procesan información. Por ejemplo, el caso de una red que aprendió aritmética modular —un tipo de matemática que trabaja con un conjunto limitado de números— revela cómo, después de un punto de sobreajuste, la red no solo memorizaba, sino que comenzaba a generalizar soluciones, alcanzando una precisión que desafiaba las expectativas previas.

Estos modelos, conocidos como transformadores, son parte de una arquitectura de red que ha revolucionado el campo de procesamiento del lenguaje natural y más allá. Lo que observaron los investigadores fue que, una vez que la red había «asimilado» el problema, podía aplicar su aprendizaje a datos completamente nuevos con una precisión asombrosa.

Más allá de los límites convencionales

La capacidad de una red neuronal para pasar de la memorización a la generalización puede parecer repentina, pero en realidad es el resultado de un proceso interno gradual. Esta transición es crucial para el desarrollo de IA más robusta y adaptable, capaz de operar en entornos dinámicos y con información cambiante. Es el germen y la base desde la que se está desarrollando la ansiada AGI o Inteligencia Artificial General, el paso definitivo.

El trabajo de estos investigadores no solo es relevante por sus implicaciones en la inteligencia artificial, sino también porque desafía nuestra comprensión de la cognición y el aprendizaje en sistemas artificiales. La pregunta de cómo aprenden las redes neuronales está llevando a una exploración más profunda de las potencialidades de estas tecnologías.

Pizza, relojes y matemáticas

Un miembro del equipo de OpenAI olvidó detener el entrenamiento de una red mientras estaba de vacaciones, lo que resultó en un avance donde la red demostró una capacidad generalizada sorprendente en datos no entrenados, una capacidad avanzada de entender y manipular números más allá de la simple memorización.

Si te digo transformaciones discretas de Fourier, salvo que seas matemático te sonará a chino, pero justo un investigador de esta nacionalidad, Ziming Liu, descubrió algo tan emocionante como inquietante: que las redes neuronales «encuentran algo que los humanos no podemos interpretar», a través de unos algoritmos que denominan de pizza y de reloj, que se refieren a como estas redes aprovechan los senos y cosenos, que se podrían explicar como el aprovechamiento de las porciones de una pizza o de las horas de un reloj.

En estudios adicionales, las redes que habían asimilado mostraron robustez incluso cuando se enfrentaban a datos de entrenamiento con errores, ajustando sus respuestas para seguir siendo precisas.

La investigación sugiere que durante el entrenamiento, las redes neurales transitan gradualmente de una fase de memorización a una fase de generalización más efectiva y eficiente, un proceso que es catalizado por la regularización, la cual limita la complejidad de las funciones que la red puede aprender.

Aunque prometedores, los resultados obtenidos hasta ahora se han limitado a redes relativamente pequeñas, y aún se está investigando si los mismos principios se aplicarán a redes más grandes y complejas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *