Uno de los principales puntos de crítica hacia los chatbots movidos por inteligencia artificial es que pueden cometer errores en sus respuestas. Tanto es así que incluso aparece un mensaje que así lo atestigua: «ChatGPT puede cometer errores. Considera verificar la información importante», reza la IA de OpenAI en la zona inferior de la página.
Teniendo esto en cuenta y con tal de minimizar este tipo de errores, OpenAI ha presentado CriticGPT, un modelo de IA diseñado para identificar errores en el código generado por ChatGPT.
¿Su objetivo? Actuar como asistente de IA para los entrenadores humanos que revisan el código de programación generado por ChatGPT.
CriticGPT, basado en la familia de LLMs GPT-4 analiza el código y señala posibles errores para facilitar a los humanos la detección de fallos que de otro modo podían pasar desapercibidos.
La clave de todo esto es que los investigadores han entrenado a este modelo con un conjunto de datos de muestras de código con errores insertados intencionalmente, para así enseñarle a reconocer y señalar errores de codificación.
Los investigadores encontraron que las críticas de CriticGPT formada por equipo de humano-máquina lograban críticas más completas que solo los humanos y además reducían las tasas de confabulación en comparación con las críticas solo de IA.
Más allá de esto, los investigadores también crearon una técnica llamada Búsqueda por Haz de Muestreo Forzado (FSBS) que ha ayudado a CriticGPT a escribir reseñas más detalladas. ¿Lo mejor? Es algo que se puede ajustar según lo que se necesite.
Lo más interesante es que los investigadores han encontrado que las capacidades de CriticGPT se extienden más allá de la revisión del código, según apuntan desde Ars Technica.
Esto, según piensa OpenAI, demuestra el potencial del modelo para detectar errores sutiles que incluso una evaluación humana cuidadosa podría pasar por alto.
Ahora bien, a pesar de que los resultados son prometedores, CriticGPT tiene sus limitaciones, como todos los modelos de IA. Es decir, el modelo ha sido entrenado con respuestas relativamente cortas de ChatGPT, por lo que puede que no esté preparado para evaluar tareas largas y complejas.
Además, aunque CriticGPYT ha reducido las confabulaciones, no las elimina por completo y los entrenadores humanos aún pueden cometer errores en el etiquetado.
Ahora, OpenAI planea integrar modelos similares a CriticGPT de su pipeline de etiquetado RLHF para ofrecer a sus entrenadores asistencia de IA. Esto es un paso hacia el desarrollo de mejores herramientas para evaluar las salidas de los sistemas LLM que pueden ser difíciles e identificar para los humanos sin soporte adicional.
Sin embargo, los investigadores advierten que, incluso con herramientas como CriticGPT, las tareas o respuestas extremadamente complejas pueden seguir siendo un desafío para los evaluadores humanos, incluso aquellos asistidos por IA.