Cómo elegir el mejor modelo de IA generativa

¿Cómo saber qué modelo de IA generativa es el mejor para tus necesidades?
Con 17 nuevos modelos cada semana, elegir se vuelve un desafío
Estamos en marzo de 2025 y el ritmo de innovación es frenético. Las grandes compañías tecnológicas están en una carrera sin precedentes por ofrecer los mejores modelos de LLM.
Es una competencia que beneficia a los usuarios, pero también complica nuestras decisiones:
- OpenAI lanzando nuevas versiones de GPT
- Anthropic con sus modelos Claude
- Google con Gemini
- Y muchos otros jugadores emergentes
Y cuando le preguntas a una IA cuál es el mejor modelo… ¡sorpresa! Siempre recomienda su propia tecnología 😅
🎧 Puedes escuchar a Ignacia Alcántara (IA, claro) en el audio de más arriba. Ya verás, ya…
🔍 3 métodos probados para elegir el mejor modelo
Método 1: El más reciente
Puede parecer obvio, pero es relevante. Los últimos modelos suelen incorporar mejoras de los anteriores, aunque con matices:
- Generalmente entrenan con mayor clarividencia
- Mejoran aspectos que los usuarios más solicitan
- Aprenden de los errores de versiones previas
⚠️ Pero cuidado: la presión competitiva a veces hace que las empresas liberen modelos antes de tiempo.
Método 2: Consulta los leaderboards
Existen clasificaciones especializadas que ponen a prueba cada modelo con benchmarks estandarizados:
- LM Arena: Antes conocido como Chatbot Arena, permite comparar modelos en combates directos, con clasificaciones específicas para programación web y copilots.
- Web development LMArena: Leaderboard específico para Web Development
- Aider Leaderboard: Evalúa los modelos con 225 ejercicios de programación en varios lenguajes, mostrando también los costos asociados.
- EvalPlus: Evalúa múltiples modelos con diferentes benchmarks
- BigCode: Benchmark específico para modelos de código
Lo interesante es que las diferencias entre los mejores modelos suelen ser pequeñas. A veces solo 2-3 puntos porcentuales separan al primero del tercero.
Método 3: Crea tus propias pruebas autoconclusivas
Esta es la opción definitiva: desarrolla tests adaptados a tus necesidades específicas.
Algunas pruebas efectivas que menciono en el podcast:
- Para programación: Un reto de física + programación (como crear una pelota rebotando en un hexágono rotatorio)
Escribe un programa en {LENGUAJE DE PROGRAMACION} que muestre una pelota rebotando dentro de un hexágono que gira, afectada por gravedad y fricción, y rebotando de manera realista contra las paredes rotatorias
- Para texto: Pedir itinerarios para lugares que conoces bien
- Para razonamiento lógico: Un test con estructura específica
Crea una encuesta con 5 preguntas y 3 opciones cada una para saber qué personaje de {TU PELICULA FAVORITA} eres. Asigna puntos a cada respuesta para saber qué personaje soy.
Lo importante es que documentes tus prompts para poder comparar entre modelos de forma consistente.
La sorpresa final…
En el episodio revelo un descubrimiento importante sobre cómo las grandes compañías están abordando esta competencia, que muestra que ni siquiera ellos tienen claro cuál es el «mejor» modelo absoluto.
Pero eso tendrás que descubrirlo escuchando el podcast completo 😉
¿Qué experiencias has tenido?
¿Has comparado diferentes modelos?
¿Cuál funciona mejor para tu caso de uso particular?
Te leo en comentarios 😉