OpenAI o1 y o3: los modelos que piensan antes de responder

¿Qué son los modelos o-series?

Los modelos o1 y o3 de OpenAI representan una familia distinta a GPT-4o. Donde GPT-4o optimiza para velocidad y versatilidad multimodal, los modelos o-series optimizan para exactitud en problemas de múltiples pasos. La diferencia fundamental es que estos modelos "gastan" tiempo de cómputo en el momento de la inferencia razonando sobre el problema antes de generar la respuesta.

OpenAI lanzó o1-preview y o1-mini en septiembre de 2024, con o3 (el modelo de mayor capacidad) anunciado en diciembre de 2024 y disponible en 2025. La nomenclatura "o" se aleja intencionalmente de "GPT" para señalar que son una línea de productos diferente.

Diferencia clave

En GPT-4o, el chain of thought es una técnica de prompting que el usuario puede aplicar. En la serie o1/o3, el razonamiento es interno al modelo: siempre ocurre, el usuario solo ve el resultado, y el tiempo de respuesta es mayor pero la precisión en tareas difíciles mejora sustancialmente.

Cómo funciona el razonamiento interno

Cuando un modelo o1 recibe un problema, genera internamente un "scratchpad" de tokens de razonamiento antes de producir la respuesta visible. Este scratchpad no está disponible para el usuario (a diferencia del extended thinking de Claude, que puede mostrarlo), pero el modelo lo usa para descomponer el problema, evaluar hipótesis intermedias y verificar su propia lógica.

El costo computacional es significativamente mayor: un problema que GPT-4o resuelve en 1-2 segundos puede tomar 10-60 segundos en o3. A cambio, en problemas de matemáticas avanzadas, código complejo, lógica formal o ciencias exactas, la tasa de error puede reducirse en un 60-80%.

El benchmark ARC-AGI: la prueba que nadie podía resolver

87.5%

o3 en ARC-AGI
(vs ~85% humano)

25.2%

GPT-4o en
ARC-AGI

96.7%

o3 en AIME 2024
(matemática)

ARC-AGI (Abstraction and Reasoning Corpus) fue diseñado por François Chollet para evaluar la capacidad de generalización de los modelos. Las tareas requieren inferir reglas a partir de pocos ejemplos — algo para what los LLMs pre-entrenados en texto no están optimizados. Los modelos anteriores a o3 alcanzaban entre el 0% y 34%. o3 alcanzó el 87.5%, superando el rendimiento humano promedio.

o1 vs o3 vs GPT-4o: cuándo usar cada uno

GPT-4o: conversación, síntesis de texto, tareas cotidianas, velocidad importa. o1: razonamiento científico, código complejo, matemáticas. o3: las tareas más difíciles del portfolio, cuando la exactitud es más importante que el tiempo y el costo.

Casos de uso reales para modelos de razonamiento

Las empresas que más se benefician de la serie o son: servicios financieros (análisis de riesgo multivariable), legal (interpretación de contratos con múltiples condiciones contradictorias), medicina (diagnóstico diferencial con síntomas ambiguos), y engineering (diseño de sistemas con múltiples restricciones simultáneas).

Conclusión

La serie o1/o3 representa una apuesta de OpenAI por el "test-time compute" — gastar más cómputo en el momento de inferencia en lugar de solo en el entrenamiento. Los resultados en ARC-AGI sugieren que este enfoque puede superar limitaciones que parecían fundamentales en los LLMs tradicionales.