El estado del debate en 2025

Durante 2022-2023, la distinción entre modelos open source y cerrados era también una distinción de calidad: los modelos cerrados eran significativamente mejores. En 2024-2025, esa brecha se cerró. Llama 3 405B iguala a GPT-4 en múltiples benchmarks. Mistral Large compite con Claude 3 Sonnet. Qwen de Alibaba supera a GPT-3.5 en chino con facilidad.

El resultado es que la elección entre open y closed ya no es "¿cuál es mejor?" sino "¿cuál es mejor para mi caso de uso específico, mis restricciones y mis capacidades operativas?"

El punto de inflexión

En el benchmark LMSYS Chatbot Arena, que mide preferencia humana real en conversación, los modelos open source ocupan consistentemente posiciones en el top 10. En 2023, ningún modelo open source aparecía en el top 5. En 2025, Llama 3 70B y Mistral Large están en el top 5 según la categoría.

Ventajas del open source

Control total de los datos: el modelo corre en tu infraestructura, ningún dato sale a terceros. Crítico para sectores como salud, finanzas, legal o defensa. Costo marginal cero: una vez amortizado el hardware GPU, cada inferencia no tiene costo adicional. A escala alta, la diferencia es millones de dólares al año. Customización completa: fine-tuning sin restricciones de los términos de servicio del proveedor. Sin lock-in: si el proveedor desaparece o sube precios, el modelo sigue siendo tuyo.

Ventajas de los modelos cerrados

Menor complejidad operativa: API lista en minutos, sin gestionar GPUs, updates, seguridad de infraestructura. Mejor rendimiento en la frontera: Claude 3.5 Sonnet y GPT-4o todavía superan en tareas complejas a los mejores modelos open source disponibles. Modalidades avanzadas: la visión, el audio en tiempo real y el computer use son capacidades que los modelos open source no replican completamente todavía. Soporte y SLA: los proveedores cerrados ofrecen garantías de disponibilidad que una infraestructura propia requiere más esfuerzo para replicar.

Comparativa de rendimiento 2025

MMLU (conocimiento general): Claude 3.5 Sonnet: 88.7% Cerrado — referencia actual Llama 3 405B: 87.3% Open — diferencia de 1.4% GPT-4o: 87.2% Cerrado Mistral Large 2: 84.0% Open Precio por 1M tokens (entrada): Claude 3.5 Haiku: $0.80 Cerrado — más barato que hosting propio a bajo vol. GPT-4o Mini: $0.15 Cerrado Llama 3 70B self: ~$0.10 Open (en infra propia, coste de cómputo) Llama 3 70B API: $0.59 Open (via Groq/Together)

Cómo decidir para tu empresa

Usá open source si: los datos son sensibles y no pueden salir, el volumen es alto y el costo de API supera el costo de infraestructura, necesitás fine-tuning extensivo, o operás en sectores regulados con restricciones de residencia de datos. Usá modelos cerrados si: priorizás capacidades de frontera, el equipo técnico es pequeño y la simplicidad operativa es clave, o usás modalidades avanzadas (visión en tiempo real, computer use).

Conclusión

La respuesta correcta en 2025 para la mayoría de las empresas es híbrida: modelos cerrados via API para tareas de frontera donde la calidad es crítica, y modelos open source deployados internamente para el volumen alto de tareas más simples. La estrategia de un solo modelo rara vez es la óptima.