NVIDIA Rubin: 10× menos costo de inferencia y la nueva era de los AI factories

Qué es la plataforma Rubin

Rubin no es un chip — es una plataforma. Incluye seis componentes interconectados: Vera CPU + Rubin GPU (la unidad de cómputo principal), NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Ethernet Switch, y a partir de marzo, el Groq 3 LPU integrado.

El bundle se vende como Vera Rubin NVL72: un servidor con 72 GPUs Rubin que se comporta como una sola unidad de cómputo, conectado por NVLink 6 a 1.8 TB/s entre GPUs.

Comparativa vs. Blackwell

10×

Reducción costo
por token inferencia

4×

Menos GPUs
para entrenar MoE

GPUs por NVL72
como una unidad

El salto Hopper → Blackwell ya fue dramático (~2.5× inferencia). Blackwell → Rubin es del mismo orden, pero en una dimensión diferente: costo por unidad de output en vez de raw FLOPS.

El diseño está optimizado para modelos Mixture of Experts (MoE) — la arquitectura de moda en frontier labs (GPT-5.5, Claude Opus 4.7, Gemini 4 usan MoE). Rubin acelera específicamente la dispatch de tokens a expertos.

Groq 3 LPU: el cambio sorpresa

En marzo de 2026, NVIDIA integró el Groq 3 LPU en la plataforma. Groq (antes startup competidor de NVIDIA en inferencia) fue adquirida en una operación que sorprendió al mercado. El Groq 3 LPU es un acelerador especializado en inferencia de latencia ultrabaja: tokens por segundo significativamente mayores que GPU general purpose.

Para casos de uso como voz en tiempo real, agentes interactivos o trading algorítmico, la combinación Rubin + Groq 3 reduce latencia de TTFB (time-to-first-byte) por debajo de los 100ms en modelos grandes.

Ising: el guiño a quantum

NVIDIA aprovechó GTC 2026 para anunciar Ising, los primeros modelos open IA orientados a acelerar el camino hacia computadoras cuánticas útiles. No es producto comercial todavía, pero marca dónde mira NVIDIA: el siguiente cuello de botella post-IA será el modelado de sistemas cuánticos.

Disponibilidad y partners

Rubin está en producción plena. Los productos basados en Rubin estarán disponibles vía partners en la segunda mitad de 2026. AWS, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure serán los primeros providers cloud en desplegar instancias Vera Rubin.

Para empresas: los precios en cloud serán menores que Blackwell por unidad de throughput, pero la disponibilidad inicial será limitada. Anthropic y OpenAI están entre los primeros clientes garantizados.

Qué significa para empresas

El impacto principal no es para los frontier labs — es para las empresas que corren modelos propios o agentes 24/7 a escala. Los costos de inferencia son típicamente 60-80% del costo operativo total de un producto IA en producción. Reducirlos 10× cambia los modelos de negocio.

Caso concreto: un chatbot procesando 1M de mensajes/día con un modelo grande costaba ~$15K/mes en Blackwell. En Rubin, baja a ~$1.5K/mes. Eso habilita casos de uso que antes no cerraban económicamente.

Conclusión

Rubin marca la transición de la era "entrenar más grande" a "servir más eficiente". Para las empresas que ya operan IA en producción, la pregunta de 2026 no es si migrar a Rubin sino cuándo y a qué provider. La ventana de costos privilegiados será corta — los grandes consumidores se moverán primero.