¿Qué es la ventana de contexto y por qué importa?

La ventana de contexto de un LLM es la cantidad máxima de texto que puede "leer" y tener en memoria simultáneamente. Los modelos anteriores a Gemini 1.5 Pro tenían ventanas de 4K a 200K tokens. GPT-4 Turbo había llegado a 128K. Gemini 1.5 Pro llegó a 1 millón, con pruebas de hasta 2 millones en testing.

Un millón de tokens equivale aproximadamente a: 750.000 palabras, o toda la saga Harry Potter, o una base de código mediana, o una hora de video procesado frame a frame. Esto no es una mejora incremental — es un cambio cualitativo en lo que se puede hacer con un solo llamado al modelo.

Prueba de referencia

En las pruebas de Google, Gemini 1.5 Pro procesó la totalidad del libro "The Great Gatsby" más cientos de documentos adicionales en un contexto de 1M tokens, y respondió preguntas específicas con una precisión del 99.7% en retrieval — sin técnicas de RAG externas.

Por qué 1 millón de tokens cambia todo

1M
Tokens de contexto
(2M en testing)
1h
Video procesable
en una consulta
30K
Líneas de código
en contexto completo

El cambio más importante es que desaparece la necesidad de arquitecturas complejas de RAG para muchos casos de uso. En lugar de vectorizar documentos, mantener un índice y hacer retrieval, con 1M de contexto podés simplemente enviar todo el documento al modelo y hacer preguntas directamente. Menos infraestructura, menor latencia de arquitectura, mayor simplicidad.

Arquitectura Mixture of Experts (MoE)

Gemini 1.5 Pro usa una arquitectura Mixture of Experts, que activa solo un subconjunto de sus parámetros para cada token procesado. Esto permite escalar la capacidad del modelo sin escalar linealmente el costo computacional. La eficiencia de MoE es lo que hace técnicamente posible procesar 1M de tokens en tiempos razonables.

Casos de uso habilitados

Los casos más claros son: análisis de repositorios de código completos, revisión de contratos legales con toda su historia de modificaciones, análisis médico de expedientes completos de pacientes, y auditoría de bases de datos de conversaciones de soporte sin sampling.

Disponibilidad

Gemini 1.5 Pro está disponible en Google AI Studio (con cuota gratuita) y en Google Cloud Vertex AI para empresas. La integración con Google Workspace (Docs, Sheets, Gmail) permite usar el modelo directamente en las herramientas de productividad sin desarrollo adicional.

Conclusión

La ventana de 1M tokens de Gemini 1.5 Pro establece un nuevo estándar que el resto de la industria tuvo que seguir. Anthropic y OpenAI respondieron con ventanas similares en sus modelos subsiguientes. El impacto más duradero no es la ventana en sí, sino el cambio de paradigma: en lugar de fragmentar documentos para que entren en el contexto, ahora el contexto puede contener el documento entero.