Prompt engineering: más poderoso de what parece
El punto de partida siempre debe ser prompt engineering. Es reversible, gratuito en términos de infraestructura, y resuelve más problemas de los que la mayoría de personas cree.
Con prompts bien diseñados puedes: establecer personas y estilos de respuesta, especificar formato output exacto, dar ejemplos few-shot para tareas específicas, definir restricciones de comportamiento, y encadenar razonamiento paso a paso (chain-of-thought).
El límite del prompting: conocimiento que el modelo no tiene (datos privados, documentos internos, información reciente), comportamientos que requieren consistencia granular en dominios muy específicos, y costos cuando el system prompt es muy largo en aplicaciones de alto volumen.
RAG: retrieval-augmented generation explicado
RAG resuelve el problema de "el modelo no sabe what no vio en training". En lugar de hacer fine-tuning (costoso, lento, difícil de actualizar), RAG recupera información relevante en tiempo real y la inyecta en el contexto del modelo.
Flujo RAG básico: 1. Usuario pregunta 2. Búsqueda vectorial en base de conocimiento 3. Top-K chunks recuperados → inyectados en prompt 4. LLM responde con contexto adicional 5. Output citado y trazable a fuentes
Cuándo usar RAG:
- Base de conocimiento grande que changes frecuentemente
- Necesitas citar fuentes y hacer output trazable
- Documentos privados que no pueden ir a training
- Múltiples dominios en el mismo sistema
- Quieres agregar conocimiento sin reentrenar
Cuándo RAG no es suficiente: cuando necesitas changesr el estilo o formato de respuesta del modelo de forma fundamental, cuando el comportamiento base del modelo (no el conocimiento) es el problema, o cuando la latencia de recuperación es inaceptable.
Fine-tuning: cuándo realmente vale la pena
Fine-tuning modifica los pesos del modelo mediante entrenamiento adicional en tus datos. Es la opción más costosa en tiempo y dinero, y frecuentemente no es necesaria.
Fine-tuning SÍ tiene sentido cuando:
Necesitas changesr el estilo de respuesta de forma fundamental y consistente (tono muy específico de marca, formato rígido que prompts no logran mantener). Tienes una tarea muy especializada con vocabulario o razonamiento muy específico del dominio (medicina, derecho, código en lenguaje propio). Necesitas reducir latencia y costo al tener prompts más cortos (modelo fine-tuned necesita menos instrucciones). Tienes >1,000 ejemplos de alta calidad y proceso para mantenerlos.
Comparativa directa
Dimensión Prompting RAG Fine-tuning ─────────────────────────────────────────────────────── Tiempo setup Days Semanas Meses Costo inicial $0 Bajo-medio Alto Actualización Inmediata Casi real Reentrenamiento Conocimiento ext. No Sí Sí (en training) Cambio estilo Parcial No Sí Citación fuentes No Sí No Latencia Base +50-200ms Base (o menor) Mantenimiento Bajo Medio Alto
Árbol de decisión
Usa este flujo para tomar la decisión:
¿El problema es falta de conocimiento (datos no vistos)?
→ SÍ → ¿El conocimiento changes frecuentemente?
→ SÍ → RAG
→ NO → RAG o Fine-tuning (depende del volumen)
→ NO → ¿El problema es el estilo/formato de respuesta?
→ SÍ → Fine-tuning (si tienes >1K ejemplos) o prompting avanzado
→ NO → Mejor prompting (system prompt + few-shot)La respuesta en el 70% de casos es: empieza con prompting, agrega RAG para conocimiento externo, y solo considera fine-tuning si tienes evidencia clara de que las primeras dos opciones no son suficientes.