Prompt engineering: más poderoso de lo que parece

El punto de partida siempre debe ser prompt engineering. Es reversible, gratuito en términos de infraestructura, y resuelve más problemas de los que la mayoría de personas cree.

Con prompts bien diseñados puedes: establecer personas y estilos de respuesta, especificar formato output exacto, dar ejemplos few-shot para tareas específicas, definir restricciones de comportamiento, y encadenar razonamiento paso a paso (chain-of-thought).

Regla práctica: Antes de cualquier otra estrategia, invierte al menos 2 semanas en optimizar prompts. El 80% de los casos de uso empresariales se resuelven con prompts bien diseñados + un buen modelo base. El costo marginal es casi cero.

El límite del prompting: conocimiento que el modelo no tiene (datos privados, documentos internos, información reciente), comportamientos que requieren consistencia granular en dominios muy específicos, y costos cuando el system prompt es muy largo en aplicaciones de alto volumen.

RAG: retrieval-augmented generation explicado

RAG resuelve el problema de "el modelo no sabe lo que no vio en training". En lugar de hacer fine-tuning (costoso, lento, difícil de actualizar), RAG recupera información relevante en tiempo real y la inyecta en el contexto del modelo.

Flujo RAG básico:
1. Usuario hace pregunta
2. Búsqueda vectorial en base de conocimiento
3. Top-K chunks recuperados → inyectados en prompt
4. LLM responde con contexto adicional
5. Output citado y trazable a fuentes

Cuándo usar RAG:

  • Base de conocimiento grande que cambia frecuentemente
  • Necesitas citar fuentes y hacer output trazable
  • Documentos privados que no pueden ir a training
  • Múltiples dominios en el mismo sistema
  • Quieres agregar conocimiento sin reentrenar

Cuándo RAG no es suficiente: cuando necesitas cambiar el estilo o formato de respuesta del modelo de forma fundamental, cuando el comportamiento base del modelo (no el conocimiento) es el problema, o cuando la latencia de recuperación es inaceptable.

Fine-tuning: cuándo realmente vale la pena

Fine-tuning modifica los pesos del modelo mediante entrenamiento adicional en tus datos. Es la opción más costosa en tiempo y dinero, y frecuentemente no es necesaria.

Fine-tuning SÍ tiene sentido cuando:

Necesitas cambiar el estilo de respuesta de forma fundamental y consistente (tono muy específico de marca, formato rígido que prompts no logran mantener). Tienes una tarea muy especializada con vocabulario o razonamiento muy específico del dominio (medicina, derecho, código en lenguaje propio). Necesitas reducir latencia y costo al tener prompts más cortos (modelo fine-tuned necesita menos instrucciones). Tienes >1,000 ejemplos de alta calidad y proceso para mantenerlos.

Trampa común: Fine-tuning en datos de baja calidad. Un modelo fine-tuneado en 500 ejemplos mediocres será peor que el modelo base con un buen prompt. La calidad de los datos de entrenamiento es más importante que la cantidad.

Comparativa directa

Dimensión          Prompting    RAG          Fine-tuning
───────────────────────────────────────────────────────
Tiempo setup       Días         Semanas      Meses
Costo inicial      $0           Bajo-medio   Alto
Actualización      Inmediata    Casi real    Reentrenamiento
Conocimiento ext.  No           Sí           Sí (en training)
Cambio estilo      Parcial      No           Sí
Citación fuentes   No           Sí           No
Latencia           Base         +50-200ms    Base (o menor)
Mantenimiento      Bajo         Medio        Alto

Árbol de decisión

Usa este flujo para tomar la decisión:

¿El problema es falta de conocimiento (datos no vistos)?
  → SÍ → ¿El conocimiento cambia frecuentemente?
           → SÍ → RAG
           → NO → RAG o Fine-tuning (depende del volumen)
  → NO → ¿El problema es el estilo/formato de respuesta?
           → SÍ → Fine-tuning (si tienes >1K ejemplos) o prompting avanzado
           → NO → Mejor prompting (system prompt + few-shot)

La respuesta en el 70% de casos es: empieza con prompting, agrega RAG para conocimiento externo, y solo considera fine-tuning si tienes evidencia clara de que las primeras dos opciones no son suficientes.

Arquitectura óptima en producción: Prompting bien diseñado + RAG para conocimiento dinámico + fine-tuning ligero (LoRA) solo para el estilo de respuesta si es crítico. Casi nunca necesitarás full fine-tuning de todos los pesos del modelo.