n8n + LangGraph en Producción: Workflows Agénticos que No Alucinan

La demo siempre funciona. Construyes un agente LangChain, lo conectas a tu repositorio de documentos, lo ves responder preguntas con precisión y todo el mundo queda impresionado. Luego lo pones en producción y empieza a generar respuestas incorrectas con total confianza, a quedarse atascado en bucles y de vez en cuando a hacer cosas que no le pediste.

Esto no es un problema de calidad del modelo. Es un problema de arquitectura.

Por Qué la Mayoría de Prototipos Agénticos Fallan en Producción

El prototipo funciona porque lo probaste con ejemplos limpios. Los datos de producción son desordenados: documentos con formato inconsistente, consultas ambiguas, casos extremos que no anticipaste. El agente no tiene manera de distinguir entre “tengo buena información sobre esto” y “estoy a punto de inventarme algo”.

Los modos de fallo que vemos repetidamente:

Alucinación en brechas de recuperación. Los agentes RAG responden con confianza incluso cuando el contexto recuperado no contiene realmente la respuesta. El modelo rellena el hueco con información que suena plausible. Esto es catastrófico para cualquier caso de uso con contenido contractual, financiero o médico.

Bucles de llamadas a herramientas. Un agente que puede llamar a herramientas puede entrar en estados donde llama a la misma herramienta repetidamente sin converger nunca. Sin detección explícita de bucles y condiciones de salida, esto quema tokens y no produce nada.

Desbordamiento de ventana de contexto. Los workflows multi-paso acumulan contexto. En algún momento el agente opera con una vista truncada de su propio historial y empieza a contradecir decisiones anteriores.

Falta de trazabilidad. En un sistema de producción, necesitas saber exactamente qué hizo el agente y por qué. Las sentencias print() no son suficientes.

La Arquitectura Que Funciona

Tras desplegar sistemas agénticos en varios entornos enterprise, el patrón que aguanta tiene este aspecto:

Capa 1: Orquestación (n8n) n8n gestiona la lógica del workflow — qué dispara el agente, qué ocurre con su salida, cómo se muestran los errores, cómo se enrutan los resultados a sistemas downstream. Esto es deliberado. n8n ofrece depuración visual de workflows, gestión de errores integrada e integración sencilla con el resto del stack. No intenta ser la IA — es el andamiaje alrededor de la IA.

Capa 2: Lógica del agente (LangGraph) LangGraph modela el agente como una máquina de estados explícita. Cada nodo es una función determinista. Las aristas definen las transiciones permitidas. Esto significa que puedes razonar sobre lo que el agente puede hacer, no solo sobre lo que podría hacer. Los ciclos son explícitos y acotados.

Capa 3: Recuperación (RAG personalizado) La capa de recuperación es donde se originan la mayoría de problemas de producción. Decisiones clave:

El tamaño del chunk y el solapamiento importan más que el modelo de embeddings. Prueba con tus documentos reales.
Umbrales de puntuación de relevancia: si ningún documento supera el umbral, el agente debe decir “no tengo información sobre esto”, no alucinar.
La búsqueda híbrida (BM25 + vectorial) supera consistentemente a la búsqueda puramente vectorial en contenido específico de dominio.

Capa 4: Guardas de seguridad El filtrado de salidas, la detección de inyección de prompts y la validación de respuestas no son opcionales para producción. Para despliegues enterprise, añade un validador de salida estructurada — exige que el agente devuelva JSON conforme a un esquema, no texto libre.

La Integración Específica n8n + LangGraph

La forma limpia de conectar estos es mediante el nodo HTTP Request de n8n llamando a un servidor LangGraph (wrapper FastAPI), con n8n gestionando el estado del workflow y LangGraph gestionando el estado del agente. Esta separación de responsabilidades es lo que hace el sistema depurable.

Un workflow típico:

Trigger: carga de documento, ejecución programada, o webhook desde tu ERP/CRM
Pre-procesamiento (n8n): extraer texto, chunking, validar esquema de entrada
Invocación del agente (n8n → API LangGraph): pasar entrada estructurada, recibir salida estructurada
Post-procesamiento (n8n): validar esquema de salida, enrutar según puntuación de confianza, gestionar fallbacks
Entrega de salida (n8n): escribir en base de datos, enviar notificación, disparar workflow downstream

El agente nunca toca tu infraestructura directamente. Todos los efectos secundarios están mediados por nodos n8n que puedes inspeccionar, probar y revertir.

Lo Que Realmente Requiere Estar Listo para Producción

Antes de llamar listo para producción a un sistema agéntico, necesita:

Fallbacks deterministas: si el agente no puede responder con suficiente confianza, escala a un humano o devuelve una respuesta estructurada de “información insuficiente”. Nunca una respuesta alucinada.
Idempotencia: ejecutar la misma entrada dos veces produce la misma salida. Crítico para cualquier workflow que escriba en una base de datos.
Observabilidad: cada ejecución del agente registra la entrada, el contexto recuperado, las llamadas a herramientas realizadas y la salida. LangSmith o una capa de logging personalizada.
Pruebas de carga: los sistemas agénticos son más lentos que una consulta a una base de datos. Necesitas saber cómo afectan las ejecuciones concurrentes a la latencia y si el servidor de inferencia LLM aguanta la carga.

Si tu sistema agéntico no tiene los cuatro, sigue siendo un prototipo.

Por Qué la Mayoría de Prototipos Agénticos Fallan en Producción

La Arquitectura Que Funciona

La Integración Específica n8n + LangGraph

Lo Que Realmente Requiere Estar Listo para Producción

Artículos relacionados

EU AI Act Alto Riesgo: Lo que Necesitas Construir Técnicamente

Fine-Tuning de LLMs Locales con QLoRA: Del Experimento al GGUF en Producción