AI Infrastructure
La plataforma de producción para AI Agents - agnóstica de modelos, en su infraestructura. Modelos, hosting, pipeline, stack.
Por qué la infraestructura es el cuello de botella
La mayoría de empresas que pilotean AI Agents no fracasan por el modelo. Los modelos funcionan. Fracasan por la infraestructura: sin framework de gobernanza, sin Audit Trail, sin aislamiento de inquilinos, sin concepto de despliegue, sin integración con los sistemas existentes.
Un piloto en un portátil no es una arquitectura de producción. Esta página describe las tecnologías y configuraciones concretas que convierten un experimento con un LLM en un sistema operativo.
Cómo interactúan arquitectónicamente los componentes de infraestructura se describe en la Arquitectura de Referencia de 7 capas.
Cuatro componentes de infraestructura
1. LLM Hosting
La capa de modelo. Donde tiene lugar la comprensión del lenguaje.
Cloud LLMs:
- Azure OpenAI (ChatGPT, Claude) - regiones UE, DPA de Microsoft
- Amazon Bedrock (Claude, Llama, Mistral) - regiones UE, DPA de AWS
- Google Vertex AI (Gemini) - regiones UE, DPA de Google
- Anthropic API (Claude) - con EU Data Processing
LLMs Self-Hosted:
- Llama (Meta) - open source, en hardware propio
- Mistral - open source, empresa europea
- DeepSeek - open source, eficiente en costes
- gpt-oss (OpenAI) - open weight, Apache 2.0, completamente self-hostable. 120B en una única H100, 20B en 16 GB de hardware de consumo.
Frameworks de inferencia para self-hosted:
- Ollama - Inicio sencillo, desarrollo local, edge deployment
- vLLM - Production-grade, optimizado para GPU, alto throughput
Híbrido:
- Self-hosted para datos sensibles (RRHH, finanzas)
- Cloud LLMs para cargas menos críticas (clasificación de documentos)
- Enrutamiento automático según clasificación de datos
La elección del modelo es un equilibrio entre rendimiento, costes, protección de datos y latencia. Asesoramos en la selección e implementamos de forma agnóstica de modelos - un cambio de modelo no altera la lógica de negocio.
Profundizar: Modelos de IA en comparación · LLM Self-Hosting para empresas
Nuestros ingenieros AI cuentan con certificación Microsoft para Azure AI Services. Las opciones de despliegue incluyen Microsoft Azure, GCP e infraestructura completamente autohospedada - la decisión arquitectónica corresponde al cliente, no al proveedor.
2. Pipeline RAG
Retrieval Augmented Generation - cómo los agentes acceden al conocimiento empresarial.
Características de calidad:
- Chunking semántico (no por número de página, sino por contenido)
- Enriquecimiento de metadatos (tipo de documento, versión, ámbito de vigencia)
- Hybrid Search (búsqueda vectorial + keyword para mayor precisión)
- Cita de fuente en cada respuesta (documento, página, párrafo)
- Re-indexación periódica cuando cambian los documentos
3. Orquestación
El control de flujo. Cómo colaboran agentes, sistemas y personas.
- Trigger.dev o Camunda: Motor de workflow open source. Workflows visuales, integración de APIs, webhooks. Self-hosted, sin vendor lock-in.
- API Gateway: Punto de entrada unificado. Rate Limiting, autenticación, logging, monitoring.
- Sistema de Colas: Procesamiento asíncrono para procesos batch (cierre mensual, importación masiva).
- Sistema de Eventos: Reacción en tiempo real a documentos entrantes, cambios de estado, escalaciones.
La orquestación es la diferencia entre "un agente puede hacer algo" y "un agente hace algo de forma fiable en producción".
Profundizar: Plataformas de orquestación de agentes
4. Despliegue
Donde se ejecuta la infraestructura. Todas las opciones solo en la UE.
Azure (UE)
- Azure Kubernetes Service (AKS) para orquestación de contenedores
- Azure SQL / PostgreSQL para datos y Audit Trail
- Azure OpenAI para hosting de LLM
- Regiones: West Europe, North Europe, Spain Central
AWS (UE)
- Amazon EKS para orquestación de contenedores
- Amazon RDS / Aurora PostgreSQL para datos y Audit Trail
- Amazon Bedrock para hosting de LLM (Claude, Llama, Mistral)
- Regiones: eu-central-1 (Francfort), eu-west-1 (Irlanda), eu-south-2 (España)
GCP (UE)
- Google Kubernetes Engine (GKE) para orquestación de contenedores
- Cloud SQL / AlloyDB para datos y Audit Trail
- Vertex AI para hosting de LLM
- Regiones: europe-southwest1 (Madrid), europe-west1, europe-west3
Vercel EU + Supabase EU
- Vercel para frontend y edge functions en centros de datos UE
- Supabase para base de datos (PostgreSQL), auth y storage
- Opción de despliegue ligera en la UE sin infraestructura Kubernetes propia
- Servicios gestionados con EU Data Residency
Self-Hosted
- Docker / Kubernetes en hardware propio
- PostgreSQL con pgvector para datos y búsqueda vectorial
- LLMs open source en GPUs propias
- Total independencia del Cloud Act
Híbrido
- Combinación según clasificación de datos
- Cargas sensibles en self-hosted, cargas estándar en cloud
- Orquestación unificada en todos los entornos
Stack tecnológico
| Componente | Tecnología | Por qué |
|---|---|---|
| Motor de Workflow | Trigger.dev, Camunda | Open source, self-hosted, sin vendor lock-in |
| Base de datos | PostgreSQL + pgvector | Enterprise-ready, compatible con RLS, búsqueda vectorial integrada |
| Backend | Python, TypeScript | Probados para cargas ML y desarrollo de APIs |
| Frontend | React / Next.js | Para Dashboard, Chat UI, Auditor Portal |
| Contenedores | Docker, Kubernetes | Estándar para cloud y self-hosted |
| API | REST, GraphQL | Integración con sistemas existentes |
| Auth | Supabase Auth / OIDC | Compatible con SSO, integrable con proveedores de identidad empresariales |
| Monitoring | Prometheus, Grafana | Open source, self-hosted, dashboards en tiempo real |
| Inferencia | Ollama, vLLM | Inferencia LLM self-hosted, optimizada para GPU |
La gobernanza está integrada
La infraestructura incluye Governance by Design:
- Audit Trail a nivel de infraestructura (no solo de aplicación)
- Row-Level Security a nivel de base de datos - Data Residency en detalle
- Cifrado en reposo y en tránsito
- RBAC en todos los componentes
- Cert-Ready Controls como objetos de datos técnicos
Acceso completo al código fuente
La infraestructura funciona en los sistemas del cliente - Azure, GCP, AWS o Self-Hosted. Sin SaaS, sin hosting en Gosign. Acceso completo al código fuente, configuraciones y conjuntos de reglas. Stack open source donde sea posible. Componentes propietarios solo en los propios LLMs - y ahí agnóstico de modelos.
Tras 12-18 meses, usted opera la infraestructura de forma independiente.
Profundización en el Agent Briefing
Nuestra serie de artículos para ejecutivos que implementan agentes de IA en la empresa.
Preguntas frecuentes sobre AI Infrastructure
¿Debo elegir entre cloud y self-hosted?
No. La arquitectura soporta despliegue híbrido. Puede procesar datos sensibles en self-hosted y utilizar servicios cloud para cargas menos críticas. Las capas por encima de la infraestructura permanecen idénticas.
¿Qué proveedores cloud se soportan?
Azure (UE), AWS (UE), GCP (UE), Vercel EU + Supabase EU, Self-Hosted o Híbrido. La arquitectura es cloud-agnóstica - un cambio de proveedor solo modifica el Infrastructure Layer, no la lógica de negocio.
¿Qué LLMs se soportan?
ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss y otros. Modelos open source o comerciales. Self-hosted a través de Ollama o vLLM - incluidos los modelos open weight de OpenAI, que funcionan completamente en su infraestructura.
¿Necesito hardware GPU propio para modelos self-hosted?
Para modelos open source como Llama, Mistral o gpt-oss se requiere hardware GPU. gpt-oss-120B funciona en una única H100, gpt-oss-20B en 16 GB de hardware de consumo. El dimensionamiento depende del modelo y la carga de uso. Asesoramos en la selección de hardware.
¿Qué diferencia esta página de la Arquitectura de Referencia?
La Arquitectura de Referencia describe el patrón arquitectónico - qué capas existen y por qué. Esta página describe la implementación concreta - qué tecnologías, qué regiones cloud, qué hardware. La arquitectura es el qué, la infraestructura es el cómo.
Para profundizar
Arquitectura
Arquitectura de Referencia de 7 capas
Cómo interactúan arquitectónicamente los componentes de infraestructura - Presentation, Orchestration, Agent, Decision Layer, Model, Integration, Infrastructure.
A la Arquitectura de Referencia →Recurso de conocimiento
Blueprint 2026
Once artículos sobre las decisiones de infraestructura que importan en 2026: modelos de IA, hosting, RAG, orquestación, costes, EU AI Act.
Datos
Data Residency
Donde residen los datos, cómo se asegura el aislamiento de inquilinos y qué significa EU Data Residency en la práctica.
Data Residency en detalle →Agentes
AI Agents
Document Agents, Workflow Agents, Knowledge Agents - tres tipos de agentes para procesos empresariales.
Explorar AI Agents →¿Qué infraestructura se ajusta a sus requisitos?
Azure UE, AWS UE, GCP UE, Vercel EU + Supabase EU, Self-Hosted o Híbrido. Configuramos según sus requisitos.
Agendar reunión