AI Infrastructure
A plataforma de produção para AI Agents - agnóstica de modelos, na sua infraestrutura. Modelos, hosting, pipeline, stack.
Por que infraestrutura é o gargalo
A maioria das empresas que pilotam AI Agents não falha por causa do modelo. Os modelos funcionam. Falham por causa da infraestrutura: sem framework de governança, sem Audit Trail, sem isolamento de inquilinos, sem conceito de deployment, sem integração com sistemas existentes.
Um piloto em um notebook não é uma arquitetura de produção. Esta página descreve as tecnologias e configurações concretas que transformam um experimento LLM em um sistema operacional.
Como os componentes individuais de infraestrutura se articulam arquitetonicamente, está detalhado na Arquitetura de Referência de 7 Camadas.
Quatro componentes de infraestrutura
1. LLM Hosting
A camada de modelos. Onde a compreensão linguística acontece.
Cloud-LLMs:
- Azure OpenAI (ChatGPT, Claude) - regiões Brasil e UE, DPA da Microsoft
- Amazon Bedrock (Claude, Llama, Mistral) - regiões Brasil e UE, DPA da AWS
- Google Vertex AI (Gemini) - regiões UE, DPA do Google
- Anthropic API (Claude) - com EU Data Processing
Self-Hosted-LLMs:
- Llama (Meta) - Open Source, em hardware próprio
- Mistral - Open Source, empresa da UE
- DeepSeek - Open Source, custo-eficiente
- gpt-oss (OpenAI) - Open Weight, Apache 2.0, completamente self-hostável. 120B em uma única H100, 20B em hardware de consumo de 16 GB.
Frameworks de inferência para Self-Hosted:
- Ollama - Entrada simples, desenvolvimento local, deployment na borda
- vLLM - Production-grade, otimizado para GPU, alto throughput
Híbrido:
- Self-Hosted para dados sensíveis (RH, finanças)
- Cloud-LLMs para cargas menos críticas (classificação de documentos)
- Roteamento automático conforme classificação de dados
A escolha do modelo é uma ponderação entre desempenho, custo, proteção de dados e latência. Assessoramos na seleção e implementamos de forma agnóstica - uma troca de modelo não altera a lógica de negócio. Mais detalhes: Modelos IA em comparação 2026 e LLM Self-Hosting para empresas.
Nossos AI Engineers possuem certificações Microsoft para Azure AI Services. As opções de deployment incluem Microsoft Azure, GCP e infraestrutura completamente self-hosted - a decisão arquitetônica pertence ao cliente, não ao fornecedor.
2. Pipeline RAG
Retrieval Augmented Generation - como agentes acessam o conhecimento empresarial.
Características de qualidade:
- Chunking semântico (por conteúdo, não por número de página)
- Enriquecimento de metadados (tipo de documento, versão, escopo de validade)
- Busca híbrida (busca vetorial + busca por palavra-chave para precisão)
- Citação de fonte em cada resposta (documento, página, parágrafo)
- Re-indexação regular quando documentos são alterados
3. Orquestração
O controle de fluxo. Como agentes, sistemas e pessoas trabalham juntos.
- Trigger.dev ou Camunda: Motor de workflow open-source. Workflows visuais, integração via API, webhooks. Self-hosted, sem vendor lock-in.
- API Gateway: Ponto de entrada unificado. Rate limiting, autenticação, logging, monitoramento.
- Sistema de Filas: Processamento assíncrono para processos em lote (fechamento mensal, importação em massa).
- Sistema de Eventos: Reação em tempo real a documentos recebidos, mudanças de status, escalações.
A orquestração é a diferença entre "um agente pode fazer algo" e "um agente faz algo de forma confiável em produção". Veja também: Plataformas de orquestração de agentes.
4. Deployment
Onde a infraestrutura roda. Todas as opções com data residency no Brasil ou na UE.
Azure (Brasil e UE)
- Azure Kubernetes Service (AKS) para orquestração de containers
- Azure SQL / PostgreSQL para dados e Audit Trail
- Azure OpenAI para LLM hosting
- Regiões: Brazil South (São Paulo), West Europe, Germany West Central
AWS (Brasil e UE)
- Amazon EKS para orquestração de containers
- Amazon RDS / Aurora PostgreSQL para dados e Audit Trail
- Amazon Bedrock para LLM hosting (Claude, Llama, Mistral)
- Regiões: sa-east-1 (São Paulo), eu-central-1 (Frankfurt), eu-west-1 (Irlanda)
GCP (Brasil e UE)
- Google Kubernetes Engine (GKE) para orquestração de containers
- Cloud SQL / AlloyDB para dados e Audit Trail
- Vertex AI para LLM hosting
- Regiões: southamerica-east1 (São Paulo), europe-west1, europe-west3
Vercel EU + Supabase (Brasil ou UE)
- Vercel para frontend e edge functions em data centers UE
- Supabase para banco de dados (PostgreSQL), auth e storage
- Supabase suporta região sa-east-1 (São Paulo) via AWS - dados permanecem no Brasil
- Opção leve de deployment sem infraestrutura Kubernetes própria
- Serviços managed com data residency no Brasil ou na UE
Self-Hosted
- Docker / Kubernetes em hardware próprio
- PostgreSQL com pgvector para dados e busca vetorial
- LLMs open-source em GPUs próprias
- Total independência do Cloud Act
Híbrido
- Combinação conforme classificação de dados e requisitos LGPD (PT: RGPD)
- Cargas sensíveis self-hosted, cargas padrão na nuvem
- Orquestração unificada em todos os ambientes
Stack Tecnológico
| Componente | Tecnologia | Por que |
|---|---|---|
| Motor de workflow | Trigger.dev, Camunda | Open source, self-hosted, sem vendor lock-in |
| Banco de dados | PostgreSQL + pgvector | Enterprise-ready, RLS, busca vetorial integrada |
| Backend | Python, TypeScript | Comprovados para ML e desenvolvimento de APIs |
| Frontend | React / Next.js | Para Dashboard, Chat UI, Portal de Auditor |
| Containers | Docker, Kubernetes | Padrão para nuvem e self-hosted |
| API | REST, GraphQL | Integração com sistemas existentes |
| Auth | Supabase Auth / OIDC | Compatível com SSO, integrável com provedores de identidade empresariais |
| Monitoramento | Prometheus, Grafana | Open source, self-hosted, dashboards em tempo real |
| Inferência | Ollama, vLLM | Inferência de LLM self-hosted, otimizada para GPU |
Governança integrada
A infraestrutura inclui Governance by Design:
- Audit Trail no nível de infraestrutura (não apenas no nível de aplicação)
- Row-Level Security no nível de banco de dados - Data Residency em detalhe
- Criptografia em repouso e em trânsito
- RBAC em todos os componentes
- Cert-Ready Controls como objetos de dados técnicos
Acesso ao código-fonte e independência
A infraestrutura opera nos sistemas do cliente - Azure, GCP, AWS ou Self-Hosted. Sem SaaS, sem hosting na Gosign. Acesso completo ao código-fonte, todas as configurações e conjuntos de regras. Stack open-source onde possível. Componentes proprietários apenas nos LLMs - e lá de forma agnóstica.
Após 12-18 meses, você opera a infraestrutura de forma independente.
Aprofundamento no Agent Briefing
Nossa série de artigos para executivos que implementam agentes de IA na empresa.
Perguntas frequentes sobre AI Infrastructure
Preciso escolher entre nuvem e self-hosted?
Não. A arquitetura suporta deployment híbrido. Você pode processar dados sensíveis em self-hosted e usar serviços de nuvem para cargas menos críticas. As camadas acima da infraestrutura permanecem idênticas.
Quais provedores de nuvem são suportados?
Azure (Brasil e UE), AWS (Brasil e UE), GCP (Brasil e UE), Vercel EU + Supabase (região sa-east-1 São Paulo ou UE), Self-Hosted ou Híbrido. A arquitetura é cloud-agnostisch - trocar de provedor altera apenas o Infrastructure Layer, não a lógica de negócio.
Quais LLMs são suportados?
ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss e outros. Modelos open-source ou comerciais. Self-hosted via Ollama ou vLLM - incluindo os modelos open-weight da OpenAI, executáveis completamente na sua infraestrutura.
Preciso de hardware GPU próprio para modelos self-hosted?
Para modelos open-source como Llama, Mistral ou gpt-oss, hardware GPU é necessário. gpt-oss-120B roda em uma única H100, gpt-oss-20B em hardware de consumo de 16 GB. O dimensionamento depende do modelo e da carga de uso. Assessoramos na escolha do hardware.
Qual a diferença entre esta página e a arquitetura de referência?
A arquitetura de referência descreve o padrão arquitetônico - quais camadas existem e por quê. Esta página descreve a implementação concreta - quais tecnologias, quais regiões de nuvem, qual hardware. Arquitetura é o quê, infraestrutura é o como.
Para aprofundar
Arquitetura
Arquitetura de Referência de 7 Camadas
Como os componentes de infraestrutura se articulam arquitetonicamente - Presentation, Orchestration, Agent, Decision Layer, Model, Integration, Infrastructure.
Ver Arquitetura de Referência →Recurso de conhecimento
Blueprint 2026
Onze artigos sobre as decisões de infraestrutura que importam em 2026: modelos de IA, hosting, RAG, orquestração, custos, EU AI Act.
Dados
Data Residency
Onde os dados residem, como garantir o isolamento de inquilinos e o que Data Residency significa na prática - com opções no Brasil e na UE.
Data Residency em detalhe →Agentes
AI Agents
Document Agents, Workflow Agents, Knowledge Agents - três tipos de agentes para processos empresariais.
Explorar AI Agents →Qual infraestrutura se ajusta aos seus requisitos?
Azure (Brasil e UE), AWS (Brasil e UE), GCP, Vercel EU + Supabase, Self-Hosted ou Híbrido. Configuramos conforme suas necessidades.
Agendar reunião