AI Infrastructure

A plataforma de produção para AI Agents - agnóstica de modelos, na sua infraestrutura. Modelos, hosting, pipeline, stack.

Discutir arquitetura

EU AI Act ready

Cada decisão rastreável

Sua infraestrutura

Sem SaaS. Sem vendor lock-in.

EU-first

Sem risco de cloud americana

Por que infraestrutura é o gargalo

A maioria das empresas que pilotam AI Agents não falha por causa do modelo. Os modelos funcionam. Falham por causa da infraestrutura: sem framework de governança, sem Audit Trail, sem isolamento de inquilinos, sem conceito de deployment, sem integração com sistemas existentes.

Um piloto em um notebook não é uma arquitetura de produção. Esta página descreve as tecnologias e configurações concretas que transformam um experimento LLM em um sistema operacional.

Como os componentes individuais de infraestrutura se articulam arquitetonicamente, está detalhado na Arquitetura de Referência de 7 Camadas.

Quatro componentes de infraestrutura

1. LLM Hosting

A camada de modelos. Onde a compreensão linguística acontece.

Cloud-LLMs:

Azure OpenAI (ChatGPT, Claude) - regiões Brasil e UE, DPA da Microsoft
Amazon Bedrock (Claude, Llama, Mistral) - regiões Brasil e UE, DPA da AWS
Google Vertex AI (Gemini) - regiões UE, DPA do Google
Anthropic API (Claude) - com EU Data Processing

Self-Hosted-LLMs:

Llama (Meta) - Open Source, em hardware próprio
Mistral - Open Source, empresa da UE
DeepSeek - Open Source, custo-eficiente
gpt-oss (OpenAI) - Open Weight, Apache 2.0, completamente self-hostável. 120B em uma única H100, 20B em hardware de consumo de 16 GB.

Frameworks de inferência para Self-Hosted:

Ollama - Entrada simples, desenvolvimento local, deployment na borda
vLLM - Production-grade, otimizado para GPU, alto throughput

Híbrido:

Self-Hosted para dados sensíveis (RH, finanças)
Cloud-LLMs para cargas menos críticas (classificação de documentos)
Roteamento automático conforme classificação de dados

A escolha do modelo é uma ponderação entre desempenho, custo, proteção de dados e latência. Assessoramos na seleção e implementamos de forma agnóstica - uma troca de modelo não altera a lógica de negócio. Mais detalhes: Modelos IA em comparação 2026 e LLM Self-Hosting para empresas.

Nossos AI Engineers possuem certificações Microsoft para Azure AI Services. As opções de deployment incluem Microsoft Azure, GCP e infraestrutura completamente self-hosted - a decisão arquitetônica pertence ao cliente, não ao fornecedor.

2. Pipeline RAG

Retrieval Augmented Generation - como agentes acessam o conhecimento empresarial.

Pipeline RAG: Documentos são fragmentados em chunks, armazenados como embeddings no Vector Store, recuperados semanticamente sob consulta e fornecidos ao LLM como contexto

Características de qualidade:

Chunking semântico (por conteúdo, não por número de página)
Enriquecimento de metadados (tipo de documento, versão, escopo de validade)
Busca híbrida (busca vetorial + busca por palavra-chave para precisão)
Citação de fonte em cada resposta (documento, página, parágrafo)
Re-indexação regular quando documentos são alterados

3. Orquestração

O controle de fluxo. Como agentes, sistemas e pessoas trabalham juntos.

Trigger.dev ou Camunda: Motor de workflow open-source. Workflows visuais, integração via API, webhooks. Self-hosted, sem vendor lock-in.
API Gateway: Ponto de entrada unificado. Rate limiting, autenticação, logging, monitoramento.
Sistema de Filas: Processamento assíncrono para processos em lote (fechamento mensal, importação em massa).
Sistema de Eventos: Reação em tempo real a documentos recebidos, mudanças de status, escalações.

A orquestração é a diferença entre "um agente pode fazer algo" e "um agente faz algo de forma confiável em produção". Veja também: Plataformas de orquestração de agentes.

4. Deployment

Onde a infraestrutura roda. Todas as opções com data residency no Brasil ou na UE.

Azure (Brasil e UE)

Azure Kubernetes Service (AKS) para orquestração de containers
Azure SQL / PostgreSQL para dados e Audit Trail
Azure OpenAI para LLM hosting
Regiões: Brazil South (São Paulo), West Europe, Germany West Central

AWS (Brasil e UE)

Amazon EKS para orquestração de containers
Amazon RDS / Aurora PostgreSQL para dados e Audit Trail
Amazon Bedrock para LLM hosting (Claude, Llama, Mistral)
Regiões: sa-east-1 (São Paulo), eu-central-1 (Frankfurt), eu-west-1 (Irlanda)

GCP (Brasil e UE)

Google Kubernetes Engine (GKE) para orquestração de containers
Cloud SQL / AlloyDB para dados e Audit Trail
Vertex AI para LLM hosting
Regiões: southamerica-east1 (São Paulo), europe-west1, europe-west3

Vercel EU + Supabase (Brasil ou UE)

Vercel para frontend e edge functions em data centers UE
Supabase para banco de dados (PostgreSQL), auth e storage
Supabase suporta região sa-east-1 (São Paulo) via AWS - dados permanecem no Brasil
Opção leve de deployment sem infraestrutura Kubernetes própria
Serviços managed com data residency no Brasil ou na UE

Self-Hosted

Docker / Kubernetes em hardware próprio
PostgreSQL com pgvector para dados e busca vetorial
LLMs open-source em GPUs próprias
Total independência do Cloud Act

Híbrido

Combinação conforme classificação de dados e requisitos LGPD (PT: RGPD)
Cargas sensíveis self-hosted, cargas padrão na nuvem
Orquestração unificada em todos os ambientes

Stack Tecnológico

Componente	Tecnologia	Por que
Motor de workflow	Trigger.dev, Camunda	Open source, self-hosted, sem vendor lock-in
Banco de dados	PostgreSQL + pgvector	Enterprise-ready, RLS, busca vetorial integrada
Backend	Python, TypeScript	Comprovados para ML e desenvolvimento de APIs
Frontend	React / Next.js	Para Dashboard, Chat UI, Portal de Auditor
Containers	Docker, Kubernetes	Padrão para nuvem e self-hosted
API	REST, GraphQL	Integração com sistemas existentes
Auth	Supabase Auth / OIDC	Compatível com SSO, integrável com provedores de identidade empresariais
Monitoramento	Prometheus, Grafana	Open source, self-hosted, dashboards em tempo real
Inferência	Ollama, vLLM	Inferência de LLM self-hosted, otimizada para GPU

Governança integrada

A infraestrutura inclui Governance by Design:

Audit Trail no nível de infraestrutura (não apenas no nível de aplicação)
Row-Level Security no nível de banco de dados - Data Residency em detalhe
Criptografia em repouso e em trânsito
RBAC em todos os componentes
Cert-Ready Controls como objetos de dados técnicos

Governança na arquitetura de 7 camadas →

Acesso ao código-fonte e independência

A infraestrutura opera nos sistemas do cliente - Azure, GCP, AWS ou Self-Hosted. Sem SaaS, sem hosting na Gosign. Acesso completo ao código-fonte, todas as configurações e conjuntos de regras. Stack open-source onde possível. Componentes proprietários apenas nos LLMs - e lá de forma agnóstica.

Após 12-18 meses, você opera a infraestrutura de forma independente.

Aprofundamento no Agent Briefing

Nossa série de artigos para executivos que implementam agentes de IA na empresa.

Infrastructure

Enterprise AI-Infraestrutura Blueprint 2026

Infrastructure

Hosting de IA: EU SaaS, data center europeu ou Self-Hosted?

Infrastructure

LLM Self-Hosting para Enterprise - Azure, GCP, On-Premise

Perguntas frequentes sobre AI Infrastructure

Preciso escolher entre nuvem e self-hosted?

Não. A arquitetura suporta deployment híbrido. Você pode processar dados sensíveis em self-hosted e usar serviços de nuvem para cargas menos críticas. As camadas acima da infraestrutura permanecem idênticas.

Quais provedores de nuvem são suportados?

Azure (Brasil e UE), AWS (Brasil e UE), GCP (Brasil e UE), Vercel EU + Supabase (região sa-east-1 São Paulo ou UE), Self-Hosted ou Híbrido. A arquitetura é cloud-agnostisch - trocar de provedor altera apenas o Infrastructure Layer, não a lógica de negócio.

Quais LLMs são suportados?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss e outros. Modelos open-source ou comerciais. Self-hosted via Ollama ou vLLM - incluindo os modelos open-weight da OpenAI, executáveis completamente na sua infraestrutura.

Preciso de hardware GPU próprio para modelos self-hosted?

Para modelos open-source como Llama, Mistral ou gpt-oss, hardware GPU é necessário. gpt-oss-120B roda em uma única H100, gpt-oss-20B em hardware de consumo de 16 GB. O dimensionamento depende do modelo e da carga de uso. Assessoramos na escolha do hardware.

Qual a diferença entre esta página e a arquitetura de referência?

A arquitetura de referência descreve o padrão arquitetônico - quais camadas existem e por quê. Esta página descreve a implementação concreta - quais tecnologias, quais regiões de nuvem, qual hardware. Arquitetura é o quê, infraestrutura é o como.

Para aprofundar

Arquitetura

Arquitetura de Referência de 7 Camadas

Como os componentes de infraestrutura se articulam arquitetonicamente - Presentation, Orchestration, Agent, Decision Layer, Model, Integration, Infrastructure.

Ver Arquitetura de Referência →

Recurso de conhecimento

Blueprint 2026

Onze artigos sobre as decisões de infraestrutura que importam em 2026: modelos de IA, hosting, RAG, orquestração, custos, EU AI Act.

Visão geral → Modelos IA 2026 →

Dados

Data Residency

Onde os dados residem, como garantir o isolamento de inquilinos e o que Data Residency significa na prática - com opções no Brasil e na UE.

Data Residency em detalhe →

Agentes

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - três tipos de agentes para processos empresariais.

Explorar AI Agents →

Qual infraestrutura se ajusta aos seus requisitos?

Azure (Brasil e UE), AWS (Brasil e UE), GCP, Vercel EU + Supabase, Self-Hosted ou Híbrido. Configuramos conforme suas necessidades.

Agendar reunião