Pular para o conteúdo

AI Infrastructure

A plataforma de produção para AI Agents - agnóstica de modelos, na sua infraestrutura. Modelos, hosting, pipeline, stack.

AirbusVolkswagenShellSonyEvonikPhilipsKPMG

Por que infraestrutura é o gargalo

A maioria das empresas que pilotam AI Agents não falha por causa do modelo. Os modelos funcionam. Falham por causa da infraestrutura: sem framework de governança, sem Audit Trail, sem isolamento de inquilinos, sem conceito de deployment, sem integração com sistemas existentes.

Um piloto em um notebook não é uma arquitetura de produção. Esta página descreve as tecnologias e configurações concretas que transformam um experimento LLM em um sistema operacional.

Como os componentes individuais de infraestrutura se articulam arquitetonicamente, está detalhado na Arquitetura de Referência de 7 Camadas.

Quatro componentes de infraestrutura

1. LLM Hosting

A camada de modelos. Onde a compreensão linguística acontece.

Cloud-LLMs:

  • Azure OpenAI (ChatGPT, Claude) - regiões Brasil e UE, DPA da Microsoft
  • Amazon Bedrock (Claude, Llama, Mistral) - regiões Brasil e UE, DPA da AWS
  • Google Vertex AI (Gemini) - regiões UE, DPA do Google
  • Anthropic API (Claude) - com EU Data Processing

Self-Hosted-LLMs:

  • Llama (Meta) - Open Source, em hardware próprio
  • Mistral - Open Source, empresa da UE
  • DeepSeek - Open Source, custo-eficiente
  • gpt-oss (OpenAI) - Open Weight, Apache 2.0, completamente self-hostável. 120B em uma única H100, 20B em hardware de consumo de 16 GB.

Frameworks de inferência para Self-Hosted:

  • Ollama - Entrada simples, desenvolvimento local, deployment na borda
  • vLLM - Production-grade, otimizado para GPU, alto throughput

Híbrido:

  • Self-Hosted para dados sensíveis (RH, finanças)
  • Cloud-LLMs para cargas menos críticas (classificação de documentos)
  • Roteamento automático conforme classificação de dados

A escolha do modelo é uma ponderação entre desempenho, custo, proteção de dados e latência. Assessoramos na seleção e implementamos de forma agnóstica - uma troca de modelo não altera a lógica de negócio. Mais detalhes: Modelos IA em comparação 2026 e LLM Self-Hosting para empresas.

Nossos AI Engineers possuem certificações Microsoft para Azure AI Services. As opções de deployment incluem Microsoft Azure, GCP e infraestrutura completamente self-hosted - a decisão arquitetônica pertence ao cliente, não ao fornecedor.

2. Pipeline RAG

Retrieval Augmented Generation - como agentes acessam o conhecimento empresarial.

Pipeline RAG: Documentos são fragmentados em chunks, armazenados como embeddings no Vector Store, recuperados semanticamente sob consulta e fornecidos ao LLM como contexto

Características de qualidade:

  • Chunking semântico (por conteúdo, não por número de página)
  • Enriquecimento de metadados (tipo de documento, versão, escopo de validade)
  • Busca híbrida (busca vetorial + busca por palavra-chave para precisão)
  • Citação de fonte em cada resposta (documento, página, parágrafo)
  • Re-indexação regular quando documentos são alterados

3. Orquestração

O controle de fluxo. Como agentes, sistemas e pessoas trabalham juntos.

  • Trigger.dev ou Camunda: Motor de workflow open-source. Workflows visuais, integração via API, webhooks. Self-hosted, sem vendor lock-in.
  • API Gateway: Ponto de entrada unificado. Rate limiting, autenticação, logging, monitoramento.
  • Sistema de Filas: Processamento assíncrono para processos em lote (fechamento mensal, importação em massa).
  • Sistema de Eventos: Reação em tempo real a documentos recebidos, mudanças de status, escalações.

A orquestração é a diferença entre "um agente pode fazer algo" e "um agente faz algo de forma confiável em produção". Veja também: Plataformas de orquestração de agentes.

4. Deployment

Onde a infraestrutura roda. Todas as opções com data residency no Brasil ou na UE.

Azure (Brasil e UE)

  • Azure Kubernetes Service (AKS) para orquestração de containers
  • Azure SQL / PostgreSQL para dados e Audit Trail
  • Azure OpenAI para LLM hosting
  • Regiões: Brazil South (São Paulo), West Europe, Germany West Central

AWS (Brasil e UE)

  • Amazon EKS para orquestração de containers
  • Amazon RDS / Aurora PostgreSQL para dados e Audit Trail
  • Amazon Bedrock para LLM hosting (Claude, Llama, Mistral)
  • Regiões: sa-east-1 (São Paulo), eu-central-1 (Frankfurt), eu-west-1 (Irlanda)

GCP (Brasil e UE)

  • Google Kubernetes Engine (GKE) para orquestração de containers
  • Cloud SQL / AlloyDB para dados e Audit Trail
  • Vertex AI para LLM hosting
  • Regiões: southamerica-east1 (São Paulo), europe-west1, europe-west3

Vercel EU + Supabase (Brasil ou UE)

  • Vercel para frontend e edge functions em data centers UE
  • Supabase para banco de dados (PostgreSQL), auth e storage
  • Supabase suporta região sa-east-1 (São Paulo) via AWS - dados permanecem no Brasil
  • Opção leve de deployment sem infraestrutura Kubernetes própria
  • Serviços managed com data residency no Brasil ou na UE

Self-Hosted

Híbrido

  • Combinação conforme classificação de dados e requisitos LGPD (PT: RGPD)
  • Cargas sensíveis self-hosted, cargas padrão na nuvem
  • Orquestração unificada em todos os ambientes

Stack Tecnológico

Componente Tecnologia Por que
Motor de workflowTrigger.dev, CamundaOpen source, self-hosted, sem vendor lock-in
Banco de dadosPostgreSQL + pgvectorEnterprise-ready, RLS, busca vetorial integrada
BackendPython, TypeScriptComprovados para ML e desenvolvimento de APIs
FrontendReact / Next.jsPara Dashboard, Chat UI, Portal de Auditor
ContainersDocker, KubernetesPadrão para nuvem e self-hosted
APIREST, GraphQLIntegração com sistemas existentes
AuthSupabase Auth / OIDCCompatível com SSO, integrável com provedores de identidade empresariais
MonitoramentoPrometheus, GrafanaOpen source, self-hosted, dashboards em tempo real
InferênciaOllama, vLLMInferência de LLM self-hosted, otimizada para GPU

Governança integrada

A infraestrutura inclui Governance by Design:

  • Audit Trail no nível de infraestrutura (não apenas no nível de aplicação)
  • Row-Level Security no nível de banco de dados - Data Residency em detalhe
  • Criptografia em repouso e em trânsito
  • RBAC em todos os componentes
  • Cert-Ready Controls como objetos de dados técnicos

Governança na arquitetura de 7 camadas →

Acesso ao código-fonte e independência

A infraestrutura opera nos sistemas do cliente - Azure, GCP, AWS ou Self-Hosted. Sem SaaS, sem hosting na Gosign. Acesso completo ao código-fonte, todas as configurações e conjuntos de regras. Stack open-source onde possível. Componentes proprietários apenas nos LLMs - e lá de forma agnóstica.

Após 12-18 meses, você opera a infraestrutura de forma independente.

Perguntas frequentes sobre AI Infrastructure

Preciso escolher entre nuvem e self-hosted?

Não. A arquitetura suporta deployment híbrido. Você pode processar dados sensíveis em self-hosted e usar serviços de nuvem para cargas menos críticas. As camadas acima da infraestrutura permanecem idênticas.

Quais provedores de nuvem são suportados?

Azure (Brasil e UE), AWS (Brasil e UE), GCP (Brasil e UE), Vercel EU + Supabase (região sa-east-1 São Paulo ou UE), Self-Hosted ou Híbrido. A arquitetura é cloud-agnostisch - trocar de provedor altera apenas o Infrastructure Layer, não a lógica de negócio.

Quais LLMs são suportados?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss e outros. Modelos open-source ou comerciais. Self-hosted via Ollama ou vLLM - incluindo os modelos open-weight da OpenAI, executáveis completamente na sua infraestrutura.

Preciso de hardware GPU próprio para modelos self-hosted?

Para modelos open-source como Llama, Mistral ou gpt-oss, hardware GPU é necessário. gpt-oss-120B roda em uma única H100, gpt-oss-20B em hardware de consumo de 16 GB. O dimensionamento depende do modelo e da carga de uso. Assessoramos na escolha do hardware.

Qual a diferença entre esta página e a arquitetura de referência?

A arquitetura de referência descreve o padrão arquitetônico - quais camadas existem e por quê. Esta página descreve a implementação concreta - quais tecnologias, quais regiões de nuvem, qual hardware. Arquitetura é o quê, infraestrutura é o como.

Para aprofundar

Arquitetura

Arquitetura de Referência de 7 Camadas

Como os componentes de infraestrutura se articulam arquitetonicamente - Presentation, Orchestration, Agent, Decision Layer, Model, Integration, Infrastructure.

Ver Arquitetura de Referência →

Recurso de conhecimento

Blueprint 2026

Onze artigos sobre as decisões de infraestrutura que importam em 2026: modelos de IA, hosting, RAG, orquestração, custos, EU AI Act.

Dados

Data Residency

Onde os dados residem, como garantir o isolamento de inquilinos e o que Data Residency significa na prática - com opções no Brasil e na UE.

Data Residency em detalhe →

Agentes

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - três tipos de agentes para processos empresariais.

Explorar AI Agents →

Qual infraestrutura se ajusta aos seus requisitos?

Azure (Brasil e UE), AWS (Brasil e UE), GCP, Vercel EU + Supabase, Self-Hosted ou Híbrido. Configuramos conforme suas necessidades.

Agendar reunião