Document Intelligence

Anonimização PII. Redação de Contratos. Detecção de Assinaturas.

Processar documentos com IA sem expor dados pessoais. Pseudonimização roundtrip para input LLM, redação baseada em regras para compartilhamento controlado, detecção automática de assinaturas para gestão de contratos. LGPD-compliant by architecture.

Agendar reunião Document Agents

O Problema: Dados Pessoais em Cada Documento

Empresas querem processar documentos com IA - analisar contratos, classificar notas fiscais, consultar politicas. Mas cada documento contém dados pessoais: nomes, salários, CPFs, endereços, dados bancários, assinaturas.

Enviar esses dados a um modelo de linguagem - mesmo um auto-hospedado - sem proteção viola o princípio de minimização de dados da LGPD (PT: RGPD). Acordos coletivos de trabalho restringem o processamento de dados de funcionários. Segredos comerciais em contratos não podem chegar a terceiros.

As soluções atuais são insuficientes: redação manual em Adobe Acrobat é demorada, propensa a erros e frequentemente apenas cosmética - o texto permanece acessível sob as barras pretas. A alternativa é renunciar ao processamento IA de documentos sensíveis, o que elimina a maior parte do ganho de produtividade.

Três Capabilities

Anonimização PII

Detecção e pseudonimização automática de dados pessoais. Nomes, endereços, CPFs, números fiscais, datas de nascimento. Roundtrip: pseudonimização antes do LLM, re-anonimização após processamento. LGPD by Design.

Redação de Contratos

Redação inteligente de contratos - dependente do destinatário. O cliente vê campos diferentes do auditor. Matriz de redação configurável. Fisicamente seguro: o documento é re-renderizado.

Detecção de Assinaturas

Detecção automática de assinaturas e comparação com assinaturas de referência. Não apenas presença, mas qualidade de correspondência. Anomalias são escaladas para humanos - o sistema nunca afirma autenticidade.

Anonimização PII: Pseudonimização Roundtrip para LLM Input

A maioria das ferramentas PII no mercado realiza redação unidirecional - removem dados. Para processamento com modelos de linguagem, isso é insuficiente. Quando um agente precisa analisar um contrato, ele necessita de contexto: "Funcionário X tem salário Y na localização Z." Sem esse contexto, o modelo não consegue produzir uma avaliação significativa.

A solução Gosign é a pseudonimização roundtrip: os dados são pseudonimizados antes do modelo, processados pelo modelo e re-anonimizados no resultado. O modelo vê apenas pseudônimos. O resultado contém os dados reais.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Documento  │     │  Detecção PII    │     │  Pseudo-     │     │  Modelo de       │     │  Re-Mapping │
│  (Original) │────▶│  e classifi-     │────▶│  nimização   │────▶│  linguagem       │────▶│  Pseudônimos│
│             │     │  cação           │     │              │     │  processa apenas │     │  → dados    │
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
                           │                        │                                            │
                           ▼                        ▼                                            ▼
                    ┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
                    │  Decision    │         │  Tabela de   │                              │  Resultado   │
                    │  Layer:      │         │  mapeamento  │◀─────────────────────────────│  com dados   │
                    │  O que é     │         │  (permanece  │   Mapeamento reverso         │  reais       │
                    │  anonimizado │         │  local)      │                              └──────────────┘
                    └──────────────┘         └──────────────┘

Etapas de Decisão no Processo PII

Micro-Decisão	Quem Decide	Por quê
Definir categorias PII	Humano + Regras	Requisitos LGPD, acordo coletivo, regras do cliente
Detectar PII no documento	IA (NER + padrões)	Named Entity Recognition + padrões baseados em regras
Revisar falsos positivos	IA, se incerteza: Humano	Confidence Routing - "Silva" como sobrenome ou empresa?
Atribuir pseudônimos	Automático	Mapeamento consistente, "Pessoa_A" em vez de "João Silva"
Enviar documento pseudonimizado ao modelo	Automático	Sem decisão, encaminhamento puro
Re-anonimizar resultado	Automático	Aplicar tabela de mapeamento inversamente
Auditoria: o que foi anonimizado	Automático	Evidência LGPD no Audit Trail

A tabela de mapeamento (pseudônimo → dados reais) nunca sai da camada de pré-processamento. É excluída após a conclusão do processamento - ou retida por um período definido, conforme configuração. O modelo de linguagem nunca vê dados pessoais em nenhum momento.

Redação de Contratos: Baseada em Regras, Dependente do Destinatário, Física

Contratos precisam ser compartilhados regularmente em forma redatada - com auditores independentes (PT: revisores oficiais de contas), com compradores potenciais durante due diligence, com representantes dos trabalhadores, com consultores externos. Hoje alguém faz isso manualmente. Leva horas por contrato, é propenso a erros, e a redação frequentemente é apenas cosmética: o texto permanece acessível sob as barras pretas. Um vazamento de dados frequentemente subestimado.

A solução Gosign: o Document Agent reconhece a estrutura do contrato - partes, valores, prazos, cláusulas, assinaturas. O Decision Layer define regras de redação dependentes do destinatário:

Elemento do contrato	Sindicato / CRE	Due Diligence	Consultor externo	Auditor independente
Partes contratantes (nomes)	✓ Visível	✗ Redatado	✗ Redatado	✓ Visível
Valores do contrato	✓ Visível	✓ Visível	✗ Redatado	✓ Visível
Salários / remuneração	✓ Visível	Agregado	✗ Redatado	✓ Visível
Cláusulas contratuais	✓ Visível	✓ Visível	Apenas tipos de cláusula	✓ Visível
Segredos comerciais	✗ Redatado	✓ Visível	✗ Redatado	✓ Visível
Assinaturas	✗ Redatado	✗ Redatado	✗ Redatado	✓ Visível

As regras de redação são versionadas no Decision Layer. Quando os requisitos mudam - novo grupo de destinatários, acordo coletivo atualizado, regra de compliance alterada - uma nova versão de regras é criada. A versão anterior permanece rastreável.

Redação física: O PDF é re-renderizado do zero. Os dados originais não estão mais fisicamente presentes no documento - nem como texto, nem como metadados, nem como camada invisível. Sem copiar-colar sob barras pretas, sem edição PDF para descobrir conteúdo. Isso não é cosmético - é criptograficamente seguro.

Detecção de Assinaturas: Encontrar, Verificar, Documentar

Gestão de contratos, preparação para auditoria, revisões de compliance - tudo requer verificação periódica: O documento está assinado? Onde está a assinatura? Falta uma contra-assinatura? Com 5.000 contratos no arquivo, a verificação manual não é viável.

Detecção de assinaturas

O Document Agent detecta campos de assinatura e assinaturas presentes em documentos digitalizados e PDFs. Computer Vision, não um modelo de linguagem - modelos ML especializados para análise de imagem. O resultado é estruturado: página, posição, confiança de que a assinatura está presente.

Verificação massiva de arquivo: "Em quais dos 5.000 contratos falta uma contra-assinatura?" - resultados em minutos em vez de semanas.

Controle de qualidade de onboarding: "Todos os documentos obrigatórios do novo funcionário estão assinados?" - checklist automático, assinaturas faltantes escaladas como tarefas de workflow.

Preparação para auditoria: "Mostre todos os documentos sem assinatura do Q3 2025." - lista de exportação estruturada para o auditor independente.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Documento  │     │  Detecção        │     │  Comparação      │
│  com        │────▶│  de assinatura   │────▶│  com assinatura  │
│  assinatura │     │  (posição,       │     │  de referência   │
│             │     │   confiança)     │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
                                                      │
                                          ┌───────────┼───────────┐
                                          ▼           ▼           ▼
                                   ┌────────────┐ ┌────────┐ ┌────────────┐
                                   │  Alta      │ │ Média  │ │  Baixa     │
                                   │  corresp.  │ │corresp.│ │  corresp.  │
                                   └────────────┘ └────────┘ └────────────┘
                                        │              │           │
                                        ▼              ▼           ▼
                                   Automatica-   Escalação    Bloqueio
                                   mente         para humano  Revisão
                                   aceita,       com visão    humana
                                   documentada   comparativa  obrigatória

Importante: A comparação de assinaturas é um detector de anomalias, não um detector de falsificações. Assinaturas variam naturalmente - dependem do dia, da caneta e da superfície. O sistema identifica anomalias e as escala para um humano. Nunca afirma "esta assinatura é falsa" ou "esta assinatura é autêntica". Isso seria irresponsável.

Decision Layer: Quem Decide o Quê

Cada capability tem seu próprio Decision Layer com pontos de decisão definidos.

Capability	Decisão	Decide	Por quê
PII	Quais categorias PII detectar?	Humano	Decisão organizacional, art. 5 LGPD
PII	"Müller" é nome ou empresa?	IA, a <80%: Humano	Ambiguidade NER - evitar falsos positivos
PII	Escolher método pseudonimização	Regras	Pseudônimos consistentes vs. aleatórios
Redação	Quais destinatários?	Humano	Decisão profissional, não automatizável
Redação	Quais campos são redatados?	Regras	Matriz dependente do destinatário
Redação	Tipo de cláusula desconhecido	Humano	Novos tipos precisam ser classificados
Assinatura	Assinatura presente?	IA	Computer Vision com valor de confiança
Assinatura	Assinatura confere com referência?	IA + Humano se anomalia	Alta correspondência: aceita. Anomalia: escalada
Assinatura	Sem referência disponível	Humano	Nova assinatura de referência deve ser registrada
Todos	Documentar Audit Trail	Automático	Cada decisão protocolada imutavelmente

Integração

Document Intelligence é uma capability do Document Agent existente - não software separado.

SAP DMS, SAP ArchiveLink - contratos e documentos de arquivos SAP
SharePoint, OneDrive - gestão documental via Microsoft Graph
Caixas de e-mail (IMAP/Exchange) - anexos processados automaticamente
File System Watcher - monitoramento de diretórios locais
REST API - para sistemas DMS customizados

Business Impact

Processamento LLM conforme LGPD: Documentos com dados pessoais podem ser processados pela primeira vez com modelos de linguagem - sem risco de privacidade.

Redação de contratos em minutos: Baseada em regras, dependente do destinatário, fisicamente segura.

Detecção proativa de lacunas em assinaturas: Assinaturas faltantes detectadas antes que o auditor pergunte.

Evidência de auditoria: Audit Trail documenta cada anonimização, cada redação, cada verificação de assinatura.

Sem ferramenta nova: Parte da arquitetura de agents existente. Sem vendor adicional, sem licença adicional.

Aprofundamento no Agent Briefing

Nossa série de artigos para executivos que implementam agentes de IA na empresa.

Infrastructure

RAG e Document Intelligence: Como a IA entende seus documentos

Segurança

Anonimizacao de PII para IA Empresarial

Segurança

Segurança de dados em IA: Data Residency, LGPD e EU AI Act

Perguntas Frequentes sobre Document Intelligence

Qual a diferença entre anonimização e pseudonimização?

Anonimização remove dados pessoais de forma irreversível. Pseudonimização substitui os dados por pseudônimos, mantendo a atribuição possível via tabela separada. Para processamento LLM usamos pseudonimização com re-anonimização posterior: o modelo vê apenas pseudônimos, o resultado contém os dados reais novamente.

A detecção de PII funciona com documentos digitalizados?

Sim. Documentos digitalizados são primeiro convertidos em texto legível por máquina via OCR. Em seguida, o texto passa pela mesma detecção PII que documentos digitais. A precisão depende da qualidade do scan - a 300 DPI a precisão OCR supera 99%.

A redação de contratos é realmente segura?

Sim. Diferentemente da redação manual em editores PDF, o documento é fisicamente re-renderizado. Os conteúdos redatados não estão mais no documento - nem como texto, nem como metadados, nem como camadas invisíveis. Isso é criptograficamente verificável.

A comparação de assinaturas detecta falsificações?

A comparação detecta anomalias - desvios de uma assinatura de referência. Diante de anomalias, escalação automática para humano. O sistema nunca afirma que uma assinatura é falsa ou autêntica. Essa decisão é humana.

Como a LGPD é atendida?

Todos os dados permanecem na infraestrutura do cliente. A pseudonimização garante que o LLM nunca vê dados pessoais reais. O Audit Trail documenta cada operação de processamento - atendendo os requisitos de transparência e rastreabilidade da LGPD.

Quais documentos precisam de processamento seguro?

Anonimização PII, redação de contratos ou detecção de assinaturas - começamos com um tipo de documento concreto.

Agendar reunião