Pular para o conteúdo

Document Intelligence

Anonimização PII. Redação de Contratos. Detecção de Assinaturas.

Processar documentos com IA sem expor dados pessoais. Pseudonimização roundtrip para input LLM, redação baseada em regras para compartilhamento controlado, detecção automática de assinaturas para gestão de contratos. LGPD-compliant by architecture.

AirbusVolkswagenShellSonyEvonikPhilipsKPMG

O Problema: Dados Pessoais em Cada Documento

Empresas querem processar documentos com IA - analisar contratos, classificar notas fiscais, consultar politicas. Mas cada documento contém dados pessoais: nomes, salários, CPFs, endereços, dados bancários, assinaturas.

Enviar esses dados a um modelo de linguagem - mesmo um auto-hospedado - sem proteção viola o princípio de minimização de dados da LGPD (PT: RGPD). Acordos coletivos de trabalho restringem o processamento de dados de funcionários. Segredos comerciais em contratos não podem chegar a terceiros.

As soluções atuais são insuficientes: redação manual em Adobe Acrobat é demorada, propensa a erros e frequentemente apenas cosmética - o texto permanece acessível sob as barras pretas. A alternativa é renunciar ao processamento IA de documentos sensíveis, o que elimina a maior parte do ganho de produtividade.

Três Capabilities

Anonimização PII

Detecção e pseudonimização automática de dados pessoais. Nomes, endereços, CPFs, números fiscais, datas de nascimento. Roundtrip: pseudonimização antes do LLM, re-anonimização após processamento. LGPD by Design.

Redação de Contratos

Redação inteligente de contratos - dependente do destinatário. O cliente vê campos diferentes do auditor. Matriz de redação configurável. Fisicamente seguro: o documento é re-renderizado.

Detecção de Assinaturas

Detecção automática de assinaturas e comparação com assinaturas de referência. Não apenas presença, mas qualidade de correspondência. Anomalias são escaladas para humanos - o sistema nunca afirma autenticidade.

Anonimização PII: Pseudonimização Roundtrip para LLM Input

A maioria das ferramentas PII no mercado realiza redação unidirecional - removem dados. Para processamento com modelos de linguagem, isso é insuficiente. Quando um agente precisa analisar um contrato, ele necessita de contexto: "Funcionário X tem salário Y na localização Z." Sem esse contexto, o modelo não consegue produzir uma avaliação significativa.

A solução Gosign é a pseudonimização roundtrip: os dados são pseudonimizados antes do modelo, processados pelo modelo e re-anonimizados no resultado. O modelo vê apenas pseudônimos. O resultado contém os dados reais.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Documento  │     │  Detecção PII    │     │  Pseudo-     │     │  Modelo de       │     │  Re-Mapping │
│  (Original) │────▶│  e classifi-     │────▶│  nimização   │────▶│  linguagem       │────▶│  Pseudônimos│
│             │     │  cação           │     │              │     │  processa apenas │     │  → dados    │
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
                           │                        │                                            │
                           ▼                        ▼                                            ▼
                    ┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
                    │  Decision    │         │  Tabela de   │                              │  Resultado   │
                    │  Layer:      │         │  mapeamento  │◀─────────────────────────────│  com dados   │
                    │  O que é     │         │  (permanece  │   Mapeamento reverso         │  reais       │
                    │  anonimizado │         │  local)      │                              └──────────────┘
                    └──────────────┘         └──────────────┘

Etapas de Decisão no Processo PII

Micro-Decisão Quem Decide Por quê
Definir categorias PIIHumano + RegrasRequisitos LGPD, acordo coletivo, regras do cliente
Detectar PII no documentoIA (NER + padrões)Named Entity Recognition + padrões baseados em regras
Revisar falsos positivosIA, se incerteza: HumanoConfidence Routing - "Silva" como sobrenome ou empresa?
Atribuir pseudônimosAutomáticoMapeamento consistente, "Pessoa_A" em vez de "João Silva"
Enviar documento pseudonimizado ao modeloAutomáticoSem decisão, encaminhamento puro
Re-anonimizar resultadoAutomáticoAplicar tabela de mapeamento inversamente
Auditoria: o que foi anonimizadoAutomáticoEvidência LGPD no Audit Trail

A tabela de mapeamento (pseudônimo → dados reais) nunca sai da camada de pré-processamento. É excluída após a conclusão do processamento - ou retida por um período definido, conforme configuração. O modelo de linguagem nunca vê dados pessoais em nenhum momento.

Redação de Contratos: Baseada em Regras, Dependente do Destinatário, Física

Contratos precisam ser compartilhados regularmente em forma redatada - com auditores independentes (PT: revisores oficiais de contas), com compradores potenciais durante due diligence, com representantes dos trabalhadores, com consultores externos. Hoje alguém faz isso manualmente. Leva horas por contrato, é propenso a erros, e a redação frequentemente é apenas cosmética: o texto permanece acessível sob as barras pretas. Um vazamento de dados frequentemente subestimado.

A solução Gosign: o Document Agent reconhece a estrutura do contrato - partes, valores, prazos, cláusulas, assinaturas. O Decision Layer define regras de redação dependentes do destinatário:

Elemento do contrato Sindicato / CRE Due Diligence Consultor externo Auditor independente
Partes contratantes (nomes)✓ Visível✗ Redatado✗ Redatado✓ Visível
Valores do contrato✓ Visível✓ Visível✗ Redatado✓ Visível
Salários / remuneração✓ VisívelAgregado✗ Redatado✓ Visível
Cláusulas contratuais✓ Visível✓ VisívelApenas tipos de cláusula✓ Visível
Segredos comerciais✗ Redatado✓ Visível✗ Redatado✓ Visível
Assinaturas✗ Redatado✗ Redatado✗ Redatado✓ Visível

As regras de redação são versionadas no Decision Layer. Quando os requisitos mudam - novo grupo de destinatários, acordo coletivo atualizado, regra de compliance alterada - uma nova versão de regras é criada. A versão anterior permanece rastreável.

Redação física: O PDF é re-renderizado do zero. Os dados originais não estão mais fisicamente presentes no documento - nem como texto, nem como metadados, nem como camada invisível. Sem copiar-colar sob barras pretas, sem edição PDF para descobrir conteúdo. Isso não é cosmético - é criptograficamente seguro.

Detecção de Assinaturas: Encontrar, Verificar, Documentar

Gestão de contratos, preparação para auditoria, revisões de compliance - tudo requer verificação periódica: O documento está assinado? Onde está a assinatura? Falta uma contra-assinatura? Com 5.000 contratos no arquivo, a verificação manual não é viável.

Detecção de assinaturas

O Document Agent detecta campos de assinatura e assinaturas presentes em documentos digitalizados e PDFs. Computer Vision, não um modelo de linguagem - modelos ML especializados para análise de imagem. O resultado é estruturado: página, posição, confiança de que a assinatura está presente.

Verificação massiva de arquivo: "Em quais dos 5.000 contratos falta uma contra-assinatura?" - resultados em minutos em vez de semanas.

Controle de qualidade de onboarding: "Todos os documentos obrigatórios do novo funcionário estão assinados?" - checklist automático, assinaturas faltantes escaladas como tarefas de workflow.

Preparação para auditoria: "Mostre todos os documentos sem assinatura do Q3 2025." - lista de exportação estruturada para o auditor independente.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Documento  │     │  Detecção        │     │  Comparação      │
│  com        │────▶│  de assinatura   │────▶│  com assinatura  │
│  assinatura │     │  (posição,       │     │  de referência   │
│             │     │   confiança)     │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
                                                      │
                                          ┌───────────┼───────────┐
                                          ▼           ▼           ▼
                                   ┌────────────┐ ┌────────┐ ┌────────────┐
                                   │  Alta      │ │ Média  │ │  Baixa     │
                                   │  corresp.  │ │corresp.│ │  corresp.  │
                                   └────────────┘ └────────┘ └────────────┘
                                        │              │           │
                                        ▼              ▼           ▼
                                   Automatica-   Escalação    Bloqueio
                                   mente         para humano  Revisão
                                   aceita,       com visão    humana
                                   documentada   comparativa  obrigatória

Importante: A comparação de assinaturas é um detector de anomalias, não um detector de falsificações. Assinaturas variam naturalmente - dependem do dia, da caneta e da superfície. O sistema identifica anomalias e as escala para um humano. Nunca afirma "esta assinatura é falsa" ou "esta assinatura é autêntica". Isso seria irresponsável.

Decision Layer: Quem Decide o Quê

Cada capability tem seu próprio Decision Layer com pontos de decisão definidos.

Capability Decisão Decide Por quê
PIIQuais categorias PII detectar?HumanoDecisão organizacional, art. 5 LGPD
PII"Müller" é nome ou empresa?IA, a <80%: HumanoAmbiguidade NER - evitar falsos positivos
PIIEscolher método pseudonimizaçãoRegrasPseudônimos consistentes vs. aleatórios
RedaçãoQuais destinatários?HumanoDecisão profissional, não automatizável
RedaçãoQuais campos são redatados?RegrasMatriz dependente do destinatário
RedaçãoTipo de cláusula desconhecidoHumanoNovos tipos precisam ser classificados
AssinaturaAssinatura presente?IAComputer Vision com valor de confiança
AssinaturaAssinatura confere com referência?IA + Humano se anomaliaAlta correspondência: aceita. Anomalia: escalada
AssinaturaSem referência disponívelHumanoNova assinatura de referência deve ser registrada
TodosDocumentar Audit TrailAutomáticoCada decisão protocolada imutavelmente

Integração

Document Intelligence é uma capability do Document Agent existente - não software separado.

  • SAP DMS, SAP ArchiveLink - contratos e documentos de arquivos SAP
  • SharePoint, OneDrive - gestão documental via Microsoft Graph
  • Caixas de e-mail (IMAP/Exchange) - anexos processados automaticamente
  • File System Watcher - monitoramento de diretórios locais
  • REST API - para sistemas DMS customizados

Business Impact

Processamento LLM conforme LGPD: Documentos com dados pessoais podem ser processados pela primeira vez com modelos de linguagem - sem risco de privacidade.

Redação de contratos em minutos: Baseada em regras, dependente do destinatário, fisicamente segura.

Detecção proativa de lacunas em assinaturas: Assinaturas faltantes detectadas antes que o auditor pergunte.

Evidência de auditoria: Audit Trail documenta cada anonimização, cada redação, cada verificação de assinatura.

Sem ferramenta nova: Parte da arquitetura de agents existente. Sem vendor adicional, sem licença adicional.

Perguntas Frequentes sobre Document Intelligence

Qual a diferença entre anonimização e pseudonimização?

Anonimização remove dados pessoais de forma irreversível. Pseudonimização substitui os dados por pseudônimos, mantendo a atribuição possível via tabela separada. Para processamento LLM usamos pseudonimização com re-anonimização posterior: o modelo vê apenas pseudônimos, o resultado contém os dados reais novamente.

A detecção de PII funciona com documentos digitalizados?

Sim. Documentos digitalizados são primeiro convertidos em texto legível por máquina via OCR. Em seguida, o texto passa pela mesma detecção PII que documentos digitais. A precisão depende da qualidade do scan - a 300 DPI a precisão OCR supera 99%.

A redação de contratos é realmente segura?

Sim. Diferentemente da redação manual em editores PDF, o documento é fisicamente re-renderizado. Os conteúdos redatados não estão mais no documento - nem como texto, nem como metadados, nem como camadas invisíveis. Isso é criptograficamente verificável.

A comparação de assinaturas detecta falsificações?

A comparação detecta anomalias - desvios de uma assinatura de referência. Diante de anomalias, escalação automática para humano. O sistema nunca afirma que uma assinatura é falsa ou autêntica. Essa decisão é humana.

Como a LGPD é atendida?

Todos os dados permanecem na infraestrutura do cliente. A pseudonimização garante que o LLM nunca vê dados pessoais reais. O Audit Trail documenta cada operação de processamento - atendendo os requisitos de transparência e rastreabilidade da LGPD.

Quais documentos precisam de processamento seguro?

Anonimização PII, redação de contratos ou detecção de assinaturas - começamos com um tipo de documento concreto.

Agendar reunião