Anonimização PII
Detecção e pseudonimização automática de dados pessoais. Nomes, endereços, CPFs, números fiscais, datas de nascimento. Roundtrip: pseudonimização antes do LLM, re-anonimização após processamento. LGPD by Design.
Anonimização PII. Redação de Contratos. Detecção de Assinaturas.
Processar documentos com IA sem expor dados pessoais. Pseudonimização roundtrip para input LLM, redação baseada em regras para compartilhamento controlado, detecção automática de assinaturas para gestão de contratos. LGPD-compliant by architecture.
Empresas querem processar documentos com IA - analisar contratos, classificar notas fiscais, consultar politicas. Mas cada documento contém dados pessoais: nomes, salários, CPFs, endereços, dados bancários, assinaturas.
Enviar esses dados a um modelo de linguagem - mesmo um auto-hospedado - sem proteção viola o princípio de minimização de dados da LGPD (PT: RGPD). Acordos coletivos de trabalho restringem o processamento de dados de funcionários. Segredos comerciais em contratos não podem chegar a terceiros.
As soluções atuais são insuficientes: redação manual em Adobe Acrobat é demorada, propensa a erros e frequentemente apenas cosmética - o texto permanece acessível sob as barras pretas. A alternativa é renunciar ao processamento IA de documentos sensíveis, o que elimina a maior parte do ganho de produtividade.
Detecção e pseudonimização automática de dados pessoais. Nomes, endereços, CPFs, números fiscais, datas de nascimento. Roundtrip: pseudonimização antes do LLM, re-anonimização após processamento. LGPD by Design.
Redação inteligente de contratos - dependente do destinatário. O cliente vê campos diferentes do auditor. Matriz de redação configurável. Fisicamente seguro: o documento é re-renderizado.
Detecção automática de assinaturas e comparação com assinaturas de referência. Não apenas presença, mas qualidade de correspondência. Anomalias são escaladas para humanos - o sistema nunca afirma autenticidade.
A maioria das ferramentas PII no mercado realiza redação unidirecional - removem dados. Para processamento com modelos de linguagem, isso é insuficiente. Quando um agente precisa analisar um contrato, ele necessita de contexto: "Funcionário X tem salário Y na localização Z." Sem esse contexto, o modelo não consegue produzir uma avaliação significativa.
A solução Gosign é a pseudonimização roundtrip: os dados são pseudonimizados antes do modelo, processados pelo modelo e re-anonimizados no resultado. O modelo vê apenas pseudônimos. O resultado contém os dados reais.
┌─────────────┐ ┌──────────────────┐ ┌─────────────┐ ┌──────────────────┐ ┌─────────────┐
│ Documento │ │ Detecção PII │ │ Pseudo- │ │ Modelo de │ │ Re-Mapping │
│ (Original) │────▶│ e classifi- │────▶│ nimização │────▶│ linguagem │────▶│ Pseudônimos│
│ │ │ cação │ │ │ │ processa apenas │ │ → dados │
└─────────────┘ └──────────────────┘ └──────────────┘ └──────────────────┘ └─────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Decision │ │ Tabela de │ │ Resultado │
│ Layer: │ │ mapeamento │◀─────────────────────────────│ com dados │
│ O que é │ │ (permanece │ Mapeamento reverso │ reais │
│ anonimizado │ │ local) │ └──────────────┘
└──────────────┘ └──────────────┘ | Micro-Decisão | Quem Decide | Por quê |
|---|---|---|
| Definir categorias PII | Humano + Regras | Requisitos LGPD, acordo coletivo, regras do cliente |
| Detectar PII no documento | IA (NER + padrões) | Named Entity Recognition + padrões baseados em regras |
| Revisar falsos positivos | IA, se incerteza: Humano | Confidence Routing - "Silva" como sobrenome ou empresa? |
| Atribuir pseudônimos | Automático | Mapeamento consistente, "Pessoa_A" em vez de "João Silva" |
| Enviar documento pseudonimizado ao modelo | Automático | Sem decisão, encaminhamento puro |
| Re-anonimizar resultado | Automático | Aplicar tabela de mapeamento inversamente |
| Auditoria: o que foi anonimizado | Automático | Evidência LGPD no Audit Trail |
A tabela de mapeamento (pseudônimo → dados reais) nunca sai da camada de pré-processamento. É excluída após a conclusão do processamento - ou retida por um período definido, conforme configuração. O modelo de linguagem nunca vê dados pessoais em nenhum momento.
Contratos precisam ser compartilhados regularmente em forma redatada - com auditores independentes (PT: revisores oficiais de contas), com compradores potenciais durante due diligence, com representantes dos trabalhadores, com consultores externos. Hoje alguém faz isso manualmente. Leva horas por contrato, é propenso a erros, e a redação frequentemente é apenas cosmética: o texto permanece acessível sob as barras pretas. Um vazamento de dados frequentemente subestimado.
A solução Gosign: o Document Agent reconhece a estrutura do contrato - partes, valores, prazos, cláusulas, assinaturas. O Decision Layer define regras de redação dependentes do destinatário:
| Elemento do contrato | Sindicato / CRE | Due Diligence | Consultor externo | Auditor independente |
|---|---|---|---|---|
| Partes contratantes (nomes) | ✓ Visível | ✗ Redatado | ✗ Redatado | ✓ Visível |
| Valores do contrato | ✓ Visível | ✓ Visível | ✗ Redatado | ✓ Visível |
| Salários / remuneração | ✓ Visível | Agregado | ✗ Redatado | ✓ Visível |
| Cláusulas contratuais | ✓ Visível | ✓ Visível | Apenas tipos de cláusula | ✓ Visível |
| Segredos comerciais | ✗ Redatado | ✓ Visível | ✗ Redatado | ✓ Visível |
| Assinaturas | ✗ Redatado | ✗ Redatado | ✗ Redatado | ✓ Visível |
As regras de redação são versionadas no Decision Layer. Quando os requisitos mudam - novo grupo de destinatários, acordo coletivo atualizado, regra de compliance alterada - uma nova versão de regras é criada. A versão anterior permanece rastreável.
Redação física: O PDF é re-renderizado do zero. Os dados originais não estão mais fisicamente presentes no documento - nem como texto, nem como metadados, nem como camada invisível. Sem copiar-colar sob barras pretas, sem edição PDF para descobrir conteúdo. Isso não é cosmético - é criptograficamente seguro.
Gestão de contratos, preparação para auditoria, revisões de compliance - tudo requer verificação periódica: O documento está assinado? Onde está a assinatura? Falta uma contra-assinatura? Com 5.000 contratos no arquivo, a verificação manual não é viável.
O Document Agent detecta campos de assinatura e assinaturas presentes em documentos digitalizados e PDFs. Computer Vision, não um modelo de linguagem - modelos ML especializados para análise de imagem. O resultado é estruturado: página, posição, confiança de que a assinatura está presente.
Verificação massiva de arquivo: "Em quais dos 5.000 contratos falta uma contra-assinatura?" - resultados em minutos em vez de semanas.
Controle de qualidade de onboarding: "Todos os documentos obrigatórios do novo funcionário estão assinados?" - checklist automático, assinaturas faltantes escaladas como tarefas de workflow.
Preparação para auditoria: "Mostre todos os documentos sem assinatura do Q3 2025." - lista de exportação estruturada para o auditor independente.
┌─────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ Documento │ │ Detecção │ │ Comparação │
│ com │────▶│ de assinatura │────▶│ com assinatura │
│ assinatura │ │ (posição, │ │ de referência │
│ │ │ confiança) │ │ │
└─────────────┘ └──────────────────┘ └──────────────────┘
│
┌───────────┼───────────┐
▼ ▼ ▼
┌────────────┐ ┌────────┐ ┌────────────┐
│ Alta │ │ Média │ │ Baixa │
│ corresp. │ │corresp.│ │ corresp. │
└────────────┘ └────────┘ └────────────┘
│ │ │
▼ ▼ ▼
Automatica- Escalação Bloqueio
mente para humano Revisão
aceita, com visão humana
documentada comparativa obrigatória Importante: A comparação de assinaturas é um detector de anomalias, não um detector de falsificações. Assinaturas variam naturalmente - dependem do dia, da caneta e da superfície. O sistema identifica anomalias e as escala para um humano. Nunca afirma "esta assinatura é falsa" ou "esta assinatura é autêntica". Isso seria irresponsável.
Cada capability tem seu próprio Decision Layer com pontos de decisão definidos.
| Capability | Decisão | Decide | Por quê |
|---|---|---|---|
| PII | Quais categorias PII detectar? | Humano | Decisão organizacional, art. 5 LGPD |
| PII | "Müller" é nome ou empresa? | IA, a <80%: Humano | Ambiguidade NER - evitar falsos positivos |
| PII | Escolher método pseudonimização | Regras | Pseudônimos consistentes vs. aleatórios |
| Redação | Quais destinatários? | Humano | Decisão profissional, não automatizável |
| Redação | Quais campos são redatados? | Regras | Matriz dependente do destinatário |
| Redação | Tipo de cláusula desconhecido | Humano | Novos tipos precisam ser classificados |
| Assinatura | Assinatura presente? | IA | Computer Vision com valor de confiança |
| Assinatura | Assinatura confere com referência? | IA + Humano se anomalia | Alta correspondência: aceita. Anomalia: escalada |
| Assinatura | Sem referência disponível | Humano | Nova assinatura de referência deve ser registrada |
| Todos | Documentar Audit Trail | Automático | Cada decisão protocolada imutavelmente |
Document Intelligence é uma capability do Document Agent existente - não software separado.
Processamento LLM conforme LGPD: Documentos com dados pessoais podem ser processados pela primeira vez com modelos de linguagem - sem risco de privacidade.
Redação de contratos em minutos: Baseada em regras, dependente do destinatário, fisicamente segura.
Detecção proativa de lacunas em assinaturas: Assinaturas faltantes detectadas antes que o auditor pergunte.
Evidência de auditoria: Audit Trail documenta cada anonimização, cada redação, cada verificação de assinatura.
Sem ferramenta nova: Parte da arquitetura de agents existente. Sem vendor adicional, sem licença adicional.
Nossa série de artigos para executivos que implementam agentes de IA na empresa.
Anonimização remove dados pessoais de forma irreversível. Pseudonimização substitui os dados por pseudônimos, mantendo a atribuição possível via tabela separada. Para processamento LLM usamos pseudonimização com re-anonimização posterior: o modelo vê apenas pseudônimos, o resultado contém os dados reais novamente.
Sim. Documentos digitalizados são primeiro convertidos em texto legível por máquina via OCR. Em seguida, o texto passa pela mesma detecção PII que documentos digitais. A precisão depende da qualidade do scan - a 300 DPI a precisão OCR supera 99%.
Sim. Diferentemente da redação manual em editores PDF, o documento é fisicamente re-renderizado. Os conteúdos redatados não estão mais no documento - nem como texto, nem como metadados, nem como camadas invisíveis. Isso é criptograficamente verificável.
A comparação detecta anomalias - desvios de uma assinatura de referência. Diante de anomalias, escalação automática para humano. O sistema nunca afirma que uma assinatura é falsa ou autêntica. Essa decisão é humana.
Todos os dados permanecem na infraestrutura do cliente. A pseudonimização garante que o LLM nunca vê dados pessoais reais. O Audit Trail documenta cada operação de processamento - atendendo os requisitos de transparência e rastreabilidade da LGPD.
Anonimização PII, redação de contratos ou detecção de assinaturas - começamos com um tipo de documento concreto.
Agendar reunião