Ir al contenido

Document Intelligence

Anonimización PII. Redacción de Contratos. Detección de Firmas.

Procesar documentos con IA sin exponer datos personales. Pseudonimización roundtrip para input LLM, redacción basada en reglas para compartir controlado, detección automática de firmas para gestión de contratos. RGPD-compliant by architecture.

AirbusVolkswagenShellSonyEvonikPhilipsKPMG

El Problema: Datos Personales en Cada Documento

Las empresas quieren procesar documentos con IA - analizar contratos, clasificar facturas, consultar politicas. Pero cada documento contiene datos personales: nombres, salarios, numeros de la Seguridad Social, direcciones, datos bancarios, firmas.

Enviar estos datos a un modelo de lenguaje - incluso uno autoalojado - sin proteccion viola el principio de minimizacion de datos del RGPD. Los acuerdos de empresa restringen el procesamiento de datos de empleados. Los secretos comerciales en contratos no deben llegar a terceros.

Las soluciones actuales son insuficientes: la redaccion manual en Adobe Acrobat es lenta, propensa a errores y frecuentemente solo cosmetica - el texto permanece accesible bajo las barras negras. La alternativa es renunciar al procesamiento IA de documentos sensibles, lo que elimina la mayor parte de la ganancia de productividad.

Tres Capabilities

Anonimización PII

Detección y pseudonimización automática de datos personales. Nombres, direcciones, IBANs, números fiscales, fechas de nacimiento. Roundtrip: pseudonimización antes del LLM, re-anonimización después. RGPD by Design.

Redacción de Contratos

Redacción inteligente de contratos - dependiente del destinatario. El cliente ve campos diferentes al auditor. Matriz de redacción configurable. Físicamente seguro: el documento se re-renderiza.

Detección de Firmas

Detección automática de firmas y comparación con firmas de referencia. No solo presencia, sino calidad de coincidencia. Las anomalías se escalan a humanos - el sistema nunca afirma autenticidad.

Anonimizacion PII: Pseudonimizacion Roundtrip para LLM Input

La mayoria de las herramientas PII del mercado realizan redaccion unidireccional - eliminan datos. Para el procesamiento con modelos de lenguaje, esto es insuficiente. Cuando un agente necesita analizar un contrato, requiere contexto: "Empleado X tiene salario Y en ubicacion Z." Sin este contexto, el modelo no puede generar una evaluacion significativa.

La solucion Gosign es la pseudonimizacion roundtrip: los datos se pseudonimizan antes del modelo, son procesados por el modelo y se re-anonimizan en el resultado. El modelo solo ve pseudonimos. El resultado contiene los datos reales.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Documento  │     │  Deteccion PII   │     │  Pseudo-     │     │  Modelo de       │     │  Re-Mapping │
│  (Original) │────▶│  y clasifi-      │────▶│  nimizacion  │────▶│  lenguaje        │────▶│  Pseudonimos│
│             │     │  cacion          │     │              │     │  procesa solo    │     │  → datos    │
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
                           │                        │                                            │
                           ▼                        ▼                                            ▼
                    ┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
                    │  Decision    │         │  Tabla de    │                              │  Resultado   │
                    │  Layer:      │         │  mapeo       │◀─────────────────────────────│  con datos   │
                    │  Que se      │         │  (permanece  │   Mapeo inverso              │  reales      │
                    │  anonimiza   │         │  local)      │                              └──────────────┘
                    └──────────────┘         └──────────────┘

Pasos de Decision en el Proceso PII

Micro-Decision Quien Decide Por que
Definir categorias PIIHumano + ReglasRequisitos RGPD, acuerdo de empresa, reglas del cliente
Detectar PII en documentoIA (NER + patrones)Named Entity Recognition + patrones basados en reglas
Revisar falsos positivosIA, si incertidumbre: HumanoConfidence Routing - "Garcia" como apellido o empresa?
Asignar pseudonimosAutomaticoMapeo consistente, "Persona_A" en vez de "Juan Garcia"
Enviar documento pseudonimizado al modeloAutomaticoSin decision, reenvio puro
Re-anonimizar resultadoAutomaticoAplicar tabla de mapeo en sentido inverso
Auditoria: que se anonimizoAutomaticoEvidencia RGPD en Audit Trail

La tabla de mapeo (pseudonimo → datos reales) nunca abandona la capa de pre-procesamiento. Se elimina tras completar el procesamiento - o se retiene por un periodo definido, segun configuracion. El modelo de lenguaje nunca ve datos personales en ningun momento.

Redaccion de Contratos: Basada en Reglas, Dependiente del Destinatario, Fisica

Los contratos necesitan compartirse regularmente en forma redactada - con auditores de cuentas, con compradores potenciales durante due diligence, con el Comite de Empresa, con asesores externos. Hoy alguien lo hace manualmente. Toma horas por contrato, es propenso a errores, y la redaccion frecuentemente es solo cosmetica: el texto permanece accesible bajo las barras negras. Una fuga de datos frecuentemente subestimada.

La solucion Gosign: el Document Agent reconoce la estructura del contrato - partes, importes, plazos, clausulas, firmas. El Decision Layer define reglas de redaccion dependientes del destinatario:

Elemento del contrato Comite de Empresa Due Diligence Asesor externo Auditor de cuentas
Partes contratantes (nombres)✓ Visible✗ Redactado✗ Redactado✓ Visible
Valores / importes del contrato✓ Visible✓ Visible✗ Redactado✓ Visible
Salarios / compensacion✓ VisibleAgregado✗ Redactado✓ Visible
Clausulas contractuales✓ Visible✓ VisibleSolo tipos de clausula✓ Visible
Secretos comerciales✗ Redactado✓ Visible✗ Redactado✓ Visible
Firmas✗ Redactado✗ Redactado✗ Redactado✓ Visible

Las reglas de redaccion estan versionadas en el Decision Layer. Cuando los requisitos cambian - nuevo grupo de destinatarios, acuerdo de empresa actualizado, regla de compliance modificada - se crea una nueva version de reglas. La version anterior permanece trazable.

Redaccion fisica: El PDF se re-renderiza desde cero. Los datos originales ya no estan fisicamente presentes en el documento - ni como texto, ni como metadatos, ni como capa invisible. Sin copiar-pegar bajo barras negras, sin edicion PDF para descubrir contenido. Esto no es cosmetico - es criptograficamente seguro.

Deteccion de Firmas: Encontrar, Verificar, Documentar

Gestion de contratos, preparacion de auditorias, revisiones de compliance - todo requiere verificacion periodica: Esta firmado el documento? Donde esta la firma? Falta una contrafirma? Con 5.000 contratos en el archivo, la comprobacion manual no es viable.

Deteccion de firmas

El Document Agent detecta campos de firma y firmas presentes en documentos escaneados y PDFs. Computer Vision, no un modelo de lenguaje - modelos ML especializados para analisis de imagen. El resultado es estructurado: pagina, posicion, confianza de que la firma esta presente.

Verificacion masiva de archivo: "En cuales de los 5.000 contratos falta una contrafirma?" - resultados en minutos en vez de semanas.

Control de calidad de onboarding: "Estan firmados todos los documentos obligatorios del nuevo empleado?" - checklist automatico, firmas faltantes escaladas como tareas de workflow.

Preparacion de auditoria: "Muestra todos los documentos sin firma del Q3 2025." - lista de exportacion estructurada para el auditor de cuentas.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Documento  │     │  Deteccion       │     │  Comparacion     │
│  con        │────▶│  de firma        │────▶│  con firma       │
│  firma      │     │  (posicion,      │     │  de referencia   │
│             │     │   confianza)     │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
                                                      │
                                          ┌───────────┼───────────┐
                                          ▼           ▼           ▼
                                   ┌────────────┐ ┌────────┐ ┌────────────┐
                                   │  Alta      │ │ Media  │ │  Baja      │
                                   │  coincid.  │ │coincid.│ │  coincid.  │
                                   └────────────┘ └────────┘ └────────────┘
                                        │              │           │
                                        ▼              ▼           ▼
                                   Automatica-   Escalacion   Bloqueo
                                   mente         a humano     Revision
                                   aceptada,     con vista    humana
                                   documentada   comparativa  obligatoria

Importante: La comparacion de firmas es un detector de anomalias, no un detector de falsificaciones. Las firmas varian naturalmente - dependen del dia, el boligrafo y la superficie. El sistema identifica anomalias y las escala a un humano. Nunca afirma "esta firma es falsa" o "esta firma es autentica". Eso seria irresponsable.

Decision Layer: Quién Decide Qué

Cada capability tiene su propio Decision Layer con puntos de decisión definidos.

Capability Decisión Decide Por qué
PII¿Qué categorías PII detectar?HumanoDecisión organizacional, art. 4 RGPD, acuerdo empresa
PII¿"Müller" es nombre o empresa?IA, a <80%: HumanoAmbigüedad NER - evitar falsos positivos
PIIElegir método pseudonimizaciónReglasPseudónimos consistentes vs. aleatorios
Redacción¿Qué destinatarios?HumanoDecisión profesional, no automatizable
Redacción¿Qué campos se redactan?ReglasMatriz dependiente del destinatario
RedacciónTipo de cláusula desconocidoHumanoNuevos tipos deben clasificarse
Firma¿Firma presente?IAComputer Vision con valor de confianza
Firma¿Firma coincide con referencia?IA + Humano si anomalíaAlta coincidencia: aceptada. Anomalía: escalada
FirmaSin referencia disponibleHumanoNueva firma de referencia debe registrarse
TodosDocumentar Audit TrailAutomáticoCada decisión protocolada inmutablemente

Integración

Document Intelligence es una capability del Document Agent existente - no software separado.

  • SAP DMS, SAP ArchiveLink - contratos y documentos de archivos SAP
  • SharePoint, OneDrive - gestión documental vía Microsoft Graph
  • Bandejas de e-mail (IMAP/Exchange) - adjuntos procesados automáticamente
  • File System Watcher - monitoreo de directorios locales
  • REST API - para sistemas DMS personalizados

Business Impact

Procesamiento LLM compatible con RGPD: Documentos con datos personales pueden procesarse por primera vez con modelos de lenguaje - sin riesgo de privacidad.

Redacción de contratos en minutos: Basada en reglas, dependiente del destinatario, físicamente segura.

Detección proactiva de brechas en firmas: Firmas faltantes detectadas antes de que el auditor pregunte.

Evidencia de auditoría: Audit Trail documenta cada anonimización, cada redacción, cada verificación de firma.

Sin herramienta nueva: Parte de la arquitectura de agents existente. Sin vendor adicional, sin licencia adicional.

Preguntas Frecuentes sobre Document Intelligence

¿Cuál es la diferencia entre anonimización y pseudonimización?

La anonimización elimina datos personales de forma irreversible. La pseudonimización reemplaza los datos con pseudónimos, manteniéndose la asignación vía tabla separada. Para el procesamiento LLM usamos pseudonimización con re-anonimización posterior: el modelo solo ve pseudónimos, el resultado contiene los datos reales.

¿Funciona la detección de PII con documentos escaneados?

Sí. Los documentos escaneados se convierten primero a texto legible por máquina vía OCR. Luego el texto pasa la misma detección PII que los documentos digitales. La precisión depende de la calidad del escaneo - a 300 DPI la precisión OCR supera el 99%.

¿Es realmente segura la redacción de contratos?

Sí. A diferencia de la redacción manual en editores PDF, el documento se re-renderiza físicamente. Los contenidos redactados ya no están en el documento - ni como texto, ni como metadatos, ni como capas invisibles. Esto es criptográficamente verificable.

¿Puede la comparación de firmas detectar falsificaciones?

La comparación detecta anomalías - desviaciones de una firma de referencia. Ante anomalías se escala automáticamente a un humano. El sistema nunca afirma que una firma es falsa o auténtica. Esa decisión la toma un humano.

¿Qué documentos necesitan procesamiento seguro?

Anonimización PII, redacción de contratos o detección de firmas - empezamos con un tipo de documento concreto.

Agendar reunión