Anonimización PII
Detección y pseudonimización automática de datos personales. Nombres, direcciones, IBANs, números fiscales, fechas de nacimiento. Roundtrip: pseudonimización antes del LLM, re-anonimización después. RGPD by Design.
Anonimización PII. Redacción de Contratos. Detección de Firmas.
Procesar documentos con IA sin exponer datos personales. Pseudonimización roundtrip para input LLM, redacción basada en reglas para compartir controlado, detección automática de firmas para gestión de contratos. RGPD-compliant by architecture.
Las empresas quieren procesar documentos con IA - analizar contratos, clasificar facturas, consultar politicas. Pero cada documento contiene datos personales: nombres, salarios, numeros de la Seguridad Social, direcciones, datos bancarios, firmas.
Enviar estos datos a un modelo de lenguaje - incluso uno autoalojado - sin proteccion viola el principio de minimizacion de datos del RGPD. Los acuerdos de empresa restringen el procesamiento de datos de empleados. Los secretos comerciales en contratos no deben llegar a terceros.
Las soluciones actuales son insuficientes: la redaccion manual en Adobe Acrobat es lenta, propensa a errores y frecuentemente solo cosmetica - el texto permanece accesible bajo las barras negras. La alternativa es renunciar al procesamiento IA de documentos sensibles, lo que elimina la mayor parte de la ganancia de productividad.
Detección y pseudonimización automática de datos personales. Nombres, direcciones, IBANs, números fiscales, fechas de nacimiento. Roundtrip: pseudonimización antes del LLM, re-anonimización después. RGPD by Design.
Redacción inteligente de contratos - dependiente del destinatario. El cliente ve campos diferentes al auditor. Matriz de redacción configurable. Físicamente seguro: el documento se re-renderiza.
Detección automática de firmas y comparación con firmas de referencia. No solo presencia, sino calidad de coincidencia. Las anomalías se escalan a humanos - el sistema nunca afirma autenticidad.
La mayoria de las herramientas PII del mercado realizan redaccion unidireccional - eliminan datos. Para el procesamiento con modelos de lenguaje, esto es insuficiente. Cuando un agente necesita analizar un contrato, requiere contexto: "Empleado X tiene salario Y en ubicacion Z." Sin este contexto, el modelo no puede generar una evaluacion significativa.
La solucion Gosign es la pseudonimizacion roundtrip: los datos se pseudonimizan antes del modelo, son procesados por el modelo y se re-anonimizan en el resultado. El modelo solo ve pseudonimos. El resultado contiene los datos reales.
┌─────────────┐ ┌──────────────────┐ ┌─────────────┐ ┌──────────────────┐ ┌─────────────┐
│ Documento │ │ Deteccion PII │ │ Pseudo- │ │ Modelo de │ │ Re-Mapping │
│ (Original) │────▶│ y clasifi- │────▶│ nimizacion │────▶│ lenguaje │────▶│ Pseudonimos│
│ │ │ cacion │ │ │ │ procesa solo │ │ → datos │
└─────────────┘ └──────────────────┘ └──────────────┘ └──────────────────┘ └─────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Decision │ │ Tabla de │ │ Resultado │
│ Layer: │ │ mapeo │◀─────────────────────────────│ con datos │
│ Que se │ │ (permanece │ Mapeo inverso │ reales │
│ anonimiza │ │ local) │ └──────────────┘
└──────────────┘ └──────────────┘ | Micro-Decision | Quien Decide | Por que |
|---|---|---|
| Definir categorias PII | Humano + Reglas | Requisitos RGPD, acuerdo de empresa, reglas del cliente |
| Detectar PII en documento | IA (NER + patrones) | Named Entity Recognition + patrones basados en reglas |
| Revisar falsos positivos | IA, si incertidumbre: Humano | Confidence Routing - "Garcia" como apellido o empresa? |
| Asignar pseudonimos | Automatico | Mapeo consistente, "Persona_A" en vez de "Juan Garcia" |
| Enviar documento pseudonimizado al modelo | Automatico | Sin decision, reenvio puro |
| Re-anonimizar resultado | Automatico | Aplicar tabla de mapeo en sentido inverso |
| Auditoria: que se anonimizo | Automatico | Evidencia RGPD en Audit Trail |
La tabla de mapeo (pseudonimo → datos reales) nunca abandona la capa de pre-procesamiento. Se elimina tras completar el procesamiento - o se retiene por un periodo definido, segun configuracion. El modelo de lenguaje nunca ve datos personales en ningun momento.
Los contratos necesitan compartirse regularmente en forma redactada - con auditores de cuentas, con compradores potenciales durante due diligence, con el Comite de Empresa, con asesores externos. Hoy alguien lo hace manualmente. Toma horas por contrato, es propenso a errores, y la redaccion frecuentemente es solo cosmetica: el texto permanece accesible bajo las barras negras. Una fuga de datos frecuentemente subestimada.
La solucion Gosign: el Document Agent reconoce la estructura del contrato - partes, importes, plazos, clausulas, firmas. El Decision Layer define reglas de redaccion dependientes del destinatario:
| Elemento del contrato | Comite de Empresa | Due Diligence | Asesor externo | Auditor de cuentas |
|---|---|---|---|---|
| Partes contratantes (nombres) | ✓ Visible | ✗ Redactado | ✗ Redactado | ✓ Visible |
| Valores / importes del contrato | ✓ Visible | ✓ Visible | ✗ Redactado | ✓ Visible |
| Salarios / compensacion | ✓ Visible | Agregado | ✗ Redactado | ✓ Visible |
| Clausulas contractuales | ✓ Visible | ✓ Visible | Solo tipos de clausula | ✓ Visible |
| Secretos comerciales | ✗ Redactado | ✓ Visible | ✗ Redactado | ✓ Visible |
| Firmas | ✗ Redactado | ✗ Redactado | ✗ Redactado | ✓ Visible |
Las reglas de redaccion estan versionadas en el Decision Layer. Cuando los requisitos cambian - nuevo grupo de destinatarios, acuerdo de empresa actualizado, regla de compliance modificada - se crea una nueva version de reglas. La version anterior permanece trazable.
Redaccion fisica: El PDF se re-renderiza desde cero. Los datos originales ya no estan fisicamente presentes en el documento - ni como texto, ni como metadatos, ni como capa invisible. Sin copiar-pegar bajo barras negras, sin edicion PDF para descubrir contenido. Esto no es cosmetico - es criptograficamente seguro.
Gestion de contratos, preparacion de auditorias, revisiones de compliance - todo requiere verificacion periodica: Esta firmado el documento? Donde esta la firma? Falta una contrafirma? Con 5.000 contratos en el archivo, la comprobacion manual no es viable.
El Document Agent detecta campos de firma y firmas presentes en documentos escaneados y PDFs. Computer Vision, no un modelo de lenguaje - modelos ML especializados para analisis de imagen. El resultado es estructurado: pagina, posicion, confianza de que la firma esta presente.
Verificacion masiva de archivo: "En cuales de los 5.000 contratos falta una contrafirma?" - resultados en minutos en vez de semanas.
Control de calidad de onboarding: "Estan firmados todos los documentos obligatorios del nuevo empleado?" - checklist automatico, firmas faltantes escaladas como tareas de workflow.
Preparacion de auditoria: "Muestra todos los documentos sin firma del Q3 2025." - lista de exportacion estructurada para el auditor de cuentas.
┌─────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ Documento │ │ Deteccion │ │ Comparacion │
│ con │────▶│ de firma │────▶│ con firma │
│ firma │ │ (posicion, │ │ de referencia │
│ │ │ confianza) │ │ │
└─────────────┘ └──────────────────┘ └──────────────────┘
│
┌───────────┼───────────┐
▼ ▼ ▼
┌────────────┐ ┌────────┐ ┌────────────┐
│ Alta │ │ Media │ │ Baja │
│ coincid. │ │coincid.│ │ coincid. │
└────────────┘ └────────┘ └────────────┘
│ │ │
▼ ▼ ▼
Automatica- Escalacion Bloqueo
mente a humano Revision
aceptada, con vista humana
documentada comparativa obligatoria Importante: La comparacion de firmas es un detector de anomalias, no un detector de falsificaciones. Las firmas varian naturalmente - dependen del dia, el boligrafo y la superficie. El sistema identifica anomalias y las escala a un humano. Nunca afirma "esta firma es falsa" o "esta firma es autentica". Eso seria irresponsable.
Cada capability tiene su propio Decision Layer con puntos de decisión definidos.
| Capability | Decisión | Decide | Por qué |
|---|---|---|---|
| PII | ¿Qué categorías PII detectar? | Humano | Decisión organizacional, art. 4 RGPD, acuerdo empresa |
| PII | ¿"Müller" es nombre o empresa? | IA, a <80%: Humano | Ambigüedad NER - evitar falsos positivos |
| PII | Elegir método pseudonimización | Reglas | Pseudónimos consistentes vs. aleatorios |
| Redacción | ¿Qué destinatarios? | Humano | Decisión profesional, no automatizable |
| Redacción | ¿Qué campos se redactan? | Reglas | Matriz dependiente del destinatario |
| Redacción | Tipo de cláusula desconocido | Humano | Nuevos tipos deben clasificarse |
| Firma | ¿Firma presente? | IA | Computer Vision con valor de confianza |
| Firma | ¿Firma coincide con referencia? | IA + Humano si anomalía | Alta coincidencia: aceptada. Anomalía: escalada |
| Firma | Sin referencia disponible | Humano | Nueva firma de referencia debe registrarse |
| Todos | Documentar Audit Trail | Automático | Cada decisión protocolada inmutablemente |
Document Intelligence es una capability del Document Agent existente - no software separado.
Procesamiento LLM compatible con RGPD: Documentos con datos personales pueden procesarse por primera vez con modelos de lenguaje - sin riesgo de privacidad.
Redacción de contratos en minutos: Basada en reglas, dependiente del destinatario, físicamente segura.
Detección proactiva de brechas en firmas: Firmas faltantes detectadas antes de que el auditor pregunte.
Evidencia de auditoría: Audit Trail documenta cada anonimización, cada redacción, cada verificación de firma.
Sin herramienta nueva: Parte de la arquitectura de agents existente. Sin vendor adicional, sin licencia adicional.
Nuestra serie de artículos para ejecutivos que implementan agentes de IA en la empresa.
La anonimización elimina datos personales de forma irreversible. La pseudonimización reemplaza los datos con pseudónimos, manteniéndose la asignación vía tabla separada. Para el procesamiento LLM usamos pseudonimización con re-anonimización posterior: el modelo solo ve pseudónimos, el resultado contiene los datos reales.
Sí. Los documentos escaneados se convierten primero a texto legible por máquina vía OCR. Luego el texto pasa la misma detección PII que los documentos digitales. La precisión depende de la calidad del escaneo - a 300 DPI la precisión OCR supera el 99%.
Sí. A diferencia de la redacción manual en editores PDF, el documento se re-renderiza físicamente. Los contenidos redactados ya no están en el documento - ni como texto, ni como metadatos, ni como capas invisibles. Esto es criptográficamente verificable.
La comparación detecta anomalías - desviaciones de una firma de referencia. Ante anomalías se escala automáticamente a un humano. El sistema nunca afirma que una firma es falsa o auténtica. Esa decisión la toma un humano.
Anonimización PII, redacción de contratos o detección de firmas - empezamos con un tipo de documento concreto.
Agendar reunión