Document Intelligence

Anonimizacja PII. Zaciemnianie umów. Rozpoznawanie podpisów.

Przetwarzanie dokumentów z AI zgodnie z RODO - bez ujawniania danych osobowych. Roundtrip-pseudonimizacja dla danych wejściowych LLM, zaciemnianie na podstawie reguł do udostępniania, automatyczne rozpoznawanie podpisów do zarządzania umowami.

Umów spotkanie Document Agents

Problem: Dane osobowe w każdym dokumencie

Firmy chcą przetwarzać dokumenty z AI - analizować umowy, klasyfikować faktury, odpytywać polityki. Ale każdy dokument zawiera dane osobowe: nazwiska, wynagrodzenia, numery PESEL, adresy, numery rachunków bankowych, podpisy.

Przesyłanie tych danych do modelu językowego - nawet hostowanego lokalnie - bez ochrony narusza zasadę minimalizacji danych wymaganą przez RODO. Porozumienia zakładowe ograniczają przetwarzanie danych pracowniczych. Tajemnice handlowe w umowach nie mogą trafić do osób trzecich.

Dotychczasowe rozwiązania są niewystarczające: ręczne zaciemnianie w Adobe Acrobat jest czasochłonne, podatne na błędy i często tylko kosmetyczne - tekst pozostaje dostępny pod czarnymi paskami. Alternatywą jest rezygnacja z przetwarzania AI dokumentów wrażliwych, co eliminuje większość korzyści produktywności.

Trzy Capabilities

Anonimizacja PII

Automatyczne rozpoznawanie i pseudonimizacja danych osobowych. Nazwiska, adresy, IBAN-y, numery podatkowe, daty urodzenia. Roundtrip: pseudonimizacja przed LLM, re-anonimizacja po przetworzeniu. RODO by Design.

Zaciemnianie Umów

Inteligentne zaciemnianie umów - zależne od odbiorcy. Klient widzi inne pola niż audytor. Matryca zaciemniania konfigurowana na odbiorcę. Fizycznie bezpieczne: dokument jest renderowany od nowa.

Rozpoznawanie Podpisów

Automatyczne wykrywanie podpisów i porównanie z podpisami referencyjnymi. Nie tylko obecność, ale również jakość dopasowania. Anomalie są eskalowane do człowieka - system nigdy nie twierdzi, że podpis jest autentyczny.

Anonimizacja PII: Roundtrip-Pseudonimizacja dla LLM-Input

Większość narzędzi PII na rynku to jednokierunkowe zaciemnianie - usuwają dane. Do przetwarzania modelami językowymi to nie wystarcza. Gdy agent ma analizować umowę, potrzebuje kontekstu: "Pracownik X ma wynagrodzenie Y w lokalizacji Z." Bez tego kontekstu model nie może dostarczyć sensownej oceny.

Rozwiązanie Gosign to roundtrip-pseudonimizacja: dane są pseudonimizowane przed modelem, przetwarzane przez model i re-anonimizowane w wyniku. Model widzi tylko pseudonimy. Wynik zawiera prawdziwe dane.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Dokument   │     │  Wykrywanie PII  │     │  Pseudo-     │     │  Model językowy  │     │  Re-Mapping │
│  (Oryginał) │────▶│  i klasyfi-      │────▶│  nimizacja   │────▶│  przetwarza      │────▶│  Pseudonimy │
│             │     │  kacja           │     │              │     │  tylko pseudonimy │     │  → dane     │
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
                           │                        │                                            │
                           ▼                        ▼                                            ▼
                    ┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
                    │  Decision    │         │  Tabela      │                              │  Wynik       │
                    │  Layer:      │         │  mapowania   │◀─────────────────────────────│  z prawdzi-  │
                    │  Co jest     │         │  (pozostaje  │   Odwrotne mapowanie         │  wymi danymi │
                    │  anonimiz.   │         │  lokalnie)   │                              └──────────────┘
                    └──────────────┘         └──────────────┘

Kroki decyzyjne w procesie PII

Mikro-decyzja	Kto decyduje	Dlaczego
Zdefiniować kategorie PII	Człowiek + Zestaw reguł	Wymagania RODO, porozumienie zakładowe, reguły klienta
Wykryć PII w dokumencie	AI (NER + wzorce)	Named Entity Recognition + wzorce regułowe
Zweryfikować fałszywe pozytywy	AI, przy niepewności Człowiek	Confidence Routing - "Kowalski" jako nazwisko czy firma?
Przypisać pseudonimy	Automatycznie	Spójne mapowanie, "Osoba_A" zamiast "Jan Kowalski"
Wysłać pseudonimizowany dokument do modelu	Automatycznie	Brak decyzji, czyste przekazanie
Re-anonimizować wynik	Automatycznie	Odwrotne zastosowanie tabeli mapowania
Audyt: co zostało zanonimizowane	Automatycznie	Dowód RODO w Audit Trail

Tabela mapowania (pseudonim → prawdziwe dane) nigdy nie opuszcza warstwy pre-processingu. Jest usuwana po zakończeniu przetwarzania - lub przechowywana przez zdefiniowany okres, w zależności od konfiguracji. Model językowy w żadnym momencie nie widzi danych osobowych.

Zaciemnianie Umów: Na Podstawie Reguł, Zależne od Odbiorcy, Fizyczne

Umowy regularnie muszą być udostępniane w zaciemnionej formie - biegłym rewidentom, potencjalnym nabywcom przy due diligence, Radzie Zakładowej, zewnętrznym doradcom. Dziś robi to ktoś ręcznie. To zajmuje godziny na umowę, jest podatne na błędy, a zaciemnianie jest często tylko kosmetyczne: tekst pozostaje dostępny pod czarnymi paskami. Często niedoceniany wyciek danych.

Rozwiązanie Gosign: Document Agent rozpoznaje strukturę umowy - strony, kwoty, terminy, klauzule, podpisy. Decision Layer definiuje zaciemnianie zależne od odbiorcy:

Element umowy	Rada Zakładowa	Due Diligence	Zewnętrzny doradca	Biegły rewident
Strony umowy (nazwiska)	✓ Widoczne	✗ Zaciemnione	✗ Zaciemnione	✓ Widoczne
Wartości umowy / kwoty	✓ Widoczne	✓ Widoczne	✗ Zaciemnione	✓ Widoczne
Wynagrodzenia	✓ Widoczne	Zagregowane	✗ Zaciemnione	✓ Widoczne
Klauzule umowne	✓ Widoczne	✓ Widoczne	Tylko typy klauzul	✓ Widoczne
Tajemnice handlowe	✗ Zaciemnione	✓ Widoczne	✗ Zaciemnione	✓ Widoczne
Podpisy	✗ Zaciemnione	✗ Zaciemnione	✗ Zaciemnione	✓ Widoczne

Reguły zaciemniania są wersjonowane w Decision Layer. Gdy wymagania się zmieniają - nowy krąg odbiorców, zaktualizowane porozumienie zakładowe, zmieniona reguła compliance - powstaje nowa wersja reguł. Poprzednia wersja pozostaje identyfikowalna.

Fizyczne zaciemnianie: PDF jest renderowany od nowa. Oryginalne dane nie są fizycznie obecne w dokumencie - ani jako tekst, ani jako metadane, ani jako niewidoczna warstwa. Żadne kopiuj-wklej pod czarnymi paskami, żadne edytowanie PDF aby odsłonić treść. To nie jest kosmetyka - jest to kryptograficznie bezpieczne.

Rozpoznawanie Podpisów: Znajdź, Zweryfikuj, Udokumentuj

Zarządzanie umowami, przygotowanie do audytu, przegląd compliance - wszędzie wymaga się regularnej weryfikacji: Czy dokument jest podpisany? Gdzie jest podpis? Czy brakuje kontrasygnaty? Przy 5000 umów w archiwum ręczne sprawdzanie nie jest wykonalne.

Wykrywanie podpisów

Document Agent wykrywa pola podpisów i obecne podpisy w zeskanowanych dokumentach i PDF-ach. Computer Vision, nie model językowy - wyspecjalizowane modele ML do analizy obrazu. Wynik jest ustrukturyzowany: strona, pozycja, konfidencja że podpis jest obecny.

Masowa weryfikacja archiwum: "W których z 5000 umów brakuje kontrasygnaty?" - wynik w minutach zamiast tygodni.

Kontrola jakości onboardingu: "Czy wszystkie obowiązkowe dokumenty nowego pracownika są podpisane?" - automatyczna checklista, brakujące podpisy eskalowane jako zadania workflow.

Przygotowanie do audytu: "Pokaż wszystkie dokumenty bez podpisu z Q3 2025." - ustrukturyzowana lista eksportowa dla biegłego rewidenta.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Dokument   │     │  Wykrywanie      │     │  Porównanie      │
│  z pod-     │────▶│  podpisu         │────▶│  z podpisem      │
│  pisem      │     │  (pozycja,       │     │  referencyjnym   │
│             │     │   konfidencja)   │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
                                                      │
                                          ┌───────────┼───────────┐
                                          ▼           ▼           ▼
                                   ┌────────────┐ ┌────────┐ ┌────────────┐
                                   │  Wysoka    │ │Średnia │ │  Niska     │
                                   │  zgodność  │ │zgodność│ │  zgodność  │
                                   └────────────┘ └────────┘ └────────────┘
                                        │              │           │
                                        ▼              ▼           ▼
                                   Automatycznie  Eskalacja   Blokada
                                   zaakcep-       do czło-    Weryfikacja
                                   towane,        wieka z     przez
                                   udoku-         widokiem    człowieka
                                   mentowane      porównaw.   obowiązkowa

Ważne: Porównanie podpisów to detektor anomalii, nie detektor fałszerstw. Podpisy naturalnie się różnią - zależy od dnia, długopisu i podłoża. System identyfikuje anomalie i eskaluje je do człowieka. Nigdy nie twierdzi "ten podpis jest sfałszowany" lub "ten podpis jest autentyczny". To byłoby nieodpowiedzialne.

Decision Layer: Kto Decyduje o Czym

Każda capability ma własny Decision Layer z zdefiniowanymi punktami decyzyjnymi.

Capability	Decyzja	Decyduje	Dlaczego
PII	Które kategorie PII rozpoznawać?	Człowiek	Decyzja organizacyjna, art. 4 RODO, porozumienie zakładowe
PII	Czy "Müller" to nazwisko czy firma?	AI, przy <80% konfidencji: Człowiek	Ambiguiczność NER - unikanie fałszywych pozytywów
PII	Wybrać metodę pseudonimizacji	Zestaw reguł	Spójne pseudonimy vs. wartości losowe
Zaciemnianie	Jaki krąg odbiorców?	Człowiek	Decyzja fachowa, nie automatyzowalna
Zaciemnianie	Które pola są zaciemniane?	Zestaw reguł	Matryca zaciemniania zależna od odbiorcy
Zaciemnianie	Rozpoznano nieznany typ klauzuli	Człowiek	Nowe typy klauzul muszą być sklasyfikowane
Podpis	Podpis obecny?	AI	Computer Vision z wartością konfidencji
Podpis	Podpis zgodny z referencją?	AI + Człowiek przy anomalii	Wysoka zgodność: zaakceptowany. Anomalia: eskalowany
Podpis	Brak referencji	Człowiek	Nowy podpis referencyjny musi być zarejestrowany
Wszystkie	Dokumentuj Audit Trail	Automatycznie	Każda decyzja niezmiennie protokołowana

Integracja

Document Intelligence to capability istniejącego Document Agent - nie osobne oprogramowanie. Integracja przez te same interfejsy:

SAP DMS, SAP ArchiveLink - umowy i dokumenty z archiwów SAP
SharePoint, OneDrive - zarządzanie dokumentami via Microsoft Graph
Skrzynki e-mail (IMAP/Exchange) - załączniki przetwarzane automatycznie
File System Watcher - monitorowanie lokalnych katalogów
REST API - dla niestandardowych systemów DMS

Business Impact

Przetwarzanie LLM zgodne z RODO: Dokumenty z danymi osobowymi mogą być po raz pierwszy bezpiecznie przetwarzane modelami językowymi - bez ryzyka ochrony danych.

Zaciemnianie umów w minutach zamiast godzin: Na podstawie reguł, zależne od odbiorcy, fizycznie bezpieczne.

Proaktywne wykrywanie luk w podpisach: Brakujące podpisy wykrywane zanim audytor zapyta.

Dowód audytu ochrony danych: Audit Trail dokumentuje każdą anonimizację, każde zaciemnienie, każdą weryfikację podpisu.

Żadne nowe narzędzie: Document Intelligence to część istniejącej architektury agentowej. Bez dodatkowego dostawcy, bez dodatkowej licencji.

Pogłębienie w Agent Briefing

Nasza seria artykułów fachowych dla decydentów wdrażających agentów AI.

Infrastructure

RAG i Document Intelligence: Jak AI rozumie Twoje dokumenty

Governance

Anonimizacja PII dla Enterprise AI

Governance

Bezpieczeństwo danych w AI: Data Residency, RODO i EU AI Act

Często Zadawane Pytania o Document Intelligence

Jaka jest różnica między anonimizacją a pseudonimizacją?

Anonimizacja nieodwracalnie usuwa dane osobowe - przypisanie do osoby nie jest już możliwe. Pseudonimizacja zastępuje dane pseudonimami, przypisanie pozostaje możliwe przez osobną tabelę. Do przetwarzania LLM stosujemy pseudonimizację z następczą re-anonimizacją: model widzi tylko pseudonimy, wynik zawiera ponownie prawdziwe dane.

Czy rozpoznawanie PII działa dla zeskanowanych dokumentów?

Tak. Zeskanowane dokumenty są najpierw konwertowane na tekst maszynowy przez OCR. Następnie tekst przechodzi to samo rozpoznawanie PII co dokumenty cyfrowe. Dokładność rozpoznawania zależy od jakości skanu - przy standardowych skanach (300 DPI) dokładność OCR przekracza 99%.

Czy zaciemnianie umów jest naprawdę bezpieczne?

Tak. W odróżnieniu od ręcznego zaciemniania w edytorach PDF, dokument jest fizycznie renderowany od nowa. Zaciemnione treści nie są już w dokumencie - ani jako tekst, ani jako metadane, ani jako niewidoczne warstwy. Jest to kryptograficznie weryfikowalne.

Czy porównanie podpisów wykrywa fałszerstwa?

Porównanie podpisów wykrywa anomalie - odchylenia od podpisu referencyjnego. Przy nieprawidłowościach następuje automatyczna eskalacja do człowieka. System nigdy nie twierdzi, że podpis jest sfałszowany lub autentyczny. Tę decyzję podejmuje człowiek.

Które dokumenty wymagają bezpiecznego przetwarzania?

Anonimizacja PII, zaciemnianie umów lub rozpoznawanie podpisów - zaczynamy od konkretnego typu dokumentu.

Umów spotkanie