Anonimizacja PII
Automatyczne rozpoznawanie i pseudonimizacja danych osobowych. Nazwiska, adresy, IBAN-y, numery podatkowe, daty urodzenia. Roundtrip: pseudonimizacja przed LLM, re-anonimizacja po przetworzeniu. RODO by Design.
Anonimizacja PII. Zaciemnianie umów. Rozpoznawanie podpisów.
Przetwarzanie dokumentów z AI zgodnie z RODO - bez ujawniania danych osobowych. Roundtrip-pseudonimizacja dla danych wejściowych LLM, zaciemnianie na podstawie reguł do udostępniania, automatyczne rozpoznawanie podpisów do zarządzania umowami.
Firmy chcą przetwarzać dokumenty z AI - analizować umowy, klasyfikować faktury, odpytywać polityki. Ale każdy dokument zawiera dane osobowe: nazwiska, wynagrodzenia, numery PESEL, adresy, numery rachunków bankowych, podpisy.
Przesyłanie tych danych do modelu językowego - nawet hostowanego lokalnie - bez ochrony narusza zasadę minimalizacji danych wymaganą przez RODO. Porozumienia zakładowe ograniczają przetwarzanie danych pracowniczych. Tajemnice handlowe w umowach nie mogą trafić do osób trzecich.
Dotychczasowe rozwiązania są niewystarczające: ręczne zaciemnianie w Adobe Acrobat jest czasochłonne, podatne na błędy i często tylko kosmetyczne - tekst pozostaje dostępny pod czarnymi paskami. Alternatywą jest rezygnacja z przetwarzania AI dokumentów wrażliwych, co eliminuje większość korzyści produktywności.
Automatyczne rozpoznawanie i pseudonimizacja danych osobowych. Nazwiska, adresy, IBAN-y, numery podatkowe, daty urodzenia. Roundtrip: pseudonimizacja przed LLM, re-anonimizacja po przetworzeniu. RODO by Design.
Inteligentne zaciemnianie umów - zależne od odbiorcy. Klient widzi inne pola niż audytor. Matryca zaciemniania konfigurowana na odbiorcę. Fizycznie bezpieczne: dokument jest renderowany od nowa.
Automatyczne wykrywanie podpisów i porównanie z podpisami referencyjnymi. Nie tylko obecność, ale również jakość dopasowania. Anomalie są eskalowane do człowieka - system nigdy nie twierdzi, że podpis jest autentyczny.
Większość narzędzi PII na rynku to jednokierunkowe zaciemnianie - usuwają dane. Do przetwarzania modelami językowymi to nie wystarcza. Gdy agent ma analizować umowę, potrzebuje kontekstu: "Pracownik X ma wynagrodzenie Y w lokalizacji Z." Bez tego kontekstu model nie może dostarczyć sensownej oceny.
Rozwiązanie Gosign to roundtrip-pseudonimizacja: dane są pseudonimizowane przed modelem, przetwarzane przez model i re-anonimizowane w wyniku. Model widzi tylko pseudonimy. Wynik zawiera prawdziwe dane.
┌─────────────┐ ┌──────────────────┐ ┌─────────────┐ ┌──────────────────┐ ┌─────────────┐
│ Dokument │ │ Wykrywanie PII │ │ Pseudo- │ │ Model językowy │ │ Re-Mapping │
│ (Oryginał) │────▶│ i klasyfi- │────▶│ nimizacja │────▶│ przetwarza │────▶│ Pseudonimy │
│ │ │ kacja │ │ │ │ tylko pseudonimy │ │ → dane │
└─────────────┘ └──────────────────┘ └──────────────┘ └──────────────────┘ └─────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Decision │ │ Tabela │ │ Wynik │
│ Layer: │ │ mapowania │◀─────────────────────────────│ z prawdzi- │
│ Co jest │ │ (pozostaje │ Odwrotne mapowanie │ wymi danymi │
│ anonimiz. │ │ lokalnie) │ └──────────────┘
└──────────────┘ └──────────────┘ | Mikro-decyzja | Kto decyduje | Dlaczego |
|---|---|---|
| Zdefiniować kategorie PII | Człowiek + Zestaw reguł | Wymagania RODO, porozumienie zakładowe, reguły klienta |
| Wykryć PII w dokumencie | AI (NER + wzorce) | Named Entity Recognition + wzorce regułowe |
| Zweryfikować fałszywe pozytywy | AI, przy niepewności Człowiek | Confidence Routing - "Kowalski" jako nazwisko czy firma? |
| Przypisać pseudonimy | Automatycznie | Spójne mapowanie, "Osoba_A" zamiast "Jan Kowalski" |
| Wysłać pseudonimizowany dokument do modelu | Automatycznie | Brak decyzji, czyste przekazanie |
| Re-anonimizować wynik | Automatycznie | Odwrotne zastosowanie tabeli mapowania |
| Audyt: co zostało zanonimizowane | Automatycznie | Dowód RODO w Audit Trail |
Tabela mapowania (pseudonim → prawdziwe dane) nigdy nie opuszcza warstwy pre-processingu. Jest usuwana po zakończeniu przetwarzania - lub przechowywana przez zdefiniowany okres, w zależności od konfiguracji. Model językowy w żadnym momencie nie widzi danych osobowych.
Umowy regularnie muszą być udostępniane w zaciemnionej formie - biegłym rewidentom, potencjalnym nabywcom przy due diligence, Radzie Zakładowej, zewnętrznym doradcom. Dziś robi to ktoś ręcznie. To zajmuje godziny na umowę, jest podatne na błędy, a zaciemnianie jest często tylko kosmetyczne: tekst pozostaje dostępny pod czarnymi paskami. Często niedoceniany wyciek danych.
Rozwiązanie Gosign: Document Agent rozpoznaje strukturę umowy - strony, kwoty, terminy, klauzule, podpisy. Decision Layer definiuje zaciemnianie zależne od odbiorcy:
| Element umowy | Rada Zakładowa | Due Diligence | Zewnętrzny doradca | Biegły rewident |
|---|---|---|---|---|
| Strony umowy (nazwiska) | ✓ Widoczne | ✗ Zaciemnione | ✗ Zaciemnione | ✓ Widoczne |
| Wartości umowy / kwoty | ✓ Widoczne | ✓ Widoczne | ✗ Zaciemnione | ✓ Widoczne |
| Wynagrodzenia | ✓ Widoczne | Zagregowane | ✗ Zaciemnione | ✓ Widoczne |
| Klauzule umowne | ✓ Widoczne | ✓ Widoczne | Tylko typy klauzul | ✓ Widoczne |
| Tajemnice handlowe | ✗ Zaciemnione | ✓ Widoczne | ✗ Zaciemnione | ✓ Widoczne |
| Podpisy | ✗ Zaciemnione | ✗ Zaciemnione | ✗ Zaciemnione | ✓ Widoczne |
Reguły zaciemniania są wersjonowane w Decision Layer. Gdy wymagania się zmieniają - nowy krąg odbiorców, zaktualizowane porozumienie zakładowe, zmieniona reguła compliance - powstaje nowa wersja reguł. Poprzednia wersja pozostaje identyfikowalna.
Fizyczne zaciemnianie: PDF jest renderowany od nowa. Oryginalne dane nie są fizycznie obecne w dokumencie - ani jako tekst, ani jako metadane, ani jako niewidoczna warstwa. Żadne kopiuj-wklej pod czarnymi paskami, żadne edytowanie PDF aby odsłonić treść. To nie jest kosmetyka - jest to kryptograficznie bezpieczne.
Zarządzanie umowami, przygotowanie do audytu, przegląd compliance - wszędzie wymaga się regularnej weryfikacji: Czy dokument jest podpisany? Gdzie jest podpis? Czy brakuje kontrasygnaty? Przy 5000 umów w archiwum ręczne sprawdzanie nie jest wykonalne.
Document Agent wykrywa pola podpisów i obecne podpisy w zeskanowanych dokumentach i PDF-ach. Computer Vision, nie model językowy - wyspecjalizowane modele ML do analizy obrazu. Wynik jest ustrukturyzowany: strona, pozycja, konfidencja że podpis jest obecny.
Masowa weryfikacja archiwum: "W których z 5000 umów brakuje kontrasygnaty?" - wynik w minutach zamiast tygodni.
Kontrola jakości onboardingu: "Czy wszystkie obowiązkowe dokumenty nowego pracownika są podpisane?" - automatyczna checklista, brakujące podpisy eskalowane jako zadania workflow.
Przygotowanie do audytu: "Pokaż wszystkie dokumenty bez podpisu z Q3 2025." - ustrukturyzowana lista eksportowa dla biegłego rewidenta.
┌─────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ Dokument │ │ Wykrywanie │ │ Porównanie │
│ z pod- │────▶│ podpisu │────▶│ z podpisem │
│ pisem │ │ (pozycja, │ │ referencyjnym │
│ │ │ konfidencja) │ │ │
└─────────────┘ └──────────────────┘ └──────────────────┘
│
┌───────────┼───────────┐
▼ ▼ ▼
┌────────────┐ ┌────────┐ ┌────────────┐
│ Wysoka │ │Średnia │ │ Niska │
│ zgodność │ │zgodność│ │ zgodność │
└────────────┘ └────────┘ └────────────┘
│ │ │
▼ ▼ ▼
Automatycznie Eskalacja Blokada
zaakcep- do czło- Weryfikacja
towane, wieka z przez
udoku- widokiem człowieka
mentowane porównaw. obowiązkowa Ważne: Porównanie podpisów to detektor anomalii, nie detektor fałszerstw. Podpisy naturalnie się różnią - zależy od dnia, długopisu i podłoża. System identyfikuje anomalie i eskaluje je do człowieka. Nigdy nie twierdzi "ten podpis jest sfałszowany" lub "ten podpis jest autentyczny". To byłoby nieodpowiedzialne.
Każda capability ma własny Decision Layer z zdefiniowanymi punktami decyzyjnymi.
| Capability | Decyzja | Decyduje | Dlaczego |
|---|---|---|---|
| PII | Które kategorie PII rozpoznawać? | Człowiek | Decyzja organizacyjna, art. 4 RODO, porozumienie zakładowe |
| PII | Czy "Müller" to nazwisko czy firma? | AI, przy <80% konfidencji: Człowiek | Ambiguiczność NER - unikanie fałszywych pozytywów |
| PII | Wybrać metodę pseudonimizacji | Zestaw reguł | Spójne pseudonimy vs. wartości losowe |
| Zaciemnianie | Jaki krąg odbiorców? | Człowiek | Decyzja fachowa, nie automatyzowalna |
| Zaciemnianie | Które pola są zaciemniane? | Zestaw reguł | Matryca zaciemniania zależna od odbiorcy |
| Zaciemnianie | Rozpoznano nieznany typ klauzuli | Człowiek | Nowe typy klauzul muszą być sklasyfikowane |
| Podpis | Podpis obecny? | AI | Computer Vision z wartością konfidencji |
| Podpis | Podpis zgodny z referencją? | AI + Człowiek przy anomalii | Wysoka zgodność: zaakceptowany. Anomalia: eskalowany |
| Podpis | Brak referencji | Człowiek | Nowy podpis referencyjny musi być zarejestrowany |
| Wszystkie | Dokumentuj Audit Trail | Automatycznie | Każda decyzja niezmiennie protokołowana |
Document Intelligence to capability istniejącego Document Agent - nie osobne oprogramowanie. Integracja przez te same interfejsy:
Przetwarzanie LLM zgodne z RODO: Dokumenty z danymi osobowymi mogą być po raz pierwszy bezpiecznie przetwarzane modelami językowymi - bez ryzyka ochrony danych.
Zaciemnianie umów w minutach zamiast godzin: Na podstawie reguł, zależne od odbiorcy, fizycznie bezpieczne.
Proaktywne wykrywanie luk w podpisach: Brakujące podpisy wykrywane zanim audytor zapyta.
Dowód audytu ochrony danych: Audit Trail dokumentuje każdą anonimizację, każde zaciemnienie, każdą weryfikację podpisu.
Żadne nowe narzędzie: Document Intelligence to część istniejącej architektury agentowej. Bez dodatkowego dostawcy, bez dodatkowej licencji.
Nasza seria artykułów fachowych dla decydentów wdrażających agentów AI.
Anonimizacja nieodwracalnie usuwa dane osobowe - przypisanie do osoby nie jest już możliwe. Pseudonimizacja zastępuje dane pseudonimami, przypisanie pozostaje możliwe przez osobną tabelę. Do przetwarzania LLM stosujemy pseudonimizację z następczą re-anonimizacją: model widzi tylko pseudonimy, wynik zawiera ponownie prawdziwe dane.
Tak. Zeskanowane dokumenty są najpierw konwertowane na tekst maszynowy przez OCR. Następnie tekst przechodzi to samo rozpoznawanie PII co dokumenty cyfrowe. Dokładność rozpoznawania zależy od jakości skanu - przy standardowych skanach (300 DPI) dokładność OCR przekracza 99%.
Tak. W odróżnieniu od ręcznego zaciemniania w edytorach PDF, dokument jest fizycznie renderowany od nowa. Zaciemnione treści nie są już w dokumencie - ani jako tekst, ani jako metadane, ani jako niewidoczne warstwy. Jest to kryptograficznie weryfikowalne.
Porównanie podpisów wykrywa anomalie - odchylenia od podpisu referencyjnego. Przy nieprawidłowościach następuje automatyczna eskalacja do człowieka. System nigdy nie twierdzi, że podpis jest sfałszowany lub autentyczny. Tę decyzję podejmuje człowiek.
Anonimizacja PII, zaciemnianie umów lub rozpoznawanie podpisów - zaczynamy od konkretnego typu dokumentu.
Umów spotkanie