Przejdź do treści

Document Intelligence

Anonimizacja PII. Zaciemnianie umów. Rozpoznawanie podpisów.

Przetwarzanie dokumentów z AI zgodnie z RODO - bez ujawniania danych osobowych. Roundtrip-pseudonimizacja dla danych wejściowych LLM, zaciemnianie na podstawie reguł do udostępniania, automatyczne rozpoznawanie podpisów do zarządzania umowami.

AirbusVolkswagenShellSonyEvonikPhilipsKPMG

Problem: Dane osobowe w każdym dokumencie

Firmy chcą przetwarzać dokumenty z AI - analizować umowy, klasyfikować faktury, odpytywać polityki. Ale każdy dokument zawiera dane osobowe: nazwiska, wynagrodzenia, numery PESEL, adresy, numery rachunków bankowych, podpisy.

Przesyłanie tych danych do modelu językowego - nawet hostowanego lokalnie - bez ochrony narusza zasadę minimalizacji danych wymaganą przez RODO. Porozumienia zakładowe ograniczają przetwarzanie danych pracowniczych. Tajemnice handlowe w umowach nie mogą trafić do osób trzecich.

Dotychczasowe rozwiązania są niewystarczające: ręczne zaciemnianie w Adobe Acrobat jest czasochłonne, podatne na błędy i często tylko kosmetyczne - tekst pozostaje dostępny pod czarnymi paskami. Alternatywą jest rezygnacja z przetwarzania AI dokumentów wrażliwych, co eliminuje większość korzyści produktywności.

Trzy Capabilities

Anonimizacja PII

Automatyczne rozpoznawanie i pseudonimizacja danych osobowych. Nazwiska, adresy, IBAN-y, numery podatkowe, daty urodzenia. Roundtrip: pseudonimizacja przed LLM, re-anonimizacja po przetworzeniu. RODO by Design.

Zaciemnianie Umów

Inteligentne zaciemnianie umów - zależne od odbiorcy. Klient widzi inne pola niż audytor. Matryca zaciemniania konfigurowana na odbiorcę. Fizycznie bezpieczne: dokument jest renderowany od nowa.

Rozpoznawanie Podpisów

Automatyczne wykrywanie podpisów i porównanie z podpisami referencyjnymi. Nie tylko obecność, ale również jakość dopasowania. Anomalie są eskalowane do człowieka - system nigdy nie twierdzi, że podpis jest autentyczny.

Anonimizacja PII: Roundtrip-Pseudonimizacja dla LLM-Input

Większość narzędzi PII na rynku to jednokierunkowe zaciemnianie - usuwają dane. Do przetwarzania modelami językowymi to nie wystarcza. Gdy agent ma analizować umowę, potrzebuje kontekstu: "Pracownik X ma wynagrodzenie Y w lokalizacji Z." Bez tego kontekstu model nie może dostarczyć sensownej oceny.

Rozwiązanie Gosign to roundtrip-pseudonimizacja: dane są pseudonimizowane przed modelem, przetwarzane przez model i re-anonimizowane w wyniku. Model widzi tylko pseudonimy. Wynik zawiera prawdziwe dane.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Dokument   │     │  Wykrywanie PII  │     │  Pseudo-     │     │  Model językowy  │     │  Re-Mapping │
│  (Oryginał) │────▶│  i klasyfi-      │────▶│  nimizacja   │────▶│  przetwarza      │────▶│  Pseudonimy │
│             │     │  kacja           │     │              │     │  tylko pseudonimy │     │  → dane     │
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
                           │                        │                                            │
                           ▼                        ▼                                            ▼
                    ┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
                    │  Decision    │         │  Tabela      │                              │  Wynik       │
                    │  Layer:      │         │  mapowania   │◀─────────────────────────────│  z prawdzi-  │
                    │  Co jest     │         │  (pozostaje  │   Odwrotne mapowanie         │  wymi danymi │
                    │  anonimiz.   │         │  lokalnie)   │                              └──────────────┘
                    └──────────────┘         └──────────────┘

Kroki decyzyjne w procesie PII

Mikro-decyzja Kto decyduje Dlaczego
Zdefiniować kategorie PIICzłowiek + Zestaw regułWymagania RODO, porozumienie zakładowe, reguły klienta
Wykryć PII w dokumencieAI (NER + wzorce)Named Entity Recognition + wzorce regułowe
Zweryfikować fałszywe pozytywyAI, przy niepewności CzłowiekConfidence Routing - "Kowalski" jako nazwisko czy firma?
Przypisać pseudonimyAutomatycznieSpójne mapowanie, "Osoba_A" zamiast "Jan Kowalski"
Wysłać pseudonimizowany dokument do modeluAutomatycznieBrak decyzji, czyste przekazanie
Re-anonimizować wynikAutomatycznieOdwrotne zastosowanie tabeli mapowania
Audyt: co zostało zanonimizowaneAutomatycznieDowód RODO w Audit Trail

Tabela mapowania (pseudonim → prawdziwe dane) nigdy nie opuszcza warstwy pre-processingu. Jest usuwana po zakończeniu przetwarzania - lub przechowywana przez zdefiniowany okres, w zależności od konfiguracji. Model językowy w żadnym momencie nie widzi danych osobowych.

Zaciemnianie Umów: Na Podstawie Reguł, Zależne od Odbiorcy, Fizyczne

Umowy regularnie muszą być udostępniane w zaciemnionej formie - biegłym rewidentom, potencjalnym nabywcom przy due diligence, Radzie Zakładowej, zewnętrznym doradcom. Dziś robi to ktoś ręcznie. To zajmuje godziny na umowę, jest podatne na błędy, a zaciemnianie jest często tylko kosmetyczne: tekst pozostaje dostępny pod czarnymi paskami. Często niedoceniany wyciek danych.

Rozwiązanie Gosign: Document Agent rozpoznaje strukturę umowy - strony, kwoty, terminy, klauzule, podpisy. Decision Layer definiuje zaciemnianie zależne od odbiorcy:

Element umowy Rada Zakładowa Due Diligence Zewnętrzny doradca Biegły rewident
Strony umowy (nazwiska)✓ Widoczne✗ Zaciemnione✗ Zaciemnione✓ Widoczne
Wartości umowy / kwoty✓ Widoczne✓ Widoczne✗ Zaciemnione✓ Widoczne
Wynagrodzenia✓ WidoczneZagregowane✗ Zaciemnione✓ Widoczne
Klauzule umowne✓ Widoczne✓ WidoczneTylko typy klauzul✓ Widoczne
Tajemnice handlowe✗ Zaciemnione✓ Widoczne✗ Zaciemnione✓ Widoczne
Podpisy✗ Zaciemnione✗ Zaciemnione✗ Zaciemnione✓ Widoczne

Reguły zaciemniania są wersjonowane w Decision Layer. Gdy wymagania się zmieniają - nowy krąg odbiorców, zaktualizowane porozumienie zakładowe, zmieniona reguła compliance - powstaje nowa wersja reguł. Poprzednia wersja pozostaje identyfikowalna.

Fizyczne zaciemnianie: PDF jest renderowany od nowa. Oryginalne dane nie są fizycznie obecne w dokumencie - ani jako tekst, ani jako metadane, ani jako niewidoczna warstwa. Żadne kopiuj-wklej pod czarnymi paskami, żadne edytowanie PDF aby odsłonić treść. To nie jest kosmetyka - jest to kryptograficznie bezpieczne.

Rozpoznawanie Podpisów: Znajdź, Zweryfikuj, Udokumentuj

Zarządzanie umowami, przygotowanie do audytu, przegląd compliance - wszędzie wymaga się regularnej weryfikacji: Czy dokument jest podpisany? Gdzie jest podpis? Czy brakuje kontrasygnaty? Przy 5000 umów w archiwum ręczne sprawdzanie nie jest wykonalne.

Wykrywanie podpisów

Document Agent wykrywa pola podpisów i obecne podpisy w zeskanowanych dokumentach i PDF-ach. Computer Vision, nie model językowy - wyspecjalizowane modele ML do analizy obrazu. Wynik jest ustrukturyzowany: strona, pozycja, konfidencja że podpis jest obecny.

Masowa weryfikacja archiwum: "W których z 5000 umów brakuje kontrasygnaty?" - wynik w minutach zamiast tygodni.

Kontrola jakości onboardingu: "Czy wszystkie obowiązkowe dokumenty nowego pracownika są podpisane?" - automatyczna checklista, brakujące podpisy eskalowane jako zadania workflow.

Przygotowanie do audytu: "Pokaż wszystkie dokumenty bez podpisu z Q3 2025." - ustrukturyzowana lista eksportowa dla biegłego rewidenta.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Dokument   │     │  Wykrywanie      │     │  Porównanie      │
│  z pod-     │────▶│  podpisu         │────▶│  z podpisem      │
│  pisem      │     │  (pozycja,       │     │  referencyjnym   │
│             │     │   konfidencja)   │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
                                                      │
                                          ┌───────────┼───────────┐
                                          ▼           ▼           ▼
                                   ┌────────────┐ ┌────────┐ ┌────────────┐
                                   │  Wysoka    │ │Średnia │ │  Niska     │
                                   │  zgodność  │ │zgodność│ │  zgodność  │
                                   └────────────┘ └────────┘ └────────────┘
                                        │              │           │
                                        ▼              ▼           ▼
                                   Automatycznie  Eskalacja   Blokada
                                   zaakcep-       do czło-    Weryfikacja
                                   towane,        wieka z     przez
                                   udoku-         widokiem    człowieka
                                   mentowane      porównaw.   obowiązkowa

Ważne: Porównanie podpisów to detektor anomalii, nie detektor fałszerstw. Podpisy naturalnie się różnią - zależy od dnia, długopisu i podłoża. System identyfikuje anomalie i eskaluje je do człowieka. Nigdy nie twierdzi "ten podpis jest sfałszowany" lub "ten podpis jest autentyczny". To byłoby nieodpowiedzialne.

Decision Layer: Kto Decyduje o Czym

Każda capability ma własny Decision Layer z zdefiniowanymi punktami decyzyjnymi.

Capability Decyzja Decyduje Dlaczego
PIIKtóre kategorie PII rozpoznawać?CzłowiekDecyzja organizacyjna, art. 4 RODO, porozumienie zakładowe
PIICzy "Müller" to nazwisko czy firma?AI, przy <80% konfidencji: CzłowiekAmbiguiczność NER - unikanie fałszywych pozytywów
PIIWybrać metodę pseudonimizacjiZestaw regułSpójne pseudonimy vs. wartości losowe
ZaciemnianieJaki krąg odbiorców?CzłowiekDecyzja fachowa, nie automatyzowalna
ZaciemnianieKtóre pola są zaciemniane?Zestaw regułMatryca zaciemniania zależna od odbiorcy
ZaciemnianieRozpoznano nieznany typ klauzuliCzłowiekNowe typy klauzul muszą być sklasyfikowane
PodpisPodpis obecny?AIComputer Vision z wartością konfidencji
PodpisPodpis zgodny z referencją?AI + Człowiek przy anomaliiWysoka zgodność: zaakceptowany. Anomalia: eskalowany
PodpisBrak referencjiCzłowiekNowy podpis referencyjny musi być zarejestrowany
WszystkieDokumentuj Audit TrailAutomatycznieKażda decyzja niezmiennie protokołowana

Integracja

Document Intelligence to capability istniejącego Document Agent - nie osobne oprogramowanie. Integracja przez te same interfejsy:

  • SAP DMS, SAP ArchiveLink - umowy i dokumenty z archiwów SAP
  • SharePoint, OneDrive - zarządzanie dokumentami via Microsoft Graph
  • Skrzynki e-mail (IMAP/Exchange) - załączniki przetwarzane automatycznie
  • File System Watcher - monitorowanie lokalnych katalogów
  • REST API - dla niestandardowych systemów DMS

Business Impact

Przetwarzanie LLM zgodne z RODO: Dokumenty z danymi osobowymi mogą być po raz pierwszy bezpiecznie przetwarzane modelami językowymi - bez ryzyka ochrony danych.

Zaciemnianie umów w minutach zamiast godzin: Na podstawie reguł, zależne od odbiorcy, fizycznie bezpieczne.

Proaktywne wykrywanie luk w podpisach: Brakujące podpisy wykrywane zanim audytor zapyta.

Dowód audytu ochrony danych: Audit Trail dokumentuje każdą anonimizację, każde zaciemnienie, każdą weryfikację podpisu.

Żadne nowe narzędzie: Document Intelligence to część istniejącej architektury agentowej. Bez dodatkowego dostawcy, bez dodatkowej licencji.

Często Zadawane Pytania o Document Intelligence

Jaka jest różnica między anonimizacją a pseudonimizacją?

Anonimizacja nieodwracalnie usuwa dane osobowe - przypisanie do osoby nie jest już możliwe. Pseudonimizacja zastępuje dane pseudonimami, przypisanie pozostaje możliwe przez osobną tabelę. Do przetwarzania LLM stosujemy pseudonimizację z następczą re-anonimizacją: model widzi tylko pseudonimy, wynik zawiera ponownie prawdziwe dane.

Czy rozpoznawanie PII działa dla zeskanowanych dokumentów?

Tak. Zeskanowane dokumenty są najpierw konwertowane na tekst maszynowy przez OCR. Następnie tekst przechodzi to samo rozpoznawanie PII co dokumenty cyfrowe. Dokładność rozpoznawania zależy od jakości skanu - przy standardowych skanach (300 DPI) dokładność OCR przekracza 99%.

Czy zaciemnianie umów jest naprawdę bezpieczne?

Tak. W odróżnieniu od ręcznego zaciemniania w edytorach PDF, dokument jest fizycznie renderowany od nowa. Zaciemnione treści nie są już w dokumencie - ani jako tekst, ani jako metadane, ani jako niewidoczne warstwy. Jest to kryptograficznie weryfikowalne.

Czy porównanie podpisów wykrywa fałszerstwa?

Porównanie podpisów wykrywa anomalie - odchylenia od podpisu referencyjnego. Przy nieprawidłowościach następuje automatyczna eskalacja do człowieka. System nigdy nie twierdzi, że podpis jest sfałszowany lub autentyczny. Tę decyzję podejmuje człowiek.

Które dokumenty wymagają bezpiecznego przetwarzania?

Anonimizacja PII, zaciemnianie umów lub rozpoznawanie podpisów - zaczynamy od konkretnego typu dokumentu.

Umów spotkanie