Wykrywanie PII | DQS Resources

Czym jest wykrywanie PII?

Wykrywanie PII skanuje pola tekstowe pod kątem danych osobowych przy użyciu konfigurowalnych wzorców regex. Odpowiada na trzy pytania dotyczące Twoich danych Salesforce:

Czy moje dane zawierają PII wymagające ochrony?
Jak bardzo narażony jest mój zbiór danych?
Które pola przechowują informacje wrażliwe?

DQS profiluje typ i gęstość ekspozycji PII w każdym polu tekstowym. Używa detekcji opartej na wzorcach: wzorce regex są dopasowywane do wartości pól, aby oznaczyć numery SSN, karty kredytowe, adresy email, numery telefonów i inne identyfikatory.

Trzy właściwości definiują sposób działania detekcji:

Deterministyczność. Te same dane wejściowe dają zawsze ten sam wynik.
Transparentność. Widzisz każdy wzorzec, który DQS stosuje. Żadnego czarnego pudełka.
Na platformie. Detekcja działa w całości wewnątrz Salesforce. Żadne dane nie opuszczają Twojej organizacji.

Dlaczego to ma znaczenie

Zgodność. GDPR, CCPA, HIPAA i PCI DSS – wszystkie wymagają identyfikacji i ochrony PII. Nie można chronić tego, czego się nie znalazło. Automatyczna detekcja daje Ci inwentarz ekspozycji w każdym analizowanym polu tekstowym.

Gotowość na AI. Zanim przekażesz dane do Agentforce lub jakiegokolwiek systemu AI, musisz wiedzieć, które pola zawierają PII. Niewykryte PII w danych treningowych lub indeksach wyszukiwania tworzy ekspozycję, której żaden filtr dalszego etapu nie jest w stanie w pełni zapobiec.

Zarządzanie danymi. Pola tekstowe gromadzą PII z czasem. Agenci wklejają wątki email do komentarzy w Case. Klienci podają numery SSN do weryfikacji. Integracje zapisują dane kontaktowe w polach opisu. Bez detekcji takie PII pozostaje bez ochrony.

Jak DQS wykrywa PII

DQS uruchamia wykrywanie PII jako progresywną diagnostykę. Każdy krok opiera się na poprzednim.

Krok 1: Czy jest problem z PII?

Records with PII podaje bezwzględną liczbę rekordów, w których dopasowano co najmniej jeden wzorzec. To liczba określająca zakres problemu.

Na przykład: skanujesz komentarze Case przy użyciu presetu Standard. Records with PII wraca z wynikiem 847. Oznacza to, że 847 rekordów Case wymaga przeglądu, zanim będzie można bezpiecznie użyć ich do trenowania AI lub udostępnić zewnętrznej analityce.

Krok 2: Jak bardzo jest źle?

PII Exposure Rate podaje odsetek przeskanowanych rekordów zawierających dopasowania wzorców. Wskaźnik osadza liczbę w kontekście.

847 rekordów z 1000 to 84,7% ekspozycji – systemowy problem wymagający zmiany procesu. 847 z 500 000 to 0,17% – pojedyncze incydenty, które można załatwić ukierunkowanym czyszczeniem.

Krok 3: Jaki rodzaj PII?

Sama konfiguracja wzorców mówi Ci, jakie typy były skanowane. Każdy wzorzec ma kategorię: Financial, Contact, Technical lub Identity. Przeglądając, które wzorce uruchomiły dopasowania, wiesz, czy masz do czynienia z wyciekami kart kredytowych, ekspozycją adresów email czy skażeniem SSN.

8 wzorców wykrywania

DQS jest dostarczany z 8 predefiniowanymi wzorcami regex zorganizowanymi w 4 kategoriach.

Financial

Wzorzec	Co dopasowuje	Ryzyko fałszywych trafień
Social Security Number	US SSN w formacie NNN-NN-NNNN	Niskie. Format z myślnikami jest charakterystyczny.
Credit Card Number	Sekwencje 13–16 cyfr z opcjonalnymi spacjami/myślnikami	Średnie. Długie sekwencje numeryczne (numery zamówień, ID przesyłek) mogą dawać fałszywe dopasowania.
IBAN	Międzynarodowe numery kont bankowych (format ISO 13616)	Niskie. Kod kraju + cyfry kontrolne to charakterystyczny prefiks.

Contact

Wzorzec	Co dopasowuje	Ryzyko fałszywych trafień
Email Address	Standardowy format user@domain.tld	Niskie. Struktura ze znakiem @ jest charakterystyczna.
US Phone Number	Formaty US/kanadyjskie: (NNN) NNN-NNNN, NNN-NNN-NNNN, warianty +1	Średnie. 10-cyfrowe numery z separatorami mogą dopasowywać dane niebędące telefonami.
International Phone	Numery w stylu E.164 zaczynające się od + i kodu kraju	Niskie. Prefiks + jest silnym sygnałem.

Technical

Wzorzec	Co dopasowuje	Ryzyko fałszywych trafień
IP Address	IPv4 w notacji dziesiętnej z kropkami (NNN.NNN.NNN.NNN)	Niskie-średnie. Głównym źródłem fałszywych trafień są numery wersji oprogramowania.

Identity

Wzorzec	Co dopasowuje	Ryzyko fałszywych trafień
Date of Birth	Format daty US MM/DD/YYYY lub MM-DD-YYYY	Wysokie. Dopasowuje dowolną datę w formacie US. Najlepiej w połączeniu z targetowaniem na poziomie pola.

DQS używa wyłącznie dopasowania wzorców regex. Detekcja jest oparta na formacie, nie na kontekście. Nie ma walidacji sum kontrolnych (Luhn dla kart kredytowych, modulo-97 dla IBAN), nie ma wzmocnienia na podstawie bliskości słów kluczowych ani oceny pewności opartej na ML. Każde dopasowanie jest binarne: wzorzec dopasował się lub nie. Sprawia to, że detekcja jest w pełni audytowalna i deterministyczna, ale wymaga przeglądu dopasowań w polach o wysokim ryzyku fałszywych trafień.

Pokrycie regulacyjne

Wszystkie 8 wzorców jest zakorzenionych w głównych ramach prawnych dotyczących prywatności i bezpieczeństwa.

Wzorzec	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
Credit Card	X	X	X	X		X
Email	X	X	X		X	X
US Phone		X	X		X	X
Intl Phone		X	X		X	X
IP Address		X	X		X	X
IBAN		X				X
Date of Birth	X	X	X		X	X

Są to te same typy identyfikatorów wykrywane jako wbudowane wzorce przez Google Cloud DLP, AWS Macie i Microsoft Purview. Różnica: chmurowe narzędzia DLP używają wielowarstwowej detekcji (regex + sumy kontrolne + bliskość słów kluczowych + ML). DQS używa wyłącznie dopasowania regex, co jest prostsze i w pełni transparentne, ale nie zapewnia oceny pewności.

Trzy presety detekcji

Presety konfigurują, które wzorce są aktywne, jednym kliknięciem.

Preset	Wzorce	Liczba	Kiedy używać
Standard	SSN, Credit Card, Email, US Phone	4	Ogólny audyt PII. Obejmuje cztery najczęstsze typy z akceptowalnym poziomem fałszywych trafień. To wartość domyślna.
Critical	SSN, Credit Card	2	Sprawdzenie zgodności finansowej. Minimalny skan pod kątem kradzieży tożsamości i ekspozycji kart płatniczych. Używaj, gdy potrzebujesz szybkich wyników z niemal zerowymi fałszywymi trafieniami.
Extended	Wszystkie 8 wzorców	8	Pełny skan. Obejmuje IBAN, IP Address, Date of Birth i International Phone. Wyższy poziom fałszywych trafień w zamian za maksymalne pokrycie. Najlepszy do pierwszych audytów i ocen zgodności.

Możesz również dodawać własne wzorce regex poza 8 predefiniowanymi. Własne wzorce są walidowane po stronie serwera przed zapisaniem. Każdy prawidłowy regex działa.

Słownik metryk

Metryki fundamentalne

Metryka	Typ	Co zwraca
Records with PII	Liczba (integer)	Liczba rekordów, w których dopasowano co najmniej jeden wzorzec. Rekord jest liczony raz, niezależnie od tego, ile wzorców się dopasowało lub ile jest w nim dopasowań.

Metryki zaawansowane

Metryka	Typ	Co zwraca
PII Exposure Rate	Procent	Odsetek przeskanowanych rekordów zawierających dopasowania PII. To główna liczba ekspozycji dla raportów i dashboardów.

Pokrycie typów pól

Metryka	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
Records with PII	X	X	X	X	X
PII Exposure Rate		X				X	X

Records with PII zarzuca szeroką sieć na wszystkie typy pól tekstowych. PII Exposure Rate skupia się na dłuższych polach tekstowych, gdzie gęstość PII jest istotna. Pole String o długości 255 znaków dopasowujące regex email to pojedynczy punkt danych. Pole LongTextArea o długości 32 000 znaków z 15 dopasowaniami SSN opowiada inną historię.

Dwa tryby analizy

DQS uruchamia wykrywanie PII w dwóch trybach.

PII Scan przetwarza wszystkie wybrane pola przy użyciu skonfigurowanych wzorców i zwraca Records with PII. Ten tryb odpowiada na pytanie: „Czy mam problem z PII?”. Używaj go do szybkich audytów przed migracjami danych lub projektami AI.

PII Detection Analysis dodaje PII Exposure Rate do Records with PII. Wskaźnik ekspozycji nadaje kontekst surowej liczbie, zmieniając „847 rekordów zawiera PII” w „12,3% Twojego zbioru danych jest narażone”. Używaj tego trybu do raportowania zgodności i bieżącego zarządzania.

Konfiguracja wykrywania PII

Wejście	Co kontroluje
Detection Patterns	Które z 8 predefiniowanych wzorców są aktywne. Wybierz preset lub przełączaj pojedyncze wzorce.
Custom Patterns	Dowolny prawidłowy wzorzec regex, walidowany po stronie serwera. Dodawany obok wzorców predefiniowanych.
Per-Field Overrides	Różne zestawy wzorców dla różnych pól. Nadpisz konfigurację globalną dla poszczególnych pól.

Dobieranie wzorców według typu pola

Różne pola wymagają różnych zestawów wzorców. Pole Email z założenia zawiera adresy email. Skanowanie go pod kątem wzorców email daje 100% dopasowań, co jest oczekiwane, a nie problemem. Pole Case Description to swobodny tekst, w którym może pojawić się dowolny typ PII. Konfiguruj wzorce w oparciu o to, czego się spodziewasz, a co sygnalizuje problem.

Przykładowe konfiguracje:

Pola Email: Skanuj tylko pod kątem SSN i Credit Card (dopasowania email są oczekiwane)
Pola Description i Notes: Użyj presetu Standard lub Extended (swobodny tekst może zawierać wszystko)
Krótkie pola tekstowe (Subject, Title): Używaj tylko presetu Critical (niska tolerancja dla fałszywych trafień)

Typowe problemy

Problem	Przyczyna	Rozwiązanie
100% dopasowań PII na polu Email	Wzorzec email dopasowuje zamierzoną zawartość pola	Usuń wzorzec email z nadpisania dla tego pola lub wyklucz pole ze skanowania PII
Dużo fałszywych trafień dla Date of Birth	Wzorzec DOB dopasowuje dowolną datę w formacie US (daty spotkań, terminy)	Użyj nadpisań na poziomie pola, aby stosować wzorzec DOB tylko w polach, gdzie daty urodzenia są znanym ryzykiem
Brak dopasowań mimo znanego PII	Wzorzec SSN dopasowuje tylko format z myślnikami (NNN-NN-NNNN), nie 9 kolejnych cyfr	Dodaj własny wzorzec dla konkretnego formatu w Twoich danych. Przykład: `\b\d{9}\b` dla niesformatowanych SSN (wysokie ryzyko fałszywych trafień)

Najlepsze praktyki

Zacznij od presetu Standard na polach tekstu swobodnego. Wykonaj wstępny skan, aby zrozumieć swoją wartość bazową, zanim rozszerzysz się do Extended.
Używaj nadpisań na poziomie pola do dostrajania detekcji dla każdego pola. Wzorce globalne zarzucają szeroką sieć. Nadpisania per pole eliminują szum.
Najpierw skanuj niestrukturalne pola tekstowe. Pola Description, Comments i Notes to miejsca, gdzie PII gromadzi się przez kopiuj-wklej i email-to-case. Pola strukturalne (Email, Phone) zawierają PII z założenia.
Przeglądaj dopasowania dla wzorców o wysokim FP (DOB) przed uznaniem ich za potwierdzone PII. Te wzorce dają więcej fałszywych trafień niż SSN czy Email.
Łącz Records with PII (liczba bezwzględna) z PII Exposure Rate (procent), aby uzyskać pełny obraz. Liczba określa skalę działań naprawczych. Wskaźnik mówi Ci, czy to systemowy problem, czy pojedyncze incydenty.

Dalsze kroki

Przygotowanie do Agentforce: Pełna lista kontrolna wdrożenia
Przygotowanie do Agentforce: Kompletny przewodnik gotowości do wdrożenia