Czym jest wykrywanie PII?
Wykrywanie PII skanuje pola tekstowe pod kątem danych osobowych przy użyciu konfigurowalnych wzorców regex. Odpowiada na trzy pytania dotyczące Twoich danych Salesforce:
- Czy moje dane zawierają PII wymagające ochrony?
- Jak bardzo narażony jest mój zbiór danych?
- Które pola przechowują informacje wrażliwe?
DQS profiluje typ i gęstość ekspozycji PII w każdym polu tekstowym. Używa detekcji opartej na wzorcach: wzorce regex są dopasowywane do wartości pól, aby oznaczyć numery SSN, karty kredytowe, adresy email, numery telefonów i inne identyfikatory.
Trzy właściwości definiują sposób działania detekcji:
- Deterministyczność. Te same dane wejściowe dają zawsze ten sam wynik.
- Transparentność. Widzisz każdy wzorzec, który DQS stosuje. Żadnego czarnego pudełka.
- Na platformie. Detekcja działa w całości wewnątrz Salesforce. Żadne dane nie opuszczają Twojej organizacji.
Dlaczego to ma znaczenie
Zgodność. GDPR, CCPA, HIPAA i PCI DSS – wszystkie wymagają identyfikacji i ochrony PII. Nie można chronić tego, czego się nie znalazło. Automatyczna detekcja daje Ci inwentarz ekspozycji w każdym analizowanym polu tekstowym.
Gotowość na AI. Zanim przekażesz dane do Agentforce lub jakiegokolwiek systemu AI, musisz wiedzieć, które pola zawierają PII. Niewykryte PII w danych treningowych lub indeksach wyszukiwania tworzy ekspozycję, której żaden filtr dalszego etapu nie jest w stanie w pełni zapobiec.
Zarządzanie danymi. Pola tekstowe gromadzą PII z czasem. Agenci wklejają wątki email do komentarzy w Case. Klienci podają numery SSN do weryfikacji. Integracje zapisują dane kontaktowe w polach opisu. Bez detekcji takie PII pozostaje bez ochrony.
Jak DQS wykrywa PII
DQS uruchamia wykrywanie PII jako progresywną diagnostykę. Każdy krok opiera się na poprzednim.
Krok 1: Czy jest problem z PII?
Records with PII podaje bezwzględną liczbę rekordów, w których dopasowano co najmniej jeden wzorzec. To liczba określająca zakres problemu.
Na przykład: skanujesz komentarze Case przy użyciu presetu Standard. Records with PII wraca z wynikiem 847. Oznacza to, że 847 rekordów Case wymaga przeglądu, zanim będzie można bezpiecznie użyć ich do trenowania AI lub udostępnić zewnętrznej analityce.
Krok 2: Jak bardzo jest źle?
PII Exposure Rate podaje odsetek przeskanowanych rekordów zawierających dopasowania wzorców. Wskaźnik osadza liczbę w kontekście.
847 rekordów z 1000 to 84,7% ekspozycji – systemowy problem wymagający zmiany procesu. 847 z 500 000 to 0,17% – pojedyncze incydenty, które można załatwić ukierunkowanym czyszczeniem.
Krok 3: Jaki rodzaj PII?
Sama konfiguracja wzorców mówi Ci, jakie typy były skanowane. Każdy wzorzec ma kategorię: Financial, Contact, Technical lub Identity. Przeglądając, które wzorce uruchomiły dopasowania, wiesz, czy masz do czynienia z wyciekami kart kredytowych, ekspozycją adresów email czy skażeniem SSN.
8 wzorców wykrywania
DQS jest dostarczany z 8 predefiniowanymi wzorcami regex zorganizowanymi w 4 kategoriach.
Financial
| Wzorzec | Co dopasowuje | Ryzyko fałszywych trafień |
|---|---|---|
| Social Security Number | US SSN w formacie NNN-NN-NNNN | Niskie. Format z myślnikami jest charakterystyczny. |
| Credit Card Number | Sekwencje 13–16 cyfr z opcjonalnymi spacjami/myślnikami | Średnie. Długie sekwencje numeryczne (numery zamówień, ID przesyłek) mogą dawać fałszywe dopasowania. |
| IBAN | Międzynarodowe numery kont bankowych (format ISO 13616) | Niskie. Kod kraju + cyfry kontrolne to charakterystyczny prefiks. |
Contact
| Wzorzec | Co dopasowuje | Ryzyko fałszywych trafień |
|---|---|---|
| Email Address | Standardowy format user@domain.tld | Niskie. Struktura ze znakiem @ jest charakterystyczna. |
| US Phone Number | Formaty US/kanadyjskie: (NNN) NNN-NNNN, NNN-NNN-NNNN, warianty +1 | Średnie. 10-cyfrowe numery z separatorami mogą dopasowywać dane niebędące telefonami. |
| International Phone | Numery w stylu E.164 zaczynające się od + i kodu kraju | Niskie. Prefiks + jest silnym sygnałem. |
Technical
| Wzorzec | Co dopasowuje | Ryzyko fałszywych trafień |
|---|---|---|
| IP Address | IPv4 w notacji dziesiętnej z kropkami (NNN.NNN.NNN.NNN) | Niskie-średnie. Głównym źródłem fałszywych trafień są numery wersji oprogramowania. |
Identity
| Wzorzec | Co dopasowuje | Ryzyko fałszywych trafień |
|---|---|---|
| Date of Birth | Format daty US MM/DD/YYYY lub MM-DD-YYYY | Wysokie. Dopasowuje dowolną datę w formacie US. Najlepiej w połączeniu z targetowaniem na poziomie pola. |
DQS używa wyłącznie dopasowania wzorców regex. Detekcja jest oparta na formacie, nie na kontekście. Nie ma walidacji sum kontrolnych (Luhn dla kart kredytowych, modulo-97 dla IBAN), nie ma wzmocnienia na podstawie bliskości słów kluczowych ani oceny pewności opartej na ML. Każde dopasowanie jest binarne: wzorzec dopasował się lub nie. Sprawia to, że detekcja jest w pełni audytowalna i deterministyczna, ale wymaga przeglądu dopasowań w polach o wysokim ryzyku fałszywych trafień.
Pokrycie regulacyjne
Wszystkie 8 wzorców jest zakorzenionych w głównych ramach prawnych dotyczących prywatności i bezpieczeństwa.
| Wzorzec | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
Są to te same typy identyfikatorów wykrywane jako wbudowane wzorce przez Google Cloud DLP, AWS Macie i Microsoft Purview. Różnica: chmurowe narzędzia DLP używają wielowarstwowej detekcji (regex + sumy kontrolne + bliskość słów kluczowych + ML). DQS używa wyłącznie dopasowania regex, co jest prostsze i w pełni transparentne, ale nie zapewnia oceny pewności.
Trzy presety detekcji
Presety konfigurują, które wzorce są aktywne, jednym kliknięciem.
| Preset | Wzorce | Liczba | Kiedy używać |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | Ogólny audyt PII. Obejmuje cztery najczęstsze typy z akceptowalnym poziomem fałszywych trafień. To wartość domyślna. |
| Critical | SSN, Credit Card | 2 | Sprawdzenie zgodności finansowej. Minimalny skan pod kątem kradzieży tożsamości i ekspozycji kart płatniczych. Używaj, gdy potrzebujesz szybkich wyników z niemal zerowymi fałszywymi trafieniami. |
| Extended | Wszystkie 8 wzorców | 8 | Pełny skan. Obejmuje IBAN, IP Address, Date of Birth i International Phone. Wyższy poziom fałszywych trafień w zamian za maksymalne pokrycie. Najlepszy do pierwszych audytów i ocen zgodności. |
Możesz również dodawać własne wzorce regex poza 8 predefiniowanymi. Własne wzorce są walidowane po stronie serwera przed zapisaniem. Każdy prawidłowy regex działa.
Słownik metryk
Metryki fundamentalne
| Metryka | Typ | Co zwraca |
|---|---|---|
| Records with PII | Liczba (integer) | Liczba rekordów, w których dopasowano co najmniej jeden wzorzec. Rekord jest liczony raz, niezależnie od tego, ile wzorców się dopasowało lub ile jest w nim dopasowań. |
Metryki zaawansowane
| Metryka | Typ | Co zwraca |
|---|---|---|
| PII Exposure Rate | Procent | Odsetek przeskanowanych rekordów zawierających dopasowania PII. To główna liczba ekspozycji dla raportów i dashboardów. |
Pokrycie typów pól
| Metryka | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PII zarzuca szeroką sieć na wszystkie typy pól tekstowych. PII Exposure Rate skupia się na dłuższych polach tekstowych, gdzie gęstość PII jest istotna. Pole String o długości 255 znaków dopasowujące regex email to pojedynczy punkt danych. Pole LongTextArea o długości 32 000 znaków z 15 dopasowaniami SSN opowiada inną historię.
Dwa tryby analizy
DQS uruchamia wykrywanie PII w dwóch trybach.
PII Scan przetwarza wszystkie wybrane pola przy użyciu skonfigurowanych wzorców i zwraca Records with PII. Ten tryb odpowiada na pytanie: „Czy mam problem z PII?”. Używaj go do szybkich audytów przed migracjami danych lub projektami AI.
PII Detection Analysis dodaje PII Exposure Rate do Records with PII. Wskaźnik ekspozycji nadaje kontekst surowej liczbie, zmieniając „847 rekordów zawiera PII” w „12,3% Twojego zbioru danych jest narażone”. Używaj tego trybu do raportowania zgodności i bieżącego zarządzania.
Konfiguracja wykrywania PII
| Wejście | Co kontroluje |
|---|---|
| Detection Patterns | Które z 8 predefiniowanych wzorców są aktywne. Wybierz preset lub przełączaj pojedyncze wzorce. |
| Custom Patterns | Dowolny prawidłowy wzorzec regex, walidowany po stronie serwera. Dodawany obok wzorców predefiniowanych. |
| Per-Field Overrides | Różne zestawy wzorców dla różnych pól. Nadpisz konfigurację globalną dla poszczególnych pól. |
Dobieranie wzorców według typu pola
Różne pola wymagają różnych zestawów wzorców. Pole Email z założenia zawiera adresy email. Skanowanie go pod kątem wzorców email daje 100% dopasowań, co jest oczekiwane, a nie problemem. Pole Case Description to swobodny tekst, w którym może pojawić się dowolny typ PII. Konfiguruj wzorce w oparciu o to, czego się spodziewasz, a co sygnalizuje problem.
Przykładowe konfiguracje:
- Pola Email: Skanuj tylko pod kątem SSN i Credit Card (dopasowania email są oczekiwane)
- Pola Description i Notes: Użyj presetu Standard lub Extended (swobodny tekst może zawierać wszystko)
- Krótkie pola tekstowe (Subject, Title): Używaj tylko presetu Critical (niska tolerancja dla fałszywych trafień)
Typowe problemy
| Problem | Przyczyna | Rozwiązanie |
|---|---|---|
| 100% dopasowań PII na polu Email | Wzorzec email dopasowuje zamierzoną zawartość pola | Usuń wzorzec email z nadpisania dla tego pola lub wyklucz pole ze skanowania PII |
| Dużo fałszywych trafień dla Date of Birth | Wzorzec DOB dopasowuje dowolną datę w formacie US (daty spotkań, terminy) | Użyj nadpisań na poziomie pola, aby stosować wzorzec DOB tylko w polach, gdzie daty urodzenia są znanym ryzykiem |
| Brak dopasowań mimo znanego PII | Wzorzec SSN dopasowuje tylko format z myślnikami (NNN-NN-NNNN), nie 9 kolejnych cyfr | Dodaj własny wzorzec dla konkretnego formatu w Twoich danych. Przykład: \b\d{9}\b dla niesformatowanych SSN (wysokie ryzyko fałszywych trafień) |
Najlepsze praktyki
-
Zacznij od presetu Standard na polach tekstu swobodnego. Wykonaj wstępny skan, aby zrozumieć swoją wartość bazową, zanim rozszerzysz się do Extended.
-
Używaj nadpisań na poziomie pola do dostrajania detekcji dla każdego pola. Wzorce globalne zarzucają szeroką sieć. Nadpisania per pole eliminują szum.
-
Najpierw skanuj niestrukturalne pola tekstowe. Pola Description, Comments i Notes to miejsca, gdzie PII gromadzi się przez kopiuj-wklej i email-to-case. Pola strukturalne (Email, Phone) zawierają PII z założenia.
-
Przeglądaj dopasowania dla wzorców o wysokim FP (DOB) przed uznaniem ich za potwierdzone PII. Te wzorce dają więcej fałszywych trafień niż SSN czy Email.
-
Łącz Records with PII (liczba bezwzględna) z PII Exposure Rate (procent), aby uzyskać pełny obraz. Liczba określa skalę działań naprawczych. Wskaźnik mówi Ci, czy to systemowy problem, czy pojedyncze incydenty.
Dalsze kroki
- Przygotowanie do Agentforce: Pełna lista kontrolna wdrożenia
- Przygotowanie do Agentforce: Kompletny przewodnik gotowości do wdrożenia