Wat is PII-detectie?
PII-detectie scant tekstvelden op persoonlijk identificeerbare informatie met behulp van configureerbare regex-patronen. Het beantwoordt drie vragen over uw Salesforce-data:
- Bevat mijn data PII die bescherming nodig heeft?
- Hoe blootgesteld is mijn dataset?
- Welke velden bevatten gevoelige informatie?
DQS profileert het type en de dichtheid van PII-blootstelling over elk tekstveld heen. Het gebruikt op patronen gebaseerde detectie: regex-patronen worden vergeleken met veldwaarden om BSN’s, creditcards, e-mails, telefoonnummers en andere identificatoren te markeren.
Drie eigenschappen definiëren hoe detectie werkt:
- Deterministisch. Dezelfde invoer produceert elke keer hetzelfde resultaat.
- Transparant. U ziet elk patroon dat DQS toepast. Geen black-box scoring.
- Op-platform. Detectie verloopt volledig binnen Salesforce. Geen data verlaat uw org.
Waarom het belangrijk is
Compliance. GDPR, CCPA, HIPAA en PCI DSS verplichten allemaal het identificeren en beschermen van PII. U kunt niet beschermen wat u niet heeft gevonden. Geautomatiseerde detectie geeft u een inventaris van blootstelling over elk tekstveld in het bereik.
AI-gereedheid. Voordat u data voedt aan Agentforce of enig AI-systeem, moet u weten welke velden PII bevatten. Ongedetecteerde PII in trainingsdata of ophaalindexen creëert blootstelling die geen downstream filter volledig kan voorkomen.
Data-governance. Tekstvelden accumuleren PII in de loop van de tijd. Agenten plakken e-mailthreads in case-opmerkingen. Klanten geven BSN’s voor verificatie. Integraties schrijven contactgegevens naar beschrijvingsvelden. Zonder detectie zit deze PII onbeschermd.
Hoe DQS PII detecteert
DQS voert PII-detectie uit als een progressieve diagnose. Elke stap bouwt voort op de vorige.
Stap 1: Is er een PII-probleem?
Records met PII geeft het absolute aantal records waarbij ten minste één patroon overeenkomt. Dit is het bepalingsgetal.
Uw scant u bijvoorbeeld Case-opmerkingen met de Standaard-voorinstelling. Records met PII geeft 847 terug. Dat betekent dat 847 case-records moeten worden beoordeeld voordat u de data veilig kunt gebruiken voor AI-training of kunt delen met derde-partij-analyses.
Stap 2: Hoe erg is het?
PII-blootstellingspercentage geeft het percentage gescande records met patroonovereenkomsten. Het percentage stelt het aantal in context.
847 records van 1.000 is 84,7% blootstelling, een systemisch probleem dat een proceswijziging vereist. 847 van 500.000 is 0,17%, geïsoleerde incidenten die u kunt aanpakken met gerichte opschoning.
Stap 3: Welk soort PII?
De patroonconfguratie zelf vertelt u welke typen zijn gescand. Elk patroon heeft een categorie: Financieel, Contact, Technisch of Identiteit. Door te beoordelen welke patronen overeenkomsten hebben getriggerd, weet u of u te maken heeft met creditcardlekken, e-mailadresblootstelling of BSN-besmetting.
De 8 detectiepatronen
DQS wordt geleverd met 8 vooraf gedefinieerde regex-patronen georganiseerd in 4 categorieën.
Financieel
| Patroon | Wat het overeenkomt | Risico op valspositief |
|---|---|---|
| Burgerservicenummer | US BSN in NNN-NN-NNNN-formaat | Laag. Het koppeltekensformaat is onderscheidend. |
| Creditcardnummer | 13-16 cijferreeksen met optionele spaties/koppeltekens | Gemiddeld. Lange numerieke reeksen (ordernummers, tracking-ID’s) kunnen vals overeenkomen. |
| IBAN | Internationale bankrekeningnummers (ISO 13616-formaat) | Laag. Het landcode + controlegetal-prefix is onderscheidend. |
Contact
| Patroon | Wat het overeenkomt | Risico op valspositief |
|---|---|---|
| E-mailadres | Standaard gebruiker@domein.tld-formaat | Laag. De @-symboolstructuur is onderscheidend. |
| US-telefoonnummer | US/Canadese formaten: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1-varianten | Gemiddeld. 10-cijferige nummers met scheidingstekens kunnen overeenkomen met niet-telefoondata. |
| Internationaal telefoonnummer | E.164-stijlnummers beginnend met + landcode | Laag. Het +-prefix is een sterk signaal. |
Technisch
| Patroon | Wat het overeenkomt | Risico op valspositief |
|---|---|---|
| IP-adres | IPv4 puntnotatie (NNN.NNN.NNN.NNN) | Laag-gemiddeld. Softwareversienummers zijn de belangrijkste bron van valspostieven. |
Identiteit
| Patroon | Wat het overeenkomt | Risico op valspositief |
|---|---|---|
| Geboortedatum | US-datumformaat MM/DD/JJJJ of MM-DD-JJJJ | Hoog. Komt overeen met elke US-geformatteerde datum. Combineer het het beste met veldniveau-targeting. |
DQS gebruikt alleen regex-patroonherkenning. Detectie is op formaat gebaseerd, niet contextueel. Er is geen checksomvalidatie (Luhn voor creditcards, modulo-97 voor IBAN), geen trefwoordnabijheidsboost en geen ML-gebaseerde vertrouwensscoring. Elke overeenkomst is binair: het patroon kwam overeen of niet. Dit maakt detectie volledig controleerbaar en deterministisch, maar u moet overeenkomsten beoordelen op velden met een hoog valspositief-risico.
Regelgevingsdekking
Alle 8 patronen zijn gebaseerd op belangrijke privacy- en beveiligingsframeworks.
| Patroon | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| BSN | X | X | X | X | X | |
| Creditcard | X | X | X | X | X | |
| X | X | X | X | X | ||
| US-telefoon | X | X | X | X | ||
| Intl. telefoon | X | X | X | X | ||
| IP-adres | X | X | X | X | ||
| IBAN | X | X | ||||
| Geboortedatum | X | X | X | X | X |
Dit zijn dezelfde identificatortypes die worden gedetecteerd als ingebouwde patronen door Google Cloud DLP, AWS Macie en Microsoft Purview. Het verschil: cloud-DLP-tools gebruiken meerlaagse detectie (regex + checksom + trefwoordnabijheid + ML). DQS gebruikt alleen regex-herkenning, wat eenvoudiger en volledig transparant is maar geen vertrouwensscoring biedt.
Drie detectievoorinstellingen
Voorinstellingen configureren welke patronen actief zijn met één klik.
| Voorinstelling | Patronen | Aantal | Wanneer te gebruiken |
|---|---|---|---|
| Standaard | BSN, Creditcard, E-mail, US-telefoon | 4 | Algemene PII-audit. Dekt de vier meest voorkomende typen met beheersbare valspositiefpercentages. Dit is de standaard. |
| Kritiek | BSN, Creditcard | 2 | Financiële compliance-check. Minimale scan voor identiteitsdiefstal en betalingskaartsblootstelling. Gebruik dit wanneer u snelle resultaten wilt met vrijwel nul valspostieven. |
| Uitgebreid | Alle 8 patronen | 8 | Volledige scan. Omvat IBAN, IP-adres, Geboortedatum en Internationaal telefoon. Hoger valspositiefpercentage in ruil voor maximale dekking. Het beste voor eerste audits en compliance-beoordelingen. |
U kunt ook aangepaste regex-patronen toevoegen naast de 8 vooraf gedefinieerde patronen. Aangepaste patronen worden server-side gevalideerd voordat ze kunnen worden opgeslagen. Elke geldige regex werkt.
Statistiekenreferentie
Basisstatistieken
| Statistiek | Type | Wat het retourneert |
|---|---|---|
| Records met PII | Aantal (geheel getal) | Aantal records waarbij ten minste één patroon overeenkomt. Een record wordt één keer geteld ongeacht hoeveel patronen overeenkomt of hoeveel overeenkomsten erin bestaan. |
Geavanceerde statistieken
| Statistiek | Type | Wat het retourneert |
|---|---|---|
| PII-blootstellingspercentage | Percentage | Percentage gescande records met PII-overeenkomsten. Dit is het hoofdblootstellingsgetal voor rapporten en dashboards. |
Veldtype-dekking
| Statistiek | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records met PII | X | X | X | X | X | ||
| PII-blootstellingspercentage | X | X | X |
Records met PII werpt een breed net over alle tekstveldtypen. PII-blootstellingspercentage richt zich op langere tekstvelden waar PII-dichtheid betekenisvol is. Een 255-teken-String-veld dat overeenkomt met een e-mailregex is één datapunt. Een 32.000-teken-LongTextArea met 15 BSN-overeenkomsten vertelt een ander verhaal.
Twee analysemodi
DQS voert PII-detectie uit in twee modi.
PII-scan verwerkt alle geselecteerde velden met de geconfigureerde patronen en retourneert Records met PII. Deze modus beantwoordt: „Heb ik een PII-probleem?” Gebruik het voor snelle audits vóór datamigraties of AI-projecten.
PII-detectieanalyse voegt PII-blootstellingspercentage toe bovenop Records met PII. Het blootstellingspercentage stelt het ruwe aantal in context en verandert „847 records bevatten PII” in „12,3% van uw dataset is blootgesteld.” Gebruik deze modus voor compliancerapportage en voortdurende governance.
PII-detectie configureren
| Invoer | Wat het beheert |
|---|---|
| Detectiepatronen | Welke van de 8 vooraf gedefinieerde patronen actief zijn. Kies een voorinstelling of schakel individuele patronen in. |
| Aangepaste patronen | Elke geldige regex-patroon, server-side gevalideerd. Toegevoegd naast vooraf gedefinieerde patronen. |
| Per-veld-overrides | Verschillende patroononstellingen voor verschillende velden. Overschrijf de globale configuratie op veld-voor-veld-basis. |
Patronen kiezen op veldtype
Verschillende velden hebben verschillende patroononstellingen nodig. Een E-mailveld bevat al e-mailadressen door ontwerp. Het scannen op e-mailpatronen produceert 100% overeenkomsten, wat verwacht is, geen probleem. Een Case Description-veld is vrije tekst waarbij elk PII-type kan voorkomen. Configureer patronen op basis van wat u verwacht te vinden versus wat een probleem signaleert.
Voorbeeldconfiguraties:
- E-mailvelden: Scan alleen op BSN en Creditcard (e-mailovereenkomsten zijn verwacht)
- Beschrijvings- en Notes-velden: Gebruik Standaard- of Uitgebreid-voorinstelling (vrije tekst kan alles bevatten)
- Korte tekstvelden (Subject, Title): Gebruik alleen Kritiek-voorinstelling (lage tolerantie voor valspostieven)
Veelgemaakte problemen
| Probleem | Oorzaak | Oplossing |
|---|---|---|
| 100% PII-overeenkomstpercentage op E-mailveld | E-mailpatroon komt overeen met de beoogde inhoud van het veld | Verwijder het e-mailpatroon uit de override van dat veld, of sluit het veld uit van PII-scanning |
| Hoge valspostieven op Geboortedatum | Het GD-patroon komt overeen met elke US-geformatteerde datum (vergaderdatums, deadlines) | Gebruik veldniveau-overrides om het GD-patroon alleen toe te passen op velden waar geboortedata een bekend risico zijn |
| Geen overeenkomsten gevonden ondanks bekende PII | BSN-regex komt alleen overeen met koppeltekensformaat (NNN-NN-NNNN), niet met 9 opeenvolgende cijfers | Voeg een aangepast patroon toe voor het specifieke formaat in uw data. Voorbeeld: \b\d{9}\b voor niet-geformatteerde BSN’s (hoog valspositiefrisico) |
Best practices
-
Begin met de Standaard-voorinstelling op vrije-tekstvelden. Voer een eerste scan uit om uw basislijn te begrijpen voordat u uitbreidt naar Uitgebreid.
-
Gebruik veldniveau-overrides om detectie per veld af te stemmen. Globale patronen werpen een breed net. Per-veld-overrides elimineren ruis.
-
Scan ongestructureerde tekstvelden eerst. Description-, Comments- en Notes-velden zijn waar PII accumuleert via kopiëren-plakken en email-to-case. Gestructureerde velden (Email, Phone) bevatten PII door ontwerp.
-
Bekijk overeenkomsten op hoge-valspositief-patronen (Geboortedatum) voordat u ze behandelt als bevestigde PII. Deze patronen produceren meer valspostieven dan BSN of E-mail.
-
Combineer Records met PII (absoluut aantal) met PII-blootstellingspercentage (percentage) voor een volledig beeld. Het aantal bepaalt uw opschooninspanning. Het percentage vertelt u of het een systemisch probleem of geïsoleerde incidenten zijn.
Volgende stappen
- Agentforce-voorbereiding: Volledige implementatiechecklist
- Agentforce-voorbereiding: Volledige implementatiebereidheidsgids