Was ist PII-Erkennung?
Die PII-Erkennung scannt Textfelder mit konfigurierbaren Regex-Mustern auf personenbezogene Daten. Sie beantwortet drei Fragen zu Ihren Salesforce-Daten:
- Enthalten meine Daten PII, die geschützt werden müssen?
- Wie stark ist mein Datensatz exponiert?
- Welche Felder enthalten sensible Informationen?
DQS profiliert Art und Dichte der PII-Exposition in jedem Textfeld. Es verwendet musterbasierte Erkennung: Regex-Muster werden gegen Feldwerte abgeglichen, um SSNs, Kreditkarten, E-Mails, Telefonnummern und andere Identifikatoren zu kennzeichnen.
Drei Eigenschaften definieren die Funktionsweise der Erkennung:
- Deterministisch. Dieselbe Eingabe liefert jedes Mal dasselbe Ergebnis.
- Transparent. Sie sehen jedes von DQS angewendete Muster. Keine Blackbox-Bewertung.
- Auf der Plattform. Die Erkennung läuft vollständig innerhalb von Salesforce. Keine Daten verlassen Ihre Organisation.
Warum es wichtig ist
Compliance. GDPR, CCPA, HIPAA und PCI DSS verlangen allesamt die Identifikation und den Schutz von PII. Sie können nicht schützen, was Sie nicht gefunden haben. Automatisierte Erkennung liefert Ihnen ein Inventar der Exposition über jedes Textfeld im Scope.
KI-Bereitschaft. Bevor Sie Daten an Agentforce oder ein anderes KI-System übergeben, müssen Sie wissen, welche Felder PII enthalten. Unerkannte PII in Trainingsdaten oder Retrieval-Indizes erzeugen Risiken, die kein nachgelagerter Filter vollständig verhindern kann.
Data Governance. Textfelder sammeln im Lauf der Zeit PII an. Agenten fügen E-Mail-Threads in Case-Kommentare ein. Kunden geben SSNs zur Verifizierung an. Integrationen schreiben Kontaktdaten in Description-Felder. Ohne Erkennung bleiben diese PII ungeschützt.
Wie DQS PII erkennt
DQS führt die PII-Erkennung als progressive Diagnose aus. Jeder Schritt baut auf dem vorherigen auf.
Schritt 1: Gibt es ein PII-Problem?
Records with PII gibt die absolute Anzahl der Datensätze an, in denen mindestens ein Muster getroffen hat. Dies ist die Scoping-Zahl.
Beispiel: Sie scannen Case-Kommentare mit dem Standard-Preset. Records with PII ergibt 847. Das bedeutet, dass 847 Case-Datensätze überprüft werden müssen, bevor Sie die Daten sicher für KI-Training verwenden oder an Analytics-Drittanbieter weitergeben können.
Schritt 2: Wie schlimm ist es?
PII Exposure Rate gibt den Prozentsatz der gescannten Datensätze mit Mustertreffern an. Die Rate setzt die Zahl in Kontext.
847 Datensätze von 1.000 sind 84,7 % Exposition – ein systemisches Problem, das eine Prozessänderung erfordert. 847 von 500.000 sind 0,17 % – isolierte Vorfälle, die Sie mit gezielter Bereinigung adressieren können.
Schritt 3: Welche Art von PII?
Die Musterkonfiguration selbst verrät Ihnen, welche Typen gescannt wurden. Jedes Muster hat eine Kategorie: Financial, Contact, Technical oder Identity. Durch Überprüfung, welche Muster Treffer ausgelöst haben, wissen Sie, ob Sie es mit Kreditkartenlecks, E-Mail-Adressen-Exposition oder SSN-Kontamination zu tun haben.
Die 8 Erkennungsmuster
DQS wird mit 8 vordefinierten Regex-Mustern ausgeliefert, die in 4 Kategorien organisiert sind.
Financial
| Muster | Was es trifft | Risiko für False Positives |
|---|---|---|
| Social Security Number | US-SSN im Format NNN-NN-NNNN | Niedrig. Das Bindestrich-Format ist charakteristisch. |
| Credit Card Number | 13–16-stellige Sequenzen mit optionalen Leerzeichen/Bindestrichen | Mittel. Lange numerische Sequenzen (Bestellnummern, Tracking-IDs) können fälschlich treffen. |
| IBAN | Internationale Bankkontonummern (ISO-13616-Format) | Niedrig. Das Präfix aus Ländercode und Prüfziffern ist charakteristisch. |
Contact
| Muster | Was es trifft | Risiko für False Positives |
|---|---|---|
| Email Address | Standardformat user@domain.tld | Niedrig. Die Struktur mit @-Symbol ist charakteristisch. |
| US Phone Number | US-/kanadische Formate: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1-Varianten | Mittel. 10-stellige Zahlen mit Trennzeichen können auch Nicht-Telefondaten treffen. |
| International Phone | Nummern im E.164-Stil mit führendem + und Ländercode | Niedrig. Das +-Präfix ist ein starkes Signal. |
Technical
| Muster | Was es trifft | Risiko für False Positives |
|---|---|---|
| IP Address | IPv4 in Dotted-Decimal-Notation (NNN.NNN.NNN.NNN) | Niedrig–Mittel. Software-Versionsnummern sind die Hauptquelle für False Positives. |
Identity
| Muster | Was es trifft | Risiko für False Positives |
|---|---|---|
| Date of Birth | US-Datumsformat MM/DD/YYYY oder MM-DD-YYYY | Hoch. Trifft jedes US-formatierte Datum. Am besten mit feldspezifischem Targeting kombinieren. |
DQS verwendet ausschließlich Regex-basierten Musterabgleich. Die Erkennung ist formatbasiert, nicht kontextuell. Es gibt keine Prüfsummenvalidierung (Luhn für Kreditkarten, Modulo-97 für IBAN), kein Keyword-Proximity-Boosting und keine ML-basierte Confidence-Bewertung. Jeder Treffer ist binär: Das Muster hat getroffen oder nicht. Das macht die Erkennung vollständig auditierbar und deterministisch, Sie müssen jedoch Treffer in Feldern mit hohem False-Positive-Risiko überprüfen.
Regulatorische Abdeckung
Alle 8 Muster sind in wichtigen Datenschutz- und Sicherheitsrahmenwerken verankert.
| Muster | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
Dies sind dieselben Identifikatortypen, die Google Cloud DLP, AWS Macie und Microsoft Purview als integrierte Muster erkennen. Der Unterschied: Cloud-DLP-Tools verwenden mehrschichtige Erkennung (Regex + Prüfsumme + Keyword-Proximity + ML). DQS nutzt reinen Regex-Abgleich, was einfacher und vollständig transparent ist, aber keine Confidence-Bewertung liefert.
Drei Erkennungs-Presets
Presets konfigurieren mit einem Klick, welche Muster aktiv sind.
| Preset | Muster | Anzahl | Wann verwenden |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | Allgemeines PII-Audit. Deckt die vier häufigsten Typen mit überschaubaren False-Positive-Raten ab. Dies ist der Standard. |
| Critical | SSN, Credit Card | 2 | Prüfung auf Finanz-Compliance. Mindest-Scan für Identitätsdiebstahl und Kartenexposition. Verwenden Sie ihn, wenn Sie schnelle Ergebnisse mit nahezu null False Positives benötigen. |
| Extended | Alle 8 Muster | 8 | Vollständiger Scan. Umfasst IBAN, IP Address, Date of Birth und International Phone. Höhere False-Positive-Rate im Tausch gegen maximale Abdeckung. Am besten für Erstaudits und Compliance-Bewertungen. |
Sie können zusätzlich zu den 8 vordefinierten Mustern auch eigene Regex-Muster hinzufügen. Benutzerdefinierte Muster werden serverseitig validiert, bevor sie gespeichert werden können. Jede gültige Regex funktioniert.
Metrik-Referenz
Basismetriken
| Metrik | Typ | Was sie zurückgibt |
|---|---|---|
| Records with PII | Anzahl (Ganzzahl) | Anzahl der Datensätze, in denen mindestens ein Muster getroffen hat. Ein Datensatz wird unabhängig davon, wie viele Muster getroffen haben oder wie viele Treffer er enthält, einmal gezählt. |
Erweiterte Metriken
| Metrik | Typ | Was sie zurückgibt |
|---|---|---|
| PII Exposure Rate | Prozent | Prozentsatz der gescannten Datensätze mit PII-Treffern. Dies ist die zentrale Expositionszahl für Berichte und Dashboards. |
Feldtypabdeckung
| Metrik | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PII wirft ein weites Netz über alle Textfeldtypen. PII Exposure Rate konzentriert sich auf längere Textfelder, in denen die PII-Dichte aussagekräftig ist. Ein 255 Zeichen langes String-Feld mit einem E-Mail-Regex-Treffer ist ein einzelner Datenpunkt. Ein 32.000 Zeichen langes LongTextArea-Feld mit 15 SSN-Treffern erzählt eine andere Geschichte.
Zwei Analysemodi
DQS führt die PII-Erkennung in zwei Modi aus.
PII Scan verarbeitet alle ausgewählten Felder mit den konfigurierten Mustern und gibt Records with PII zurück. Dieser Modus beantwortet: „Habe ich ein PII-Problem?” Verwenden Sie ihn für schnelle Audits vor Datenmigrationen oder KI-Projekten.
PII Detection Analysis ergänzt Records with PII um die PII Exposure Rate. Die Expositionsrate setzt die Rohzahl in Kontext und verwandelt „847 Datensätze enthalten PII” in „12,3 % Ihres Datensatzes sind exponiert”. Verwenden Sie diesen Modus für Compliance-Berichte und laufende Governance.
PII-Erkennung konfigurieren
| Eingabe | Was sie steuert |
|---|---|
| Detection Patterns | Welche der 8 vordefinierten Muster aktiv sind. Wählen Sie ein Preset oder schalten Sie einzelne Muster um. |
| Custom Patterns | Jedes gültige Regex-Muster, serverseitig validiert. Wird zusätzlich zu den vordefinierten Mustern angewendet. |
| Per-Field Overrides | Unterschiedliche Mustersätze für unterschiedliche Felder. Überschreiben Sie die globale Konfiguration feldspezifisch. |
Muster nach Feldtyp wählen
Verschiedene Felder benötigen verschiedene Mustersätze. Ein Email-Feld enthält bereits E-Mail-Adressen per Definition. Ein Scan darauf mit dem E-Mail-Muster ergibt 100 % Treffer, was erwartet und kein Problem ist. Ein Case-Description-Feld ist Freitext, in dem jeder PII-Typ auftreten kann. Konfigurieren Sie Muster danach, was Sie erwarten, und was auf ein Problem hinweist.
Beispielkonfigurationen:
- Email-Felder: Nur auf SSN und Credit Card scannen (E-Mail-Treffer sind erwartet)
- Description- und Notes-Felder: Standard- oder Extended-Preset verwenden (Freitext kann alles enthalten)
- Kurze Textfelder (Subject, Title): Nur Critical-Preset verwenden (geringe Toleranz für False Positives)
Häufige Probleme
| Problem | Ursache | Lösung |
|---|---|---|
| 100 % PII-Trefferrate im Email-Feld | Das E-Mail-Muster trifft den beabsichtigten Inhalt des Feldes | Entfernen Sie das E-Mail-Muster aus dem Override dieses Feldes oder schließen Sie das Feld vom PII-Scan aus |
| Viele False Positives bei Date of Birth | Das DOB-Muster trifft jedes US-formatierte Datum (Termine, Fristen) | Verwenden Sie feldspezifische Overrides, um das DOB-Muster nur auf Felder anzuwenden, in denen Geburtsdaten ein bekanntes Risiko sind |
| Keine Treffer trotz bekannter PII | Die SSN-Regex trifft nur das Bindestrich-Format (NNN-NN-NNNN), nicht 9 aufeinanderfolgende Ziffern | Fügen Sie ein benutzerdefiniertes Muster für das spezifische Format Ihrer Daten hinzu. Beispiel: \b\d{9}\b für unformatierte SSNs (hohes False-Positive-Risiko) |
Best Practices
-
Beginnen Sie mit dem Standard-Preset auf Freitextfeldern. Führen Sie einen ersten Scan durch, um Ihren Basiswert zu verstehen, bevor Sie auf Extended erweitern.
-
Nutzen Sie feldspezifische Overrides, um die Erkennung pro Feld zu justieren. Globale Muster werfen ein weites Netz. Per-Field-Overrides eliminieren Rauschen.
-
Scannen Sie zuerst unstrukturierte Textfelder. Description-, Comments- und Notes-Felder sind die Orte, an denen sich PII durch Copy-Paste und Email-to-Case ansammeln. Strukturierte Felder (Email, Phone) enthalten PII per Definition.
-
Überprüfen Sie Treffer bei Mustern mit hohem False-Positive-Risiko (DOB), bevor Sie sie als bestätigte PII behandeln. Diese Muster erzeugen mehr False Positives als SSN oder Email.
-
Kombinieren Sie Records with PII (absolute Zahl) mit PII Exposure Rate (Prozent) für ein vollständiges Bild. Die Zahl skaliert Ihren Bereinigungsaufwand. Die Rate sagt Ihnen, ob es sich um ein systemisches Problem oder isolierte Vorfälle handelt.
Nächste Schritte
- Agentforce-Vorbereitung: Vollständige Deployment-Checkliste
- Agentforce-Vorbereitung: Vollständiger Leitfaden zur Deployment-Bereitschaft