PII-Erkennung | DQS Resources

Was ist PII-Erkennung?

Die PII-Erkennung scannt Textfelder mit konfigurierbaren Regex-Mustern auf personenbezogene Daten. Sie beantwortet drei Fragen zu Ihren Salesforce-Daten:

Enthalten meine Daten PII, die geschützt werden müssen?
Wie stark ist mein Datensatz exponiert?
Welche Felder enthalten sensible Informationen?

DQS profiliert Art und Dichte der PII-Exposition in jedem Textfeld. Es verwendet musterbasierte Erkennung: Regex-Muster werden gegen Feldwerte abgeglichen, um SSNs, Kreditkarten, E-Mails, Telefonnummern und andere Identifikatoren zu kennzeichnen.

Drei Eigenschaften definieren die Funktionsweise der Erkennung:

Deterministisch. Dieselbe Eingabe liefert jedes Mal dasselbe Ergebnis.
Transparent. Sie sehen jedes von DQS angewendete Muster. Keine Blackbox-Bewertung.
Auf der Plattform. Die Erkennung läuft vollständig innerhalb von Salesforce. Keine Daten verlassen Ihre Organisation.

Warum es wichtig ist

Compliance. GDPR, CCPA, HIPAA und PCI DSS verlangen allesamt die Identifikation und den Schutz von PII. Sie können nicht schützen, was Sie nicht gefunden haben. Automatisierte Erkennung liefert Ihnen ein Inventar der Exposition über jedes Textfeld im Scope.

KI-Bereitschaft. Bevor Sie Daten an Agentforce oder ein anderes KI-System übergeben, müssen Sie wissen, welche Felder PII enthalten. Unerkannte PII in Trainingsdaten oder Retrieval-Indizes erzeugen Risiken, die kein nachgelagerter Filter vollständig verhindern kann.

Data Governance. Textfelder sammeln im Lauf der Zeit PII an. Agenten fügen E-Mail-Threads in Case-Kommentare ein. Kunden geben SSNs zur Verifizierung an. Integrationen schreiben Kontaktdaten in Description-Felder. Ohne Erkennung bleiben diese PII ungeschützt.

Wie DQS PII erkennt

DQS führt die PII-Erkennung als progressive Diagnose aus. Jeder Schritt baut auf dem vorherigen auf.

Schritt 1: Gibt es ein PII-Problem?

Records with PII gibt die absolute Anzahl der Datensätze an, in denen mindestens ein Muster getroffen hat. Dies ist die Scoping-Zahl.

Beispiel: Sie scannen Case-Kommentare mit dem Standard-Preset. Records with PII ergibt 847. Das bedeutet, dass 847 Case-Datensätze überprüft werden müssen, bevor Sie die Daten sicher für KI-Training verwenden oder an Analytics-Drittanbieter weitergeben können.

Schritt 2: Wie schlimm ist es?

PII Exposure Rate gibt den Prozentsatz der gescannten Datensätze mit Mustertreffern an. Die Rate setzt die Zahl in Kontext.

847 Datensätze von 1.000 sind 84,7 % Exposition – ein systemisches Problem, das eine Prozessänderung erfordert. 847 von 500.000 sind 0,17 % – isolierte Vorfälle, die Sie mit gezielter Bereinigung adressieren können.

Schritt 3: Welche Art von PII?

Die Musterkonfiguration selbst verrät Ihnen, welche Typen gescannt wurden. Jedes Muster hat eine Kategorie: Financial, Contact, Technical oder Identity. Durch Überprüfung, welche Muster Treffer ausgelöst haben, wissen Sie, ob Sie es mit Kreditkartenlecks, E-Mail-Adressen-Exposition oder SSN-Kontamination zu tun haben.

Die 8 Erkennungsmuster

DQS wird mit 8 vordefinierten Regex-Mustern ausgeliefert, die in 4 Kategorien organisiert sind.

Financial

Muster	Was es trifft	Risiko für False Positives
Social Security Number	US-SSN im Format NNN-NN-NNNN	Niedrig. Das Bindestrich-Format ist charakteristisch.
Credit Card Number	13–16-stellige Sequenzen mit optionalen Leerzeichen/Bindestrichen	Mittel. Lange numerische Sequenzen (Bestellnummern, Tracking-IDs) können fälschlich treffen.
IBAN	Internationale Bankkontonummern (ISO-13616-Format)	Niedrig. Das Präfix aus Ländercode und Prüfziffern ist charakteristisch.

Contact

Muster	Was es trifft	Risiko für False Positives
Email Address	Standardformat user@domain.tld	Niedrig. Die Struktur mit @-Symbol ist charakteristisch.
US Phone Number	US-/kanadische Formate: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1-Varianten	Mittel. 10-stellige Zahlen mit Trennzeichen können auch Nicht-Telefondaten treffen.
International Phone	Nummern im E.164-Stil mit führendem + und Ländercode	Niedrig. Das +-Präfix ist ein starkes Signal.

Technical

Muster	Was es trifft	Risiko für False Positives
IP Address	IPv4 in Dotted-Decimal-Notation (NNN.NNN.NNN.NNN)	Niedrig–Mittel. Software-Versionsnummern sind die Hauptquelle für False Positives.

Identity

Muster	Was es trifft	Risiko für False Positives
Date of Birth	US-Datumsformat MM/DD/YYYY oder MM-DD-YYYY	Hoch. Trifft jedes US-formatierte Datum. Am besten mit feldspezifischem Targeting kombinieren.

DQS verwendet ausschließlich Regex-basierten Musterabgleich. Die Erkennung ist formatbasiert, nicht kontextuell. Es gibt keine Prüfsummenvalidierung (Luhn für Kreditkarten, Modulo-97 für IBAN), kein Keyword-Proximity-Boosting und keine ML-basierte Confidence-Bewertung. Jeder Treffer ist binär: Das Muster hat getroffen oder nicht. Das macht die Erkennung vollständig auditierbar und deterministisch, Sie müssen jedoch Treffer in Feldern mit hohem False-Positive-Risiko überprüfen.

Regulatorische Abdeckung

Alle 8 Muster sind in wichtigen Datenschutz- und Sicherheitsrahmenwerken verankert.

Muster	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
Credit Card	X	X	X	X		X
Email	X	X	X		X	X
US Phone		X	X		X	X
Intl Phone		X	X		X	X
IP Address		X	X		X	X
IBAN		X				X
Date of Birth	X	X	X		X	X

Dies sind dieselben Identifikatortypen, die Google Cloud DLP, AWS Macie und Microsoft Purview als integrierte Muster erkennen. Der Unterschied: Cloud-DLP-Tools verwenden mehrschichtige Erkennung (Regex + Prüfsumme + Keyword-Proximity + ML). DQS nutzt reinen Regex-Abgleich, was einfacher und vollständig transparent ist, aber keine Confidence-Bewertung liefert.

Drei Erkennungs-Presets

Presets konfigurieren mit einem Klick, welche Muster aktiv sind.

Preset	Muster	Anzahl	Wann verwenden
Standard	SSN, Credit Card, Email, US Phone	4	Allgemeines PII-Audit. Deckt die vier häufigsten Typen mit überschaubaren False-Positive-Raten ab. Dies ist der Standard.
Critical	SSN, Credit Card	2	Prüfung auf Finanz-Compliance. Mindest-Scan für Identitätsdiebstahl und Kartenexposition. Verwenden Sie ihn, wenn Sie schnelle Ergebnisse mit nahezu null False Positives benötigen.
Extended	Alle 8 Muster	8	Vollständiger Scan. Umfasst IBAN, IP Address, Date of Birth und International Phone. Höhere False-Positive-Rate im Tausch gegen maximale Abdeckung. Am besten für Erstaudits und Compliance-Bewertungen.

Sie können zusätzlich zu den 8 vordefinierten Mustern auch eigene Regex-Muster hinzufügen. Benutzerdefinierte Muster werden serverseitig validiert, bevor sie gespeichert werden können. Jede gültige Regex funktioniert.

Metrik-Referenz

Basismetriken

Metrik	Typ	Was sie zurückgibt
Records with PII	Anzahl (Ganzzahl)	Anzahl der Datensätze, in denen mindestens ein Muster getroffen hat. Ein Datensatz wird unabhängig davon, wie viele Muster getroffen haben oder wie viele Treffer er enthält, einmal gezählt.

Erweiterte Metriken

Metrik	Typ	Was sie zurückgibt
PII Exposure Rate	Prozent	Prozentsatz der gescannten Datensätze mit PII-Treffern. Dies ist die zentrale Expositionszahl für Berichte und Dashboards.

Feldtypabdeckung

Metrik	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
Records with PII	X	X	X	X	X
PII Exposure Rate		X				X	X

Records with PII wirft ein weites Netz über alle Textfeldtypen. PII Exposure Rate konzentriert sich auf längere Textfelder, in denen die PII-Dichte aussagekräftig ist. Ein 255 Zeichen langes String-Feld mit einem E-Mail-Regex-Treffer ist ein einzelner Datenpunkt. Ein 32.000 Zeichen langes LongTextArea-Feld mit 15 SSN-Treffern erzählt eine andere Geschichte.

Zwei Analysemodi

DQS führt die PII-Erkennung in zwei Modi aus.

PII Scan verarbeitet alle ausgewählten Felder mit den konfigurierten Mustern und gibt Records with PII zurück. Dieser Modus beantwortet: „Habe ich ein PII-Problem?” Verwenden Sie ihn für schnelle Audits vor Datenmigrationen oder KI-Projekten.

PII Detection Analysis ergänzt Records with PII um die PII Exposure Rate. Die Expositionsrate setzt die Rohzahl in Kontext und verwandelt „847 Datensätze enthalten PII” in „12,3 % Ihres Datensatzes sind exponiert”. Verwenden Sie diesen Modus für Compliance-Berichte und laufende Governance.

PII-Erkennung konfigurieren

Eingabe	Was sie steuert
Detection Patterns	Welche der 8 vordefinierten Muster aktiv sind. Wählen Sie ein Preset oder schalten Sie einzelne Muster um.
Custom Patterns	Jedes gültige Regex-Muster, serverseitig validiert. Wird zusätzlich zu den vordefinierten Mustern angewendet.
Per-Field Overrides	Unterschiedliche Mustersätze für unterschiedliche Felder. Überschreiben Sie die globale Konfiguration feldspezifisch.

Muster nach Feldtyp wählen

Verschiedene Felder benötigen verschiedene Mustersätze. Ein Email-Feld enthält bereits E-Mail-Adressen per Definition. Ein Scan darauf mit dem E-Mail-Muster ergibt 100 % Treffer, was erwartet und kein Problem ist. Ein Case-Description-Feld ist Freitext, in dem jeder PII-Typ auftreten kann. Konfigurieren Sie Muster danach, was Sie erwarten, und was auf ein Problem hinweist.

Beispielkonfigurationen:

Email-Felder: Nur auf SSN und Credit Card scannen (E-Mail-Treffer sind erwartet)
Description- und Notes-Felder: Standard- oder Extended-Preset verwenden (Freitext kann alles enthalten)
Kurze Textfelder (Subject, Title): Nur Critical-Preset verwenden (geringe Toleranz für False Positives)

Häufige Probleme

Problem	Ursache	Lösung
100 % PII-Trefferrate im Email-Feld	Das E-Mail-Muster trifft den beabsichtigten Inhalt des Feldes	Entfernen Sie das E-Mail-Muster aus dem Override dieses Feldes oder schließen Sie das Feld vom PII-Scan aus
Viele False Positives bei Date of Birth	Das DOB-Muster trifft jedes US-formatierte Datum (Termine, Fristen)	Verwenden Sie feldspezifische Overrides, um das DOB-Muster nur auf Felder anzuwenden, in denen Geburtsdaten ein bekanntes Risiko sind
Keine Treffer trotz bekannter PII	Die SSN-Regex trifft nur das Bindestrich-Format (NNN-NN-NNNN), nicht 9 aufeinanderfolgende Ziffern	Fügen Sie ein benutzerdefiniertes Muster für das spezifische Format Ihrer Daten hinzu. Beispiel: `\b\d{9}\b` für unformatierte SSNs (hohes False-Positive-Risiko)

Best Practices

Beginnen Sie mit dem Standard-Preset auf Freitextfeldern. Führen Sie einen ersten Scan durch, um Ihren Basiswert zu verstehen, bevor Sie auf Extended erweitern.
Nutzen Sie feldspezifische Overrides, um die Erkennung pro Feld zu justieren. Globale Muster werfen ein weites Netz. Per-Field-Overrides eliminieren Rauschen.
Scannen Sie zuerst unstrukturierte Textfelder. Description-, Comments- und Notes-Felder sind die Orte, an denen sich PII durch Copy-Paste und Email-to-Case ansammeln. Strukturierte Felder (Email, Phone) enthalten PII per Definition.
Überprüfen Sie Treffer bei Mustern mit hohem False-Positive-Risiko (DOB), bevor Sie sie als bestätigte PII behandeln. Diese Muster erzeugen mehr False Positives als SSN oder Email.
Kombinieren Sie Records with PII (absolute Zahl) mit PII Exposure Rate (Prozent) für ein vollständiges Bild. Die Zahl skaliert Ihren Bereinigungsaufwand. Die Rate sagt Ihnen, ob es sich um ein systemisches Problem oder isolierte Vorfälle handelt.

Nächste Schritte

Agentforce-Vorbereitung: Vollständige Deployment-Checkliste
Agentforce-Vorbereitung: Vollständiger Leitfaden zur Deployment-Bereitschaft