Détection PII | DQS Resources

Qu’est-ce que la détection PII ?

PII Detection scanne les champs texte à la recherche d’informations personnelles identifiables à l’aide de motifs regex configurables. Elle répond à trois questions sur vos données Salesforce :

Mes données contiennent-elles des PII qui nécessitent une protection ?
À quel point mon jeu de données est-il exposé ?
Quels champs contiennent des informations sensibles ?

DQS profile le type et la densité d’exposition PII sur chaque champ texte. Elle utilise une détection par motifs : des regex comparent les valeurs des champs pour signaler les SSN, cartes de crédit, e-mails, numéros de téléphone et autres identifiants.

Trois propriétés définissent comment la détection fonctionne :

Déterministe. La même entrée produit le même résultat à chaque fois.
Transparente. Vous voyez chaque motif appliqué par DQS. Aucune boîte noire.
Sur plateforme. La détection s’exécute entièrement dans Salesforce. Aucune donnée ne quitte votre org.

Pourquoi cela compte

Conformité. GDPR, CCPA, HIPAA et PCI DSS exigent tous d’identifier et de protéger les PII. Vous ne pouvez pas protéger ce que vous n’avez pas trouvé. Une détection automatisée vous donne un inventaire de l’exposition sur chaque champ texte.

Préparation IA. Avant d’alimenter Agentforce ou tout système d’IA avec des données, vous devez savoir quels champs contiennent des PII. Des PII non détectées dans les données d’entraînement ou les index de récupération créent une exposition qu’aucun filtre en aval ne peut totalement empêcher.

Gouvernance des données. Les champs texte accumulent des PII avec le temps. Les agents collent des fils d’e-mails dans les commentaires de Cases. Les clients fournissent des SSN pour vérification. Les intégrations écrivent des coordonnées dans les champs de description. Sans détection, ces PII restent non protégées.

Comment DQS détecte les PII

DQS exécute la détection PII comme un diagnostic progressif. Chaque étape s’appuie sur la précédente.

Étape 1 : y a-t-il un problème de PII ?

Records with PII donne le nombre absolu d’enregistrements où au moins un motif a correspondu. C’est le chiffre de cadrage.

Par exemple : vous scannez les commentaires de Case avec le préréglage Standard. Records with PII revient à 847. Cela signifie que 847 enregistrements de Cases nécessitent une revue avant de pouvoir utiliser les données en toute sécurité pour l’entraînement d’IA ou les partager avec des outils d’analyse tiers.

Étape 2 : à quel point est-ce grave ?

PII Exposure Rate donne le pourcentage d’enregistrements scannés contenant des correspondances. Le taux met le chiffre en contexte.

847 enregistrements sur 1 000 font 84,7 % d’exposition, un problème systémique qui exige un changement de processus. 847 sur 500 000 font 0,17 %, des incidents isolés que vous pouvez traiter par un nettoyage ciblé.

Étape 3 : quel type de PII ?

La configuration des motifs elle-même vous dit quels types ont été scannés. Chaque motif a une catégorie : Financier, Contact, Technique ou Identité.

Les 8 motifs de détection

DQS est livré avec 8 motifs regex prédéfinis organisés en 4 catégories.

Financier

Motif	Ce qu’il détecte	Risque de faux positif
Social Security Number	SSN US au format NNN-NN-NNNN	Faible. Le format avec tirets est distinctif.
Credit Card Number	Séquences de 13 à 16 chiffres avec espaces/tirets optionnels	Moyen. De longues séquences numériques (numéros de commande, IDs de suivi) peuvent donner de faux positifs.
IBAN	Numéros de compte bancaires internationaux (ISO 13616)	Faible. Le préfixe code pays + chiffres de contrôle est distinctif.

Contact

Motif	Ce qu’il détecte	Risque de faux positif
Email Address	Format standard user@domain.tld	Faible. La structure avec @ est distinctive.
US Phone Number	Formats US/canadiens	Moyen. Les nombres de 10 chiffres avec séparateurs peuvent correspondre à autre chose.
International Phone	Numéros E.164 commençant par + code pays	Faible. Le préfixe + est un signal fort.

Technique

Motif	Ce qu’il détecte	Risque de faux positif
IP Address	IPv4 décimal pointé (NNN.NNN.NNN.NNN)	Faible à moyen. Les numéros de version logiciels sont la principale source de faux positifs.

Identité

Motif	Ce qu’il détecte	Risque de faux positif
Date of Birth	Format de date US MM/DD/YYYY ou MM-DD-YYYY	Élevé. Correspond à toute date formatée à l’américaine. À coupler avec un ciblage par champ.

DQS utilise uniquement du pattern matching regex. La détection est basée sur le format, pas sur le contexte. Il n’y a pas de validation de checksum (Luhn pour les cartes, modulo-97 pour IBAN), pas de boost par proximité de mots-clés et pas de score de confiance par ML. Chaque correspondance est binaire : le motif a matché ou non. Cela rend la détection pleinement auditable et déterministe, mais vous devez examiner les correspondances sur les champs à fort risque de faux positifs.

Couverture réglementaire

Les 8 motifs sont ancrés dans les principaux cadres de vie privée et de sécurité.

Motif	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
Credit Card	X	X	X	X		X
Email	X	X	X		X	X
US Phone		X	X		X	X
Intl Phone		X	X		X	X
IP Address		X	X		X	X
IBAN		X				X
Date of Birth	X	X	X		X	X

Ce sont les mêmes types d’identifiants détectés nativement par Google Cloud DLP, AWS Macie et Microsoft Purview. La différence : les outils DLP cloud utilisent une détection multicouche (regex + checksum + proximité + ML). DQS utilise uniquement du regex, ce qui est plus simple et totalement transparent mais sans score de confiance.

Trois préréglages de détection

Les préréglages configurent les motifs actifs en un seul clic.

Préréglage	Motifs	Nombre	Quand l’utiliser
Standard	SSN, Credit Card, Email, US Phone	4	Audit PII général. Couvre les quatre types les plus courants avec un taux de faux positifs maîtrisé. C’est la valeur par défaut.
Critical	SSN, Credit Card	2	Contrôle de conformité financière. Scan minimal pour l’exposition au vol d’identité et aux cartes de paiement. À utiliser pour des résultats rapides avec un taux de faux positifs proche de zéro.
Extended	Les 8 motifs	8	Scan complet. Inclut IBAN, IP Address, Date of Birth et International Phone. Taux de faux positifs plus élevé en échange d’une couverture maximale. Idéal pour les premiers audits et les évaluations de conformité.

Vous pouvez aussi ajouter des motifs regex personnalisés au-delà des 8 prédéfinis. Les motifs personnalisés sont validés côté serveur avant sauvegarde.

Référence des métriques

Métriques fondamentales

Métrique	Type	Ce qu’elle renvoie
Records with PII	Comptage (entier)	Nombre d’enregistrements où au moins un motif a matché. Chaque enregistrement est compté une seule fois quel que soit le nombre de motifs qui ont matché.

Métriques avancées

Métrique	Type	Ce qu’elle renvoie
PII Exposure Rate	Pourcentage	Pourcentage d’enregistrements scannés contenant des correspondances PII. C’est le chiffre d’exposition à afficher sur les dashboards.

Couverture des types de champs

Métrique	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
Records with PII	X	X	X	X	X
PII Exposure Rate		X				X	X

Records with PII jette un large filet sur tous les types de champs texte. PII Exposure Rate se concentre sur les champs texte plus longs où la densité de PII a du sens.

Deux modes d’analyse

DQS exécute la détection PII selon deux modes.

PII Scan traite tous les champs sélectionnés avec les motifs configurés et renvoie Records with PII. Ce mode répond à : « Ai-je un problème de PII ? » À utiliser pour des audits rapides avant migrations ou projets d’IA.

PII Detection Analysis ajoute PII Exposure Rate en plus de Records with PII. Le taux d’exposition met le chiffre brut en contexte et transforme « 847 enregistrements contiennent des PII » en « 12,3 % de votre jeu de données est exposé ». À utiliser pour le reporting de conformité et la gouvernance continue.

Configurer la détection PII

Paramètre	Ce qu’il contrôle
Detection Patterns	Lesquels des 8 motifs prédéfinis sont actifs. Choisissez un préréglage ou basculez les motifs individuellement.
Custom Patterns	Tout motif regex valide, validé côté serveur. Ajouté aux côtés des motifs prédéfinis.
Per-Field Overrides	Ensembles de motifs différents pour différents champs. Surcharge la configuration globale champ par champ.

Choisir les motifs selon le type de champ

Différents champs nécessitent différents ensembles de motifs. Un champ Email contient par nature des adresses e-mail. Le scanner pour des motifs e-mail produit 100 % de correspondances, ce qui est attendu et pas un problème. Un champ Case Description est du texte libre où n’importe quel type de PII peut apparaître.

Exemples de configurations :

Champs Email : scanner uniquement SSN et Credit Card (les matches d’e-mails sont attendus)
Champs Description et Notes : utiliser le préréglage Standard ou Extended (le texte libre peut contenir n’importe quoi)
Champs texte courts (Subject, Title) : utiliser le préréglage Critical uniquement (faible tolérance aux faux positifs)

Problèmes courants

Problème	Cause	Correctif
100 % de matchs PII sur un champ Email	Le motif Email correspond au contenu attendu du champ	Retirer le motif Email de la surcharge de ce champ, ou exclure le champ du scan PII
Beaucoup de faux positifs sur Date of Birth	Le motif DOB correspond à toute date formatée à l’américaine (dates de réunions, échéances)	Appliquer le motif DOB uniquement aux champs où les dates de naissance sont un risque connu
Aucune correspondance malgré des PII connues	Le regex SSN ne correspond qu’au format avec tirets (NNN-NN-NNNN), pas 9 chiffres consécutifs	Ajouter un motif personnalisé pour le format spécifique, par exemple `\b\d{9}\b` (risque élevé de faux positifs)

Bonnes pratiques

Commencez par le préréglage Standard sur les champs texte libre. Lancez un scan initial pour comprendre votre référence avant de passer à Extended.
Utilisez des surcharges par champ pour affiner la détection. Les motifs globaux jettent un large filet. Les surcharges par champ éliminent le bruit.
Scannez d’abord les champs texte non structurés. Description, Comments et Notes sont là où les PII s’accumulent via copier-coller et email-to-case. Les champs structurés (Email, Phone) contiennent des PII par conception.
Passez en revue les correspondances sur les motifs à fort FP (DOB) avant de les traiter comme des PII confirmées.
Associez Records with PII (comptage absolu) avec PII Exposure Rate (pourcentage) pour une image complète.

Étapes suivantes

Préparation à Agentforce : checklist de déploiement complète
Préparation à Agentforce : guide complet de préparation au déploiement