Qu’est-ce que la détection PII ?
PII Detection scanne les champs texte à la recherche d’informations personnelles identifiables à l’aide de motifs regex configurables. Elle répond à trois questions sur vos données Salesforce :
- Mes données contiennent-elles des PII qui nécessitent une protection ?
- À quel point mon jeu de données est-il exposé ?
- Quels champs contiennent des informations sensibles ?
DQS profile le type et la densité d’exposition PII sur chaque champ texte. Elle utilise une détection par motifs : des regex comparent les valeurs des champs pour signaler les SSN, cartes de crédit, e-mails, numéros de téléphone et autres identifiants.
Trois propriétés définissent comment la détection fonctionne :
- Déterministe. La même entrée produit le même résultat à chaque fois.
- Transparente. Vous voyez chaque motif appliqué par DQS. Aucune boîte noire.
- Sur plateforme. La détection s’exécute entièrement dans Salesforce. Aucune donnée ne quitte votre org.
Pourquoi cela compte
Conformité. GDPR, CCPA, HIPAA et PCI DSS exigent tous d’identifier et de protéger les PII. Vous ne pouvez pas protéger ce que vous n’avez pas trouvé. Une détection automatisée vous donne un inventaire de l’exposition sur chaque champ texte.
Préparation IA. Avant d’alimenter Agentforce ou tout système d’IA avec des données, vous devez savoir quels champs contiennent des PII. Des PII non détectées dans les données d’entraînement ou les index de récupération créent une exposition qu’aucun filtre en aval ne peut totalement empêcher.
Gouvernance des données. Les champs texte accumulent des PII avec le temps. Les agents collent des fils d’e-mails dans les commentaires de Cases. Les clients fournissent des SSN pour vérification. Les intégrations écrivent des coordonnées dans les champs de description. Sans détection, ces PII restent non protégées.
Comment DQS détecte les PII
DQS exécute la détection PII comme un diagnostic progressif. Chaque étape s’appuie sur la précédente.
Étape 1 : y a-t-il un problème de PII ?
Records with PII donne le nombre absolu d’enregistrements où au moins un motif a correspondu. C’est le chiffre de cadrage.
Par exemple : vous scannez les commentaires de Case avec le préréglage Standard. Records with PII revient à 847. Cela signifie que 847 enregistrements de Cases nécessitent une revue avant de pouvoir utiliser les données en toute sécurité pour l’entraînement d’IA ou les partager avec des outils d’analyse tiers.
Étape 2 : à quel point est-ce grave ?
PII Exposure Rate donne le pourcentage d’enregistrements scannés contenant des correspondances. Le taux met le chiffre en contexte.
847 enregistrements sur 1 000 font 84,7 % d’exposition, un problème systémique qui exige un changement de processus. 847 sur 500 000 font 0,17 %, des incidents isolés que vous pouvez traiter par un nettoyage ciblé.
Étape 3 : quel type de PII ?
La configuration des motifs elle-même vous dit quels types ont été scannés. Chaque motif a une catégorie : Financier, Contact, Technique ou Identité.
Les 8 motifs de détection
DQS est livré avec 8 motifs regex prédéfinis organisés en 4 catégories.
Financier
| Motif | Ce qu’il détecte | Risque de faux positif |
|---|---|---|
| Social Security Number | SSN US au format NNN-NN-NNNN | Faible. Le format avec tirets est distinctif. |
| Credit Card Number | Séquences de 13 à 16 chiffres avec espaces/tirets optionnels | Moyen. De longues séquences numériques (numéros de commande, IDs de suivi) peuvent donner de faux positifs. |
| IBAN | Numéros de compte bancaires internationaux (ISO 13616) | Faible. Le préfixe code pays + chiffres de contrôle est distinctif. |
Contact
| Motif | Ce qu’il détecte | Risque de faux positif |
|---|---|---|
| Email Address | Format standard user@domain.tld | Faible. La structure avec @ est distinctive. |
| US Phone Number | Formats US/canadiens | Moyen. Les nombres de 10 chiffres avec séparateurs peuvent correspondre à autre chose. |
| International Phone | Numéros E.164 commençant par + code pays | Faible. Le préfixe + est un signal fort. |
Technique
| Motif | Ce qu’il détecte | Risque de faux positif |
|---|---|---|
| IP Address | IPv4 décimal pointé (NNN.NNN.NNN.NNN) | Faible à moyen. Les numéros de version logiciels sont la principale source de faux positifs. |
Identité
| Motif | Ce qu’il détecte | Risque de faux positif |
|---|---|---|
| Date of Birth | Format de date US MM/DD/YYYY ou MM-DD-YYYY | Élevé. Correspond à toute date formatée à l’américaine. À coupler avec un ciblage par champ. |
DQS utilise uniquement du pattern matching regex. La détection est basée sur le format, pas sur le contexte. Il n’y a pas de validation de checksum (Luhn pour les cartes, modulo-97 pour IBAN), pas de boost par proximité de mots-clés et pas de score de confiance par ML. Chaque correspondance est binaire : le motif a matché ou non. Cela rend la détection pleinement auditable et déterministe, mais vous devez examiner les correspondances sur les champs à fort risque de faux positifs.
Couverture réglementaire
Les 8 motifs sont ancrés dans les principaux cadres de vie privée et de sécurité.
| Motif | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
Ce sont les mêmes types d’identifiants détectés nativement par Google Cloud DLP, AWS Macie et Microsoft Purview. La différence : les outils DLP cloud utilisent une détection multicouche (regex + checksum + proximité + ML). DQS utilise uniquement du regex, ce qui est plus simple et totalement transparent mais sans score de confiance.
Trois préréglages de détection
Les préréglages configurent les motifs actifs en un seul clic.
| Préréglage | Motifs | Nombre | Quand l’utiliser |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | Audit PII général. Couvre les quatre types les plus courants avec un taux de faux positifs maîtrisé. C’est la valeur par défaut. |
| Critical | SSN, Credit Card | 2 | Contrôle de conformité financière. Scan minimal pour l’exposition au vol d’identité et aux cartes de paiement. À utiliser pour des résultats rapides avec un taux de faux positifs proche de zéro. |
| Extended | Les 8 motifs | 8 | Scan complet. Inclut IBAN, IP Address, Date of Birth et International Phone. Taux de faux positifs plus élevé en échange d’une couverture maximale. Idéal pour les premiers audits et les évaluations de conformité. |
Vous pouvez aussi ajouter des motifs regex personnalisés au-delà des 8 prédéfinis. Les motifs personnalisés sont validés côté serveur avant sauvegarde.
Référence des métriques
Métriques fondamentales
| Métrique | Type | Ce qu’elle renvoie |
|---|---|---|
| Records with PII | Comptage (entier) | Nombre d’enregistrements où au moins un motif a matché. Chaque enregistrement est compté une seule fois quel que soit le nombre de motifs qui ont matché. |
Métriques avancées
| Métrique | Type | Ce qu’elle renvoie |
|---|---|---|
| PII Exposure Rate | Pourcentage | Pourcentage d’enregistrements scannés contenant des correspondances PII. C’est le chiffre d’exposition à afficher sur les dashboards. |
Couverture des types de champs
| Métrique | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PII jette un large filet sur tous les types de champs texte. PII Exposure Rate se concentre sur les champs texte plus longs où la densité de PII a du sens.
Deux modes d’analyse
DQS exécute la détection PII selon deux modes.
PII Scan traite tous les champs sélectionnés avec les motifs configurés et renvoie Records with PII. Ce mode répond à : « Ai-je un problème de PII ? » À utiliser pour des audits rapides avant migrations ou projets d’IA.
PII Detection Analysis ajoute PII Exposure Rate en plus de Records with PII. Le taux d’exposition met le chiffre brut en contexte et transforme « 847 enregistrements contiennent des PII » en « 12,3 % de votre jeu de données est exposé ». À utiliser pour le reporting de conformité et la gouvernance continue.
Configurer la détection PII
| Paramètre | Ce qu’il contrôle |
|---|---|
| Detection Patterns | Lesquels des 8 motifs prédéfinis sont actifs. Choisissez un préréglage ou basculez les motifs individuellement. |
| Custom Patterns | Tout motif regex valide, validé côté serveur. Ajouté aux côtés des motifs prédéfinis. |
| Per-Field Overrides | Ensembles de motifs différents pour différents champs. Surcharge la configuration globale champ par champ. |
Choisir les motifs selon le type de champ
Différents champs nécessitent différents ensembles de motifs. Un champ Email contient par nature des adresses e-mail. Le scanner pour des motifs e-mail produit 100 % de correspondances, ce qui est attendu et pas un problème. Un champ Case Description est du texte libre où n’importe quel type de PII peut apparaître.
Exemples de configurations :
- Champs Email : scanner uniquement SSN et Credit Card (les matches d’e-mails sont attendus)
- Champs Description et Notes : utiliser le préréglage Standard ou Extended (le texte libre peut contenir n’importe quoi)
- Champs texte courts (Subject, Title) : utiliser le préréglage Critical uniquement (faible tolérance aux faux positifs)
Problèmes courants
| Problème | Cause | Correctif |
|---|---|---|
| 100 % de matchs PII sur un champ Email | Le motif Email correspond au contenu attendu du champ | Retirer le motif Email de la surcharge de ce champ, ou exclure le champ du scan PII |
| Beaucoup de faux positifs sur Date of Birth | Le motif DOB correspond à toute date formatée à l’américaine (dates de réunions, échéances) | Appliquer le motif DOB uniquement aux champs où les dates de naissance sont un risque connu |
| Aucune correspondance malgré des PII connues | Le regex SSN ne correspond qu’au format avec tirets (NNN-NN-NNNN), pas 9 chiffres consécutifs | Ajouter un motif personnalisé pour le format spécifique, par exemple \b\d{9}\b (risque élevé de faux positifs) |
Bonnes pratiques
-
Commencez par le préréglage Standard sur les champs texte libre. Lancez un scan initial pour comprendre votre référence avant de passer à Extended.
-
Utilisez des surcharges par champ pour affiner la détection. Les motifs globaux jettent un large filet. Les surcharges par champ éliminent le bruit.
-
Scannez d’abord les champs texte non structurés. Description, Comments et Notes sont là où les PII s’accumulent via copier-coller et email-to-case. Les champs structurés (Email, Phone) contiennent des PII par conception.
-
Passez en revue les correspondances sur les motifs à fort FP (DOB) avant de les traiter comme des PII confirmées.
-
Associez Records with PII (comptage absolu) avec PII Exposure Rate (pourcentage) pour une image complète.
Étapes suivantes
- Préparation à Agentforce : checklist de déploiement complète
- Préparation à Agentforce : guide complet de préparation au déploiement