Che cos’è il rilevamento PII?
Il rilevamento PII scansiona i campi di testo alla ricerca di informazioni di identificazione personale utilizzando pattern regex configurabili. Risponde a tre domande sui dati Salesforce:
- I miei dati contengono PII che necessitano di protezione?
- Quanto è esposto il mio dataset?
- Quali campi contengono informazioni sensibili?
DQS profila il tipo e la densità dell’esposizione PII in ogni campo di testo. Utilizza il rilevamento basato su pattern: i pattern regex vengono confrontati con i valori dei campi per identificare SSN, carte di credito, email, numeri di telefono e altri identificativi.
Tre proprietà definiscono il funzionamento del rilevamento:
- Deterministico. Lo stesso input produce lo stesso risultato ogni volta.
- Trasparente. Si vedono tutti i pattern applicati da DQS. Nessun punteggio a scatola chiusa.
- On-platform. Il rilevamento viene eseguito interamente all’interno di Salesforce. Nessun dato lascia la vostra organizzazione.
Perché è importante
Conformità. GDPR, CCPA, HIPAA e PCI DSS richiedono tutti l’identificazione e la protezione dei dati PII. Non è possibile proteggere ciò che non è stato trovato. Il rilevamento automatico fornisce un inventario dell’esposizione in ogni campo di testo nell’ambito di analisi.
Preparazione IA. Prima di fornire dati ad Agentforce o a qualsiasi sistema AI, è necessario sapere quali campi contengono PII. Dati PII non rilevati nei dati di addestramento o negli indici di recupero creano un’esposizione che nessun filtro a valle può prevenire completamente.
Governance dei dati. I campi di testo accumulano PII nel tempo. Gli operatori incollano thread email nei commenti dei Case. I clienti forniscono SSN per la verifica. Le integrazioni scrivono dettagli di contatto nei campi descrizione. Senza rilevamento, questi dati PII restano non protetti.
Come DQS rileva i dati PII
DQS esegue il rilevamento PII come diagnostica progressiva. Ogni passaggio si basa sul precedente.
Passaggio 1: Esiste un problema PII?
Record con PII fornisce il conteggio assoluto dei record in cui almeno un pattern ha trovato una corrispondenza. Questo è il numero di dimensionamento.
Ad esempio: si esegue la scansione dei commenti dei Case utilizzando il preset Standard. Record con PII restituisce 847. Ciò significa che 847 record Case necessitano di revisione prima di poter utilizzare i dati in sicurezza per l’addestramento AI o condividerli con strumenti di analisi di terze parti.
Passaggio 2: Quanto è grave?
Tasso di esposizione PII fornisce la percentuale di record scansionati contenenti corrispondenze con i pattern. Il tasso contestualizza il conteggio.
847 record su 1.000 corrispondono a un’esposizione dell’84,7%, un problema sistemico che richiede una modifica dei processi. 847 su 500.000 corrispondono allo 0,17%, incidenti isolati che possono essere gestiti con una pulizia mirata.
Passaggio 3: Che tipo di PII?
La configurazione dei pattern stessa indica quali tipologie sono state scansionate. Ogni pattern ha una categoria: Finanziario, Contatto, Tecnico o Identità. Esaminando quali pattern hanno generato corrispondenze, si determina se si tratta di fughe di dati di carte di credito, esposizione di indirizzi email o contaminazione da SSN.
Gli 8 pattern di rilevamento
DQS include 8 pattern regex predefiniti organizzati in 4 categorie.
Finanziario
| Pattern | Cosa rileva | Rischio di falsi positivi |
|---|---|---|
| Social Security Number | SSN statunitensi nel formato NNN-NN-NNNN | Basso. Il formato con trattini è distintivo. |
| Credit Card Number | Sequenze di 13-16 cifre con spazi/trattini opzionali | Medio. Sequenze numeriche lunghe (numeri d’ordine, ID di tracciamento) possono generare false corrispondenze. |
| IBAN | Numeri di conto bancario internazionali (formato ISO 13616) | Basso. Il prefisso con codice paese + cifra di controllo è distintivo. |
Contatto
| Pattern | Cosa rileva | Rischio di falsi positivi |
|---|---|---|
| Email Address | Formato standard utente@dominio.tld | Basso. La struttura con il simbolo @ è distintiva. |
| US Phone Number | Formati USA/Canada: (NNN) NNN-NNNN, NNN-NNN-NNNN, varianti +1 | Medio. Numeri a 10 cifre con separatori possono corrispondere a dati non telefonici. |
| International Phone | Numeri in stile E.164 che iniziano con + codice paese | Basso. Il prefisso + è un segnale forte. |
Tecnico
| Pattern | Cosa rileva | Rischio di falsi positivi |
|---|---|---|
| IP Address | IPv4 in notazione decimale puntata (NNN.NNN.NNN.NNN) | Basso-Medio. I numeri di versione del software sono la principale fonte di falsi positivi. |
Identità
| Pattern | Cosa rileva | Rischio di falsi positivi |
|---|---|---|
| Date of Birth | Formato data statunitense MM/GG/AAAA o MM-GG-AAAA | Alto. Corrisponde a qualsiasi data in formato statunitense. Da abbinare preferibilmente al targeting a livello di campo. |
DQS utilizza esclusivamente il pattern matching tramite regex. Il rilevamento è basato sul formato, non sul contesto. Non vi è alcuna validazione tramite checksum (Luhn per le carte di credito, modulo-97 per IBAN), nessun potenziamento per prossimità di parole chiave e nessun punteggio di confidenza basato su ML. Ogni corrispondenza è binaria: il pattern ha trovato o non ha trovato una corrispondenza. Ciò rende il rilevamento completamente verificabile e deterministico, ma è necessario esaminare le corrispondenze sui campi con alto rischio di falsi positivi.
Copertura normativa
Tutti e 8 i pattern si basano sui principali framework di privacy e sicurezza.
| Pattern | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
Si tratta degli stessi tipi di identificativi rilevati come pattern integrati da Google Cloud DLP, AWS Macie e Microsoft Purview. La differenza: gli strumenti DLP cloud utilizzano un rilevamento multilivello (regex + checksum + prossimità di parole chiave + ML). DQS utilizza esclusivamente il matching tramite regex, che è più semplice e completamente trasparente, ma non fornisce un punteggio di confidenza.
Tre preset di rilevamento
I preset configurano quali pattern sono attivi con un solo clic.
| Preset | Pattern | Numero | Quando utilizzarlo |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | Audit PII generale. Copre i quattro tipi più comuni con tassi di falsi positivi gestibili. Questo è il preset predefinito. |
| Critical | SSN, Credit Card | 2 | Verifica di conformità finanziaria. Scansione minima per furto d’identità ed esposizione di carte di pagamento. Da utilizzare quando servono risultati rapidi con falsi positivi quasi nulli. |
| Extended | Tutti gli 8 pattern | 8 | Scansione completa. Include IBAN, IP Address, Date of Birth e International Phone. Tasso di falsi positivi più elevato in cambio della massima copertura. Ideale per audit iniziali e valutazioni di conformità. |
È inoltre possibile aggiungere pattern regex personalizzati oltre agli 8 predefiniti. I pattern personalizzati vengono convalidati lato server prima del salvataggio. Qualsiasi regex valida funziona.
Riferimento metriche
Metriche di base
| Metrica | Tipo | Cosa restituisce |
|---|---|---|
| Record con PII | Conteggio (intero) | Numero di record in cui almeno un pattern ha trovato una corrispondenza. Un record viene conteggiato una sola volta indipendentemente da quanti pattern hanno trovato corrispondenze o da quante corrispondenze esistono al suo interno. |
Metriche avanzate
| Metrica | Tipo | Cosa restituisce |
|---|---|---|
| Tasso di esposizione PII | Percentuale | Percentuale di record scansionati contenenti corrispondenze PII. Questo è il numero principale di esposizione per report e dashboard. |
Copertura per tipo di campo
| Metrica | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Record con PII | X | X | X | X | X | ||
| Tasso di esposizione PII | X | X | X |
Record con PII copre un ampio spettro di tipi di campo di testo. Il tasso di esposizione PII si concentra sui campi di testo più lunghi dove la densità PII è significativa. Un campo String di 255 caratteri che corrisponde a una regex email è un singolo dato. Un campo LongTextArea di 32.000 caratteri con 15 corrispondenze SSN racconta una storia diversa.
Due modalità di analisi
DQS esegue il rilevamento PII in due modalità.
Scansione PII elabora tutti i campi selezionati utilizzando i pattern configurati e restituisce Record con PII. Questa modalità risponde alla domanda: «Ho un problema di PII?» Da utilizzare per audit rapidi prima di migrazioni dati o progetti AI.
Analisi di rilevamento PII aggiunge il tasso di esposizione PII in aggiunta a Record con PII. Il tasso di esposizione contestualizza il conteggio grezzo, trasformando «847 record contengono PII» in «il 12,3% del dataset è esposto». Da utilizzare per la reportistica di conformità e la governance continua.
Configurazione del rilevamento PII
| Input | Cosa controlla |
|---|---|
| Pattern di rilevamento | Quali degli 8 pattern predefiniti sono attivi. Selezionare un preset o attivare/disattivare i singoli pattern. |
| Pattern personalizzati | Qualsiasi pattern regex valido, convalidato lato server. Aggiunto insieme ai pattern predefiniti. |
| Override per campo | Set di pattern diversi per campi diversi. Sovrascrive la configurazione globale campo per campo. |
Scelta dei pattern per tipo di campo
Campi diversi richiedono set di pattern diversi. Un campo Email contiene già indirizzi email per definizione. La scansione con pattern email produce il 100% di corrispondenze, il che è atteso, non un problema. Un campo Descrizione Case è testo libero in cui può apparire qualsiasi tipo di PII. Configurate i pattern in base a ciò che vi aspettate di trovare rispetto a ciò che segnala un problema.
Configurazioni di esempio:
- Campi email: Scansionare solo per SSN e Credit Card (le corrispondenze email sono attese)
- Campi Descrizione e Note: Utilizzare il preset Standard o Extended (il testo libero può contenere qualsiasi cosa)
- Campi di testo brevi (Oggetto, Titolo): Utilizzare solo il preset Critical (bassa tolleranza per i falsi positivi)
Problemi comuni
| Problema | Causa | Soluzione |
|---|---|---|
| Tasso di corrispondenza PII al 100% sul campo Email | Il pattern email corrisponde al contenuto previsto del campo | Rimuovere il pattern email dall’override di quel campo, oppure escludere il campo dalla scansione PII |
| Elevati falsi positivi su Date of Birth | Il pattern DOB corrisponde a qualsiasi data in formato statunitense (date di riunioni, scadenze) | Utilizzare gli override a livello di campo per applicare il pattern DOB solo sui campi in cui le date di nascita rappresentano un rischio noto |
| Nessuna corrispondenza trovata nonostante la presenza nota di PII | La regex SSN corrisponde solo al formato con trattini (NNN-NN-NNNN), non a 9 cifre consecutive | Aggiungere un pattern personalizzato per il formato specifico nei propri dati. Esempio: \b\d{9}\b per SSN non formattati (alto rischio di falsi positivi) |
Migliori pratiche
-
Iniziare con il preset Standard sui campi di testo libero. Eseguire una scansione iniziale per comprendere i valori di riferimento prima di passare all’Extended.
-
Utilizzare gli override a livello di campo per calibrare il rilevamento per campo. I pattern globali coprono un ampio spettro. Gli override per campo eliminano il rumore.
-
Scansionare prima i campi di testo non strutturato. I campi Descrizione, Commenti e Note sono quelli in cui i dati PII si accumulano tramite copia-incolla e email-to-case. I campi strutturati (Email, Phone) contengono PII per definizione.
-
Esaminare le corrispondenze sui pattern ad alto tasso di falsi positivi (DOB) prima di trattarle come PII confermato. Questi pattern producono più falsi positivi rispetto a SSN o Email.
-
Abbinare Record con PII (conteggio assoluto) al tasso di esposizione PII (percentuale) per un quadro completo. Il conteggio dimensiona lo sforzo di pulizia. Il tasso indica se si tratta di un problema sistemico o di incidenti isolati.
Prossimi passi
- Preparazione per Agentforce: Checklist completa per il deployment
- Preparazione per Agentforce: Guida completa alla preparazione per il deployment