Skip to main content

PII Detection

DQS द्वारा उपयोग किए जाने वाले 8 PII detection patterns, सामान्य scanning scenarios के लिए तीन presets, और pattern-based detection कैसे configure करें।

PII Detection क्या है?

PII Detection configurable regex patterns का उपयोग करके personally identifiable information के लिए text fields को scan करता है। यह आपके Salesforce data के बारे में तीन प्रश्नों का उत्तर देता है:

  • क्या मेरे डेटा में PII है जिसे protection की जरूरत है?
  • मेरा dataset कितना exposed है?
  • कौन से fields sensitive information रखते हैं?

DQS प्रत्येक text field में PII exposure के type और density को profile करता है। यह pattern-based detection उपयोग करता है: regex patterns field values के विरुद्ध match होते हैं SSNs, credit cards, emails, phone numbers, और अन्य identifiers flag करने के लिए।

तीन properties define करती हैं कि detection कैसे काम करता है:

  1. Deterministic. Same input हर बार same result produce करता है।
  2. Transparent. आप हर pattern देखते हैं जो DQS apply करता है। कोई black-box scoring नहीं।
  3. On-platform. Detection पूरी तरह Salesforce के भीतर चलता है। आपके org से कोई डेटा नहीं जाता।

यह क्यों महत्वपूर्ण है

Compliance. GDPR, CCPA, HIPAA, और PCI DSS सभी PII identify और protect करना mandate करते हैं। आप जो नहीं पाया है उसे protect नहीं कर सकते। Automated detection scope में हर text field में exposure की inventory देता है।

AI readiness. Agentforce या किसी AI system को डेटा feed करने से पहले, आपको जानना होगा कि कौन से fields PII contain करते हैं। Training data या retrieval indexes में undetected PII ऐसा exposure बनाती है जिसे कोई downstream filter पूरी तरह prevent नहीं कर सकता।

Data governance. Text fields समय के साथ PII accumulate करते हैं। Agents email threads को case comments में paste करते हैं। Customers verification के लिए SSNs provide करते हैं। Integrations description fields में contact details लिखते हैं। Detection के बिना, यह PII unprotected रहती है।

DQS PII कैसे Detect करता है

DQS PII detection को एक progressive diagnostic के रूप में चलाता है।

चरण 1: क्या PII की समस्या है?

Records with PII उन records की absolute count देता है जहाँ कम से कम एक pattern match हुआ। यह scoping number है।

उदाहरण के लिए: आप Standard preset का उपयोग करके Case comments scan करते हैं। Records with PII 847 आता है। इसका मतलब है 847 case records को review करने की जरूरत है AI training या third-party analytics के साथ safely share करने से पहले।

चरण 2: यह कितना बुरा है?

PII Exposure Rate scanned records का वह प्रतिशत देता है जिनमें pattern matches हैं। Rate count को context देती है।

1,000 में से 847 records 84.7% exposure है — एक systemic problem जिसके लिए process change की जरूरत है। 500,000 में से 847 0.17% है — isolated incidents जिन्हें targeted cleanup से address किया जा सकता है।

चरण 3: किस प्रकार की PII?

Pattern configuration खुद बताता है कि कौन से types scan किए गए। प्रत्येक pattern की एक category है: Financial, Contact, Technical, या Identity। यह review करके कि कौन से patterns ने matches trigger किए, आप जानते हैं कि आप credit card leaks, email address exposure, या SSN contamination से deal कर रहे हैं।

8 Detection Patterns

DQS 4 categories में organized 8 predefined regex patterns के साथ ship होता है।

Financial

Patternयह क्या Match करता हैFalse Positive Risk
Social Security NumberUS SSN NNN-NN-NNNN format मेंकम। Hyphenated format distinctive है।
Credit Card NumberOptional spaces/hyphens के साथ 13-16 digit sequencesMedium। लंबे numeric sequences (order numbers, tracking IDs) false-match कर सकते हैं।
IBANInternational bank account numbers (ISO 13616 format)कम। Country code + check digit prefix distinctive है।

Contact

Patternयह क्या Match करता हैFalse Positive Risk
Email AddressStandard user@domain.tld formatकम। @ symbol structure distinctive है।
US Phone NumberUS/Canadian formats: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1 variantsMedium। Separators के साथ 10-digit numbers non-phone data match कर सकते हैं।
International Phone+ country code से शुरू E.164-style numbersकम। + prefix एक strong signal है।

Technical

Patternयह क्या Match करता हैFalse Positive Risk
IP AddressIPv4 dotted decimal (NNN.NNN.NNN.NNN)Low-Medium। Software version numbers मुख्य false-positive source हैं।

Identity

Patternयह क्या Match करता हैFalse Positive Risk
Date of BirthUS date format MM/DD/YYYY या MM-DD-YYYYउच्च। कोई भी US-formatted date match करती है।

DQS केवल regex-only pattern matching उपयोग करता है। Detection format-based है, contextual नहीं। इसका अर्थ है detection fully auditable और deterministic है, लेकिन आपको high false-positive risk वाले fields पर matches review करने की जरूरत है।

Regulatory Coverage

सभी 8 patterns major privacy और security frameworks में grounded हैं।

PatternNIST 800-122GDPRCCPAPCI DSSHIPAAISO 27701
SSNXXXXX
Credit CardXXXXX
EmailXXXXX
US PhoneXXXX
Intl PhoneXXXX
IP AddressXXXX
IBANXX
Date of BirthXXXXX

तीन Detection Presets

Presets एक single click में configure करती हैं कि कौन से patterns active हैं।

PresetPatternsCountकब उपयोग करें
StandardSSN, Credit Card, Email, US Phone4General PII audit। सबसे common चार types को manageable false-positive rates के साथ cover करता है। यह default है।
CriticalSSN, Credit Card2Financial compliance check। Identity theft और payment card exposure के लिए minimum scan।
Extendedसभी 8 patterns8Full scan। Higher false-positive rate exchange में maximum coverage। First-time audits और compliance assessments के लिए best।

आप 8 predefined के परे custom regex patterns भी add कर सकते हैं। Custom patterns server-side validate होते हैं save होने से पहले।

Metric Reference

Foundation Metrics

MetricTypeयह क्या Return करता है
Records with PIICount (integer)उन records की संख्या जहाँ कम से कम एक pattern match हुआ। एक record एक बार count होता है चाहे कितने भी patterns match हुए हों।

Advanced Metrics

MetricTypeयह क्या Return करता है
PII Exposure Rateप्रतिशतPII matches वाले scanned records का प्रतिशत। Reports और dashboards के लिए headline exposure number।

Field Type Coverage

MetricStringTextAreaEmailPhoneEncryptedStringLongTextAreaHtml
Records with PIIXXXXX
PII Exposure RateXXX

Records with PII सभी text field types में wide net cast करता है। PII Exposure Rate उन longer text fields पर focus करता है जहाँ PII density meaningful है।

दो Analysis Modes

PII Scan configured patterns का उपयोग करके selected fields process करता है और Records with PII return करता है। यह mode उत्तर देता है: “क्या मेरे पास PII की समस्या है?”

PII Detection Analysis Records with PII के ऊपर PII Exposure Rate add करता है। Exposure rate raw count को context देती है। Compliance reporting और ongoing governance के लिए इस mode का उपयोग करें।

PII Detection Configure करना

Inputयह क्या नियंत्रित करता है
Detection Patterns8 predefined patterns में से कौन से active हैं। एक preset pick करें या individual patterns toggle करें।
Custom Patternsकोई भी valid regex pattern, server-side validated। Predefined patterns के साथ add होते हैं।
Per-Field OverridesDifferent fields के लिए different pattern sets। Field-by-field basis पर global configuration override करें।

Field Type द्वारा Patterns चुनना

Different fields को different pattern sets की जरूरत है। Email field पहले से design द्वारा email addresses contain करती है। उसे email patterns के लिए scan करने पर 100% matches मिलती हैं, जो expected है, समस्या नहीं।

उदाहरण configurations:

  • Email fields: केवल SSN और Credit Card scan करें (email matches expected हैं)
  • Description और Notes fields: Standard या Extended preset उपयोग करें (free text में कुछ भी हो सकता है)
  • Short text fields (Subject, Title): केवल Critical preset (false positives के लिए low tolerance)

सामान्य समस्याएँ

समस्याकारणFix
Email field पर 100% PII match rateEmail pattern field के intended content से match करता हैउस field के override से email pattern remove करें, या field को PII scanning से exclude करें
Date of Birth पर high false positivesDOB pattern किसी भी US-formatted date से match करता हैField-level overrides का उपयोग करें DOB pattern केवल उन fields पर apply करने के लिए जहाँ birth dates एक known risk हैं
Known PII होने के बावजूद कोई match नहींSSN regex केवल hyphenated format (NNN-NN-NNNN) match करता है, 9 consecutive digits नहींअपने data में specific format के लिए custom pattern add करें

Best Practices

  1. Free-text fields पर Standard preset से शुरू करें। Extended में expand करने से पहले अपना baseline समझने के लिए initial scan चलाएँ।

  2. Field-level overrides का उपयोग करें प्रति field detection tune करने के लिए। Global patterns wide net cast करते हैं। Per-field overrides noise eliminate करते हैं।

  3. पहले unstructured text fields scan करें। Description, Comments, और Notes fields वे हैं जहाँ copy-paste और email-to-case के माध्यम से PII accumulate होती है।

  4. High-FP patterns (DOB) पर matches review करें confirmed PII मानने से पहले। ये patterns SSN या Email से अधिक false positives produce करते हैं।

  5. Complete picture के लिए Records with PII (absolute count) को PII Exposure Rate (percentage) के साथ pair करें। Count आपके cleanup effort को scope करता है। Rate बताती है कि यह systemic problem है या isolated incidents।

अगले कदम