Skip to main content

Uniqueness

DQS द्वारा मापे जाने वाले सभी 6 Uniqueness मेट्रिक्स, डुप्लिकेट और repetitive content खोजने के लिए diagnostic flow, और Uniqueness विश्लेषण कैसे कॉन्फ़िगर करें।

Uniqueness क्या है?

Uniqueness मापती है कि आपके डेटा मान अलग और गैर-डुप्लिकेट हैं। जब प्रत्येक रिकॉर्ड में एक अलग मान हो तो फ़ील्ड में उच्च Uniqueness होती है। Uniqueness तब टूटती है जब एक ही मान कई रिकॉर्ड में दिखाई देता है, या जब text fields में repetitive templated content होता है जो कोई analytical value नहीं जोड़ता।

Duplicate रिकॉर्ड हर चरण पर आपके संगठन को लागत देते हैं। एक ही कंपनी के तीन Account रिकॉर्ड आपकी pipeline विभाजित करते हैं। एक ही व्यक्ति के दो Contact रिकॉर्ड को दो marketing emails मिलते हैं।

Uniqueness Rate = (Unique मान वाले रिकॉर्ड / कुल रिकॉर्ड) x 100

यदि 10,000 Contact रिकॉर्ड में से 7,800 में एक distinct Email मान है, तो आपकी Email uniqueness rate 78% है। शेष 22% कम से कम एक अन्य रिकॉर्ड के साथ email addresses साझा करते हैं।

Uniqueness क्यों महत्वपूर्ण है

रिपोर्टिंग

Duplicate रिकॉर्ड आपकी संख्याएँ बढ़ाते हैं। जब एक ही कंपनी तीन Account के रूप में दिखाई देती है, तो आपकी Account count दो से अधिक बताई जाती है। Pipeline रिपोर्ट एक के बजाय तीन deals दिखाती हैं।

स्वचालन

Salesforce स्वचालन प्रत्येक रिकॉर्ड को स्वतंत्र रूप से मानता है। एक duplicate Account duplicate workflows trigger करता है, duplicate notifications भेजता है, और duplicate tasks बनाता है।

AI और Agentforce

AI मॉडल प्रत्येक रिकॉर्ड को एक अलग इकाई के रूप में process करते हैं। Duplicate रिकॉर्ड model के ग्राहक दृश्य को खंडित करते हैं। Agentforce आपके Salesforce डेटा का उपयोग करके प्रतिक्रियाएँ उत्पन्न करता है। जब एक ही कंपनी के लिए तीन Account रिकॉर्ड मौजूद हों, तो Agentforce एक पूर्ण इतिहास वाले एक नहीं, बल्कि तीन ग्राहक देखता है।

SystemUniqueness प्रभाव
ReportsInflated counts, खंडित metrics
WorkflowsDuplicate triggers, redundant notifications
Duplicate Rulesमौजूदा duplicates से अभिभूत यदि detect नहीं
Agentforceखंडित ग्राहक दृश्य, template-polluted learning

DQS Uniqueness कैसे मापता है

DQS एक diagnostic प्रश्न के चारों ओर व्यवस्थित 6 Uniqueness मेट्रिक्स उत्पन्न करता है: “क्या डेटा अलग है, यह कैसे distributed है, और text content original है?”

Layer 1: क्या मान Unique हैं?

Uniqueness Rate मुख्य मेट्रिक है। यह उन रिकॉर्ड का प्रतिशत गणना करता है जहाँ field value अलग (dataset में कहीं और duplicate नहीं) है।

Distinct Count field की cardinality बताता है: कितने अलग-अलग मान वास्तव में मौजूद हैं।

उदाहरण: आप expect करते हैं कि Lead_Source picklist में लगभग 12 मान होंगे। लेकिन Distinct Count 87 दिखाता है। Picklist सीमित होने से पहले, reps ने free-text मान type किए। “Web”, “web”, “Website”, “Webinar”, “web form” सभी distinct गिने जाते हैं। यह मेट्रिक प्रकट करता है कि आपके Lead Source डेटा को normalization की जरूरत है।

Layer 2: डेटा कैसे Distributed है?

Entropy Shannon entropy का उपयोग करके माप करता है कि मान कितनी समान रूप से distributed हैं। Scale 0 (हर रिकॉर्ड में exact same मान) से maximum तक जाता है। उच्च entropy का अर्थ है अधिक diverse, अधिक समान रूप से spread डेटा।

Entropy को normalized score (actual / max) के रूप में interpret करें:

Normalized (actual / max)Interpretation
0.9 या उससे अधिकEven distribution: मान uniformly spread
0.7 से 0.9Moderate skew: कुछ मान दूसरों से अधिक
0.7 से नीचेDominated: कुछ मान अधिकांश रिकॉर्ड रखते हैं

Max Frequency single सबसे common मान के occurrence count देता है। एक dominant value अक्सर एक default value समस्या, एक migration artifact, या एक genuine business concentration संकेत करती है।

Layer 3: क्या Text Content Original है?

Boilerplate Rate text content originality के लिए headline metric है। यह repetitive या templated content का प्रतिशत मापता है। एक उच्च score का अर्थ है अधिक original content।

उदाहरण: आपका संगठन Opportunity पर Description field के AI-powered win/loss analysis का मूल्यांकन कर रहा है। Uniqueness Rate 99% है (हर description तकनीकी रूप से अलग है)। लेकिन Boilerplate Rate प्रकट करता है कि 65% content same template का पालन करता है। AI model आपके template structure सीखेगा, आपके win patterns नहीं।

Boilerplate Records Count absolute संख्या के रूप में cleanup scope देता है।

तीन विश्लेषण कोण

चिंतामेट्रिक्सप्रश्नStakeholder
DuplicationUniqueness Rate, Distinct Countक्या हमारे पास repeated values हैं?Data stewards
DistributionEntropy, Max Frequencyडेटा values में कैसे spread है?Analysts और data scientists
OriginalityBoilerplate Rate, Boilerplate Records Countक्या text content genuinely original है?AI teams

मेट्रिक संदर्भ

Foundation Metrics

मेट्रिकप्रकारयह क्या मापता है
Uniqueness Rateप्रतिशतnon-duplicate values वाले records का हिस्सा
Distinct CountCountfield में distinct values की कुल संख्या

Advanced Metrics

मेट्रिकप्रकारयह क्या मापता है
EntropyDecimalvalues कितनी समान रूप से distributed हैं (Shannon entropy)
Max FrequencyCountsingle सबसे common value का occurrence count
Boilerplate Rateप्रतिशतtemplated या repetitive content की degree
Boilerplate Records CountCountboilerplate content वाले records की संख्या

Field Type कवरेज

कवरेज समूहField Typesउपलब्ध मेट्रिक्स
सभी प्रकार (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxUniqueness Rate, Distinct Count
Analysis types (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropy, Max Frequency
Text fields (3)String, TextArea, HtmlBoilerplate Records Count
Long text fields (3)TextArea, LongTextArea, HtmlBoilerplate Rate

दो Analysis Modes

Basic Uniqueness प्रश्न का उत्तर देता है: “क्या values distinct हैं?” यह 2 foundation metrics उत्पन्न करता है।

Advanced Uniqueness Analysis गहरा जाता है। यह सभी 6 metrics उत्पन्न करता है, जिसमें distribution analysis, frequency patterns, और boilerplate detection शामिल हैं।

व्यावसायिक आवश्यकताअनुशंसित Mode
Quick duplicate detection auditBasic Uniqueness
Data migration assessmentAdvanced (Max Frequency default values पकड़ता है, Entropy skew प्रकट करता है)
Picklist hygiene checkAdvanced (Entropy + Max Frequency skew और normalization needs प्रकट करते हैं)
AI training data evaluationAdvanced (Boilerplate metrics content originality का आकलन करते हैं)
Ongoing data governanceBasic Uniqueness से शुरू करें, गहरे विश्लेषण के लिए Advanced में जाएँ

Uniqueness कॉन्फ़िगर करना

DQS Uniqueness के लिए 2 configuration inputs प्रदान करता है।

Settingयह क्या नियंत्रित करता है
Case Sensitiveनियंत्रित करता है कि value comparison letter casing को consider करती है। अक्षम होने पर (डिफ़ॉल्ट), “Apple” और “apple” same value गिनते हैं।
Include Blanksनियंत्रित करता है कि null और blank records uniqueness calculations में counted हैं। अक्षम होने पर (डिफ़ॉल्ट), blanks evaluation से exclude होते हैं।

सामान्य Uniqueness समस्याएँ

Bulk Imports से Duplicate Records

Data migrations और list imports तब duplicates introduce करते हैं जब matching logic अपर्याप्त हो।

Fix: Load करने से पहले imports का audit करें। प्रत्येक import से पहले और बाद में key identifier fields (Email, Phone, Website) पर uniqueness baseline establish करने के लिए DQS का उपयोग करें।

Data के रूप में Default Values

Integrations और migrations अक्सर fields में default values लिखते हैं। “Unknown”, “N/A”, या एक कंपनी का अपना नाम हजारों records पर दिखाई देता है।

Fix: Advanced Uniqueness Analysis चलाएँ। Max Frequency dominant value प्रकट करती है।

Governance के बिना Free-Text Fields

Text fields जिनमें picklist constraints की कमी है, समय के साथ variations accumulate करते हैं।

Fix: उन text fields पर Advanced Uniqueness Analysis चलाएँ जिन्हें आप standardize करना चाहते हैं। High-value free-text fields को picklists में convert करें।

Boilerplate-Polluted Text Fields

Support agents हर case में standard openings और closings paste करते हैं।

Fix: text fields पर boilerplate detection के साथ Advanced Uniqueness Analysis चलाएँ।

Best Practices

Field Type द्वारा सही Headline चुनें

Uniqueness Rate identifier fields के लिए सही headline है। Text content fields के लिए, Uniqueness Rate को Boilerplate Rate के साथ combine करें।

Segmentation Fields के लिए Distribution Metrics का उपयोग करें

Segmentation, filtering, या reporting में उपयोग किए जाने वाले fields के लिए Entropy और Max Frequency जाँचें।

समय के साथ रुझान Track करें

एक अकेला scan current state दिखाता है। New duplicate sources detect करने और deduplication initiatives के प्रभाव को मापने के लिए नियमित रूप से scans चलाएँ।

अगले कदम

  • अगला: Timeliness - डेटा freshness और currency मापें
  • पिछला: Validity - सुनिश्चित करें कि डेटा अपेक्षित प्रारूपों का पालन करता है
  • संबंधित: पाँच आयाम - सभी आयामों का अवलोकन
  • कार्रवाई: AI Readiness Assessment - अपने वर्तमान Uniqueness scores देखें