Uniqueness: Configuration Scenarios

ये Scenarios क्या Cover करते हैं

यह page DQS uniqueness analysis के तीन real-world configurations के माध्यम से walk-through करती है। प्रत्येक scenario एक specific business problem cover करता है, use करने के exact settings दिखाता है, और results कैसे read करें explain करता है।

ये walkthroughs main Uniqueness article के concepts पर build करती हैं। यदि आप uniqueness metrics, diagnostic layers, या Basic Uniqueness और Advanced Uniqueness Analysis के बीच difference में नए हैं तो पहले वह पढ़ें।

Scenario 1: Leads पर Email Deduplication Audit

समस्या

आपकी marketing team Salesforce के माध्यम से nurture campaigns चलाती है। Open rates declining हैं, और email platform “duplicate sends” की rising number report करता है: एक ही व्यक्ति को एक ही email दो बार मिल रही है। आपके duplicate management rules exact-match records catch करते हैं, लेकिन partial duplicates through slip हो जाते हैं। एक ही व्यक्ति के दो Lead records जिनका email address same है दोनों campaign receive करते हैं। आपको concrete number चाहिए: कितने Lead email addresses multiple records में share होते हैं?

Configuration

यह एक straightforward duplicate detection check है। Lead object पर Email field को target करते हुए Basic Uniqueness mode उपयोग करें।

Setting	Value	क्यों
Analysis Mode	Basic Uniqueness	आपको duplication rate और distinct count चाहिए, distribution या boilerplate analysis नहीं
Case Sensitive	OFF	Email addresses case-insensitive हैं। “John@Company.com” और “john@company.com” same address हैं।
Include Blanks	ON	Lead पर blank email quantify करने योग्य problem है। Blanks include करने से सभी empty email records एक “blank” value share करते हैं, Uniqueness Rate lower करते हैं और gap visible बनाते हैं।

Case Sensitive OFF default और email के लिए correct choice है। यदि दो records “jsmith@acme.com” और “JSmith@Acme.com” store करते हैं, तो वे same address हैं। Case sensitivity enable करने से उन्हें distinct count किया जाएगा और duplicate hide होगा।

Sample Results

Foundation Metrics:

Metric	Value
Uniqueness Rate	74%
Distinct Count	18,500

कुल Lead records evaluated: 25,000।

Results पढ़ना

Headline से शुरू करें: 74% uniqueness। इसका मतलब है 26% email addresses एक से अधिक Lead records पर हैं। 25,000 Leads में से, केवल 18,500 distinct email addresses exist करते हैं। 6,500 records का gap shared email addresses है।

26% duplicate emails practice में कैसे दिखते हैं। कुछ legitimate हैं: department addresses जैसे info@company.com या sales@company.com एक ही company में multiple contacts में shared। अधिकांश अलग-अलग sources द्वारा created duplicate Leads हैं। एक web form एक Lead बनाता है। एक list import दूसरा बनाता है। एक sales rep business card से तीसरा बनाता है। तीनों का email address same है।

Include Blanks ON full picture reveal करता है। Include Blanks enabled के साथ, बिना email address वाले Leads सभी एक “blank” value share करते हैं। यदि 25,000 Leads में से 2,000 में कोई email नहीं है, तो वे 2,000 records एक-दूसरे के duplicates के रूप में count होते हैं। यह blanks exclude करने की तुलना में Uniqueness Rate lower करता है, लेकिन आपको honest number देता है। आपका campaign अधिकतम 18,500 distinct addresses तक reach कर सकता है, 25,000 नहीं।

Basic Uniqueness यहाँ क्यों enough है। सवाल है “कितने emails duplicate हैं?” Uniqueness Rate और Distinct Count उस सवाल का जवाब देते हैं। Deduplication project launch करने का निर्णय लेने के लिए आपको Entropy या Rarity की जरूरत नहीं है। यदि आप बाद में distribution pattern समझना चाहते हैं (कितने emails exactly दो बार बनाम दस बार appear होते हैं), तो full picture के लिए Advanced Uniqueness Analysis में switch करें।

आगे क्या करें

Email campaigns के लिए अपने real addressable audience के रूप में Distinct Count (18,500) उपयोग करें। Shared emails वाले records के लिए deduplication project scope करें। Email address से grouped Leads export करके शुरू करें, फिर duplicates merge या delete करें। Cleanup के बाद, scan फिर चलाएँ और समय के साथ Uniqueness Rate track करें। यदि scans के बीच यह drop होती है, तो एक नया duplicate source appear हुआ है: list import, बिना dedup logic के web form, या existing ones check किए बिना records create करने वाला integration।

Scenario 2: Accounts पर Industry Field Distribution

समस्या

आपकी data team ने एक Account segmentation model बनाया है जो customers को Industry के अनुसार group करता है। Model targeted segments create करने के लिए 24 industry picklist values use करता है। लेकिन segments uneven हैं: दो segments में सभी Accounts का 70% है, जबकि शेष 22 segments बाकी 30% split करते हैं। Data science team को suspect है कि Industry field में model problem नहीं, distribution problem है। आपको confirm करना है कि field का value distribution genuinely skewed है या नहीं और dominant values identify करनी हैं।

Configuration

Account object पर Industry field को target करते हुए Advanced Uniqueness Analysis mode उपयोग करें। आपको distribution metrics (Entropy, Max Frequency, Rarity) चाहिए values कैसे spread हैं इसके बारे में प्रश्नों का उत्तर देने के लिए।

Setting	Value	क्यों
Analysis Mode	Advanced Uniqueness Analysis	Distribution analysis के लिए Entropy, Max Frequency, और Rarity चाहिए
Case Sensitive	OFF	Picklist values controlled हैं। Case sensitivity यहाँ relevant नहीं है।
Include Blanks	OFF	Blank Industry values completeness problem हैं, uniqueness problem नहीं। Populated values की distribution पर focus करने के लिए उन्हें exclude करें।

Include Blanks OFF इस scenario के लिए right choice है। आप analyze कर रहे हैं कि existing data categories में कैसे distribute है। Blanks को calculation में add करने से distribution metrics distort होंगे बिना आपके segmentation question का जवाब दिए। यदि आप जानना चाहते हैं कि कितने Accounts में कोई Industry value नहीं है, तो इसके बजाय completeness analysis चलाएँ।

Sample Results

Foundation Metrics:

Metric	Value
Uniqueness Rate	0.16%
Distinct Count	24

Advanced Metrics:

Metric	Value
Entropy	2.18
Max Frequency	5,200
Rarity	0%

कुल Account records evaluated: 15,000।

Results पढ़ना

Uniqueness Rate (0.16%) expected और यहाँ irrelevant है। Industry 15,000 records पर 24 values वाली picklist है। लगभग हर value सैकड़ों records से shared है। Picklist field पर low Uniqueness Rate normal है। यह metric इस analysis का point नहीं है।

Distinct Count (24) confirm करता है कि आपकी picklist intact है। सभी 24 configured values data में appear होती हैं। कोई rogue free-text entries exist नहीं करतीं। Consistency standpoint से data clean है।

Entropy (2.18) skew reveal करती है। 24 distinct values के लिए maximum entropy log2(24) = 4.58 है। आपकी actual entropy 2.18 है। Normalized score 2.18 / 4.58 = 0.48 है। यह “dominated” distributions के लिए 0.7 threshold से काफी नीचे falls करता है। कुछ values अधिकांश records hold करती हैं। आपकी data science team का suspicion confirm होता है: segmentation problem model में नहीं, data में है।

Normalized entropy कैसे interpret करें:

Normalized (actual / max)	Interpretation
0.9 या ऊपर	Even distribution: values uniformly spread
0.7 से 0.9	Moderate skew: कुछ values दूसरों से अधिक appear होती हैं
0.7 से नीचे	Dominated: कुछ values अधिकांश records hold करती हैं

आपका score 0.48 “dominated” range में है।

Max Frequency (5,200) dominant value identify करती है। एक industry value 15,000 में से 5,200 records पर appear होती है, या dataset का 34.7%। Quick check reveal करता है कि यह “Technology” है। दूसरी सबसे common value शेष concentration के अधिकांश के लिए जिम्मेदार होने की संभावना है। साथ में, दो values उस 70% clustering account करती हैं जो आपकी team ने observe की।

Rarity (0%) confirm करती है कि कोई long tail नहीं है। 24 में से प्रत्येक distinct value एक से अधिक बार appear होती है। कोई singleton values exist नहीं करती। यह well-controlled picklist field के लिए expected है। Free-text field पर, आप typos और one-off entries catch करने के लिए Rarity देखना चाहेंगे, लेकिन picklist पर, 0% Rarity normal है।

Segmentation verdict: आपका 24-category model really 2-category system है। “Technology” और एक अन्य industry dataset को dominate करती हैं। शेष 22 categories 30% records share करती हैं, प्रत्येक category को औसतन लगभग 200 records देती हैं। कुछ segments meaningful analysis के लिए बहुत छोटे हैं।

आगे क्या करें

Entropy और Max Frequency अपनी data science team को present करें। Numbers distribution problem confirm करते हैं। दो options हैं: (1) Segmentation model को redesign करें कम, broader categories use करने के लिए जो actual distribution reflect करें। 22 smaller industries को 4-5 macro-categories में group करें। (2) Industry data enrich करें। यदि “Technology” में concentration inflated है क्योंकि reps record creation के दौरान default इसे करते हैं, तो investigate करें कि क्या उन 5,200 records का बड़ा portion किसी different industry से belong करता है। Periodic scan चलाएँ और समय के साथ Entropy track करें। जैसे आप misclassified records correct करते हैं, Entropy healthier distribution की ओर rise करती है।

Scenario 3: AI Readiness के लिए Case Description Boilerplate Detection

समस्या

आपकी company support team के लिए AI-powered case summarization evaluate कर रही है। AI tool Cases पर Description field read करता है और अगले agent के लिए summary generate करता है जो case pick up करे। Invest करने से पहले, आपको assess करना है कि आपके case descriptions में AI के लिए useful summaries produce करने के लिए पर्याप्त original content है। Field 95% cases पर populated है, इसलिए completeness concern नहीं है। Concern यह है कि support agents हर case में standard templates copy-paste करते हैं।

Configuration

Case object पर Description field को target करते हुए Advanced Uniqueness Analysis mode उपयोग करें। Content originality evaluate करने के लिए आपको boilerplate metrics चाहिए।

Setting	Value	क्यों
Analysis Mode	Advanced Uniqueness Analysis	Boilerplate detection enable करता है (Boilerplate Rate, Boilerplate Percentage, Boilerplate Records Count)
Case Sensitive	OFF	Template detection casing पर depend नहीं करती
Include Blanks	OFF	Empty descriptions completeness problem हैं। Populated content की quality पर focus करने के लिए उन्हें exclude करें।

Include Blanks OFF यहाँ sense बनाता है क्योंकि आप existing content evaluate कर रहे हैं, missing content count नहीं कर रहे। Empty descriptions वाले 5% cases पहले से आपके completeness analysis द्वारा handle हैं।

Sample Results

Foundation Metrics:

Metric	Value
Uniqueness Rate	97%
Distinct Count	29,100

Advanced Metrics:

Metric	Value
Entropy	14.8
Boilerplate Rate	42%
Boilerplate Percentage	68%
Boilerplate Records Count	20,400

कुल Case records evaluated: 30,000।

Results पढ़ना

Uniqueness Rate (97%) healthy दिखती है, लेकिन यह misleading है। लगभग हर case description technically different है क्योंकि प्रत्येक में unique case numbers, customer names, और dates हैं। Field basic duplication check pass करती है। लेकिन “unique” का मतलब “original” नहीं है।

Boilerplate Rate (42%) real story बताती है। Case descriptions में text content का 42% repetitive या templated है। Agents standard openings (“Thank you for contacting support. Your case number is…”), standard closings (“Please do not hesitate to reach out if you have further questions.”), और standard diagnostic checklists हर case में paste करते हैं। Case-specific details बीच में भरते हैं, लेकिन हर description का लगभग आधा copy-paste content है।

Boilerplate Percentage (68%) दिखाती है कि problem कितनी widespread है। 68% case records में templated text है। यह 30,000 में से 20,400 cases हैं। Boilerplate कुछ agents या एक team तक limited नहीं है। यह आपके support process में embedded systemic pattern है।

Boilerplate Records Count (20,400) आपका scope number है। यदि आपको AI को data feed करने से पहले templates clean up करने के effort को estimate करना है, तो यह starting point है। 20,400 records में ऐसा content है जिसे AI patterns के रूप में सीखेगा, लेकिन वे patterns आपके templates हैं, आपकी customer issues नहीं।

AI readiness verdict: AI summarization tool 68% cases पर templated content process करेगा। यह आपके templates को summarize करना सीखेगा, आपकी customer problems नहीं। Original content वाले 32% cases पर, AI अच्छा perform करेगा। Boilerplate वाले 68% पर, summaries उन standard phrases को echo back करेंगी जो agents पहले से दिल से जानते हैं।

Entropy (14.8) high है, confirming करती है कि text character level पर diverse है। यह 97% Uniqueness Rate के साथ align है: हर description different है। Entropy यहाँ relevant metric नहीं है क्योंकि duplication problem identical values नहीं है। Problem otherwise unique text के भीतर repeated content patterns है। यह exactly वही है जो boilerplate metrics catch करने के लिए design किए गए हैं।

आगे क्या करें

Boilerplate Rate (42%) और Boilerplate Percentage (68%) अपने AI project stakeholders को present करें। Numbers case बनाते हैं: AI project को deployment से पहले content quality improvement phase की जरूरत है। Boilerplate reduce करने के तीन approaches:

Templates remove करें। यदि agents standard openings और closings paste कर रहे हैं, तो उन elements को case layout या screen flow में build करें ताकि वे description field को pollute न करें। Description फिर केवल case-specific information capture करती है।
Agents को effective descriptions पर train करें। High-quality descriptions के examples share करें (32% जो original हैं उनसे) और explain करें कि template-free entries बेहतर AI summaries क्यों produce करती हैं।
Historical data से boilerplate strip करें। Existing cases को AI को feed करने से पहले, description field से known template patterns remove करने वाला text processing job चलाएँ।

प्रत्येक improvement cycle के बाद scan फिर चलाएँ। इस field के लिए primary AI readiness metrics के रूप में Boilerplate Rate और Boilerplate Percentage track करें। AI summarization tool deploy करने से पहले आपका target: 30% से नीचे Boilerplate Percentage और 20% से नीचे Boilerplate Rate।

अपना Configuration चुनना

अपने uniqueness analysis के लिए right starting point pick करने के लिए इस table का उपयोग करें।

यदि आपको करना है…	यहाँ से शुरू करें	Key Settings
Identifier field (Email, Phone, Account Name) पर duplicate values audit करें	Basic Uniqueness	Case Sensitive: OFF, blank volume reveal करने के लिए Include Blanks: ON
Concrete record count के साथ deduplication project size करें	Basic Uniqueness	Total records और unique values के बीच gap calculate करने के लिए Distinct Count उपयोग करें
Picklist या categorical field पर value distribution analyze करें	Advanced Uniqueness Analysis	Entropy (max के विरुद्ध normalized), Max Frequency, और Rarity review करें
AI project से पहले text fields में templated content detect करें	Advanced Uniqueness Analysis	Boilerplate Rate, Boilerplate Percentage, और Boilerplate Records Count review करें
Determine करें कि “healthy” uniqueness score deeper problems hide करता है	Advanced Uniqueness Analysis	Uniqueness Rate को Entropy (distribution skew के लिए) या Boilerplate Rate (content originality के लिए) के साथ pair करें

सभी 8 uniqueness metrics, तीन diagnostic layers, और configuration details का full reference के लिए main Uniqueness article पर return करें।

अपनी खुद की data quality measure करने के लिए तैयार हैं? अपने uniqueness scores और अधिक देखने के लिए AI Readiness Assessment लें।