पाँच आयामों को समझना
डेटा गुणवत्ता पाँच प्रमुख आयामों में मापी जाती है। प्रत्येक आयाम आपके डेटा के बारे में एक विशिष्ट प्रश्न का उत्तर देता है, और साथ में वे यह निर्धारित करते हैं कि आपका डेटा उद्देश्य के लिए उपयुक्त है या नहीं।
DQS Salesforce के भीतर सभी पाँच आयामों को नेटिव रूप से मापता है।
| आयाम | मुख्य प्रश्न | उदाहरण समस्या |
|---|---|---|
| Completeness | क्या डेटा मौजूद है? | ईमेल पते गायब हैं |
| Validity | क्या प्रारूप सही है? | विकृत फोन नंबर |
| Uniqueness | क्या प्रत्येक रिकॉर्ड अलग है? | डुप्लिकेट Contact |
| Timeliness | क्या डेटा वर्तमान है? | पुरानी Opportunity तारीखें |
| Consistency | क्या डेटा एकसमान है? | ”USA” बनाम “United States” |
1. Completeness
Completeness मापती है कि आवश्यक डेटा मान मौजूद हैं और गायब नहीं हैं।
DQS क्या मापता है
- Fill Rate: गैर-खाली मान वाले रिकॉर्ड का प्रतिशत
- Blank Detection: खाली स्ट्रिंग और केवल व्हाइटस्पेस मान
- Placeholder Detection: “N/A”, “TBD”, या “Unknown” जैसे मान
Completeness क्यों महत्वपूर्ण है
अपूर्ण डेटा स्वचालन को तोड़ता है। जब किसी Workflow को ऐसे ईमेल पते की आवश्यकता होती है जो मौजूद नहीं है, तो Workflow विफल हो जाती है। जब कोई रिपोर्ट Industry पर फ़िल्टर करती है लेकिन आधे रिकॉर्ड में Industry मान नहीं हैं, तो आपका विश्लेषण केवल एक हिस्से की तस्वीर दिखाता है।
सामान्य Completeness समस्याएँ
| समस्या | उदाहरण | प्रभाव |
|---|---|---|
| खाली फ़ील्ड | खाली Contact Phone | संभावित ग्राहकों को कॉल नहीं कर सकते |
| Placeholder मान | Company Name में “TBD” | रिपोर्टिंग के लिए अमान्य |
| केवल व्हाइटस्पेस | Description में ” “ | भरा हुआ दिखता है लेकिन है नहीं |
सुझाव: अपने सबसे महत्वपूर्ण फ़ील्ड से शुरुआत करें। आपको हर फ़ील्ड पर 100% Completeness की जरूरत नहीं है, केवल उन पर जो आपके उपयोग के मामले के लिए महत्वपूर्ण हैं।
2. Validity
Validity मापती है कि डेटा मान अपेक्षित प्रारूपों और पैटर्न के अनुरूप हैं या नहीं।
DQS क्या मापता है
- Format Validation: Email, phone, URL पैटर्न
- Pattern Matching: कस्टम regex पैटर्न
- Domain Validation: अनुमत मानों की सूचियाँ
Validity बनाम सटीकता
Validity और सटीकता अलग हैं। एक ईमेल पता वैध (सही प्रारूप) हो सकता है लेकिन अशुद्ध (गलत व्यक्ति)। DQS Validity मापता है क्योंकि प्रारूप सत्यापन को स्वचालित किया जा सकता है। सटीकता के लिए बाहरी सत्यापन की आवश्यकता होती है।
| जाँच | वैध? | सटीक? |
|---|---|---|
| john@company.com | हाँ | सत्यापन के बिना अज्ञात |
| john@company | नहीं | N/A (प्रारूप गलत है) |
| john.smith@oldcompany.com | हाँ | नहीं (व्यक्ति ने कंपनी छोड़ दी) |
Salesforce में सामान्य Validity समस्याएँ
- ”@” या डोमेन के बिना ईमेल पते
- गलत अंक संख्या वाले फोन नंबर
- प्रोटोकॉल (http/https) के बिना URL
- जहाँ Picklist मान अपेक्षित हों वहाँ फ्री-टेक्स्ट
3. Uniqueness
Uniqueness मापती है कि डेटा मान अलग और गैर-डुप्लिकेट हैं।
DQS क्या मापता है
- Duplicate Detection: रिकॉर्ड में सटीक मिलान
- Distinct Count: प्रति फ़ील्ड कुल अनन्य मान
- Entropy Analysis: मान विविधता और वितरण
डुप्लिकेट की लागत
डुप्लिकेट रिकॉर्ड स्टोरेज बर्बाद करते हैं, उपयोगकर्ताओं को भ्रमित करते हैं, और अतिरंजित मेट्रिक्स उत्पन्न करते हैं। जब Sales के पास एक ही कंपनी के लिए दो रिकॉर्ड हों, तो वे संदर्भ खो देते हैं और शर्मनाक डुप्लिकेट आउटरीच का जोखिम होता है।
शोध दिखाता है:
- B2B डेटाबेस में औसतन 10-30% डुप्लिकेट रिकॉर्ड होते हैं
- प्रत्येक डुप्लिकेट संगठनों को बर्बाद ईमेल भेजों, भ्रमित रिपोर्टिंग और खंडित ग्राहक इतिहास में लागत देता है
डुप्लिकेट रोकथाम बनाम डिटेक्शन
DQS डिटेक्शन पर ध्यान केंद्रित करता है, जो मौजूद डुप्लिकेट पहचानने में मदद करता है। रोकथाम (निर्माण पर डुप्लिकेट रोकना) Salesforce सेटअप में Validation Rule और Matching Rule की आवश्यकता होती है।
4. Timeliness
Timeliness मापती है कि डेटा अपने इच्छित उपयोग के लिए पर्याप्त वर्तमान है।
DQS क्या मापता है
- Freshness Rate: स्वीकार्य आयु के भीतर रिकॉर्ड का प्रतिशत
- Staleness Detection: आपकी सीमा से अधिक रिकॉर्ड
- Average Age: दिनांक फ़ील्ड मानों की औसत आयु
- Future Date Detection: भविष्य में अमान्य तारीखें
ताजगी सीमाएँ निर्धारित करना
विभिन्न डेटा प्रकारों की अलग-अलग ताजगी आवश्यकताएँ होती हैं:
| डेटा प्रकार | सामान्य सीमा | क्यों |
|---|---|---|
| Lead Last Activity | 30 दिन | ठंडे लीड मूल्य खो देते हैं |
| Contact Info | 90 दिन | लोग नौकरी बदलते हैं |
| Opportunity Close Date | वर्तमान तिमाही | पूर्वानुमान सटीकता |
| Account Annual Revenue | 1 वर्ष | वार्षिक अपडेट अपेक्षित |
AI के लिए Timeliness क्यों महत्वपूर्ण है
AI और machine learning मॉडल आपके डेटा से सीखते हैं। जब आपका डेटा पुराना होता है, तो AI पुराने पैटर्न सीखता है। Agentforce, उदाहरण के लिए, प्रतिक्रियाओं को सूचित करने के लिए आपके Salesforce डेटा का उपयोग करता है। पुरानी संपर्क जानकारी गलत अनुशंसाओं की ओर ले जाती है।
5. Consistency
Consistency मापती है कि डेटा मान एकसमान और मानकीकृत हैं।
DQS क्या मापता है
- Conformance Rate: अपेक्षित पैटर्न से मेल खाने वाला प्रतिशत
- Variant Detection: एक ही मान के विभिन्न प्रतिनिधित्व
- Dominant Value Analysis: प्रति फ़ील्ड सबसे सामान्य मान
असंगतता के प्रकार
| प्रकार | उदाहरण | समस्या |
|---|---|---|
| प्रारूप भिन्नता | ”USA” बनाम “United States” बनाम “US” | फ़िल्टरिंग और समूहीकरण टूटता है |
| वर्तनी भिन्नता | ”Acme Corp” बनाम “ACME Corporation” | गलत डुप्लिकेट बनाता है |
| केस भिन्नता | ”new york” बनाम “New York” | रिपोर्ट में अव्यावसायिक दिखता है |
AI के लिए Consistency क्यों महत्वपूर्ण है
AI मॉडल “USA” और “United States” को अलग-अलग मानों के रूप में मानते हैं। यदि आपके रिकॉर्ड दोनों का उपयोग करते हैं, तो AI उन्हें सही ढंग से समूहीकृत नहीं कर सकता। असंगत डेटा AI की समझ को खंडित करता है और अविश्वसनीय आउटपुट उत्पन्न करता है।
Consistency प्राप्त करना
- जहाँ संभव हो Picklist का उपयोग करें, फ्री टेक्स्ट के बजाय
- प्रत्येक फ़ील्ड के लिए एक एकल प्रारूप पर मानकीकरण करें
- DQS Consistency जाँच कॉन्फ़िगर करते समय Picklist मानों से आयात करें
आयामों को संतुलित करना
हर उपयोग के मामले के लिए हर आयाम समान रूप से महत्वपूर्ण नहीं होता। विचार करें कि आपको क्या चाहिए:
| उपयोग का मामला | प्राथमिकता आयाम |
|---|---|
| Marketing अभियान | Completeness, Validity (डिलीवरेबिलिटी के लिए) |
| Sales पूर्वानुमान | Timeliness, Completeness |
| Customer service | Uniqueness (सत्य का एकल स्रोत) |
| AI/Agentforce | सभी पाँच, साथ ही AI Readiness जाँच |
DQS आयाम कवरेज
DQS व्यापक क्षमताओं के साथ सभी पाँच आयाम मापता है:
| आयाम | DQS क्या मापता है |
|---|---|
| Completeness | Fill rate, null detection, blank detection, placeholder detection, contextual logic |
| Validity | Format validation, custom regex patterns, invalid record identification |
| Uniqueness | Duplicate detection, entropy analysis, frequency distribution |
| Timeliness | Freshness rate, staleness detection, average age, future date detection |
| Consistency | Conformance checking, variant discovery, dominant value analysis |
अगले कदम
अब जब आप पाँच आयाम समझते हैं:
- अपने वर्तमान स्कोर देखने के लिए AI Readiness Assessment लें
- बुनियादी डेटा गुणवत्ता से परे अतिरिक्त जाँचों के लिए Agentforce Preparation के बारे में पढ़ें
- जानें कि अपना पहला स्कैन कॉन्फ़िगर करने के लिए Definition Builder का उपयोग कैसे करें