التفرّد | DQS Resources

ما هو التفرّد؟

يقيس التفرّد ما إذا كانت قيم بياناتك متميّزة وغير مكررة. يمتلك الحقل تفرّدًا عاليًا عندما يحتوي كل سجل على قيمة مختلفة. ينهار التفرّد عندما تظهر القيمة نفسها عبر سجلات متعدّدة، أو عندما تحتوي الحقول النصية على محتوى قوالب متكرّر لا يضيف قيمة تحليلية.

السجلات المكررة تكلّف مؤسستك في كل مرحلة. ثلاثة سجلات Account لنفس الشركة تُقسّم خطّ الأنابيب. سجلّا Contact للشخص نفسه يحصلان على رسالتين تسويقيتين. النص الجاهز المنسوخ في آلاف من أوصاف Case يجعل استخراج الرؤى مستحيلًا. يقيس تحليل التفرّد كل هذه المشكلات.

Uniqueness Rate = (السجلات ذات القيم الفريدة / إجمالي السجلات) × 100

إذا كان 7800 من أصل 10000 سجل Contact لديهم قيمة Email مميّزة، فإن معدّل تفرّد Email لديك هو 78%. تتشارك الـ 22% المتبقية عناوين بريد إلكتروني مع سجل آخر على الأقل. هذا المقياس الوحيد يخبرك ما إذا كان الحقل الذي يتوقّع قيمًا فريدة يمتلكها فعلًا.

لماذا يهمّ التفرّد

التقارير

السجلات المكررة تضخّم أرقامك. عندما تظهر الشركة نفسها كثلاثة Accounts، يكون عدد Account مبالغًا فيه بمقدار اثنين. تقارير خطّ الأنابيب تُظهر ثلاث صفقات حيث توجد واحدة. أعداد العملاء المستخدمة في عروض مجلس الإدارة وتقارير المستثمرين خاطئة.

الأتمتة

تعالج Salesforce automation كل سجل بشكل مستقل. Account مكرر يُشغّل workflows مكررة، ويُرسل إشعارات مكررة، وينشئ tasks مكررة. عملية تجديد تُشغّل على كل Account يطابق اسم شركة تُشغّل ثلاث مرات بدلًا من واحدة.

الذكاء الاصطناعي و Agentforce

تعالج نماذج الذكاء الاصطناعي كل سجل ككيان منفصل. السجلات المكررة تجزّئ رؤية النموذج للعميل. يُولّد Agentforce الردود باستخدام بيانات Salesforce لديك. عندما توجد ثلاثة سجلات Account لنفس الشركة، يرى Agentforce ثلاثة عملاء، لا عميلًا واحدًا بتاريخ كامل. المحتوى المتكرر في الحقول النصية يعلّم النموذج قوالبك لا أنماط عملك.

النظام	تأثير التفرّد
التقارير	أعداد منتفخة، مقاييس مجزّأة
سير العمل	مُشغّلات مكررة، إشعارات زائدة
قواعد المكررات	مُربَكة بمكررات موجودة إذا لم تُكتشف
Agentforce	رؤية عميل مجزّأة، تعلّم ملوّث بالقوالب

كيف يقيس DQS التفرّد

ينتج DQS 6 مقاييس للتفرّد منظّمة حول سؤال تشخيصي: «هل البيانات متميّزة، وكيف توزّعت، وهل محتوى النص أصلي؟»

فكّر في هذه المقاييس كتدفّق تشخيصي. كل طبقة تبني على التي قبلها.

الطبقة 1: هل القيم فريدة؟

Uniqueness Rate هو المقياس الرئيسي. يحسب نسبة السجلات التي تكون فيها قيمة الحقل متميّزة (غير مكررة في أي مكان آخر في مجموعة البيانات). هذا هو الرقم الذي تضعه في لوحة المعلومات.

تشغّل فحصًا على كائن Contact. يُظهر حقل Email معدّل تفرّد بنسبة 78%. هذا يعني أن 22% من عناوين البريد الإلكتروني تظهر على أكثر من Contact. بعضها مشروع (رسائل قسم مشتركة مثل info@company.com)، لكن معظمها على الأرجح contacts مكررة تحتاج إلى دمج. هذا الرقم الواحد يبرّر مبادرة تنقية المكررات.

Distinct Count يخبرك بـ cardinality الحقل: كم عدد القيم المختلفة الموجودة فعلًا. إذا احتوى 10000 سجل Contact على 8200 عنوان بريد إلكتروني متميّز، فإن Distinct Count هو 8200.

مثال: تتوقّع أن يحتوي picklist Lead_Source على حوالي 12 قيمة (خيارات picklist المُعدّة لديك). لكن Distinct Count يُظهر 87. قبل أن يُقيَّد picklist، كان المندوبون يكتبون قيمًا بنص حرّ. «Web» و«web» و«Website» و«Webinar» و«web form» كلها تُحسب كقيم متميّزة. يكشف هذا المقياس أن بيانات Lead Source لديك تحتاج إلى توحيد، حتى وإن كان picklist الآن مقفلًا.

الطبقة 2: كيف تتوزّع البيانات؟

يخبرك Uniqueness Rate كم عدد القيم الفريدة. مقاييس التوزيع تخبرك كيف تنتشر هذه القيم عبر السجلات. يمكن أن يكون لحقلين نفس Uniqueness Rate لكن بتوزيعات مختلفة جدًا.

Entropy يقيس مدى توزيع القيم بتوازن باستخدام entropy لشانون. يتراوح المقياس من 0 (كل سجل يحمل نفس القيمة بالضبط) إلى حد أقصى يحدّده عدد القيم المتميّزة. Entropy أعلى يعني بيانات أكثر تنوّعًا وأكثر توزيعًا بالتساوي.

Entropy وحدها لا تعني شيئًا. قارنها بأقصى entropy ممكن لهذا الحقل. الأقصى = log2(Distinct Count)، وهو entropy الذي تحصل عليه إذا ظهرت كل قيمة متميّزة بالعدد نفسه بالضبط. النسبة (الفعلي / الأقصى) تعطيك درجة موحّدة من 0 إلى 1:

الموحّدة (الفعلي / الأقصى)	التفسير
0,9 أو أعلى	توزيع متوازن: القيم منتشرة بشكل موحّد
0,7 إلى 0,9	انحراف معتدل: بعض القيم تظهر أكثر من غيرها
أقل من 0,7	مسيطَر عليه: قليل من القيم تحمل معظم السجلات

مثال: حقل Industry في Accounts لديه معدّل تفرّد 2% (متوقّع لـ picklist) و24 قيمة متميّزة. يبدو جيدًا. لكن entropy تبلغ 1,3، وأقصى entropy لـ 24 قيمة هو 4,6. الدرجة الموحّدة 0,28. التوزيع منحرف بشدة: 60% من السجلات «Technology» و«Financial Services». تقسيمك القائم على الصناعة هو نظام من فئتين مُقنَّع كـ 24 فئة.

Max Frequency يعطيك عدد ظهور القيمة الأكثر شيوعًا. إذا ظهرت «London» 8400 مرة في حقل City، فإن Max Frequency هو 8400.

قيمة مهيمنة واحدة غالبًا ما تشير إلى مشكلة قيمة افتراضية، أو أثر هجرة، أو تركيز تجاري حقيقي يحتاج إلى فحص. Max Frequency يطرح السؤال. فحص سريع للقيمة الفعلية يُجيب عنه.

مثال: حقل Billing_Country لديه Max Frequency بـ 34000 من أصل 40000 سجل. هذا 85% من السجلات بدولة واحدة. إما أن عملك مركّز فعلًا في سوق واحد، أو أن شخصًا ما ضبط افتراضًا أثناء الهجرة. المقياس يُبرز النمط، وأنت تحدّد السبب.

الطبقة 3: هل محتوى النص أصلي؟

تقيس الطبقتان الأوليان ما إذا كانت القيم متطابقة. تطرح الطبقة 3 سؤالًا مختلفًا: هل محتوى النص متشابه جوهريًا؟ يمكن لوصفَي Case أن يكونا فريدَين بنسبة 100% (أرقام Case وتواريخ مختلفة) لكن قالبًا بنسبة 90% (نفس القالب، نفس العبارات).

Boilerplate Rate هو المقياس الرئيسي لأصالة محتوى النص. يقيس نسبة المحتوى المتكرّر أو المبني على قوالب. درجة أعلى تعني محتوى أكثر أصالة مع قوالب أقل. يكتشف DQS القوالب الشائعة مثل توقيعات البريد الإلكتروني وإخلاء المسؤولية القانوني والعبارات المتكرّرة.

مثال: تقيّم مؤسستك ما إذا كان حقل Description في Opportunities مناسبًا لتحليل الربح/الخسارة المدعوم بالذكاء الاصطناعي. Uniqueness Rate بنسبة 99% (كل وصف مختلف تقنيًا). لكن Boilerplate Rate يكشف أن 65% من المحتوى يتبع القالب نفسه: «العميل: [الاسم]. الحاجة: [المنتج]. الجدول الزمني: [التاريخ]». سيتعلّم نموذج الذكاء الاصطناعي بنية قالبك، لا أنماط فوزك. Boilerplate Rate يُنقذك من مشروع ذكاء اصطناعي قمامة-داخل-قمامة-خارج.

Boilerplate Records Count يعطيك نطاق التنظيف كرقم مطلق. إذا احتوى 12400 سجل على قوالب، يعرف data steward لديك حجم مشروع المعالجة. يمكنها تقدير الساعات وتخصيص الموارد ووضع جدول زمني واقعي.

مثال: يُسجّل فريق الدعم لديك كل تفاعل في Case Comments. Boilerplate Records Count يُظهر 12400. يكشف الفحص أن الوكلاء يُلصقون فتحًا قياسيًا («شكرًا على تواصلك مع الدعم. رقم حالتك هو…») وإغلاقًا («لا تتردّد في التواصل…») في كل case. قبل استخدام الذكاء الاصطناعي لتحليل تفاعلات الدعم، تحتاج هذه السجلات الـ 12400 إلى تجريد القالب.

ثلاث زوايا للتحليل

تغطّي مقاييس التفرّد ثلاثة اهتمامات مميّزة، كل منها يخدم صاحب مصلحة مختلف:

الاهتمام	المقاييس	السؤال	صاحب المصلحة
التكرار	Uniqueness Rate, Distinct Count	هل لدينا قيم مكررة؟	Data stewards (مرشّحو الدمج، قواعد dedup)
التوزيع	Entropy, Max Frequency	كيف تنتشر البيانات عبر القيم؟	المحلّلون وعلماء البيانات (التقسيم، النمذجة)
الأصالة	Boilerplate Rate, Boilerplate Records Count	هل محتوى النص أصلي فعلًا؟	فرق الذكاء الاصطناعي (جودة بيانات التدريب، استخراج المحتوى)

مرجع المقاييس

المقاييس الأساسية

يشكّل هذان المقياسان أساس كل تحليل للتفرّد. ويعملان على جميع أنواع الحقول الـ 15 المدعومة.

المقياس	النوع	ما يقيسه
Uniqueness Rate	نسبة	حصة السجلات ذات القيم غير المكررة
Distinct Count	عدد	إجمالي عدد القيم المتميّزة في الحقل

المقاييس المتقدّمة

تتجاوز هذه المقاييس الأربعة سؤال «هل القيم فريدة؟» لتحليل أنماط التوزيع وأصالة النص. وتتطلّب وضع Advanced Uniqueness Analysis.

المقياس	النوع	ما يقيسه
Entropy	عشري	مدى توزيع القيم بتوازن (Shannon entropy)
Max Frequency	عدد	عدد ظهور القيمة الأكثر شيوعًا
Boilerplate Rate	نسبة	درجة المحتوى المبني على قوالب أو المتكرّر
Boilerplate Records Count	عدد	عدد السجلات ذات محتوى القوالب

تغطية أنواع الحقول

تنطبق مقاييس مختلفة على أنواع حقول مختلفة بناءً على ما تقيسه.

مجموعة التغطية	أنواع الحقول	المقاييس المتاحة
جميع الأنواع (15)	String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox	Uniqueness Rate, Distinct Count
أنواع التحليل (9)	String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL	Entropy, Max Frequency
الحقول النصية (3)	String, TextArea, Html	Boilerplate Records Count
الحقول النصية الطويلة (3)	TextArea, LongTextArea, Html	Boilerplate Rate

تعمل المقاييس الأساسية على جميع أنواع الحقول الـ 15 لأن أي حقل يمكن أن يحتوي على مكررات. تعمل مقاييس التوزيع (Entropy, Max Frequency) على 9 أنواع حقول تنتج جداول تكرار قابلة للعدّ. تنطبق مقاييس boilerplate فقط على الحقول النصية لأنها تكتشف أنماط محتوى متكرّر في بيانات نص حرّ.

وضعَا التحليل

يقدّم DQS وضعَين لتحليل التفرّد:

Basic Uniqueness يجيب عن السؤال: «هل القيم متميّزة؟». ينتج المقياسين الأساسيَين ويغطّي الضروريات لفحص كشف مكررات سريع أو تدقيق خطّ أساس.

Advanced Uniqueness Analysis يذهب أعمق. ينتج جميع المقاييس الستة، بما في ذلك تحليل التوزيع وأنماط التكرار وكشف boilerplate. استخدم هذا الوضع عندما تحتاج إلى فهم الصورة الكاملة لتوزيع البيانات وأصالة النص، ليس فقط معدّل التكرار.

الحاجة التجارية	الوضع الموصى به
تدقيق كشف مكررات سريع	Basic Uniqueness
تقييم هجرة البيانات	Advanced (Max Frequency يلتقط القيم الافتراضية، Entropy يكشف الانحراف)
فحص نظافة picklist	Advanced (Entropy + Max Frequency يكشفان الانحراف واحتياجات التوحيد)
تقييم بيانات تدريب الذكاء الاصطناعي	Advanced (مقاييس boilerplate تقيّم أصالة المحتوى)
حوكمة البيانات المستمرة	ابدأ بـ Basic Uniqueness، وانتقل إلى Advanced لتحليل أعمق

إعداد التفرّد

يقدّم DQS مدخلَي إعداد للتفرّد. يمكن ضبط كل منهما على المستوى العالمي (ينطبق على جميع الحقول) وتجاوزه على مستوى الحقل الفردي.

الإعداد	ما يتحكّم فيه
Case Sensitive	يتحكّم في ما إذا كانت مقارنة القيم تأخذ حالة الأحرف في الاعتبار. عند التعطيل (الافتراضي)، «Apple» و«apple» تُحسبان قيمة واحدة. عند التفعيل، تُحسبان قيمتين متميّزتين.
Include Blanks	يتحكّم في ما إذا كانت السجلات الفارغة وnull تُحسب في حسابات التفرّد. عند التعطيل (الافتراضي)، تُستبعد الفراغات من التقييم. عند التفعيل، تتشارك جميع السجلات الفارغة قيمة «فارغ» واحدة، مما قد يخفض معدّل التفرّد على الحقول التي تحتوي على كثير من السجلات الفارغة.

الإعداد

ما يتحكّم فيه

Case Sensitive

يتحكّم في ما إذا كانت مقارنة القيم تأخذ حالة الأحرف في الاعتبار. عند التعطيل (الافتراضي)، «Apple» و«apple» تُحسبان قيمة واحدة. عند التفعيل، تُحسبان قيمتين متميّزتين.

Include Blanks

يتحكّم في ما إذا كانت السجلات الفارغة وnull تُحسب في حسابات التفرّد. عند التعطيل (الافتراضي)، تُستبعد الفراغات من التقييم. عند التفعيل، تتشارك جميع السجلات الفارغة قيمة «فارغ» واحدة، مما قد يخفض معدّل التفرّد على الحقول التي تحتوي على كثير من السجلات الفارغة.

نصيحة: عطّل Case Sensitive (الافتراضي) لمعظم الحقول. فعّله فقط عندما تحمل حالة الأحرف معنى، مثل رموز المنتجات حيث «ABC-100» و«abc-100» عنصران مختلفان فعلًا.

متى تُفعّل Include Blanks

افتراضيًا، يستبعد DQS السجلات الفارغة وnull من حسابات التفرّد. هذا منطقي للحقول الاختيارية حيث تكون الفراغات متوقّعة.

فعّل Include Blanks عندما تكون الفراغات نفسها هي المشكلة التي تريد قياسها. إذا كان 3000 سجل Contact بدون قيمة Email، فإن هذه الفراغات الـ 3000 تتشارك قيمة «فارغ» واحدة في حساب التفرّد. هذا يخفض Uniqueness Rate ويجعل مشكلة الفراغ مرئية في المقياس الرئيسي.

مثال: تفحص Phone في Contacts مع تعطيل Include Blanks. Uniqueness Rate 91%. تفعّل Include Blanks وتعيد الفحص. ينخفض Uniqueness Rate إلى 72%. يكشف الفرق أن جزءًا كبيرًا من سجلات Contact لديك يتشارك سمة واحدة: عدم وجود رقم هاتف. بدا الحقل صحيًا عندما استُبعدت الفراغات، لكن الصورة الكاملة تروي قصة مختلفة.

مشكلات التفرّد الشائعة

سجلات مكررة من عمليات الاستيراد الجماعي

تُدخل هجرات البيانات واستيراد القوائم مكررات عندما يكون منطق المطابقة غير كافٍ. قائمة Contact مُشتراة تنشئ سجلات جديدة لأشخاص موجودين بالفعل. تصدير نظام قديم ينشئ Accounts تتداخل مع البيانات الحالية.

الحل: دقّق عمليات الاستيراد قبل التحميل. استخدم DQS لإرساء خطّ أساس للتفرّد على حقول المعرّفات الرئيسية (Email, Phone, Website) قبل وبعد كل استيراد.

القيم الافتراضية المتنكّرة كبيانات

غالبًا ما تكتب التكاملات والهجرات قيمًا افتراضية في الحقول. «Unknown» أو «N/A» أو اسم الشركة نفسها يظهر على آلاف السجلات. تُضخّم هذه أعداد المكررات وتشوّه مقاييس التوزيع.

الحل: شغّل Advanced Uniqueness Analysis. Max Frequency يكشف القيمة المهيمنة. إذا ظهرت قيمة واحدة على 85% من السجلات، حقّق ما إذا كانت بيانات حقيقية أم افتراضًا.

حقول نص حرّ بدون حوكمة

تتراكم الاختلافات بمرور الوقت في الحقول النصية التي تفتقر إلى قيود picklist. يُخزّن حقل Job_Title في Contacts الدور نفسه بـ 15 طريقة مختلفة. يرتفع Distinct Count بينما يظلّ مجموعة المفهوم التجاري الفعلي صغيرة.

الحل: شغّل Advanced Uniqueness Analysis على الحقول النصية التي تخطّط لتوحيدها. استخدم Distinct Count و Entropy لتحديد نطاق جهد التوحيد. حوّل حقول النص الحرّ عالية القيمة إلى picklists.

حقول نصية ملوّثة بالقوالب

يُلصق وكلاء الدعم مقدّمات وخواتم قياسية في كل case. ينسخ مندوبو المبيعات قوالب وصف الفرص. الحقول «فريدة» تقنيًا (أرقام case وتواريخ مختلفة)، لكن المحتوى متطابق بنسبة 90%.

الحل: شغّل Advanced Uniqueness Analysis مع كشف boilerplate على الحقول النصية. Boilerplate Rate يكشف درجة تلوّث القوالب. عالِج هذا قبل استخدام هذه الحقول لتدريب الذكاء الاصطناعي أو التحليل.

معرّفات مشتركة تبدو كمكررات

رسائل القسم (info@company.com) وأرقام الهاتف المشتركة وأرقام الفاكس على مستوى الشركة تخلق قيمًا مكررة مشروعة. ليس كل معدّل تفرّد منخفض يُشير إلى مشكلة.

الحل: قيّم التفرّد في السياق. حقل Email بتفرّد 78% يحتاج إلى فحص. حقل Fax بتفرّد 40% متوقّع. اضبط عتبات المراقبة بناءً على ما يمثّله الحقل.

أفضل الممارسات

اختر العنوان الصحيح حسب نوع الحقل

Uniqueness Rate هو العنوان الصحيح لحقول المعرّفات (Email, Phone, Account Name). لحقول محتوى النص (Description, Notes, Comments)، ادمج Uniqueness Rate مع Boilerplate Rate للحصول على الصورة الكاملة. يمكن أن يحصل الحقل على 99% Uniqueness Rate ومع ذلك يكون 65% قالبًا.

استخدم مقاييس التوزيع لحقول التقسيم

للحقول التي تستخدمها في التقسيم أو التصفية أو التقارير (Industry, Country, Lead Source)، تحقّق من Entropy و Max Frequency. Entropy منخفض يكشف أن picklist من «24 فئة» هو في الواقع نظام من فئتين. Max Frequency يكشف القيم الافتراضية التي تشوّه تقسيماتك.

تتبّع الاتجاهات عبر الفحوصات

فحص واحد يُظهر الحالة الحالية. شغّل فحوصات بانتظام لاكتشاف مصادر مكررات جديدة، وقياس تأثير مبادرات تنقية المكررات، وتحديد التكاملات التي تُدخل بيانات متكرّرة. حقل ينخفض من 90% إلى 75% تفرّد بين فحصين لديه مصدر مشكلة جديد.

رتّب حسب التأثير التجاري

ليس كل حقل بحاجة إلى تفرّد عالٍ. حقل Email بمكررات يشير إلى مشكلة دمج. حقل Country بمكررات طبيعي. ركّز مراقبة التفرّد على الحقول التي تعمل كمعرّفات أو تدفع قواعد المكررات أو تغذّي نماذج الذكاء الاصطناعي.

عالِج الأسباب الجذرية

التفرّد المنخفض يُشير إلى مشكلة في العملية. حقّق ما إذا كان المستخدمون ينشئون سجلات دون التحقّق من الموجودة، أو أن عمليات الاستيراد تفتقر إلى منطق إزالة التكرار، أو أن التكاملات تكتب قيمًا افتراضية. أصلح المصدر لا العَرَض فقط.

الخطوات التالية

أنت تفهم الآن كيفية قياس وتشخيص مشكلات التفرّد. واصل التعلّم عن البُعد التالي:

التالي: الحداثة — قِس حداثة البيانات وحاليتها
السابق: الصحة — تأكّد من أن البيانات تتبع التنسيقات المتوقّعة
ذو صلة: الأبعاد الخمسة — نظرة عامة على جميع الأبعاد
إجراء: تقييم الجاهزية للذكاء الاصطناعي — اطّلع على درجات تفرّدك الحالية