التفرّد: سيناريوهات الإعداد

ما تغطّيه هذه السيناريوهات

تستعرض هذه الصفحة ثلاثة إعدادات من العالم الحقيقي لتحليل تفرّد DQS. يغطّي كل سيناريو مشكلة عمل محدّدة، ويُظهر الإعدادات الدقيقة للاستخدام، ويشرح كيفية قراءة النتائج.

تبني هذه الجولات على المفاهيم من مقالة التفرّد الرئيسية. اقرأها أولًا إذا كنت جديدًا على مقاييس التفرّد أو طبقات التشخيص أو الفرق بين Basic Uniqueness و Advanced Uniqueness Analysis.

السيناريو 1: تدقيق إزالة تكرار البريد الإلكتروني على Leads

المشكلة

يُشغّل فريق التسويق لديك حملات nurture عبر Salesforce. معدلات الفتح تتراجع، وتُبلّغ منصة البريد الإلكتروني عن عدد متزايد من «إرسالات مكررة»: نفس الشخص يتلقّى نفس الرسالة مرتين. قواعد إدارة المكررات لديك تلتقط السجلات ذات التطابق الدقيق، لكن المكررات الجزئية تفلت. سجلا Lead لنفس الشخص بنفس عنوان البريد الإلكتروني كلاهما يتلقّى الحملة. تحتاج إلى رقم ملموس: كم عدد عناوين البريد الإلكتروني لـ Lead المُشتركة عبر سجلات متعدّدة؟

الإعداد

هذا فحص كشف مكررات مباشر. استخدم وضع Basic Uniqueness على كائن Lead، مستهدفًا حقل Email.

الإعداد	القيمة	لماذا
Analysis Mode	Basic Uniqueness	تحتاج إلى معدّل التكرار والعدّ المتميّز، لا التوزيع أو تحليل boilerplate
Case Sensitive	OFF	عناوين البريد الإلكتروني غير حسّاسة لحالة الأحرف. «John@Company.com» و«john@company.com» هما نفس العنوان.
Include Blanks	ON	البريد الإلكتروني الفارغ على Lead مشكلة تستحقّ القياس الكمي. إدراج الفراغات يعني أن جميع سجلات البريد الإلكتروني الفارغة تتشارك قيمة «فارغ» واحدة، مما يخفض Uniqueness Rate ويجعل الفجوة مرئية.

Case Sensitive OFF هو الافتراضي والخيار الصحيح للبريد الإلكتروني. إذا خزّن سجلان «jsmith@acme.com» و«JSmith@Acme.com»، فهما نفس العنوان. تفعيل حساسية حالة الأحرف سيحسبهما كمتميّزين ويُخفي التكرار.

نتائج عيّنة

المقاييس الأساسية:

المقياس	القيمة
Uniqueness Rate	74%
Distinct Count	18500

إجمالي سجلات Lead المُقيَّمة: 25000.

قراءة النتائج

ابدأ بالعنوان: تفرّد 74%. هذا يعني أن 26% من عناوين البريد الإلكتروني تظهر على أكثر من سجل Lead واحد. من أصل 25000 Lead، توجد فقط 18500 عنوان بريد إلكتروني متميّز. الفجوة البالغة 6500 سجل هي عناوين بريد إلكتروني مشتركة.

كيف تبدو الـ 26% من رسائل البريد الإلكتروني المكررة في الممارسة. بعضها مشروع: عناوين أقسام مثل info@company.com أو sales@company.com مُشتركة عبر جهات اتصال متعدّدة في نفس الشركة. معظمها Leads مكررة أنشأتها مصادر مختلفة. نموذج ويب يُنشئ Lead. استيراد قائمة يُنشئ آخر. مندوب مبيعات يُنشئ ثالثًا من بطاقة عمل. الثلاثة لديهم نفس عنوان البريد الإلكتروني.

Include Blanks ON يكشف الصورة الكاملة. مع تفعيل Include Blanks، Leads بدون عنوان بريد إلكتروني جميعها تتشارك قيمة «فارغ» واحدة. إذا كان 2000 من أصل 25000 Lead ليس لديهم بريد إلكتروني، فإن هذه السجلات الـ 2000 تُحسب كمكررات لبعضها البعض. هذا يخفض Uniqueness Rate مقارنة باستبعاد الفراغات، لكنه يمنحك الرقم الصادق. يمكن لحملتك الوصول إلى 18500 عنوان متميّز في أفضل الأحوال، لا 25000.

لماذا Basic Uniqueness كافٍ هنا. السؤال هو «كم عدد رسائل البريد الإلكتروني المكررة؟». Uniqueness Rate و Distinct Count يجيبان عن هذا السؤال. لست بحاجة إلى Entropy أو Rarity لتقرّر ما إذا كنت ستُطلق مشروع إزالة تكرار. إذا كنت تريد لاحقًا فهم نمط التوزيع (كم عدد الرسائل التي تظهر مرتين بالضبط مقابل عشر مرات)، انتقل إلى Advanced Uniqueness Analysis للصورة الكاملة.

ماذا تفعل بعد ذلك

استخدم Distinct Count (18500) كجمهورك الحقيقي القابل للوصول لحملات البريد الإلكتروني. حدّد نطاق مشروع إزالة تكرار للسجلات ذات عناوين البريد الإلكتروني المُشتركة. ابدأ بتصدير Leads مُجمَّعة حسب عنوان البريد الإلكتروني، ثم ادمج أو احذف المكررات. بعد التنظيف، شغّل الفحص مرة أخرى وتتبّع Uniqueness Rate عبر الزمن. إذا انخفض بين الفحوصات، فقد ظهر مصدر مكررات جديد: استيراد قائمة، نموذج ويب بدون منطق dedup، أو تكامل يُنشئ سجلات دون التحقّق من الموجودة.

السيناريو 2: توزيع حقل Industry على Accounts

المشكلة

بنى فريق البيانات لديك نموذج تقسيم Account يُجمّع العملاء حسب Industry. يستخدم النموذج 24 قيمة picklist للصناعة لإنشاء قطاعات مستهدفة. لكن القطاعات غير متساوية: يحتوي قطاعان على 70% من جميع Accounts، بينما تتشارك الـ 22 قطاع المتبقية الـ 30% الأخرى. يشتبه فريق علوم البيانات في أن حقل Industry لديه مشكلة توزيع، لا مشكلة نموذج. تحتاج إلى تأكيد ما إذا كان توزيع قيم الحقل منحرفًا فعلًا وتحديد القيم المهيمنة.

الإعداد

استخدم وضع Advanced Uniqueness Analysis على كائن Account، مستهدفًا حقل Industry. تحتاج إلى مقاييس التوزيع (Entropy, Max Frequency, Rarity) للإجابة عن أسئلة حول كيفية انتشار القيم.

الإعداد	القيمة	لماذا
Analysis Mode	Advanced Uniqueness Analysis	تحتاج إلى Entropy و Max Frequency و Rarity لتحليل التوزيع
Case Sensitive	OFF	قيم picklist مُتحكَّم بها. حساسية حالة الأحرف غير ذات صلة هنا.
Include Blanks	OFF	قيم Industry الفارغة مشكلة اكتمال، لا تفرّد. استبعدها للتركيز على توزيع القيم المعبّأة.

Include Blanks OFF هو الخيار الصحيح لهذا السيناريو. أنت تُحلّل كيف توزّعت البيانات الموجودة عبر الفئات. إضافة الفراغات إلى الحساب ستُشوّه مقاييس التوزيع دون الإجابة عن سؤال التقسيم لديك. إذا كنت تريد معرفة كم عدد Accounts بدون قيمة Industry، شغّل تحليل اكتمال بدلًا من ذلك.

نتائج عيّنة

المقاييس الأساسية:

المقياس	القيمة
Uniqueness Rate	0,16%
Distinct Count	24

المقاييس المتقدّمة:

المقياس	القيمة
Entropy	2,18
Max Frequency	5200
Rarity	0%

إجمالي سجلات Account المُقيَّمة: 15000.

قراءة النتائج

Uniqueness Rate (0,16%) متوقّع وغير ذي صلة هنا. Industry هو picklist بـ 24 قيمة عبر 15000 سجل. تقريبًا كل قيمة مُشتركة بواسطة مئات السجلات. Uniqueness Rate منخفض على حقل picklist أمر طبيعي. هذا المقياس ليس النقطة من هذا التحليل.

Distinct Count (24) يؤكّد أن picklist لديك سليم. جميع القيم الـ 24 المُعدّة تظهر في البيانات. لا توجد إدخالات نصية حرّة مارقة. البيانات نظيفة من منظور الاتساق.

Entropy (2,18) يكشف الانحراف. أقصى entropy لـ 24 قيمة متميّزة هو log2(24) = 4,58. entropy الفعلي لديك هو 2,18. الدرجة الموحّدة 2,18 / 4,58 = 0,48. هذا يقع جيدًا دون عتبة 0,7 للتوزيعات «المسيطَر عليها». قليل من القيم تحمل معظم السجلات. شكّ فريق علوم البيانات مؤكّد: مشكلة التقسيم في البيانات، لا في النموذج.

كيف تُفسِّر entropy الموحّدة:

الموحّدة (الفعلي / الأقصى)	التفسير
0,9 أو أعلى	توزيع متوازن: القيم منتشرة بشكل موحّد
0,7 إلى 0,9	انحراف معتدل: بعض القيم تظهر أكثر من غيرها
أقل من 0,7	مسيطَر عليه: قليل من القيم تحمل معظم السجلات

درجتك 0,48 في نطاق «المسيطَر عليه».

Max Frequency (5200) يحدّد القيمة المهيمنة. قيمة صناعة واحدة تظهر على 5200 من أصل 15000 سجل، أي 34,7% من مجموعة البيانات. فحص سريع يكشف أنها «Technology». القيمة الثانية الأكثر شيوعًا مسؤولة على الأرجح عن معظم التركيز المتبقّي. معًا، تُمثّل قيمتان تجمّع الـ 70% الذي لاحظه فريقك.

Rarity (0%) يؤكّد عدم وجود long tail. كل قيمة من القيم الـ 24 المتميّزة تظهر أكثر من مرة. لا توجد قيم فردية. هذا متوقّع لحقل picklist مُتحكَّم به جيدًا. على حقل نص حرّ، ستريد رؤية Rarity لالتقاط الأخطاء الإملائية والإدخالات لمرة واحدة، لكن على picklist، Rarity بنسبة 0% أمر طبيعي.

حكم التقسيم: نموذجك من 24 فئة هو في الواقع نظام من فئتين. «Technology» وصناعة أخرى تهيمنان على مجموعة البيانات. الفئات الـ 22 المتبقية تتشارك 30% من السجلات، مما يمنح كل فئة متوسّط حوالي 200 سجل. بعض القطاعات صغيرة جدًّا لتحليل ذي معنى.

ماذا تفعل بعد ذلك

قدّم Entropy و Max Frequency إلى فريق علوم البيانات. الأرقام تؤكّد مشكلة التوزيع. خياران: (1) أعد تصميم نموذج التقسيم لاستخدام فئات أقل وأوسع تعكس التوزيع الفعلي. اجمع الـ 22 صناعة الأصغر في 4–5 فئات كبرى. (2) أثرِ بيانات Industry. إذا كان التركيز في «Technology» مُضخّمًا لأن المندوبين يفترضونها افتراضيًا أثناء إنشاء السجل، حقّق ما إذا كان جزء كبير من تلك السجلات الـ 5200 ينتمي إلى صناعة مختلفة. شغّل فحصًا دوريًا وتتبّع Entropy عبر الزمن. بينما تُصحّح السجلات المُصنّفة بشكل خاطئ، ترتفع Entropy نحو توزيع أكثر صحة.

السيناريو 3: كشف boilerplate في Case Description للجاهزية للذكاء الاصطناعي

المشكلة

تقيّم شركتك تلخيص Cases المدعوم بالذكاء الاصطناعي لفريق الدعم. تقرأ أداة الذكاء الاصطناعي حقل Description على Cases وتُولّد ملخّصًا للوكيل التالي الذي يتعامل مع Case. قبل الاستثمار، تحتاج إلى تقييم ما إذا كانت أوصاف Cases لديك تحتوي على محتوى أصلي كافٍ لينتج الذكاء الاصطناعي ملخّصات مفيدة. الحقل معبّأ على 95% من Cases، لذا الاكتمال ليس القلق. القلق هو أن وكلاء الدعم ينسخون-يلصقون قوالب قياسية في كل case.

الإعداد

استخدم وضع Advanced Uniqueness Analysis على كائن Case، مستهدفًا حقل Description. تحتاج إلى مقاييس boilerplate لتقييم أصالة المحتوى.

الإعداد	القيمة	لماذا
Analysis Mode	Advanced Uniqueness Analysis	يُفعّل كشف boilerplate (Boilerplate Rate, Boilerplate Percentage, Boilerplate Records Count)
Case Sensitive	OFF	كشف القالب لا يعتمد على حالة الأحرف
Include Blanks	OFF	الأوصاف الفارغة مشكلة اكتمال. استبعدها للتركيز على جودة المحتوى المعبّأ.

Include Blanks OFF منطقي هنا لأنك تُقيّم المحتوى الموجود، لا تحسب المحتوى المفقود. الـ 5% من Cases بأوصاف فارغة مُعالَجة بالفعل بتحليل الاكتمال لديك.

نتائج عيّنة

المقاييس الأساسية:

المقياس	القيمة
Uniqueness Rate	97%
Distinct Count	29100

المقاييس المتقدّمة:

المقياس	القيمة
Entropy	14,8
Boilerplate Rate	42%
Boilerplate Percentage	68%
Boilerplate Records Count	20400

إجمالي سجلات Case المُقيَّمة: 30000.

قراءة النتائج

Uniqueness Rate (97%) يبدو صحيًّا، لكنه مُضلّل. تقريبًا كل وصف case مختلف تقنيًا لأن كل واحد يحتوي على أرقام case فريدة وأسماء عملاء وتواريخ. الحقل يمرّ من فحص تكرار أساسي. لكن «فريد» لا يعني «أصلي».

Boilerplate Rate (42%) يروي القصة الحقيقية. 42% من محتوى النص عبر أوصاف cases متكرّر أو قائم على قوالب. يُلصق الوكلاء فتحات قياسية («شكرًا على تواصلك مع الدعم. رقم حالتك هو…»)، وإغلاقات قياسية («لا تتردّد في التواصل إن كانت لديك أسئلة أخرى.»)، وقوائم تشخيص قياسية في كل case. التفاصيل الخاصة بـ case تملأ الوسط، لكن ما يقارب نصف كل وصف هو محتوى نسخ-ولصق.

Boilerplate Percentage (68%) يُظهر مدى انتشار المشكلة. 68% من سجلات case تحتوي على نص قوالب. هذا 20400 من أصل 30000 case. boilerplate ليس محصورًا في قليل من الوكلاء أو فريق واحد. إنه نمط منهجي متضمّن في عملية دعمك.

Boilerplate Records Count (20400) هو رقم نطاقك. إذا احتجت إلى تقدير جهد تنظيف القوالب قبل تغذية البيانات للذكاء الاصطناعي، فهذه نقطة البداية. 20400 سجل يحتوي على محتوى سيتعلّمه الذكاء الاصطناعي كأنماط، لكن تلك الأنماط هي قوالبك، لا قضايا عملائك.

حكم الجاهزية للذكاء الاصطناعي: ستُعالج أداة التلخيص بالذكاء الاصطناعي محتوى قوالب على 68% من Cases. ستتعلّم تلخيص قوالبك، لا مشكلات عملائك. على 32% من cases ذات المحتوى الأصلي، سيؤدّي الذكاء الاصطناعي جيدًا. على الـ 68% مع boilerplate، ستُعيد الملخّصات صدى العبارات القياسية التي يعرفها الوكلاء بالفعل عن ظهر قلب.

Entropy (14,8) عالٍ، مؤكّدًا أن النص متنوّع على مستوى الحرف. هذا يتماشى مع Uniqueness Rate بنسبة 97%: كل وصف مختلف. Entropy ليس المقياس ذا الصلة هنا لأن مشكلة التكرار ليست قيمًا متطابقة. المشكلة هي أنماط محتوى متكرّرة داخل نص فريد بخلاف ذلك. هذا بالضبط ما صُمّمت مقاييس boilerplate لالتقاطه.

ماذا تفعل بعد ذلك

قدّم Boilerplate Rate (42%) و Boilerplate Percentage (68%) إلى أصحاب مصلحة مشروع الذكاء الاصطناعي. الأرقام توضّح الحجة: يحتاج مشروع الذكاء الاصطناعي إلى مرحلة تحسين جودة محتوى قبل النشر. ثلاث أساليب لتقليل boilerplate:

أزل القوالب. إذا كان الوكلاء يُلصقون فتحات وإغلاقات قياسية، ابنِ تلك العناصر في تخطيط case أو screen flow حتى لا تُلوّث حقل الوصف. عندها يلتقط الوصف فقط معلومات خاصة بـ case.
درّب الوكلاء على أوصاف فعّالة. شارك أمثلة على أوصاف عالية الجودة (من الـ 32% الأصلية) واشرح لماذا تُنتج الإدخالات الخالية من القوالب ملخّصات ذكاء اصطناعي أفضل.
جرّد boilerplate من البيانات التاريخية. قبل تغذية cases الموجودة للذكاء الاصطناعي، شغّل مهمة معالجة نص تُزيل أنماط القوالب المعروفة من حقل الوصف.

شغّل الفحص مرة أخرى بعد كل دورة تحسين. تتبّع Boilerplate Rate و Boilerplate Percentage كمقاييس الجاهزية الرئيسية للذكاء الاصطناعي لهذا الحقل. هدفك: Boilerplate Percentage دون 30% و Boilerplate Rate دون 20% قبل نشر أداة التلخيص بالذكاء الاصطناعي.

اختيار إعدادك

استخدم هذا الجدول لاختيار نقطة البداية الصحيحة لتحليل التفرّد لديك.

إذا كنت بحاجة إلى…	ابدأ بـ	الإعدادات الرئيسية
تدقيق القيم المكررة على حقل معرّف (Email, Phone, Account Name)	Basic Uniqueness	Case Sensitive: OFF، Include Blanks: ON لكشف حجم الفراغات
تحديد حجم مشروع إزالة تكرار بعدد سجلات ملموس	Basic Uniqueness	استخدم Distinct Count لحساب الفجوة بين إجمالي السجلات والقيم الفريدة
تحليل توزيع القيم على حقل picklist أو فئوي	Advanced Uniqueness Analysis	راجع Entropy (موحّدة مقابل الأقصى) و Max Frequency و Rarity
كشف محتوى قوالب في الحقول النصية قبل مشروع ذكاء اصطناعي	Advanced Uniqueness Analysis	راجع Boilerplate Rate و Boilerplate Percentage و Boilerplate Records Count
تحديد ما إذا كانت درجة تفرّد «صحية» تُخفي مشكلات أعمق	Advanced Uniqueness Analysis	ادمج Uniqueness Rate مع Entropy (لانحراف التوزيع) أو Boilerplate Rate (لأصالة المحتوى)

للحصول على مرجع كامل لمقاييس التفرّد الثمانية وطبقات التشخيص الثلاث وتفاصيل الإعداد، عُد إلى مقالة التفرّد الرئيسية.

هل أنت مستعد لقياس جودة بياناتك الخاصة؟ أجرِ تقييم الجاهزية للذكاء الاصطناعي لترى درجات تفرّدك والمزيد.