Co obejmują te scenariusze
Ta strona przeprowadza przez trzy rzeczywiste konfiguracje analizy unikalności DQS. Każdy scenariusz dotyczy konkretnego problemu biznesowego, pokazuje dokładne ustawienia i wyjaśnia, jak czytać wyniki.
Te przewodniki bazują na koncepcjach z głównego artykułu Unikalność. Przeczytaj go najpierw, jeśli dopiero poznajesz metryki unikalności, warstwy diagnostyczne lub różnicę między Basic Uniqueness a Advanced Uniqueness Analysis.
Scenariusz 1: audyt deduplikacji e-maili na Lead
Problem
Twój zespół marketingu prowadzi kampanie nurture przez Salesforce. Wskaźniki otwarć spadają, a platforma e-mail raportuje rosnącą liczbę „duplikatów wysyłek”: ta sama osoba otrzymuje ten sam e-mail dwa razy. Twoje reguły zarządzania duplikatami wyłapują dokładne dopasowania, ale częściowe duplikaty prześlizgują się. Dwa rekordy Lead tej samej osoby z tym samym adresem e-mail oba dostają kampanię. Potrzebujesz konkretnej liczby: ile adresów e-mail Lead jest współdzielonych między wieloma rekordami?
Konfiguracja
To prosta kontrola wykrywania duplikatów. Użyj trybu Basic Uniqueness na obiekcie Lead, kierując się na pole Email.
| Ustawienie | Wartość | Dlaczego |
|---|---|---|
| Analysis Mode | Basic Uniqueness | Potrzebujesz wskaźnika duplikacji i liczby unikalnych, nie rozkładu ani analizy boilerplate |
| Case Sensitive | OFF | Adresy e-mail są niewrażliwe na wielkość liter. „John@Company.com” i „john@company.com” to ten sam adres. |
| Include Blanks | ON | Pusty e-mail na Lead to problem warty skwantyfikowania. Włączenie pustych oznacza, że wszystkie rekordy z pustym e-mailem dzielą jedną wartość „pusty”, obniżając Uniqueness Rate i uwidaczniając lukę. |
Case Sensitive OFF to domyślna i właściwa opcja dla e-maila. Jeśli dwa rekordy przechowują „jsmith@acme.com” i „JSmith@Acme.com”, to ten sam adres. Włączenie rozróżniania wielkości liter liczyłoby je jako odrębne i ukryło duplikat.
Przykładowe wyniki
Metryki podstawowe:
| Metryka | Wartość |
|---|---|
| Uniqueness Rate | 74% |
| Distinct Count | 18 500 |
Łącznie ocenianych rekordów Lead: 25 000.
Jak czytać wyniki
Zacznij od nagłówka: 74% unikalności. Oznacza to, że 26% adresów e-mail pojawia się w więcej niż jednym rekordzie Lead. Z 25 000 Lead istnieje tylko 18 500 odrębnych adresów e-mail. Luka 6 500 rekordów to współdzielone adresy e-mail.
Jak 26% zduplikowanych e-maili wygląda w praktyce. Niektóre są uzasadnione: adresy departamentów jak info@company.com czy sales@company.com współdzielone między wieloma kontaktami w tej samej firmie. Większość to zduplikowane Lead utworzone z różnych źródeł. Formularz WWW tworzy jeden Lead. Import listy tworzy drugi. Handlowiec tworzy trzeci z wizytówki. Wszystkie trzy mają ten sam adres e-mail.
Include Blanks ON ujawnia pełny obraz. Z włączonym Include Blanks, Lead bez adresu e-mail współdzielą jedną wartość „pusty”. Jeśli 2 000 z 25 000 Lead nie ma e-maila, te 2 000 rekordów liczy się jako duplikaty siebie nawzajem. Obniża to Uniqueness Rate w porównaniu z wyłączeniem pustych, ale daje uczciwą liczbę. Twoja kampania może dotrzeć do 18 500 odrębnych adresów w najlepszym razie, a nie 25 000.
Dlaczego Basic Uniqueness tu wystarcza. Pytanie brzmi: „ile e-maili jest zduplikowanych?” Uniqueness Rate i Distinct Count odpowiadają na to pytanie. Nie potrzebujesz Entropy ani Rarity, aby zdecydować, czy uruchomić projekt deduplikacji. Jeśli później chcesz zrozumieć wzorzec dystrybucji (ile e-maili pojawia się dokładnie dwa razy vs dziesięć razy), przełącz na Advanced Uniqueness Analysis dla pełnego obrazu.
Co zrobić dalej
Użyj Distinct Count (18 500) jako rzeczywistej adresowalnej grupy odbiorców kampanii e-mailowych. Oszacuj projekt deduplikacji dla rekordów ze współdzielonymi e-mailami. Zacznij od wyeksportowania Lead zgrupowanych według adresu e-mail, a następnie scalaj lub usuwaj duplikaty. Po oczyszczeniu uruchom skan ponownie i monitoruj Uniqueness Rate w czasie. Jeśli spada między skanami, pojawiło się nowe źródło duplikatów: import listy, formularz WWW bez logiki dedup lub integracja tworząca rekordy bez sprawdzania istniejących.
Scenariusz 2: rozkład pola Industry na Account
Problem
Twój zespół danych zbudował model segmentacji Account, który grupuje klientów według Industry. Model używa 24 wartości picklist branż do tworzenia ukierunkowanych segmentów. Ale segmenty są nierówne: dwa segmenty zawierają 70% wszystkich rekordów Account, podczas gdy pozostałe 22 dzielą pozostałe 30%. Zespół data science podejrzewa, że pole Industry ma problem z rozkładem, a nie problem modelu. Musisz potwierdzić, czy rozkład wartości pola jest naprawdę skośny i zidentyfikować dominujące wartości.
Konfiguracja
Użyj trybu Advanced Uniqueness Analysis na obiekcie Account, kierując się na pole Industry. Potrzebujesz metryk rozkładu (Entropy, Max Frequency, Rarity), aby odpowiedzieć na pytania o to, jak wartości są rozłożone.
| Ustawienie | Wartość | Dlaczego |
|---|---|---|
| Analysis Mode | Advanced Uniqueness Analysis | Potrzebujesz Entropy, Max Frequency i Rarity do analizy rozkładu |
| Case Sensitive | OFF | Wartości picklist są kontrolowane. Wielkość liter nie jest tu istotna. |
| Include Blanks | OFF | Puste wartości Industry to problem kompletności, nie unikalności. Wyklucz je, aby skupić się na rozkładzie wypełnionych wartości. |
Include Blanks OFF jest właściwym wyborem dla tego scenariusza. Analizujesz, jak istniejące dane są rozłożone między kategoriami. Dodanie pustych do obliczeń zniekształciłoby metryki rozkładu bez odpowiedzi na pytanie o segmentację. Jeśli chcesz wiedzieć, ile rekordów Account nie ma wartości Industry, uruchom analizę kompletności.
Przykładowe wyniki
Metryki podstawowe:
| Metryka | Wartość |
|---|---|
| Uniqueness Rate | 0,16% |
| Distinct Count | 24 |
Metryki zaawansowane:
| Metryka | Wartość |
|---|---|
| Entropy | 2,18 |
| Max Frequency | 5 200 |
| Rarity | 0% |
Łącznie ocenianych rekordów Account: 15 000.
Jak czytać wyniki
Uniqueness Rate (0,16%) jest oczekiwany i nieistotny. Industry to picklist z 24 wartościami w 15 000 rekordach. Prawie każda wartość jest współdzielona przez setki rekordów. Niski Uniqueness Rate na polu picklist jest normalny. Ta metryka nie jest sednem analizy.
Distinct Count (24) potwierdza, że twoja picklista jest nienaruszona. Wszystkie 24 skonfigurowane wartości pojawiają się w danych. Żadne nieprzewidziane wpisy swobodnego tekstu nie istnieją. Dane są czyste z perspektywy spójności.
Entropy (2,18) ujawnia skośność. Maksymalna entropia dla 24 odrębnych wartości to log2(24) = 4,58. Twoja rzeczywista entropia to 2,18. Znormalizowany wynik to 2,18 / 4,58 = 0,48. To znacznie poniżej progu 0,7 dla rozkładów „zdominowanych”. Kilka wartości trzyma większość rekordów. Podejrzenie zespołu data science jest potwierdzone: problem segmentacji jest w danych, nie w modelu.
Jak interpretować znormalizowaną entropię:
| Znormalizowana (rzeczywista / maks) | Interpretacja |
|---|---|
| 0,9 lub wyżej | Równy rozkład: wartości rozłożone jednolicie |
| 0,7 do 0,9 | Umiarkowana skośność: niektóre wartości częstsze niż inne |
| Poniżej 0,7 | Zdominowany: kilka wartości trzyma większość rekordów |
Twój wynik 0,48 jest w zakresie „zdominowany”.
Max Frequency (5 200) identyfikuje dominującą wartość. Jedna wartość branży pojawia się w 5 200 z 15 000 rekordów, czyli 34,7% zbioru danych. Szybkie sprawdzenie ujawnia, że to „Technology”. Druga najczęstsza wartość jest prawdopodobnie odpowiedzialna za większość pozostałej koncentracji. Razem dwie wartości odpowiadają za klastrowanie 70%, które zauważył twój zespół.
Rarity (0%) potwierdza, że nie ma długiego ogona. Każda z 24 odrębnych wartości pojawia się więcej niż raz. Brak singletonów. To oczekiwane dla dobrze kontrolowanego pola picklist. W polu swobodnego tekstu chciałbyś widzieć Rarity, aby wyłapać literówki i pojedyncze wpisy, ale w picklistie 0% Rarity jest normalne.
Werdykt segmentacji: twój 24-kategoriowy model jest naprawdę systemem 2-kategoriowym. „Technology” i jedna inna branża dominują w zbiorze danych. Pozostałe 22 kategorie dzielą 30% rekordów, dając każdej kategorii średnio około 200 rekordów. Niektóre segmenty są zbyt małe do sensownej analizy.
Co zrobić dalej
Przedstaw Entropy i Max Frequency zespołowi data science. Liczby potwierdzają problem rozkładu. Dwie opcje: (1) Przeprojektuj model segmentacji, aby używał mniej, szerszych kategorii odzwierciedlających rzeczywisty rozkład. Pogrupuj 22 mniejsze branże w 4-5 makrokategorii. (2) Wzbogać dane Industry. Jeśli koncentracja w „Technology” jest zawyżona, bo handlowcy domyślnie wybierają ją podczas tworzenia rekordu, sprawdź, czy duża część z tych 5 200 rekordów należy do innej branży. Uruchamiaj okresowy skan i monitoruj Entropy w czasie. W miarę poprawy błędnie sklasyfikowanych rekordów Entropy rośnie ku zdrowszemu rozkładowi.
Scenariusz 3: wykrywanie boilerplate w opisach Case dla gotowości na AI
Problem
Twoja firma ocenia podsumowywanie spraw wspomagane AI dla zespołu wsparcia. Narzędzie AI czyta pole Description na Case i generuje podsumowanie dla następnego agenta, który odbiera sprawę. Przed inwestycją musisz ocenić, czy twoje opisy spraw zawierają wystarczająco oryginalnej treści, aby AI mogło wytworzyć użyteczne podsumowania. Pole jest wypełnione w 95% spraw, więc kompletność nie jest problemem. Problemem jest to, że agenci wsparcia kopiują-wklejają standardowe szablony w każdą sprawę.
Konfiguracja
Użyj trybu Advanced Uniqueness Analysis na obiekcie Case, kierując się na pole Description. Potrzebujesz metryk boilerplate do oceny oryginalności treści.
| Ustawienie | Wartość | Dlaczego |
|---|---|---|
| Analysis Mode | Advanced Uniqueness Analysis | Włącza wykrywanie boilerplate (Boilerplate Rate, Boilerplate Percentage, Boilerplate Records Count) |
| Case Sensitive | OFF | Wykrywanie szablonów nie zależy od wielkości liter |
| Include Blanks | OFF | Puste opisy to problem kompletności. Wyklucz, aby skupić się na jakości wypełnionej treści. |
Include Blanks OFF ma tu sens, ponieważ oceniasz istniejącą treść, a nie liczysz brakującej. 5% spraw z pustymi opisami jest już obsługiwane przez analizę kompletności.
Przykładowe wyniki
Metryki podstawowe:
| Metryka | Wartość |
|---|---|
| Uniqueness Rate | 97% |
| Distinct Count | 29 100 |
Metryki zaawansowane:
| Metryka | Wartość |
|---|---|
| Entropy | 14,8 |
| Boilerplate Rate | 42% |
| Boilerplate Percentage | 68% |
| Boilerplate Records Count | 20 400 |
Łącznie ocenianych rekordów Case: 30 000.
Jak czytać wyniki
Uniqueness Rate (97%) wygląda zdrowo, ale jest mylący. Prawie każdy opis sprawy jest technicznie różny, ponieważ każdy zawiera unikalne numery spraw, imiona klientów i daty. Pole przechodzi podstawową kontrolę duplikacji. Ale „unikalny” nie oznacza „oryginalny”.
Boilerplate Rate (42%) mówi prawdziwą historię. 42% treści tekstowej we wszystkich opisach spraw jest powtarzalna lub szablonowa. Agenci wklejają standardowe początki („Thank you for contacting support. Your case number is…”), standardowe zakończenia („Please do not hesitate to reach out if you have further questions.”) i standardowe listy kontrolne diagnostyczne w każdą sprawę. Specyficzne dla sprawy szczegóły wypełniają środek, ale prawie połowa każdego opisu to treść kopiuj-wklej.
Boilerplate Percentage (68%) pokazuje, jak rozległy jest problem. 68% rekordów spraw zawiera szablonowy tekst. To 20 400 z 30 000 spraw. Boilerplate nie jest ograniczony do kilku agentów ani jednego zespołu. To systemowy wzorzec wpisany w proces wsparcia.
Boilerplate Records Count (20 400) to twoja liczba zakresu. Jeśli potrzebujesz oszacować wysiłek oczyszczania szablonów przed podaniem danych AI, to punkt wyjścia. 20 400 rekordów zawiera treść, którą AI nauczy się jako wzorce, ale te wzorce to twoje szablony, a nie problemy klientów.
Werdykt gotowości na AI: narzędzie podsumowywania AI będzie przetwarzać szablonową treść w 68% spraw. Nauczy się podsumowywać twoje szablony, a nie problemy klientów. W 32% spraw z oryginalną treścią AI będzie działać dobrze. W 68% z boilerplate podsumowania będą echem standardowych fraz, które agenci już znają na pamięć.
Entropy (14,8) jest wysoka, potwierdzając, że tekst jest zróżnicowany na poziomie znaków. Zgadza się to z 97% Uniqueness Rate: każdy opis jest inny. Entropy nie jest tu istotną metryką, ponieważ problem duplikacji nie polega na identycznych wartościach. Problemem są powtarzające się wzorce treści w inaczej unikalnym tekście. To dokładnie to, co metryki boilerplate są zaprojektowane, aby wyłapać.
Co zrobić dalej
Przedstaw Boilerplate Rate (42%) i Boilerplate Percentage (68%) interesariuszom projektu AI. Liczby mówią jasno: projekt AI wymaga fazy poprawy jakości treści przed wdrożeniem. Trzy podejścia, aby zmniejszyć boilerplate:
- Usuń szablony. Jeśli agenci wklejają standardowe początki i zakończenia, zbuduj te elementy w układ strony Case lub w screen flow, aby nie zanieczyszczały pola Description. Opis wtedy rejestruje tylko informacje specyficzne dla sprawy.
- Szkol agentów w pisaniu skutecznych opisów. Udostępnij przykłady wysokiej jakości opisów (z 32%, które są oryginalne) i wyjaśnij, dlaczego wpisy bez szablonów produkują lepsze podsumowania AI.
- Usuń boilerplate z danych historycznych. Przed podaniem istniejących spraw do AI uruchom zadanie przetwarzania tekstu, które usunie znane wzorce szablonów z pola Description.
Uruchom skan ponownie po każdym cyklu ulepszeń. Monitoruj Boilerplate Rate i Boilerplate Percentage jako główne metryki gotowości na AI dla tego pola. Twój cel: Boilerplate Percentage poniżej 30% i Boilerplate Rate poniżej 20% przed wdrożeniem narzędzia podsumowywania AI.
Wybór konfiguracji
Użyj tej tabeli, aby wybrać właściwy punkt wyjścia dla analizy unikalności.
| Jeśli potrzebujesz… | Zacznij od | Kluczowe ustawienia |
|---|---|---|
| Audytować duplikaty wartości na polu identyfikatora (Email, Phone, Account Name) | Basic Uniqueness | Case Sensitive: OFF, Include Blanks: ON, aby ujawnić wolumen pustych |
| Oszacować projekt deduplikacji z konkretną liczbą rekordów | Basic Uniqueness | Użyj Distinct Count do obliczenia luki między łączną liczbą a wartościami unikalnymi |
| Przeanalizować rozkład wartości na polu picklist lub kategorialnym | Advanced Uniqueness Analysis | Przejrzyj Entropy (znormalizowaną), Max Frequency i Rarity |
| Wykryć szablonową treść w polach tekstowych przed projektem AI | Advanced Uniqueness Analysis | Przejrzyj Boilerplate Rate, Boilerplate Percentage i Boilerplate Records Count |
| Ustalić, czy „zdrowy” wynik unikalności ukrywa głębsze problemy | Advanced Uniqueness Analysis | Sparuj Uniqueness Rate z Entropy (dla skośności rozkładu) lub Boilerplate Rate (dla oryginalności treści) |
Pełna referencja wszystkich 8 metryk unikalności, trzech warstw diagnostycznych i szczegółów konfiguracji — wróć do głównego artykułu Unikalność.
Gotowy, by zmierzyć własną jakość danych? Wykonaj AI Readiness Assessment, aby zobaczyć swoje wyniki unikalności i więcej.