Skip to main content

Poprawność: scenariusze konfiguracji

Trzy praktyczne przewodniki pokazujące, jak skonfigurować analizę poprawności DQS dla różnych potrzeb biznesowych.

Co obejmują te scenariusze

Ta strona przeprowadza przez trzy rzeczywiste konfiguracje analizy poprawności DQS. Każdy scenariusz dotyczy konkretnego problemu biznesowego, pokazuje dokładne ustawienia i wyjaśnia, jak czytać wyniki.

Te przewodniki bazują na koncepcjach z głównego artykułu Poprawność. Przeczytaj go najpierw, jeśli dopiero poznajesz metryki poprawności, przepływ diagnostyczny lub konfigurację wzorców.

Scenariusz 1: walidacja drugorzędnego e-maila na niestandardowym polu tekstowym

Problem

Twoja organizacja przechowuje drugorzędny adres e-mail w niestandardowym polu tekstowym Secondary_Email__c na obiekcie Contact. W przeciwieństwie do standardowego pola Email w Salesforce, pole tekstowe nie ma wbudowanej walidacji formatu. Użytkownicy wklejają, wpisują i importują tam cokolwiek. Marketing chce używać tych drugorzędnych adresów do kampanii reaktywacyjnej, ale nikt nie wie, ile jest strukturalnie poprawnych. Potrzebujesz konkretnej liczby, aby marketing mógł ustawić realistyczne prognozy kampanii, a zespół ops oszacować zakres oczyszczania.

Dlaczego nie standardowe pole Email? Typ Email w Salesforce waliduje format przy wprowadzaniu. Wartości w standardowym polu Email już przechodzą podstawowe kontrole formatu. Walidacja e-mail w DQS jest użyteczna na niestandardowych polach Text, które przechowują adresy e-mail bez wbudowanego wymuszania Salesforce.

Konfiguracja

Użyj trybu Format Validation na obiekcie Contact, kierując się na pole Secondary_Email__c. Potrzebujesz nagłówkowego wskaźnika poprawności i liczby użytecznych rekordów. Wykrywanie placeholderów i analiza szumu nie są tu istotne, ponieważ adresy e-mail albo pasują do formatu, albo nie.

UstawienieWartośćDlaczego
Analysis ModeFormat ValidationPotrzebujesz wskaźnika dopasowania i liczby poprawnych, a nie pełnego rozbicia niepoprawnych
Pattern TypeEmailWbudowany wzorzec: ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
Include BlanksOFFPuste e-maile to problem kompletności, nie poprawności. Trzymaj je poza tą analizą.
Case SensitiveOFFAdresy e-mail są z definicji niewrażliwe na wielkość liter

Wzorzec Email to wbudowany preset. Nie musisz pisać regexa. Wybierz „Email” z selektora wzorca, a regex zostanie zastosowany automatycznie.

Przykładowe wyniki

MetrykaWartość
Validity Rate71%
Valid Count35 500

Łącznie ocenianych rekordów Contact: 50 000.

Jak czytać wyniki

Zacznij od nagłówka: 71% poprawności. Oznacza to, że 29% drugorzędnych adresów e-mail nie przechodzi kontroli formatu. Z 50 000 rekordów Contact z wypełnionym Secondary_Email__c tylko 35 500 ma strukturalnie poprawny adres.

Jak 29% niepoprawnych wygląda w praktyce: to wartości bez znaku „@” (john.company.com), bez rozszerzenia domeny (john@company), z podwójnymi kropkami (john@company..com) lub zawierające spacje (john @company.com). Ponieważ to pole tekstowe, Salesforce zaakceptował wszystkie przy wprowadzeniu. Każda kampania wysłana na te adresy odbija.

Matematyka kampanii się zmienia. Marketing prognozował zasięg reaktywacji w oparciu o 50 000 drugorzędnych adresów. Rzeczywista adresowalna grupa to 35 500. Wskaźniki otwarć, kliknięć i prognozy konwersji muszą być przeliczone względem poprawnej bazy, a nie zawyżonej sumy.

Dlaczego Format Validation tu wystarcza. Nie potrzebujesz trybu Advanced dla tego scenariusza. Pytanie jest proste: „ile drugorzędnych e-maili pasuje do poprawnego formatu?” Validity Rate i Valid Count odpowiadają na to pytanie. Jeśli później potrzebujesz oszacować projekt oczyszczania z dokładną liczbą niepoprawnych, przełącz na Advanced Format Validation dla pełnego rozbicia.

Co zrobić dalej

Użyj Valid Count (35 500) jako rzeczywistej adresowalnej grupy do planowania kampanii. Oszacuj projekt oczyszczania dla pozostałych 14 500 rekordów: wyeksportuj je, zidentyfikuj najczęstsze błędy formatu i popraw przez wzbogacanie danych lub ręczną korektę. Rozważ dodanie reguły walidacji Salesforce na Secondary_Email__c, aby wymusić format e-mail przy przyszłych wpisach, lub skonwertuj pole na typ Email, jeśli procesy na to pozwalają.


Scenariusz 2: walidacja kodu produktu o stałej długości

Problem

Twoja firma używa 8-znakowych kodów produktów w niestandardowym polu Product_Code__c na obiekcie Opportunity Product. Te kody napędzają wyszukiwanie inwentarza, reguły cenowe i integrację ERP. Synchronizacja ERP zawodzi na około 5% rekordów tygodniowo, a zespół integracji podejrzewa źle sformułowane kody produktów. Musisz potwierdzić, ile kodów nie przechodzi kontroli formatu, i uzyskać dokładny zakres oczyszczania.

Konfiguracja

Użyj trybu Advanced Format Validation na obiekcie Opportunity Product, kierując się na pole Product_Code__c. Potrzebujesz pełnego rozbicia poprawny/niepoprawny, aby zespół integracji miał dokładne liczby rekordów dla projektu remediacji.

UstawienieWartośćDlaczego
Analysis ModeAdvanced Format ValidationPotrzebujesz Invalid Count do oszacowania oczyszczania plus Noise Rate do sprawdzenia wpisów śmieciowych
Pattern TypeFixed LengthKody produktów są zawsze dokładnie 8-znakowe
Fixed Length8Twoja standardowa długość kodu
Include BlanksONPusty kod produktu jest niepoprawny dla synchronizacji ERP. Licz go jako niepowodzenie.
Case SensitiveOFFKody produktów nie zależą od wielkości liter w twoim systemie

Wzorzec Fixed Length automatycznie generuje regex ^.{8}$. Każda wartość, która nie ma dokładnie 8 znaków, nie przechodzi walidacji.

Przykładowe wyniki

Metryki podstawowe:

MetrykaWartość
Validity Rate94,2%
Valid Count9 420

Metryki zaawansowane:

MetrykaWartość
Invalid Rate5,8%
Invalid Count580
Noise Rate0,4%
Noisy Records Count40

Łącznie ocenianych rekordów: 10 000.

Jak czytać wyniki

5,8% niepoprawnych potwierdza szacunek zespołu integracji. 580 kodów produktów z 10 000 nie pasuje do formatu 8-znakowego. To rekordy psujące synchronizację ERP.

Invalid Count (580) to zakres oczyszczania. Twój zespół integracji ma teraz konkretną liczbę. Zamiast badać każde niepowodzenie synchronizacji osobno, mogą pobrać 580 rekordów, skategoryzować błędy formatu i naprawić je wsadowo. Typowe problemy w polach kodów produktów to obcięte kody (5-7 znaków z błędów kopiuj-wklej), kody ze spacją końcową (9 znaków z powodu niewidocznej spacji) i kody z myślnikami lub prefiksami dodanymi przez użytkowników („PC-12345678”).

Noise Rate (0,4%) jest niski, ale wart odnotowania. 40 rekordów zawiera wzorce szumu: powtarzające się znaki („XXXXXXXX”), wpisy klawiaturowe („asdfghjk”) lub ciągi znaków specjalnych. Te 40 rekordów nie są błędami formatu. To śmieciowe wpisy, które przypadkiem mają dokładnie 8 znaków. Validity Rate policzył je jako poprawne, ponieważ przechodzą kontrolę długości, ale to śmieci, które zawiodą wyszukiwanie ERP z innego powodu. Noise Rate wyłapuje to, co przegapia kontrola formatu.

Include Blanks ON ma tu znaczenie. Z włączonym Include Blanks każdy rekord, gdzie Product_Code__c jest pusty, liczy się jako niepoprawny. Gdybyś zostawił to wyłączone, te puste rekordy byłyby całkowicie wykluczone z oceny, a twój Invalid Count byłby niższy niż prawdziwa liczba rekordów zawodzących synchronizację ERP. Ponieważ pusty kod produktu psuje integrację w ten sam sposób co źle sformułowany, włączenie pustych daje dokładny zakres niepowodzeń.

Co zrobić dalej

Wyeksportuj 580 niepoprawnych rekordów dla zespołu integracji. Skategoryzuj błędy według typu: obcięte kody, dodatkowe znaki, spacje końcowe. Popraw je wsadowo zadaniem aktualizacji danych. Dla 40 zaszumionych rekordów zbadaj źródło. Jeśli pochodzą z konkretnego importu lub użytkownika, zajmij się przyczyną. Po oczyszczeniu dodaj regułę walidacji Salesforce wymuszającą 8-znakową długość na Product_Code__c, aby zapobiec nowym złym wpisom. Przeskanuj ponownie, aby zweryfikować nowy Validity Rate.


Scenariusz 3: wykrywanie szumu w nazwie firmy z web-to-lead

Problem

Twój formularz web-to-lead wymaga pola Company. Wolumen leadów jest mocny: 20 000 nowych leadów na kwartał. Ale zespół SDR zgłasza, że wiele leadów ma śmieciowe nazwy firm, wpisy jak „asdf”, „test”, „xxx” czy „na na na.” Te leady marnują czas SDR i zanieczyszczają segmentację. Podstawowa kontrola kompletności pokazuje, że 98% leadów ma wartość Company. Podejrzewasz, że 98% jest mylące, ponieważ śmieciowe wpisy są technicznie „wypełnione”.

Konfiguracja

Użyj trybu Advanced Format Validation na obiekcie Lead, kierując się na pole Company. Potrzebujesz Noise Rate, aby skwantyfikować śmieci ukryte za zdrowym wynikiem kompletności.

Dla wzorca formatu nie ma ścisłej reguły dla nazw firm. Nazwy firm to swobodny tekst. Użyj minimalnej walidacji tekstu, aby sprawdzić, czy wartość zawiera co najmniej jeden znak alfanumeryczny.

UstawienieWartośćDlaczego
Analysis ModeAdvanced Format ValidationPotrzebujesz Noise Rate i Noisy Records Count, aby skwantyfikować wpisy śmieciowe
Pattern TypeCustomŻaden wbudowany wzorzec nie pasuje do nazw firm swobodnego tekstu
Custom Pattern^.*[a-zA-Z0-9].*$Pasuje do każdej wartości zawierającej co najmniej jedną literę lub cyfrę. Wyłapuje wartości czysto specjalne.
Include BlanksONPuste nazwy firm też są problemem. Uwzględnij je w liczbie niepowodzeń.
Case SensitiveOFFNieistotne dla tego wzorca, ale pozostaw wyłączone jako domyślne

Prawdziwa wartość tego skanu tkwi w metrykach szumu, a nie w walidacji formatu. Niestandardowy wzorzec jest celowo luźny, ponieważ nie wymuszasz konkretnego formatu nazwy firmy. Uruchamiasz skan w trybie Advanced, aby uzyskać dostęp do Noise Rate i Noisy Records Count.

Przykładowe wyniki

Metryki podstawowe:

MetrykaWartość
Validity Rate97,5%
Valid Count19 500

Metryki zaawansowane:

MetrykaWartość
Invalid Rate2,5%
Invalid Count500
Noise Rate12%
Noisy Records Count2 400

Łącznie ocenianych rekordów Lead: 20 000.

Jak czytać wyniki

97,5% poprawności jest oczekiwane i nie o to chodzi. Prawie każda wartość przechodzi luźną kontrolę formatu, ponieważ wzorzec wymaga tylko jednego znaku alfanumerycznego. 500 niepoprawnych rekordów to wpisy tylko ze znakami specjalnymi lub białymi znakami, wartości jak „---”, „…” czy „!!!”. Łatwe do zidentyfikowania i usunięcia.

Noise Rate (12%) to prawdziwe odkrycie. 2 400 leadów ma nazwy firm zawierające wzorce szumu. To wpisy z powtarzającymi się znakami („aaaa”, „xxxxx”), kolejnymi znakami specjalnymi („!@#$%”) lub znakami kontrolnymi. Przechodzą kontrolę formatu, ponieważ zawierają znaki alfanumeryczne, ale wartości są śmieciowe.

Prawdziwy obraz jakości danych:

KategoriaRekordyCo to oznacza
Czyste i poprawne17 100Prawdziwe nazwy firm gotowe do outreach SDR
Niepoprawne (czyste śmieci)500Brak treści alfanumerycznej. Usuń lub kwarantanna.
Zaszumione (ukryte śmieci)2 400Wygląda na wypełnione, ale zawiera śmieci. Ręczny przegląd lub auto-flag.

Twój zespół SDR ma rację: problem jakości leadów jest realny. 2 900 z 20 000 leadów (14,5%) ma nieużyteczne dane firmy. To 14,5% czasu SDR zmarnowanego na leady, których nie da się właściwie skierować, wzbogacić ani posegmentować.

Luka kompletność vs poprawność. Kompletność mówi, że 98% leadów ma wartość Company. Poprawność mówi, że 97,5% przechodzi kontrolę formatu. Noise Rate mówi, że 12% wartości przechodzących jest śmieciowych. Każdy wymiar ujawnia inną warstwę problemu. Sama kompletność przegapia śmieci, które wyłapuje Noise Rate.

Co zrobić dalej

Zbuduj kolejkę oczyszczania dla 2 900 połączonych niepoprawnych i zaszumionych rekordów. Dla 500 czysto niepoprawnych rekordów automatycznie usuń lub umieść w kwarantannie. Dla 2 400 zaszumionych rekordów zdecyduj: automatycznie usuń leady bez innych użytecznych danych lub oznacz do ręcznego przeglądu, jeśli dane telefonu lub e-maila są wciąż użyteczne.

Napraw źródło. Śmieci pochodzą z twojego formularza WWW. Dodaj walidację po stronie klienta: minimalną długość znaków, blokuj wzorce powtarzających się znaków i rozważ CAPTCHA dla zapobiegania botom. Po wdrożeniu zmian formularza uruchom skan ponownie w następnym kwartale i porównaj Noise Rate z tą bazą.


Wybór konfiguracji

Użyj tej tabeli, aby wybrać właściwy punkt wyjścia dla analizy poprawności.

Jeśli potrzebujesz…Zacznij odKluczowe ustawienia
Sprawdzić format e-maila na niestandardowych polach tekstowychFormat ValidationPattern Type: Email, Include Blanks: OFF
Zwalidować kody o stałej długości (kody produktów, SKU, kody pocztowe)Advanced Format ValidationPattern Type: Fixed Length, ustaw liczbę znaków, Include Blanks: ON
Zwalidować format URL w polach strony WWWFormat ValidationPattern Type: URL, Include Blanks: OFF
Wymusić niestandardowy format biznesowy (regex)Advanced Format ValidationPattern Type: Custom, wprowadź własny regex
Wykryć śmieci i szum w polach swobodnego tekstuAdvanced Format ValidationUżyj luźnego wzorca, skup się na Noise Rate i Noisy Records Count
Oszacować projekt oczyszczania danych dla integracjiAdvanced Format ValidationInclude Blanks: ON, użyj Invalid Count i Noisy Records Count do oszacowania projektu

Pełna referencja wszystkich 6 metryk poprawności, typów wzorców i szczegółów wykrywania szumu — wróć do głównego artykułu Poprawność.

Gotowy, by zmierzyć własną jakość danych? Wykonaj AI Readiness Assessment, aby zobaczyć swoje wyniki poprawności i więcej.