Co obejmują te scenariusze
Ta strona przeprowadza przez trzy rzeczywiste konfiguracje analizy poprawności DQS. Każdy scenariusz dotyczy konkretnego problemu biznesowego, pokazuje dokładne ustawienia i wyjaśnia, jak czytać wyniki.
Te przewodniki bazują na koncepcjach z głównego artykułu Poprawność. Przeczytaj go najpierw, jeśli dopiero poznajesz metryki poprawności, przepływ diagnostyczny lub konfigurację wzorców.
Scenariusz 1: walidacja drugorzędnego e-maila na niestandardowym polu tekstowym
Problem
Twoja organizacja przechowuje drugorzędny adres e-mail w niestandardowym polu tekstowym Secondary_Email__c na obiekcie Contact. W przeciwieństwie do standardowego pola Email w Salesforce, pole tekstowe nie ma wbudowanej walidacji formatu. Użytkownicy wklejają, wpisują i importują tam cokolwiek. Marketing chce używać tych drugorzędnych adresów do kampanii reaktywacyjnej, ale nikt nie wie, ile jest strukturalnie poprawnych. Potrzebujesz konkretnej liczby, aby marketing mógł ustawić realistyczne prognozy kampanii, a zespół ops oszacować zakres oczyszczania.
Dlaczego nie standardowe pole Email? Typ Email w Salesforce waliduje format przy wprowadzaniu. Wartości w standardowym polu Email już przechodzą podstawowe kontrole formatu. Walidacja e-mail w DQS jest użyteczna na niestandardowych polach Text, które przechowują adresy e-mail bez wbudowanego wymuszania Salesforce.
Konfiguracja
Użyj trybu Format Validation na obiekcie Contact, kierując się na pole Secondary_Email__c. Potrzebujesz nagłówkowego wskaźnika poprawności i liczby użytecznych rekordów. Wykrywanie placeholderów i analiza szumu nie są tu istotne, ponieważ adresy e-mail albo pasują do formatu, albo nie.
| Ustawienie | Wartość | Dlaczego |
|---|---|---|
| Analysis Mode | Format Validation | Potrzebujesz wskaźnika dopasowania i liczby poprawnych, a nie pełnego rozbicia niepoprawnych |
| Pattern Type | Wbudowany wzorzec: ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$ | |
| Include Blanks | OFF | Puste e-maile to problem kompletności, nie poprawności. Trzymaj je poza tą analizą. |
| Case Sensitive | OFF | Adresy e-mail są z definicji niewrażliwe na wielkość liter |
Wzorzec Email to wbudowany preset. Nie musisz pisać regexa. Wybierz „Email” z selektora wzorca, a regex zostanie zastosowany automatycznie.
Przykładowe wyniki
| Metryka | Wartość |
|---|---|
| Validity Rate | 71% |
| Valid Count | 35 500 |
Łącznie ocenianych rekordów Contact: 50 000.
Jak czytać wyniki
Zacznij od nagłówka: 71% poprawności. Oznacza to, że 29% drugorzędnych adresów e-mail nie przechodzi kontroli formatu. Z 50 000 rekordów Contact z wypełnionym Secondary_Email__c tylko 35 500 ma strukturalnie poprawny adres.
Jak 29% niepoprawnych wygląda w praktyce: to wartości bez znaku „@” (john.company.com), bez rozszerzenia domeny (john@company), z podwójnymi kropkami (john@company..com) lub zawierające spacje (john @company.com). Ponieważ to pole tekstowe, Salesforce zaakceptował wszystkie przy wprowadzeniu. Każda kampania wysłana na te adresy odbija.
Matematyka kampanii się zmienia. Marketing prognozował zasięg reaktywacji w oparciu o 50 000 drugorzędnych adresów. Rzeczywista adresowalna grupa to 35 500. Wskaźniki otwarć, kliknięć i prognozy konwersji muszą być przeliczone względem poprawnej bazy, a nie zawyżonej sumy.
Dlaczego Format Validation tu wystarcza. Nie potrzebujesz trybu Advanced dla tego scenariusza. Pytanie jest proste: „ile drugorzędnych e-maili pasuje do poprawnego formatu?” Validity Rate i Valid Count odpowiadają na to pytanie. Jeśli później potrzebujesz oszacować projekt oczyszczania z dokładną liczbą niepoprawnych, przełącz na Advanced Format Validation dla pełnego rozbicia.
Co zrobić dalej
Użyj Valid Count (35 500) jako rzeczywistej adresowalnej grupy do planowania kampanii. Oszacuj projekt oczyszczania dla pozostałych 14 500 rekordów: wyeksportuj je, zidentyfikuj najczęstsze błędy formatu i popraw przez wzbogacanie danych lub ręczną korektę. Rozważ dodanie reguły walidacji Salesforce na Secondary_Email__c, aby wymusić format e-mail przy przyszłych wpisach, lub skonwertuj pole na typ Email, jeśli procesy na to pozwalają.
Scenariusz 2: walidacja kodu produktu o stałej długości
Problem
Twoja firma używa 8-znakowych kodów produktów w niestandardowym polu Product_Code__c na obiekcie Opportunity Product. Te kody napędzają wyszukiwanie inwentarza, reguły cenowe i integrację ERP. Synchronizacja ERP zawodzi na około 5% rekordów tygodniowo, a zespół integracji podejrzewa źle sformułowane kody produktów. Musisz potwierdzić, ile kodów nie przechodzi kontroli formatu, i uzyskać dokładny zakres oczyszczania.
Konfiguracja
Użyj trybu Advanced Format Validation na obiekcie Opportunity Product, kierując się na pole Product_Code__c. Potrzebujesz pełnego rozbicia poprawny/niepoprawny, aby zespół integracji miał dokładne liczby rekordów dla projektu remediacji.
| Ustawienie | Wartość | Dlaczego |
|---|---|---|
| Analysis Mode | Advanced Format Validation | Potrzebujesz Invalid Count do oszacowania oczyszczania plus Noise Rate do sprawdzenia wpisów śmieciowych |
| Pattern Type | Fixed Length | Kody produktów są zawsze dokładnie 8-znakowe |
| Fixed Length | 8 | Twoja standardowa długość kodu |
| Include Blanks | ON | Pusty kod produktu jest niepoprawny dla synchronizacji ERP. Licz go jako niepowodzenie. |
| Case Sensitive | OFF | Kody produktów nie zależą od wielkości liter w twoim systemie |
Wzorzec Fixed Length automatycznie generuje regex ^.{8}$. Każda wartość, która nie ma dokładnie 8 znaków, nie przechodzi walidacji.
Przykładowe wyniki
Metryki podstawowe:
| Metryka | Wartość |
|---|---|
| Validity Rate | 94,2% |
| Valid Count | 9 420 |
Metryki zaawansowane:
| Metryka | Wartość |
|---|---|
| Invalid Rate | 5,8% |
| Invalid Count | 580 |
| Noise Rate | 0,4% |
| Noisy Records Count | 40 |
Łącznie ocenianych rekordów: 10 000.
Jak czytać wyniki
5,8% niepoprawnych potwierdza szacunek zespołu integracji. 580 kodów produktów z 10 000 nie pasuje do formatu 8-znakowego. To rekordy psujące synchronizację ERP.
Invalid Count (580) to zakres oczyszczania. Twój zespół integracji ma teraz konkretną liczbę. Zamiast badać każde niepowodzenie synchronizacji osobno, mogą pobrać 580 rekordów, skategoryzować błędy formatu i naprawić je wsadowo. Typowe problemy w polach kodów produktów to obcięte kody (5-7 znaków z błędów kopiuj-wklej), kody ze spacją końcową (9 znaków z powodu niewidocznej spacji) i kody z myślnikami lub prefiksami dodanymi przez użytkowników („PC-12345678”).
Noise Rate (0,4%) jest niski, ale wart odnotowania. 40 rekordów zawiera wzorce szumu: powtarzające się znaki („XXXXXXXX”), wpisy klawiaturowe („asdfghjk”) lub ciągi znaków specjalnych. Te 40 rekordów nie są błędami formatu. To śmieciowe wpisy, które przypadkiem mają dokładnie 8 znaków. Validity Rate policzył je jako poprawne, ponieważ przechodzą kontrolę długości, ale to śmieci, które zawiodą wyszukiwanie ERP z innego powodu. Noise Rate wyłapuje to, co przegapia kontrola formatu.
Include Blanks ON ma tu znaczenie. Z włączonym Include Blanks każdy rekord, gdzie Product_Code__c jest pusty, liczy się jako niepoprawny. Gdybyś zostawił to wyłączone, te puste rekordy byłyby całkowicie wykluczone z oceny, a twój Invalid Count byłby niższy niż prawdziwa liczba rekordów zawodzących synchronizację ERP. Ponieważ pusty kod produktu psuje integrację w ten sam sposób co źle sformułowany, włączenie pustych daje dokładny zakres niepowodzeń.
Co zrobić dalej
Wyeksportuj 580 niepoprawnych rekordów dla zespołu integracji. Skategoryzuj błędy według typu: obcięte kody, dodatkowe znaki, spacje końcowe. Popraw je wsadowo zadaniem aktualizacji danych. Dla 40 zaszumionych rekordów zbadaj źródło. Jeśli pochodzą z konkretnego importu lub użytkownika, zajmij się przyczyną. Po oczyszczeniu dodaj regułę walidacji Salesforce wymuszającą 8-znakową długość na Product_Code__c, aby zapobiec nowym złym wpisom. Przeskanuj ponownie, aby zweryfikować nowy Validity Rate.
Scenariusz 3: wykrywanie szumu w nazwie firmy z web-to-lead
Problem
Twój formularz web-to-lead wymaga pola Company. Wolumen leadów jest mocny: 20 000 nowych leadów na kwartał. Ale zespół SDR zgłasza, że wiele leadów ma śmieciowe nazwy firm, wpisy jak „asdf”, „test”, „xxx” czy „na na na.” Te leady marnują czas SDR i zanieczyszczają segmentację. Podstawowa kontrola kompletności pokazuje, że 98% leadów ma wartość Company. Podejrzewasz, że 98% jest mylące, ponieważ śmieciowe wpisy są technicznie „wypełnione”.
Konfiguracja
Użyj trybu Advanced Format Validation na obiekcie Lead, kierując się na pole Company. Potrzebujesz Noise Rate, aby skwantyfikować śmieci ukryte za zdrowym wynikiem kompletności.
Dla wzorca formatu nie ma ścisłej reguły dla nazw firm. Nazwy firm to swobodny tekst. Użyj minimalnej walidacji tekstu, aby sprawdzić, czy wartość zawiera co najmniej jeden znak alfanumeryczny.
| Ustawienie | Wartość | Dlaczego |
|---|---|---|
| Analysis Mode | Advanced Format Validation | Potrzebujesz Noise Rate i Noisy Records Count, aby skwantyfikować wpisy śmieciowe |
| Pattern Type | Custom | Żaden wbudowany wzorzec nie pasuje do nazw firm swobodnego tekstu |
| Custom Pattern | ^.*[a-zA-Z0-9].*$ | Pasuje do każdej wartości zawierającej co najmniej jedną literę lub cyfrę. Wyłapuje wartości czysto specjalne. |
| Include Blanks | ON | Puste nazwy firm też są problemem. Uwzględnij je w liczbie niepowodzeń. |
| Case Sensitive | OFF | Nieistotne dla tego wzorca, ale pozostaw wyłączone jako domyślne |
Prawdziwa wartość tego skanu tkwi w metrykach szumu, a nie w walidacji formatu. Niestandardowy wzorzec jest celowo luźny, ponieważ nie wymuszasz konkretnego formatu nazwy firmy. Uruchamiasz skan w trybie Advanced, aby uzyskać dostęp do Noise Rate i Noisy Records Count.
Przykładowe wyniki
Metryki podstawowe:
| Metryka | Wartość |
|---|---|
| Validity Rate | 97,5% |
| Valid Count | 19 500 |
Metryki zaawansowane:
| Metryka | Wartość |
|---|---|
| Invalid Rate | 2,5% |
| Invalid Count | 500 |
| Noise Rate | 12% |
| Noisy Records Count | 2 400 |
Łącznie ocenianych rekordów Lead: 20 000.
Jak czytać wyniki
97,5% poprawności jest oczekiwane i nie o to chodzi. Prawie każda wartość przechodzi luźną kontrolę formatu, ponieważ wzorzec wymaga tylko jednego znaku alfanumerycznego. 500 niepoprawnych rekordów to wpisy tylko ze znakami specjalnymi lub białymi znakami, wartości jak „---”, „…” czy „!!!”. Łatwe do zidentyfikowania i usunięcia.
Noise Rate (12%) to prawdziwe odkrycie. 2 400 leadów ma nazwy firm zawierające wzorce szumu. To wpisy z powtarzającymi się znakami („aaaa”, „xxxxx”), kolejnymi znakami specjalnymi („!@#$%”) lub znakami kontrolnymi. Przechodzą kontrolę formatu, ponieważ zawierają znaki alfanumeryczne, ale wartości są śmieciowe.
Prawdziwy obraz jakości danych:
| Kategoria | Rekordy | Co to oznacza |
|---|---|---|
| Czyste i poprawne | 17 100 | Prawdziwe nazwy firm gotowe do outreach SDR |
| Niepoprawne (czyste śmieci) | 500 | Brak treści alfanumerycznej. Usuń lub kwarantanna. |
| Zaszumione (ukryte śmieci) | 2 400 | Wygląda na wypełnione, ale zawiera śmieci. Ręczny przegląd lub auto-flag. |
Twój zespół SDR ma rację: problem jakości leadów jest realny. 2 900 z 20 000 leadów (14,5%) ma nieużyteczne dane firmy. To 14,5% czasu SDR zmarnowanego na leady, których nie da się właściwie skierować, wzbogacić ani posegmentować.
Luka kompletność vs poprawność. Kompletność mówi, że 98% leadów ma wartość Company. Poprawność mówi, że 97,5% przechodzi kontrolę formatu. Noise Rate mówi, że 12% wartości przechodzących jest śmieciowych. Każdy wymiar ujawnia inną warstwę problemu. Sama kompletność przegapia śmieci, które wyłapuje Noise Rate.
Co zrobić dalej
Zbuduj kolejkę oczyszczania dla 2 900 połączonych niepoprawnych i zaszumionych rekordów. Dla 500 czysto niepoprawnych rekordów automatycznie usuń lub umieść w kwarantannie. Dla 2 400 zaszumionych rekordów zdecyduj: automatycznie usuń leady bez innych użytecznych danych lub oznacz do ręcznego przeglądu, jeśli dane telefonu lub e-maila są wciąż użyteczne.
Napraw źródło. Śmieci pochodzą z twojego formularza WWW. Dodaj walidację po stronie klienta: minimalną długość znaków, blokuj wzorce powtarzających się znaków i rozważ CAPTCHA dla zapobiegania botom. Po wdrożeniu zmian formularza uruchom skan ponownie w następnym kwartale i porównaj Noise Rate z tą bazą.
Wybór konfiguracji
Użyj tej tabeli, aby wybrać właściwy punkt wyjścia dla analizy poprawności.
| Jeśli potrzebujesz… | Zacznij od | Kluczowe ustawienia |
|---|---|---|
| Sprawdzić format e-maila na niestandardowych polach tekstowych | Format Validation | Pattern Type: Email, Include Blanks: OFF |
| Zwalidować kody o stałej długości (kody produktów, SKU, kody pocztowe) | Advanced Format Validation | Pattern Type: Fixed Length, ustaw liczbę znaków, Include Blanks: ON |
| Zwalidować format URL w polach strony WWW | Format Validation | Pattern Type: URL, Include Blanks: OFF |
| Wymusić niestandardowy format biznesowy (regex) | Advanced Format Validation | Pattern Type: Custom, wprowadź własny regex |
| Wykryć śmieci i szum w polach swobodnego tekstu | Advanced Format Validation | Użyj luźnego wzorca, skup się na Noise Rate i Noisy Records Count |
| Oszacować projekt oczyszczania danych dla integracji | Advanced Format Validation | Include Blanks: ON, użyj Invalid Count i Noisy Records Count do oszacowania projektu |
Pełna referencja wszystkich 6 metryk poprawności, typów wzorców i szczegółów wykrywania szumu — wróć do głównego artykułu Poprawność.
Gotowy, by zmierzyć własną jakość danych? Wykonaj AI Readiness Assessment, aby zobaczyć swoje wyniki poprawności i więcej.