Czym jest poprawność?
Poprawność mierzy, czy wartości danych są zgodne z oczekiwanymi formatami i wzorcami. Wartość jest poprawna, gdy pasuje do zdefiniowanej struktury. Wartość jest niepoprawna, gdy łamie reguły formatu.
Adres e-mail jest poprawny, gdy zawiera symbol „@” i domenę. URL jest poprawny, gdy zaczyna się od protokołu i zawiera domenę. Kod produktu jest poprawny, gdy ma dokładną liczbę znaków wymaganą przez Twój system.
DQS waliduje wartości pól przy użyciu wzorców regex (wyrażeń regularnych). Możesz wybrać wbudowane wzorce dla typowych formatów takich jak Email, URL i Fixed Length, lub napisać własny regex dla dowolnego formatu biznesowego.
Stopień poprawności = (Rekordy pasujące do wzorca / Łączna liczba rekordów) x 100
Jeśli 35 500 z 50 000 rekordów Contact ma adres e-mail pasujący do wzorca formatu, Twój stopień poprawności dla Email wynosi 71%. Pozostałe 29% zawiera wartości, które nie przeszły sprawdzenia wzorca.
Poprawność a dokładność
Poprawność i dokładność to różne pojęcia:
| Sprawdzenie | Poprawne? | Dokładne? |
|---|---|---|
| john@company.com | Tak | Nieznane bez weryfikacji |
| john@company | Nie | N/D (format jest zły) |
| john.doe@formerjob.com | Tak | Nie (osoba odeszła z firmy) |
| 555-123-4567 | Tak | Nieznane bez dzwonienia |
| 555-12-456 | Nie | N/D (zła liczba cyfr) |
DQS mierzy poprawność, ponieważ sprawdzenia formatu można zautomatyzować. Dokładność wymaga weryfikacji zewnętrznej lub ludzkiego potwierdzenia.
Poprawne dane działają w Twoich systemach, nawet jeśli nie odzwierciedlają rzeczywistości. Niepoprawne dane psują Twoje systemy, niezależnie od ich realnej prawdziwości. Skoncentruj się najpierw na poprawności. Zajmij się dokładnością przez procesy weryfikacji.
Dlaczego poprawność ma znaczenie
Niepoprawne dane powodują awarie w całym Twoim stacku. Odbite e-maile szkodzą reputacji nadawcy. Zniekształcone numery telefonów marnują czas dialerów. Uszkodzone URL frustrują użytkowników i blokują narzędzia wzbogacania.
API odrzucają zniekształcone dane. Gdy Twoja integracja wysyła niepoprawny format e-mail do platformy marketingowej, cała paczka może zawieść. Flows w Salesforce, które parsują wartości pól, psują się, gdy format jest nieoczekiwany.
Modele AI przetwarzają tekst dosłownie. Gdy pole telefonu zawiera „Phone: 555-1234” zamiast czystego numeru, model widzi niespójne wzorce. Niepoprawne formaty zmniejszają efektywność AI i produkują nierzetelne wyniki Agentforce.
| System | Wpływ poprawności |
|---|---|
| Kampanie e-mail | Odbicia szkodzą reputacji nadawcy |
| Telefonia | Niepoprawne numery marnują czas dialerów |
| Linki web | Uszkodzone URL blokują wzbogacanie i nawigację |
| API | Zniekształcone dane powodują awarie synchronizacji |
| AI i Agentforce | Niespójne formaty zmniejszają dokładność modelu |
Jak DQS mierzy poprawność
DQS produkuje 6 metryk poprawności zorganizowanych wokół pytania diagnostycznego: „Czy dane pasują do wzorca i czy w wartościach, które przechodzą, nie ukrywa się śmieć?”
Pomyśl o tych metrykach jak o przepływie diagnostycznym. Każdy krok ujawnia głębszą warstwę problemu.
Krok 1: Czy pasuje do wzorca?
Validity Rate to metryka nagłówkowa. Oblicza procent rekordów, w których wartość pola pasuje do Twojego skonfigurowanego wzorca. To liczba, którą umieszcza się na dashboardzie.
Konfigurujesz wzorzec Email na polu PersonEmail dla Contacts. Validity Rate wraca 71%. Oznacza to, że 29% adresów e-mail nie przechodzi sprawdzenia formatu. Brakuje im symbolu „@”, nie mają domeny lub zawierają spacje. Każda kampania marketingowa wysłana na te adresy odbija się. Każdy zautomatyzowany flow uruchamiany na e-mail cicho zawodzi.
Valid Count podaje liczbę bezwzględną. Z 50 000 Contacts, 35 800 ma poprawne adresy e-mail. To Twoja rzeczywista adresowana publiczność dla kampanii e-mail, a nie 50 000 w systemie. Marketing może ustalać realistyczne projekcje kampanii zamiast pracować z zawyżonymi liczbami.
Krok 2: Jaki jest pełny podział?
Stopnie mówią o dotkliwości. Liczby mówią o nakładzie pracy. Dwie metryki dopełniają obraz:
| Metryka | Co Ci mówi |
|---|---|
| Invalid Rate | Negatywne ujęcie Twojego wyniku poprawności. „29% naszych adresów e-mail jest strukturalnie niepoprawne” przyciąga więcej uwagi na prezentacji zarządu niż „71% jest poprawne”. Te same dane, ramowane do działania. |
| Invalid Count | Obciążenie czyszczenia jako twarda liczba. Twoja firma migruje do nowego systemu telefonii wymagającego formatu E.164. Invalid Count na polu Phone: 23 400. To dokładna liczba rekordów, które trzeba przeformatować przed uruchomieniem migracji. |
Krok 3: Czy jest śmieć poza błędami formatu?
Wartość może przejść sprawdzenie formatu i nadal być śmieciem. Twój formularz web-to-lead wymaga pola Company. Validity Rate na Company wynosi 98%, ponieważ prawie wszystko przechodzi podstawowy wzorzec tekstowy. Ale Noise Rate ujawnia, że 14% tych wartości to wpisy takie jak „asdf”, „test”, „xxxxx” lub „na na na”. Poprawne pod względem formatu, ale całkowicie bezużyteczne do routingu sprzedaży, wzbogacania czy segmentacji.
Noisy Records Count daje Ci zakres czyszczenia. Jeśli Noise Rate wynosi 14% na 50 000 rekordach, to 7000 Leads z śmieciowymi nazwami firm. Twój zespół ops może zbudować kolejkę czyszczenia, oszacować godziny i zdecydować, czy automatycznie usunąć, czy oznaczyć do ręcznego przeglądu.
Dwie kategorie awarii
Metryki poprawności rozróżniają dwa fundamentalnie różne problemy:
| Problem | Metryki | Przyczyna źródłowa | Rozwiązanie |
|---|---|---|---|
| Błędy formatu | Validity Rate, Invalid Rate, Valid/Invalid Count | Ludzkie błędy, bugi integracji, brakujące reguły walidacji | Wyczyść dane: reguły walidacji pól, transformacja danych, wzbogacanie |
| Szum i śmieć | Noise Rate, Noisy Records Count | Boty, wymuszone przesłania formularzy, masowe importy z śmieciowymi wartościami domyślnymi | Napraw źródło: CAPTCHA, przeprojektowanie pól wymaganych, usuwanie rekordów |
Rozróżnienie ma znaczenie, ponieważ rozwiązanie jest zupełnie inne. Błędy formatu są naprawiane przez czyszczenie danych. Szum jest naprawiany przez naprawę źródła, które go produkuje.
Referencja metryk
Metryki podstawowe
Te 2 metryki tworzą bazę każdej analizy poprawności. Mówią Ci o stopniu dopasowania i liczbie rekordów, które przechodzą.
| Metryka | Typ | Co mierzy |
|---|---|---|
| Validity Rate | Procent | Udział rekordów pasujących do skonfigurowanego wzorca |
| Valid Count | Liczba | Liczba rekordów pasujących do skonfigurowanego wzorca |
Metryki zaawansowane
Te 4 metryki wykraczają poza „czy pasuje?”, aby dać pełny podział, w tym wykrywanie szumu. Wymagają trybu analizy Advanced Format Validation.
| Metryka | Typ | Co mierzy |
|---|---|---|
| Invalid Rate | Procent | Udział rekordów niepasujących do skonfigurowanego wzorca |
| Invalid Count | Liczba | Liczba rekordów niepasujących do skonfigurowanego wzorca |
| Noise Rate | Procent | Udział rekordów zawierających wzorce szumu (śmieci) |
| Noisy Records Count | Liczba | Liczba rekordów zawierających wzorce szumu |
Dlaczego stopnie i liczby występują w parach
Większość metryk występuje jako stopień (procent) i liczba (wartość bezwzględna). Jest to celowe:
- Stopnie są dla dashboardów, raportowania dla zarządu i śledzenia trendów. „Poprawność poprawiła się z 71% do 92% w tym kwartale.”
- Liczby są do planowania projektów, szacowania obciążenia i określania zakresu czyszczenia. „Mamy 23 400 numerów telefonów do przeformatowania.”
Używaj stopni do komunikowania postępu. Używaj liczb do planowania pracy.
Pokrycie typów pól
Wszystkie 6 metryk poprawności ma takie samo bazowe wsparcie typów pól, z metrykami szumu ograniczonymi do pól tekstowych.
| Metryka | Wszystkie 6 typów pól | Tylko String i TextArea |
|---|---|---|
| Validity Rate | X | |
| Valid Count | X | |
| Invalid Rate | X | |
| Invalid Count | X | |
| Noise Rate | X | |
| Noisy Records Count | X |
Metryki oparte na wzorcu (Validity Rate, Valid Count, Invalid Rate, Invalid Count) działają na wszystkich 6 obsługiwanych typach pól: String, TextArea, Email, Phone, URL i Picklist.
Metryki szumu (Noise Rate, Noisy Records Count) mają zastosowanie tylko do pól String i TextArea. Wzorce szumu, takie jak powtarzane znaki i walenie w klawiaturę, to zjawiska tekstu dowolnego. Pole Picklist z poprawną wartością picklisty nie może zawierać szumu. Wykrywanie szumu ma sens tylko na polach, gdzie użytkownicy piszą tekst dowolny.
Dwa tryby analizy
DQS oferuje dwa tryby analizy poprawności:
Format Validation odpowiada na pytanie: „Czy wartości pól pasują do oczekiwanego wzorca?” Produkuje 2 metryki podstawowe i pokrywa podstawy dla sprawdzenia zgodności formatu lub szybkiego audytu.
Advanced Format Validation idzie głębiej. Produkuje wszystkie 6 metryk, w tym pełny podział valid/invalid i wykrywanie szumu. Używaj tego trybu, gdy musisz odróżnić błędy formatu od danych śmieciowych lub gdy potrzebujesz precyzyjnych liczb do planowania projektów czyszczenia.
| Potrzeba biznesowa | Rekomendowany tryb |
|---|---|
| Szybkie sprawdzenie zgodności formatu | Format Validation |
| Raportowanie zgodności lub audyt | Advanced (pełny podział valid/invalid dla regulatorów) |
| Ocena jakości Leads | Advanced (Noise Rate wychwytuje śmieć, który przechodzi sprawdzenia formatu) |
| Ocena danych przed migracją | Advanced (pełny podział do określenia zakresu naprawy według kategorii) |
| Bieżące zarządzanie danymi | Zacznij od Format Validation, przejdź do Advanced dla wykrywania szumu |
Konfigurowanie poprawności
W przeciwieństwie do kompletności (która działa automatycznie na dowolnym polu) poprawność wymaga konfiguracji. Musisz zdefiniować, co oznacza „poprawne” dla każdego pola, zanim DQS będzie mogło to sprawdzić. Skanowanie poprawności bez wzorca jest bezsensowne: poprawne w porównaniu do czego?
DQS udostępnia 5 wejść konfiguracyjnych. Każde można ustawić na poziomie globalnym (dotyczy wszystkich pól) i nadpisać na poziomie pojedynczego pola.
| Ustawienie | Co kontroluje |
|---|---|
| Pattern Type | Format do walidacji. Wybierz z Email, URL, Fixed Length lub Custom regex. Wymagane: musisz wybrać typ wzorca przed uruchomieniem skanowania. |
| Pattern / Fixed Length | Konkretna wartość dla wybranego typu. Dla Fixed Length wprowadź liczbę znaków (1 do 255). Dla Custom wprowadź wzorzec regex. Email i URL używają wbudowanych wzorców. |
| Custom Pattern | Twój własny regex, gdy Pattern Type jest ustawione na Custom. DQS waliduje Twój regex przed zapisaniem i blokuje niepoprawne wyrażenia. |
| Include Blanks | Gdy włączone, DQS liczy puste wartości jako niepoprawne. Gdy wyłączone (domyślnie), puste wartości są całkowicie wykluczone z oceny. |
| Case Sensitive | Gdy włączone, dopasowanie wzorca uwzględnia wielkość liter. Gdy wyłączone (domyślnie), dopasowanie jest niewrażliwe na wielkość liter. |
Typy wzorców
| Typ | Co waliduje | Przykład poprawny | Przykład niepoprawny |
|---|---|---|---|
| Standardowy format adresu e-mail: user@domain.tld | user@example.com | user@domain, invalid-email | |
| URL | Adresy web HTTP/HTTPS z poprawną domeną | https://example.com | example.com, htp://site.com |
| Fixed Length | Dokładna liczba znaków (definiujesz liczbę) | AAAAAAAAAA (10 znaków, jeśli długość = 10) | SHORT (5 znaków) |
| Custom | Dowolny wzorzec regex, który zdefiniujesz | Zależy od wzorca | Zależy od wzorca |
Przykład: Twoje kody produktów mają format „DQS-” po którym następuje 6 cyfr. Ustaw Pattern Type na Custom i wprowadź regex ^DQS-\d{6}$. DQS oznaczy każdy kod produktu, który nie pasuje do tej struktury.
Wykrywanie szumu
Wykrywanie szumu wychwytuje dane, które przechodzą sprawdzenia formatu, ale nadal są śmieciem. DQS używa dwóch wbudowanych heurystyk do identyfikacji śmieciowych wartości:
Heurystyka 1: Kolejne identyczne znaki. Trzy lub więcej tych samych znaków z rzędu. Wartości takie jak „aaaa”, „!!!”, „---” czy „xxxxx” wyzwalają to sprawdzenie. Zazwyczaj pochodzą z trzymania klawisza, wypełniacza lub nadużywania wartości zastępczych.
Heurystyka 2: Nadmierne znaki specjalne. Ponad 50% znaków niealfanumerycznych (z wyłączeniem spacji). Wartości takie jak „!@#$%^” lub „***///---” wyzwalają to sprawdzenie. Wskazują na walenie w klawiaturę, wprowadzanie przez bota lub celowe wprowadzanie śmieci.
| Heurystyka | Co wychwytuje | Przykłady wartości śmieciowych | Przykłady wartości czystych |
|---|---|---|---|
| 3+ kolejne identyczne znaki | Wypełniacz, trzymanie klawisza | „aaaa”, „!!!”, „---”, „xxxxx” | „Premium”, „DOT AB3 2024” |
| Ponad 50% znaków specjalnych | Walenie w klawiaturę, wprowadzanie przez bota, śmieć | „!@#$%^”, „***test”, „//—//“ | „test@email.com”, „O’Brien Inc” |
Możesz też zdefiniować niestandardowe wzorce szumu używając regex dla śmieci specyficznych dla org, których wbudowane heurystyki nie obejmują.
Wskazówka: Wykrywanie szumu jest najbardziej wartościowe na polach tekstu dowolnego, gdzie użytkownicy mogą pisać cokolwiek: Company, Description, Notes i niestandardowe pola tekstowe. Uruchom je najpierw na polach web-to-lead, gdzie zgłoszenia botów i wymuszone wpisy są najczęstsze.
Typowe problemy z poprawnością
Niepoprawne adresy e-mail
Użytkownicy wprowadzają e-maile bez właściwego formatu. Brakujące symbole „@”, brakujące domeny, podwójne kropki i literówki to najczęstsze problemy.
| Problem | Przykład |
|---|---|
| Brak @ | john.company.com |
| Brak domeny | john@ |
| Podwójne kropki | john@company..com |
| Literówki | john@comapny.com |
Wpływ: Odbite e-maile, uszkodzony wynik nadawcy, utracona komunikacja.
Zniekształcone numery telefonów
Pola telefonu akceptują dowolny tekst w Salesforce, co prowadzi do niespójnych i niepoprawnych formatów.
| Problem | Przykład |
|---|---|
| Litery wmieszane | 555-CALL-NOW |
| Zła liczba cyfr | 555-12 |
| Numer wewnętrzny w polu | 555-1234 ext 5 |
| Mylenie kodu kraju | 1-555-123-4567 vs 555-123-4567 |
Wpływ: Nieudane połączenia, zmarnowany czas sprzedaży, błędy synchronizacji telefonii.
Niepoprawne URL
Pola adresów web często zawierają częściowe lub zniekształcone wartości.
| Problem | Przykład |
|---|---|
| Brak protokołu | www.company.com |
| Brak domeny | https:// |
| Literówki | htps://company.com |
| Uchwyty społecznościowe | @company (nie jest URL) |
Wpływ: Uszkodzone linki, nieudane wzbogacanie, błędy nawigacji.
Najlepsze praktyki
Waliduj przy wprowadzaniu
Najlepsze sprawdzenie poprawności odbywa się przy wprowadzaniu danych. Używaj reguł walidacji Salesforce, aby egzekwować formaty, zanim dane wejdą do Twojego systemu.
// Przykład: reguła walidacji formatu e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
Standaryzuj formaty przed skanowaniem
Wybierz jeden format dla każdego pola i egzekwuj go. Dla numerów telefonów E.164 (+15551234567) to najbardziej uniwersalnie akceptowany standard. Dla URL wymagaj protokołu https://. Dokumentuj swoje decyzje formatu, aby zespół znał standard.
Ustawiaj progi według priorytetu pola
Różne pola potrzebują różnych standardów poprawności:
| Pole | Sugerowany próg | Uzasadnienie |
|---|---|---|
| Primary Email | 95%+ | Krytyczne dla komunikacji |
| Phone | 90%+ | Ważne, ale oczekiwane są stare dane |
| Website | 85%+ | Często wprowadzane niekompletnie |
| Niestandardowe kody tekstowe | 98%+ | Generowane przez system, oczekiwana wysoka zgodność |
Używaj wykrywania szumu na polach tekstu dowolnego
Uruchamiaj wykrywanie szumu na polach, gdzie użytkownicy piszą tekst dowolny: Company, Description, niestandardowe pola tekstowe i dowolne pole wypełniane przez formularze web. Noise Rate ujawnia problemy, których walidacja formatu nie łapie.
Dokumentuj oczekiwane formaty
Stwórz słownik danych, który określa oczekiwany format dla każdego pola, akceptowalne warianty oraz przykłady wartości poprawnych i niepoprawnych. Udostępnij go zespołowi i odwołuj się do niego podczas projektów czyszczenia danych.
Następne kroki
Teraz rozumiesz, jak walidować formaty danych i wykrywać śmieciowe wartości. Kontynuuj naukę o następnym wymiarze:
- Dalej: Unikalność - Wykrywaj i zapobiegaj zduplikowanym rekordom
- Poprzednio: Kompletność - Zapewnij obecność wymaganych danych
- Powiązane: Pięć wymiarów - Przegląd wszystkich wymiarów
- Działanie: Ocena gotowości na AI - Zobacz swoje aktualne wyniki poprawności