Vad är giltighet?
Giltighet mäter om datavärden stämmer överens med förväntade format och mönster. Ett värde är giltigt när det matchar den definierade strukturen. Ett värde är ogiltigt när det bryter mot formatreglerna.
En e-postadress är giltig när den innehåller ett ”@“-symbol och en domän. En webbadress är giltig när den börjar med ett protokoll och innehåller en domän. En produktkod är giltig när den har exakt det antal tecken som ditt system kräver.
DQS validerar fältvärden med hjälp av regex (reguljära uttryck). Du väljer bland inbyggda mönster för vanliga format som e-post, URL och fast längd, eller skriver ditt eget regex för valfritt affärsspecifikt format.
Giltighetsgrad = (Poster som matchar mönstret / Totalt antal poster) x 100
Om 35 500 av 50 000 Contact-poster har en e-postadress som matchar e-postformatmönstret är din e-postgiltighetsgrad 71 %. De återstående 29 % innehåller värden som misslyckas med mönsterkontroll.
Giltighet kontra noggrannhet
Giltighet och noggrannhet är olika begrepp:
| Kontroll | Giltig? | Noggrann? |
|---|---|---|
| john@company.com | Ja | Okänt utan verifiering |
| john@company | Nej | Ej tillämpligt (formatet är fel) |
| john.doe@formerjob.com | Ja | Nej (personen lämnade företaget) |
| 555-123-4567 | Ja | Okänt utan att ringa |
| 555-12-456 | Nej | Ej tillämpligt (fel antal siffror) |
DQS mäter giltighet eftersom formatkontroller kan automatiseras. Noggrannhet kräver extern verifiering eller mänsklig bekräftelse.
Giltiga data fungerar i dina system även om de inte återspeglar verkligheten. Ogiltiga data bryter dina system oavsett deras verkliga sanningshalt. Fokusera på giltighet först. Åtgärda noggrannhet genom verifieringsprocesser.
Varför giltighet är viktigt
Ogiltiga data orsakar misslyckanden i hela din stack. Avvisade e-postmeddelanden skadar avsändarens rykte. Felformaterade telefonnummer slösar uppringarens tid. Trasiga webbadresser frustrerar användare och blockerar berikningsverktyg.
API:er avvisar felformaterad data. När din integration skickar ett ogiltigt e-postformat till en marknadsföringsplattform kan hela batchen misslyckas. Salesforce-flöden som tolkar fältvärden bryter när formatet är oväntat.
AI-modeller bearbetar text som den är. När ett telefonfält innehåller “Telefon: 555-1234” istället för ett rent nummer ser modellen inkonsekventa mönster. Ogiltiga format minskar AI-effektiviteten och producerar opålitliga Agentforce-resultat.
| System | Giltighetspåverkan |
|---|---|
| E-postkampanjer | Avvisningar skadar avsändarens rykte |
| Telefoni | Ogiltiga nummer slösar uppringarens tid |
| Webblänkar | Trasiga webbadresser blockerar berikning och navigering |
| API:er | Felformaterad data orsakar synkroniseringsmisslyckanden |
| AI och Agentforce | Inkonsekvent format minskar modellnoggrannheten |
Hur DQS mäter giltighet
DQS producerar 6 giltighetsmätvärden organiserade kring en diagnostisk fråga: “Matchar data mönstret, och finns det skräp gömt i värden som godkänns?”
Tänk på dessa mätvärden som ett diagnostiskt flöde. Varje steg avslöjar ett djupare lager av problemet.
Steg 1: Matchar det mönstret?
Giltighetsgrad är rubriktalet. Det beräknar procentandelen poster där fältvärdet matchar ditt konfigurerade mönster. Det är det tal du lägger på en instrumentpanel.
Du konfigurerar e-postmönstret på fältet PersonEmail för Contacts. Giltighetsgraden kommer tillbaka på 71 %. Det innebär att 29 % av e-postadresserna misslyckas med formatkontroll. De saknar ”@“-symbolen, har ingen domän eller innehåller blanksteg. Varje marknadsföringskampanj skickad till dessa adresser avvisas. Varje automatiserat arbetsflöde som utlöses på e-post misslyckas tyst.
Antal giltiga berättar det absoluta antalet. Av 50 000 Contacts har 35 800 giltiga e-postadresser. Det är din faktiska adresserbara publik för e-postkampanjer, inte 50 000 i systemet. Marknadsföringen kan sätta realistiska kampanjprognoser istället för att arbeta utifrån uppblåsta siffror.
Steg 2: Vad är den fullständiga uppdelningen?
Grader berättar om allvarlighetsgrad. Antal berättar om arbetsbelastning. Två mätvärden kompletterar bilden:
| Mätvärde | Vad det berättar |
|---|---|
| Ogiltighetsgrad | Den negativa formuleringen av ditt giltighetspoäng. “29 % av våra e-postadresser är strukturellt ogiltiga” får mer uppmärksamhet i en styrelseframläggning än “71 % är giltiga.” Samma data, formulerad för åtgärd. |
| Antal ogiltiga | Rensningsarbetsbelastningen som ett konkret tal. Ditt företag migrerar till ett nytt telefonisystem som kräver E.164-format. Antal ogiltiga för telefonfältet: 23 400. Det är exakt det antal poster som behöver omformateras innan migreringen kan genomföras. |
Steg 3: Finns det skräp bortom formatfel?
Ett värde kan passera en formatkontroll och ändå vara skräp. Ditt webb-till-lead-formulär kräver ett Company-fält. Giltighetsgraden för Company är 98 %, eftersom nästan allt passerar ett grundläggande textmönster. Men Brusgrad avslöjar att 14 % av dessa värden är poster som “asdf”, “test”, “xxxxx” eller “na na na.” Formatgiltiga, men helt värdelösa för säljdirigering, berikning eller segmentering.
Antal brusposter ger dig rensningsomfånget. Om Brusgraden är 14 % på 50 000 poster är det 7 000 leads med skräpföretagsnamn. Ditt ops-team kan bygga en rensningskö, uppskatta timmar och besluta om automatisk borttagning eller flaggning för manuell granskning.
Två kategorier av misslyckanden
Giltighetsmätvärden skiljer två fundamentalt olika problem:
| Problem | Mätvärden | Rotorsak | Åtgärd |
|---|---|---|---|
| Formatfel | Giltighetsgrad, Ogiltighetsgrad, Antal giltiga/ogiltiga | Mänskliga misstag, integrationsbuggar, saknade valideringsregler | Rensa data: fältvalideringsregler, datatransformering, berikning |
| Brus och skräp | Brusgrad, Antal brusposter | Botar, tvingade formulärinsändningar, massimporter med skräpstandardvärden | Åtgärda källan: CAPTCHA, omdesign av obligatoriska fält, postborttagning |
Distinktionen är viktig eftersom åtgärden är helt annorlunda. Formatfel åtgärdas genom att rensa data. Brus åtgärdas genom att åtgärda källan som producerar det.
Mätvärdesreferens
Grundläggande mätvärden
Dessa 2 mätvärden utgör grunden för varje giltighetsanalys. De berättar om matchningsgraden och antalet poster som godkänns.
| Mätvärde | Typ | Vad det mäter |
|---|---|---|
| Giltighetsgrad | Procentandel | Andel poster som matchar det konfigurerade mönstret |
| Antal giltiga | Antal | Antal poster som matchar det konfigurerade mönstret |
Avancerade mätvärden
Dessa 4 mätvärden går bortom “matchar det?” för att ge den fullständiga uppdelningen, inklusive brusidentifiering. De kräver analysläget Avancerad formatvalidering.
| Mätvärde | Typ | Vad det mäter |
|---|---|---|
| Ogiltighetsgrad | Procentandel | Andel poster som misslyckas med det konfigurerade mönstret |
| Antal ogiltiga | Antal | Antal poster som misslyckas med det konfigurerade mönstret |
| Brusgrad | Procentandel | Andel poster som innehåller brusmönster (skräpdata) |
| Antal brusposter | Antal | Antal poster som innehåller brusmönster |
Varför grader och antal kommer i par
De flesta mätvärden kommer som en grad (procentandel) och ett antal (absolut tal). Det är avsiktligt:
- Grader är för instrumentpaneler, rapportering till ledningen och trendspårning. “Giltigheten förbättrades från 71 % till 92 % under kvartalet.”
- Antal är för projektplanering, arbetsbelastningsuppskattning och rensningsplanering. “Vi har 23 400 telefonnummer att formatera om.”
Använd grader för att kommunicera framsteg. Använd antal för att planera arbete.
Fälttypstäckning
Alla 6 giltighetsmätvärden delar samma grundfälttypsupport, med brusmätvärden begränsade till textfält.
| Mätvärde | Alla 6 fälttyper | Endast String och TextArea |
|---|---|---|
| Giltighetsgrad | X | |
| Antal giltiga | X | |
| Ogiltighetsgrad | X | |
| Antal ogiltiga | X | |
| Brusgrad | X | |
| Antal brusposter | X |
Mönsterbaserade mätvärden (Giltighetsgrad, Antal giltiga, Ogiltighetsgrad, Antal ogiltiga) fungerar på alla 6 stödda fälttyper: String, TextArea, Email, Phone, URL och Picklist.
Brusmätvärden (Brusgrad, Antal brusposter) gäller bara för String- och TextArea-fält. Brusmönster som upprepade tecken och tangentbordshamperi är fritext-fenomen. Ett Picklist-fält med ett giltigt picklistvärde kan inte innehålla brus. Brusidentifiering ger bara mening för fält där användare skriver fritext.
Två analyslägen
DQS erbjuder två giltighetsanalyslägen:
Formatvalidering svarar på frågan: “Matchar fältvärden det förväntade mönstret?” Det producerar de 2 grundläggande mätvärdena och täcker det väsentliga för en formattillsynskontroll eller snabb revision.
Avancerad formatvalidering går djupare. Det producerar alla 6 mätvärden, inklusive den fullständiga giltiga/ogiltiga uppdelningen och brusidentifiering. Använd det här läget när du behöver skilja mellan formatfel och skräpdata, eller när du behöver exakta antal för planering av rensningsprojekt.
| Affärsbehov | Rekommenderat läge |
|---|---|
| Snabb formattillsynskontroll | Formatvalidering |
| Efterlevnadsrapportering eller revision | Avancerad (fullständig giltig/ogiltig uppdelning för revisorer) |
| Bedömning av leadkvalitet | Avancerad (Brusgrad fångar skräp som passerar formatkontroller) |
| Datauppskattning inför migration | Avancerad (fullständig uppdelning för att planera åtgärder per kategori) |
| Löpande datastyrning | Börja med Formatvalidering, flytta till Avancerad för brusidentifiering |
Konfigurera giltighet
Till skillnad från fullständighet (som fungerar automatiskt på vilket fält som helst) kräver giltighet konfiguration. Du måste definiera vad “giltigt” innebär för varje fält innan DQS kan kontrollera det. En giltighetsgenomsökning utan mönster är meningslös: giltig jämfört med vad?
DQS tillhandahåller 5 konfigurationsindata. Varje kan ställas in på global nivå (gäller alla fält) och åsidosättas på individuell fältnivå.
| Inställning | Vad den styr |
|---|---|
| Mönstertyp | Det format som ska valideras mot. Välj bland E-post, URL, Fast längd eller Anpassad regex. Obligatorisk: du måste välja en mönstertyp innan du kör en genomsökning. |
| Mönster / Fast längd | Det specifika värdet för din valda typ. För Fast längd, ange ett antal tecken (1 till 255). För Anpassad, ange ett regex-mönster. E-post och URL använder inbyggda mönster. |
| Anpassat mönster | Ditt eget regex när Mönstertyp är inställd på Anpassad. DQS validerar ditt regex innan det sparas och blockerar ogiltiga uttryck. |
| Inkludera tomma | När aktiverad räknar DQS tomma värden som ogiltiga. När inaktiverad (standard) utesluts tomma värden från utvärderingen helt. |
| Skiftlägeskänslig | När aktiverad tar mönstermatchning hänsyn till skiftläge. När inaktiverad (standard) är matchningen skiftlägesokänslig. |
Mönstertyper
| Typ | Vad det validerar | Exempelgodkänd | Exempelavslagen |
|---|---|---|---|
| E-post | Standardformat för e-postadress: user@domain.tld | user@example.com | user@domain, invalid-email |
| URL | HTTP/HTTPS-webbadresser med giltig domän | https://example.com | example.com, htp://site.com |
| Fast längd | Exakt antal tecken (du definierar antalet) | AAAAAAAAAA (10 tecken, om längd = 10) | KORT (5 tecken) |
| Anpassad | Valfritt regex-mönster du definierar | Beror på ditt mönster | Beror på ditt mönster |
Exempel: Dina produktkoder följer formatet “DQS-” följt av 6 siffror. Ange Mönstertyp som Anpassad och ange regex:t ^DQS-\d{6}$. DQS flaggar varje produktkod som inte matchar denna struktur.
Brusidentifiering
Brusidentifiering fångar data som passerar formatkontroller men ändå är skräp. DQS använder två inbyggda heuristiker för att identifiera brusposter:
Heuristik 1: Tre eller fler identiska tecken i rad. Värden som “aaaa”, ”!!!”, ”---” eller “xxxxx” utlöser denna kontroll. Dessa kommer vanligtvis från tangenthållning, utfyllnad eller platshållarmissbruk.
Heuristik 2: Överdrivna specialtecken. Mer än 50 % icke-alfanumeriska tecken (exklusive blanksteg). Värden som ”!@#$%^” eller ”***///---” utlöser denna kontroll. Dessa indikerar tangentbordshamperi, botinmatning eller avsiktlig skräpinmatning.
| Heuristik | Vad den fångar | Exempel på brusvärden | Exempel på rena värden |
|---|---|---|---|
| 3+ identiska tecken i rad | Utfyllnad, filler, tangenthållning | ”aaaa”, ”!!!”, ”---”, “xxxxx" | "Premium”, “DOT AB3 2024” |
| Mer än 50 % specialtecken | Tangentbordshamperi, botinmatning, skräp | ”!@#$%^”, “***test”, ”//—//" | "test@email.com”, “O’Brien Inc” |
Du kan också definiera anpassade brusmönster med regex för organisationsspecifikt skräp som de inbyggda heuristikerna inte täcker.
Tips: Brusidentifiering är mest värdefullt på fritext-fält där användare kan skriva vad som helst: Företag, Beskrivning, Anteckningar och anpassade textfält. Kör det på dina webb-till-lead-fält först, där botinsändningar och tvingade poster är vanligast.
Vanliga giltighetsproblem
Ogiltiga e-postadresser
Användare anger e-post utan korrekt format. Saknade ”@“-symboler, saknade domäner, dubbla punkter och stavfel är de vanligaste problemen.
| Problem | Exempel |
|---|---|
| Saknar @ | john.company.com |
| Saknar domän | john@ |
| Dubbla punkter | john@company..com |
| Stavfel | john@comapny.com |
Påverkan: Avvisade e-postmeddelanden, skadat avsändarpoäng, förlorad kommunikation.
Felformaterade telefonnummer
Telefonfält accepterar vilken text som helst i Salesforce, vilket leder till inkonsekventa och ogiltiga format.
| Problem | Exempel |
|---|---|
| Bokstäver inblandade | 555-RING-NU |
| Fel antal siffror | 555-12 |
| Anknytning i fält | 555-1234 ankn 5 |
| Förvirring kring landsnummer | 1-555-123-4567 kontra 555-123-4567 |
Påverkan: Misslyckade samtal, slösad säljtid, telefonisyncfel.
Ogiltiga webbadresser
Webbadressfält innehåller ofta partiella eller felformaterade värden.
| Problem | Exempel |
|---|---|
| Saknar protokoll | www.company.com |
| Saknar domän | https:// |
| Stavfel | htps://company.com |
| Sociala handtag | @company (inte en URL) |
Påverkan: Trasiga länkar, misslyckad berikning, navigeringsfel.
Bästa praxis
Validera vid inmatning
Den bästa giltighetskontroll sker vid datainmatning. Använd Salesforce-valideringsregler för att genomdriva format innan data matas in i ditt system.
// Exempel: Valideringsregel för e-postformat
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
Standardisera format innan genomsökning
Välj ett format för varje fält och genomdriv det. För telefonnummer är E.164 (+15551234567) den mest universellt accepterade standarden. För webbadresser, kräv https://-protokollet. Dokumentera dina formatbeslut så att teamet känner till standarden.
Ange tröskelvärden per fältprioritet
Olika fält behöver olika giltighetsstandarder:
| Fält | Föreslaget tröskelvärde | Motivering |
|---|---|---|
| Primär e-post | 95 %+ | Kritisk för kommunikation |
| Telefon | 90 %+ | Viktigt men äldre data förväntas |
| Webbplats | 85 %+ | Anges ofta ofullständigt |
| Anpassade textkoder | 98 %+ | Systemgenererade, förväntar hög efterlevnad |
Använd brusidentifiering på fritext-fält
Kör brusidentifiering på fält där användare skriver fritext: Företag, Beskrivning, anpassade textfält och fält som fylls i via webbformulär. Brusgrad avslöjar problem som formatvalidering missar.
Dokumentera förväntade format
Skapa en dataordbok som anger det förväntade formatet för varje fält, acceptabla variationer och exempel på giltiga och ogiltiga värden. Dela med ditt team och referera till det under datarensningsprojekt.
Nästa steg
Du förstår nu hur man validerar dataformat och identifierar brusvärden. Fortsätt lära dig om nästa dimension:
- Nästa: Unikhet – Identifiera och förhindra dubblerade poster
- Föregående: Fullständighet – Säkerställ att obligatorisk data finns
- Relaterat: De fem dimensionerna – Översikt av alla dimensioner
- Åtgärd: AI-beredskapsbedömning – Se dina nuvarande giltighetspoäng