Vad är unikhet?
Unikhet mäter om dina datavärden är distinkta och inte dubblerade. Ett fält har hög unikhet när varje post innehåller ett annat värde. Unikthet bryts ner när samma värde förekommer i flera poster, eller när textfält innehåller upprepat mallbaserat innehåll som inte tillför något analytiskt värde.
Dubblerade poster kostar din organisation i varje skede. Tre Account-poster för samma företag delar upp din pipeline. Två Contact-poster för samma person får två marknadsföringsutskick. Boilerplate-text inklistrad i tusentals ärendebeskrivningar gör det omöjligt att extrahera insikter. Unikhetsanalys kvantifierar alla dessa problem.
Unikhetsgrad = (Poster med unika värden / Totalt antal poster) x 100
Om 7 800 av 10 000 Contact-poster har ett distinkt e-postvärde är din e-postunikhetsgrad 78 %. De återstående 22 % delar e-postadresser med minst en annan post. Detta enskilda mätvärde berättar om ett fält som förväntar sig unika värden faktiskt har dem.
Varför unikhet är viktigt
Rapportering
Dubblerade poster blåser upp dina siffror. När samma företag visas som tre Accounts är ditt Account-antal överdrivet med två. Pipelinerapporter visar tre affärer där en finns. Kundantal som används i styrelsepresentationer och investerarrapportering är fel.
Automatisering
Salesforce-automatisering behandlar varje post oberoende. En duplicerad Account utlöser dubblettarbetsflöden, skickar dubbla meddelanden och skapar dubblerade tasks. En förnyelseprocess som utlöses på varje Account som matchar ett företagsnamn utlöses tre gånger istället för en.
AI och Agentforce
AI-modeller bearbetar varje post som en separat entitet. Dubblerade poster fragmenterar modellens syn på en kund. Agentforce genererar svar med dina Salesforce-data. När tre Account-poster finns för samma företag ser Agentforce tre kunder, inte en med en fullständig historik. Upprepat boilerplate-innehåll i textfält lär modellen dina mallar, inte dina affärsmönster.
| System | Unikhetspåverkan |
|---|---|
| Rapporter | Uppblåsta antal, fragmenterade mätvärden |
| Arbetsflöden | Dubblettutlösare, redundanta meddelanden |
| Dubblettregler | Överväldigade av befintliga dubbletter om de inte identifieras |
| Agentforce | Fragmenterad kundvy, mallförorenat lärande |
Hur DQS mäter unikhet
DQS producerar 6 unikhetsmätvärden organiserade kring en diagnostisk fråga: “Är data distinkta, hur är de fördelade, och är textinnehållet originellt?”
Tänk på dessa mätvärden som ett diagnostiskt flöde. Varje lager bygger på det föregående.
Lager 1: Är värden unika?
Unikhetsgrad är rubriktalet. Det beräknar procentandelen poster där fältvärdet är distinkt (inte duplicerat någon annanstans i datamängden). Det är det tal du lägger på en instrumentpanel.
Du kör en genomsökning på Contact-objektet. Fältet Email visar en unikhetsgrad på 78 %. Det innebär att 22 % av e-postadresserna förekommer på mer än en Contact. Vissa är legitima (delade avdelnings-e-postadresser som info@company.com), men de flesta är sannolikt dubblerade contacts som behöver slås samman. Detta enda tal motiverar ett dedupliceringsinitiv.
Distinkt antal berättar fältets kardinalitet: hur många olika värden som faktiskt finns. Om 10 000 Contact-poster innehåller 8 200 distinkta e-postadresser är Distinkt antal 8 200.
Exempel: Du förväntar dig att picklistan Lead_Source ska ha ungefär 12 värden (dina konfigurerade picklistalternativ). Men Distinkt antal visar 87. Innan picklistan begränsades skrev säljarna fritext. “Web”, “web”, “Website”, “Webinar”, “web form” räknas alla som distinkta. Det här mätvärdet avslöjar att dina Lead Source-data behöver normalisering, även om picklistan nu är låst.
Lager 2: Hur är data fördelade?
Unikhetsgrad berättar hur många värden som är unika. Fördelningsmätvärden berättar hur dessa värden sprids över poster. Två fält kan ha samma unikhetsgrad men mycket olika fördelningar.
Entropi mäter hur jämnt värden är fördelade med Shannons entropi. Skalan sträcker sig från 0 (varje post har exakt samma värde) till ett maximum bestämt av antalet distinkta värden. Högre entropi innebär mer diversa, mer jämnt fördelade data.
Entropi ensam betyder ingenting. Jämför det med den maximala möjliga entropin för det fältet. Maximum = log2(Distinkt antal), vilket är den entropi du får om varje distinkt värde förekommer exakt lika många gånger. Kvoten (faktisk / max) ger ett normaliserat poäng från 0 till 1:
| Normaliserat (faktisk / max) | Tolkning |
|---|---|
| 0,9 eller högre | Jämn fördelning: värden sprids enhetligt |
| 0,7 till 0,9 | Måttlig snedhet: vissa värden förekommer mer än andra |
| Under 0,7 | Dominerat: ett fåtal värden håller de flesta posterna |
Exempel: Ditt Industry-fält för Accounts har en unikhetsgrad på 2 % (förväntat för en picklista) och 24 distinkta värden. Ser bra ut. Men entropin är 1,3 och maximal entropi för 24 värden är 4,6. Det normaliserade poänget är 0,28. Fördelningen är kraftigt sned: 60 % av posterna är “Technology” och “Financial Services.” Ditt industrisbaserade segmenteringssystem är ett tvåhinkssystem förklätt som 24 kategorier.
Maximal frekvens ger dig antalet förekomster för det enskilt vanligaste värdet. Om “London” förekommer 8 400 gånger i City-fältet är Maximal frekvens 8 400.
Ett enda dominerande värde signalerar ofta ett standardvärdesproblem, ett migreringsartefakt eller en genuin affärskoncentration som behöver undersökas. Maximal frekvens väcker frågan. En snabb kontroll av det faktiska värdet svarar på den.
Exempel: Fältet Billing_Country har en Maximal frekvens på 34 000 av 40 000 poster. Det är 85 % av posterna med ett land. Antingen är din verksamhet genuint koncentrerad till en marknad, eller så angav någon ett standardvärde under migreringen. Mätvärdet synliggör mönstret; du avgör orsaken.
Lager 3: Är textinnehållet originellt?
De två första lagren mäter om värden är identiska. Lager 3 ställer en annan fråga: är textinnehållet väsentligen liknande? Två ärendebeskrivningar kan vara 100 % unika (olika ärendenummer, datum) men 90 % boilerplate (samma mall, samma fraser).
Boilerplate-grad är rubriktalet för textinnehållets originalitet. Det mäter procentandelen innehåll som är upprepande eller mallbaserat. Ett högre poäng innebär mer originellt innehåll med mindre boilerplate. DQS identifierar vanliga mallar som e-postsignaturer, juridiska friskrivningar och upprepade fraser.
Exempel: Din organisation utvärderar om Description-fältet för Opportunities lämpar sig för AI-driven analys av vinster och förluster. Unikhetsgraden är 99 % (varje beskrivning är tekniskt sett annorlunda). Men Boilerplate-grad avslöjar att 65 % av innehållet följer samma mall: “Kund: [namn]. Behov: [produkt]. Tidslinje: [datum].” AI-modellen skulle lära sig din mallstruktur, inte dina vinstmönster. Boilerplate-grad räddar dig från ett projekt med “garbage in, garbage out”.
Antal boilerplate-poster ger dig rensningsomfånget som ett absolut tal. Om 12 400 poster innehåller boilerplate vet din dataförvaltare storleken på åtgärdsprojektet. Hon kan uppskatta timmar, tilldela resurser och sätta en realistisk tidsplan.
Exempel: Ditt supportteam loggar varje interaktion i Case Comments. Antal boilerplate-poster visar 12 400. Undersökning avslöjar att handläggare klistrar in en standardinledning (“Tack för att du kontaktade support. Ditt ärendenummer är…”) och avslutning (“Tveka inte att kontakta oss om du har ytterligare frågor…”) i varje ärende. Innan AI används för att analysera supportinteraktioner behöver boilerplate tas bort från dessa 12 400 poster.
Tre analysvinklar
Unikhetsmätvärden täcker tre distinkta problem, vart och ett som betjänar en annan intressent:
| Problem | Mätvärden | Fråga | Intressent |
|---|---|---|---|
| Duplicering | Unikhetsgrad, Distinkt antal | Har vi upprepade värden? | Dataförvaltare (sammanslagningskandidater, deduplikationsregler) |
| Fördelning | Entropi, Maximal frekvens | Hur är data spridda över värden? | Analytiker och datavetare (segmentering, modellering) |
| Originalitet | Boilerplate-grad, Antal boilerplate-poster | Är textinnehållet genuint originellt? | AI-team (träningsdatakvalitet, innehållsextraktion) |
Mätvärdesreferens
Grundläggande mätvärden
Dessa 2 mätvärden utgör grunden för varje unikhetsanalys. De fungerar över alla 15 stödda fälttyper.
| Mätvärde | Typ | Vad det mäter |
|---|---|---|
| Unikhetsgrad | Procentandel | Andel poster med icke-dubblerade värden |
| Distinkt antal | Antal | Totalt antal distinkta värden i fältet |
Avancerade mätvärden
Dessa 4 mätvärden går bortom “är värden unika?” för att analysera fördelningsmönster och textoriginalitet. De kräver analysläget Avancerad unikhetsanalys.
| Mätvärde | Typ | Vad det mäter |
|---|---|---|
| Entropi | Decimal | Hur jämnt värden är fördelade (Shannons entropi) |
| Maximal frekvens | Antal | Förekomstantal för det enskilt vanligaste värdet |
| Boilerplate-grad | Procentandel | Grad av mallbaserat eller upprepande innehåll |
| Antal boilerplate-poster | Antal | Antal poster med boilerplate-innehåll |
Fälttypstäckning
Olika mätvärden gäller för olika fälttyper baserat på vad de mäter.
| Täckningsgrupp | Fälttyper | Tillgängliga mätvärden |
|---|---|---|
| Alla typer (15) | String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox | Unikhetsgrad, Distinkt antal |
| Analystyper (9) | String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL | Entropi, Maximal frekvens |
| Textfält (3) | String, TextArea, Html | Antal boilerplate-poster |
| Långa textfält (3) | TextArea, LongTextArea, Html | Boilerplate-grad |
Grundläggande mätvärden fungerar på alla 15 fälttyper eftersom vilket fält som helst kan ha dubbletter. Fördelningsmätvärden (Entropi, Maximal frekvens) fungerar på 9 fälttyper som producerar räknbara frekvenstabeller. Boilerplate-mätvärden gäller bara textfält eftersom de identifierar upprepade innehållsmönster i fritext-data.
Två analyslägen
DQS erbjuder två unikhetsanalyslägen:
Grundläggande unikhet svarar på frågan: “Är värden distinkta?” Det producerar de 2 grundläggande mätvärdena och täcker det väsentliga för en snabb dubblettidentifieringskontroll eller baslinjerevision.
Avancerad unikhetsanalys går djupare. Det producerar alla 6 mätvärden, inklusive fördelningsanalys, frekvensmönster och boilerplate-identifiering. Använd det här läget när du behöver förstå den fullständiga bilden av datafördelning och textoriginalitet, inte bara dubbleringsgraden.
| Affärsbehov | Rekommenderat läge |
|---|---|
| Snabb dubblettidentifieringsrevision | Grundläggande unikhet |
| Datamigreringsbedömning | Avancerad (Maximal frekvens fångar standardvärden, Entropi avslöjar snedhet) |
| Picklista-hygienekontroll | Avancerad (Entropi + Maximal frekvens avslöjar snedhet och normaliseringsbehov) |
| Utvärdering av AI-träningsdata | Avancerad (Boilerplate-mätvärden bedömer innehållsoriginalitet) |
| Löpande datastyrning | Börja med Grundläggande unikhet, flytta till Avancerad för djupare analys |
Konfigurera unikhet
DQS tillhandahåller 2 konfigurationsindata för unikhet. Varje kan ställas in på global nivå (gäller alla fält) och åsidosättas på individuell fältnivå.
| Inställning | Vad den styr |
|---|---|
| Skiftlägeskänslig | Styr om värdejämförelse tar hänsyn till skiftläge. När inaktiverad (standard) räknas “Apple” och “apple” som samma värde. När aktiverad räknas de som två distinkta värden. |
| Inkludera tomma | Styr om null- och blankposter räknas i unikthetberäkningar. När inaktiverad (standard) utesluts tomma poster från utvärderingen. När aktiverad delar alla tomma poster ett enda “tomt” värde, vilket kan sänka unikhetsgraden för fält med många tomma poster. |
Tips: Inaktivera Skiftlägeskänslig (standard) för de flesta fält. Aktivera den bara när skiftläge bär på mening, som produktkoder där “ABC-100” och “abc-100” genuint är olika artiklar.
När du ska aktivera Inkludera tomma
Som standard utesluter DQS tomma och null-poster från unikhetsberäkningar. Det är vettigt för valfria fält där tomma värden förväntas.
Aktivera Inkludera tomma när tomma värden i sig är det problem du vill mäta. Om 3 000 Contact-poster inte har något e-postvärde delar dessa 3 000 tomma poster ett “tomt” värde i unikhetsberäkningen. Det sänker Unikhetsgraden och gör det tomma problemet synligt i rubriktalet.
Exempel: Du söker igenom Phone för Contacts med Inkludera tomma inaktiverad. Unikhetsgraden är 91 %. Du aktiverar Inkludera tomma och söker igen. Unikhetsgraden sjunker till 72 %. Skillnaden avslöjar att en stor del av dina Contact-poster delar ett gemensamt drag: inget telefonnummer. Fältet såg friskt ut när tomma poster uteslöts, men den fullständiga bilden berättar en annan historia.
Vanliga unikhetsproblem
Dubblerade poster från massimporter
Datamigrationer och listimporter introducerar dubbletter när matchningslogiken är otillräcklig. En köpt kontaktlista skapar nya poster för personer som redan finns. En export från ett äldre system skapar Accounts som överlappar med befintlig data.
Åtgärd: Granska importer innan laddning. Använd DQS för att fastställa en unikhetsbasnivå för nyckelidentifieringsfält (E-post, Telefon, Webbplats) före och efter varje import.
Standardvärden som maskerar sig som data
Integrationer och migrationer skriver ofta standardvärden i fält. “Unknown”, “N/A” eller ett företags eget namn förekommer på tusentals poster. Dessa blåser upp dubbletträkningar och snedvrider fördelningsmätvärden.
Åtgärd: Kör Avancerad unikhetsanalys. Maximal frekvens avslöjar det dominerande värdet. Om ett värde förekommer på 85 % av posterna, undersök om det är verklig data eller ett standardvärde.
Fritext-fält utan styrning
Textfält som saknar picklistabegränsningar ackumulerar variationer med tiden. Fältet Job_Title för Contacts lagrar samma roll på 15 olika sätt. Distinkt antal stiger medan det faktiska affärsbegreppet förblir litet.
Åtgärd: Kör Avancerad unikhetsanalys på textfält du planerar att standardisera. Använd Distinkt antal och Entropi för att uppskatta normaliseringsinsatsen. Konvertera högt värderade fritext-fält till picklistor.
Boilerplate-förorenade textfält
Supporthandläggare klistrar in standardinledningar och avslutningar i varje ärende. Säljare kopierar mallar för opportunity-beskrivningar. Fälten är tekniskt sett “unika” (olika ärendenummer, datum), men innehållet är 90 % identiskt.
Åtgärd: Kör Avancerad unikhetsanalys med boilerplate-identifiering på textfält. Boilerplate-grad avslöjar graden av mallförorening. Åtgärda detta innan dessa fält används för AI-träning eller analys.
Delade identifierare som ser ut som dubbletter
Avdelnings-e-postadresser (info@company.com), delade telefonnummer och företagsövergripande faxnummer skapar legitima dubblika värden. Inte varje låg unikhetsgrad signalerar ett problem.
Åtgärd: Utvärdera unikhet i sammanhang. Ett E-post-fält med 78 % unikhet behöver undersökning. Ett Fax-fält med 40 % unikhet är förväntat. Ange dina övervakningsgränser baserat på vad fältet representerar.
Bästa praxis
Välj rätt rubrikalternativ beroende på fälttyp
Unikhetsgrad är rätt rubrik för identifieringsfält (E-post, Telefon, Account-namn). För textinnehållsfält (Beskrivning, Anteckningar, Kommentarer) kombinera Unikhetsgrad med Boilerplate-grad för att få den fullständiga bilden. Ett fält kan ha 99 % Unikhetsgrad och ändå vara 65 % boilerplate.
Använd fördelningsmätvärden för segmenteringsfält
För fält du använder i segmentering, filtrering eller rapportering (Bransch, Land, Lead Source) kontrollera Entropi och Maximal frekvens. Låg entropi avslöjar att din “24-kategoris” picklista egentligen är ett 2-hinkssystem. Maximal frekvens avslöjar standardvärden som snedvrider dina segment.
Spåra trender över genomsökningar
En enda genomsökning visar nuläget. Kör genomsökningar regelbundet för att identifiera nya dubblettkällor, mäta effekten av dedupliceringsinitiv och identifiera integrationer som introducerar upprepade data. Ett fält som sjunker från 90 % till 75 % unikhet mellan genomsökningar har en ny problemkälla.
Prioritera efter affärspåverkan
Inte varje fält behöver hög unikhet. Ett E-post-fält med dubbletter signalerar ett sammanslagningsproblem. Ett Land-fält med dubbletter är normalt. Fokusera unikhetsövervakning på fält som fungerar som identifierare, driver dedupliceringsregler eller matar AI-modeller.
Åtgärda rotorsaker
Låg unikhet signalerar ett processproblem. Undersök om användare skapar poster utan att kontrollera befintliga, importer saknar dedupliceringslogik, eller integrationer skriver standardvärden. Åtgärda källan, inte bara symptomet.
Nästa steg
Du förstår nu hur man mäter och diagnosticerar unikhetsproblem. Fortsätt lära dig om nästa dimension:
- Nästa: Aktualitet – Mät aktualitet och datumfärskhet
- Föregående: Giltighet – Säkerställ att data följer förväntade format
- Relaterat: De fem dimensionerna – Översikt av alla dimensioner
- Åtgärd: AI-beredskapsbedömning – Se dina nuvarande unikhetspoäng