Skip to main content

Uniciteit

Alle 6 uniciteitstatistieken die DQS meet, de diagnostische stroom voor het vinden van duplicaten en repetitieve inhoud, en hoe u uniciteitanalyse configureert.

Wat is uniciteit?

Uniciteit meet of uw datawaarden uniek en niet-gedupliceerd zijn. Een veld heeft hoge uniciteit wanneer elk record een andere waarde bevat. Uniciteit breekt af wanneer dezelfde waarde voorkomt over meerdere records heen, of wanneer tekstvelden repetitieve sjablooninhoud bevatten die geen analytische waarde toevoegt.

Dubbele records kosten uw organisatie in elke fase. Drie Account-records voor hetzelfde bedrijf splitsen uw pijplijn. Twee Contact-records voor dezelfde persoon ontvangen twee marketing-e-mails. Standaardtekst die in duizenden case-beschrijvingen wordt geplakt, maakt het onmogelijk om inzichten te extraheren. Uniciteitanalyse kwantificeert al deze problemen.

Uniciteitpercentage = (Records met unieke waarden / Totale records) x 100

Als 7.800 van de 10.000 Contact-records een unieke e-mailwaarde hebben, is uw e-mailuniciteitpercentage 78%. De resterende 22% deelt e-mailadressen met ten minste één ander record. Deze enkele statistiek vertelt u of een veld dat unieke waarden verwacht, deze ook daadwerkelijk heeft.

Waarom uniciteit belangrijk is

Rapportage

Dubbele records blazen uw cijfers op. Wanneer hetzelfde bedrijf als drie Accounts verschijnt, is uw Accountaantal met twee overschat. Pijplijnrapporten tonen drie deals waar er één bestaat. Klantaantallen gebruikt voor boardpresentaties en investeerdersrapportage zijn onjuist.

Automatisering

Salesforce-automatisering behandelt elk record onafhankelijk. Een dubbel Account triggert dubbele workflows, verzendt dubbele meldingen en maakt dubbele taken aan. Een verlengingsproces dat triggert op elk Account dat overeenkomt met een bedrijfsnaam, wordt drie keer geactiveerd in plaats van één keer.

AI en Agentforce

AI-modellen verwerken elk record als een afzonderlijke entiteit. Dubbele records fragmenteren het beeld van de AI van een klant. Agentforce genereert reacties met uw Salesforce-data. Wanneer drie Account-records bestaan voor hetzelfde bedrijf, ziet Agentforce drie klanten, niet één met een volledige geschiedenis. Repetitieve standaardinhoud in tekstvelden leert het model uw sjablonen, niet uw bedrijfspatronen.

SysteemImpact van uniciteit
RapportenOpgeblazen aantallen, gefragmenteerde statistieken
WorkflowsDubbele triggers, overbodige meldingen
Duplicate RulesOverweldigd door bestaande duplicaten als ze niet worden gedetecteerd
AgentforceGefragmenteerd klantbeeld, sjabloon-vervuild leren

Hoe DQS uniciteit meet

DQS produceert 6 uniciteitstatistieken georganiseerd rondom een diagnostische vraag: „Is de data uniek, hoe is het verdeeld en is de tekstinhoud origineel?”

Denk aan deze statistieken als een diagnostische stroom. Elke laag bouwt voort op de vorige.

Laag 1: Zijn waarden uniek?

Uniciteitpercentage is de hoofdstatistiek. Het berekent het percentage records waarbij de veldwaarde uniek is (nergens anders in de dataset gedupliceerd). Dit is het getal dat u op een dashboard zet.

U voert een scan uit op het Contact-object. Het veld Email toont een Uniciteitpercentage van 78%. Dat betekent dat 22% van de e-mailadressen op meer dan één Contact voorkomt. Sommige zijn legitiem (gedeelde afdeling-e-mails zoals info@company.com), maar de meeste zijn waarschijnlijk dubbele contacts die samengevoegd moeten worden. Dit enkele getal rechtvaardigt een deduplicatie-initiatief.

Uniek-aantal vertelt u de cardinaliteit van het veld: hoeveel verschillende waarden er daadwerkelijk bestaan. Als 10.000 Contact-records 8.200 unieke e-mailadressen bevatten, is het Uniek-aantal 8.200.

Voorbeeld: U verwacht dat de picklist Lead_Source ongeveer 12 waarden heeft (uw geconfigureerde picklistopties). Maar Uniek-aantal toont 87. Vóórdat de picklist was beperkt, typten vertegenwoordigers waarden vrij in. „Web”, „web”, „Website”, „Webinar”, „web form” tellen allemaal als uniek. Deze statistiek onthult dat uw Lead Source-data normalisatie nodig heeft, zelfs al is de picklist nu vergrendeld.

Laag 2: Hoe is de data verdeeld?

Uniciteitpercentage vertelt u hoeveel waarden uniek zijn. Verdelingsstatistieken vertellen u hoe die waarden zijn verspreid over records. Twee velden kunnen hetzelfde Uniciteitpercentage hebben maar zeer verschillende verdelingen.

Entropie meet hoe gelijkmatig waarden zijn verdeeld met behulp van Shannon-entropie. De schaal loopt van 0 (elk record heeft exact dezelfde waarde) tot een maximum bepaald door het aantal unieke waarden. Hogere entropie betekent meer diverse, meer gelijkmatig verspreide data.

Entropie alleen heeft geen betekenis. Vergelijk het met de maximale mogelijke entropie voor dat veld. Maximum = log2(Uniek-aantal), wat de entropie is die u krijgt als elke unieke waarde exact hetzelfde aantal keren voorkomt. De ratio (werkelijk / max) geeft u een genormaliseerde score van 0 tot 1:

Genormaliseerd (werkelijk / max)Interpretatie
0,9 of hogerGelijkmatige verdeling: waarden gelijkmatig verspreid
0,7 tot 0,9Matige scheefheid: sommige waarden komen vaker voor dan andere
Onder 0,7Gedomineerd: een paar waarden bevatten de meeste records

Voorbeeld: Uw Industry-veld op Accounts heeft een Uniciteitpercentage van 2% (verwacht voor een picklist) en 24 unieke waarden. Ziet er goed uit. Maar entropie is 1,3 en maximale entropie voor 24 waarden is 4,6. De genormaliseerde score is 0,28. De verdeling is ernstig scheef: 60% van de records zijn „Technology” en „Financial Services.” Uw op industrie gebaseerde segmentatie is een twee-bucket-systeem vermomd als 24 categorieën.

Maximale frequentie geeft u het aantal keren dat de meest voorkomende enkele waarde voorkomt. Als „London” 8.400 keer voorkomt in het City-veld, is Maximale frequentie 8.400.

Een enkele dominante waarde signaleert vaak een standaardwaardeprobleem, een migratieartefact of een echte bedrijfsconcentratie die onderzoek vereist. Maximale frequentie stelt de vraag. Een snelle controle van de werkelijke waarde beantwoordt deze.

Laag 3: Is de tekstinhoud origineel?

De eerste twee lagen meten of waarden identiek zijn. Laag 3 stelt een andere vraag: is tekstinhoud substantieel gelijkaardig? Twee casebeschrijvingen kunnen 100% uniek zijn (verschillende casenummers, datums) maar 90% standaardtekst (zelfde sjabloon, zelfde zinnen).

Standaardtekst-percentage is de hoofdstatistiek voor originaliteit van tekstinhoud. Het meet het percentage inhoud dat repetitief of op sjablonen gebaseerd is. Een hogere score betekent meer originele inhoud met minder standaardtekst. DQS detecteert veelgebruikte sjablonen zoals e-mailhandtekeningen, wettelijke disclaimers en herhaalde zinnen.

Voorbeeld: Uw organisatie evalueert of het Description-veld op Opportunities geschikt is voor AI-gestuurde win/verlies-analyse. Uniciteitpercentage is 99% (elke beschrijving is technisch gezien anders). Maar Standaardtekst-percentage onthult dat 65% van de inhoud hetzelfde sjabloon volgt: „Klant: [naam]. Behoefte: [product]. Tijdlijn: [datum].” Het AI-model zou uw sjabloonstructuur leren, niet uw winpatronen. Standaardtekst-percentage bespaart u van een garbage-in, garbage-out AI-project.

Standaardtekst-recordsaantal geeft u de opschoontaak als absoluut getal. Als 12.400 records standaardtekst bevatten, weet uw dataverzorger de omvang van het herstelproject. Zij kan uren schatten, middelen toewijzen en een realistische tijdlijn opstellen.

Voorbeeld: Uw supportteam registreert elke interactie in Case Comments. Standaardtekst-recordsaantal toont 12.400. Onderzoek onthult dat agenten een standaardopening („Bedankt voor uw contact met support. Uw casenummer is…”) en afsluiting („Aarzel niet om contact op te nemen…”) in elke case plakken. Voordat AI wordt gebruikt om support-interacties te analyseren, moeten die 12.400 records de standaardtekst verwijderd krijgen.

Drie analysehoeken

Uniciteitstatistieken bestrijken drie afzonderlijke zorgen, elk voor een andere stakeholder:

ZorgStatistiekenVraagStakeholder
DuplicatieUniciteitpercentage, Uniek-aantalHebben we herhaalde waarden?Dataverzorgers (samenvoegkandidaten, dedup-regels)
VerdelingEntropie, Maximale frequentieHoe is data verdeeld over waarden?Analisten en datawetenschappers (segmentatie, modellering)
OriginaliteitStandaardtekst-percentage, Standaardtekst-recordsaantalIs tekstinhoud echt origineel?AI-teams (trainingsdata-kwaliteit, inhoudsextractie)

Statistiekenreferentie

Basisstatistieken

Deze 2 statistieken vormen de basis van elke uniciteitanalyse. Ze werken over alle 15 ondersteunde veldtypen.

StatistiekTypeWat het meet
UniciteitpercentagePercentageAandeel records met niet-gedupliceerde waarden
Uniek-aantalAantalTotale aantal unieke waarden in het veld

Geavanceerde statistieken

Deze 4 statistieken gaan verder dan „zijn waarden uniek?” om verdelingspatronen en tekstoriginaliteit te analyseren. Ze vereisen de modus Geavanceerde uniciteitanalyse.

StatistiekTypeWat het meet
EntropieDecimaalHoe gelijkmatig waarden zijn verdeeld (Shannon-entropie)
Maximale frequentieAantalVoorkomsttelling van de meest voorkomende waarde
Standaardtekst-percentagePercentageMate van sjabloon- of repetitieve inhoud
Standaardtekst-recordsaantalAantalAantal records met standaardtekst

Veldtype-dekking

Verschillende statistieken zijn van toepassing op verschillende veldtypen op basis van wat ze meten.

DekkingsgroepVeldtypenBeschikbare statistieken
Alle typen (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxUniciteitpercentage, Uniek-aantal
Analysetypen (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropie, Maximale frequentie
Tekstvelden (3)String, TextArea, HtmlStandaardtekst-recordsaantal
Lange tekstvelden (3)TextArea, LongTextArea, HtmlStandaardtekst-percentage

Kernstatistieken werken op alle 15 veldtypen omdat elk veld duplicaten kan hebben. Verdelingsstatistieken (Entropie, Maximale frequentie) werken op 9 veldtypen die telbare frequentietabellen produceren. Standaardtekst-statistieken zijn alleen van toepassing op tekstvelden omdat ze herhaalde inhoudspatronen detecteren in vrije-tekstdata.

Twee analysemodi

DQS biedt twee uniciteitanalysemodi:

Basis Uniciteit beantwoordt de vraag: „Zijn waarden uniek?” Het produceert de 2 basisstatistieken en dekt de essentials voor een snelle duplicaatdetectiecontrole of basislijnaudit.

Geavanceerde uniciteitanalyse gaat dieper. Het produceert alle 6 statistieken, inclusief verdelingsanalyse, frequentiepatronen en standaardtekstdetectie. Gebruik deze modus wanneer u het volledige beeld van dataverdeling en tekstoriginaliteit wilt begrijpen, niet alleen de duplicatieratio.

Zakelijke behoefteAanbevolen modus
Snelle duplicaatdetectieauditBasis Uniciteit
Datamigratie-beoordelingGeavanceerd (Maximale frequentie vangt standaardwaarden, Entropie onthult scheefheid)
PicklisthygiënecontroleGeavanceerd (Entropie + Maximale frequentie onthullen scheefheid en normalisatiebehoeften)
AI-trainingsdata-evaluatieGeavanceerd (Standaardtekst-statistieken beoordelen inhoudoriginaliteit)
Voortdurende data-governanceBegin met Basis Uniciteit, ga naar Geavanceerd voor diepere analyse

Uniciteit configureren

DQS biedt 2 configuratie-invoeren voor uniciteit. Elke kan worden ingesteld op globaal niveau (van toepassing op alle velden) en worden overschreven op individueel veldniveau.

InstellingWat het beheert
HoofdlettergevoeligBepaalt of waardenvergelijking rekening houdt met hoofdlettergebruik. Wanneer uitgeschakeld (de standaard), tellen „Apple” en „apple” als dezelfde waarde. Wanneer ingeschakeld, tellen ze als twee unieke waarden.
Lege waarden meenemenBepaalt of null- en lege records worden meegeteld in uniciteitberekeningen. Wanneer uitgeschakeld (de standaard), worden lege waarden uitgesloten van evaluatie. Wanneer ingeschakeld, delen alle lege records één „lege” waarde, wat het uniciteitpercentage kan verlagen op velden met veel lege records.

Tip: Schakel Hoofdlettergevoelig uit (de standaard) voor de meeste velden. Schakel het alleen in wanneer hoofdlettergebruik betekenis heeft, zoals productcodes waarbij „ABC-100” en „abc-100” echt verschillende items zijn.

Wanneer Lege waarden meenemen in te schakelen

Standaard sluit DQS lege en null-records uit van uniciteitberekeningen. Dit is zinvol voor optionele velden waar lege waarden worden verwacht.

Schakel Lege waarden meenemen in wanneer lege waarden zelf het probleem zijn dat u wilt meten. Als 3.000 Contact-records geen e-mailwaarde hebben, delen die 3.000 lege waarden één „lege” waarde in de uniciteitberekening. Dit verlaagt het Uniciteitpercentage en maakt het leegteprobleem zichtbaar in de hoofdstatistiek.

Voorbeeld: U scant Phone op Contacts met Lege waarden meenemen uitgeschakeld. Uniciteitpercentage is 91%. U schakelt Lege waarden meenemen in en scant opnieuw. Uniciteitpercentage daalt naar 72%. Het verschil onthult dat een groot deel van uw Contact-records een gemeenschappelijk kenmerk deelt: geen telefoonnummer. Het veld leek gezond wanneer lege waarden werden uitgesloten, maar het volledige beeld vertelt een ander verhaal.

Veelvoorkomende uniciteits-problemen

Dubbele records van bulkimports

Datamigraties en lijstimports introduceren duplicaten wanneer de matchlogica onvoldoende is. Een gekochte contactlijst maakt nieuwe records aan voor mensen die al bestaan. Een legacy-systeemexport maakt Accounts die overlappen met huidige data.

Oplossing: Controleer imports vóór het laden. Gebruik DQS om een uniciteitbasislijn vast te stellen op sleutelidentificatievelden (Email, Phone, Website) voor en na elke import.

Standaardwaarden vermomd als data

Integraties en migraties schrijven vaak standaardwaarden in velden. „Unknown”, „N/A” of de naam van een bedrijf zelf verschijnt op duizenden records. Dit blaast duplicaataantallen op en vertekent verdelingsstatistieken.

Oplossing: Voer Geavanceerde uniciteitanalyse uit. Maximale frequentie onthult de dominante waarde. Als één waarde op 85% van de records voorkomt, onderzoek dan of het echte data of een standaard is.

Vrije-tekstvelden zonder governance

Tekstvelden die picklist-beperkingen missen, accumuleren in de loop van de tijd variaties. Het veld Job_Title op Contacts slaat dezelfde rol op 15 verschillende manieren op. Uniek-aantal loopt op terwijl de werkelijke zakelijke conceptenset klein blijft.

Oplossing: Voer Geavanceerde uniciteitanalyse uit op tekstvelden die u van plan bent te standaardiseren. Gebruik Uniek-aantal en Entropie om de normalisatietaak te bepalen. Converteer waardevolle vrije-tekstvelden naar picklists.

Standaardtekst-vervuilde tekstvelden

Supportagenten plakken standaardopeningen en -sluitingen in elke case. Verkoopvertegenwoordigers kopiëren opportunity-beschrijvingssjablonen. De velden zijn technisch gezien „uniek” (verschillende casenummers, datums), maar de inhoud is voor 90% identiek.

Oplossing: Voer Geavanceerde uniciteitanalyse uit met standaardtekstdetectie op tekstvelden. Standaardtekst-percentage onthult de mate van sjabloonvervuiling. Los dit op voordat deze velden worden gebruikt voor AI-training of -analyse.

Gedeelde identificatoren die eruitzien als duplicaten

Afdeling-e-mails (info@company.com), gedeelde telefoonnummers en bedrijfsbrede faxnummers creëren legitieme dubbele waarden. Niet elk laag Uniciteitpercentage signaleert een probleem.

Oplossing: Evalueer uniciteit in context. Een E-mailveld met 78% uniciteit vereist onderzoek. Een Faxveld met 40% uniciteit is verwacht. Stel uw bewakingsdrempelwaarden in op basis van wat het veld vertegenwoordigt.

Best practices

Kies de juiste hoofdstatistiek op veldtype

Uniciteitpercentage is de juiste hoofdstatistiek voor identificatievelden (Email, Phone, Account Name). Combineer voor tekstinhoudvelden (Description, Notes, Comments) Uniciteitpercentage met Standaardtekst-percentage voor het volledige beeld. Een veld kan 99% Uniciteitpercentage scoren en toch 65% standaardtekst zijn.

Gebruik verdelingsstatistieken voor segmentatievelden

Controleer voor velden die u gebruikt in segmentatie, filtering of rapportage (Industry, Country, Lead Source) Entropie en Maximale frequentie. Lage entropie onthult dat uw „24-categorie”-picklist werkelijk een 2-bucket-systeem is. Maximale frequentie onthult standaardwaarden die uw segmenten vertekenen.

Een enkele scan toont de huidige staat. Voer regelmatig scans uit om nieuwe duplicaatbronnen te detecteren, de impact van deduplicatie-initiatieven te meten en integraties te identificeren die repetitieve data introduceren. Een veld dat daalt van 90% naar 75% uniciteit tussen scans heeft een nieuwe probleembron.

Prioriteer op zakelijke impact

Niet elk veld heeft hoge uniciteit nodig. Een E-mailveld met duplicaten signaleert een samenvoegprobleem. Een Country-veld met duplicaten is normaal. Richt uniciteitsmonitoring op velden die dienen als identificatoren, deduplicatieregels aansturen of AI-modellen voeden.

Los oorzaken op

Lage uniciteit signaleert een processprobleem. Onderzoek of gebruikers records aanmaken zonder te controleren op bestaande, imports deduplicatielogica missen of integraties standaardwaarden schrijven. Los de bron op, niet alleen het symptoom.

Volgende stappen

U begrijpt nu hoe u uniciteits-problemen kunt meten en diagnosticeren. Ga verder met het leren over de volgende dimensie: