Skip to main content

Uniciteit: configuratiescenario's

Drie praktische walkthroughs die laten zien hoe u DQS-uniciteitanalyse configureert voor verschillende zakelijke behoeften.

Wat deze scenario’s behandelen

Deze pagina doorloopt drie praktijkconfiguraties van DQS-uniciteitanalyse. Elk scenario behandelt een specifiek zakelijk probleem, toont de exacte te gebruiken instellingen en legt uit hoe u de resultaten kunt lezen.

Deze walkthroughs bouwen voort op de concepten uit het hoofdartikel Uniciteit. Lees dat eerst als u nieuw bent met uniciteitstatistieken, de diagnostische lagen of het verschil tussen Basis Uniciteit en Geavanceerde Uniciteitanalyse.

Scenario 1: E-maildupliceringaudit op Leads

Het probleem

Uw marketingteam voert nurture-campagnes uit via Salesforce. Openingspercentages dalen, en het e-mailplatform rapporteert een toenemend aantal „dubbele verzendingen”: dezelfde persoon ontvangt dezelfde e-mail twee keer. Uw duplicaatbeheerregels vangen exact overeenkomende records, maar gedeeltelijke duplicaten glippen erdoorheen. Twee Lead-records voor dezelfde persoon met hetzelfde e-mailadres ontvangen beide de campagne. U heeft een concreet getal nodig: hoeveel Lead-e-mailadressen zijn gedeeld over meerdere records?

Configuratie

Dit is een eenvoudige duplicaatdetectiecontrole. Gebruik de modus Basis Uniciteit op het Lead-object, gericht op het veld Email.

InstellingWaardeWaarom
AnalysemodusBasis UniciteitU heeft de duplicatiegraad en het unieke aantal nodig, geen distributie- of standaardtekstanalyse
HoofdlettergevoeligUITE-mailadressen zijn niet hoofdlettergevoelig. „John@Company.com” en „john@company.com” zijn hetzelfde adres.
Inclusief lege waardenAANEen leeg e-mailadres op een Lead is een probleem dat de moeite van het kwantificeren waard is. Door lege waarden op te nemen, delen alle lege e-mailrecords één „lege” waarde, waardoor de Uniciteitgraad daalt en de kloof zichtbaar wordt.

Hoofdlettergevoelig UIT is de standaard en de juiste keuze voor e-mail. Als twee records „jsmith@acme.com” en „JSmith@Acme.com” opslaan, zijn dat hetzelfde adres. Het inschakelen van hoofdlettergevoeligheid zou ze als afzonderlijk tellen en het duplicaat verbergen.

Voorbeeldresultaten

Basisstatistieken:

StatistiekWaarde
Uniciteitgraad74%
Uniek aantal18.500

Totaal geëvalueerde Lead-records: 25.000.

Resultaten lezen

Begin met de kop: 74% uniciteit. Dat betekent dat 26% van de e-mailadressen op meer dan één Lead-record voorkomt. Van 25.000 Leads bestaan er slechts 18.500 unieke e-mailadressen. Het gat van 6.500 records zijn gedeelde e-mailadressen.

Hoe 26% dubbele e-mails er in de praktijk uitziet. Sommige zijn legitiem: afdelingsadressen zoals info@company.com of sales@company.com die worden gedeeld door meerdere contactpersonen bij hetzelfde bedrijf. De meeste zijn dubbele Leads die door verschillende bronnen zijn aangemaakt. Een webformulier maakt één Lead aan. Een lijstimport maakt er een andere. Een verkoopmedewerker maakt er een derde van een visitekaartje. Alle drie hebben hetzelfde e-mailadres.

Inclusief lege waarden AAN onthult het volledige beeld. Met Inclusief lege waarden ingeschakeld, tellen alle Leads zonder e-mailadres als één „lege” waarde. Als 2.000 van de 25.000 Leads geen e-mail hebben, tellen die 2.000 records als duplicaten van elkaar. Dit verlaagt de Uniciteitgraad vergeleken met het uitsluiten van lege waarden, maar het geeft u het eerlijke getal. Uw campagne kan maximaal 18.500 unieke adressen bereiken, niet 25.000.

Waarom Basis Uniciteit hier voldoende is. De vraag is „hoeveel e-mails zijn gedupliceerd?” Uniciteitgraad en Uniek aantal beantwoorden die vraag. U heeft Entropie of Zeldzaamheid niet nodig om te beslissen of u een deduplicatieproject wilt starten. Als u later de distributiepatroon wilt begrijpen (hoeveel e-mails precies twee keer voorkomen versus tien keer), schakel dan over naar Geavanceerde Uniciteitanalyse voor het volledige beeld.

Wat u vervolgens kunt doen

Gebruik Uniek aantal (18.500) als uw werkelijk adresseerbare publiek voor e-mailcampagnes. Bepaal de omvang van een deduplicatieproject voor de records met gedeelde e-mails. Begin met het exporteren van Leads gegroepeerd op e-mailadres, fuseer vervolgens de duplicaten of verwijder ze. Na opschoning voert u de scan opnieuw uit en volgt u de Uniciteitgraad in de loop van de tijd. Als die daalt tussen scans, is er een nieuwe duplicaatbron verschenen: een lijstimport, een webformulier zonder dedup-logica, of een integratie die records aanmaakt zonder te controleren op bestaande.


Scenario 2: Industrie-velddistributie op Accounts

Het probleem

Uw datateam heeft een Account-segmentatiemodel gebouwd dat klanten groepeert op Industrie. Het model gebruikt 24 industrie-picklistwaarden om gerichte segmenten te maken. Maar de segmenten zijn ongelijk: twee segmenten bevatten 70% van alle Accounts, terwijl de overige 22 segmenten de andere 30% verdelen. Het data-science-team vermoedt dat het Industry-veld een distributieprobleem heeft, geen modelprobleem. U moet bevestigen of de waardeverdeling van het veld werkelijk scheef is en de dominante waarden identificeren.

Configuratie

Gebruik de modus Geavanceerde Uniciteitanalyse op het Account-object, gericht op het veld Industry. U heeft distributiemetingen (Entropie, Maximale frequentie, Zeldzaamheid) nodig om vragen over de spreiding van waarden te beantwoorden.

InstellingWaardeWaarom
AnalysemodusGeavanceerde UniciteitanalyseU heeft Entropie, Maximale frequentie en Zeldzaamheid nodig voor distributieanalyse
HoofdlettergevoeligUITPicklistwaarden zijn gecontroleerd. Hoofdlettergevoeligheid is hier niet relevant.
Inclusief lege waardenUITLege Industry-waarden zijn een volledigsheidsprobleem, geen uniciteitsprobl. Sluit ze uit om te focussen op de distributie van gevulde waarden.

Inclusief lege waarden UIT is de juiste keuze voor dit scenario. U analyseert hoe de bestaande data is verdeeld over categorieën. Het toevoegen van lege waarden aan de berekening zou de distributiemetingen vervormen zonder uw segmentatiervraag te beantwoorden. Als u wilt weten hoeveel Accounts geen Industry-waarde hebben, voert u een volledigheidsanalyse uit.

Voorbeeldresultaten

Basisstatistieken:

StatistiekWaarde
Uniciteitgraad0,16%
Uniek aantal24

Geavanceerde statistieken:

StatistiekWaarde
Entropie2,18
Maximale frequentie5.200
Zeldzaamheid0%

Totaal geëvalueerde Account-records: 15.000.

Resultaten lezen

Uniciteitgraad (0,16%) is verwacht en hier niet relevant. Industrie is een picklist met 24 waarden over 15.000 records. Bijna elke waarde wordt gedeeld door honderden records. Een lage Uniciteitgraad op een picklistveld is normaal. Deze statistiek is niet het punt van deze analyse.

Uniek aantal (24) bevestigt dat uw picklist intact is. Alle 24 geconfigureerde waarden komen voor in de data. Er bestaan geen ongecontroleerde vrije-tekstinvoeren. De data is schoon vanuit een consistentiestandpunt.

Entropie (2,18) onthult de scheve verdeling. Maximale entropie voor 24 unieke waarden is log2(24) = 4,58. Uw werkelijke entropie is 2,18. De genormaliseerde score is 2,18 / 4,58 = 0,48. Dat valt ruim onder de drempel van 0,7 voor „gedomineerde” distributies. Enkele waarden bevatten het merendeel van de records. De vermoedens van uw data-science-team zijn bevestigd: het segmentatieprobleem zit in de data, niet in het model.

Hoe genormaliseerde entropie te interpreteren:

Genormaliseerd (werkelijk / max)Interpretatie
0,9 of hogerGelijkmatige distributie: waarden gelijkmatig verspreid
0,7 tot 0,9Matige scheefheid: sommige waarden komen vaker voor
Onder 0,7Gedomineerd: enkele waarden bevatten het merendeel van de records

Uw score van 0,48 valt in het „gedomineerde” bereik.

Maximale frequentie (5.200) identificeert de dominante waarde. Eén industriewaarde komt voor op 5.200 van de 15.000 records, ofwel 34,7% van de dataset. Een snelle controle onthult dat het „Technologie” is. De tweede meest voorkomende waarde is waarschijnlijk verantwoordelijk voor het merendeel van de resterende concentratie. Samen verklaren twee waarden de 70%-clustering die uw team heeft waargenomen.

Zeldzaamheid (0%) bevestigt dat er geen lange staart is. Elk van de 24 unieke waarden komt meer dan één keer voor. Er bestaan geen enkelvoudige waarden. Dit is te verwachten voor een goed gecontroleerd picklistveld. Op een vrije-tekstveld zou u Zeldzaamheid willen zien om typefouten en eenmalige invoeren op te vangen, maar op een picklist is 0% Zeldzaamheid normaal.

Het segmentatieoordeel: Uw 24-categoriemodel is in werkelijkheid een 2-categoriesysteem. „Technologie” en één andere industrie domineren de dataset. De resterende 22 categorieën delen 30% van de records, wat elk categorie gemiddeld ongeveer 200 records geeft. Sommige segmenten zijn te klein voor zinvolle analyse.

Wat u vervolgens kunt doen

Presenteer Entropie en Maximale frequentie aan uw data-science-team. De getallen bevestigen het distributieprobleem. Twee opties: (1) Herontwerp het segmentatiemodel om minder, bredere categorieën te gebruiken die de werkelijke distributie weerspiegelen. Groepeer de 22 kleinere industrieën in 4-5 macrocategorieën. (2) Verrijk de Industrie-data. Als de concentratie in „Technologie” is opgeblazen omdat verkopers er standaard voor kiezen bij het aanmaken van records, onderzoek dan of een groot deel van die 5.200 records tot een andere industrie behoort. Voer periodieke scans uit en volg Entropie in de loop van de tijd. Naarmate u verkeerd geclassificeerde records corrigeert, stijgt de Entropie naar een gezondere distributie.


Scenario 3: Detectie van standaardtekst in Case-beschrijvingen voor AI-gereedheid

Het probleem

Uw bedrijf evalueert AI-gestuurde casesamenvatting voor het supportteam. De AI-tool leest het veld Description op Cases en genereert een samenvatting voor de volgende agent die de case oppakt. Voordat u investeert, moet u beoordelen of uw case-beschrijvingen voldoende originele inhoud bevatten voor de AI om nuttige samenvattingen te produceren. Het veld is gevuld bij 95% van de cases, dus volledigheid is niet het punt. Het punt is dat supportagenten standaardsjablonen kopiëren en plakken in elke case.

Configuratie

Gebruik de modus Geavanceerde Uniciteitanalyse op het Case-object, gericht op het veld Description. U heeft de standaardtekststatistieken nodig om de originaliteit van inhoud te evalueren.

InstellingWaardeWaarom
AnalysemodusGeavanceerde UniciteitanalyseMaakt standaardtekstdetectie mogelijk (Standaardtekstgraad, Standaardtekstpercentage, Standaardtekstrecordaantal)
HoofdlettergevoeligUITSjabloondetectie is niet afhankelijk van hoofdlettergebruik
Inclusief lege waardenUITLege beschrijvingen zijn een volledigheidsprobleem. Sluit ze uit om te focussen op de kwaliteit van gevulde inhoud.

Inclusief lege waarden UIT is hier zinvol omdat u de bestaande inhoud evalueert, niet de ontbrekende inhoud telt. De 5% cases met lege beschrijvingen worden al afgehandeld door uw volledigheidsanalyse.

Voorbeeldresultaten

Basisstatistieken:

StatistiekWaarde
Uniciteitgraad97%
Uniek aantal29.100

Geavanceerde statistieken:

StatistiekWaarde
Entropie14,8
Standaardtekstgraad42%
Standaardtekstpercentage68%
Standaardtekstrecordaantal20.400

Totaal geëvalueerde Case-records: 30.000.

Resultaten lezen

Uniciteitgraad (97%) ziet er gezond uit, maar is misleidend. Bijna elke case-beschrijving is technisch gezien anders omdat elke unieke casenummers, klantnamen en datums bevat. Het veld slaagt een basale duplicatiecontrole. Maar „uniek” betekent niet „origineel.”

Standaardtekstgraad (42%) vertelt het echte verhaal. 42% van de tekstinhoud over case-beschrijvingen heen is repetitief of sjabloonmatig. Agenten plakken standaard openingen („Bedankt dat u contact opneemt met support. Uw casenummer is…”), standaard sluitingen („Aarzel niet contact op te nemen als u verdere vragen heeft.”) en standaard diagnostische checklists in elke case. De case-specifieke details vullen het midden, maar bijna de helft van elke beschrijving is kopieer-plak-inhoud.

Standaardtekstpercentage (68%) toont hoe wijdverbreid het probleem is. 68% van de case-records bevat sjabloontekst. Dat is 20.400 van de 30.000 cases. De standaardtekst is niet beperkt tot enkele agenten of één team. Het is een systemisch patroon dat is ingebed in uw supportproces.

Standaardtekstrecordaantal (20.400) is uw omvanggetal. Als u de inspanning wilt schatten om sjablonen op te schonen voordat data naar de AI wordt gestuurd, is dit het startpunt. 20.400 records bevatten inhoud die de AI als patronen zal leren, maar die patronen zijn uw sjablonen, niet uw klantproblemen.

Het AI-gereedheidsoordeel: De AI-samenvattingstool zal sjabloontekst verwerken bij 68% van de cases. De AI leert uw sjablonen samen te vatten, niet uw klantproblemen. Bij de 32% cases met originele inhoud zal de AI goed presteren. Bij de 68% met standaardtekst zullen de samenvattingen de standaardfrases herhalen die agenten al uit hun hoofd kennen.

Entropie (14,8) is hoog, wat bevestigt dat de tekst op tekenniveau divers is. Dit sluit aan bij de Uniciteitgraad van 97%: elke beschrijving is anders. Entropie is hier niet de relevante statistiek omdat het duplicatieprobleem geen identieke waarden zijn. Het probleem zijn herhaalde inhoudspatronen binnen anderszins unieke tekst. Dat is precies wat de standaardtekststatistieken zijn ontworpen om op te vangen.

Wat u vervolgens kunt doen

Presenteer Standaardtekstgraad (42%) en Standaardtekstpercentage (68%) aan uw AI-projectstakeholders. De getallen maken de zaak duidelijk: het AI-project heeft een fase voor inhoudsverbetering nodig vóór implementatie. Drie benaderingen om standaardtekst te verminderen:

  • Verwijder de sjablonen. Als agenten standaard openingen en sluitingen plakken, bouw die elementen dan in de case-lay-out of een screen flow zodat ze het beschrijvingsveld niet vervuilen. De beschrijving vangt dan alleen case-specifieke informatie.
  • Train agenten op effectieve beschrijvingen. Deel voorbeelden van hoogwaardige beschrijvingen (uit de 32% die origineel zijn) en leg uit waarom sjabloonvrije invoeren betere AI-samenvattingen opleveren.
  • Verwijder standaardtekst uit historische data. Voordat u bestaande cases naar de AI stuurt, voert u een tekstverwerkingtaak uit die bekende sjabloonpatronen verwijdert uit het beschrijvingsveld.

Voer de scan opnieuw uit na elke verbeteringscyclus. Volg Standaardtekstgraad en Standaardtekstpercentage als uw primaire AI-gereedheidsstatistieken voor dit veld. Uw doel: Standaardtekstpercentage onder 30% en Standaardtekstgraad onder 20% vóór het implementeren van de AI-samenvattingstool.


Uw configuratie kiezen

Gebruik deze tabel om het juiste startpunt te kiezen voor uw uniciteitanalyse.

Als u moet…Begin metSleutelinstellingen
Dubbele waarden controleren op een identificatieveld (E-mail, Telefoon, Accountnaam)Basis UniciteitHoofdlettergevoelig: UIT, Inclusief lege waarden: AAN om leeg volume te onthullen
De omvang van een deduplicatieproject bepalen met een concreet recordaantalBasis UniciteitGebruik Uniek aantal om het gat te berekenen tussen totale records en unieke waarden
Waardeverdeling analyseren op een picklist- of categorisch veldGeavanceerde UniciteitanalyseBekijk Entropie (genormaliseerd tegen maximum), Maximale frequentie en Zeldzaamheid
Sjabloontekst detecteren in tekstvelden vóór een AI-projectGeavanceerde UniciteitanalyseBekijk Standaardtekstgraad, Standaardtekstpercentage en Standaardtekstrecordaantal
Bepalen of een „gezonde” uniciteitscore diepere problemen verbergtGeavanceerde UniciteitanalyseCombineer Uniciteitgraad met Entropie (voor distributiescheefheid) of Standaardtekstgraad (voor inhoudsoriginaliteit)

Voor een volledige referentie van alle 8 uniciteitstatistieken, de drie diagnostische lagen en configuratiedetails, ga terug naar het hoofdartikel Uniciteit.

Klaar om uw eigen datakwaliteit te meten? Neem de AI-gereedheidsbeoordeling om uw uniciteitsscores en meer te zien.