Qu’est-ce que l’unicité ?
L’unicité mesure si vos valeurs sont distinctes et non dupliquées. Un champ a une unicité élevée quand chaque enregistrement contient une valeur différente. L’unicité s’effondre quand la même valeur apparaît dans plusieurs enregistrements, ou quand des champs texte contiennent du contenu répétitif issu de modèles qui n’apporte aucune valeur analytique.
Les enregistrements en double coûtent à votre organisation à chaque étape. Trois enregistrements Account pour la même société fractionnent votre pipeline. Deux enregistrements Contact pour la même personne reçoivent deux e-mails marketing. Un texte standardisé collé dans des milliers de descriptions de Cases rend impossible l’extraction d’insights. L’analyse d’unicité quantifie tous ces problèmes.
Taux d'unicité = (Enregistrements avec valeurs uniques / Total) x 100
Si 7 800 des 10 000 enregistrements Contact ont une valeur Email distincte, votre taux d’unicité Email est de 78 %. Les 22 % restants partagent des adresses e-mail avec au moins un autre enregistrement. Cette métrique vous dit si un champ censé être unique l’est vraiment.
Pourquoi l’unicité compte
Reporting
Les doublons gonflent vos chiffres. Quand la même société apparaît sous trois Accounts, votre nombre d’Accounts est surestimé de deux. Les rapports de pipeline affichent trois affaires là où il y en a une. Les comptes clients utilisés dans les présentations board et le reporting investisseurs sont faux.
Automatisation
L’automatisation Salesforce traite chaque enregistrement indépendamment. Un Account en double déclenche des Workflows en double, envoie des notifications en double et crée des Tasks en double. Un processus de renouvellement qui se déclenche sur chaque Account correspondant à un nom d’entreprise se déclenche trois fois au lieu d’une.
IA et Agentforce
Les modèles d’IA traitent chaque enregistrement comme une entité distincte. Les enregistrements en double fragmentent la vue qu’a le modèle d’un client. Agentforce génère des réponses en utilisant vos données Salesforce. Quand trois enregistrements Account existent pour la même société, Agentforce voit trois clients, pas un avec un historique complet. Un contenu répétitif dans les champs texte apprend au modèle vos modèles, pas vos motifs métier.
| Système | Impact de l’unicité |
|---|---|
| Rapports | Comptes gonflés, métriques fragmentées |
| Workflows | Déclencheurs en double, notifications redondantes |
| Duplicate Rules | Surchargées par les doublons existants si non détectés |
| Agentforce | Vue client fragmentée, apprentissage pollué par les modèles |
Comment DQS mesure l’unicité
DQS produit 6 métriques d’unicité organisées autour d’une question de diagnostic : « La donnée est-elle distincte, comment est-elle distribuée et le contenu texte est-il original ? »
Considérez ces métriques comme un flux de diagnostic. Chaque couche s’appuie sur la précédente.
Couche 1 : les valeurs sont-elles uniques ?
Le taux d’unicité est la métrique principale. Il calcule le pourcentage d’enregistrements où la valeur est distincte (non dupliquée ailleurs dans le jeu de données). C’est le chiffre à afficher sur un dashboard.
Vous lancez un scan sur l’objet Contact. Le champ Email affiche un taux d’unicité de 78 %. Cela signifie que 22 % des adresses e-mail apparaissent sur plus d’un Contact. Certaines sont légitimes (e-mails partagés comme info@company.com), mais la plupart sont probablement des Contacts en double à fusionner. Ce chiffre justifie à lui seul une initiative de déduplication.
Distinct Count vous indique la cardinalité du champ : combien de valeurs différentes existent réellement. Si 10 000 enregistrements Contact contiennent 8 200 adresses e-mail distinctes, Distinct Count vaut 8 200.
Exemple : vous vous attendez à ce que la picklist Lead_Source ait environ 12 valeurs. Mais Distinct Count en affiche 87. Avant que la picklist soit restreinte, les commerciaux saisissaient du texte libre. « Web », « web », « Website », « Webinar », « web form » sont tous comptés comme distincts. Cette métrique révèle que vos données Lead Source ont besoin d’une normalisation, même si la picklist est désormais verrouillée.
Couche 2 : comment la donnée est-elle distribuée ?
Le taux d’unicité vous dit combien de valeurs sont uniques. Les métriques de distribution vous disent comment ces valeurs sont réparties. Deux champs peuvent avoir le même taux d’unicité mais des distributions très différentes.
Entropy mesure l’uniformité de la distribution des valeurs à l’aide de l’entropie de Shannon. L’échelle va de 0 (chaque enregistrement a la même valeur) à un maximum déterminé par le nombre de valeurs distinctes. Plus l’entropie est élevée, plus les données sont diverses et réparties.
L’entropie seule ne veut rien dire. Comparez-la à l’entropie maximale possible pour ce champ. Max = log2(Distinct Count), c’est-à-dire l’entropie que vous obtiendriez si chaque valeur distincte apparaissait exactement le même nombre de fois. Le ratio (réel / max) donne un score normalisé de 0 à 1 :
| Normalisé (réel / max) | Interprétation |
|---|---|
| 0,9 ou plus | Distribution uniforme : valeurs réparties uniformément |
| 0,7 à 0,9 | Asymétrie modérée : certaines valeurs apparaissent plus souvent |
| En dessous de 0,7 | Dominé : quelques valeurs détiennent la majorité des enregistrements |
Exemple : votre champ Industry sur Accounts a un taux d’unicité de 2 % (attendu pour une picklist) et 24 valeurs distinctes. Cela semble correct. Mais l’entropie est à 1,3, et l’entropie maximale pour 24 valeurs est à 4,6. Le score normalisé est de 0,28. La distribution est très asymétrique : 60 % des enregistrements sont « Technology » et « Financial Services ». Votre segmentation par industrie est en réalité un système à deux seaux déguisé en 24 catégories.
Max Frequency vous donne le nombre d’occurrences de la seule valeur la plus courante. Si « London » apparaît 8 400 fois dans le champ City, Max Frequency vaut 8 400.
Une valeur dominante unique signale souvent un problème de valeur par défaut, un artefact de migration ou une véritable concentration métier qui mérite investigation. Max Frequency soulève la question ; un rapide examen de la valeur réelle y répond.
Exemple : le champ Billing_Country a une Max Frequency de 34 000 sur 40 000 enregistrements. Cela fait 85 % des enregistrements avec un seul pays. Soit votre activité est vraiment concentrée sur un marché, soit quelqu’un a défini une valeur par défaut pendant la migration. La métrique fait émerger le motif ; c’est à vous d’en déterminer la cause.
Couche 3 : le contenu texte est-il original ?
Les deux premières couches mesurent si les valeurs sont identiques. La couche 3 pose une autre question : le contenu texte est-il substantiellement similaire ? Deux descriptions de Cases peuvent être 100 % uniques (numéros et dates différents) mais 90 % standardisées (même modèle, mêmes formules).
Boilerplate Rate est la métrique principale de l’originalité du contenu texte. Elle mesure le pourcentage de contenu qui est répétitif ou issu d’un modèle. Un score plus élevé signifie plus de contenu original avec moins de standardisation. DQS détecte les modèles courants comme les signatures d’e-mails, les mentions légales et les phrases répétées.
Exemple : votre organisation évalue si le champ Description sur Opportunities convient à une analyse win/loss par IA. Le taux d’unicité est de 99 % (chaque description est techniquement différente). Mais Boilerplate Rate révèle que 65 % du contenu suit le même modèle : « Client : [nom]. Besoin : [produit]. Échéance : [date]. » Le modèle d’IA apprendrait la structure du modèle, pas les motifs de victoire. Boilerplate Rate vous évite un projet d’IA « garbage in, garbage out ».
Boilerplate Records Count vous donne le périmètre du nettoyage en nombre absolu. Si 12 400 enregistrements contiennent du boilerplate, votre data steward connaît la taille du projet de remédiation.
Exemple : votre équipe de support consigne chaque interaction dans Case Comments. Boilerplate Records Count affiche 12 400. L’enquête révèle que les agents collent une ouverture standard (« Merci d’avoir contacté le support. Votre numéro de Case est… ») et une fermeture (« N’hésitez pas à nous recontacter… ») dans chaque Case. Avant d’utiliser l’IA pour analyser les interactions, ces 12 400 enregistrements doivent voir leur boilerplate retiré.
Trois angles d’analyse
Les métriques d’unicité couvrent trois préoccupations distinctes, chacune servant une partie prenante différente :
| Préoccupation | Métriques | Question | Partie prenante |
|---|---|---|---|
| Duplication | Uniqueness Rate, Distinct Count | Avons-nous des valeurs répétées ? | Data stewards (candidats à la fusion, Duplicate Rules) |
| Distribution | Entropy, Max Frequency | Comment la donnée est-elle répartie ? | Analystes et data scientists (segmentation, modélisation) |
| Originalité | Boilerplate Rate, Boilerplate Records Count | Le contenu texte est-il vraiment original ? | Équipes IA (qualité des données d’entraînement, extraction de contenu) |
Référence des métriques
Métriques fondamentales
Ces 2 métriques forment la base de toute analyse d’unicité. Elles fonctionnent sur les 15 types de champs pris en charge.
| Métrique | Type | Ce qu’elle mesure |
|---|---|---|
| Uniqueness Rate | Pourcentage | Part des enregistrements avec des valeurs non dupliquées |
| Distinct Count | Comptage | Nombre total de valeurs distinctes dans le champ |
Métriques avancées
Ces 4 métriques vont au-delà de « les valeurs sont-elles uniques ? » pour analyser les motifs de distribution et l’originalité textuelle. Elles nécessitent le mode Advanced Uniqueness Analysis.
| Métrique | Type | Ce qu’elle mesure |
|---|---|---|
| Entropy | Décimal | Uniformité de la distribution (entropie de Shannon) |
| Max Frequency | Comptage | Nombre d’occurrences de la valeur la plus courante |
| Boilerplate Rate | Pourcentage | Degré de contenu standardisé ou répétitif |
| Boilerplate Records Count | Comptage | Nombre d’enregistrements avec contenu standardisé |
Couverture des types de champs
Différentes métriques s’appliquent à différents types de champs selon ce qu’elles mesurent.
| Groupe de couverture | Types de champs | Métriques disponibles |
|---|---|---|
| Tous types (15) | String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox | Uniqueness Rate, Distinct Count |
| Types analysables (9) | String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL | Entropy, Max Frequency |
| Champs texte (3) | String, TextArea, Html | Boilerplate Records Count |
| Champs texte long (3) | TextArea, LongTextArea, Html | Boilerplate Rate |
Les métriques principales fonctionnent sur les 15 types de champs parce que tout champ peut avoir des doublons. Les métriques de distribution fonctionnent sur 9 types de champs qui produisent des tables de fréquences comptables. Les métriques de boilerplate ne s’appliquent qu’aux champs texte car elles détectent des motifs de contenu répété dans du texte libre.
Deux modes d’analyse
DQS propose deux modes d’analyse d’unicité :
Le mode Basic Uniqueness répond à la question : « Les valeurs sont-elles distinctes ? » Il produit les 2 métriques fondamentales et couvre l’essentiel d’une détection rapide de doublons ou d’un audit de référence.
Le mode Advanced Uniqueness Analysis va plus loin. Il produit les 6 métriques, y compris l’analyse de distribution, les motifs de fréquence et la détection de boilerplate. Utilisez-le quand vous avez besoin de comprendre l’image complète de la distribution et de l’originalité du contenu texte.
| Besoin métier | Mode recommandé |
|---|---|
| Audit rapide de détection de doublons | Basic Uniqueness |
| Évaluation de migration de données | Advanced (Max Frequency attrape les valeurs par défaut, Entropy révèle l’asymétrie) |
| Hygiène des picklists | Advanced (Entropy + Max Frequency révèlent l’asymétrie et les besoins de normalisation) |
| Évaluation des données d’entraînement IA | Advanced (les métriques de boilerplate évaluent l’originalité) |
| Gouvernance continue | Commencer par Basic Uniqueness, passer à Advanced pour une analyse plus poussée |
Configurer l’unicité
DQS fournit 2 paramètres de configuration pour l’unicité. Chacun peut être défini au niveau global et surchargé au niveau du champ.
| Paramètre | Ce qu’il contrôle |
|---|---|
| Case Sensitive | Contrôle si la comparaison des valeurs tient compte de la casse. Lorsqu’il est désactivé (par défaut), « Apple » et « apple » comptent comme la même valeur. Lorsqu’il est activé, elles comptent comme deux valeurs distinctes. |
| Include Blanks | Contrôle si les enregistrements null et vides sont comptés. Lorsqu’il est désactivé (par défaut), les blancs sont exclus de l’évaluation. Lorsqu’il est activé, tous les enregistrements vides partagent une seule valeur « blanc », ce qui peut faire baisser le taux d’unicité. |
Astuce : laissez Case Sensitive désactivé (par défaut) pour la plupart des champs. Activez-le uniquement quand la casse porte du sens, comme pour des codes produits où « ABC-100 » et « abc-100 » sont vraiment différents.
Quand activer Include Blanks
Par défaut, DQS exclut les enregistrements vides et null des calculs d’unicité. Cela a du sens pour les champs optionnels où les blancs sont attendus.
Activez Include Blanks quand les blancs eux-mêmes sont le problème à mesurer. Si 3 000 enregistrements Contact n’ont pas de valeur Email, ces 3 000 blancs partagent une valeur « blanc » dans le calcul. Cela abaisse le taux d’unicité et rend le problème visible dans la métrique principale.
Exemple : vous scannez Phone sur Contacts avec Include Blanks désactivé. Le taux d’unicité est de 91 %. Vous activez Include Blanks et relancez. Le taux tombe à 72 %. La différence révèle qu’une grande partie de vos Contacts partagent un trait commun : pas de numéro de téléphone. Le champ semblait sain quand les blancs étaient exclus, mais l’image complète raconte une autre histoire.
Problèmes d’unicité courants
Doublons issus d’imports massifs
Les migrations et les imports de listes introduisent des doublons quand la logique de rapprochement est insuffisante. Une liste de contacts achetée crée de nouveaux enregistrements pour des personnes déjà existantes. Un export de système legacy crée des Accounts qui chevauchent les données actuelles.
Correctif : auditez les imports avant chargement. Utilisez DQS pour établir une référence d’unicité sur les champs identifiants (Email, Phone, Website) avant et après chaque import.
Valeurs par défaut déguisées en données
Les intégrations et migrations écrivent souvent des valeurs par défaut dans les champs. « Unknown », « N/A » ou le nom même de l’entreprise apparaît sur des milliers d’enregistrements. Ces valeurs gonflent les comptages de doublons et déforment les métriques de distribution.
Correctif : lancez l’analyse d’unicité avancée. Max Frequency révèle la valeur dominante. Si une valeur apparaît sur 85 % des enregistrements, cherchez à savoir si c’est une donnée réelle ou une valeur par défaut.
Champs texte libre sans gouvernance
Les champs texte sans contrainte de picklist accumulent des variantes avec le temps. Le champ Job_Title sur Contacts stocke le même rôle de 15 façons. Le Distinct Count grimpe alors que l’ensemble conceptuel réel reste petit.
Correctif : lancez l’analyse d’unicité avancée sur les champs texte que vous prévoyez de standardiser. Utilisez Distinct Count et Entropy pour cadrer l’effort de normalisation. Convertissez les champs texte libre à forte valeur en picklists.
Champs texte pollués par du boilerplate
Les agents de support collent des ouvertures et fermetures standards dans chaque Case. Les commerciaux copient des modèles de description d’Opportunity. Les champs sont techniquement « uniques » (numéros de Case, dates), mais le contenu est à 90 % identique.
Correctif : lancez l’analyse d’unicité avancée avec détection de boilerplate sur les champs texte. Boilerplate Rate révèle le degré de pollution. Traitez cela avant d’utiliser ces champs pour l’entraînement IA ou l’analyse.
Identifiants partagés qui ressemblent à des doublons
E-mails de département (info@company.com), numéros de téléphone partagés et numéros de fax d’entreprise créent des valeurs légitimement dupliquées. Tout taux d’unicité faible ne signale pas un problème.
Correctif : évaluez l’unicité en contexte. Un champ Email avec 78 % d’unicité mérite investigation. Un champ Fax avec 40 % d’unicité est attendu. Fixez vos seuils de surveillance selon ce que le champ représente.
Bonnes pratiques
Choisissez la bonne métrique principale selon le type de champ
Uniqueness Rate est la bonne métrique principale pour les champs identifiants (Email, Phone, Account Name). Pour les champs de contenu textuel (Description, Notes, Comments), combinez Uniqueness Rate et Boilerplate Rate pour avoir l’image complète. Un champ peut afficher 99 % d’unicité et être à 65 % de boilerplate.
Utilisez les métriques de distribution pour les champs de segmentation
Pour les champs utilisés en segmentation, filtrage ou reporting (Industry, Country, Lead Source), vérifiez Entropy et Max Frequency. Une entropie faible révèle que votre picklist à « 24 catégories » est en réalité un système à 2 seaux. Max Frequency révèle les valeurs par défaut qui déforment vos segments.
Suivez les tendances entre les scans
Un scan unique montre l’état actuel. Exécutez des scans régulièrement pour détecter de nouvelles sources de doublons, mesurer l’impact des initiatives de déduplication et identifier les intégrations qui introduisent des données répétitives.
Priorisez par impact métier
Tous les champs n’ont pas besoin d’une forte unicité. Un champ Email avec des doublons signale un problème de fusion. Un champ Country avec des doublons est normal. Concentrez la surveillance d’unicité sur les champs qui servent d’identifiants, alimentent les Duplicate Rules ou nourrissent les modèles d’IA.
Traitez les causes racines
Une faible unicité signale un problème de processus. Cherchez à savoir si les utilisateurs créent des enregistrements sans vérifier s’ils existent déjà, si les imports manquent de logique de déduplication, ou si les intégrations écrivent des valeurs par défaut. Corrigez la source, pas le symptôme.
Étapes suivantes
Vous comprenez désormais comment mesurer et diagnostiquer les problèmes d’unicité. Poursuivez avec la dimension suivante :
- Dans Salesforce : La qualité des données dans Salesforce — dédupliquez vos Accounts, Contacts et Leads
- Suivant : Actualité — mesurer la fraîcheur et l’actualité des données
- Précédent : Validité — s’assurer que les données suivent les formats attendus
- Associé : Les cinq dimensions — vue d’ensemble de toutes les dimensions
- Action : Évaluation de préparation à l’IA — voir vos scores d’unicité actuels