Complétude | DQS Resources

Qu’est-ce que la complétude ?

La complétude mesure si vos données sont réellement là. Un champ est complet lorsqu’il contient une donnée significative. Un champ est incomplet lorsqu’il est null, vide ou rempli d’un placeholder comme « N/A » ou « TBD ».

La complétude est la dimension de qualité des données la plus fondamentale. Sans données, il n’y a rien à valider, à dédupliquer ou à analyser.

Taux de complétude = (Enregistrements avec donnée / Total des enregistrements) x 100

Si 850 des 1 000 enregistrements Contact ont une valeur Email, votre taux de complétude d’Email est de 85 %. Cette métrique (parfois appelée taux de remplissage) est le chiffre principal de tout champ.

Pourquoi la complétude compte

Reporting

Des données incomplètes faussent vos analytiques. Quand 40 % des enregistrements Account n’ont pas de valeur Industry, tout rapport regroupé par Industry ne montre qu’une vérité partielle. Les dashboards deviennent peu fiables. Les décisions de la direction reposent sur une fraction du tableau.

Automatisation

L’automatisation Salesforce dépend des valeurs de champs. Un Workflow qui envoie des e-mails échoue si Email est vide. Un Process qui met à jour Account Owner échoue si le Lookup est null. Chaque valeur manquante est un échec d’automatisation potentiel.

IA et Agentforce

Les modèles d’IA apprennent de vos données. Quand les champs sont vides, le modèle n’a rien à apprendre. Agentforce utilise vos données Salesforce pour générer des réponses et déclencher des actions. Des données manquantes signifient un contexte incomplet et des résultats d’IA moins utiles.

Système	Impact de la complétude
Rapports	Des données partielles produisent des métriques biaisées
Workflows	Les valeurs manquantes provoquent des échecs de processus
Duplicate Rules	Les enregistrements incomplets sont plus difficiles à rapprocher
Agentforce	Les lacunes de contexte réduisent la précision de l’IA

Comment DQS mesure la complétude

DQS produit 10 métriques de complétude organisées autour d’une question de diagnostic : « Où manquent les données, pourquoi, et celles qui existent sont-elles réellement utiles ? »

Considérez ces métriques comme un entonnoir de diagnostic. Chaque étape s’appuie sur la précédente.

Étape 1 : quelle est la complétude ?

Le taux de complétude est la métrique principale. Il calcule le pourcentage d’enregistrements où le champ contient une valeur non vide et non null. C’est le chiffre que vous mettez sur un dashboard.

Vous lancez un scan sur l’objet Account. Le champ Industry affiche un taux de complétude de 62 %. Cela signifie que 38 % de vos Accounts n’ont pas de valeur d’industrie, et donc que vos rapports de segmentation, vos Sharing Rules de territoire et vos campagnes marketing filtrées par industrie travaillent tous sur des données incomplètes.

Toutes les autres métriques de complétude existent pour expliquer pourquoi ce chiffre n’est pas à 100 %.

Étape 2 : quelle est l’ampleur ?

Les taux indiquent la gravité. Les comptages indiquent la charge de travail. Populated Count répond à la question de l’ampleur : combien d’enregistrements ont réellement une valeur. Servez-vous-en pour le reporting de couverture et pour dimensionner l’écart par rapport à votre total d’enregistrements — la différence entre votre total et le Populated Count constitue l’arriéré de nettoyage.

Exemple : votre data steward doit construire une campagne de nettoyage. Avec 50 000 Contacts et un Populated Count de 35 800 sur Phone, elle sait que 14 200 enregistrements doivent être enrichis, peut estimer le coût avec un fournisseur de données et peut fixer un calendrier réaliste.

Étape 3 : pourquoi est-ce incomplet ?

Trois métriques décomposent la cause de l’incomplétude. Chacune pointe vers une racine différente du problème.

Null Count et Null Rate mesurent les enregistrements où le champ a un véritable null en base, c’est-à-dire qu’il n’a jamais été renseigné. Dans Salesforce, null et chaîne vide sont deux états différents. Un champ jamais touché est null. Un champ explicitement effacé est une chaîne vide. Cette distinction vous dit si la donnée n’a jamais été capturée ou si elle a été supprimée volontairement.

Exemple : après une migration de données, le champ Fax sur Accounts affiche un Null Rate de 45 %. Les données de fax n’ont jamais été migrées depuis le système legacy (null = n’a jamais existé) plutôt que d’avoir été capturées puis effacées. Un Null Rate élevé pointe vers le système source, pas vers le comportement des utilisateurs.

Placeholder Count et Placeholder Rate mesurent les enregistrements contenant des valeurs placeholder connues comme « N/A », « TBD », « Unknown » ou toute valeur personnalisée que vous définissez. Ces valeurs ressemblent à des données mais ne portent aucune information réelle.

Exemple : vos données Account globales affichent un taux de complétude de 94 % sur Industry. Cela semble excellent sur le papier. Mais le Placeholder Rate révèle que 18 % de ces valeurs « renseignées » sont en fait « N/A », « Other » ou « Unknown ». La vraie complétude est plus proche de 76 %. C’est la métrique qui fait passer un dashboard du vert au rouge.

Étape 4 : les données « complètes » sont-elles utiles ?

Les trois premières étapes identifient ce qui manque. L’étape 4 pose une question plus difficile : les données présentes sont-elles réellement utiles ?

Incompleted Count est la mesure la plus large des données manquantes. Elle combine toutes les formes d’incomplétude : nulls, blancs et valeurs placeholder. Quand la détection de placeholders est active, Incompleted Count est toujours supérieur ou égal au Null Count seul, car il capture aussi les entrées composées uniquement d’espaces et les placeholders.

Exemple : votre champ Description sur Opportunities affiche un Null Count de 500 mais un Incompleted Count de 1 800. La différence ? 1 300 enregistrements ont des descriptions comme « TBD », « N/A » ou « --- ». Ces enregistrements sont techniquement renseignés mais pratiquement inutiles. Sans cette métrique, vous penseriez n’avoir que 500 enregistrements à corriger au lieu de 1 800.

Rich Text Ratio mesure le pourcentage d’enregistrements de champs texte qui contiennent un contenu substantiel au-dessus d’un seuil de caractères. Il sépare les champs contenant de la vraie prose des champs de quelques mots. Un champ Description est « renseigné » qu’il contienne « bon client » ou un account plan de trois paragraphes. Pour la préparation à l’IA, la profondeur du contenu compte autant que sa présence.

Exemple : votre entreprise évalue un outil d’IA qui résume les descriptions de Cases. Vous scannez le champ Description sur Cases : taux de complétude de 88 %, mais Rich Text Ratio de seulement 31 %. Seulement 31 % des descriptions de Cases ont assez de substance pour que l’IA puisse travailler. Les autres sont des entrées comme « rappeler », « voir e-mail » ou « problème signalé ». Le projet d’IA a besoin d’une phase d’enrichissement de données avant de pouvoir apporter de la valeur.

Text Field Utilization mesure quelle part de la capacité en caractères disponible d’un champ texte est utilisée. Un Long Text Area de 32 000 caractères où la saisie moyenne fait 45 caractères a une utilisation très faible.

Average Utilization donne la moyenne en pourcentage de la longueur de champ utilisée sur tous les enregistrements. Avec Text Field Utilization, il dresse un tableau complet indiquant si vos champs texte sont correctement dimensionnés.

Exemple : lors d’une évaluation de l’org, Text Field Utilization révèle que Notes__c (un Long Text Area de 131 072 caractères) affiche une utilisation moyenne de 3,2 %, avec la plupart des saisies sous 200 caractères. Pendant ce temps, Short_Description__c (Text, 255 caractères) affiche 94 % d’utilisation avec de fréquents problèmes de troncature. Le schéma a besoin d’être redimensionné : le Long Text Area est surdimensionné et le champ Text est trop petit.

Remarque : Text Field Utilization et Average Utilization ne s’appliquent qu’aux champs String et TextArea, car ce sont les types de champs avec une capacité en caractères définie qui peut servir de référence.

Pourquoi taux et comptages vont par paires

La plupart des métriques viennent sous forme de taux (pourcentage) et de comptage (nombre absolu). C’est intentionnel :

Les taux servent aux dashboards, au reporting direction et au suivi de tendances. « La complétude est passée de 72 % à 89 % ce trimestre. »
Les comptages servent à la planification de projet, à l’estimation de charge et au cadrage du nettoyage. « Nous avons 14 200 enregistrements à corriger. »

Utilisez les taux pour communiquer les progrès. Utilisez les comptages pour planifier le travail.

Référence des métriques

Métriques fondamentales

Ces 5 métriques forment la base de toute analyse de complétude. Elles fonctionnent sur pratiquement tous les types de champs.

Métrique	Type	S’applique à
Completeness Rate	Pourcentage	Tous les types de champs
Populated Count	Comptage	Tous les types de champs
Incompleted Count	Comptage	Tous les types de champs
Null Rate	Pourcentage	Tous les types de champs
Null Count	Comptage	Tous les types de champs

Métriques contextuelles

Ces 5 métriques vont au-delà du « est-ce là ? » pour demander « est-ce significatif ? ». Elles nécessitent le mode d’analyse Contextual Completeness.

Métrique	Type	S’applique à
Placeholder Rate	Pourcentage	Champs texte uniquement
Placeholder Count	Comptage	Champs texte uniquement
Rich Text Ratio	Pourcentage	Champs texte uniquement
Text Field Utilization	Pourcentage	String et TextArea uniquement
Average Utilization	Pourcentage	String et TextArea uniquement

Couverture des types de champs

DQS prend en charge les contrôles de complétude sur tous les types de champs Salesforce standards :

Groupe de couverture	Types de champs	Métriques disponibles
Tous types (20)	String, TextArea, LongTextArea, Html, EncryptedText, Picklist, Multipicklist, Email, Phone, URL, Reference (Lookup), Date, DateTime, Double, Integer, Currency, Percent, Boolean, Combobox, Id	Completeness Rate, Populated/Incompleted Count, Null Rate/Count
Champs texte (8)	Text, TextArea, LongTextArea, Html, EncryptedText, Email, Phone, URL	Ci-dessus + Placeholder Rate/Count, Rich Text Ratio
String et TextArea (2)	String, TextArea	Ci-dessus + Text Field Utilization, Average Utilization

Deux modes d’analyse

DQS propose deux modes d’analyse de complétude :

Le mode Basic Completeness répond à la question : « Les champs sont-ils remplis ? » Il produit les 5 métriques fondamentales et couvre l’essentiel dont toute org a besoin pour un contrôle d’hygiène des données ou un audit rapide.

Le mode Contextual Completeness va plus loin. Il produit les 10 métriques, y compris la détection de placeholders, l’analyse de rich text et l’utilisation des champs. Utilisez ce mode lorsque vous devez distinguer les données présentes des données utiles.

Besoin métier	Mode recommandé
Contrôle d’hygiène rapide ou audit de référence	Basic Completeness
Évaluation d’une migration de données	Contextual (la détection de placeholders attrape les fausses données des systèmes legacy)
Évaluation de la préparation à l’IA	Contextual (Rich Text Ratio et métriques d’utilisation évaluent la profondeur du contenu)
Gouvernance des données en continu	Commencer par Basic, passer à Contextual quand vous êtes prêt pour une analyse plus poussée

Configurer la complétude

DQS propose quatre paramètres de configuration pour la complétude. Chacun peut être défini au niveau global (s’applique à tous les champs) et surchargé au niveau du champ individuel.

Paramètre	Ce qu’il contrôle
Blank As Incomplete	Lorsqu’il est activé, DQS traite les chaînes vides et les valeurs avec uniquement des espaces comme incomplètes. Par défaut : activé.
Placeholders As Incomplete	Lorsqu’il est activé, DQS traite les valeurs placeholder (comme « N/A » ou « TBD ») comme incomplètes. Par défaut : désactivé.
Placeholder Values	La liste des chaînes que DQS traite comme placeholders. Vous les définissez en fonction des schémas de saisie de votre org (par ex., `N/A, TBD, Unknown, --, 000-000-0000`).
Case-Sensitive Placeholders	Contrôle si la correspondance des placeholders est sensible à la casse. Lorsqu’il est activé, « tbd » et « TBD » sont traités comme différents. Par défaut : sensible à la casse.

Astuce : commencez par les placeholders courants (« N/A », « TBD », « Unknown », « — ») et ajoutez les valeurs spécifiques à votre org à mesure que vous les découvrez dans les résultats de scan.

Problèmes de complétude courants

Champs optionnels jamais remplis

Quand les champs sont optionnels, les utilisateurs les sautent. Avec le temps, des champs précieux comme Company Description ou LinkedIn URL affichent des taux de complétude proches de zéro.

Correctif : rendez les champs critiques obligatoires, ou créez des invites lors de l’édition des enregistrements.

Imports massifs avec des lacunes

Les migrations de données et les imports de listes manquent souvent de valeurs pour certains champs. Une liste de contacts achetée n’a pas d’association Account. Un export de système legacy n’a pas de valeurs Industry standardisées.

Correctif : auditez les imports avant chargement. Utilisez DQS pour établir des références et suivre les améliorations après chaque import.

Abus des placeholders

Les utilisateurs saisissent « N/A » ou « TBD » pour passer les Validation Rules. Le champ semble rempli mais ne contient aucune donnée exploitable. Les rapports standards comptent ces entrées comme renseignées.

Correctif : activez la détection de placeholders et définissez votre liste de valeurs placeholder. Passez en revue et mettez à jour les valeurs placeholder lors des opérations régulières de maintenance.

Padding avec des espaces

Certaines intégrations ou saisies manuelles laissent des champs avec seulement des espaces. Salesforce les compte comme « remplis » mais ils ne contiennent rien d’utile.

Correctif : activez la détection de blancs pour attraper les valeurs contenant uniquement des espaces.

Bonnes pratiques

Priorisez par impact métier

Tous les champs n’ont pas besoin d’une complétude élevée. Concentrez-vous sur les champs qui pilotent l’automatisation, apparaissent dans les dashboards de direction, alimentent l’IA et Agentforce, ou soutiennent les exigences de conformité.

Suivez les tendances dans le temps

Un score de complétude isolé est un instantané. Suivez les scores sur plusieurs scans pour détecter la dégradation tôt, mesurer les initiatives d’amélioration et identifier les sources de données problématiques.

Traitez les causes racines

Une faible complétude signale un problème de processus. Cherchez à savoir si les utilisateurs sautent des champs, si des imports sont lacunaires ou si des intégrations échouent silencieusement. Corrigez la source, pas seulement le symptôme.

Utilisez l’entonnoir de diagnostic

Ne vous arrêtez pas au taux de complétude. Parcourez l’entonnoir : vérifiez l’ampleur (Populated Count), identifiez la cause (Null vs Placeholder), puis évaluez la qualité du contenu (Rich Text Ratio, utilisation). Chaque étape révèle un type de problème différent avec un correctif différent.

Étapes suivantes

Vous comprenez désormais comment mesurer et améliorer la complétude. Poursuivez avec la dimension suivante :

Dans Salesforce : La qualité des données dans Salesforce — mesurez la complétude de vos enregistrements CRM
Suivant : Validité — assurez-vous que vos données respectent les formats attendus
Associé : Les cinq dimensions — vue d’ensemble de toutes les dimensions
Action : Évaluation de préparation à l’IA — voyez vos scores de complétude actuels