Skip to main content

Unicidad

Las 6 métricas de unicidad que mide DQS, el flujo de diagnóstico para encontrar duplicados y contenido repetitivo, y cómo configurar el análisis de unicidad.

¿Qué es la unicidad?

La unicidad mide si los valores de sus datos son distintos y no están duplicados. Un campo tiene alta unicidad cuando cada registro contiene un valor diferente. La unicidad se rompe cuando el mismo valor aparece en varios registros, o cuando los campos de texto contienen contenido de plantilla repetitivo que no aporta valor analítico.

Los registros duplicados cuestan a su organización en cada fase. Tres registros de Account para la misma empresa dividen su pipeline. Dos registros de Contact para la misma persona reciben dos correos de marketing. El texto repetitivo pegado en miles de descripciones de casos hace imposible extraer conclusiones. El análisis de unicidad cuantifica todos estos problemas.

Uniqueness Rate = (Registros con valores únicos / Registros totales) x 100

Si 7800 de 10 000 registros de Contact tienen un valor de Email distinto, su tasa de unicidad de Email es del 78 %. El 22 % restante comparte direcciones de correo con al menos otro registro. Esta única métrica le indica si un campo que espera valores únicos realmente los tiene.

Por qué importa la unicidad

Informes

Los registros duplicados inflan sus cifras. Cuando la misma empresa aparece como tres Accounts, su recuento de Accounts está sobreestimado en dos. Los informes de pipeline muestran tres acuerdos donde existe uno. Los recuentos de clientes utilizados para las presentaciones al consejo y los informes a inversores son incorrectos.

Automatización

La automatización de Salesforce trata cada registro de forma independiente. Un Account duplicado dispara flujos duplicados, envía notificaciones duplicadas y crea tareas duplicadas. Un proceso de renovación que se dispara en cada Account que coincida con el nombre de una empresa se dispara tres veces en lugar de una.

IA y Agentforce

Los modelos de IA procesan cada registro como una entidad separada. Los registros duplicados fragmentan la visión que el modelo tiene de un cliente. Agentforce genera respuestas a partir de sus datos de Salesforce. Cuando existen tres registros de Account para la misma empresa, Agentforce ve tres clientes, no uno con un historial completo. El contenido de plantilla repetitivo en los campos de texto enseña al modelo sus plantillas, no los patrones de su negocio.

SistemaImpacto de la unicidad
InformesRecuentos inflados, métricas fragmentadas
Flujos de trabajoDisparos duplicados, notificaciones redundantes
Duplicate RulesSobrecargadas por los duplicados existentes si no se detectan
AgentforceVisión del cliente fragmentada, aprendizaje contaminado por plantillas

Cómo mide DQS la unicidad

DQS produce 6 métricas de unicidad organizadas en torno a una pregunta de diagnóstico: «¿Son los datos distintos, cómo están distribuidos y es original el contenido de texto?»

Piense en estas métricas como un flujo de diagnóstico. Cada capa se apoya en la anterior.

Capa 1: ¿son únicos los valores?

Uniqueness Rate es la métrica principal. Calcula el porcentaje de registros en los que el valor del campo es distinto (no está duplicado en ningún otro lugar del conjunto de datos). Es la cifra que pondrá en un panel.

Ejecuta un análisis sobre el objeto Contact. El campo Email muestra una Uniqueness Rate del 78 %. Eso significa que el 22 % de las direcciones de correo aparece en más de un Contact. Algunas son legítimas (correos de departamento compartidos como info@empresa.com), pero la mayoría probablemente son contactos duplicados que necesitan fusionarse. Esta única cifra justifica una iniciativa de deduplicación.

Distinct Count le indica la cardinalidad del campo: cuántos valores diferentes existen realmente. Si 10 000 registros de Contact contienen 8200 direcciones de correo distintas, el Distinct Count es 8200.

Ejemplo: espera que la lista desplegable Lead_Source tenga unos 12 valores (sus opciones configuradas). Pero Distinct Count muestra 87. Antes de que se restringiera la lista, los representantes escribían valores de texto libre. «Web», «web», «Website», «Webinar» y «web form» cuentan todos como distintos. Esta métrica revela que sus datos de Lead Source necesitan normalizarse, aunque la lista esté ahora bloqueada.

Capa 2: ¿cómo están distribuidos los datos?

Uniqueness Rate le indica cuántos valores son únicos. Las métricas de distribución le indican cómo se reparten esos valores entre los registros. Dos campos pueden tener la misma Uniqueness Rate pero distribuciones muy distintas.

Entropy mide lo uniformemente distribuidos que están los valores usando la entropía de Shannon. La escala va de 0 (cada registro tiene exactamente el mismo valor) hasta un máximo determinado por el número de valores distintos. Una entropía más alta significa datos más diversos y repartidos de forma más uniforme.

La entropía por sí sola no significa nada. Compárela con la entropía máxima posible para ese campo. Máximo = log2(Distinct Count), que es la entropía que se obtendría si cada valor distinto apareciera exactamente el mismo número de veces. La ratio (real / máx.) le proporciona una puntuación normalizada de 0 a 1:

Normalizada (real / máx.)Interpretación
0,9 o másDistribución uniforme: los valores se reparten de forma homogénea
0,7 a 0,9Sesgo moderado: algunos valores aparecen más que otros
Por debajo de 0,7Dominada: unos pocos valores concentran la mayoría de los registros

Ejemplo: su campo Industry en Accounts tiene una Uniqueness Rate del 2 % (esperable en una lista desplegable) y 24 valores distintos. Parece correcto. Pero la entropía es 1,3 y la entropía máxima para 24 valores es 4,6. La puntuación normalizada es 0,28. La distribución está muy sesgada: el 60 % de los registros son «Technology» y «Financial Services». Su segmentación por sector es en realidad un sistema de dos cubos disfrazado de 24 categorías.

Max Frequency le proporciona el recuento de apariciones del valor más habitual. Si «London» aparece 8400 veces en el campo City, Max Frequency es 8400.

Un único valor dominante suele señalar un problema de valor por defecto, un artefacto de migración o una concentración real del negocio que requiere investigación. Max Frequency plantea la pregunta. Una comprobación rápida del valor real la responde.

Ejemplo: el campo Billing_Country tiene un Max Frequency de 34 000 sobre 40 000 registros. Eso es el 85 % de los registros con un único país. O su negocio está genuinamente concentrado en un mercado, o alguien estableció un valor por defecto durante la migración. La métrica pone el patrón de relieve; usted determina la causa.

Capa 3: ¿es original el contenido de texto?

Las dos primeras capas miden si los valores son idénticos. La capa 3 plantea una pregunta distinta: ¿es el contenido de texto sustancialmente similar? Dos descripciones de casos pueden ser 100 % únicas (distintos números de caso, fechas) pero en un 90 % plantilla (misma plantilla, mismas frases).

Boilerplate Rate es la métrica principal de originalidad del contenido de texto. Mide el porcentaje de contenido repetitivo o de plantilla. Una puntuación más alta significa contenido más original con menos plantilla. DQS detecta plantillas habituales como firmas de correo, descargos legales y frases repetidas.

Ejemplo: su organización está evaluando si el campo Description en Opportunities es adecuado para un análisis de ganados/perdidos impulsado por IA. Uniqueness Rate es del 99 % (cada descripción es técnicamente distinta). Pero Boilerplate Rate revela que el 65 % del contenido sigue la misma plantilla: «Cliente: [nombre]. Necesidad: [producto]. Plazo: [fecha]». El modelo de IA aprendería la estructura de su plantilla, no sus patrones de victoria. Boilerplate Rate le salva de un proyecto de IA de «basura entra, basura sale».

Boilerplate Records Count le proporciona el alcance de la limpieza como cifra absoluta. Si 12 400 registros contienen texto de plantilla, su data steward conoce el tamaño del proyecto de remediación. Puede estimar horas, asignar recursos y fijar un calendario realista.

Ejemplo: su equipo de soporte registra cada interacción en Case Comments. Boilerplate Records Count muestra 12 400. La investigación revela que los agentes pegan una apertura estándar («Gracias por contactar con soporte. Su número de caso es…») y un cierre («No dude en ponerse en contacto de nuevo…») en cada caso. Antes de usar IA para analizar las interacciones de soporte, esos 12 400 registros necesitan que se les retire el texto de plantilla.

Tres ángulos de análisis

Las métricas de unicidad cubren tres preocupaciones distintas, cada una al servicio de un responsable diferente:

PreocupaciónMétricasPreguntaResponsable
DuplicaciónUniqueness Rate, Distinct Count¿Tenemos valores repetidos?Data stewards (candidatos a fusión, reglas de deduplicación)
DistribuciónEntropy, Max Frequency¿Cómo se reparten los datos entre los valores?Analistas y data scientists (segmentación, modelado)
OriginalidadBoilerplate Rate, Boilerplate Records Count¿Es el contenido de texto genuinamente original?Equipos de IA (calidad de datos de entrenamiento, extracción de contenido)

Referencia de métricas

Métricas base

Estas 2 métricas forman la base de todo análisis de unicidad. Funcionan en los 15 tipos de campo admitidos.

MétricaTipoQué mide
Uniqueness RatePorcentajeProporción de registros con valores no duplicados
Distinct CountRecuentoNúmero total de valores distintos en el campo

Métricas avanzadas

Estas 4 métricas van más allá del «¿son únicos los valores?» para analizar los patrones de distribución y la originalidad del texto. Requieren el modo Advanced Uniqueness Analysis.

MétricaTipoQué mide
EntropyDecimalLo uniformemente distribuidos que están los valores (entropía de Shannon)
Max FrequencyRecuentoRecuento de apariciones del valor más habitual
Boilerplate RatePorcentajeGrado de contenido de plantilla o repetitivo
Boilerplate Records CountRecuentoNúmero de registros con contenido de plantilla

Cobertura por tipo de campo

Las distintas métricas se aplican a distintos tipos de campo según lo que midan.

Grupo de coberturaTipos de campoMétricas disponibles
Todos los tipos (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxUniqueness Rate, Distinct Count
Tipos de análisis (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropy, Max Frequency
Campos de texto (3)String, TextArea, HtmlBoilerplate Records Count
Campos de texto largo (3)TextArea, LongTextArea, HtmlBoilerplate Rate

Las métricas básicas funcionan en los 15 tipos de campo porque cualquier campo puede tener duplicados. Las métricas de distribución (Entropy, Max Frequency) funcionan en 9 tipos de campo que producen tablas de frecuencia contables. Las métricas de boilerplate se aplican solo a los campos de texto porque detectan patrones de contenido repetido en datos de texto libre.

Dos modos de análisis

DQS ofrece dos modos de análisis de unicidad:

Basic Uniqueness responde a la pregunta: «¿son distintos los valores?». Produce las 2 métricas base y cubre lo esencial para una comprobación rápida de detección de duplicados o una auditoría de línea base.

Advanced Uniqueness Analysis va más allá. Produce las 6 métricas, incluyendo el análisis de distribución, los patrones de frecuencia y la detección de boilerplate. Utilice este modo cuando necesite comprender la imagen completa de la distribución de los datos y la originalidad del texto, no solo la tasa de duplicación.

Necesidad de negocioModo recomendado
Auditoría rápida de detección de duplicadosBasic Uniqueness
Evaluación de migración de datosAdvanced (Max Frequency capta valores por defecto, Entropy revela sesgos)
Revisión de higiene de listas desplegablesAdvanced (Entropy + Max Frequency revelan sesgo y necesidades de normalización)
Evaluación de datos de entrenamiento de IAAdvanced (las métricas de boilerplate evalúan la originalidad del contenido)
Gobernanza de datos continuaEmpiece con Basic Uniqueness y pase a Advanced para un análisis más profundo

Configurar la unicidad

DQS ofrece 2 entradas de configuración para la unicidad. Cada una puede establecerse a nivel global (se aplica a todos los campos) y sobrescribirse a nivel de campo individual.

AjusteQué controla
Case SensitiveControla si la comparación de valores tiene en cuenta las mayúsculas y minúsculas. Cuando está desactivada (por defecto), «Apple» y «apple» cuentan como el mismo valor. Cuando está activada, cuentan como dos valores distintos.
Include BlanksControla si los registros null y en blanco se cuentan en los cálculos de unicidad. Cuando está desactivada (por defecto), los blancos se excluyen de la evaluación. Cuando está activada, todos los registros en blanco comparten un único valor «blank», lo que puede reducir la tasa de unicidad en campos con muchos registros vacíos.

Consejo: desactive Case Sensitive (el valor por defecto) para la mayoría de los campos. Actívela solo cuando las mayúsculas tengan significado, como en los códigos de producto donde «ABC-100» y «abc-100» son artículos genuinamente distintos.

Cuándo activar Include Blanks

Por defecto, DQS excluye los registros en blanco y null de los cálculos de unicidad. Esto tiene sentido en los campos opcionales donde los blancos son esperables.

Active Include Blanks cuando los propios blancos sean el problema que desea medir. Si 3000 registros de Contact no tienen valor de Email, esos 3000 blancos comparten un único valor «blank» en el cálculo de unicidad. Esto reduce la Uniqueness Rate y hace visible el problema de los blancos en la métrica principal.

Ejemplo: analiza Phone en Contacts con Include Blanks desactivado. Uniqueness Rate es del 91 %. Activa Include Blanks y vuelve a analizar. Uniqueness Rate cae al 72 %. La diferencia revela que una gran parte de sus registros de Contact comparte un rasgo común: no tienen número de teléfono. El campo parecía saludable con los blancos excluidos, pero la imagen completa cuenta una historia distinta.

Incidencias habituales de unicidad

Registros duplicados por importaciones masivas

Las migraciones de datos y las importaciones de listas introducen duplicados cuando la lógica de coincidencia es insuficiente. Una lista de contactos comprada crea registros nuevos para personas que ya existen. Una exportación de un sistema heredado crea Accounts que se solapan con los datos actuales.

Solución: audite las importaciones antes de cargarlas. Utilice DQS para establecer una línea base de unicidad en los campos identificadores clave (Email, Phone, Website) antes y después de cada importación.

Valores por defecto que se hacen pasar por datos

Las integraciones y las migraciones suelen escribir valores por defecto en los campos. «Unknown», «N/A» o el propio nombre de una empresa aparecen en miles de registros. Inflan los recuentos de duplicados y distorsionan las métricas de distribución.

Solución: ejecute Advanced Uniqueness Analysis. Max Frequency revela el valor dominante. Si un valor aparece en el 85 % de los registros, investigue si es un dato real o un valor por defecto.

Campos de texto libre sin gobernanza

Los campos de texto que carecen de restricciones de lista desplegable acumulan variaciones con el tiempo. El campo Job_Title en Contacts almacena el mismo rol de 15 formas distintas. El Distinct Count sube mientras que el conjunto real de conceptos de negocio sigue siendo pequeño.

Solución: ejecute Advanced Uniqueness Analysis en los campos de texto que planee estandarizar. Utilice Distinct Count y Entropy para delimitar el esfuerzo de normalización. Convierta los campos de texto libre de alto valor en listas desplegables.

Campos de texto contaminados por boilerplate

Los agentes de soporte pegan aperturas y cierres estándar en cada caso. Los representantes de ventas copian plantillas de descripción de oportunidad. Los campos son técnicamente «únicos» (distintos números de caso, fechas), pero el contenido es en un 90 % idéntico.

Solución: ejecute Advanced Uniqueness Analysis con detección de boilerplate en los campos de texto. Boilerplate Rate revela el grado de contaminación por plantilla. Aborde esto antes de utilizar esos campos para entrenamiento o análisis de IA.

Identificadores compartidos que parecen duplicados

Los correos de departamento (info@empresa.com), los números de teléfono compartidos y los números de fax corporativos generan valores duplicados legítimos. No todas las tasas bajas de Uniqueness Rate señalan un problema.

Solución: evalúe la unicidad en contexto. Un campo Email con un 78 % de unicidad requiere investigación. Un campo Fax con un 40 % de unicidad es esperable. Establezca sus umbrales de monitorización en función de lo que represente el campo.

Buenas prácticas

Elija la métrica principal adecuada según el tipo de campo

Uniqueness Rate es la métrica principal adecuada para los campos identificadores (Email, Phone, Account Name). Para los campos de contenido de texto (Description, Notes, Comments), combine Uniqueness Rate con Boilerplate Rate para obtener la imagen completa. Un campo puede puntuar un 99 % en Uniqueness Rate y seguir siendo un 65 % boilerplate.

Utilice métricas de distribución en los campos de segmentación

En los campos que utiliza para segmentar, filtrar o elaborar informes (Industry, Country, Lead Source), compruebe Entropy y Max Frequency. Una entropía baja revela que su lista desplegable de «24 categorías» es en realidad un sistema de 2 cubos. Max Frequency revela los valores por defecto que distorsionan sus segmentos.

Haga seguimiento de las tendencias entre análisis

Un solo análisis muestra el estado actual. Ejecute análisis con regularidad para detectar nuevas fuentes de duplicados, medir el impacto de las iniciativas de deduplicación e identificar las integraciones que introducen datos repetitivos. Un campo que cae del 90 % al 75 % de unicidad entre análisis tiene una nueva fuente de problema.

Priorice por impacto en el negocio

No todos los campos necesitan una unicidad alta. Un campo Email con duplicados señala un problema de fusión. Un campo Country con duplicados es normal. Centre la monitorización de la unicidad en los campos que sirven como identificadores, impulsan las reglas de deduplicación o alimentan los modelos de IA.

Aborde las causas raíz

Una baja unicidad señala un problema de proceso. Investigue si los usuarios están creando registros sin comprobar los existentes, si las importaciones carecen de lógica de deduplicación o si las integraciones escriben valores por defecto. Arregle el origen, no solo el síntoma.

Próximos pasos

Ya comprende cómo medir y diagnosticar los problemas de unicidad. Continúe aprendiendo sobre la siguiente dimensión: