Skip to main content

Unicidade

Todas as 6 métricas de unicidade que o DQS mede, o fluxo diagnóstico para encontrar duplicatas e conteúdo repetitivo e como configurar a análise de unicidade.

O que é unicidade?

Unicidade mede se seus valores de dados são distintos e não duplicados. Um campo tem alta unicidade quando cada registro contém um valor diferente. A unicidade se perde quando o mesmo valor aparece em vários registros, ou quando campos de texto contêm conteúdo repetitivo, tipo template, que não agrega valor analítico.

Registros duplicados custam caro em cada etapa. Três registros de Account para a mesma empresa dividem seu pipeline. Dois registros de Contact para a mesma pessoa geram dois e-mails de marketing. Texto boilerplate copiado em milhares de descrições de caso torna impossível extrair insights. A análise de unicidade quantifica todos esses problemas.

Uniqueness Rate = (Registros com valores únicos / Total de registros) x 100

Se 7.800 de 10.000 registros de Contact têm valor de Email distinto, sua taxa de unicidade de Email é 78%. Os outros 22% compartilham endereços com pelo menos mais um registro. Essa métrica diz se um campo que espera valores únicos realmente os tem.

Por que unicidade importa

Relatórios

Registros duplicados inflam seus números. Quando a mesma empresa aparece como três Accounts, sua contagem de Accounts é superestimada em dois. Relatórios de pipeline mostram três negócios onde há um. Contagens de clientes usadas em apresentações de board e relatórios a investidores ficam erradas.

Automação

A automação do Salesforce trata cada registro como independente. Um Account duplicado dispara workflows duplicados, envia notificações duplicadas e cria tasks duplicadas. Um processo de renovação que roda em cada Account correspondente a um nome dispara três vezes em vez de uma.

IA e Agentforce

Modelos de IA processam cada registro como entidade separada. Registros duplicados fragmentam a visão do cliente pelo modelo. O Agentforce gera respostas usando seus dados do Salesforce. Quando existem três registros de Account para a mesma empresa, o Agentforce vê três clientes, não um com histórico completo. Conteúdo boilerplate repetitivo em campos de texto ensina ao modelo seus templates, não seus padrões de negócio.

SistemaImpacto da unicidade
RelatóriosContagens infladas, métricas fragmentadas
WorkflowsDisparos duplicados, notificações redundantes
Duplicate RulesSobrecarregadas por duplicatas existentes se não detectadas
AgentforceVisão fragmentada do cliente, aprendizado poluído por template

Como o DQS mede unicidade

O DQS produz 6 métricas de unicidade organizadas em torno de uma pergunta diagnóstica: “Os dados são distintos, como estão distribuídos, e o conteúdo textual é original?”

Pense nessas métricas como um fluxo diagnóstico. Cada camada se apoia na anterior.

Camada 1: Os valores são únicos?

Uniqueness Rate é a métrica principal. Calcula o percentual de registros em que o valor do campo é distinto (não duplicado em nenhum outro lugar do dataset). Esse é o número para o dashboard.

Você roda um scan no objeto Contact. O campo Email mostra Uniqueness Rate de 78%. Isso significa que 22% dos endereços de e-mail aparecem em mais de um Contact. Alguns são legítimos (e-mails de departamento como info@company.com), mas a maioria provavelmente são contacts duplicados que precisam ser mesclados. Esse número sozinho já justifica uma iniciativa de deduplicação.

Distinct Count informa a cardinalidade do campo: quantos valores diferentes realmente existem. Se 10.000 registros de Contact contêm 8.200 endereços de e-mail distintos, o Distinct Count é 8.200.

Exemplo: Você espera que a picklist Lead_Source tenha cerca de 12 valores (suas opções configuradas). Mas Distinct Count mostra 87. Antes de a picklist ser restringida, os reps digitavam valores em texto livre. “Web”, “web”, “Website”, “Webinar” e “web form” contam todos como distintos. Essa métrica revela que seus dados de Lead Source precisam ser normalizados, mesmo com a picklist agora restrita.

Camada 2: Como os dados estão distribuídos?

Uniqueness Rate diz quantos valores são únicos. Métricas de distribuição dizem como esses valores se espalham pelos registros. Dois campos podem ter a mesma Uniqueness Rate mas distribuições muito diferentes.

Entropy mede quão uniformemente os valores estão distribuídos usando a entropia de Shannon. A escala vai de 0 (todo registro tem exatamente o mesmo valor) a um máximo determinado pelo número de valores distintos. Maior entropia significa dados mais diversos e mais uniformemente distribuídos.

Entropia isolada não significa nada. Compare com a entropia máxima possível para o campo. Máximo = log2(Distinct Count), que é a entropia que você obtém se cada valor distinto aparecesse o mesmo número de vezes. A razão (real / máximo) fornece uma pontuação normalizada de 0 a 1:

Normalizada (real / máximo)Interpretação
0,9 ou acimaDistribuição uniforme: valores espalhados de forma regular
0,7 a 0,9Desvio moderado: alguns valores aparecem mais que outros
Abaixo de 0,7Dominado: poucos valores concentram a maioria dos registros

Exemplo: Seu campo Industry em Accounts tem Uniqueness Rate de 2% (esperado para uma picklist) e 24 valores distintos. Parece ok. Mas a entropy é 1,3 e a máxima para 24 valores é 4,6. A pontuação normalizada é 0,28. A distribuição está severamente enviesada: 60% dos registros são “Technology” e “Financial Services”. Sua segmentação por indústria é um sistema de dois baldes fantasiado de 24 categorias.

Max Frequency dá a contagem de ocorrências do valor mais comum. Se “London” aparece 8.400 vezes no campo City, Max Frequency é 8.400.

Um único valor dominante costuma sinalizar um problema de valor padrão, um artefato de migração ou uma concentração real do negócio que merece investigação. Max Frequency levanta a pergunta. Uma checagem rápida no valor real responde.

Exemplo: O campo Billing_Country tem Max Frequency de 34.000 em 40.000 registros. São 85% dos registros com um único país. Ou seu negócio é genuinamente concentrado em um mercado, ou alguém definiu um valor padrão durante a migração. A métrica traz o padrão à tona; você determina a causa.

Camada 3: O conteúdo textual é original?

As duas primeiras camadas medem se os valores são idênticos. A camada 3 faz uma pergunta diferente: o conteúdo textual é substancialmente similar? Duas descrições de caso podem ser 100% únicas (números de caso e datas diferentes), mas 90% boilerplate (mesmo template, mesmas frases).

Boilerplate Rate é a métrica principal para originalidade. Mede o percentual de conteúdo que é repetitivo ou template. Uma pontuação mais alta significa mais conteúdo original, menos boilerplate. O DQS detecta templates comuns como assinaturas de e-mail, disclaimers legais e frases repetidas.

Exemplo: Sua organização está avaliando se o campo Description em Opportunities é adequado para análise de win/loss com IA. Uniqueness Rate é 99% (cada descrição é tecnicamente diferente). Mas Boilerplate Rate revela que 65% do conteúdo segue o mesmo template: “Cliente: [nome]. Necessidade: [produto]. Prazo: [data].” O modelo de IA aprenderia a estrutura do seu template, não seus padrões de vitórias. Boilerplate Rate salva você de um projeto de IA garbage-in, garbage-out.

Boilerplate Records Count dá o escopo de limpeza em número absoluto. Se 12.400 registros contêm boilerplate, sua data steward sabe o tamanho do projeto de remediação. Ela pode estimar horas, alocar recursos e definir cronograma realista.

Exemplo: Seu time de suporte registra toda interação em Case Comments. Boilerplate Records Count mostra 12.400. A investigação revela que os agentes colam uma abertura padrão (“Obrigado por contatar o suporte. Seu número de caso é…”) e um fechamento (“Não hesite em nos procurar…”) em todo caso. Antes de usar IA para analisar interações de suporte, esses 12.400 registros precisam ter o boilerplate removido.

Três ângulos de análise

As métricas de unicidade cobrem três preocupações distintas, cada uma atendendo um stakeholder diferente:

PreocupaçãoMétricasPerguntaStakeholder
DuplicaçãoUniqueness Rate, Distinct CountTemos valores repetidos?Data stewards (candidatos a merge, regras de dedup)
DistribuiçãoEntropy, Max FrequencyComo os dados se distribuem pelos valores?Analistas e cientistas de dados (segmentação, modelagem)
OriginalidadeBoilerplate Rate, Boilerplate Records CountO conteúdo textual é realmente original?Times de IA (qualidade de dados de treinamento, extração de conteúdo)

Referência de métricas

Métricas de base

Essas 2 métricas formam a base de toda análise de unicidade. Funcionam em todos os 15 tipos de campo suportados.

MétricaTipoO que mede
Uniqueness RatePercentualParcela de registros com valores não duplicados
Distinct CountContagemNúmero total de valores distintos no campo

Métricas avançadas

Essas 4 métricas vão além de “os valores são únicos?” para analisar padrões de distribuição e originalidade textual. Exigem o modo Advanced Uniqueness Analysis.

MétricaTipoO que mede
EntropyDecimalQuão uniformemente os valores estão distribuídos (entropia de Shannon)
Max FrequencyContagemContagem de ocorrências do valor mais comum
Boilerplate RatePercentualGrau de conteúdo templated ou repetitivo
Boilerplate Records CountContagemNúmero de registros com conteúdo boilerplate

Cobertura de tipos de campo

Métricas diferentes aplicam-se a tipos de campo diferentes, conforme o que medem.

Grupo de coberturaTipos de campoMétricas disponíveis
Todos os tipos (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxUniqueness Rate, Distinct Count
Tipos de análise (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropy, Max Frequency
Campos de texto (3)String, TextArea, HtmlBoilerplate Records Count
Campos de texto longo (3)TextArea, LongTextArea, HtmlBoilerplate Rate

As métricas principais funcionam em todos os 15 tipos porque qualquer campo pode ter duplicatas. As de distribuição (Entropy, Max Frequency) funcionam em 9 tipos que produzem tabelas de frequência contáveis. As de boilerplate aplicam-se apenas a campos de texto porque detectam padrões repetidos em texto livre.

Dois modos de análise

O DQS oferece dois modos de análise de unicidade:

Basic Uniqueness responde à pergunta: “Os valores são distintos?” Produz as 2 métricas de base e cobre o essencial para uma detecção rápida de duplicatas ou auditoria base.

Advanced Uniqueness Analysis vai mais fundo. Produz todas as 6 métricas, incluindo análise de distribuição, padrões de frequência e detecção de boilerplate. Use este modo quando precisar entender o quadro completo.

Necessidade de negócioModo recomendado
Auditoria rápida de duplicatasBasic Uniqueness
Avaliação de migração de dadosAdvanced (Max Frequency pega valores padrão, Entropy revela desvio)
Higiene de picklistAdvanced (Entropy + Max Frequency revelam desvio e necessidades de normalização)
Avaliação de dados de treinamento de IAAdvanced (métricas de boilerplate avaliam originalidade)
Governança contínuaComece com Basic Uniqueness e mude para Advanced quando precisar de análise mais profunda

Configurando unicidade

O DQS oferece 2 inputs de configuração para unicidade. Cada um pode ser definido no nível global (aplica-se a todos os campos) e sobrescrito no nível do campo.

ConfiguraçãoO que controla
Case SensitiveControla se a comparação de valores considera a caixa das letras. Quando desativado (padrão), “Apple” e “apple” contam como o mesmo valor. Quando ativado, contam como dois valores distintos.
Include BlanksControla se registros nulos e em branco contam nos cálculos de unicidade. Quando desativado (padrão), blanks são excluídos. Quando ativado, todos os registros em branco compartilham um único valor “blank”, o que pode baixar a uniqueness rate em campos com muitos registros vazios.

Dica: Desative Case Sensitive (o padrão) para a maioria dos campos. Habilite-o apenas quando a caixa tiver significado, como códigos de produto em que “ABC-100” e “abc-100” são genuinamente itens diferentes.

Quando habilitar Include Blanks

Por padrão, o DQS exclui registros em branco e nulos dos cálculos de unicidade. Isso faz sentido para campos opcionais em que blanks são esperados.

Habilite Include Blanks quando os próprios blanks forem o problema que você quer medir. Se 3.000 registros de Contact não têm valor em Email, esses 3.000 blanks compartilham um valor “blank” no cálculo. Isso derruba a Uniqueness Rate e torna o problema visível na métrica principal.

Exemplo: Você varre Phone em Contacts com Include Blanks desabilitado. Uniqueness Rate é 91%. Você habilita Include Blanks e re-executa. A Uniqueness Rate cai para 72%. A diferença revela que uma parcela grande dos seus Contacts tem uma característica comum: sem telefone. O campo parecia saudável com blanks excluídos, mas o quadro completo conta outra história.

Problemas comuns de unicidade

Registros duplicados de importações em massa

Migrações e importações introduzem duplicatas quando a lógica de matching é insuficiente. Uma lista comprada cria novos registros para pessoas que já existem. Um export de sistema legado cria Accounts que se sobrepõem aos atuais.

Correção: Audite importações antes de carregar. Use o DQS para estabelecer uma baseline de unicidade em campos identificadores chave (Email, Phone, Website) antes e depois de cada importação.

Valores padrão se passando por dados

Integrações e migrações costumam gravar valores padrão nos campos. “Unknown”, “N/A” ou o próprio nome de uma empresa aparecem em milhares de registros. Isso infla contagens de duplicatas e distorce métricas de distribuição.

Correção: Rode Advanced Uniqueness Analysis. Max Frequency revela o valor dominante. Se um valor aparece em 85% dos registros, investigue se é dado real ou default.

Campos de texto livre sem governança

Campos de texto sem restrições por picklist acumulam variações com o tempo. O campo Job_Title em Contacts armazena o mesmo cargo de 15 formas. O Distinct Count sobe enquanto o conjunto real de conceitos de negócio permanece pequeno.

Correção: Rode Advanced Uniqueness Analysis nos campos de texto que você planeja padronizar. Use Distinct Count e Entropy para dimensionar a normalização. Converta campos de texto livre de alto valor para picklists.

Campos de texto poluídos por boilerplate

Agentes de suporte colam aberturas e fechamentos padrão em todo caso. Vendedores copiam templates de descrição de oportunidade. Os campos são tecnicamente “únicos” (números e datas diferentes), mas o conteúdo é 90% idêntico.

Correção: Rode Advanced Uniqueness Analysis com detecção de boilerplate em campos de texto. Boilerplate Rate revela o grau de poluição por template. Resolva isso antes de usar esses campos para treinamento ou análise com IA.

Identificadores compartilhados que parecem duplicatas

E-mails de departamento (info@company.com), telefones compartilhados e números de fax da empresa criam valores duplicados legítimos. Nem toda Uniqueness Rate baixa é um problema.

Correção: Avalie unicidade em contexto. Um campo Email com 78% de uniqueness precisa de investigação. Um Fax com 40% é esperado. Defina seus limites de monitoramento com base no que o campo representa.

Melhores práticas

Escolha a métrica principal pelo tipo de campo

Uniqueness Rate é a métrica principal para campos identificadores (Email, Phone, Account Name). Para campos de conteúdo textual (Description, Notes, Comments), combine Uniqueness Rate com Boilerplate Rate para ter o quadro completo. Um campo pode marcar 99% de Uniqueness Rate e ainda ser 65% boilerplate.

Use métricas de distribuição para campos de segmentação

Para campos usados em segmentação, filtro ou reporting (Industry, Country, Lead Source), verifique Entropy e Max Frequency. Entropy baixa revela que sua picklist “24 categorias” é na verdade um sistema de 2 baldes. Max Frequency revela valores padrão que distorcem seus segmentos.

Acompanhe tendências entre scans

Um único scan mostra o estado atual. Rode scans regularmente para detectar novas fontes de duplicatas, medir o impacto de iniciativas de deduplicação e identificar integrações que introduzem dados repetitivos.

Priorize por impacto de negócio

Nem todo campo precisa de alta unicidade. Um campo Email com duplicatas sinaliza problema de merge. Um campo Country com duplicatas é normal. Foque o monitoramento de unicidade em campos que servem como identificadores, alimentam regras de deduplicação ou abastecem modelos de IA.

Ataque as causas-raiz

Baixa unicidade sinaliza problema de processo. Investigue se usuários criam registros sem checar existentes, se importações não têm lógica de deduplicação ou se integrações gravam valores padrão. Conserte a origem, não só o sintoma.

Próximos passos

Você agora entende como medir e diagnosticar problemas de unicidade. Continue aprendendo sobre a próxima dimensão: