Skip to main content

Validez

Las 6 métricas de validez que mide DQS, el flujo de diagnóstico para encontrar errores de formato y ruido, y cómo configurar la validación basada en patrones.

¿Qué es la validez?

La validez mide si los valores de datos se ajustan a los formatos y patrones esperados. Un valor es válido cuando coincide con la estructura definida. Un valor no es válido cuando rompe las reglas de formato.

Una dirección de correo es válida cuando contiene un símbolo «@» y un dominio. Una URL es válida cuando empieza con un protocolo y contiene un dominio. Un código de producto es válido cuando tiene exactamente el número de caracteres que su sistema requiere.

DQS valida los valores de los campos mediante patrones regex (expresiones regulares). Puede elegir entre patrones integrados para formatos habituales como Email, URL y Fixed Length, o escribir su propio regex para cualquier formato específico del negocio.

Validity Rate = (Registros que coinciden con el patrón / Registros totales) x 100

Si 35 500 de 50 000 registros de Contact tienen una dirección de correo que coincide con el patrón de formato de correo, su tasa de validez de Email es del 71 %. El 29 % restante contiene valores que no superan la comprobación del patrón.

Validez frente a precisión

Validez y precisión son conceptos distintos:

Comprobación¿Válido?¿Preciso?
john@company.comDesconocido sin verificación
john@companyNoN/A (el formato es incorrecto)
john.doe@formerjob.comNo (la persona dejó la empresa)
555-123-4567Desconocido sin llamar
555-12-456NoN/A (número de dígitos incorrecto)

DQS mide la validez porque las comprobaciones de formato pueden automatizarse. La precisión requiere verificación externa o confirmación humana.

Los datos válidos funcionan en sus sistemas aunque no reflejen la realidad. Los datos no válidos rompen sus sistemas con independencia de su veracidad real. Céntrese primero en la validez. Aborde la precisión mediante procesos de verificación.

Por qué importa la validez

Los datos no válidos provocan fallos en toda su pila tecnológica. Los correos rechazados dañan la reputación del remitente. Los números de teléfono mal formados desperdician tiempo del marcador. Las URL rotas frustran a los usuarios y bloquean las herramientas de enriquecimiento.

Las APIs rechazan los datos mal formados. Cuando su integración envía un formato de correo no válido a una plataforma de marketing, el lote completo puede fallar. Los flujos de Salesforce que analizan valores de campos se rompen cuando el formato es inesperado.

Los modelos de IA procesan el texto tal cual. Cuando un campo de teléfono contiene «Teléfono: 555-1234» en lugar de un número limpio, el modelo ve patrones inconsistentes. Los formatos no válidos reducen la eficacia de la IA y producen resultados poco fiables en Agentforce.

SistemaImpacto de la validez
Campañas de correoLos rebotes dañan la reputación del remitente
TelefoníaLos números no válidos desperdician tiempo del marcador
Enlaces webLas URL rotas bloquean el enriquecimiento y la navegación
APIsLos datos mal formados provocan fallos de sincronización
IA y AgentforceLos formatos inconsistentes reducen la precisión del modelo

Cómo mide DQS la validez

DQS produce 6 métricas de validez organizadas en torno a una pregunta de diagnóstico: «¿Los datos coinciden con el patrón, y hay basura escondida en los valores que sí lo hacen?»

Piense en estas métricas como un flujo de diagnóstico. Cada paso revela una capa más profunda del problema.

Paso 1: ¿coincide con el patrón?

Validity Rate es la métrica principal. Calcula el porcentaje de registros en los que el valor del campo coincide con su patrón configurado. Es la cifra que pondrá en un panel.

Configura el patrón Email en el campo PersonEmail de Contacts. La Validity Rate es del 71 %. Eso significa que el 29 % de las direcciones de correo no superan la comprobación de formato. Les falta el símbolo «@», no tienen dominio o contienen espacios. Cada campaña de marketing enviada a esas direcciones rebota. Cada flujo automatizado que se dispara con el correo falla en silencio.

Valid Count le indica el número absoluto. De 50 000 Contacts, 35 800 tienen direcciones de correo válidas. Esa es su audiencia direccionable real para las campañas de correo, no las 50 000 que hay en el sistema. Marketing puede fijar proyecciones de campaña realistas en lugar de trabajar con cifras infladas.

Paso 2: ¿cuál es el desglose completo?

Las tasas indican la gravedad. Los recuentos indican la carga de trabajo. Dos métricas completan la imagen:

MétricaQué le indica
Invalid RateEl encuadre negativo de su puntuación de validez. «El 29 % de nuestras direcciones de correo no son estructuralmente válidas» llama más la atención en una presentación al consejo que «el 71 % son válidas». Los mismos datos, presentados para la acción.
Invalid CountLa carga de trabajo de limpieza como cifra absoluta. Su empresa está migrando a un nuevo sistema de telefonía que requiere el formato E.164. Invalid Count en el campo Phone: 23 400. Ese es el número exacto de registros que requieren reformateo antes de que la migración pueda entrar en producción.

Paso 3: ¿hay basura más allá de los errores de formato?

Un valor puede superar una comprobación de formato y seguir siendo basura. Su formulario web-to-lead requiere un campo Company. Validity Rate en Company es del 98 %, porque casi todo supera un patrón de texto básico. Pero Noise Rate revela que el 14 % de esos valores son entradas como «asdf», «test», «xxxxx» o «na na na». Con formato válido, pero completamente inútiles para el enrutamiento de ventas, el enriquecimiento o la segmentación.

Noisy Records Count le proporciona el alcance de la limpieza. Si Noise Rate es del 14 % sobre 50 000 registros, se trata de 7000 leads con nombres de empresa basura. Su equipo de operaciones puede construir una cola de limpieza, estimar horas y decidir si eliminar automáticamente o marcar para revisión manual.

Dos categorías de fallo

Las métricas de validez distinguen dos problemas fundamentalmente distintos:

ProblemaMétricasCausa raízSolución
Errores de formatoValidity Rate, Invalid Rate, Valid/Invalid CountErrores humanos, bugs de integración, falta de reglas de validaciónLimpiar los datos: reglas de validación de campo, transformación de datos, enriquecimiento
Ruido y basuraNoise Rate, Noisy Records CountBots, envíos forzados de formularios, importaciones masivas con valores por defecto basuraArreglar la fuente: CAPTCHA, rediseño de campos obligatorios, eliminación de registros

La distinción importa porque la solución es totalmente distinta. Los errores de formato se remedian limpiando los datos. El ruido se remedia arreglando la fuente que lo produce.

Referencia de métricas

Métricas base

Estas 2 métricas forman la base de todo análisis de validez. Le indican la tasa de coincidencia y el número de registros que la superan.

MétricaTipoQué mide
Validity RatePorcentajeProporción de registros que coinciden con el patrón configurado
Valid CountRecuentoNúmero de registros que coinciden con el patrón configurado

Métricas avanzadas

Estas 4 métricas van más allá del «¿coincide?» para ofrecer el desglose completo, incluyendo la detección de ruido. Requieren el modo de análisis Advanced Format Validation.

MétricaTipoQué mide
Invalid RatePorcentajeProporción de registros que no superan el patrón configurado
Invalid CountRecuentoNúmero de registros que no superan el patrón configurado
Noise RatePorcentajeProporción de registros que contienen patrones de ruido (datos basura)
Noisy Records CountRecuentoNúmero de registros que contienen patrones de ruido

Por qué las tasas y los recuentos vienen en pares

La mayoría de las métricas se presentan como tasa (porcentaje) y recuento (número absoluto). Es intencional:

  • Las tasas son para paneles, informes ejecutivos y seguimiento de tendencias. «La validez mejoró del 71 % al 92 % este trimestre».
  • Los recuentos son para la planificación de proyectos, la estimación de la carga de trabajo y la delimitación de la limpieza. «Tenemos 23 400 números de teléfono que reformatear».

Use las tasas para comunicar el progreso. Use los recuentos para planificar el trabajo.

Cobertura por tipo de campo

Las 6 métricas de validez comparten el mismo soporte base de tipo de campo, con las métricas de ruido limitadas a los campos de texto.

Métrica6 tipos de campoSolo String y TextArea
Validity RateX
Valid CountX
Invalid RateX
Invalid CountX
Noise RateX
Noisy Records CountX

Las métricas basadas en patrones (Validity Rate, Valid Count, Invalid Rate, Invalid Count) funcionan en los 6 tipos de campo admitidos: String, TextArea, Email, Phone, URL y Picklist.

Las métricas de ruido (Noise Rate, Noisy Records Count) se aplican solo a los campos String y TextArea. Los patrones de ruido como los caracteres repetidos y el tecleo aleatorio son fenómenos de texto libre. Un campo Picklist con un valor de lista desplegable válido no puede contener ruido. La detección de ruido solo tiene sentido en los campos donde los usuarios escriben texto libre.

Dos modos de análisis

DQS ofrece dos modos de análisis de validez:

Format Validation responde a la pregunta: «¿los valores del campo coinciden con el patrón esperado?». Produce las 2 métricas base y cubre lo esencial para una comprobación de cumplimiento de formato o una auditoría rápida.

Advanced Format Validation va más allá. Produce las 6 métricas, incluyendo el desglose completo de válidos e inválidos y la detección de ruido. Utilice este modo cuando necesite distinguir entre errores de formato y datos basura, o cuando necesite recuentos precisos para la planificación de proyectos de limpieza.

Necesidad de negocioModo recomendado
Comprobación rápida de cumplimiento de formatoFormat Validation
Informe o auditoría de cumplimientoAdvanced (desglose completo válido/inválido para los reguladores)
Evaluación de calidad de leadsAdvanced (Noise Rate capta la basura que supera las comprobaciones de formato)
Evaluación de datos previa a la migraciónAdvanced (desglose completo para delimitar la remediación por categorías)
Gobernanza de datos continuaEmpiece con Format Validation y pase a Advanced para la detección de ruido

Configurar la validez

A diferencia de la completitud (que funciona automáticamente en cualquier campo), la validez requiere configuración. Debe definir qué significa «válido» para cada campo antes de que DQS pueda comprobarlo. Un análisis de validez sin patrón carece de sentido: ¿válido respecto a qué?

DQS ofrece 5 entradas de configuración. Cada una puede establecerse a nivel global (se aplica a todos los campos) y sobrescribirse a nivel de campo individual.

AjusteQué controla
Pattern TypeEl formato con el que validar. Elija entre Email, URL, Fixed Length o regex personalizado. Obligatorio: debe seleccionar un tipo de patrón antes de ejecutar un análisis.
Pattern / Fixed LengthEl valor específico para el tipo elegido. Para Fixed Length, introduzca un número de caracteres (de 1 a 255). Para Custom, introduzca un patrón regex. Email y URL utilizan patrones integrados.
Custom PatternSu propio regex cuando Pattern Type se establece en Custom. DQS valida su regex antes de guardarlo y bloquea las expresiones no válidas.
Include BlanksCuando está activada, DQS cuenta los valores en blanco como no válidos. Cuando está desactivada (por defecto), los blancos se excluyen por completo de la evaluación.
Case SensitiveCuando está activada, la coincidencia de patrones tiene en cuenta las mayúsculas y minúsculas. Cuando está desactivada (por defecto), la coincidencia no distingue entre mayúsculas y minúsculas.

Tipos de patrón

TipoQué validaEjemplo que pasaEjemplo que falla
EmailFormato estándar de dirección de correo: user@domain.tlduser@example.comuser@domain, invalid-email
URLDirecciones web HTTP/HTTPS con dominio válidohttps://example.comexample.com, htp://site.com
Fixed LengthNúmero exacto de caracteres (usted define la cifra)AAAAAAAAAA (10 caracteres, si length = 10)SHORT (5 caracteres)
CustomCualquier patrón regex que definaDepende de su patrónDepende de su patrón

Ejemplo: sus códigos de producto siguen el formato «DQS-» seguido de 6 dígitos. Establezca Pattern Type en Custom e introduzca el regex ^DQS-\d{6}$. DQS marcará cualquier código de producto que no coincida con esta estructura.

Detección de ruido

La detección de ruido capta datos que superan las comprobaciones de formato pero siguen siendo basura. DQS utiliza dos heurísticas integradas para identificar valores ruidosos:

Heurística 1: caracteres idénticos consecutivos. Tres o más del mismo carácter seguido. Valores como «aaaa», «!!!», «---» o «xxxxx» activan esta comprobación. Suelen proceder de mantener pulsada una tecla, relleno o abuso de placeholders.

Heurística 2: exceso de caracteres especiales. Más del 50 % de caracteres no alfanuméricos (excluyendo espacios). Valores como «!@#$%^» o «***///---» activan esta comprobación. Indican tecleo aleatorio, entrada de bots o introducción deliberada de basura.

HeurísticaQué captaEjemplos de valores ruidososEjemplos de valores limpios
3 o más caracteres idénticos consecutivosRelleno, comodín, mantener pulsada una tecla«aaaa», «!!!», «---», «xxxxx»«Premium», «DOT AB3 2024»
Más del 50 % de caracteres especialesTecleo aleatorio, entrada de bots, basura«!@#$%^», «***test», «//—//»«test@email.com», «O’Brien Inc»

También puede definir patrones de ruido personalizados con regex para la basura específica de su org que las heurísticas integradas no cubren.

Consejo: la detección de ruido es más valiosa en los campos de texto libre donde los usuarios pueden escribir cualquier cosa: Company, Description, Notes y campos de texto personalizados. Ejecútela primero en sus campos web-to-lead, donde los envíos de bots y las entradas forzadas son más habituales.

Incidencias habituales de validez

Direcciones de correo no válidas

Los usuarios introducen correos sin el formato adecuado. Faltan símbolos «@», faltan dominios, hay puntos dobles y erratas, los problemas más habituales.

IncidenciaEjemplo
Falta @john.company.com
Falta dominiojohn@
Dobles puntosjohn@company..com
Erratasjohn@comapny.com

Impacto: correos rechazados, puntuación de remitente dañada, comunicaciones perdidas.

Números de teléfono mal formados

Los campos de teléfono aceptan cualquier texto en Salesforce, lo que conduce a formatos inconsistentes y no válidos.

IncidenciaEjemplo
Letras intercaladas555-CALL-NOW
Número de dígitos incorrecto555-12
Extensión en el campo555-1234 ext 5
Confusión de código de país1-555-123-4567 frente a 555-123-4567

Impacto: llamadas fallidas, tiempo de ventas desperdiciado, errores de sincronización de telefonía.

URL no válidas

Los campos de dirección web suelen contener valores parciales o mal formados.

IncidenciaEjemplo
Falta protocolowww.company.com
Falta dominiohttps://
Erratashtps://company.com
Identificadores sociales@company (no es una URL)

Impacto: enlaces rotos, enriquecimiento fallido, errores de navegación.

Buenas prácticas

Valide en la entrada

La mejor comprobación de validez se produce en la entrada de datos. Utilice reglas de validación de Salesforce para imponer formatos antes de que los datos entren en su sistema.

// Ejemplo: regla de validación de formato de correo
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Estandarice los formatos antes de analizar

Elija un formato para cada campo e imponga. Para los números de teléfono, E.164 (+15551234567) es el estándar más aceptado universalmente. Para las URL, exija el protocolo https://. Documente sus decisiones de formato para que el equipo conozca el estándar.

Establezca umbrales según la prioridad del campo

Los distintos campos necesitan distintos estándares de validez:

CampoUmbral sugeridoRazón
Correo principal95 %+Crítico para la comunicación
Teléfono90 %+Importante, pero con datos heredados esperables
Sitio web85 %+A menudo introducido de forma incompleta
Códigos de texto personalizados98 %+Generados por el sistema; se espera un alto cumplimiento

Utilice la detección de ruido en los campos de texto libre

Ejecute la detección de ruido en los campos donde los usuarios escriben texto libre: Company, Description, campos de texto personalizados y cualquier campo poblado por formularios web. Noise Rate revela problemas que la validación de formato no detecta.

Documente los formatos esperados

Cree un diccionario de datos que especifique el formato esperado para cada campo, las variaciones aceptables y ejemplos de valores válidos y no válidos. Compártalo con su equipo y utilícelo como referencia durante los proyectos de limpieza de datos.

Próximos pasos

Ya comprende cómo validar los formatos de los datos y detectar los valores ruidosos. Continúe aprendiendo sobre la siguiente dimensión: