Validez | DQS Resources

¿Qué es la validez?

La validez mide si los valores de datos se ajustan a los formatos y patrones esperados. Un valor es válido cuando coincide con la estructura definida. Un valor no es válido cuando rompe las reglas de formato.

Una dirección de correo es válida cuando contiene un símbolo «@» y un dominio. Una URL es válida cuando empieza con un protocolo y contiene un dominio. Un código de producto es válido cuando tiene exactamente el número de caracteres que su sistema requiere.

DQS valida los valores de los campos mediante patrones regex (expresiones regulares). Puede elegir entre patrones integrados para formatos habituales como Email, URL y Fixed Length, o escribir su propio regex para cualquier formato específico del negocio.

Validity Rate = (Registros que coinciden con el patrón / Registros totales) x 100

Si 35 500 de 50 000 registros de Contact tienen una dirección de correo que coincide con el patrón de formato de correo, su tasa de validez de Email es del 71 %. El 29 % restante contiene valores que no superan la comprobación del patrón.

Validez frente a precisión

Validez y precisión son conceptos distintos:

Comprobación	¿Válido?	¿Preciso?
john@company.com	Sí	Desconocido sin verificación
john@company	No	N/A (el formato es incorrecto)
john.doe@formerjob.com	Sí	No (la persona dejó la empresa)
555-123-4567	Sí	Desconocido sin llamar
555-12-456	No	N/A (número de dígitos incorrecto)

DQS mide la validez porque las comprobaciones de formato pueden automatizarse. La precisión requiere verificación externa o confirmación humana.

Los datos válidos funcionan en sus sistemas aunque no reflejen la realidad. Los datos no válidos rompen sus sistemas con independencia de su veracidad real. Céntrese primero en la validez. Aborde la precisión mediante procesos de verificación.

Por qué importa la validez

Los datos no válidos provocan fallos en toda su pila tecnológica. Los correos rechazados dañan la reputación del remitente. Los números de teléfono mal formados desperdician tiempo del marcador. Las URL rotas frustran a los usuarios y bloquean las herramientas de enriquecimiento.

Las APIs rechazan los datos mal formados. Cuando su integración envía un formato de correo no válido a una plataforma de marketing, el lote completo puede fallar. Los flujos de Salesforce que analizan valores de campos se rompen cuando el formato es inesperado.

Los modelos de IA procesan el texto tal cual. Cuando un campo de teléfono contiene «Teléfono: 555-1234» en lugar de un número limpio, el modelo ve patrones inconsistentes. Los formatos no válidos reducen la eficacia de la IA y producen resultados poco fiables en Agentforce.

Sistema	Impacto de la validez
Campañas de correo	Los rebotes dañan la reputación del remitente
Telefonía	Los números no válidos desperdician tiempo del marcador
Enlaces web	Las URL rotas bloquean el enriquecimiento y la navegación
APIs	Los datos mal formados provocan fallos de sincronización
IA y Agentforce	Los formatos inconsistentes reducen la precisión del modelo

Cómo mide DQS la validez

DQS produce 6 métricas de validez organizadas en torno a una pregunta de diagnóstico: «¿Los datos coinciden con el patrón, y hay basura escondida en los valores que sí lo hacen?»

Piense en estas métricas como un flujo de diagnóstico. Cada paso revela una capa más profunda del problema.

Paso 1: ¿coincide con el patrón?

Validity Rate es la métrica principal. Calcula el porcentaje de registros en los que el valor del campo coincide con su patrón configurado. Es la cifra que pondrá en un panel.

Configura el patrón Email en el campo PersonEmail de Contacts. La Validity Rate es del 71 %. Eso significa que el 29 % de las direcciones de correo no superan la comprobación de formato. Les falta el símbolo «@», no tienen dominio o contienen espacios. Cada campaña de marketing enviada a esas direcciones rebota. Cada flujo automatizado que se dispara con el correo falla en silencio.

Valid Count le indica el número absoluto. De 50 000 Contacts, 35 800 tienen direcciones de correo válidas. Esa es su audiencia direccionable real para las campañas de correo, no las 50 000 que hay en el sistema. Marketing puede fijar proyecciones de campaña realistas en lugar de trabajar con cifras infladas.

Paso 2: ¿cuál es el desglose completo?

Las tasas indican la gravedad. Los recuentos indican la carga de trabajo. Dos métricas completan la imagen:

Métrica	Qué le indica
Invalid Rate	El encuadre negativo de su puntuación de validez. «El 29 % de nuestras direcciones de correo no son estructuralmente válidas» llama más la atención en una presentación al consejo que «el 71 % son válidas». Los mismos datos, presentados para la acción.
Invalid Count	La carga de trabajo de limpieza como cifra absoluta. Su empresa está migrando a un nuevo sistema de telefonía que requiere el formato E.164. Invalid Count en el campo Phone: 23 400. Ese es el número exacto de registros que requieren reformateo antes de que la migración pueda entrar en producción.

Paso 3: ¿hay basura más allá de los errores de formato?

Un valor puede superar una comprobación de formato y seguir siendo basura. Su formulario web-to-lead requiere un campo Company. Validity Rate en Company es del 98 %, porque casi todo supera un patrón de texto básico. Pero Noise Rate revela que el 14 % de esos valores son entradas como «asdf», «test», «xxxxx» o «na na na». Con formato válido, pero completamente inútiles para el enrutamiento de ventas, el enriquecimiento o la segmentación.

Noisy Records Count le proporciona el alcance de la limpieza. Si Noise Rate es del 14 % sobre 50 000 registros, se trata de 7000 leads con nombres de empresa basura. Su equipo de operaciones puede construir una cola de limpieza, estimar horas y decidir si eliminar automáticamente o marcar para revisión manual.

Dos categorías de fallo

Las métricas de validez distinguen dos problemas fundamentalmente distintos:

Problema	Métricas	Causa raíz	Solución
Errores de formato	Validity Rate, Invalid Rate, Valid/Invalid Count	Errores humanos, bugs de integración, falta de reglas de validación	Limpiar los datos: reglas de validación de campo, transformación de datos, enriquecimiento
Ruido y basura	Noise Rate, Noisy Records Count	Bots, envíos forzados de formularios, importaciones masivas con valores por defecto basura	Arreglar la fuente: CAPTCHA, rediseño de campos obligatorios, eliminación de registros

La distinción importa porque la solución es totalmente distinta. Los errores de formato se remedian limpiando los datos. El ruido se remedia arreglando la fuente que lo produce.

Referencia de métricas

Métricas base

Estas 2 métricas forman la base de todo análisis de validez. Le indican la tasa de coincidencia y el número de registros que la superan.

Métrica	Tipo	Qué mide
Validity Rate	Porcentaje	Proporción de registros que coinciden con el patrón configurado
Valid Count	Recuento	Número de registros que coinciden con el patrón configurado

Métricas avanzadas

Estas 4 métricas van más allá del «¿coincide?» para ofrecer el desglose completo, incluyendo la detección de ruido. Requieren el modo de análisis Advanced Format Validation.

Métrica	Tipo	Qué mide
Invalid Rate	Porcentaje	Proporción de registros que no superan el patrón configurado
Invalid Count	Recuento	Número de registros que no superan el patrón configurado
Noise Rate	Porcentaje	Proporción de registros que contienen patrones de ruido (datos basura)
Noisy Records Count	Recuento	Número de registros que contienen patrones de ruido

Por qué las tasas y los recuentos vienen en pares

La mayoría de las métricas se presentan como tasa (porcentaje) y recuento (número absoluto). Es intencional:

Las tasas son para paneles, informes ejecutivos y seguimiento de tendencias. «La validez mejoró del 71 % al 92 % este trimestre».
Los recuentos son para la planificación de proyectos, la estimación de la carga de trabajo y la delimitación de la limpieza. «Tenemos 23 400 números de teléfono que reformatear».

Use las tasas para comunicar el progreso. Use los recuentos para planificar el trabajo.

Cobertura por tipo de campo

Las 6 métricas de validez comparten el mismo soporte base de tipo de campo, con las métricas de ruido limitadas a los campos de texto.

Métrica	6 tipos de campo	Solo String y TextArea
Validity Rate	X
Valid Count	X
Invalid Rate	X
Invalid Count	X
Noise Rate		X
Noisy Records Count		X

Las métricas basadas en patrones (Validity Rate, Valid Count, Invalid Rate, Invalid Count) funcionan en los 6 tipos de campo admitidos: String, TextArea, Email, Phone, URL y Picklist.

Las métricas de ruido (Noise Rate, Noisy Records Count) se aplican solo a los campos String y TextArea. Los patrones de ruido como los caracteres repetidos y el tecleo aleatorio son fenómenos de texto libre. Un campo Picklist con un valor de lista desplegable válido no puede contener ruido. La detección de ruido solo tiene sentido en los campos donde los usuarios escriben texto libre.

Dos modos de análisis

DQS ofrece dos modos de análisis de validez:

Format Validation responde a la pregunta: «¿los valores del campo coinciden con el patrón esperado?». Produce las 2 métricas base y cubre lo esencial para una comprobación de cumplimiento de formato o una auditoría rápida.

Advanced Format Validation va más allá. Produce las 6 métricas, incluyendo el desglose completo de válidos e inválidos y la detección de ruido. Utilice este modo cuando necesite distinguir entre errores de formato y datos basura, o cuando necesite recuentos precisos para la planificación de proyectos de limpieza.

Necesidad de negocio	Modo recomendado
Comprobación rápida de cumplimiento de formato	Format Validation
Informe o auditoría de cumplimiento	Advanced (desglose completo válido/inválido para los reguladores)
Evaluación de calidad de leads	Advanced (Noise Rate capta la basura que supera las comprobaciones de formato)
Evaluación de datos previa a la migración	Advanced (desglose completo para delimitar la remediación por categorías)
Gobernanza de datos continua	Empiece con Format Validation y pase a Advanced para la detección de ruido

Configurar la validez

A diferencia de la completitud (que funciona automáticamente en cualquier campo), la validez requiere configuración. Debe definir qué significa «válido» para cada campo antes de que DQS pueda comprobarlo. Un análisis de validez sin patrón carece de sentido: ¿válido respecto a qué?

DQS ofrece 5 entradas de configuración. Cada una puede establecerse a nivel global (se aplica a todos los campos) y sobrescribirse a nivel de campo individual.

Ajuste	Qué controla
Pattern Type	El formato con el que validar. Elija entre Email, URL, Fixed Length o regex personalizado. Obligatorio: debe seleccionar un tipo de patrón antes de ejecutar un análisis.
Pattern / Fixed Length	El valor específico para el tipo elegido. Para Fixed Length, introduzca un número de caracteres (de 1 a 255). Para Custom, introduzca un patrón regex. Email y URL utilizan patrones integrados.
Custom Pattern	Su propio regex cuando Pattern Type se establece en Custom. DQS valida su regex antes de guardarlo y bloquea las expresiones no válidas.
Include Blanks	Cuando está activada, DQS cuenta los valores en blanco como no válidos. Cuando está desactivada (por defecto), los blancos se excluyen por completo de la evaluación.
Case Sensitive	Cuando está activada, la coincidencia de patrones tiene en cuenta las mayúsculas y minúsculas. Cuando está desactivada (por defecto), la coincidencia no distingue entre mayúsculas y minúsculas.

Tipos de patrón

Tipo	Qué valida	Ejemplo que pasa	Ejemplo que falla
Email	Formato estándar de dirección de correo: user@domain.tld	user@example.com	user@domain, invalid-email
URL	Direcciones web HTTP/HTTPS con dominio válido	https://example.com	example.com, htp://site.com
Fixed Length	Número exacto de caracteres (usted define la cifra)	`AAAAAAAAAA` (10 caracteres, si length = 10)	`SHORT` (5 caracteres)
Custom	Cualquier patrón regex que defina	Depende de su patrón	Depende de su patrón

Ejemplo: sus códigos de producto siguen el formato «DQS-» seguido de 6 dígitos. Establezca Pattern Type en Custom e introduzca el regex ^DQS-\d{6}$. DQS marcará cualquier código de producto que no coincida con esta estructura.

Detección de ruido

La detección de ruido capta datos que superan las comprobaciones de formato pero siguen siendo basura. DQS utiliza dos heurísticas integradas para identificar valores ruidosos:

Heurística 1: caracteres idénticos consecutivos. Tres o más del mismo carácter seguido. Valores como «aaaa», «!!!», «---» o «xxxxx» activan esta comprobación. Suelen proceder de mantener pulsada una tecla, relleno o abuso de placeholders.

Heurística 2: exceso de caracteres especiales. Más del 50 % de caracteres no alfanuméricos (excluyendo espacios). Valores como «!@#$%^» o «***///---» activan esta comprobación. Indican tecleo aleatorio, entrada de bots o introducción deliberada de basura.

Heurística	Qué capta	Ejemplos de valores ruidosos	Ejemplos de valores limpios
3 o más caracteres idénticos consecutivos	Relleno, comodín, mantener pulsada una tecla	«aaaa», «!!!», «---», «xxxxx»	«Premium», «DOT AB3 2024»
Más del 50 % de caracteres especiales	Tecleo aleatorio, entrada de bots, basura	«!@#$%^», «***test», «//—//»	«test@email.com», «O’Brien Inc»

También puede definir patrones de ruido personalizados con regex para la basura específica de su org que las heurísticas integradas no cubren.

Consejo: la detección de ruido es más valiosa en los campos de texto libre donde los usuarios pueden escribir cualquier cosa: Company, Description, Notes y campos de texto personalizados. Ejecútela primero en sus campos web-to-lead, donde los envíos de bots y las entradas forzadas son más habituales.

Incidencias habituales de validez

Direcciones de correo no válidas

Los usuarios introducen correos sin el formato adecuado. Faltan símbolos «@», faltan dominios, hay puntos dobles y erratas, los problemas más habituales.

Incidencia	Ejemplo
Falta @	john.company.com
Falta dominio	john@
Dobles puntos	john@company..com
Erratas	john@comapny.com

Impacto: correos rechazados, puntuación de remitente dañada, comunicaciones perdidas.

Números de teléfono mal formados

Los campos de teléfono aceptan cualquier texto en Salesforce, lo que conduce a formatos inconsistentes y no válidos.

Incidencia	Ejemplo
Letras intercaladas	555-CALL-NOW
Número de dígitos incorrecto	555-12
Extensión en el campo	555-1234 ext 5
Confusión de código de país	1-555-123-4567 frente a 555-123-4567

Impacto: llamadas fallidas, tiempo de ventas desperdiciado, errores de sincronización de telefonía.

URL no válidas

Los campos de dirección web suelen contener valores parciales o mal formados.

Incidencia	Ejemplo
Falta protocolo	www.company.com
Falta dominio	https://
Erratas	htps://company.com
Identificadores sociales	@company (no es una URL)

Impacto: enlaces rotos, enriquecimiento fallido, errores de navegación.

Buenas prácticas

Valide en la entrada

La mejor comprobación de validez se produce en la entrada de datos. Utilice reglas de validación de Salesforce para imponer formatos antes de que los datos entren en su sistema.

// Ejemplo: regla de validación de formato de correo
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Estandarice los formatos antes de analizar

Elija un formato para cada campo e imponga. Para los números de teléfono, E.164 (+15551234567) es el estándar más aceptado universalmente. Para las URL, exija el protocolo https://. Documente sus decisiones de formato para que el equipo conozca el estándar.

Establezca umbrales según la prioridad del campo

Los distintos campos necesitan distintos estándares de validez:

Campo	Umbral sugerido	Razón
Correo principal	95 %+	Crítico para la comunicación
Teléfono	90 %+	Importante, pero con datos heredados esperables
Sitio web	85 %+	A menudo introducido de forma incompleta
Códigos de texto personalizados	98 %+	Generados por el sistema; se espera un alto cumplimiento

Utilice la detección de ruido en los campos de texto libre

Ejecute la detección de ruido en los campos donde los usuarios escriben texto libre: Company, Description, campos de texto personalizados y cualquier campo poblado por formularios web. Noise Rate revela problemas que la validación de formato no detecta.

Documente los formatos esperados

Cree un diccionario de datos que especifique el formato esperado para cada campo, las variaciones aceptables y ejemplos de valores válidos y no válidos. Compártalo con su equipo y utilícelo como referencia durante los proyectos de limpieza de datos.

Próximos pasos

Ya comprende cómo validar los formatos de los datos y detectar los valores ruidosos. Continúe aprendiendo sobre la siguiente dimensión:

En Salesforce: La calidad de datos en Salesforce - aplique formatos válidos a sus campos de Salesforce
Siguiente: Unicidad - detecte y prevenga los registros duplicados
Anterior: Completitud - asegúrese de que los datos requeridos estén presentes
Relacionado: Las cinco dimensiones - visión general de todas las dimensiones
Acción: Evaluación de preparación para la IA - vea sus puntuaciones actuales de validez