Skip to main content

PII Detection

Os 8 padrões de detecção de PII usados pelo DQS, três presets para cenários comuns de varredura e como configurar a detecção baseada em padrões.

O que é PII Detection?

PII Detection varre campos de texto em busca de informações pessoalmente identificáveis usando padrões regex configuráveis. Responde a três perguntas sobre seus dados do Salesforce:

  • Meus dados contêm PII que precisa de proteção?
  • Quão exposto está meu dataset?
  • Quais campos guardam informação sensível?

O DQS perfila o tipo e a densidade da exposição a PII em todo campo de texto. Usa detecção baseada em padrões: regex faz match contra os valores dos campos para sinalizar SSNs, cartões de crédito, e-mails, números de telefone e outros identificadores.

Três propriedades definem como a detecção funciona:

  1. Determinística. A mesma entrada produz o mesmo resultado sempre.
  2. Transparente. Você vê cada padrão que o DQS aplica. Sem caixa-preta.
  3. On-platform. A detecção roda inteiramente dentro do Salesforce. Nenhum dado sai da sua org.

Por que importa

Compliance. GDPR, CCPA, HIPAA e PCI DSS exigem identificar e proteger PII. Você não protege o que não encontrou. A detecção automatizada dá um inventário da exposição em cada campo de texto no escopo.

Prontidão para IA. Antes de alimentar o Agentforce ou qualquer sistema de IA, você precisa saber quais campos contêm PII. PII não detectado em dados de treinamento ou índices de retrieval cria exposição que nenhum filtro downstream pode evitar totalmente.

Governança de dados. Campos de texto acumulam PII com o tempo. Agentes colam threads de e-mail em comentários de caso. Clientes fornecem SSNs para verificação. Integrações escrevem detalhes de contato em campos de descrição. Sem detecção, esse PII fica desprotegido.

Como o DQS detecta PII

O DQS roda PII Detection como um diagnóstico progressivo. Cada passo se apoia no anterior.

Passo 1: Existe um problema de PII?

Records with PII dá a contagem absoluta de registros em que pelo menos um padrão deu match. Esse é o número de escopo.

Por exemplo: você escaneia comentários de Case usando o preset Standard. Records with PII volta em 847. Isso significa que 847 registros de caso precisam de revisão antes de você poder usar os dados com segurança para treinamento de IA ou compartilhar com analytics de terceiros.

Passo 2: Quão grave é?

PII Exposure Rate dá o percentual de registros escaneados contendo correspondências de padrão. A taxa contextualiza a contagem.

847 registros em 1.000 é 84,7% de exposição, um problema sistêmico que exige mudança de processo. 847 em 500.000 é 0,17%, incidentes isolados tratáveis com limpeza direcionada.

Passo 3: Que tipo de PII?

A própria configuração de padrões diz quais tipos foram escaneados. Cada padrão tem uma categoria: Financial, Contact, Technical ou Identity. Revisando quais padrões dispararam, você sabe se está lidando com vazamentos de cartão, exposição de e-mails ou contaminação por SSN.

Os 8 padrões de detecção

O DQS vem com 8 padrões regex pré-definidos organizados em 4 categorias.

Financial

PadrãoO que capturaRisco de falso positivo
Social Security NumberSSN dos EUA no formato NNN-NN-NNNNBaixo. O formato com hifens é distintivo.
Credit Card NumberSequências de 13 a 16 dígitos, com espaços/hifens opcionaisMédio. Sequências numéricas longas (números de pedido, IDs de rastreio) podem casar por engano.
IBANNúmeros de conta internacionais (formato ISO 13616)Baixo. O prefixo código de país + dígitos de check é distintivo.

Contact

PadrãoO que capturaRisco de falso positivo
Email AddressFormato padrão user@domain.tldBaixo. A estrutura com @ é distintiva.
US Phone NumberFormatos EUA/Canadá: (NNN) NNN-NNNN, NNN-NNN-NNNN, variantes +1Médio. Números de 10 dígitos com separadores podem casar com dados não telefônicos.
International PhoneNúmeros estilo E.164 começando com + código do paísBaixo. O prefixo + é um sinal forte.

Technical

PadrãoO que capturaRisco de falso positivo
IP AddressIPv4 decimal com pontos (NNN.NNN.NNN.NNN)Baixo-Médio. Números de versão de software são a principal fonte de falso positivo.

Identity

PadrãoO que capturaRisco de falso positivo
Date of BirthData formato EUA MM/DD/YYYY ou MM-DD-YYYYAlto. Casa com qualquer data em formato EUA. Melhor usado com direcionamento no nível do campo.

O DQS usa correspondência apenas por regex. A detecção é baseada em formato, não contextual. Não há validação por checksum (Luhn para cartão, módulo-97 para IBAN), não há boost por proximidade de palavras-chave e não há pontuação de confiança via ML. Todo match é binário: o padrão casou ou não. Isso torna a detecção totalmente auditável e determinística, mas você precisa revisar matches em campos com alto risco de falso positivo.

Cobertura regulatória

Todos os 8 padrões são baseados em frameworks importantes de privacidade e segurança.

PadrãoNIST 800-122GDPRCCPAPCI DSSHIPAAISO 27701
SSNXXXXX
Credit CardXXXXX
EmailXXXXX
US PhoneXXXX
Intl PhoneXXXX
IP AddressXXXX
IBANXX
Date of BirthXXXXX

Esses são os mesmos tipos de identificador detectados como padrões embutidos por Google Cloud DLP, AWS Macie e Microsoft Purview. A diferença: ferramentas de DLP em cloud usam detecção em camadas (regex + checksum + proximidade de palavras-chave + ML). O DQS usa apenas regex, o que é mais simples e totalmente transparente, mas não fornece pontuação de confiança.

Três presets de detecção

Presets configuram quais padrões ficam ativos em um clique.

PresetPadrõesQtdQuando usar
StandardSSN, Credit Card, Email, US Phone4Auditoria geral de PII. Cobre os quatro tipos mais comuns com taxas de falso positivo gerenciáveis. Padrão.
CriticalSSN, Credit Card2Checagem de compliance financeiro. Scan mínimo para exposição a roubo de identidade e cartão. Use quando precisa de resultado rápido com falso positivo quase zero.
ExtendedTodos os 8 padrões8Scan completo. Inclui IBAN, IP Address, Date of Birth e International Phone. Maior taxa de falso positivo em troca de cobertura máxima. Melhor para auditorias iniciais e avaliações de compliance.

Você também pode adicionar padrões regex customizados além dos 8 pré-definidos. Padrões custom são validados no servidor antes de serem salvos. Qualquer regex válido funciona.

Referência de métricas

Métricas de base

MétricaTipoO que retorna
Records with PIIContagem (inteiro)Número de registros em que pelo menos um padrão deu match. Um registro é contado uma vez independentemente de quantos padrões casaram ou de quantos matches existem dentro dele.

Métricas avançadas

MétricaTipoO que retorna
PII Exposure RatePercentualPercentual de registros escaneados contendo matches de PII. É o número principal de exposição para relatórios e dashboards.

Cobertura de tipos de campo

MétricaStringTextAreaEmailPhoneEncryptedStringLongTextAreaHtml
Records with PIIXXXXX
PII Exposure RateXXX

Records with PII lança uma rede ampla por todos os tipos de campos de texto. PII Exposure Rate foca em campos de texto mais longos, onde a densidade de PII é significativa. Um campo String de 255 caracteres casando com regex de e-mail é um ponto único. Um LongTextArea de 32.000 caracteres com 15 matches de SSN conta outra história.

Dois modos de análise

O DQS roda PII Detection em dois modos.

PII Scan processa todos os campos selecionados usando os padrões configurados e retorna Records with PII. Esse modo responde: “Tenho um problema de PII?” Use para auditorias rápidas antes de migrações ou projetos de IA.

PII Detection Analysis adiciona PII Exposure Rate além de Records with PII. A taxa de exposição contextualiza a contagem bruta, transformando “847 registros contêm PII” em “12,3% do seu dataset está exposto”. Use para reporting de compliance e governança contínua.

Configurando PII Detection

EntradaO que controla
Detection PatternsQuais dos 8 padrões pré-definidos ficam ativos. Escolha um preset ou alterne padrões individualmente.
Custom PatternsQualquer regex válido, validado no servidor. Adicionado junto aos padrões pré-definidos.
Per-Field OverridesConjuntos diferentes de padrões para campos diferentes. Sobrescreva a configuração global por campo.

Escolhendo padrões por tipo de campo

Campos diferentes precisam de conjuntos de padrões diferentes. Um campo Email já contém e-mails por design. Varrer esse campo com padrão de e-mail gera 100% de matches, o que é esperado, não um problema. Um Case Description é texto livre em que qualquer tipo de PII pode aparecer. Configure padrões com base no que você espera encontrar versus o que sinaliza problema.

Exemplos de configuração:

  • Campos Email: Escaneie apenas SSN e Credit Card (matches de e-mail são esperados)
  • Campos Description e Notes: Use preset Standard ou Extended (texto livre pode conter qualquer coisa)
  • Campos de texto curtos (Subject, Title): Use apenas preset Critical (baixa tolerância a falsos positivos)

Problemas comuns

ProblemaCausaCorreção
100% de match de PII em um campo EmailO padrão de e-mail casa com o conteúdo esperado do campoRemova o padrão de e-mail do override desse campo ou exclua o campo da varredura
Muitos falsos positivos em Date of BirthO padrão de DOB casa com qualquer data formato EUA (datas de reunião, prazos)Use sobrescritas por campo para aplicar o padrão de DOB apenas em campos em que datas de nascimento são um risco conhecido
Nenhum match apesar de PII conhecidoO regex de SSN só casa no formato com hifens (NNN-NN-NNNN), não em 9 dígitos consecutivosAdicione um padrão custom para o formato específico dos seus dados. Exemplo: \b\d{9}\b para SSNs sem formato (alto risco de falso positivo)

Melhores práticas

  1. Comece com o preset Standard em campos de texto livre. Rode um scan inicial para entender sua baseline antes de expandir para Extended.

  2. Use sobrescritas por campo para ajustar a detecção. Padrões globais lançam uma rede ampla. Overrides por campo eliminam ruído.

  3. Escaneie primeiro os campos de texto não estruturados. Description, Comments e Notes são onde PII se acumula via copia-cola e email-to-case. Campos estruturados (Email, Phone) contêm PII por design.

  4. Revise matches em padrões de alto FP (DOB) antes de tratá-los como PII confirmado. Esses padrões produzem mais falsos positivos que SSN ou Email.

  5. Combine Records with PII (contagem absoluta) com PII Exposure Rate (percentual) para o quadro completo. A contagem dimensiona o esforço de limpeza. A taxa diz se é problema sistêmico ou incidentes isolados.

Próximos passos