PII 탐지 | DQS Resources

PII 탐지란 무엇인가?

PII 탐지는 구성 가능한 정규식 패턴을 사용하여 텍스트 필드에서 개인 식별 정보를 스캔합니다. Salesforce 데이터에 대해 세 가지 질문에 답합니다.

내 데이터에 보호가 필요한 PII가 포함되어 있는가?
내 데이터셋이 얼마나 노출되어 있는가?
어떤 필드에 민감한 정보가 있는가?

DQS는 모든 텍스트 필드에 걸쳐 PII 노출의 유형과 밀도를 프로파일링합니다. 패턴 기반 탐지를 사용합니다. 정규식 패턴이 필드 값과 일치하여 SSN, 신용카드, 이메일, 전화번호 및 기타 식별자에 플래그를 지정합니다.

세 가지 속성이 탐지 작동 방식을 정의합니다.

결정론적. 동일한 입력은 항상 동일한 결과를 생성합니다.
투명한. DQS가 적용하는 모든 패턴을 볼 수 있습니다. 블랙박스 점수 없음.
플랫폼 내. 탐지는 Salesforce 내에서 완전히 실행됩니다. 데이터가 조직을 벗어나지 않습니다.

중요한 이유

컴플라이언스. GDPR, CCPA, HIPAA, PCI DSS 모두 PII의 식별 및 보호를 의무화합니다. 찾지 못한 것은 보호할 수 없습니다. 자동화된 탐지는 범위 내의 모든 텍스트 필드에 걸쳐 노출 인벤토리를 제공합니다.

AI 준비. Agentforce나 다른 AI 시스템에 데이터를 공급하기 전에 어떤 필드에 PII가 포함되어 있는지 알아야 합니다. 훈련 데이터나 검색 인덱스에서 탐지되지 않은 PII는 다운스트림 필터가 완전히 방지할 수 없는 노출을 만들어냅니다.

데이터 거버넌스. 텍스트 필드는 시간이 지남에 따라 PII를 축적합니다. 상담원들이 케이스 코멘트에 이메일 스레드를 붙여넣습니다. 고객들이 인증을 위해 SSN을 제공합니다. 통합이 설명 필드에 연락처 세부 정보를 씁니다. 탐지 없이는 이 PII가 보호되지 않은 채로 남아 있습니다.

DQS가 PII를 탐지하는 방법

DQS는 점진적 진단으로 PII 탐지를 실행합니다. 각 단계는 이전 것을 기반으로 합니다.

1단계: PII 문제가 있는가?

**PII가 있는 레코드(Records with PII)**는 최소 하나의 패턴이 일치한 레코드의 절대 개수를 제공합니다. 이것이 범위 지정 숫자입니다.

예를 들어, Standard 사전 설정을 사용하여 Case 코멘트를 스캔합니다. PII가 있는 레코드가 847을 반환합니다. 이는 847개의 케이스 레코드가 AI 훈련이나 제3자 분석에 안전하게 사용되거나 공유되기 전에 검토가 필요함을 의미합니다.

2단계: 얼마나 심각한가?

**PII 노출 비율(PII Exposure Rate)**은 패턴 일치를 포함하는 스캔된 레코드의 백분율을 제공합니다. 비율은 개수에 맥락을 제공합니다.

1,000개 중 847개의 레코드는 84.7%의 노출로, 프로세스 변경이 필요한 시스템적 문제입니다. 500,000개 중 847개는 0.17%로, 집중적인 정리로 해결할 수 있는 고립된 사건입니다.

3단계: 어떤 종류의 PII인가?

패턴 구성 자체가 어떤 유형이 스캔되었는지를 알려줍니다. 각 패턴에는 카테고리가 있습니다. Financial(금융), Contact(연락처), Technical(기술), Identity(신원). 어떤 패턴이 일치를 트리거했는지 검토함으로써 신용카드 유출, 이메일 주소 노출, 또는 SSN 오염을 다루고 있는지 알 수 있습니다.

8가지 탐지 패턴

DQS에는 4개의 카테고리로 구성된 8가지 사전 정의된 정규식 패턴이 제공됩니다.

Financial(금융)

패턴	일치하는 것	오탐 위험
주민등록번호(Social Security Number)	NNN-NN-NNNN 형식의 미국 SSN	낮음. 하이픈 형식이 독특합니다.
신용카드 번호(Credit Card Number)	선택적 공백/하이픈이 있는 13~16자리 시퀀스	중간. 긴 숫자 시퀀스(주문 번호, 추적 ID)가 오탐을 유발할 수 있음.
IBAN	국제 은행 계좌 번호 (ISO 13616 형식)	낮음. 국가 코드 + 검사 자릿수 접두사가 독특합니다.

Contact(연락처)

패턴	일치하는 것	오탐 위험
이메일 주소(Email Address)	표준 user@domain.tld 형식	낮음. @ 기호 구조가 독특합니다.
미국 전화번호(US Phone Number)	미국/캐나다 형식: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1 변형	중간. 구분 기호가 있는 10자리 숫자가 비전화 데이터와 일치할 수 있음.
국제 전화(International Phone)	국가 코드 +로 시작하는 E.164 스타일 번호	낮음. + 접두사가 강력한 신호입니다.

Technical(기술)

패턴	일치하는 것	오탐 위험
IP 주소(IP Address)	IPv4 점으로 구분된 십진수 (NNN.NNN.NNN.NNN)	낮음-중간. 소프트웨어 버전 번호가 주요 오탐 소스입니다.

Identity(신원)

패턴	일치하는 것	오탐 위험
생년월일(Date of Birth)	미국 날짜 형식 MM/DD/YYYY 또는 MM-DD-YYYY	높음. 미국 형식의 날짜와 일치합니다. 필드 수준 타겟팅과 함께 사용하는 것이 좋습니다.

DQS는 정규식 전용 패턴 매칭만 사용합니다. 탐지는 형식 기반이며 맥락적이지 않습니다. 체크섬 유효성 검사(신용카드의 Luhn, IBAN의 모듈로-97), 키워드 근접성 부스팅, ML 기반 신뢰도 점수화가 없습니다. 모든 일치는 이진법입니다. 패턴이 일치하거나 일치하지 않았거나 둘 중 하나입니다. 이는 탐지를 완전히 감사 가능하고 결정론적으로 만들지만, 높은 오탐 위험이 있는 필드에서는 일치 항목을 검토해야 합니다.

규제 적용 범위

8가지 패턴 모두 주요 개인 정보 보호 및 보안 프레임워크에 기반합니다.

패턴	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
신용카드	X	X	X	X		X
이메일	X	X	X		X	X
미국 전화		X	X		X	X
국제 전화		X	X		X	X
IP 주소		X	X		X	X
IBAN		X				X
생년월일	X	X	X		X	X

이는 Google Cloud DLP, AWS Macie, Microsoft Purview에서 기본 제공 패턴으로 탐지되는 동일한 식별자 유형들입니다. 차이점은 클라우드 DLP 도구가 다층 탐지(정규식 + 체크섬 + 키워드 근접성 + ML)를 사용한다는 것입니다. DQS는 정규식 전용 매칭을 사용하며, 이는 더 단순하고 완전히 투명하지만 신뢰도 점수화를 제공하지 않습니다.

세 가지 탐지 사전 설정

사전 설정은 한 번의 클릭으로 활성 패턴을 구성합니다.

사전 설정	패턴	수	사용 시기
Standard	SSN, 신용카드, 이메일, 미국 전화	4	일반 PII 감사. 관리 가능한 오탐 비율로 가장 일반적인 네 가지 유형을 다룹니다. 이것이 기본값입니다.
Critical	SSN, 신용카드	2	금융 컴플라이언스 검사. 신원 도용 및 결제 카드 노출을 위한 최소 스캔. 거의 오탐 없이 빠른 결과가 필요할 때 사용합니다.
Extended	8가지 패턴 모두	8	전체 스캔. IBAN, IP 주소, 생년월일, 국제 전화를 포함합니다. 최대 적용 범위를 위해 더 높은 오탐 비율. 최초 감사 및 컴플라이언스 평가에 가장 적합합니다.

사전 정의된 8가지 패턴 외에 사용자 정의 정규식 패턴을 추가할 수도 있습니다. 사용자 정의 패턴은 저장되기 전에 서버 측에서 유효성이 검사됩니다. 모든 유효한 정규식이 작동합니다.

메트릭 참조

기본 메트릭

메트릭	유형	반환하는 것
PII가 있는 레코드	개수 (정수)	최소 하나의 패턴이 일치한 레코드 수. 레코드는 몇 개의 패턴이 일치했거나 그 안에 얼마나 많은 일치가 있는지에 관계없이 한 번 계산됩니다.

고급 메트릭

메트릭	유형	반환하는 것
PII 노출 비율	백분율	PII 일치를 포함하는 스캔된 레코드의 백분율. 이것이 보고서 및 대시보드의 핵심 노출 숫자입니다.

필드 유형 적용 범위

메트릭	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
PII가 있는 레코드	X	X	X	X	X
PII 노출 비율		X				X	X

PII가 있는 레코드는 모든 텍스트 필드 유형에 걸쳐 광범위하게 캐스팅합니다. PII 노출 비율은 PII 밀도가 의미 있는 더 긴 텍스트 필드에 초점을 맞춥니다. 이메일 정규식과 일치하는 255자 String 필드는 단일 데이터 포인트입니다. 15개의 SSN 일치를 포함하는 32,000자 LongTextArea는 다른 이야기를 합니다.

두 가지 분석 모드

DQS는 두 가지 모드로 PII 탐지를 실행합니다.

**PII 스캔(PII Scan)**은 구성된 패턴을 사용하여 선택된 모든 필드를 처리하고 PII가 있는 레코드를 반환합니다. 이 모드는 “PII 문제가 있는가?”라는 질문에 답합니다. 데이터 마이그레이션이나 AI 프로젝트 전에 빠른 감사를 위해 사용하십시오.

**PII 탐지 분석(PII Detection Analysis)**은 PII가 있는 레코드 위에 PII 노출 비율을 추가합니다. 노출 비율은 원시 개수에 맥락을 제공하여 “847개의 레코드에 PII가 있습니다”를 “데이터셋의 12.3%가 노출되어 있습니다”로 변환합니다. 컴플라이언스 보고 및 지속적인 거버넌스에 이 모드를 사용하십시오.

PII 탐지 구성

입력	제어 내용
탐지 패턴	8가지 사전 정의된 패턴 중 어떤 것이 활성화되어 있는지. 사전 설정을 선택하거나 개별 패턴을 켜고 끄십시오.
사용자 정의 패턴	서버 측에서 유효성이 검사되는 모든 유효한 정규식 패턴. 사전 정의된 패턴과 함께 추가됩니다.
필드별 재정의	다른 필드에 대한 다른 패턴 세트. 필드별 기반으로 전역 구성을 재정의합니다.

필드 유형별 패턴 선택

다른 필드에는 다른 패턴 세트가 필요합니다. Email 필드는 이미 설계상 이메일 주소를 포함합니다. 이메일 패턴으로 스캔하면 100% 일치를 생성하며, 이는 예상된 것이지 문제가 아닙니다. Case Description 필드는 어떤 PII 유형도 나타날 수 있는 자유 텍스트입니다. 예상하는 것 대 문제를 나타내는 것을 기반으로 패턴을 구성하십시오.

예시 구성:

Email 필드: SSN 및 신용카드만 스캔 (이메일 일치가 예상됨)
Description 및 Notes 필드: Standard 또는 Extended 사전 설정 사용 (자유 텍스트는 무엇이든 포함할 수 있음)
짧은 텍스트 필드 (Subject, Title): Critical 사전 설정만 (오탐에 대한 낮은 허용 오차)

일반적인 문제

문제	원인	해결책
Email 필드에서 100% PII 일치 비율	이메일 패턴이 필드의 의도된 내용과 일치함	해당 필드의 재정의에서 이메일 패턴을 제거하거나, PII 스캔에서 필드를 제외
생년월일에서 높은 오탐	DOB 패턴이 미국 형식의 날짜(회의 날짜, 마감일)와 일치함	필드 수준 재정의를 사용하여 DOB 패턴을 생년월일이 알려진 위험인 필드에만 적용
알려진 PII가 있음에도 일치 항목 없음	SSN 정규식이 하이픈 형식(NNN-NN-NNNN)만 일치하며 9자리 연속 숫자는 불일치	데이터의 특정 형식에 대한 사용자 정의 패턴 추가. 예: `\b\d{9}\b` (비형식화된 SSN용, 오탐 위험 높음)

모범 사례

자유 텍스트 필드에 Standard 사전 설정으로 시작하십시오. Extended로 확장하기 전에 기준선을 이해하기 위한 초기 스캔을 실행하십시오.
필드별 재정의를 사용하여 필드당 탐지를 조정하십시오. 전역 패턴은 광범위하게 캐스팅합니다. 필드별 재정의는 노이즈를 제거합니다.
먼저 비구조적 텍스트 필드를 스캔하십시오. Description, Comments, Notes 필드는 복사-붙여넣기와 이메일-투-케이스를 통해 PII가 축적되는 곳입니다. 구조화된 필드(Email, Phone)는 설계상 PII를 포함합니다.
고오탐 패턴(DOB/생년월일)에서 일치 항목을 확인된 PII로 처리하기 전에 검토하십시오. 이 패턴들은 SSN이나 이메일보다 더 많은 오탐을 생성합니다.
PII가 있는 레코드(절대 개수)와 PII 노출 비율(백분율)을 쌍으로 사용하여 완전한 그림을 얻으십시오. 개수는 정리 노력의 범위를 지정합니다. 비율은 시스템적 문제인지 고립된 사건인지를 알려줍니다.

다음 단계

Agentforce 준비: 완전한 배포 체크리스트
Agentforce 준비: 완전한 배포 준비 가이드