데이터 품질 차원 이해하기
데이터 품질 차원은 데이터의 신뢰성을 평가하는 기준입니다. 데이터 품질은 다섯 가지 핵심 차원에 걸쳐 측정되며, 각 차원은 데이터에 대한 특정 질문에 답하고, 함께 사용하면 데이터가 목적에 적합한지 여부를 결정합니다.
DQS는 Salesforce 내에서 기본적으로 다섯 가지 차원을 모두 측정합니다.
| 차원 | 핵심 질문 | 예시 문제 |
|---|---|---|
| 완전성 | 데이터가 존재하는가? | 이메일 주소 누락 |
| 유효성 | 형식이 올바른가? | 잘못된 형식의 전화번호 |
| 고유성 | 각 레코드가 고유한가? | 중복 Contact |
| 적시성 | 데이터가 최신 상태인가? | 오래된 Opportunity 날짜 |
| 일관성 | 데이터가 균일한가? | ”USA” vs “United States” |
1. 완전성
완전성은 필수 데이터 값이 존재하며 누락되지 않았는지를 측정합니다.
DQS가 측정하는 것
- 충족률(Fill Rate): 비어 있지 않은 값을 가진 레코드의 백분율
- 공백 감지(Blank Detection): 빈 문자열 및 공백만 있는 값
- 자리 표시자 감지(Placeholder Detection): “N/A”, “TBD”, “Unknown”과 같은 값
완전성이 중요한 이유
불완전한 데이터는 자동화를 방해합니다. 존재하지 않는 이메일 주소가 필요한 워크플로는 실패합니다. Industry 값으로 필터링하는 보고서가 있지만 레코드의 절반에 Industry 값이 없다면, 분석은 일부만 보여줍니다.
일반적인 완전성 문제
| 문제 | 예시 | 영향 |
|---|---|---|
| 빈 필드 | 비어 있는 Contact Phone | 잠재 고객에게 전화할 수 없음 |
| 자리 표시자 값 | Company Name에 “TBD” | 보고에 유효하지 않음 |
| 공백만 있는 값 | Description에 ” “ | 채워진 것처럼 보이지만 아님 |
팁: 가장 중요한 필드부터 시작하십시오. 모든 필드에서 100% 완전성이 필요한 것은 아니며, 사용 사례에 중요한 필드에서만 필요합니다.
2. 유효성
유효성은 데이터 값이 예상 형식과 패턴에 부합하는지를 측정합니다.
DQS가 측정하는 것
- 형식 유효성 검사(Format Validation): 이메일, 전화번호, URL 패턴
- 패턴 매칭(Pattern Matching): 사용자 정의 정규식 패턴
- 도메인 유효성 검사(Domain Validation): 허용된 값 목록
유효성 vs 정확성
유효성과 정확성은 다릅니다. 이메일 주소는 유효할 수 있지만(올바른 형식) 부정확할 수 있습니다(잘못된 사람). DQS는 형식 유효성 검사를 자동화할 수 있기 때문에 유효성을 측정합니다. 정확성은 외부 검증이 필요합니다.
| 검사 | 유효? | 정확? |
|---|---|---|
| john@company.com | 예 | 검증 없이는 알 수 없음 |
| john@company | 아니오 | 해당 없음 (형식이 잘못됨) |
| john.smith@oldcompany.com | 예 | 아니오 (회사를 떠난 사람) |
Salesforce에서 일반적인 유효성 문제
- ”@” 또는 도메인이 없는 이메일 주소
- 자릿수가 틀린 전화번호
- 프로토콜(http/https)이 없는 URL
- 선택 목록 값이 예상되는 곳에 자유 텍스트 입력
3. 고유성
고유성은 데이터 값이 고유하고 중복되지 않았는지를 측정합니다.
DQS가 측정하는 것
- 중복 감지(Duplicate Detection): 레코드 간 정확한 일치
- 고유값 개수(Distinct Count): 필드당 총 고유 값
- 엔트로피 분석(Entropy Analysis): 값의 다양성 및 분포
중복의 비용
중복 레코드는 스토리지를 낭비하고, 사용자를 혼란스럽게 하며, 부풀린 메트릭을 만들어냅니다. 영업 팀에 같은 회사에 대한 레코드가 두 개 있으면 맥락을 잃고 당혹스러운 중복 연락을 할 위험이 있습니다.
연구에 따르면 다음과 같습니다.
- B2B 데이터베이스에는 평균적으로 10~30%의 중복 레코드가 포함됩니다.
- 각 중복은 낭비된 이메일 발송, 혼란스러운 보고, 분산된 고객 이력으로 인해 조직에 비용을 초래합니다.
중복 예방 vs 감지
DQS는 이미 존재하는 중복을 파악하는 데 도움이 되는 감지에 집중합니다. 예방(생성 시 중복 방지)은 Salesforce 설정의 유효성 검사 규칙 및 매칭 규칙이 필요합니다.
4. 적시성
적시성은 데이터가 의도된 용도에 충분히 최신 상태인지를 측정합니다.
DQS가 측정하는 것
- 신선도 비율(Freshness Rate): 허용 가능한 기간 내의 레코드 백분율
- 낡음 감지(Staleness Detection): 임계값을 초과한 레코드
- 평균 나이(Average Age): 날짜 필드 값의 평균 나이
- 미래 날짜 감지(Future Date Detection): 미래의 유효하지 않은 날짜
신선도 임계값 설정
데이터 유형에 따라 신선도 요구 사항이 다릅니다.
| 데이터 유형 | 일반적인 임계값 | 이유 |
|---|---|---|
| Lead 마지막 활동 | 30일 | 차가운 리드는 가치를 잃음 |
| 연락처 정보 | 90일 | 사람들이 직장을 바꿈 |
| Opportunity 마감일 | 현재 분기 | 예측 정확도 |
| Account 연간 수익 | 1년 | 연간 업데이트 예상 |
적시성이 AI에 중요한 이유
AI 및 ML 모델은 데이터에서 학습합니다. 데이터가 오래되면 AI는 시대에 뒤떨어진 패턴을 학습합니다. 예를 들어, Agentforce는 Salesforce 데이터를 사용하여 응답을 알립니다. 오래된 연락처 정보는 잘못된 권고로 이어집니다.
5. 일관성
일관성은 데이터 값이 균일하고 표준화되어 있는지를 측정합니다.
DQS가 측정하는 것
- 적합률(Conformance Rate): 예상 패턴과 일치하는 백분율
- 변형 감지(Variant Detection): 동일한 값의 다른 표현
- 지배적 값 분석(Dominant Value Analysis): 필드당 가장 일반적인 값
불일치의 유형
| 유형 | 예시 | 문제 |
|---|---|---|
| 형식 변형 | ”USA” vs “United States” vs “US” | 필터링 및 그룹화를 방해함 |
| 철자 변형 | ”Acme Corp” vs “ACME Corporation” | 가짜 중복을 만들어냄 |
| 대소문자 변형 | ”new york” vs “New York” | 보고서에서 비전문적으로 보임 |
일관성이 AI에 중요한 이유
AI 모델은 “USA”와 “United States”를 다른 값으로 취급합니다. 레코드에 두 가지가 모두 사용된다면 AI는 이를 올바르게 그룹화할 수 없습니다. 불일치한 데이터는 AI의 이해를 분산시키고 신뢰할 수 없는 결과를 만들어냅니다.
일관성 달성
- 가능한 경우 자유 텍스트 대신 선택 목록 사용
- 각 필드에 대해 단일 형식으로 표준화
- DQS 일관성 검사를 구성할 때 선택 목록 값에서 가져오기
차원 간 균형 잡기
모든 사용 사례에서 모든 차원이 똑같이 중요한 것은 아닙니다. 필요한 것을 고려하십시오.
| 사용 사례 | 우선순위 차원 |
|---|---|
| 마케팅 캠페인 | 완전성, 유효성 (전달 가능성을 위해) |
| 영업 예측 | 적시성, 완전성 |
| 고객 서비스 | 고유성 (단일 진실 원천) |
| AI/Agentforce | 다섯 가지 모두, 그리고 AI 준비 검사 |
DQS 차원 적용 범위
DQS는 포괄적인 기능으로 다섯 가지 차원을 모두 측정합니다.
| 차원 | DQS가 측정하는 것 |
|---|---|
| 완전성 | 충족률, 널 감지, 공백 감지, 자리 표시자 감지, 맥락적 로직 |
| 유효성 | 형식 유효성 검사, 사용자 정의 정규식 패턴, 유효하지 않은 레코드 식별 |
| 고유성 | 중복 감지, 엔트로피 분석, 빈도 분포 |
| 적시성 | 신선도 비율, 낡음 감지, 평균 나이, 미래 날짜 감지 |
| 일관성 | 적합성 검사, 변형 발견, 지배적 값 분석 |
다음 단계
이제 다섯 가지 차원을 이해했으므로:
- AI 준비 평가를 통해 현재 점수를 확인하십시오.
- 기본 데이터 품질을 넘어선 추가 검사를 위해 Agentforce 준비에 대해 읽어보십시오.
- Definition Builder를 사용하여 첫 번째 스캔을 구성하는 방법을 알아보십시오.