완전성 | DQS Resources

완전성이란 무엇인가?

완전성은 데이터가 실제로 존재하는지를 측정합니다. 필드는 의미 있는 데이터를 포함할 때 완전하고, 널이거나 공백이거나 “N/A” 또는 “TBD”와 같은 자리 표시자로 채워져 있을 때 불완전합니다.

완전성은 가장 기본적인 데이터 품질 차원입니다. 데이터가 없으면 유효성을 검사하거나, 중복을 제거하거나, 분석할 것도 없습니다.

완전성 비율 = (데이터가 있는 레코드 / 전체 레코드) x 100

1,000개의 Contact 레코드 중 850개에 Email 값이 있다면, Email 완전성 비율은 85%입니다. 이 메트릭(충족률이라고도 함)은 모든 필드의 핵심 수치입니다.

완전성이 중요한 이유

보고

불완전한 데이터는 분석을 왜곡합니다. Account 레코드의 40%에 Industry 값이 없으면, Industry별로 그룹화된 보고서는 부분적인 사실만 보여줍니다. 대시보드가 신뢰할 수 없게 됩니다. 경영진의 결정이 전체 그림의 일부에만 근거하게 됩니다.

자동화

Salesforce 자동화는 필드 값에 의존합니다. 이메일을 발송하는 워크플로는 Email이 공백이면 실패합니다. Account Owner를 업데이트하는 프로세스는 조회가 널이면 실패합니다. 각 누락 값은 잠재적인 자동화 실패입니다.

AI 및 Agentforce

AI 모델은 데이터에서 학습합니다. 필드가 비어 있으면 모델이 학습할 것이 없습니다. Agentforce는 Salesforce 데이터를 사용하여 응답을 생성하고 작업을 수행합니다. 누락 데이터는 불완전한 맥락과 덜 유용한 AI 결과를 의미합니다.

시스템	완전성 영향
보고서	부분 데이터가 왜곡된 메트릭을 생성함
워크플로	누락 값이 프로세스 실패를 초래함
중복 규칙	불완전한 레코드는 매칭이 더 어려움
Agentforce	맥락 공백이 AI 정확도를 감소시킴

DQS가 완전성을 측정하는 방법

DQS는 진단적 질문을 중심으로 구성된 10가지 완전성 메트릭을 제공합니다. “데이터가 어디서 누락되고, 왜 누락되며, 존재하는 데이터가 실제로 유용한가?”

이 메트릭들을 진단 단계로 생각하십시오. 각 단계는 이전 단계를 기반으로 합니다.

1단계: 얼마나 완전한가?

**완전성 비율(Completeness Rate)**은 핵심 메트릭입니다. 필드에 비어 있지 않고 널이 아닌 값이 있는 레코드의 백분율을 계산합니다. 이것이 대시보드에 표시하는 숫자입니다.

Account 오브젝트에 대한 스캔을 실행합니다. Industry 필드가 62%의 완전성 비율을 보여줍니다. 이는 Account의 38%에 산업 값이 없음을 의미하며, 산업별로 필터링하는 세분화 보고서, 지역 규칙, 마케팅 캠페인이 모두 불완전한 데이터로 작동하고 있음을 의미합니다.

다른 모든 완전성 메트릭은 이 숫자가 100%가 되지 않는 이유를 설명하기 위해 존재합니다.

2단계: 규모는 어떠한가?

비율은 심각도를 알려줍니다. 개수는 작업량을 알려줍니다. **채워진 개수(Populated Count)**가 규모 질문에 답합니다. 실제로 값이 있는 레코드가 몇 개인지를 알려줍니다. 적용 범위 보고와 전체 레코드 수 대비 공백 규모 파악에 사용합니다. 전체 수와 채워진 개수의 차이가 정리 백로그입니다.

예시: 데이터 관리자가 정리 캠페인을 구축해야 합니다. 50,000개의 Contact에서 Phone의 채워진 개수가 35,800개라면, 14,200개의 레코드에 보강이 필요함을 알게 되었으며, 데이터 공급업체와의 비용을 추정하고 현실적인 일정을 설정할 수 있습니다.

3단계: 왜 불완전한가?

세 가지 메트릭이 불완전성의 원인을 분석합니다. 각각은 다른 근본 문제를 가리킵니다.

**널 개수 및 널 비율(Null Count and Null Rate)**은 필드에 진정한 데이터베이스 널이 있는 레코드를 측정합니다. 즉, 필드가 채워진 적이 없음을 의미합니다. Salesforce에서 널과 빈 문자열은 다른 상태입니다. 한 번도 건드리지 않은 필드는 널입니다. 명시적으로 지운 필드는 빈 문자열입니다. 이 구분은 데이터가 캡처된 적이 없는지 또는 의도적으로 제거되었는지를 알려줍니다.

예시: 데이터 마이그레이션 후, Account의 Fax 필드가 45% 널 비율을 보입니다. 팩스 데이터는 캡처된 후 나중에 지워진 것이 아니라 레거시 시스템에서 마이그레이션되지 않았습니다(널 = 존재한 적 없음). 높은 널 비율은 사용자 행동이 아닌 소스 시스템을 가리킵니다.

**자리 표시자 개수 및 자리 표시자 비율(Placeholder Count and Placeholder Rate)**은 “N/A”, “TBD”, “Unknown” 또는 사용자가 정의한 사용자 정의 값과 같은 알려진 자리 표시자 값을 포함하는 레코드를 측정합니다. 이러한 값들은 데이터처럼 보이지만 실제 정보를 담고 있지 않습니다.

예시: 글로벌 Account 데이터가 Industry에서 94%의 완전성 비율을 보여줍니다. 표면적으로는 좋아 보입니다. 하지만 자리 표시자 비율에 따르면 “채워진” 값의 18%가 실제로 “N/A”, “Other”, 또는 “Unknown”입니다. 실제 완전성은 76%에 더 가깝습니다. 이것이 녹색 대시보드를 빨간색으로 바꾸는 메트릭입니다.

4단계: “완전한” 데이터가 유용한가?

처음 세 단계는 누락된 것을 파악합니다. 4단계는 더 어려운 질문을 합니다. 실제로 있는 데이터가 가질 만한 가치가 있는가?

**불완전 개수(Incompleted Count)**는 누락 데이터의 가장 넓은 측정값입니다. 이는 모든 형태의 불완전성(널, 공백, 그리고 자리 표시자 값)을 결합합니다. 자리 표시자 감지가 활성화된 경우, 불완전 개수는 공백만 있는 항목과 자리 표시자 항목도 포착하므로 항상 널 개수만보다 크거나 같습니다.

예시: Opportunity의 Description 필드가 500의 널 개수를 보이지만 불완전 개수는 1,800입니다. 차이는? 1,300개의 레코드에 “TBD”, “N/A”, 또는 ”---“와 같은 설명이 있습니다. 이러한 레코드들은 기술적으로는 채워져 있지만 실질적으로는 쓸모가 없습니다. 이 메트릭이 없으면 1,800개 대신 500개의 레코드만 수정하면 된다고 생각할 것입니다.

**풍부한 텍스트 비율(Rich Text Ratio)**은 특정 문자 임계값 이상의 상당한 내용을 포함하는 텍스트 필드 레코드의 백분율을 측정합니다. 이는 의미 있는 문장이 있는 필드와 몇 가지 단어만 있는 필드를 구분합니다. Description 필드는 “좋은 고객”이든 세 단락의 계획이든 “채워진” 것으로 간주됩니다. AI 준비 측면에서 내용의 깊이는 존재만큼이나 중요합니다.

예시: 회사가 Case 설명을 요약하는 AI 도구를 평가하고 있습니다. Case의 Description 필드를 스캔합니다. 88%의 완전성 비율이지만 풍부한 텍스트 비율은 31%에 불과합니다. Case 설명의 31%만이 AI가 활용할 수 있는 충분한 내용을 가지고 있습니다. 나머지는 “콜백”, “이메일 참조”, “문제 보고됨”과 같은 항목들입니다. AI 프로젝트는 가치를 제공하기 전에 데이터 보강 단계가 필요합니다.

**텍스트 필드 활용도(Text Field Utilization)**는 텍스트 필드의 사용 가능한 문자 용량이 얼마나 사용되는지를 측정합니다. 32,000자 용량의 Long Text Area에서 평균 항목이 45자라면 활용도가 매우 낮습니다.

**평균 활용도(Average Utilization)**는 모든 레코드에 걸쳐 사용된 필드 길이의 평균 백분율을 제공합니다. 텍스트 필드 활용도와 함께, 텍스트 필드의 크기가 적절한지 완전한 그림을 제공합니다.

예시: 조직 평가 중, 텍스트 필드 활용도가 Notes__c(Long Text Area, 131,072자)가 평균 3.2%의 활용도를 보이며 대부분의 항목이 200자 미만임을 보여줍니다. 한편, Short_Description__c(Text, 255자)는 94% 활용도를 보이며 빈번한 잘림 문제가 있습니다. 스키마는 크기 조정이 필요합니다. Long Text Area는 과도하고, Text 필드는 너무 작습니다.

참고: 텍스트 필드 활용도 및 평균 활용도는 String 및 TextArea 필드에만 적용됩니다. 이러한 필드 유형들만이 측정할 수 있는 정의된 문자 용량을 가지고 있기 때문입니다.

비율과 개수가 쌍으로 제공되는 이유

대부분의 메트릭은 비율(백분율)과 개수(절대 숫자)로 제공됩니다. 이는 의도적인 설계입니다.

비율은 대시보드, 경영진 보고, 추세 추적에 사용됩니다. “완전성이 이번 분기에 72%에서 89%로 향상되었습니다.”
개수는 프로젝트 계획, 작업량 추정, 정리 범위 지정에 사용됩니다. “14,200개의 레코드를 수정해야 합니다.”

진척도를 전달하는 데는 비율을 사용하고, 작업을 계획하는 데는 개수를 사용하십시오.

메트릭 참조

기본 메트릭

이 5가지 메트릭은 모든 완전성 분석의 기반을 형성합니다. 거의 모든 필드 유형에서 작동합니다.

메트릭	유형	적용 대상
완전성 비율	백분율	모든 필드 유형
채워진 개수	개수	모든 필드 유형
불완전 개수	개수	모든 필드 유형
널 비율	백분율	모든 필드 유형
널 개수	개수	모든 필드 유형

맥락적 메트릭

이 5가지 메트릭은 “그것이 있는가?”를 넘어 “의미 있는가?”를 묻습니다. 맥락적 완전성 분석 모드가 필요합니다.

메트릭	유형	적용 대상
자리 표시자 비율	백분율	텍스트 필드만
자리 표시자 개수	개수	텍스트 필드만
풍부한 텍스트 비율	백분율	텍스트 필드만
텍스트 필드 활용도	백분율	String 및 TextArea만
평균 활용도	백분율	String 및 TextArea만

필드 유형 적용 범위

DQS는 모든 표준 Salesforce 필드 유형에 대해 완전성 검사를 지원합니다.

적용 범위 그룹	필드 유형	사용 가능한 메트릭
모든 유형 (20)	String, TextArea, LongTextArea, Html, EncryptedText, Picklist, Multipicklist, Email, Phone, URL, Reference (Lookup), Date, DateTime, Double, Integer, Currency, Percent, Boolean, Combobox, Id	완전성 비율, 채워진/불완전 개수, 널 비율/개수
텍스트 필드 (8)	Text, TextArea, LongTextArea, Html, EncryptedText, Email, Phone, URL	위 + 자리 표시자 비율/개수, 풍부한 텍스트 비율
String 및 TextArea (2)	String, TextArea	위 + 텍스트 필드 활용도, 평균 활용도

두 가지 분석 모드

DQS는 두 가지 완전성 분석 모드를 제공합니다.

**기본 완전성(Basic Completeness)**은 “필드가 채워져 있는가?”라는 질문에 답합니다. 5가지 기본 메트릭을 생성하며 모든 조직이 데이터 위생 검사 또는 빠른 감사에 필요한 필수 사항을 다룹니다.

**맥락적 완전성(Contextual Completeness)**은 더 깊이 파고듭니다. 자리 표시자 감지, 풍부한 텍스트 분석, 필드 활용도를 포함한 10가지 메트릭을 모두 생성합니다. 존재하는 데이터와 유용한 데이터를 구분해야 할 때 이 모드를 사용하십시오.

비즈니스 요구	권장 모드
빠른 위생 검사 또는 기준선 감사	기본 완전성
데이터 마이그레이션 평가	맥락적 (자리 표시자 감지가 레거시 시스템의 가짜 데이터를 포착)
AI 준비 평가	맥락적 (풍부한 텍스트 비율 및 활용도 메트릭이 내용 깊이를 평가)
지속적인 데이터 거버넌스	기본 완전성으로 시작하고, 더 깊은 분석이 필요할 때 맥락적으로 이동

완전성 구성

DQS는 완전성을 위한 네 가지 구성 입력을 제공합니다. 각각은 전역 수준(모든 필드에 적용)에서 설정할 수 있으며 개별 필드 수준에서 재정의할 수 있습니다.

설정	제어 내용
공백을 불완전으로(Blank As Incomplete)	활성화하면 DQS가 빈 문자열과 공백만 있는 값을 불완전으로 취급합니다. 기본값: 활성화.
자리 표시자를 불완전으로(Placeholders As Incomplete)	활성화하면 DQS가 자리 표시자 값(“N/A” 또는 “TBD”와 같은)을 불완전으로 취급합니다. 기본값: 비활성화.
자리 표시자 값(Placeholder Values)	DQS가 자리 표시자로 취급하는 문자열 목록. 조직의 데이터 입력 패턴을 기반으로 정의합니다(예: N/A, TBD, Unknown, —, 000-000-0000).
대소문자 구분 자리 표시자(Case-Sensitive Placeholders)	자리 표시자 매칭이 대소문자를 구분하는지 여부를 제어합니다. 활성화하면 “tbd”와 “TBD”가 다른 값으로 처리됩니다. 기본값: 대소문자 구분.

팁: 일반적인 자리 표시자(“N/A”, “TBD”, “Unknown”, ”—“)로 시작하고, 스캔 결과에서 발견되는 조직별 값을 추가하십시오.

일반적인 완전성 문제

선택적 필드가 채워지지 않음

필드가 선택 사항이면 사용자들이 건너뜁니다. 시간이 지남에 따라 회사 설명이나 LinkedIn URL과 같은 귀중한 필드들의 완전성 비율이 거의 0에 가까워집니다.

해결책: 중요한 필드를 필수로 만들거나 레코드 편집 중에 프롬프트를 만드십시오.

공백이 있는 대량 가져오기

데이터 마이그레이션과 목록 가져오기는 특정 필드의 값이 없는 경우가 많습니다. 구매한 연락처 목록에는 Account 연결이 없습니다. 레거시 시스템 내보내기에는 표준화된 Industry 값이 없습니다.

해결책: 로드하기 전에 가져오기를 감사하십시오. DQS를 사용하여 기준선을 설정하고 각 가져오기 후 개선을 추적하십시오.

자리 표시자 남용

사용자들이 유효성 검사 규칙을 통과하기 위해 “N/A” 또는 “TBD”를 입력합니다. 필드는 완전해 보이지만 사용 가능한 데이터를 포함하지 않습니다. 표준 보고서는 이를 채워진 것으로 계산합니다.

해결책: 자리 표시자 감지를 활성화하고 자리 표시자 값 목록을 정의하십시오. 정기적인 데이터 유지 관리 중에 자리 표시자 값을 검토하고 업데이트하십시오.

공백 패딩

일부 통합이나 수동 입력이 공백만 있는 필드를 남깁니다. Salesforce는 이를 “채워진” 것으로 계산하지만 유용한 내용이 없습니다.

해결책: 공백만 있는 값을 포착하기 위해 공백 감지를 활성화하십시오.

모범 사례

비즈니스 영향에 따라 우선순위 지정

모든 필드에 높은 완전성이 필요한 것은 아닙니다. 자동화를 구동하고, 경영진 대시보드에 표시되고, AI 및 Agentforce에 공급되거나, 컴플라이언스 요구 사항을 지원하는 필드에 집중하십시오.

시간에 따른 추세 추적

단일 완전성 점수는 스냅샷입니다. 여러 스캔에 걸쳐 점수를 추적하여 초기에 저하를 감지하고, 개선 이니셔티브를 측정하고, 문제 있는 데이터 소스를 파악하십시오.

근본 원인 해결

낮은 완전성은 프로세스 문제를 나타냅니다. 사용자가 필드를 건너뛰고 있는지, 가져오기에 데이터가 누락되고 있는지, 또는 통합이 조용히 실패하고 있는지 조사하십시오. 증상이 아닌 소스를 수정하십시오.

진단 단계 사용

완전성 비율에서 멈추지 마십시오. 단계를 따라 진행하십시오. 규모를 확인하고(채워진 개수), 원인을 파악하고(널 vs 자리 표시자), 그런 다음 내용 품질을 평가하십시오(풍부한 텍스트 비율, 활용도). 각 단계는 서로 다른 수정이 필요한 다른 유형의 문제를 드러냅니다.

다음 단계

이제 완전성을 측정하고 개선하는 방법을 이해했습니다. 다음 차원에 대한 학습을 계속하십시오.

다음: 유효성 - 데이터가 예상 형식에 부합하는지 확인
관련: 다섯 가지 차원 - 모든 차원 개요
실행: AI 준비 평가 - 현재 완전성 점수 확인