고유성 | DQS Resources

고유성이란 무엇인가?

고유성은 데이터 값이 고유하고 중복되지 않았는지를 측정합니다. 필드는 각 레코드에 서로 다른 값이 포함되어 있을 때 높은 고유성을 가집니다. 동일한 값이 여러 레코드에 나타나거나 텍스트 필드에 분석적 가치를 더하지 않는 반복적인 템플릿 내용이 있을 때 고유성이 떨어집니다.

중복 레코드는 조직의 모든 단계에서 비용을 초래합니다. 동일 회사에 대한 세 개의 Account 레코드가 파이프라인을 분산시킵니다. 동일 사람에 대한 두 개의 Contact 레코드가 두 개의 마케팅 이메일을 받습니다. 수천 개의 Case 설명에 붙여넣기 된 상용구 텍스트는 인사이트 추출을 불가능하게 합니다. 고유성 분석은 이러한 모든 문제를 정량화합니다.

고유성 비율 = (고유한 값을 가진 레코드 / 전체 레코드) x 100

10,000개의 Contact 레코드 중 7,800개가 고유한 Email 값을 가진다면, Email 고유성 비율은 78%입니다. 나머지 22%는 최소 하나 이상의 다른 레코드와 이메일 주소를 공유합니다. 이 단일 메트릭은 고유한 값이 예상되는 필드에 실제로 고유한 값이 있는지를 알려줍니다.

고유성이 중요한 이유

보고

중복 레코드는 숫자를 부풀립니다. 동일 회사가 세 개의 Account로 나타나면, Account 수는 두 개가 과대 계산됩니다. 파이프라인 보고서는 하나의 거래가 있는 곳에 세 개의 거래를 보여줍니다. 이사회 발표 및 투자자 보고에 사용되는 고객 수가 잘못됩니다.

자동화

Salesforce 자동화는 각 레코드를 독립적으로 처리합니다. 중복 Account는 중복 워크플로를 트리거하고, 중복 알림을 보내며, 중복 Task를 생성합니다. 회사 이름과 일치하는 모든 Account에 실행되는 갱신 프로세스가 한 번 대신 세 번 트리거됩니다.

AI 및 Agentforce

AI 모델은 각 레코드를 별도의 개체로 처리합니다. 중복 레코드는 고객에 대한 모델의 시각을 분산시킵니다. Agentforce는 Salesforce 데이터를 사용하여 응답을 생성합니다. 동일 회사에 대한 세 개의 Account 레코드가 있으면 Agentforce는 완전한 이력을 가진 하나가 아닌 세 명의 고객을 봅니다. 텍스트 필드의 반복적인 상용구 내용은 비즈니스 패턴이 아닌 템플릿을 모델에 가르칩니다.

시스템	고유성 영향
보고서	부풀려진 개수, 분산된 메트릭
워크플로	중복 트리거, 중복 알림
중복 규칙	감지되지 않으면 기존 중복에 압도됨
Agentforce	분산된 고객 시각, 템플릿으로 오염된 학습

DQS가 고유성을 측정하는 방법

DQS는 진단적 질문을 중심으로 구성된 6가지 고유성 메트릭을 제공합니다. “데이터가 고유한가, 어떻게 분포되어 있는가, 그리고 텍스트 내용이 독창적인가?”

이 메트릭들을 진단 흐름으로 생각하십시오. 각 레이어는 이전 것을 기반으로 합니다.

레이어 1: 값이 고유한가?

**고유성 비율(Uniqueness Rate)**은 핵심 메트릭입니다. 필드 값이 고유한(데이터셋의 어디에도 중복되지 않은) 레코드의 백분율을 계산합니다. 이것이 대시보드에 표시하는 숫자입니다.

Contact 오브젝트에 대한 스캔을 실행합니다. Email 필드가 78%의 고유성 비율을 보여줍니다. 이는 이메일 주소의 22%가 둘 이상의 Contact에 나타남을 의미합니다. 일부는 합법적입니다(info@company.com과 같은 공유 부서 이메일). 대부분은 병합이 필요한 중복 연락처일 가능성이 높습니다. 이 단일 숫자가 중복 제거 이니셔티브를 정당화합니다.

**고유값 개수(Distinct Count)**는 필드의 카디널리티를 알려줍니다. 실제로 존재하는 서로 다른 값의 수입니다. 10,000개의 Contact 레코드에 8,200개의 고유한 이메일 주소가 있다면, 고유값 개수는 8,200입니다.

예시: Lead_Source 선택 목록에 약 12개의 값이 있어야 합니다(구성된 선택 목록 옵션). 하지만 고유값 개수는 87을 보여줍니다. 선택 목록이 제한되기 전에 담당자들이 자유 텍스트 값을 입력했습니다. “Web”, “web”, “Website”, “Webinar”, “web form”은 모두 고유한 것으로 계산됩니다. 이 메트릭은 선택 목록이 현재 잠겨 있더라도 Lead Source 데이터에 정규화가 필요함을 드러냅니다.

레이어 2: 데이터가 어떻게 분포되어 있는가?

고유성 비율은 얼마나 많은 값이 고유한지를 알려줍니다. 분포 메트릭은 그 값들이 레코드에 걸쳐 어떻게 분산되어 있는지를 알려줍니다. 두 필드가 동일한 고유성 비율을 가지면서도 매우 다른 분포를 가질 수 있습니다.

**엔트로피(Entropy)**는 Shannon 엔트로피를 사용하여 값이 얼마나 균등하게 분포되어 있는지를 측정합니다. 범위는 0(모든 레코드가 정확히 동일한 값을 가짐)에서 고유값 수에 의해 결정되는 최대값까지입니다. 더 높은 엔트로피는 더 다양하고 더 균등하게 분산된 데이터를 의미합니다.

엔트로피 단독으로는 의미가 없습니다. 해당 필드의 최대 가능 엔트로피와 비교하십시오. 최대 = log2(고유값 개수)이며, 이는 모든 고유값이 정확히 동일한 횟수만큼 나타날 때 얻는 엔트로피입니다. 비율(실제 / 최대)은 0에서 1까지의 정규화된 점수를 제공합니다.

정규화 (실제 / 최대)	해석
0.9 이상	균등한 분포: 값이 균일하게 분산됨
0.7 ~ 0.9	중간 정도의 편중: 일부 값이 다른 것보다 더 많이 나타남
0.7 미만	지배적: 소수의 값이 대부분의 레코드를 차지함

예시: Account의 Industry 필드가 2%의 고유성 비율(선택 목록에서 예상됨)과 24개의 고유값을 가집니다. 괜찮아 보입니다. 하지만 엔트로피는 1.3이고, 24개 값의 최대 엔트로피는 4.6입니다. 정규화된 점수는 0.28입니다. 분포가 심각하게 편중되어 있습니다. 레코드의 60%가 “Technology” 및 “Financial Services”에 속합니다. 산업 기반 세분화는 24개 카테고리로 포장된 2-버킷 시스템입니다.

**최대 빈도(Max Frequency)**는 단일 가장 일반적인 값의 발생 횟수를 제공합니다. City 필드에 “London”이 8,400번 나타나면, 최대 빈도는 8,400입니다.

단일 지배적 값은 종종 기본값 문제, 마이그레이션 아티팩트, 또는 조사가 필요한 진정한 비즈니스 집중도를 나타냅니다. 최대 빈도가 질문을 제기합니다. 실제 값을 빠르게 확인하면 답을 얻을 수 있습니다.

예시: Billing_Country 필드가 40,000개의 레코드 중 34,000의 최대 빈도를 가집니다. 레코드의 85%가 하나의 국가를 가집니다. 비즈니스가 진정으로 하나의 시장에 집중되어 있거나, 마이그레이션 중에 기본값이 설정되었을 수 있습니다. 메트릭이 패턴을 표면화합니다. 원인은 사용자가 결정합니다.

레이어 3: 텍스트 내용이 독창적인가?

처음 두 레이어는 값이 동일한지를 측정합니다. 레이어 3은 다른 질문을 합니다. 텍스트 내용이 실질적으로 유사한가? 두 Case 설명이 100% 고유(다른 Case 번호, 날짜)하면서도 90% 상용구(동일한 템플릿, 동일한 문구)일 수 있습니다.

**상용구 비율(Boilerplate Rate)**은 텍스트 내용 독창성의 핵심 메트릭입니다. 반복적이거나 템플릿화된 내용의 백분율을 측정합니다. 더 높은 점수는 상용구가 적고 더 독창적인 내용을 의미합니다. DQS는 이메일 서명, 법적 면책 조항, 반복된 문구와 같은 일반적인 템플릿을 감지합니다.

예시: 조직이 Opportunity의 Description 필드가 AI 기반 승/패 분석에 적합한지 평가하고 있습니다. 고유성 비율은 99%(모든 설명이 기술적으로 다름). 하지만 상용구 비율에 따르면 내용의 65%가 동일한 템플릿을 따릅니다. “Customer: [이름]. Need: [제품]. Timeline: [날짜].” AI 모델은 승리 패턴이 아닌 템플릿 구조를 학습할 것입니다. 상용구 비율이 쓰레기 입력, 쓰레기 출력 AI 프로젝트로부터 여러분을 보호합니다.

**상용구 레코드 개수(Boilerplate Records Count)**는 절대 숫자로 정리 범위를 제공합니다. 12,400개의 레코드가 상용구를 포함한다면, 데이터 관리자는 해결 프로젝트의 규모를 알고 시간을 추정하고, 자원을 배정하고, 현실적인 일정을 설정할 수 있습니다.

예시: 지원 팀이 모든 상호작용을 Case Comments에 기록합니다. 상용구 레코드 개수는 12,400을 보여줍니다. 조사 결과 상담원들이 모든 케이스에 표준 시작(“지원에 연락해 주셔서 감사합니다. 케이스 번호는…”) 및 종료(“더 문의사항이 있으시면 언제든지 연락하십시오…”)를 붙여넣는 것으로 나타났습니다. AI를 사용하여 지원 상호작용을 분석하기 전에 해당 12,400개의 레코드에서 상용구를 제거해야 합니다.

분석의 세 가지 관점

고유성 메트릭은 서로 다른 이해관계자를 위해 세 가지 별개의 관심사를 다룹니다.

관심사	메트릭	질문	이해관계자
중복	고유성 비율, 고유값 개수	반복된 값이 있는가?	데이터 관리자 (병합 후보, 중복 제거 규칙)
분포	엔트로피, 최대 빈도	값이 어떻게 분산되어 있는가?	분석가 및 데이터 과학자 (세분화, 모델링)
독창성	상용구 비율, 상용구 레코드 개수	텍스트 내용이 진정으로 독창적인가?	AI 팀 (훈련 데이터 품질, 내용 추출)

메트릭 참조

기본 메트릭

이 2가지 메트릭은 모든 고유성 분석의 기반을 형성합니다. 지원되는 15가지 모든 필드 유형에서 작동합니다.

메트릭	유형	측정 내용
고유성 비율	백분율	중복되지 않은 값을 가진 레코드의 비율
고유값 개수	개수	필드의 총 고유값 수

고급 메트릭

이 4가지 메트릭은 “값이 고유한가?”를 넘어 분포 패턴과 텍스트 독창성을 분석합니다. 고급 고유성 분석 모드가 필요합니다.

메트릭	유형	측정 내용
엔트로피	소수	값이 얼마나 균등하게 분포되어 있는지 (Shannon 엔트로피)
최대 빈도	개수	단일 가장 일반적인 값의 발생 횟수
상용구 비율	백분율	템플릿화되거나 반복적인 내용의 정도
상용구 레코드 개수	개수	상용구 내용이 있는 레코드 수

필드 유형 적용 범위

측정하는 내용에 따라 다른 메트릭이 다른 필드 유형에 적용됩니다.

적용 범위 그룹	필드 유형	사용 가능한 메트릭
모든 유형 (15)	String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox	고유성 비율, 고유값 개수
분석 유형 (9)	String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL	엔트로피, 최대 빈도
텍스트 필드 (3)	String, TextArea, Html	상용구 레코드 개수
긴 텍스트 필드 (3)	TextArea, LongTextArea, Html	상용구 비율

핵심 메트릭은 모든 필드에 중복이 있을 수 있기 때문에 15가지 모든 필드 유형에서 작동합니다. 분포 메트릭(엔트로피, 최대 빈도)은 집계 가능한 빈도 표를 생성하는 9가지 필드 유형에서 작동합니다. 상용구 메트릭은 자유 텍스트 데이터에서 반복된 내용 패턴을 감지하기 때문에 텍스트 필드에만 적용됩니다.

두 가지 분석 모드

DQS는 두 가지 고유성 분석 모드를 제공합니다.

**기본 고유성(Basic Uniqueness)**은 “값이 고유한가?”라는 질문에 답합니다. 2가지 기본 메트릭을 생성하며 빠른 중복 감지 검사 또는 기준선 감사에 필요한 필수 사항을 다룹니다.

**고급 고유성 분석(Advanced Uniqueness Analysis)**은 더 깊이 파고듭니다. 분포 분석, 빈도 패턴, 상용구 감지를 포함한 6가지 메트릭을 모두 생성합니다. 단순한 중복 비율이 아닌 데이터 분포 및 텍스트 독창성의 전체 그림을 이해해야 할 때 이 모드를 사용하십시오.

비즈니스 요구	권장 모드
빠른 중복 감지 감사	기본 고유성
데이터 마이그레이션 평가	고급 (최대 빈도가 기본값을 포착, 엔트로피가 편중을 드러냄)
선택 목록 위생 검사	고급 (엔트로피 + 최대 빈도가 편중 및 정규화 필요성을 드러냄)
AI 훈련 데이터 평가	고급 (상용구 메트릭이 내용 독창성을 평가)
지속적인 데이터 거버넌스	기본 고유성으로 시작하고, 더 깊은 분석을 위해 고급으로 이동

고유성 구성

DQS는 고유성을 위한 2가지 구성 입력을 제공합니다. 각각은 전역 수준(모든 필드에 적용)에서 설정할 수 있으며 개별 필드 수준에서 재정의할 수 있습니다.

설정	제어 내용
대소문자 구분(Case Sensitive)	값 비교가 대소문자를 고려하는지 여부를 제어합니다. 비활성화(기본값)하면 “Apple”과 “apple”이 동일한 값으로 계산됩니다. 활성화하면 두 개의 고유한 값으로 계산됩니다.
공백 포함(Include Blanks)	널 및 공백 레코드가 고유성 계산에 포함되는지를 제어합니다. 비활성화(기본값)하면 공백이 평가에서 제외됩니다. 활성화하면 모든 공백 레코드가 하나의 “공백” 값을 공유하므로, 빈 레코드가 많은 필드에서 고유성 비율을 낮출 수 있습니다.

팁: 대부분의 필드에서 대소문자 구분을 비활성화(기본값)하십시오. “ABC-100”과 “abc-100”이 진정으로 다른 항목인 제품 코드와 같이 대소문자가 의미를 가질 때만 활성화하십시오.

공백 포함을 활성화해야 하는 경우

기본적으로 DQS는 고유성 계산에서 공백 및 널 레코드를 제외합니다. 이는 공백이 예상되는 선택적 필드에 대해 합리적입니다.

공백 자체가 측정하고자 하는 문제일 때 공백 포함을 활성화하십시오. 3,000개의 Contact 레코드에 Email 값이 없으면, 고유성 계산에서 해당 3,000개의 공백이 하나의 “공백” 값을 공유합니다. 이는 고유성 비율을 낮추고 공백 문제를 핵심 메트릭에서 볼 수 있게 합니다.

예시: 공백 포함이 비활성화된 상태에서 Contact의 Phone을 스캔합니다. 고유성 비율은 91%입니다. 공백 포함을 활성화하고 다시 스캔합니다. 고유성 비율이 72%로 떨어집니다. 차이는 Contact 레코드의 상당 부분이 공통된 특성을 공유한다는 것을 보여줍니다. 전화번호가 없습니다. 공백이 제외되었을 때 필드가 건강해 보였지만 전체 그림은 다른 이야기를 합니다.

일반적인 고유성 문제

대량 가져오기에서 발생하는 중복 레코드

데이터 마이그레이션과 목록 가져오기는 매칭 로직이 불충분할 때 중복을 도입합니다. 구매한 연락처 목록이 이미 존재하는 사람들을 위한 새 레코드를 생성합니다. 레거시 시스템 내보내기가 현재 데이터와 겹치는 Account를 생성합니다.

해결책: 로드하기 전에 가져오기를 감사하십시오. 각 가져오기 전후에 주요 식별자 필드(Email, Phone, Website)에서 DQS를 사용하여 고유성 기준선을 설정하십시오.

데이터로 위장한 기본값

통합과 마이그레이션은 종종 필드에 기본값을 씁니다. “Unknown”, “N/A”, 또는 회사 자체 이름이 수천 개의 레코드에 나타납니다. 이는 중복 개수를 부풀리고 분포 메트릭을 왜곡합니다.

해결책: 고급 고유성 분석을 실행하십시오. 최대 빈도가 지배적 값을 드러냅니다. 하나의 값이 레코드의 85%에 나타나면, 실제 데이터인지 아니면 기본값인지 조사하십시오.

거버넌스 없는 자유 텍스트 필드

선택 목록 제약이 없는 텍스트 필드는 시간이 지남에 따라 변형을 축적합니다. Contact의 Job_Title 필드가 동일한 역할을 15가지 다른 방식으로 저장합니다. 고유값 개수가 높아지는 반면 실제 비즈니스 개념 집합은 작습니다.

해결책: 표준화할 계획인 텍스트 필드에 고급 고유성 분석을 실행하십시오. 정규화 노력을 범위 지정하기 위해 고유값 개수와 엔트로피를 사용하십시오. 높은 가치의 자유 텍스트 필드를 선택 목록으로 변환하십시오.

상용구로 오염된 텍스트 필드

지원 상담원들이 모든 케이스에 표준 시작 및 종료를 붙여넣습니다. 영업 담당자들이 Opportunity 설명 템플릿을 복사합니다. 필드는 기술적으로는 “고유”하지만(다른 케이스 번호, 날짜), 내용은 90%가 동일합니다.

해결책: 텍스트 필드에 상용구 감지를 사용하여 고급 고유성 분석을 실행하십시오. 상용구 비율이 템플릿 오염의 정도를 드러냅니다. AI 훈련이나 분석에 이 필드들을 사용하기 전에 이 문제를 해결하십시오.

중복처럼 보이는 공유 식별자

부서 이메일(info@company.com), 공유 전화번호, 회사 전체 팩스 번호는 합법적인 중복 값을 생성합니다. 낮은 고유성 비율이 모두 문제를 의미하는 것은 아닙니다.

해결책: 맥락 속에서 고유성을 평가하십시오. 78%의 고유성 비율을 가진 Email 필드는 조사가 필요합니다. 40%의 고유성 비율을 가진 Fax 필드는 예상되는 수준입니다. 필드가 나타내는 것을 기반으로 모니터링 임계값을 설정하십시오.

모범 사례

필드 유형에 따라 올바른 핵심 지표 선택

고유성 비율은 식별자 필드(Email, Phone, Account Name)에 올바른 핵심 지표입니다. 텍스트 내용 필드(Description, Notes, Comments)의 경우 전체 그림을 얻기 위해 고유성 비율과 상용구 비율을 결합하십시오. 필드는 99%의 고유성 비율을 보이면서도 65%의 상용구를 가질 수 있습니다.

세분화 필드에 분포 메트릭 사용

세분화, 필터링, 또는 보고에 사용하는 필드(Industry, Country, Lead Source)의 경우 엔트로피와 최대 빈도를 확인하십시오. 낮은 엔트로피는 “24-카테고리” 선택 목록이 실제로 2-버킷 시스템임을 드러냅니다. 최대 빈도는 세그먼트를 왜곡하는 기본값을 드러냅니다.

스캔에 걸쳐 추세 추적

단일 스캔은 현재 상태를 보여줍니다. 정기적으로 스캔을 실행하여 새로운 중복 소스를 감지하고, 중복 제거 이니셔티브의 영향을 측정하고, 반복적인 데이터를 도입하는 통합을 파악하십시오. 스캔 간에 90%에서 75%로 고유성이 떨어지는 필드는 새로운 문제 소스가 생긴 것입니다.

비즈니스 영향에 따라 우선순위 지정

모든 필드에 높은 고유성이 필요한 것은 아닙니다. 중복이 있는 Email 필드는 병합 문제를 나타냅니다. 중복이 있는 Country 필드는 정상입니다. 식별자 역할을 하거나, 중복 제거 규칙을 구동하거나, AI 모델에 공급하는 필드에 고유성 모니터링을 집중하십시오.

근본 원인 해결

낮은 고유성은 프로세스 문제를 나타냅니다. 사용자들이 기존 레코드를 확인하지 않고 레코드를 생성하고 있는지, 가져오기에 중복 제거 로직이 없는지, 또는 통합이 기본값을 쓰고 있는지 조사하십시오. 증상이 아닌 소스를 수정하십시오.

다음 단계

이제 고유성 문제를 측정하고 진단하는 방법을 이해했습니다. 다음 차원에 대한 학습을 계속하십시오.

다음: 적시성 - 데이터 신선도 및 현재성 측정
이전: 유효성 - 데이터가 예상 형식을 따르는지 확인
관련: 다섯 가지 차원 - 모든 차원 개요
실행: AI 준비 평가 - 현재 고유성 점수 확인