이 시나리오가 다루는 내용
이 페이지는 초기 설정부터 스캔 결과 읽기까지 세 가지 실제 일관성 구성을 안내합니다. 각 시나리오는 다른 비즈니스 맥락과 분석 모드를 사용합니다.
이 시나리오는 주요 일관성 문서에서 다루는 개념과 메트릭을 기반으로 합니다. 적합률, 변형 수, 지배적 값이 새로운 경우 먼저 그것을 읽으십시오.
시나리오 1: 발견을 통한 Country 필드 표준화
비즈니스 맥락
조직에 3개의 합병된 회사로부터 15,000개의 Account 레코드가 있습니다. Country 필드는 자유 텍스트입니다. 지역 대시보드는 단편화된 데이터를 보여줍니다: “United States”가 한 행으로, “USA”가 다른 행으로, “US”가 세 번째로 나타납니다. 영역 배정 규칙은 단일 철자를 필터링하기 때문에 레코드를 놓칩니다. 표준화가 필요하지만 세 가지 레거시 시스템 전반에 어떤 값이 있는지 알지 못합니다.
구성 워크스루
허용 값을 정의하기 전에 데이터에 실제로 무엇이 포함되어 있는지 확인하기 위해 필드에서 가져오기로 시작하십시오.
Country필드에 대한 예상 값 구성을 여십시오.- 필드에서 가져오기를 클릭하십시오. DQS가 라이브 데이터를 쿼리하고 빈도별로 정렬된 별개 값을 반환합니다.
- 체크리스트를 검토하십시오. 가져오기가 전체 그림을 보여줍니다:
| 값 | 레코드 |
|---|---|
| United States | 4,500 |
| USA | 2,300 |
| US | 1,800 |
| Canada | 1,400 |
| U.S.A. | 450 |
| United States of America | 150 |
| … (41개 이상의 변형) | … |
- 기준을 결정하십시오. ISO 국가 코드 (“US”, “CA”, “UK”)는 컴팩트하고 업계 표준이며 명확합니다. 가져오기 목록에서 ISO 코드를 확인하십시오.
- 선택된 항목 추가를 클릭하여 허용 값을 채우십시오.
나머지 구성 설정:
| 설정 | 값 | 근거 |
|---|---|---|
| 분석 모드 | 고급 적합성 분석 | 정리 범위를 결정하기 위해 변형 수와 지배적 값이 필요 |
| 예상 값 | US, CA, UK, DE, FR, AU, JP | 활성 시장의 ISO 코드 |
| 대소문자 구분 | 끄기 | ”us”, “Us”, “US”를 같은 값으로 포착 |
| 상위 N | 10 | 가장 일반적인 변형 확인 |
| 최소 빈도 | 5 | 일회성 오타 필터링 |
스캔 결과
| 메트릭 | 값 |
|---|---|
| 적합률 | 12% |
| 적합 수 | 1,800 |
| 비적합 수 | 13,200 |
| 변형 수 | 47 |
| 지배적 값 | 수가 있는 상위 10개 값 (위 가져오기 표 참조) |
결과 읽기
12% 적합성은 예상됩니다. 데이터가 한 번도 정규화된 적 없는 새로운 기준 (ISO 코드)을 정의했습니다. “US”를 이미 포함하는 1,800개 레코드만 일치합니다. 이것은 나쁜 점수가 아닙니다. 이것이 시작점입니다.
47개 변형은 단편화의 규모를 보여줍니다. 세 개의 합병된 시스템이 국가 이름을 표현하는 47가지 다른 방법을 만들어냈습니다. 이 숫자 없이는 정리 노력을 과소평가할 것입니다.
지배적 값은 집중할 곳을 보여줍니다. 상위 3가지 변형(“United States”, “USA”, “US”)은 8,600개 레코드를 차지합니다. 이 세 가지 값만 표준화하면 적합성이 12%에서 69%로 높아집니다. 거기서 시작하십시오.
비적합 수 (13,200)는 정확한 정리 범위입니다. 데이터 스튜어드에게 이제 추측이 아닌 구체적인 프로젝트 규모가 있습니다.
다음 조치
지배적 값 출력을 사용하여 값 매핑 표를 구축하십시오. “United States”를 “US”로, “USA”를 “US”로 매핑하는 등. 데이터 정규화를 실행하십시오. 새로운 적합률을 확인하기 위해 재스캔하십시오.
시나리오 2: Lead 등급 유효성 검사
비즈니스 맥락
Lead 등급 필드 (Rating__c)는 “Hot”, “Warm”, 또는 “Cold”를 허용하는 텍스트 필드입니다. 영업 관리자는 파이프라인 보고서에서 이상한 값을 보고합니다. Rating = "Hot" 필터는 예상보다 적은 레코드를 반환합니다. 필드에 있는 것과 정리가 필요한 레코드 수를 확인하기 위해 빠른 적합성 감사가 필요합니다.
구성 워크스루
스캔을 구성하기 전에 실제 값을 보기 위해 필드에서 가져오기로 시작하십시오.
Rating__c에 대한 예상 값 구성을 여십시오.- 필드에서 가져오기를 클릭하십시오. 가져오기가 반환합니다:
| 값 | 레코드 |
|---|---|
| Hot | 284 |
| Warm | 198 |
| Cold | 156 |
| Very High | 23 |
| 240 km/h | 12 |
| N/A | 8 |
처음 세 가지 값이 실제 등급입니다. “Very High”는 다른 선택 목록에서 왔습니다 (누군가가 잘못된 필드에서 붙여넣었습니다). “240 km/h”는 명확히 완전히 잘못된 필드의 데이터입니다. “N/A”는 자리 표시자입니다.
- “Hot”, “Warm”, “Cold”를 확인하십시오. 나머지는 체크하지 않은 상태로 두십시오.
- 선택된 항목 추가를 클릭하십시오.
나머지 구성 설정:
| 설정 | 값 | 근거 |
|---|---|---|
| 분석 모드 | 적합성 확인 | 심층 분석이 아닌 예/아니오 답변이 필요 |
| 예상 값 | Hot, Warm, Cold | 세 가지 유효한 등급 |
| 대소문자 구분 | 끄기 | ”hot”, “HOT”, “Hot”을 일치로 포착 |
스캔 결과
| 메트릭 | 값 |
|---|---|
| 적합률 | 93.7% |
| 적합 수 | 638 |
결과 읽기
93.7%가 적합합니다. 즉, 43개 레코드에 잘못된 데이터가 있습니다. 빠른 감사의 경우 적합성 확인 모드가 고급 메트릭을 계산하지 않고 빠르게 답변을 제공합니다.
필드에서 가져오기 단계가 이미 잘못된 데이터의 모습을 보여줬습니다. “Very High” (잘못된 선택 목록 값에서 23개 레코드), “240 km/h” (잘못된 필드 데이터가 있는 12개 레코드), “N/A” (8개 자리 표시자 항목). 가져오기가 이미 스캔 전에 분류를 제공했기 때문에 여기서 지배적 값이 필요하지 않습니다.
43개 레코드는 관리 가능한 정리입니다. 이것은 데이터 마이그레이션 프로젝트가 아닙니다. 30분 수동 수정 또는 단일 데이터 업데이트 작업입니다.
다음 조치
43개 비적합 레코드를 수정하십시오. 그런 다음 향후 문제를 방지하기 위해 Rating__c를 텍스트 필드에서 선택 목록으로 변환하십시오. API로 생성된 레코드는 선택 목록 유효성 검사를 우회하므로 주기적인 일관성 스캔을 실행하여 통합에서 발생하는 새로운 변형을 포착하십시오.
시나리오 3: 페르소나 타겟팅을 위한 직함 적합성
비즈니스 맥락
마케팅팀이 “VP 이상” Contact을 대상으로 페르소나 기반 캠페인을 실행합니다. Title 필드는 수천 가지 변형이 있는 자유 텍스트입니다. 모든 캠페인 전에 누군가 제목 키워드를 수동으로 검색하고, 절반의 변형을 놓치며, 불완전한 청중 목록을 구축합니다. 팀은 “우리는 VP+ contact이 몇 명이나 있습니까?”와 “나머지 contact은 어떤 직함을 가지고 있습니까?”라는 두 가지 질문에 데이터 기반 답변이 필요합니다.
구성 워크스루
- Contact의
Title필드에 대한 예상 값 구성을 여십시오. - 필드에서 가져오기를 클릭하십시오. 가져오기가 수백 개의 값을 반환합니다. 개별적으로 확인하기에는 너무 많지만 빈도 수가 맥락에 유용합니다.
- 페르소나 매핑을 기반으로 허용 값을 정의하십시오. 팀이 “VP 이상”으로 간주하는 직함 값을 확인하거나 입력하십시오:
VP, Vice President, SVP, Senior Vice President, EVP,
Executive Vice President, Director, Senior Director,
CEO, CFO, CTO, CIO, CMO, COO, President
- 선택된 항목 추가를 클릭하십시오.
나머지 구성 설정:
| 설정 | 값 | 근거 |
|---|---|---|
| 분석 모드 | 고급 적합성 분석 | 어떤 직함이 존재하는지 보기 위해 전체 값 분포가 필요 |
| 예상 값 | (위에 나열된 16개 직함 값) | VP+ 페르소나 정의 |
| 대소문자 구분 | 끄기 | ”vp of sales”, “VP of Sales”, “VP OF SALES” 포착 |
| 상위 N | 20 | 존재하는 것의 광범위한 분포 확인 |
| 최소 빈도 | 5 | ”Chief Happiness Officer”와 같은 일회성 항목 필터링 |
스캔 결과
| 메트릭 | 값 |
|---|---|
| 적합률 | 34% |
| 적합 수 | 3,400 |
| 비적합 수 | 6,600 |
| 변형 수 | 312 |
지배적 값 (상위 20):
| 순위 | 값 | 수 |
|---|---|---|
| 1 | Manager | 820 |
| 2 | Sales Representative | 650 |
| 3 | Account Executive | 480 |
| 4 | Director of Marketing | 340 |
| 5 | VP of Sales | 290 |
| 6 | Senior Manager | 275 |
| 7 | Consultant | 240 |
| 8 | Engineer | 210 |
| 9 | CEO | 195 |
| 10 | Head of Operations | 180 |
| … | (10개 이상) | … |
결과 읽기
34% 적합성은 실패가 아닙니다. 데이터 품질 문제가 아닙니다. 즉, Contact의 34%가 VP+ 직함을 보유하고 있으며 이것이 캠페인 타겟 청중입니다. 이 숫자가 마케팅팀이 추측해온 질문에 답합니다.
312개 변형 수는 자유 텍스트 Title이 매우 단편화되어 있음을 확인합니다. 10,000개의 Contact에 걸쳐 312개의 별개 직함 값. 이것은 자유 텍스트 필드에서는 정상이며 수동 검색이 사람들을 놓치는 이유를 설명합니다.
지배적 값은 contact이 실제로 어떤 직함을 가지고 있는지 보여줍니다. 상위 값 중 많은 것이 VP 수준 이하입니다 (Manager, Sales Rep, Account Executive). 그것은 예상됩니다. 이 contact들은 유효한 직함을 가진 유효한 레코드입니다. 그들은 타겟 페르소나에서 벗어납니다.
비적합 수 (6,600)는 정리 범위가 아닙니다. Country 시나리오와 달리 이것들은 더러운 레코드가 아닙니다. 그들은 VP+ 필터 외부의 직함을 가진 contact입니다. “Manager”는 데이터 오류가 아닌 실제 직함입니다. 비적합 수를 “이 페르소나 외부의 contact”으로 취급하십시오, “수정할 레코드”가 아닌.
진정한 인사이트: 이제 데이터 기반 청중 규모가 있습니다. 실제 데이터를 스캔하여 확인된 3,400명의 VP+ contact. 더 이상 수동 키워드 검색이 없습니다.
다음 조치
VP+ 캠페인 청중 규모로 적합 수 (3,400)를 사용하십시오. 놓친 직함에 대한 지배적 값 목록을 검토하십시오. “Senior Manager” (275개 레코드)와 “Head of Operations” (180개 레코드)는 경계선입니다. 이러한 역할이 캠페인에 적합하다면 허용 값에 추가하고 재스캔하십시오.
구성 선택
| 필요한 것… | 시작점 | 핵심 설정 |
|---|---|---|
| 제어된 필드 (선택 목록, 등급, 상태) 감사 | 필드에서 가져오기, 그런 다음 적합성 확인 | 가져오기의 예상 값, 대소문자 구분 끄기 |
| 단편화된 필드 (국가, 산업) 표준화 | 필드에서 가져오기, 그런 다음 고급 적합성 분석 | 목표 기준으로 예상 값, 상위 N 10+, 최소 빈도 5+ |
| 자유 텍스트 데이터에서 청중 또는 세그먼트 규모 결정 | 필드에서 가져오기, 그런 다음 고급 적합성 분석 | 세그먼트 정의로 예상 값, 상위 N 20, 최소 빈도 5 |
| 정리 프로젝트 전 빠른 기준선 획득 | 필드에서 가져오기, 그런 다음 적합성 확인 | 데이터 기준에서 예상 값 |
6가지 일관성 메트릭, 분석 모드, 구성 입력에 대한 전체 설명은 주요 일관성 문서로 돌아가십시오.
자체 데이터 품질을 측정할 준비가 되었습니까? 일관성 점수 및 그 이상을 보려면 AI 준비성 평가를 받으십시오.