これらのシナリオがカバーする内容
このページでは、初期設定からスキャン結果の読み方まで、3つの実世界の一貫性設定を解説します。各シナリオは異なるビジネスコンテキストと分析モードを使います。
これらのシナリオは、メインの一貫性記事でカバーした概念と指標を基にしています。準拠率、Variant Count、Dominant Valuesといった用語に不慣れな方は、まずそちらをお読みください。
シナリオ1:発見ワークフローを使った国フィールドの標準化
ビジネスコンテキスト
あなたの組織は3社合併による15,000件のAccountレコードを持っています。Countryフィールドは自由入力です。地域別ダッシュボードは分断されたデータを示します。「United States」が1行として、「USA」が別の行として、「US」が3番目の行として現れます。テリトリー割り当てルールは単一の綴りでフィルタするため、レコードを見落とします。標準化が必要ですが、3つのレガシーシステムにわたってどのような値が存在するかわかりません。
設定ウォークスルー
許容値を定義する前に、Import from Fieldを使ってデータに実際に何が含まれているかを発見しましょう。
CountryフィールドのExpected Values設定を開きます。- Import from Fieldをクリックします。DQSは実データをクエリし、頻度でソートされた異なる値を返します。
- チェックリストを確認します。インポートが全体像を明らかにします。
| 値 | レコード数 |
|---|---|
| United States | 4,500 |
| USA | 2,300 |
| US | 1,800 |
| Canada | 1,400 |
| U.S.A. | 450 |
| United States of America | 150 |
| …(他41のバリエーション) | … |
- 標準を決定します。ISO国コード(「US」「CA」「UK」)はコンパクトで業界標準であり、曖昧さがありません。インポートリストからISOコードをチェックします。
- Add Selectedをクリックして許容値を追加します。
残りの設定を行います。
| 設定 | 値 | 根拠 |
|---|---|---|
| 分析モード | Advanced Conformance Analysis | クレンジング範囲を設定するためにVariant CountとDominant Valuesが必要 |
| Expected Values | US、CA、UK、DE、FR、AU、JP | アクティブな市場のISOコード |
| Case Sensitive | OFF | 「us」「Us」「US」を同じ値として捕捉 |
| Top N | 10 | 最も一般的なバリエーションを見る |
| Min Frequency | 5 | 一回きりのタイプミスをフィルタする |
スキャンが生成する内容
| 指標 | 値 |
|---|---|
| 準拠率 | 12% |
| 準拠件数 | 1,800 |
| 非準拠件数 | 13,200 |
| Variant Count | 47 |
| Dominant Values | 件数付きの上位10値(上記インポートテーブル参照) |
結果の読み方
**12%の準拠率は想定内です。**データが一度も正規化されていない新しい標準(ISOコード)を定義しました。既に「US」を含む1,800件のレコードだけが一致します。これは悪いスコアではありません。出発点です。
**47のバリアントが分断の規模を明らかにします。**3つの合併したシステムが国名を表す47の異なる方法を生み出しました。この数字がなければ、クレンジングの労力を過小評価するでしょう。
**Dominant Valuesが焦点を置くべき場所を示します。**上位3つのバリエーション(「United States」「USA」「US」)が8,600件のレコードを占めます。これら3つの値を標準化するだけで、準拠率が12%から69%に上昇します。そこから始めましょう。
**非準拠件数(13,200)は正確なクレンジング範囲です。**データスチュワードは推測ではなく具体的なプロジェクトサイズを得ました。
次のアクション
Dominant Values出力を使って値マッピングテーブルを構築します。「United States」を「US」に、「USA」を「US」にマッピングします。データ正規化を実行します。新しい準拠率を確認するために再スキャンします。
シナリオ2:Lead Ratingの検証
ビジネスコンテキスト
あなたのLead Ratingフィールド(Rating__c)は「Hot」「Warm」「Cold」を受け入れるテキストフィールドです。営業マネージャーはパイプラインレポートで奇妙な値があると報告しています。Rating = "Hot"のフィルタは想定より少ないレコードを返します。フィールドに何があり、クレンジングが必要なレコードが何件あるかを見つけるために迅速な準拠監査が必要です。
設定ウォークスルー
スキャンを設定する前にImport from Fieldを使って実際の値を確認しましょう。
Rating__cのExpected Values設定を開きます。- Import from Fieldをクリックします。インポートは次を返します。
| 値 | レコード数 |
|---|---|
| Hot | 284 |
| Warm | 198 |
| Cold | 156 |
| Very High | 23 |
| 240 km/h | 12 |
| N/A | 8 |
最初の3つの値が実際のレーティングです。「Very High」は異なる選択リストから来ています(誰かが間違ったフィールドから貼り付けました)。「240 km/h」は完全に間違ったフィールドのデータです。「N/A」はプレースホルダです。
- 「Hot」「Warm」「Cold」をチェックします。残りはチェックしないままにします。
- Add Selectedをクリックします。
残りの設定を行います。
| 設定 | 値 | 根拠 |
|---|---|---|
| 分析モード | Conformance Check | 深い分析ではなくイエス/ノーの答えが必要 |
| Expected Values | Hot、Warm、Cold | 3つの妥当なレーティング |
| Case Sensitive | OFF | 「hot」「HOT」「Hot」を一致するものとして捕捉 |
スキャンが生成する内容
| 指標 | 値 |
|---|---|
| 準拠率 | 93.7% |
| 準拠件数 | 638 |
結果の読み方
**93.7%が準拠しています。**つまり43件のレコードがゴミデータを持っているということです。迅速な監査には、Conformance Checkモードが高度な指標を計算せずに素早く答えを与えます。
Import from Fieldのステップですでにゴミがどのようなものかを教えてくれていました。「Very High」(間違った選択リスト値から23件)、「240 km/h」(間違ったフィールドのデータから12件)、「N/A」(プレースホルダ8件)です。スキャンが実行される前にインポートが内訳を与えてくれたので、ここではDominant Valuesは必要ありません。
**43件のレコードは管理可能なクレンジングです。**これはデータ移行プロジェクトではありません。30分の手動修正または単一のデータ更新ジョブです。
次のアクション
43件の非準拠レコードを修正します。その後、将来の問題を防ぐためRating__cをテキストフィールドから選択リストに変換します。API作成レコードは選択リスト検証をバイパスするので、インテグレーションからの新しいバリエーションを捕捉するために定期的な一貫性スキャンを実行します。
シナリオ3:ペルソナターゲティングのためのJob Title準拠
ビジネスコンテキスト
あなたのマーケティングチームは「VP以上」のContactをターゲットとするペルソナベースのキャンペーンを実行しています。Titleフィールドは数千のバリエーションを持つ自由入力です。すべてのキャンペーン前に、誰かがタイトルキーワードを手動で検索し、バリエーションの半分を見落とし、不完全な対象リストを構築します。チームは2つの質問に対してデータ駆動の答えが必要です。「VP以上のContactは何人いるか」「残りのContactはどのような役職を持っているか」
設定ウォークスルー
- Contactの
TitleフィールドのExpected Values設定を開きます。 - Import from Fieldをクリックします。インポートは数百の値を返します。個別にチェックするには多すぎますが、頻度件数はコンテキストに有用です。
- ペルソナマッピングに基づいて許容値を定義します。チームが「VP以上」とみなすタイトル値をチェックするか入力します。
VP、Vice President、SVP、Senior Vice President、EVP、
Executive Vice President、Director、Senior Director、
CEO、CFO、CTO、CIO、CMO、COO、President
- Add Selectedをクリックします。
残りの設定を行います。
| 設定 | 値 | 根拠 |
|---|---|---|
| 分析モード | Advanced Conformance Analysis | どのようなタイトルが存在するか確認するために完全な値分布が必要 |
| Expected Values | (上記の16のタイトル値) | VP以上のペルソナ定義 |
| Case Sensitive | OFF | 「vp of sales」「VP of Sales」「VP OF SALES」を捕捉 |
| Top N | 20 | 存在するものの広い分布を見る |
| Min Frequency | 5 | 「Chief Happiness Officer」のような一回きりのエントリをフィルタ |
スキャンが生成する内容
| 指標 | 値 |
|---|---|
| 準拠率 | 34% |
| 準拠件数 | 3,400 |
| 非準拠件数 | 6,600 |
| Variant Count | 312 |
Dominant Values(上位20):
| 順位 | 値 | 件数 |
|---|---|---|
| 1 | Manager | 820 |
| 2 | Sales Representative | 650 |
| 3 | Account Executive | 480 |
| 4 | Director of Marketing | 340 |
| 5 | VP of Sales | 290 |
| 6 | Senior Manager | 275 |
| 7 | Consultant | 240 |
| 8 | Engineer | 210 |
| 9 | CEO | 195 |
| 10 | Head of Operations | 180 |
| … | (他10) | … |
結果の読み方
**34%の準拠率は失敗ではありません。**これはデータ品質の問題ではありません。ContactのうちVP以上のタイトルを持つ34%があなたのキャンペーン対象母集団だという意味です。この数字がマーケティングチームが推測してきた問いに答えます。
**312のVariant Countは自由入力Titleが高度に分断されていることを確認します。**10,000件のContactにわたって312の異なるタイトル値。これは自由入力フィールドでは正常であり、手動検索が人を見落とす理由を説明します。
**Dominant ValuesはContactが実際にどのようなタイトルを持っているかを示します。**上位の多くの値がVPレベルより下です(Manager、Sales Rep、Account Executive)。それは想定内です。これらのContactは有効なタイトルを持つ有効なレコードです。ターゲットペルソナの範囲外にあります。
**非準拠件数(6,600)はクレンジング範囲ではありません。**国シナリオと異なり、これらは汚れたレコードではありません。VP以上のフィルタの外にあるタイトルを持つContactです。「Manager」はデータエラーではなく実際の役職です。非準拠件数を「修正すべきレコード」ではなく「このペルソナの外のContact」として扱いましょう。
**真のインサイト:**これでデータ駆動の母集団サイズがわかりました。実際のデータをスキャンして検証された、3,400件のVP以上のContactです。もう手動キーワード検索は必要ありません。
次のアクション
準拠件数(3,400)をVP以上キャンペーン母集団サイズとして使います。見落としたタイトルを見つけるためにDominant Valuesリストをレビューします。「Senior Manager」(275件)と「Head of Operations」(180件)は境界線です。それらの役職がキャンペーンに該当する場合、許容値に追加して再スキャンします。
設定の選択
| 必要なこと | 開始モード | 主要設定 |
|---|---|---|
| 制御されたフィールド(選択リスト、レーティング、ステータス)の監査 | Import from Field、次にConformance Check | インポートからのExpected Values、Case Sensitive OFF |
| 分断されたフィールド(国、業種)の標準化 | Import from Field、次にAdvanced Conformance Analysis | Expected Valuesを目標標準として、Top N 10以上、Min Frequency 5以上 |
| 自由入力データからの対象母集団またはセグメントのサイジング | Import from Field、次にAdvanced Conformance Analysis | セグメント定義としてのExpected Values、Top N 20、Min Frequency 5 |
| クレンジングプロジェクト前の迅速なベースライン取得 | Import from Field、次にConformance Check | データ標準からのExpected Values |
6つの一貫性指標、分析モード、設定入力の完全な説明については、メインの一貫性記事に戻ってください。
自社のデータ品質を測定する準備ができましたか?AI対応度診断を受けて一貫性スコアなどを確認しましょう。