Skip to main content

一貫性:設定シナリオ

異なるビジネスニーズに対してDQS一貫性分析を設定する方法を示す3つの実践的ウォークスルーです。

これらのシナリオがカバーする内容

このページでは、初期設定からスキャン結果の読み方まで、3つの実世界の一貫性設定を解説します。各シナリオは異なるビジネスコンテキストと分析モードを使います。

これらのシナリオは、メインの一貫性記事でカバーした概念と指標を基にしています。準拠率、Variant Count、Dominant Valuesといった用語に不慣れな方は、まずそちらをお読みください。

シナリオ1:発見ワークフローを使った国フィールドの標準化

ビジネスコンテキスト

あなたの組織は3社合併による15,000件のAccountレコードを持っています。Countryフィールドは自由入力です。地域別ダッシュボードは分断されたデータを示します。「United States」が1行として、「USA」が別の行として、「US」が3番目の行として現れます。テリトリー割り当てルールは単一の綴りでフィルタするため、レコードを見落とします。標準化が必要ですが、3つのレガシーシステムにわたってどのような値が存在するかわかりません。

設定ウォークスルー

許容値を定義する前に、Import from Fieldを使ってデータに実際に何が含まれているかを発見しましょう。

  1. CountryフィールドのExpected Values設定を開きます。
  2. Import from Fieldをクリックします。DQSは実データをクエリし、頻度でソートされた異なる値を返します。
  3. チェックリストを確認します。インポートが全体像を明らかにします。
レコード数
United States4,500
USA2,300
US1,800
Canada1,400
U.S.A.450
United States of America150
…(他41のバリエーション)
  1. 標準を決定します。ISO国コード(「US」「CA」「UK」)はコンパクトで業界標準であり、曖昧さがありません。インポートリストからISOコードをチェックします。
  2. Add Selectedをクリックして許容値を追加します。

残りの設定を行います。

設定根拠
分析モードAdvanced Conformance Analysisクレンジング範囲を設定するためにVariant CountとDominant Valuesが必要
Expected ValuesUS、CA、UK、DE、FR、AU、JPアクティブな市場のISOコード
Case SensitiveOFF「us」「Us」「US」を同じ値として捕捉
Top N10最も一般的なバリエーションを見る
Min Frequency5一回きりのタイプミスをフィルタする

スキャンが生成する内容

指標
準拠率12%
準拠件数1,800
非準拠件数13,200
Variant Count47
Dominant Values件数付きの上位10値(上記インポートテーブル参照)

結果の読み方

**12%の準拠率は想定内です。**データが一度も正規化されていない新しい標準(ISOコード)を定義しました。既に「US」を含む1,800件のレコードだけが一致します。これは悪いスコアではありません。出発点です。

**47のバリアントが分断の規模を明らかにします。**3つの合併したシステムが国名を表す47の異なる方法を生み出しました。この数字がなければ、クレンジングの労力を過小評価するでしょう。

**Dominant Valuesが焦点を置くべき場所を示します。**上位3つのバリエーション(「United States」「USA」「US」)が8,600件のレコードを占めます。これら3つの値を標準化するだけで、準拠率が12%から69%に上昇します。そこから始めましょう。

**非準拠件数(13,200)は正確なクレンジング範囲です。**データスチュワードは推測ではなく具体的なプロジェクトサイズを得ました。

次のアクション

Dominant Values出力を使って値マッピングテーブルを構築します。「United States」を「US」に、「USA」を「US」にマッピングします。データ正規化を実行します。新しい準拠率を確認するために再スキャンします。

シナリオ2:Lead Ratingの検証

ビジネスコンテキスト

あなたのLead Ratingフィールド(Rating__c)は「Hot」「Warm」「Cold」を受け入れるテキストフィールドです。営業マネージャーはパイプラインレポートで奇妙な値があると報告しています。Rating = "Hot"のフィルタは想定より少ないレコードを返します。フィールドに何があり、クレンジングが必要なレコードが何件あるかを見つけるために迅速な準拠監査が必要です。

設定ウォークスルー

スキャンを設定する前にImport from Fieldを使って実際の値を確認しましょう。

  1. Rating__cのExpected Values設定を開きます。
  2. Import from Fieldをクリックします。インポートは次を返します。
レコード数
Hot284
Warm198
Cold156
Very High23
240 km/h12
N/A8

最初の3つの値が実際のレーティングです。「Very High」は異なる選択リストから来ています(誰かが間違ったフィールドから貼り付けました)。「240 km/h」は完全に間違ったフィールドのデータです。「N/A」はプレースホルダです。

  1. 「Hot」「Warm」「Cold」をチェックします。残りはチェックしないままにします。
  2. Add Selectedをクリックします。

残りの設定を行います。

設定根拠
分析モードConformance Check深い分析ではなくイエス/ノーの答えが必要
Expected ValuesHot、Warm、Cold3つの妥当なレーティング
Case SensitiveOFF「hot」「HOT」「Hot」を一致するものとして捕捉

スキャンが生成する内容

指標
準拠率93.7%
準拠件数638

結果の読み方

**93.7%が準拠しています。**つまり43件のレコードがゴミデータを持っているということです。迅速な監査には、Conformance Checkモードが高度な指標を計算せずに素早く答えを与えます。

Import from Fieldのステップですでにゴミがどのようなものかを教えてくれていました。「Very High」(間違った選択リスト値から23件)、「240 km/h」(間違ったフィールドのデータから12件)、「N/A」(プレースホルダ8件)です。スキャンが実行される前にインポートが内訳を与えてくれたので、ここではDominant Valuesは必要ありません。

**43件のレコードは管理可能なクレンジングです。**これはデータ移行プロジェクトではありません。30分の手動修正または単一のデータ更新ジョブです。

次のアクション

43件の非準拠レコードを修正します。その後、将来の問題を防ぐためRating__cをテキストフィールドから選択リストに変換します。API作成レコードは選択リスト検証をバイパスするので、インテグレーションからの新しいバリエーションを捕捉するために定期的な一貫性スキャンを実行します。

シナリオ3:ペルソナターゲティングのためのJob Title準拠

ビジネスコンテキスト

あなたのマーケティングチームは「VP以上」のContactをターゲットとするペルソナベースのキャンペーンを実行しています。Titleフィールドは数千のバリエーションを持つ自由入力です。すべてのキャンペーン前に、誰かがタイトルキーワードを手動で検索し、バリエーションの半分を見落とし、不完全な対象リストを構築します。チームは2つの質問に対してデータ駆動の答えが必要です。「VP以上のContactは何人いるか」「残りのContactはどのような役職を持っているか」

設定ウォークスルー

  1. ContactのTitleフィールドのExpected Values設定を開きます。
  2. Import from Fieldをクリックします。インポートは数百の値を返します。個別にチェックするには多すぎますが、頻度件数はコンテキストに有用です。
  3. ペルソナマッピングに基づいて許容値を定義します。チームが「VP以上」とみなすタイトル値をチェックするか入力します。
VP、Vice President、SVP、Senior Vice President、EVP、
Executive Vice President、Director、Senior Director、
CEO、CFO、CTO、CIO、CMO、COO、President
  1. Add Selectedをクリックします。

残りの設定を行います。

設定根拠
分析モードAdvanced Conformance Analysisどのようなタイトルが存在するか確認するために完全な値分布が必要
Expected Values(上記の16のタイトル値)VP以上のペルソナ定義
Case SensitiveOFF「vp of sales」「VP of Sales」「VP OF SALES」を捕捉
Top N20存在するものの広い分布を見る
Min Frequency5「Chief Happiness Officer」のような一回きりのエントリをフィルタ

スキャンが生成する内容

指標
準拠率34%
準拠件数3,400
非準拠件数6,600
Variant Count312

Dominant Values(上位20):

順位件数
1Manager820
2Sales Representative650
3Account Executive480
4Director of Marketing340
5VP of Sales290
6Senior Manager275
7Consultant240
8Engineer210
9CEO195
10Head of Operations180
(他10)

結果の読み方

**34%の準拠率は失敗ではありません。**これはデータ品質の問題ではありません。ContactのうちVP以上のタイトルを持つ34%があなたのキャンペーン対象母集団だという意味です。この数字がマーケティングチームが推測してきた問いに答えます。

**312のVariant Countは自由入力Titleが高度に分断されていることを確認します。**10,000件のContactにわたって312の異なるタイトル値。これは自由入力フィールドでは正常であり、手動検索が人を見落とす理由を説明します。

**Dominant ValuesはContactが実際にどのようなタイトルを持っているかを示します。**上位の多くの値がVPレベルより下です(Manager、Sales Rep、Account Executive)。それは想定内です。これらのContactは有効なタイトルを持つ有効なレコードです。ターゲットペルソナの範囲外にあります。

**非準拠件数(6,600)はクレンジング範囲ではありません。**国シナリオと異なり、これらは汚れたレコードではありません。VP以上のフィルタの外にあるタイトルを持つContactです。「Manager」はデータエラーではなく実際の役職です。非準拠件数を「修正すべきレコード」ではなく「このペルソナの外のContact」として扱いましょう。

**真のインサイト:**これでデータ駆動の母集団サイズがわかりました。実際のデータをスキャンして検証された、3,400件のVP以上のContactです。もう手動キーワード検索は必要ありません。

次のアクション

準拠件数(3,400)をVP以上キャンペーン母集団サイズとして使います。見落としたタイトルを見つけるためにDominant Valuesリストをレビューします。「Senior Manager」(275件)と「Head of Operations」(180件)は境界線です。それらの役職がキャンペーンに該当する場合、許容値に追加して再スキャンします。

設定の選択

必要なこと開始モード主要設定
制御されたフィールド(選択リスト、レーティング、ステータス)の監査Import from Field、次にConformance CheckインポートからのExpected Values、Case Sensitive OFF
分断されたフィールド(国、業種)の標準化Import from Field、次にAdvanced Conformance AnalysisExpected Valuesを目標標準として、Top N 10以上、Min Frequency 5以上
自由入力データからの対象母集団またはセグメントのサイジングImport from Field、次にAdvanced Conformance Analysisセグメント定義としてのExpected Values、Top N 20、Min Frequency 5
クレンジングプロジェクト前の迅速なベースライン取得Import from Field、次にConformance Checkデータ標準からのExpected Values

6つの一貫性指標、分析モード、設定入力の完全な説明については、メインの一貫性記事に戻ってください。

自社のデータ品質を測定する準備ができましたか?AI対応度診断を受けて一貫性スコアなどを確認しましょう。