Skip to main content

データ品質の5つの次元

DQSが測定する5つの次元、すなわち完全性、妥当性、一意性、適時性、一貫性について学びましょう。

5つの次元を理解する

データ品質は、5つの主要な次元で測定されます。各次元はデータに関する特定の問いに答え、これらを合わせることでデータが目的に適しているかが決まります。

DQSは5つの次元すべてをSalesforceネイティブに測定します。

次元重要な問い問題の例
完全性データは存在するかメールアドレスが欠けている
妥当性フォーマットは正しいか電話番号のフォーマットが不正
一意性各レコードは異なるかContactの重複
適時性データは最新か古いOpportunityの日付
一貫性データは統一されているか「USA」対「United States」

1. 完全性

完全性は、必要なデータ値が存在し、欠落していないかどうかを測定します。

DQSが測定する内容

  • 入力率:空でない値を持つレコードの割合
  • 空欄検出:空文字列と空白のみの値
  • プレースホルダ検出:「N/A」「TBD」「Unknown」などの値

完全性が重要な理由

不完全なデータは自動化を破綻させます。存在しないメールアドレスを必要とするワークフローは失敗します。業種でフィルタするレポートで、レコードの半数に業種の値が入っていなければ、分析は全体像の一部しか示せません。

よくある完全性の問題

問題影響
空欄フィールドContactの電話番号が空見込み客に電話できない
プレースホルダ値会社名に「TBD」レポート用途として無効
空白のみ説明欄に「 」入力済みに見えるが実際には違う

**ヒント:**最も重要なフィールドから始めましょう。すべてのフィールドで100%の完全性は必要ありません。用途にとって重要なものだけで十分です。

2. 妥当性

妥当性は、データ値が期待されるフォーマットやパターンに準拠しているかを測定します。

DQSが測定する内容

  • フォーマット検証:メール、電話、URLのパターン
  • パターンマッチング:カスタム正規表現パターン
  • ドメイン検証:許容値リスト

妥当性と精度の違い

妥当性と精度は異なるものです。メールアドレスは妥当(フォーマットが正しい)でも、不正確(宛先が違う人)であることがあります。DQSは妥当性を測定します。フォーマット検証は自動化できるからです。精度には外部での検証が必要です。

チェック対象妥当か正確か
john@company.comはい検証なしでは不明
john@companyいいえ該当なし(フォーマットが不正)
john.smith@oldcompany.comはいいいえ(本人が退職済み)

Salesforceでよくある妥当性の問題

  • メールアドレスに「@」やドメインが欠けている
  • 電話番号の桁数が誤っている
  • URLにプロトコル(http/https)がない
  • 選択リスト値が期待される箇所に自由入力テキストが使われている

3. 一意性

一意性は、データ値が異なり、重複していないかどうかを測定します。

DQSが測定する内容

  • 重複検出:レコードをまたいだ完全一致
  • ユニーク件数:フィールドごとの総ユニーク値数
  • エントロピー分析:値の多様性と分布

重複のコスト

重複レコードはストレージを浪費し、ユーザーを混乱させ、水増しされた指標を生みます。同じ会社のレコードが営業に2件あると、コンテキストが失われ、恥ずかしい重複アプローチのリスクが生じます。

調査結果:

  • B2Bデータベースには平均で10〜30%の重複レコードが含まれる
  • 各重複は、無駄なメール送信、混乱するレポート、分断された顧客履歴というコストを組織に課す

重複の予防と検出

DQSは検出に焦点を当てており、すでに存在する重複の特定を支援します。予防(作成時点での重複阻止)には、Salesforceのセットアップにおける入力規則とマッチングルールが必要です。

4. 適時性

適時性は、データが用途に対して十分に新しいかどうかを測定します。

DQSが測定する内容

  • 鮮度率:許容される経過期間内にあるレコードの割合
  • 古さ検出:しきい値を超えるレコード
  • 平均経過期間:日付フィールド値の平均経過時間
  • 未来日検出:無効な未来日付

鮮度のしきい値設定

データの種類によって鮮度要件は異なります。

データタイプ一般的なしきい値理由
Lead最終活動30日冷めたLeadは価値を失う
連絡先情報90日人は職を変える
Opportunityクローズ日当四半期内予測の精度
Account年間売上1年年次更新が期待される

AIにとって適時性が重要な理由

AIや機械学習モデルはデータから学習します。データが古ければ、AIは時代遅れのパターンを学習します。たとえばAgentforceはSalesforceデータを使って応答を生成します。古い連絡先情報は誤った推奨につながります。

5. 一貫性

一貫性は、データ値が統一され標準化されているかを測定します。

DQSが測定する内容

  • 準拠率:期待されるパターンに一致する割合
  • バリアント検出:同じ値の異なる表現
  • 主要値分析:フィールドごとの最も一般的な値

不一致の種類

種類問題
フォーマットのバリエーション「USA」対「United States」対「US」フィルタリングとグルーピングを妨げる
表記のバリエーション「Acme Corp」対「ACME Corporation」誤った重複を生む
大文字小文字のバリエーション「new york」対「New York」レポートで不格好に見える

AIにとって一貫性が重要な理由

AIモデルは「USA」と「United States」を異なる値として扱います。レコードで両方が使われていると、AIはそれらを正しくグループ化できません。一貫性のないデータはAIの理解を分断し、信頼できない出力を生みます。

一貫性を実現する方法

  • 可能な場合は自由入力ではなく選択リストを使う
  • 各フィールドで単一のフォーマットに標準化する
  • DQSの一貫性チェックを設定する際に選択リスト値からインポートする

次元のバランス

すべての用途で各次元が同じ重みを持つわけではありません。必要なものを検討しましょう。

用途優先すべき次元
マーケティングキャンペーン完全性、妥当性(配信到達のため)
営業予測適時性、完全性
カスタマーサービス一意性(唯一の情報源)
AI/Agentforce5つすべて、加えてAI対応チェック

DQSの次元カバレッジ

DQSは5つの次元すべてを包括的な機能で測定します。

次元DQSの測定内容
完全性入力率、null検出、空欄検出、プレースホルダ検出、コンテキストロジック
妥当性フォーマット検証、カスタム正規表現パターン、無効レコードの特定
一意性重複検出、エントロピー分析、頻度分布
適時性鮮度率、古さ検出、平均経過期間、未来日検出
一貫性準拠チェック、バリアント発見、主要値分析

次のステップ

5つの次元を理解したら、次に進みましょう。

  1. AI対応度診断を受けて現在のスコアを確認する
  2. 基本的なデータ品質を超えた追加チェックについてAgentforce準備を読む
  3. 定義ビルダーの使い方を学び、最初のスキャンを設定する