データ品質の5つの次元

5つの次元を理解する

データ品質は、5つの主要な次元で測定されます。各次元はデータに関する特定の問いに答え、これらを合わせることでデータが目的に適しているかが決まります。

DQSは5つの次元すべてをSalesforceネイティブに測定します。

次元	重要な問い	問題の例
完全性	データは存在するか	メールアドレスが欠けている
妥当性	フォーマットは正しいか	電話番号のフォーマットが不正
一意性	各レコードは異なるか	Contactの重複
適時性	データは最新か	古いOpportunityの日付
一貫性	データは統一されているか	「USA」対「United States」

1. 完全性

完全性は、必要なデータ値が存在し、欠落していないかどうかを測定します。

DQSが測定する内容

入力率：空でない値を持つレコードの割合
空欄検出：空文字列と空白のみの値
プレースホルダ検出：「N/A」「TBD」「Unknown」などの値

完全性が重要な理由

不完全なデータは自動化を破綻させます。存在しないメールアドレスを必要とするワークフローは失敗します。業種でフィルタするレポートで、レコードの半数に業種の値が入っていなければ、分析は全体像の一部しか示せません。

よくある完全性の問題

問題	例	影響
空欄フィールド	Contactの電話番号が空	見込み客に電話できない
プレースホルダ値	会社名に「TBD」	レポート用途として無効
空白のみ	説明欄に「」	入力済みに見えるが実際には違う

**ヒント：**最も重要なフィールドから始めましょう。すべてのフィールドで100%の完全性は必要ありません。用途にとって重要なものだけで十分です。

2. 妥当性

妥当性は、データ値が期待されるフォーマットやパターンに準拠しているかを測定します。

DQSが測定する内容

フォーマット検証：メール、電話、URLのパターン
パターンマッチング：カスタム正規表現パターン
ドメイン検証：許容値リスト

妥当性と精度の違い

妥当性と精度は異なるものです。メールアドレスは妥当（フォーマットが正しい）でも、不正確（宛先が違う人）であることがあります。DQSは妥当性を測定します。フォーマット検証は自動化できるからです。精度には外部での検証が必要です。

チェック対象	妥当か	正確か
john@company.com	はい	検証なしでは不明
john@company	いいえ	該当なし（フォーマットが不正）
john.smith@oldcompany.com	はい	いいえ（本人が退職済み）

Salesforceでよくある妥当性の問題

メールアドレスに「@」やドメインが欠けている
電話番号の桁数が誤っている
URLにプロトコル（http/https）がない
選択リスト値が期待される箇所に自由入力テキストが使われている

3. 一意性

一意性は、データ値が異なり、重複していないかどうかを測定します。

DQSが測定する内容

重複検出：レコードをまたいだ完全一致
ユニーク件数：フィールドごとの総ユニーク値数
エントロピー分析：値の多様性と分布

重複のコスト

重複レコードはストレージを浪費し、ユーザーを混乱させ、水増しされた指標を生みます。同じ会社のレコードが営業に2件あると、コンテキストが失われ、恥ずかしい重複アプローチのリスクが生じます。

調査結果：

B2Bデータベースには平均で10〜30%の重複レコードが含まれる
各重複は、無駄なメール送信、混乱するレポート、分断された顧客履歴というコストを組織に課す

重複の予防と検出

DQSは検出に焦点を当てており、すでに存在する重複の特定を支援します。予防（作成時点での重複阻止）には、Salesforceのセットアップにおける入力規則とマッチングルールが必要です。

4. 適時性

適時性は、データが用途に対して十分に新しいかどうかを測定します。

DQSが測定する内容

鮮度率：許容される経過期間内にあるレコードの割合
古さ検出：しきい値を超えるレコード
平均経過期間：日付フィールド値の平均経過時間
未来日検出：無効な未来日付

鮮度のしきい値設定

データの種類によって鮮度要件は異なります。

データタイプ	一般的なしきい値	理由
Lead最終活動	30日	冷めたLeadは価値を失う
連絡先情報	90日	人は職を変える
Opportunityクローズ日	当四半期内	予測の精度
Account年間売上	1年	年次更新が期待される

AIにとって適時性が重要な理由

AIや機械学習モデルはデータから学習します。データが古ければ、AIは時代遅れのパターンを学習します。たとえばAgentforceはSalesforceデータを使って応答を生成します。古い連絡先情報は誤った推奨につながります。

5. 一貫性

一貫性は、データ値が統一され標準化されているかを測定します。

DQSが測定する内容

準拠率：期待されるパターンに一致する割合
バリアント検出：同じ値の異なる表現
主要値分析：フィールドごとの最も一般的な値

不一致の種類

種類	例	問題
フォーマットのバリエーション	「USA」対「United States」対「US」	フィルタリングとグルーピングを妨げる
表記のバリエーション	「Acme Corp」対「ACME Corporation」	誤った重複を生む
大文字小文字のバリエーション	「new york」対「New York」	レポートで不格好に見える

AIにとって一貫性が重要な理由

AIモデルは「USA」と「United States」を異なる値として扱います。レコードで両方が使われていると、AIはそれらを正しくグループ化できません。一貫性のないデータはAIの理解を分断し、信頼できない出力を生みます。

一貫性を実現する方法

可能な場合は自由入力ではなく選択リストを使う
各フィールドで単一のフォーマットに標準化する
DQSの一貫性チェックを設定する際に選択リスト値からインポートする

次元のバランス

すべての用途で各次元が同じ重みを持つわけではありません。必要なものを検討しましょう。

用途	優先すべき次元
マーケティングキャンペーン	完全性、妥当性（配信到達のため）
営業予測	適時性、完全性
カスタマーサービス	一意性（唯一の情報源）
AI/Agentforce	5つすべて、加えてAI対応チェック

DQSの次元カバレッジ

DQSは5つの次元すべてを包括的な機能で測定します。

次元	DQSの測定内容
完全性	入力率、null検出、空欄検出、プレースホルダ検出、コンテキストロジック
妥当性	フォーマット検証、カスタム正規表現パターン、無効レコードの特定
一意性	重複検出、エントロピー分析、頻度分布
適時性	鮮度率、古さ検出、平均経過期間、未来日検出
一貫性	準拠チェック、バリアント発見、主要値分析

次のステップ

5つの次元を理解したら、次に進みましょう。

AI対応度診断を受けて現在のスコアを確認する
基本的なデータ品質を超えた追加チェックについてAgentforce準備を読む
定義ビルダーの使い方を学び、最初のスキャンを設定する