5つの次元を理解する
データ品質は、5つの主要な次元で測定されます。各次元はデータに関する特定の問いに答え、これらを合わせることでデータが目的に適しているかが決まります。
DQSは5つの次元すべてをSalesforceネイティブに測定します。
| 次元 | 重要な問い | 問題の例 |
|---|---|---|
| 完全性 | データは存在するか | メールアドレスが欠けている |
| 妥当性 | フォーマットは正しいか | 電話番号のフォーマットが不正 |
| 一意性 | 各レコードは異なるか | Contactの重複 |
| 適時性 | データは最新か | 古いOpportunityの日付 |
| 一貫性 | データは統一されているか | 「USA」対「United States」 |
1. 完全性
完全性は、必要なデータ値が存在し、欠落していないかどうかを測定します。
DQSが測定する内容
- 入力率:空でない値を持つレコードの割合
- 空欄検出:空文字列と空白のみの値
- プレースホルダ検出:「N/A」「TBD」「Unknown」などの値
完全性が重要な理由
不完全なデータは自動化を破綻させます。存在しないメールアドレスを必要とするワークフローは失敗します。業種でフィルタするレポートで、レコードの半数に業種の値が入っていなければ、分析は全体像の一部しか示せません。
よくある完全性の問題
| 問題 | 例 | 影響 |
|---|---|---|
| 空欄フィールド | Contactの電話番号が空 | 見込み客に電話できない |
| プレースホルダ値 | 会社名に「TBD」 | レポート用途として無効 |
| 空白のみ | 説明欄に「 」 | 入力済みに見えるが実際には違う |
**ヒント:**最も重要なフィールドから始めましょう。すべてのフィールドで100%の完全性は必要ありません。用途にとって重要なものだけで十分です。
2. 妥当性
妥当性は、データ値が期待されるフォーマットやパターンに準拠しているかを測定します。
DQSが測定する内容
- フォーマット検証:メール、電話、URLのパターン
- パターンマッチング:カスタム正規表現パターン
- ドメイン検証:許容値リスト
妥当性と精度の違い
妥当性と精度は異なるものです。メールアドレスは妥当(フォーマットが正しい)でも、不正確(宛先が違う人)であることがあります。DQSは妥当性を測定します。フォーマット検証は自動化できるからです。精度には外部での検証が必要です。
| チェック対象 | 妥当か | 正確か |
|---|---|---|
| john@company.com | はい | 検証なしでは不明 |
| john@company | いいえ | 該当なし(フォーマットが不正) |
| john.smith@oldcompany.com | はい | いいえ(本人が退職済み) |
Salesforceでよくある妥当性の問題
- メールアドレスに「@」やドメインが欠けている
- 電話番号の桁数が誤っている
- URLにプロトコル(http/https)がない
- 選択リスト値が期待される箇所に自由入力テキストが使われている
3. 一意性
一意性は、データ値が異なり、重複していないかどうかを測定します。
DQSが測定する内容
- 重複検出:レコードをまたいだ完全一致
- ユニーク件数:フィールドごとの総ユニーク値数
- エントロピー分析:値の多様性と分布
重複のコスト
重複レコードはストレージを浪費し、ユーザーを混乱させ、水増しされた指標を生みます。同じ会社のレコードが営業に2件あると、コンテキストが失われ、恥ずかしい重複アプローチのリスクが生じます。
調査結果:
- B2Bデータベースには平均で10〜30%の重複レコードが含まれる
- 各重複は、無駄なメール送信、混乱するレポート、分断された顧客履歴というコストを組織に課す
重複の予防と検出
DQSは検出に焦点を当てており、すでに存在する重複の特定を支援します。予防(作成時点での重複阻止)には、Salesforceのセットアップにおける入力規則とマッチングルールが必要です。
4. 適時性
適時性は、データが用途に対して十分に新しいかどうかを測定します。
DQSが測定する内容
- 鮮度率:許容される経過期間内にあるレコードの割合
- 古さ検出:しきい値を超えるレコード
- 平均経過期間:日付フィールド値の平均経過時間
- 未来日検出:無効な未来日付
鮮度のしきい値設定
データの種類によって鮮度要件は異なります。
| データタイプ | 一般的なしきい値 | 理由 |
|---|---|---|
| Lead最終活動 | 30日 | 冷めたLeadは価値を失う |
| 連絡先情報 | 90日 | 人は職を変える |
| Opportunityクローズ日 | 当四半期内 | 予測の精度 |
| Account年間売上 | 1年 | 年次更新が期待される |
AIにとって適時性が重要な理由
AIや機械学習モデルはデータから学習します。データが古ければ、AIは時代遅れのパターンを学習します。たとえばAgentforceはSalesforceデータを使って応答を生成します。古い連絡先情報は誤った推奨につながります。
5. 一貫性
一貫性は、データ値が統一され標準化されているかを測定します。
DQSが測定する内容
- 準拠率:期待されるパターンに一致する割合
- バリアント検出:同じ値の異なる表現
- 主要値分析:フィールドごとの最も一般的な値
不一致の種類
| 種類 | 例 | 問題 |
|---|---|---|
| フォーマットのバリエーション | 「USA」対「United States」対「US」 | フィルタリングとグルーピングを妨げる |
| 表記のバリエーション | 「Acme Corp」対「ACME Corporation」 | 誤った重複を生む |
| 大文字小文字のバリエーション | 「new york」対「New York」 | レポートで不格好に見える |
AIにとって一貫性が重要な理由
AIモデルは「USA」と「United States」を異なる値として扱います。レコードで両方が使われていると、AIはそれらを正しくグループ化できません。一貫性のないデータはAIの理解を分断し、信頼できない出力を生みます。
一貫性を実現する方法
- 可能な場合は自由入力ではなく選択リストを使う
- 各フィールドで単一のフォーマットに標準化する
- DQSの一貫性チェックを設定する際に選択リスト値からインポートする
次元のバランス
すべての用途で各次元が同じ重みを持つわけではありません。必要なものを検討しましょう。
| 用途 | 優先すべき次元 |
|---|---|
| マーケティングキャンペーン | 完全性、妥当性(配信到達のため) |
| 営業予測 | 適時性、完全性 |
| カスタマーサービス | 一意性(唯一の情報源) |
| AI/Agentforce | 5つすべて、加えてAI対応チェック |
DQSの次元カバレッジ
DQSは5つの次元すべてを包括的な機能で測定します。
| 次元 | DQSの測定内容 |
|---|---|
| 完全性 | 入力率、null検出、空欄検出、プレースホルダ検出、コンテキストロジック |
| 妥当性 | フォーマット検証、カスタム正規表現パターン、無効レコードの特定 |
| 一意性 | 重複検出、エントロピー分析、頻度分布 |
| 適時性 | 鮮度率、古さ検出、平均経過期間、未来日検出 |
| 一貫性 | 準拠チェック、バリアント発見、主要値分析 |
次のステップ
5つの次元を理解したら、次に進みましょう。
- AI対応度診断を受けて現在のスコアを確認する
- 基本的なデータ品質を超えた追加チェックについてAgentforce準備を読む
- 定義ビルダーの使い方を学び、最初のスキャンを設定する