データ品質の定義
データ品質とは、データが本来の目的にどの程度適しているかを測る指標です。絶対的な意味で「正しい」かどうかではありません。意思決定、業務、分析の用途において、データが使用に適しているかどうかです。
顧客の住所は、顧客に届けば品質が高いと言えます。製品コードは、システムが認識できれば品質が高いと言えます。品質はコンテキストに依存します。
「目的適合性」の原則
データ品質は文脈依存的です。配送先住所は番地レベルの精度が必要です。マーケティングの地域区分は国や州だけで十分です。両者とも、異なる精度レベルで「高品質」と言えます。
データ品質を評価する際は、こう問いましょう。「このデータは何をする必要があるのか。」そして、それを実現できているかを測定しましょう。
5つの次元のフレームワーク
データ品質は5つの主要な次元で測定されます。このフレームワークは業界全体で採用されており、ISO 8000やDAMAの基準の基礎となっています。
| 次元 | 測定内容 | 例 |
|---|---|---|
| 完全性 | 必要なデータが存在する | すべての必須フィールドが入力されている |
| 妥当性 | データがフォーマットに準拠する | メールアドレスのフォーマットが正しい |
| 一意性 | 重複レコードがない | 顧客ごとに1件のレコード |
| 適時性 | データが最新である | 連絡先情報が90日以内に更新されている |
| 一貫性 | データが統一されている | 「USA」が一貫して使われ、「US」や「United States」が混在しない |
各次元はデータに関する特定の問いに答えます。これらを合わせることで、データ健全性の全体像が見えてきます。
各次元の詳細なガイダンスは次を参照してください。
業界標準とフレームワーク
ISO 8000
ISO 8000規格は、マスターデータ交換に関するデータ品質要件を定義しています。組織間のデータの正確性、完全性、一貫性の原則を確立しています。
DAMA-DMBOK
Data Management AssociationのBody of Knowledge(DAMA-DMBOK)では、データ品質をデータ管理における11の知識領域の1つと位置づけています。測定、監視、改善プロセスに関するガイダンスを提供します。
1-10-100の法則
この原則は、データ品質の低さが引き起こすコストの段階的な増加を示しています。
| 段階 | コスト | 例 |
|---|---|---|
| 予防 | 1ドル | 入力時の検証 |
| 修正 | 10ドル | 入力後のデータクレンジング |
| 失敗 | 100ドル | 質の低いデータによるビジネス影響 |
データ品質に源流で投資することで、下流工程のコストを大幅に削減できます。
データ品質と関連概念の違い
データ品質とデータ管理
データ管理は、データの収集、保管、維持を含む広範な実践です。データ品質はデータ管理の一構成要素で、特に使用への適合性に焦点を当てます。
| 概念 | 範囲 | 焦点 |
|---|---|---|
| データ管理 | データに関するすべての実践 | 保管、アクセス、セキュリティ、ライフサイクル |
| データ品質 | 目的適合性 | 完全性、妥当性、一意性、適時性、一貫性 |
| データガバナンス | ポリシーと所有権 | 誰がデータを所有し、変更できるか、どのルールが適用されるか |
データ品質とデータ精度
精度は「この値は現実を反映しているか」を問います。品質は「このデータは目的のために機能するか」を問います。
メールアドレスは妥当(フォーマットが正しい)でありながら、不正確(本人がもう使っていない)であることがあります。DQSは品質を測定します。フォーマットと完全性は自動化できるからです。精度は通常、外部での検証が必要です。
データ品質の測定方法
定量的な指標
データ品質は測定可能な指標で表現されます。
| 指標タイプ | 例 | 計算方法 |
|---|---|---|
| パーセンテージ | 入力率 | (入力済みレコード / 全レコード) × 100 |
| 件数 | 重複件数 | 値が一致するレコードの数 |
| スコア | 妥当性スコア | 検証ルールをまたいだ加重平均 |
| 比率 | 準拠率 | 準拠値 / 全値 |
しきい値と目標
組織はビジネス要件に基づいてしきい値を設定します。
| レベル | しきい値 | 用途 |
|---|---|---|
| 重要 | 99%以上 | 規制報告用フィールド |
| 高 | 95%以上 | 顧客接点データ |
| 標準 | 85%以上 | 業務データ |
| 低 | 70%以上 | 履歴・アーカイブデータ |
継続測定と時点測定
時点測定はスナップショットを提供します。継続測定はトレンドを追跡し、劣化を早期に捉えます。
DQSは両方のアプローチをサポートします。
- 即時評価のためのアドホックスキャンを実行
- 継続モニタリングのための定期スキャンをスケジュール設定
組織がつまずく理由
1. データサイロ
データが連携していないシステムに分散していると、不整合は自然に発生します。営業は顧客レコードの1バージョンを持ち、サポートは別のバージョンを持ちます。どちらが正しいのかは誰もわかりません。
2. 手動入力のエラー
人によるデータ入力は、タイプミス、不統一なフォーマット、情報の欠落が生じやすいものです。入力規則がないと、これらのエラーは時間とともに積み重なります。
3. 所有権が不明確
データ品質に責任を持つ人がいないと、それは全員の問題となり、誰の優先事項でもなくなります。データスチュワードシップには明確な割り当てが必要です。
4. 測定の欠如
測定していないものは改善できません。多くの組織は、ベースラインの確立や指標の追跡を行わずに、自社のデータは十分に良いと思い込んでいます。
5. 一度きりのクレンジングプロジェクト
データ品質をプロセスではなくプロジェクトとして扱うと、一時的な改善が時間とともに劣化していきます。
ビジネスへの影響
質の低いデータはあらゆる機能に影響します。
| 機能 | 影響 |
|---|---|
| マーケティング | 誤った宛先に送られるキャンペーン、無駄な支出 |
| 営業 | 重複Leadに費やされる時間、失われるコンテキスト |
| 財務 | 不正確なレポート、コンプライアンスリスク |
| 業務 | 欠陥のあるデータに基づく意思決定 |
| AI/ML | 質の低いデータで学習したモデルが質の低い出力を返す |
コストの定量化
MIT Sloanや業界調査の研究によると次のことが示されています。
- 組織はデータ品質の低さにより年間収益の15〜25%を失っている
- 25%以上の組織がデータ問題により年間500万ドル以上を失っている(IBM 2025年)
- 従業員は業務時間の最大27%を質の低いデータの修正に費やしている
AI対応との関係
従来のデータ品質(5つの次元)は、レポートや自動化のためにデータを準備します。Agentforceなどの AIアプリケーションは、同じ基盤に依存します。完全なレコード、妥当なフォーマット、一貫した値、最新のデータ、そして重複のないことです。
これらの5次元に加えて、AIの導入は1つの追加的な懸念事項をもたらします。機密データの露出です。AIエージェントをSalesforceデータに接続する前に、マスキングや除外ができるようPIIの所在を把握しておく必要があります。
DQSは、従来のデータ品質とAI対応の両方を1つのプラットフォームで測定します。
- 5つのデータ品質次元:完全性、妥当性、一意性、適時性、一貫性
- PII Detection:AIへの公開前に、テキストフィールドから機密データ(SSN、クレジットカード、個人情報)をスキャン
データ品質の取り組みを構築する
効果的なデータ品質には3つの要素が必要です。
1. 測定
改善の前にベースラインを確立します。各次元とフィールドで自社がどこに立っているのかを把握しましょう。
2. プロセス
継続的なデータメンテナンスのワークフローを定義します。
- 入力時の検証ルール
- 定期的なクレンジングのスケジュール
- 問題のエスカレーション手順
- 変更管理のプロトコル
3. 文化
組織全体のコミットメントを築きましょう。
- ドメインごとにデータスチュワードを割り当てる
- データ品質を業績指標に含める
- 改善を称え、成功事例を共有する
- ダッシュボードで品質を可視化する
DQSの始め方
DQSはデータ品質の取り組みに測定の基盤を提供します。
- Capabilityを選ぶ:測定する次元を選択する
- 範囲を定義する:分析するオブジェクトとフィールドを選ぶ
- しきい値を設定する:品質基準を定める
- スキャンを実行する:データにわたって分析を実行する
- 結果を確認する:問題を特定し、修正の優先順位をつける
最初のステップは現状を把握することです。AI対応度診断を3分で受けて、データ品質の成熟度をベンチマークしましょう。
次のステップ
- 最初の次元である完全性をさらに深く学ぶ
- 全体像を把握するために5つの次元を読む
- AI固有の要件についてはAgentforce準備を学ぶ
- AI対応度診断を受けて現在のスコアを確認する