データサイエンティスト検定のスキルチェックリストDS61及びDS62に関する解説を行います。
DS61:単独のグラフに対して、集計ミスや記載ミスなどがないかチェックできる
データを分析している際には様々なミスが発生しますその一例を下記に示します。
これらの二つのグラフは以下の内容を示しています:
-
左のグラフ: 「日付ごとのポイント付与総数」
- このグラフは、各日付ごとにすべての顧客から付与されたポイントの合計を表示しています。具体的には、日付ごとに各顧客からのポイントを集計し、その日の総ポイントを示しています。
-
右のグラフ: 「顧客IDごとの最新のポイント付与総数」
- このグラフは、各顧客IDについて、最新の日付に付与されたポイントだけを抽出し、それらを日付ごとに合算したものです。つまり、顧客ごとに最新のポイント付与データを取り出し、それを基にポイントの合計を示します。
(右)のグラフを目的として分析を行っていた場合、「最新の日付」という事を考えると複数回利用している人もいることからグラフは右肩上がりになることが想像できます。しかし結果として(左)のグラフが出てきた場合には異常に気が付けるようにしましょう。
よくあるミス
-
集計ミス
- データの漏れ: 特定の日付や顧客IDのデータなど一部のデータが集計に含まれていない場合。
- 重複データ: 同じ顧客のポイントが二重に計上されているなど同じデータが複数回集計されている。
- 不正確な合計: 各日付の合計ポイントが合わないなど合計値が誤っている場合。
-
グラフの設定ミス
- スケールの誤設定: 過度にスケールが大きいなど軸のスケールが適切でない場合。
- ラベルの欠落: 軸ラベルやタイトルが欠けている。または、ラベルが不正確で、グラフの内容が不明瞭になる。
-
データの誤表現
- 不適切なグラフタイプ: 時系列データに対して円グラフを使用しているなどデータの種類に対して不適切なグラフタイプを使用する。
- データの不一致: グラフのデータと元のデータが一致しない。
-
視覚的なミス
- グラフの要素の配置: 凡例やラベルの配置が不適切で、グラフが見づらくなっている。
-
計算ミス
- 数式のエラー: グラフ作成時に使用した数式や計算式に誤りがある。
- データの更新漏れ: データが更新されていない場合。
-
サンプリングエラー
- 代表性の欠如: データサンプルが全体を代表していない場合。
- 外れ値の処理: 外れ値が適切に処理されていない場合。
DS62:データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる
下記のような視点でデータの質や量について確認する事が正しい分析結果を導く際には重要です。
量のチェックポイント
-
サンプルサイズの適切性
- 統計的に十分な量か: 目的の統計値を得るために十分な件数のデータがあるか?
-
データの完全性
- データの欠損:データセットに欠損値がないか確認します。
- 重複データ:同一のデータが重複していないか確認します。
-
網羅度
- 代表性:データが対象全体を代表しているか確認します。
- 期間の適切性:データ収集期間が分析の目的に適しているか確認します。
質のチェックポイント
正確性
- データの正確性:データが実際の状況を正確に反映しているか確認します。
- エラーチェック:データ入力時や収集時にエラーがないか確認します。
一貫性
- データフォーマットの統一:データが一貫したフォーマットで保存されているか確認します。
- ルールの適用:データ入力に関するルールや基準が適切に適用されているか確認します。
信頼性
- データソースの信頼性:データの収集元が信頼できるか確認します。
- データの最新性:データが最新であるか確認します。
精度
- 測定精度:データが十分な精度で測定されているか確認します。
- データの整合性:データ間で矛盾がないか確認します。
完全性
- データの完全性:顧客ID、日付、ポイントなど必要なすべてのデータが揃っているか確認します。
- 異常値の処理:異常なデータポイントが適切に処理されているか確認します。
コメント