データサイエンティスト検定のスキルチェックリストDS47及びDS48に関する解説を行います。
DS47:片側検定と両側検定の違いを説明できる
片側検定:統計的仮説検定の一つで、特定の方向において効果や差があるかどうかを調べる手法です。
この検定では帰無仮説に「効果や差がない」という内容を設定し、対立仮説に「片側方向の効果や差がある」といった内容を設定します。下記のような例があります。
帰無仮説:新薬は旧薬と効果は同じである。
対立仮説:新薬は旧薬より効果が大きい(小さい)
上記の例のように対立仮説が片方向に限定している場合に使用できます。
両側検定:統計的仮説検定の手法で、あるパラメータが特定の値から「両方向に」異なるかどうかを調べる方法です。具体的には、パラメータが指定した値よりも大きいか小さいかに関わらず、どちらの方向にも差があるかどうかを検定します。この検定では帰無仮説に「効果や差がない」という内容を設定し、対立仮説に「効果に大なり小なり差がある」といった内容を設定します。下記のような例があります。
帰無仮説:新薬は旧薬と効果は同じである。
対立仮説:新薬は旧薬と効果が異なる
上記の例のように対立仮説が両側にある場合に使用できます。
優位水準のあつかい
片側検定と両側検定での優位水準の違いを説明します。
片側検定では優位水準をそのまま使用しますが、両側検定では使用する優位水準の半分づつを下限側と上限側で使用します。具体的に0.05を例に考えると、下限に0.025、上限に0.025扱いになります。
p値のあつかい
片側検定と両側検定での判定を行う際のp値と優位水準の対比について説明します。
片側検定ではp値と優位水準をそのまま使用しますが、両側検定では上下限でp値を加算してその合計値が優位水準を超えるかどうかで、帰無仮説の棄却を判断します。
DS48:検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し、適用できる
ここでは「2群の平均値の差」を検定するためのプロセスについて解説していきます。まずデータの対応について説明します。
データの対応:統計的データがどのように収集され、どのような関連性があるかを指します。その種類には「対応のあるデータ」と「対応のないデータ」があり独立データとペアデータと解釈できます。
独立データ
独立データ:各データ点が他のデータ点と独立しており、異なるサンプルから収集されたデータ。下記のような例があります。
- 異なるグループ比較: 2つの異なるグループの平均身長の比較。
- 別々のグループ: 2つの異なる治療法を受けた別々のグループの効果の比較。
ペアデータ
ペアデータ:同じ対象(または関連する対象)から2つの異なる条件や時間点でのデータが収集される場合。下記のような例があります。
- 前後比較 : 同じ被験者がある治療法の前後で測定された体重や血圧。
- 繰返し測定: 同じ被験者が異なる時間点でのパフォーマンスや健康状態のデータ。
検定手法の選択
z検定
≪前提条件≫
- 一般的にn>30のサンプルサイズが大きい
- 母分散が既知である
- 正規分布に従う
≪使用例≫
- 1標本のz検定:単一のサンプルの平均値が、既知の母集団平均と異なるかどうかを検定します。
- 2標本のz検定:2つの独立したサンプルの平均値が異なるかどうかを検定します。
- 比率の検定:2つの比率が異なるかどうかを検定します。例えば、2つのグループ間の成功率の比較です。
t検定
≪前提条件≫
- 一般的にn<30のサンプルサイズが小さい
- 母分散が未知である
- 正規分布に従う
≪使用例≫
- 1標本のt検定:単一のサンプルの平均値が、既知の母集団平均と異なるかどうかを検定します。
- 独立サンプルのt検定:2つの独立したサンプルの平均値が異なるかどうかを検定します。等分散の場合スチューデントのt検定を使用し、分散が異なる場合にはウェルチのt検定を使用します。
- ペアサンプルのt検定:同じ対象に対して2つの異なる条件や時間点でのデータの平均値の差を検定します。
F検定
≪前提条件≫
- 独立データである
- 比較するデータが等分散である
- 正規分布に従う
≪使用例≫
- 分散の比較:2つの異なるグループまたはサンプルの分散が等しいかどうかを検定します。
- 分散分析:複数のグループ間での平均値の違いが統計的に有意かどうかを検定します。分散分析は、複数のグループの平均値を比較する際に使用されます。要因の数によって計算方法が異なります。
コメント