データサイエンティスト検定のスキルチェックリストDS51及びDS48に関する解説を行います。
DS51:条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる
信頼度:条件Xが満たされたときに事象Yが発生する確率を示します。具体的には、Xが発生する場合にYも発生する確率のことです。計算式は以下の通りです。信頼度が高いほど、条件Xが発生したときに事象Yが発生する確率が高いことを意味します。
支持度:条件Xと事象Yが同時に発生する確率を示します。つまり、データ全体に対する条件Xと事象Yの同時発生の割合です。計算式は以下の通りです。支持度が高いほど、条件Xと事象Yが一緒に発生する頻度が高いことを意味し、共起頻度とも呼ばれます。
リフト値:条件Xと事象Yの独立性を測る指標であり、条件Xと事象Yの同時発生が偶然かどうかを評価します。リフト値が1より大きい場合、条件Xと事象Yの間に正の関連があることを示し、1より小さい場合は負の関連があることを示します。計算式は以下の通りです。
信頼度、支持度、リフト値はアソシエーション分析と呼ばれる機械学習で用いられます。
DS53:ある特定の処置に対して、その他の変数や外部の影響を除いた効果を測定するためには、処置群(実験群)と対照群に分けて比較・分析する必要があることを知っている
処置群:この群には、研究の対象となる処置や介入が実施されます。
対照群:この群には、処置や介入が実施されません。代わりに、従来の標準治療やプラセボ(偽薬)などが用いられます。対照群は、処置が実施されない場合にどのような結果になるかを示す基準となります。
外部の影響やその他の変数を除く方法
対照群の使用
対照群を用いることで、時間の経過や外部の環境変化などの処置以外の要因が結果に与える影響を比較することができます。これにより、処置が効果を発揮しているかどうかを明確に判断できます。
共変量の調整
実験群と対照群において年齢、性別、基礎疾患などの共変量が異なる場合、共分散分析などの統計的手法を用いてこれらの共変量の影響を調整します。
コメント