データサイエンティスト検定のスキルチェックリストDS141及びDS153に関する解説を行います。
DS141:線形回帰分析とロジスティック回帰分析のそれぞれが予測する対象の違いを理解し、適切に使い分けられる
線形回帰分析とロジスティック回帰分析は、どちらも回帰分析の手法ですが、それぞれ異なるタイプのデータと予測対象に対応しています。以下で、それぞれの違いと使い分けについて説明します。
線形回帰分析
予測する対象
連続値: 数値が連続的なデータを予測するのに適しています。予測値は実数であり、負の値を取ることもあります。
モデルの形式
線形回帰モデルは次のように表されます
用途
連続的な結果を予測する場面で使用されます。例えば、不動産の価格予測、株価の予測、テストの点数予測などが挙げられます。
ロジスティック回帰分析
予測する対象
カテゴリカルな変数:ロジスティック回帰分析は、有無などの01で表されるカテゴリカルなデータを予測するのに適しています。予測される値は確率として解釈され、通常は0から1の範囲に収束します。
モデルの形式
ロジスティック回帰モデルは次のように表されます。P(y=1)は結果が1になる確率を表します。
用途
2つまたは複数のカテゴリーに分類する問題で使用されます。例えば、顧客が製品を購入するかどうかの予測、メールがスパムかどうかの分類、病気の診断などが挙げられます。
使い分けのポイント
-
データの種類
連続的な数値を予測したい場合は線形回帰を使用します。
カテゴリカルな結果を予測したい場合はロジスティック回帰を使用します。 -
モデルの出力
線形回帰では、予測値が実数(連続値)になります。
ロジスティック回帰では、予測値は確率として解釈され、通常は0と1の間に収束します。 -
目標の性質
予測対象が連続値の場合は線形回帰が適しています。
予測対象が二値または複数のカテゴリーに分かれる場合はロジスティック回帰が適しています。
DS153:ROC曲線、AUC(Area under the curve)を用いてモデルの精度を評価できる
ROC曲線(Receiver Operating Characteristic Curve)とAUC(Area Under the Curve)は、二値分類モデルの性能を評価するための重要な手法です。これらを用いることで、モデルがどれだけ良くクラス分けを行っているかを視覚的かつ定量的に評価できます。以下に、それぞれの概念とその利用方法について説明します。
ROC曲線 (Receiver Operating Characteristic Curve)
ROC曲線は、分類モデルの性能を可視化するためのグラフです。特に、分類の閾値を変えたときのモデルの真陽性率(TPR)と偽陽性率(FPR)をプロットしたものです。
-
真陽性率 (TPR): 実際にポジティブであるサンプルの中で、モデルがポジティブと正しく予測した割合。
TPR = 真陽性 ÷ ( 真陽性 + 偽陰性 ) -
偽陽性率 (FPR): 実際にはネガティブであるサンプルの中で、モデルがポジティブと誤って予測した割合。
FPR = 偽陽性 ÷ ( 偽陽性 + 真陰性 )
ROC曲線の特徴
- ROC曲線は、FPR(横軸)とTPR(縦軸)をプロットすることで描かれます。
- 曲線が左上隅に近いほど、モデルの性能が良いことを示します。理想的には、ROC曲線が左上の点(0, 1)に接近することが望ましいです。
AUC (Area Under the Curve)
AUCはROC曲線の下にある面積を表す指標です。AUCはモデルの全体的な性能を1つの数値で示すもので、以下のように解釈されます。
- AUC = 1: 完全に正確な分類モデル。すべてのポジティブサンプルがポジティブと予測され、すべてのネガティブサンプルがネガティブと予測される。
- 0.5 < AUC < 1: モデルがランダムな予測よりも優れているが、完璧ではない。
- AUC = 0.5: モデルがランダムな予測と同じ性能しか持たない。すなわち、分類能力がない。
- AUC < 0.5: モデルがランダムな予測よりも劣る。逆に予測が逆になっている可能性がある。
AUCの計算方法:
- ROC曲線の下にある面積を積分などの方法で計算します。AUCはROC曲線が示すモデルの全体的な分類能力を数値で示します。
コメント