【DS検定】DS139 単回帰分析、DS140 重回帰分析

データサイエンティスト検定のスキルチェックリストDS139及びDS140に関する解説を行います。

DS139:単回帰分析において最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できる

単回帰分析

1つの独立変数(説明変数)を使って、1つの従属変数(目的変数)を予測するための統計的手法です。基本的には、独立変数と従属変数の間にどんな関係があるかを線形の直線で表し、その直線を使って将来の値を予測したり、変数間の関係を理解したりします。

最小二乗法

回帰分析における主要な手法で、データに最も適した回帰直線やモデルを見つけるために使用され、観測データとモデルの予測値との間の誤差の二乗和を最小化する方法です。

標準誤差

推定値(例えばサンプル平均や回帰係数)の標準偏差を意味します。つまり、同じサンプルサイズで無作為にサンプルを何度も抽出し、各サンプルで推定値を計算したときに、その推定値がどれだけばらつくかを示します。

決定係数

通常は R^2 で表される指標は、回帰分析におけるモデルの適合度を評価するための統計量です。決定係数は、回帰モデルがどれだけデータの変動を説明できるかを示します。

DS140:重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数、自由度調整済み決定係数について説明できる

重回帰分析

複数の独立変数(説明変数)が一つの従属変数(目的変数)に与える影響を分析するための統計的手法です。単回帰分析が一つの独立変数と従属変数の関係をモデル化するのに対して、重回帰分析は複数の独立変数を用いて従属変数を予測します。

重相関係数

複数の独立変数が従属変数に与える影響を総合的に評価するための指標で、モデルの説明力を示します。特に、決定係数 R^2 がよく使われる指標であり、重相関係数 R はその平方根として、説明力の強さを示す重要な指標です。

自由度調整済み決定係数

回帰モデルの説明力をより正確に評価する指標です。通常の決定係数は説明変数が増えると高くなりがちですが、自由度調整済み決定係数は説明変数の数を考慮して調整します。これにより、過剰適合を避け、異なるモデルを公平に比較することができます。

コメント

タイトルとURLをコピーしました