データサイエンティスト検定のスキルチェックリストDS54及びDS55に関する解説を行います。
DS54:ある変数が他の変数に与える影響(因果効果)を推定したい場合、その双方に影響を与える共変量(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など)
従属変数(アウトカム):研究や実験で独立変数の変化によって影響を受ける依存変数です。 たとえば、薬剤の効果を測定する際には、症状の改善度や生存率がアウトカムになります。
独立変数:実験や研究で操作される変数で、他の変数(従属変数)に対して影響を与えると考えられる要素です。
要因:独立変数の一部で、実験や研究で変化させる条件や変数で、結果に影響を与える可能性がある要素です。
交絡因子:研究や実験で調査対象の従属変数に影響を与える可能性があり、独立変数と従属変数の関係を誤って解釈させる要因のことです。交絡因子は、独立変数と従属変数の間に偽の因果関係を作り出し、結果を混乱させる可能性があります。
中間因子:独立変数と従属変数の間に位置し、独立変数の影響を従属変数に伝達する役割を果たす変数です。中間因子は、独立変数が従属変数にどのように影響を与えるかを理解するために重要です。
それぞれの関係性と例
それぞれの変数や因子は下図のような関係にあります。その例を右に示します。ここでは、製造工程のプロセス温度が製品の品質に与える影響について説明します。
製造プロセス温度は、中間因子である製品の硬度に直接的な因果関係を持ち、結果として製品の品質に影響を与えます。ここで交絡因子として原材料の品質があり、原材料の品質が製品の品質にも影響を与えるため、温度と品質の関係を確認する際にはこの交絡因子の影響も考慮する必要があります。
DS55:分析の対象を定める段階で選択バイアスが生じる可能性があることを理解している(途中離脱者の除外時、欠損データの除外時など)
選択バイアス:研究や調査において、サンプルが偏って選ばれることによって、結果が実際の状況を正確に反映しない誤差のことです。選択バイアスが存在すると、研究結果が偏り、一般化や結論に誤りを招く可能性があります。選択バイアスには以下のようなバイアスがあります。
脱落バイアス:選択バイアスの一つで研究や調査の途中で参加者が脱落することによって生じる偏りのことです。脱落バイアスが発生すると、残ったデータが元々のサンプルと異なり、結果が偏ってしまう可能性があります。例として新薬の検証過程で体調不良者は脱落したため、残った参加者だけで結果を導くと事実よりも結果がよくなるというもの。
欠測データバイアス:データセットに欠損値が含まれている場合、その欠損の仕方が分析結果に影響を与える現象を指します。欠測データバイアスは、データが欠損している理由がランダムでない場合に発生し、分析やモデルの結果に歪みをもたらす可能性があります。
自己選択バイアス:データの収集やサンプルの選定過程において、サンプルが自分自身で選ばれるために生じるバイアスのことです。これは、データの収集方法や研究対象者が調査に参加するかどうかを自分で決定する場合に、サンプルが全体の母集団を代表しない可能性があることを意味します。例えると、特定分野のアンケートなどがあり参加者はそもそもその分野に興味のある人が集まるので正しく母集団を表さないことがあります。
コメント