DS051:条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる
本記事で解決できる課題
- データから事象の関係性を定量的に評価する方法を知りたい。
- マーケティングやビジネス分析において、商品の売れ行きやユーザー行動を分析したい。
- 「信頼度」「支持度」「リフト値」の意味と実際の活用方法を理解したい。
データ分析を行う際、「ある条件(X)が発生したときに、ある事象(Y)がどの程度発生するか?」を評価することが重要です。この記事では、信頼度・支持度・リフト値という3つの指標を用いて、事象の関係性を客観的に分析する方法を解説します。
信頼度(Confidence)
信頼度とは?
信頼度は、「条件Xが発生したときに、事象Yも発生する確率」を示します。
例:購買データの分析 あるスーパーで、「パンを買った人がバターも買う確率」を知りたい場合、
- 「パンを購入した顧客数」= 100人
- 「パンとバターを両方購入した顧客数」= 40人
この場合、 信頼度 = 40 ÷ 100 = 0.4(40%)
つまり、「パンを買った人のうち40%がバターも購入している」ということになります。
支持度(Support)
支持度とは?
支持度は、「条件Xと事象Yが同時に発生する割合」を示します。
例:マーケティング分析
- データ全体(来店客)= 1000人
- パンとバターを両方購入した顧客数= 40人
この場合、 支持度 = 40 ÷ 1000 = 0.04(4%)
支持度が高いほど、XとYの組み合わせが頻繁に発生していることを意味します。
リフト値(Lift)
リフト値とは?
リフト値は、「XとYが独立して発生する場合に比べて、Xが発生したときにYが発生する確率がどれくらい高いか」を示す指標です。
解釈
- リフト値 = 1:XとYは無関係(独立している)
- リフト値 > 1:XとYは正の関係(Xが発生するとYも発生しやすい)
- リフト値 < 1:XとYは負の関係(Xが発生するとYが発生しにくい)
例:ECサイトの分析
- 「バターを購入する確率」= 10%(全顧客のうち100人が購入)
- 先ほどの例で「パンを購入したときのバター購入確率」= 40%
リフト値 = 0.4 ÷ 0.1 = 4.0
これは、「パンを買った人は、全体の平均よりも4倍バターを買いやすい」ということを意味します。
これらの指標の活用方法
これらの指標は、マーケティングやデータ分析に広く使われています。
① 商品のバスケット分析
- 例:「スーパーで牛乳を買った人は、チーズを買いやすいか?」
- → 信頼度・支持度・リフト値を活用し、相関の強い商品をセット販売。
② ユーザー行動分析
- 例:「ある記事を読んだ人は、どのカテゴリの記事を読んでいるか?」
- → コンテンツのおすすめ機能に活用。
③ 不正検出
- 例:「クレジットカードの不正利用パターンを見つける」
- → 典型的な不正取引パターンを分析し、異常検知に利用。
まとめ
- 信頼度:Xが発生したときにYが発生する確率(X→Yの条件付き確率)。
- 支持度:XとYが同時に発生する割合(データ全体に対する割合)。
- リフト値:XとYが独立である場合と比べ、どの程度関係が強いかを示す指標。
これらの指標を活用することで、購買データの分析やマーケティング戦略の立案、異常検知など、さまざまなビジネス領域での意思決定が可能になります。
「どの商品を一緒に並べると売れるのか?」「特定の行動をしたユーザーは、どんな行動を取る傾向があるのか?」
このような疑問に対するヒントとして、信頼度・支持度・リフト値を活用してみてください!
コメント