Pythonによるデータ駆動型成長
XGBoostバイナリ分類による解約予測
この一連の記事は、すべての行動に予測アプローチを適用することによ これは、プログラミング、データ分析、および機械学習の組み合わせになります。
私は次の九つの記事ですべてのトピックをカバーします:
1-メトリックを知る
2-顧客セグメンテーション
3-顧客生涯価値予測
4-解約予測
5-次の購入日の予測
6-売上高の予測
7-市場応答モデル
8-uplift modeling
9-A/Bテストの設計と実行
記事には、それらを簡単に適用できるようにするための独自のコードスニペットがあります。 あなたがプログラミングに非常に慣れていない場合は、ここでPythonとPandas(私たちがすべてで使用する有名なライブラリ)の良い紹介をすることができま しかし、コーディングの紹介がなくても、概念、データの使用方法を学び、そこから価値を生み出し始めることができます:
Tony Stark
前提条件として、Jupyter NotebookとPythonがコンピュータにインストールされていることを確認してください。 コードスニペットはJupyter Notebookでのみ実行されます。
よし、始めましょう。
Data Driven Growthシリーズの最後の三つのセクションでは、重要な指標の追跡、顧客のセグメンテーション、およびプログラムでの寿命値の予測を発見しました。 私たちはセグメンテーションと生涯価値予測によって最高の顧客を知っているので、私たちはそれらを保持することにも努力すべきです。 それは保持率が最も重要な指標の一つであることを作るものです。
リテンション率は、製品市場適合性(PMF)がどれほど良好であるかを示しています。 あなたのPMFが満足でなければ、あなたの顧客が非常にすぐにかき回すのを見るべきです。 保持率(したがってPMF)を改善するための強力なツールの1つは、解約予測です。 この手法を使用することで、特定の期間に誰が解約する可能性があるかを簡単に知ることができます。 この記事では、電話会社のデータセットを使用し、解約予測モデルを開発するために次の手順に進みます:
- 探索的データ分析
- フィーチャエンジニアリング
- ロジスティック回帰を使用してフィーチャが保持にどのように影響するかの調査
- XGBoostを使用した分類モデルの構築
探索的データ分析
まず、データがどのように見えるかをチェックし、ラベルとどのように相互作用するかを視覚化することから始めます。). データのインポートから始めて、最初の10行を印刷しましょう:
df_data = pd.read_csv('churn_data.csv')
df_data.head(10)
:
すべての列とそのデータ型を表示するより良い方法は、.info()メソッドを使用することです:
私たちのデータは二つのカテゴリに分類されるようです:
- <8355>など。
- : テニュア、月額料金、合計料金
カテゴリのものから始めて、すべての機能に光を当て、顧客が解約しようとしているかどうかを識別するのにどれだけ役補足として、私たちが持っているデータセットでは、Churn列はYes/No値を持つ文字列です。 分析で使用しやすくするために、整数に変換します。
df_data.loc = 0
df_data.loc = 1
性別
以下のコードブロックを使用すると、各値の解約率(1-保持率)がどのように見えるかを簡単に視覚化できます:
df_plot = df_data.groupby('gender').Churn.mean().reset_index()
plot_data = ,
y=df_plot,
width = ,
marker=dict(
color=)
)
]plot_layout = go.Layout(
xaxis={"type": "category"},
yaxis={"title": "Churn Rate"},
title='Gender',
plot_bgcolor = 'rgb(243,243,243)',
paper_bgcolor = 'rgb(243,243,243)',
)
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)
出力:
解約率の性別別内訳:
女性顧客は男性顧客に対して解約する可能性が高くなりますが、その差は最小限です(〜0.8%)。
すべてのカテゴリ列に対してこれを複製しましょう。 私たちが性別のためにしたことを繰り返さないために、あなたは以下のすべてに必要なコードを見つけることができます:
ここでは、その値の間で最も大きな違いを示す機能について説明します。
インターネットサービス
このグラフは、インターネットサービスとして光ファイバーを持っている顧客が解約する可能性が高いことを示しています。 私は普通繊維光学の顧客がより優れたサービスを使用するより少なく原因で解約すると期待する。 しかし、これは、高価格、競争、顧客サービス、および他の多くの理由のために発生する可能性があります。
予想通り、契約が短いほど解約率が高いことを意味します。
技術サポートを使用していない顧客は、より解約するのが好きです(-25%の差)。
お支払い方法
支払いを自動化すると、顧客はプラットフォームに保持する可能性が高くなります(-30%の違い)。
その他