Churn Prediction

Data Driven Growth with Python

Churn Prediction with Xgboost Binary Classification

denne artikkelserien er designet for å forklare Hvordan Du bruker Python på en forenklet måte for å øke bedriftens vekst ved å bruke prediktiv tilnærming til alle dine handlinger. Det vil være en kombinasjon av programmering, dataanalyse og maskinlæring.

jeg vil dekke alle emnene i de følgende ni artiklene:

1 – Kjenn Dine Beregninger

2 – Kundesegmentering

3 – Kunde Levetidsverdi Prediksjon

4 – Churn Prediksjon

5 – Forutsi Neste Kjøpsdag

6 – Forutsi Salg

7 – Markedsresponsmodeller

8 – uplift modeling

9 – A/B Testing Design Og Utførelse

Artikler Vil Ha Sine Egne Kodesnutter For Å Gjøre Det Enkelt Å Bruke Dem. Hvis du er super ny til programmering, kan du ha en god introduksjon for Python og Pandas (et beromt bibliotek som vi vil bruke pa alt) her. Men fortsatt uten en kodende introduksjon, kan du lære konseptene, hvordan du bruker dataene dine og begynne å generere verdi ut av det:

Noen ganger må du løpe før du kan gå — Tony Stark

som en forutsetning, vær Sikker På At Jupyter Notebook og Python er installert på datamaskinen. Kodesnutter vil kjøre på Jupyter Notebook bare.

Ok, la oss starte.

i De tre siste delene Av Datadrevet Vekstserie har vi oppdaget sporing av viktige beregninger, kundesegmentering og forutsi levetidsverdien programmatisk. Siden vi kjenner våre beste kunder ved segmentering og levetidsverdi prediksjon, bør vi også jobbe hardt for å beholde dem. Det er det som gjør Retention Rate er en av de mest kritiske beregningene.

Retention Rate er en indikasjon på hvor god er produktet market fit (pmf). Hvis DIN PMF ikke er tilfredsstillende, bør du se kundene dine churning veldig snart. Et av de kraftige verktøyene for å forbedre Retention Rate (dermed PMF) er Churn Prediction. Ved å bruke denne teknikken, kan du enkelt finne ut hvem som er sannsynlig å churn i en gitt periode. I denne artikkelen, vi vil bruke En Telco datasett og gå over følgende trinn for å utvikle En Churn Prediksjon modell:

  • Utforskende dataanalyse
  • Funksjonsteknikk
  • Undersøke hvordan funksjonene påvirker Oppbevaring Ved Hjelp Av Logistisk Regresjon
  • Bygge en klassifiseringsmodell Med XGBoost

Utforskende Dataanalyse

vi starter med å sjekke ut hvordan dataene våre ser ut og visualisere hvordan de samhandler med etiketten vår (kvernet eller ikke?). La oss starte med å importere dataene våre og skrive ut de første ti radene:

df_data = pd.read_csv('churn_data.csv')
df_data.head(10)

Utgang:

en bedre måte å se alle kolonnene og deres datatype bruker. info () – metoden:

det virker som våre data faller inn under to kategorier:

  • Kategoriske funksjoner: kjønn, streaming tv ,betalingsmetode &, etc.
  • Numeriske funksjoner: tenure, månedlige kostnader, totale kostnader

nå starter vi fra de kategoriske, vi kaster lys over alle funksjoner og ser hvor nyttige de er for å identifisere om en kunde skal churn.

Som et sidenotat, i datasettet vi har, Er Churn-kolonnen streng Med ja/Nei-verdier. Vi konverterer det til heltall for å gjøre det enklere å bruke i vår analyse.

df_data.loc = 0 
df_data.loc = 1

Kjønn

ved å bruke kodeblokken nedenfor kan vi enkelt visualisere Hvordan Churn Rate (1-Retention Rate) ser ut for hver verdi:

df_plot = df_data.groupby('gender').Churn.mean().reset_index()
plot_data = ,
y=df_plot,
width = ,
marker=dict(
color=)
)
]plot_layout = go.Layout(
xaxis={"type": "category"},
yaxis={"title": "Churn Rate"},
title='Gender',
plot_bgcolor = 'rgb(243,243,243)',
paper_bgcolor = 'rgb(243,243,243)',
)
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

Utgang:

Churn Rate Etter Kjønn

kjønnsfordeling for churn rate:

Kvinnelige kunder er mer sannsynlig å churn vs mannlige kunder, men forskjellen er minimal (~0.8%).

la oss kopiere dette for alle kategoriske kolonner. Å ikke gjenta hva vi gjorde for kjønn, du kan finne koden som trengs for alle under:

Nå går vi over funksjonene som viser den viktigste forskjellen på tvers av deres verdier:

Internett-Tjeneste

Churn Rate Av Internett-Tjenesten

dette diagrammet viser kunder som har Fiberoptisk Som Internett-Tjeneste er mer sannsynlig å churn. Jeg forventer Normalt Fiberoptiske kunder å churn mindre på grunn av at de bruker en mer premium service. Men dette kan skje på grunn av høye priser, konkurranse, kundeservice og mange andre grunner.

Kontrakt

Churn Rate Etter Kontrakt

som forventet betyr kortere kontrakt høyere churn rate.

Teknisk Støtte

Churn Rate Av Teknisk Støtte

Kunder bruker Ikke Teknisk Støtte er mer som å churn (~25% forskjell).

Betalingsmetode

Automatisering av betalingen gjør kunden mer sannsynlig å beholde i plattformen din (~30% forskjell).

Andre

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.