La predicción de churn es uno de los usos de big data más populares en los negocios de las startups, ya que permite detectar a los usuarios con mayores probabilidades de dar de baja una suscripción o un servicio. 

Si sabemos qué clientes corren peligro de irse y por qué, podemos implementar acciones enfocadas a retenerlos. 

En 7 Puentes trabajamos enfocados en construir modelos que las startups necesitan para conseguir un churn negativo, de manera que se concentren no sólo en adquirir nuevos clientes sino en ser más eficientes en el up selling y el cross selling. Con esto aumentamos el rendimiento de tu startup para que los clientes se queden, compren más y gasten más.  

El churn prediction funciona como un modelo de análisis de los datos: se observa el comportamiento de los usuarios e identifica cuáles siguen activos después de una cierta cantidad de tiempo. A partir de esto, se infiere qué usuarios están por dejar el servicio y qué indicadores son los más importantes para identificarlos.

Churn prediction en 4 pasos

En esta nota te mostramos paso a paso cómo podés armar tu propio modelo de churn y, así, anticiparte a la pérdida de clientes:

Obtención de datos

Puede parecer simple, pero la recolección de los datos es un aspecto clave (sino el más relevante) de todo el proceso de churn prediction: un modelo predictivo sólo será bueno en tanto y en cuanto los datos que le hayan sido provistos también lo sean.

El objetivo será obtener la mayor y más variada cantidad de datos posible sobre nuestros usuarios. Las técnicas de machine learning permitirán aprovechar mucha más información y variables de lo que sería posible obtener manualmente. 

De todos modos, no basta contar con todos los datos “en crudo”; será necesario dar el siguiente paso para poder hacer un buen uso de nuestros datos.

Preparación de los datos y feature engineering

En esta etapa es donde entran en juego las reglas propias de nuestro negocio y el contexto en el que se desplegará nuestro modelo predictivo: cómo se comportan nuestros usuarios y cuál es la mejor manera de entenderlos. 

Sin esas precisiones la preparación de los datos sería una tarea “a ciegas” y difícilmente aportaría algún valor agregado. 

El desafío que se plantea en esta instancia es poder representar a cada usuario como una colección de variables (features), surgidas de los datos recolectados en el paso anterior, pero también del diseño de nuevas variables (feature engineering).

A partir de un análisis exploratorio de los datos, nos haremos las siguientes preguntas:

¿Qué variables diferencian a los usuarios activos de los que hicieron churn? 

¿Existe correlación entre algunas variables que permitan segmentar a los usuarios? 

¿Qué features pueden introducir un sesgo en el modelo, cuáles ser propensas a introducir ruido y cuáles serán decididamente superfluas?

Tras responder esas preguntas, decidiremos eliminar algunas features o adaptarlas para que nos sean útiles en la siguiente etapa: feature engineering.

¿De qué se trata el feature engineering? Básicamente, de construir nuevas features a partir de los datos que ya tenemos y que vayan a aportar al poder predictivo del modelo que diseñaremos. 

Para diseñar estas features es clave tener un muy buen entendimiento del negocio en el que estamos trabajando y haber hecho un buen análisis de los datos. Creatividad y experiencia es el mix necesario en esta instancia, no es un trabajo ni trivial ni automatizable. 

Un caso de uso de feature engineering

Como especialistas en churn prediction, en 7Puentes hemos ayudado a varias startups a anticiparse a las bajas de sus clientes. 

Vamos a analizar el caso de una empresa de servicios de suscripción mensual.  

Entre las features que teníamos disponibles se encontraba la antigüedad del usuario en la suscripción a la plataforma. 

A simple vista, se podría haber pensado que la antigüedad del usuario podría ser relevante para predecir su permanencia. Sin embargo, utilizar el valor absoluto de esta feature hacía correr el riesgo de introducir un sesgo en el modelo, al predecir el churn sólo entre los usuarios más recientes. 

Para sortear este obstáculo, decidimos dejar de considerar a la antigüedad como valor absoluto y diseñar 3 nuevas features en su reemplazo:

  • Porcentaje del tiempo hasta que se registró el primer evento del usuario
  • Porcentaje del tiempo entre el primer evento y el último que se tiene registro
  • Porcentaje del tiempo entre el último evento y la fecha actual

A raíz de estas nuevas features, pudimos mejorar el poder predictivo del modelo y hacer que se ajuste mucho mejor al comportamiento de nuevos clientes, que era a quienes el sesgo de la antigüedad más afectaba. En concreto, la detección de churn aumentó en un 13%.

Una vez implementadas estas mejoras, el modelo pudo ponerse productivo, listo para empezar a hacer predicciones sobre casos reales de la empresa. 

Esta empresa tenía un churn rate del 30% cuando se contactó con 7Puentes. Una vez que comenzaron a hacer uso de las predicciones del modelo, pudieron dirigir las campañas de retención (promociones, descuentos, mails personalizados) mucho más eficientemente, ya que sabían en qué clientes debían hacer hincapié.

Aplicando estas estrategias a los usuarios indicados por el modelo, lograron reducir el churn rate a un 18%, esto es, una mejora de 12 puntos. 

Diseño del modelo predictivo

Modelos posibles

Si bien existen distintos modelos de machine learning que pueden resultar útiles -dependiendo del tipo de negocio y de datos que tengamos disponibles-, nos vamos a centrar en los más utilizados:

Random Forest

Se trata de un modelo que hace uso de una gran cantidad de árboles de decisión, cada uno construido aleatoriamente.

En un árbol de decisión cada nodo está asociado a una pregunta sobre el valor de una feature y cada posible respuesta está representada por ramas que llevan a otros nodos o directamente al valor final de la predicción.

Red Neuronal

La información de cada usuario se procesa capa por capa, en orden. La última capa de neuronas es la que hace la predicción final en base a la información procesada que recibe de las capas anteriores, ya muy distinta a los datos iniciales que se le proveyeron al comienzo.

Alimentamos la red con la mayor cantidad de casos que tengamos disponibles de usuarios, clasificados por su status de churn. Así, aprenderá las diferencias finas entre los dos grupos de usuarios, comparando automáticamente sus predicciones con el estado real del cliente para ajustar su aprendizaje en caso de que hubiera cometido un error.

Predicciones

El resultado final que obtenemos luego de aplicar los modelos de machine learning elegidos es un listado de todos los usuarios y la probabilidad de que realicen churn.

Esta probabilidad la podemos interpretar de distintas maneras:

  • Se puede aplicar un punto de corte para decidir qué usuarios serán considerados con alto riesgo de churn. Por ejemplo, podemos tomar a todos los que tengan una probabilidad de churn mayor al 50%, o quizás sólo nos interese los que tengan probabilidad mayor a 75%. Esta es una decisión que se debe tomar a nivel negocio.
  • Se puede usar la probabilidad directamente. Por ejemplo optar por aplicar una escala de descuentos a los usuarios dependiendo qué tan alta sea su probabilidad de churn.

Otros insights útiles para prevenir el churn

Además de ayudarnos a identificar usuarios propensos al churn, los modelos son capaces de detectar qué factores pueden estar contribuyendo a que el usuario se dé de baja.

Podemos analizar qué features tienen más peso en las decisiones que toman los clientes, obteniendo así una lista de posibles puntos a atacar para reducir la tasa de churn

En conclusión

No es ninguna novedad que “reconquistar” clientes que ya nos “abandonaron” es algo muy costoso. Y que la retención de clientes individualizada es desafiante cuando se tienen muchos. 

Se vuelve vital adelantarnos, identificando a los clientes con riesgo de irse de nuestra plataforma y enfocando los esfuerzos de retención únicamente en ellos.

Machine Learning es la tecnología que permite hacer un procesamiento inteligente de las huellas que tus clientes dejan en tu plataforma. Conociendo en forma detallada su comportamiento, podés mantener el churn rate de tu startup en niveles bajísimos, sin demasiado esfuerzo.

Uso eficiente de los recursos de la organización + mejora en la experiencia del usuario + impacto directo en las utilidades de la empresa.

He aquí la fórmula del éxito de cualquier startup.

En 7Puentes podemos ayudarte a alcanzarla, a través de la implementación de un modelo eficiente de churn prediction. No esperes más. 

Conocé cómo trabajamos, acá: Machine Learning para tu Startup 

Contactanos.