Tipo de variables del data set para modelos predictivos


#1

Soy nuevo creando modelos predictivos, ahorita estoy trabajando en un modelo de predicción del CHURN, la duda que tengo es si todas las variables del data set deben ser númericas? Si la respuesta es no, en qué casos recomiendan utilizar variables tipo de texto?
Gracias!


#2

Hola Edo, no importa si estas creando un modelo de churn o de propension de compra, el asunto de los tipos de variables es propio de como estan implementados los algoritmos.

Hay modelos que funcionan con variables mixtas, categoricas y numericas ej random forest. Otros no aceptan nulos, otros solo variables numericas (ej: xgboost).

Con respecto a “en qué casos recomiendan utilizar variables tipo de texto?”, es mas comun pasar de variables de texto a numericas. No conozco una regla general que diga cuando usar texto. Si las variables estan como texto, y el algoritmo lo admite, entonces la uso, sino la convierto (con one hot encoding por ejemplo).

Fijate este capitulo (en ingles) habla sobre los tipos de datos en modelos predictivos: https://livebook.datascienceheroes.com/data-preparation.html#data_types


#3

Muchas gracias Pablo voy a revisarlo.


#4

Hola EDO, recibe un saludo
En relación a tu pregunta te puedo comentar que un modelo general pueden incluir distintos tipos variables tanto en la parte explicativa (x, input ) como en la parte dependiente (y, output, target) estas pueden ser numericas, factores, texto, etc. Los importantes es que definas que tipo de modelos vas utilizar. Usualmente conozco que para modelo churn utiliza regresión logistica (respuesta 1 y 0) pero también puede aplicar otros tipos de modelos.
La variables de texto en la parte explicativa de un modelo indica la presencia o usencia de una caracteristica relacionada al individuo (ejemplo tiene seguro , no tiene seguro ; otro nivel socioeconomico A, B, C, D,E )

Saludos