Seleccion segmentada por percentiles


#1

Buenos dias! Les explico un poco el contexto del problema. Y quiero aclarar que si bien me animé por un enfoque quería saber que les parecia. Pues no le veia una contra, pero me deja intranquilo en cierto aspecto.

Estoy con la tarea de determinar que articulos son los mejores en nuestro sitio.
Como datos me pude hacer de las observaciones sumarizadas diarias sobre items, queremos determinar aquellos que sobresalen del resto, considerando ciertos atributos(vistas, ventas, reviews). Para lo cual asumimos que esos atributos en el tiempo se distribuyen de forma normal.

Tomamos las medias de los atributos para cada uno de los items.

Y luego seguimos estos pasos:

1- Armamos una distribución normal con las medias y conseguimos los percentiles.

2- En otro siguiente paso nos quedamos con los items que en ese periodo de tiempo tienen medias sobre el percentil 0.75.

Este proceso se realiza en forma jerárquica. Es decir calculamos las medias de los items para el atributo 1. Armamos la distribución normal, sacamos los percentiles y nos quedamos con los items que tienen una media sobre ese atributo sobre el percentil 0.75 .

Luego con la muestra resultante volvemos a hacer lo mismo con el atributo siguiente en la jerarquía(vistas->ventas->reviews) hasta conformar una muestra final y esos son mis mejores candidatos.

Obtener los percentiles nos aporta una referencia para saber donde se ubican los items con respecto a esas observaciones, mediante los percentiles Q1(25%), Q2(50%==media), Q3(75%). El valor del percentil Q3 indica que el 75% de las observaciones de la población quedan por debajo de este valor.

Esto quiere decir que tomar sobre el percentil Q3 es tomar el 25% más significativo (un desvío estándar sobre la media) de los valores que superan la media poblacional, por ende esos son los que se destacan de alguna manera.

Queria saber que les parecia este enfoque. Pues no le veia una contra, pero me deja intranquilo en cierto aspecto.


#2

Hay varias cosas en las cuales trataria de revisar si puede ocasionar problemas:

  1. “asumimos que esos atributos en el tiempo se distribuyen de forma normal.”, si tenes los datos, porque asumis esto? Podrias simplemente revisar si la distribucion realmente es normal, si no lo es, podria ser problematico.

  2. Porque 75? Porque no 50? 80? 90? etc? Es decir, que te hizo elegir ese numero en particular?

  3. Cualquiera de las 3 metricas alcanza para que sea “destacado”?

  4. Esta categoria de destacado, luego se usa para mostrar un “showcase” de esos productos? Quizas esta bien, pero a tener en cuenta que podes reforzar las mismas variables, o sea ocasionar mas ventas/vistas/reviews por destacarlos, haciendo que cada vez mas se vendan los mismos productos (Que quizas sea lo que quieren, no lo se)