EOI-Master BigData&Bussines Anlytics online Ed.Oct22
Módulo 16. Ejercicio 3 Rafael Vera Marañón
RecomiendaME
Algoritmos de recomendación personalizada
dataset:
movies_etiquetado.csv /ratings_filtratos.csv
Benchmark de algoritmos
La función Reader se usa para especificar cómo se deben leer los datos de entrada, mientras que la clase Dataset se usa para cargar los datos en un objeto que se puede usar para entrenar y evaluar los modelos.Después de la validación cruzada de los algoritmos, se está almacenando el resultado en un diccionario llamado results, donde la clave es el nombre de la clase del algoritmo (obtenido mediante algo.class.name
) y los valores son las métricas de rendimiento (RMSE, MAE, Fit Time y Test Time) calculadas durante la validación cruzada.
# Carga de datos y preparación de datos para Surprise
reader = Reader(ratingscale=(1, 10))
# División en conjuntos de entrenamiento y prueba
dfSurprise = Dataset.loadfromdf(dfratingfiltrados[['userid', 'imdbid', 'rating']], reader)
trainset, testset = traintestsplit(dfSurprise, testsize=0.2, random_state=42)
# Definición de algoritmos
algorithms = [SVD(), SlopeOne(), NormalPredictor(), KNNBaseline(), KNNBasic(), KNNWithMeans(), KNNWithZScore(), BaselineOnly(), CoClustering()]
# Evaluación de los algoritmos mediante validación cruzada
results = {}
for algo in algorithms:
res = crossvalidate(algo, dfSurprise, measures=['RMSE', 'MAE'], cv=5, verbose=False)
results[algo.class.name] = [np.mean(res['testrmse']), np.mean(res['testmae']), np.mean(res['fittime']), np.mean(res['testtime'])]
Recomendaciones con SVD
El algoritmo SVD se utilizará para generar recomendaciones debido a su buen rendimiento en un benchmark previo.Se entrenará con el conjunto completo de entrenamiento y se utilizará el método buildantitestset()
para obtener posibles recomendaciones para cada usuario. Luego se usará el método predict()
para predecir la valoración que le daría a cada película en la lista de recomendaciones y se recomendarán las N películas con mayor valoración.Por último, se generarán recomendaciones para cada usuario de las 10 películas con mayor valoración.Se muestra la tabla de recomendaciones para un usuario concreto (id usuario 873)
# Definir un objeto de lector de Surprise
reader = Reader(rating_scale=(1, 10))
# Cargar el dataframe en un objeto de datos de Surprise
`AllUsersSurprisedf = Dataset.loadfromdf(recomendacionesAllUsersdf[['userid', 'imdbid', 'rating']], reader)
# Seleccionar un algoritmo de recomendación de Surprise
algo = SVD()
# Entrenar el modelo de recomendación utilizando el método fit()
trainset = AllUsersSurprisedf.buildfulltrainset()
# Generar recomendaciones para cada usuario utilizando el método predict()
algo.fit(trainset)
trainset = AllUsersSurprisedf.buildfulltrainset()algo.fit(trainset)
# Generar recomendaciones para todos los usuarios utilizando la función test() de manera vectorizada
testset = trainset.buildantitestset()
# Guardar las mejores recomendaciones en un dataframe
alluserpredictions = algo.test(testset, verbose=False)
dfrecommendations = pd.DataFrame(columns=['userid', 'imdbid', 'predictedrating']).dropna()
# Imprimir las mejores recomendaciones para cada usuario
for uid, userpredictions in groupby(alluserpredictions, key=lambda x: x.uid):
topuserpredictions = list(userpredictions)[:10]
for pred in topuserpredictions:
dfrecommendations = dfrecommendations.append({'userid': uid, 'imdbid': pred.iid, 'predictedrating': round(pred.est, 2)}, ignoreindex=True)
topn = 10
for uid in trainset.allusers():
dfuserrecommendations = dfrecommendations[dfrecommendations['userid'] == uid].head(topn)
INSIGHTS Adicionales
Top10 películas recomendadas
en DFRatingFiltrados
index | imbdb_id | tittle |
---|---|---|
0 | tt1454468 | Gravity |
1 | tt0993846 | The Wolf of Wall Street |
2 | tt0770828 | Man of Steel |
3 | tt1670345 | Now You See Me |
4 | tt0816711 | World War Z |
5 | tt0816692 | Interstellar |
6 | tt1300854 | Iron Man 3 |
7 | tt1535109 | Captain Phillips |
8 | tt1663202 | The Revenant |
9 | tt1392214 | Prisoners |
INSIGHTS Adicionales
Estadisticos principales para las calificaciones
std | valor |
---|---|
count | 54323.0 |
mean | 7.2 |
std | 1.8 |
min | 0.0 |
25% | 6.0 |
50% | 7.0 |
75% | 8.0 |
max | 10.0 |
Text
Text
Distribución de calificaciones
por visualizaciones
En este gráfico se muestra la calificación media realizada por los usuarios frente al número total de calificaciones realizadas por los mismos.Podemos observar como aquellas películas con mayor número de calificaciones destacan por una calificación media inferior a aquellos peliculas con número de calificaciones menores.A menor número de calificaciones parace ser que los usuarios son menos exigentes.No obstante, a menor número de calificaciones, el conjunto se divide aproximadamente al 50% entre buena calificacion (8-10) y entre mala calificacion (0-7). Y a medida que aumenta el número de calificaciones se detecta una tendencia a peores calificaciones.
Valoración media de las películas vistas
por id Usuario
Podemos observar la valoración media de cada usuario respecto a al total de películas visualizadas,en la siguiente gráfica.Destacamos que entorno al 80% de los usuarios han visto entre 1 y 400 películas, las cuales han evaluado entre 6(7) y 10. Usuarios outlayer con valoraciones medias de 0-2. El resto 20% de usuarios han visto entre 400 y 800 películas con valoraciones entorno a 7-10.Como refleja la tabla de estadísticos sobre las calificaciones del conjunto total, observamos en la gráfica una tendencia de calificación entorno a 7.
Distribución temporal de calificaciones
| por hora
| por meses y años
POR HORA DEL DÍA
Según la el diagrama de barras, parece que el horario en el que se realizan mayor número de calificaciones son entre las 18:00 y las 22:00. Mientras que las horas en las que se realizan menos calificaciones son 04:00 - 13:00.
POR MES Y AÑO
Del gráfico de burbujas podemos extraer en primer lugar que con el paso de los años parace que se ven menos peliculas y las valoraciones tienden a ser mas negativas (<7.2).Parece existir cierta tendencia a que los primeros y últimos meses del año son meses en los que hay mayor número de visiualizaciones, con cierta tendencia a peores calificaciones en los meses centrales del año desde 2012 hasta 2016 y con tendencia a mejores calificaciones en meses centrales del año desde 2016 hasta 2021.
Benchmark algoritmos:
Comparación rendimiento y precisión
Algo | RMSE | MAE | Fit Time | Test Time |
---|---|---|---|---|
BaselineOnly | 1.518949 | 1.129375 | 0.159388 | 0.114273 |
SVD | 1.529732 | 1.132446 | 1.087639 | 0.134463 |
KNNBaseline | 1.574430 | 1.163271 | 0.207940 | 0.578067 |
KNNWithMeans | 1.627119 | 1.201913 | 0.097276 | 0.760321 |
KNNWithZScore | 1.629600 | 1.191101 | 0.193466 | 0.726743 |
CoClustering | 1.649781 | 1.220194 | 2.118273 | 0.111457 |
SlopeOne | 1.662809 | 1.240284 | 2.793182 | 1.128861 |
KNNBasic | 1.738261 | 1.294964 | 0.057356 | 0.475777 |
NormalPredictor | 2.508181 | 1.992178 | 0.096070 | 0.124474 |
RMSE y MAE son medidas de error en la predicción de los ratings, donde un RMSE más bajo y un MAE más bajo indican una mejor precisión del modelo. Por lo tanto, los modelos con valores más bajos para estas métricas son mejores para este conjunto de datos. Además, Fit Time y Test Time indican el tiempo que tarda el modelo en entrenar y predecir, respectivamente.Al observar los resultados del benchmark, podemos ver que BaselineOnly y SVD obtienen los valores más bajos de RMSE y MAE, lo que indica que son los modelos más precisos.Además, BaselineOnly tiene un tiempo de ajuste muy bajo, lo que lo hace más eficiente que SVD. KNNBaseline también tiene un RMSE y MAE decentemente bajos y un tiempo de ajuste corto.KNNBasic, KNNWithMeans y KNNWithZScore tienen un RMSE y MAE más alto, lo que indica que son menos precisos que los modelos anteriores.SlopeOne y CoClustering tienen los valores más altos de RMSE y MAE, lo que indica que son los modelos menos precisos. En términos de tiempo de entrenamiento, SlopeOne y CoClustering tardan significativamente más tiempo que los otros modelos. NormalPredictor tiene el tiempo de ajuste más bajo, pero también los valores más altos de RMSE y MAE, lo que indica que es el modelo menos preciso.
Recomendaciones SVD:
Usuario 873
index | user_id | imdb_id | predicted_rating | imdb_title |
---|---|---|---|---|
0 | 873 | tt0050083 | 9.82 | 12 Angry Men |
1 | 873 | tt0468569 | 9.75 | The Dark Knight |
2 | 873 | tt0172495 | 9.60 | Gladiator |
3 | 873 | tt0111161 | 9.51 | The Shawshank Redemption |
4 | 873 | tt0137523 | 9.49 | Fight Club |
5 | 873 | tt0114369 | 9.45 | Se7en |
6 | 873 | tt0086879 | 9.45 | Amadeus |
7 | 873 | tt0109830 | 9.42 | Forrest Gump |
8 | 873 | tt2980516 | 9.41 | The Theory of Everything |
9 | 873 | tt0114814 | 9.41 | The Usual Suspects |
La calificación promedio de las películas en el conjunto de datos es: 9.53El modelo no es adecuado para ciertos tipos de usuarios: Cada modelo de recomendación tiene sus fortalezas y debilidades. Por ejemplo, un modelo de filtrado colaborativo basado en usuarios puede no funcionar bien para usuarios con gustos muy únicos o raros.No se incluyen suficientes valoraciones del usuario: Si un usuario no ha valorado suficientes películas en el conjunto de datos, entonces el modelo puede tener dificultades para hacer recomendaciones precisas para ese usuario. El conjunto de datos puede dividirse en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo. Si un usuario en particular no está en el conjunto de prueba, entonces no se generarán recomendaciones para ese usuario.El código puede no estar generando recomendaciones para todos los usuarios porque algunos de ellos pueden no haber proporcionado ninguna calificación en el conjunto de datos original, por lo que no hay datos para generar recomendaciones. Esto puede explicar por qué algunos usuarios no han recibido recomendaciones por el modelo.
GRÁFICO SIMILITUD RECOMENDADAS 6
Las recomendaciones para la película A Terrible Night
incluyen una amplia gama de géneros, incluyendo drama, romance, biografía, acción, crimen, entre otros. La similitud de estas recomendaciones con la película varía desde 0.47 hasta 0.52, lo que sugiere que todas tienen algunas similitudes en términos de género y otras características. Las etiquetas asociadas con estas recomendaciones indican que muchas de ellas son adaptaciones de libros o basadas en hechos reales. En general, estas recomendaciones podrían proporcionar al espectador una amplia gama de opciones para explorar, aunque es posible que no todas sean igualmente relevantes para alguien que busca específicamente una película de comedia de terror corta.Faithless (0.518695)
Blue (0.488224)
Black Roses (0.486413)
Story of a Junkie (0.481278)
The Magnificent Ambersons (0.476093)
Gang Related (0.474175)