La plupart des data scientists optimisent MAP@K, Recall, NDCG, mais ces métriques améliorent-elles réellement les recommandations ?
Chez Lucklytics, nous allons au-delà des métriques, en garantissant un engagement et une rétention réels. Voici pourquoi nous avons réduit le MAP de 3x et obtenu de meilleurs résultats.
🎯 Le problème : Quand un MAP élevé échoue auprès des utilisateurs
Optimiser MAP@10 devrait améliorer les recommandations, n’est-ce pas ? Pas toujours.
❌ Problème : Les modèles favorisent les contenus populaires, ignorant le contexte de l’utilisateur.
❌ Résultat : Des recommandations génériques, réduisant l’engagement.
📌 Exemple : Un utilisateur regarde Aladdin. Un modèle avec un MAP élevé suggère :
1️⃣ Un drame de guerre
2️⃣ Un film d’action aléatoire
3️⃣ Un blockbuster tendance
Pourquoi ? Biais de popularité – les contenus les plus fréquents dominent, même s’ils ne sont pas pertinents.
📌 Étape 1 : Lutter contre le biais de popularité
🔍 La plupart des jeux de données de recommandation suivent une distribution de loi de puissance – une poignée d’éléments dominent le système.
📊 Comment le détecter ?
✅ Comparer la sortie du modèle avec un recommender basé sur la popularité.
✅ Si plus de 50 % des résultats correspondent, le biais est présent.
Chez Lucklytics, nous testons l’intersection de popularité – si plus de 40 % des recommandations correspondent à un modèle naïf basé sur la popularité, nous ajustons le système.
🛠️ Étape 2 : Optimiser la sérendipité
🔹 Sérendipité = Recommander du contenu inattendu mais pertinent.
🔹 Les modèles axés sur le MAP → Contenu générique et surutilisé.
🔹 Les modèles de sérendipité → Suggestions plus variées et engageantes.
📌 Mais trop de sérendipité peut être contre-productif.
⚠️ Trop d’éléments obscurs → L’utilisateur perd intérêt.
Chez Lucklytics, nous trouvons un équilibre entre :
✅ Recall sans biais de popularité (exclut les 100 contenus les plus recommandés)
✅ Mean Inverse User Frequency (MIUF) (favorise les contenus de niche)
✅ Intersection de popularité contrôlée (évite la domination des tendances virales)
🔄 Étape 3 : L’importance de l’évaluation visuelle
🚫 Les métriques seules ne suffisent pas à sauver un modèle. Un système avec un MAP élevé peut échouer en pratique.
👀 Solution ? Tests visuels
Plutôt que de se fier uniquement aux chiffres, Lucklytics examine manuellement les recommandations pour différents types d’utilisateurs :
📌 Utilisateurs nouveaux (Cold Start)
📌 Utilisateurs de niche (goûts spécifiques)
📌 Utilisateurs généralistes (préférences larges)
🔬 Astuce : Testez en A/B contre des recommandations sélectionnées par des experts – un critique de cinéma recommanderait-il la même chose ?
🏆 L’approche équilibrée de Lucklytics en matière de systèmes de recommandation
Après des centaines de tests, nous avons découvert que :
🚫 MAP élevé et plus de 60 % d’intersection avec la popularité → Trop générique.
🚫 Trop de sérendipité → Contenus de niche que les utilisateurs ignorent.
✅ MAP ~0.045, Recall 0.11, Intersection de popularité < 15 % → Recommandations personnalisées et engageantes.
🎯 Conclusion : Le meilleur système de recommandation n’est pas celui avec le MAP le plus élevé, mais celui qui retient réellement les utilisateurs.
🚀 Lucklytics : Transformer les données en croissance
Chez Lucklytics, nous allons au-delà des métriques – nous développons des systèmes de recommandation axés sur les résultats pour une expérience utilisateur optimale.
✅ Réduction du biais de popularité
✅ Équilibre entre MAP, Recall et Sérendipité
✅ Évaluation visuelle et tests en conditions réelles
🔗 Vous souhaitez optimiser votre système de recommandation ? Parlons-en : www.lucklytics.com