🚀 Au-delà des métriques : Optimiser les systèmes de recommandation pour un impact réel

La plupart des data scientists optimisent MAP@K, Recall, NDCG, mais ces métriques améliorent-elles réellement les recommandations ?

Chez Lucklytics, nous allons au-delà des métriques, en garantissant un engagement et une rétention réels. Voici pourquoi nous avons réduit le MAP de 3x et obtenu de meilleurs résultats.


🎯 Le problème : Quand un MAP élevé échoue auprès des utilisateurs

Optimiser MAP@10 devrait améliorer les recommandations, n’est-ce pas ? Pas toujours.

Problème : Les modèles favorisent les contenus populaires, ignorant le contexte de l’utilisateur.
Résultat : Des recommandations génériques, réduisant l’engagement.

📌 Exemple : Un utilisateur regarde Aladdin. Un modèle avec un MAP élevé suggère :
1️⃣ Un drame de guerre
2️⃣ Un film d’action aléatoire
3️⃣ Un blockbuster tendance

Pourquoi ? Biais de popularité – les contenus les plus fréquents dominent, même s’ils ne sont pas pertinents.


📌 Étape 1 : Lutter contre le biais de popularité

🔍 La plupart des jeux de données de recommandation suivent une distribution de loi de puissance – une poignée d’éléments dominent le système.

📊 Comment le détecter ?
✅ Comparer la sortie du modèle avec un recommender basé sur la popularité.
✅ Si plus de 50 % des résultats correspondent, le biais est présent.

Chez Lucklytics, nous testons l’intersection de popularité – si plus de 40 % des recommandations correspondent à un modèle naïf basé sur la popularité, nous ajustons le système.


🛠️ Étape 2 : Optimiser la sérendipité

🔹 Sérendipité = Recommander du contenu inattendu mais pertinent.
🔹 Les modèles axés sur le MAP → Contenu générique et surutilisé.
🔹 Les modèles de sérendipité → Suggestions plus variées et engageantes.

📌 Mais trop de sérendipité peut être contre-productif.
⚠️ Trop d’éléments obscurs → L’utilisateur perd intérêt.

Chez Lucklytics, nous trouvons un équilibre entre :
Recall sans biais de popularité (exclut les 100 contenus les plus recommandés)
Mean Inverse User Frequency (MIUF) (favorise les contenus de niche)
Intersection de popularité contrôlée (évite la domination des tendances virales)


🔄 Étape 3 : L’importance de l’évaluation visuelle

🚫 Les métriques seules ne suffisent pas à sauver un modèle. Un système avec un MAP élevé peut échouer en pratique.

👀 Solution ? Tests visuels
Plutôt que de se fier uniquement aux chiffres, Lucklytics examine manuellement les recommandations pour différents types d’utilisateurs :

📌 Utilisateurs nouveaux (Cold Start)
📌 Utilisateurs de niche (goûts spécifiques)
📌 Utilisateurs généralistes (préférences larges)

🔬 Astuce : Testez en A/B contre des recommandations sélectionnées par des experts – un critique de cinéma recommanderait-il la même chose ?


🏆 L’approche équilibrée de Lucklytics en matière de systèmes de recommandation

Après des centaines de tests, nous avons découvert que :

🚫 MAP élevé et plus de 60 % d’intersection avec la popularitéTrop générique.
🚫 Trop de sérendipitéContenus de niche que les utilisateurs ignorent.
MAP ~0.045, Recall 0.11, Intersection de popularité < 15 %Recommandations personnalisées et engageantes.

🎯 Conclusion : Le meilleur système de recommandation n’est pas celui avec le MAP le plus élevé, mais celui qui retient réellement les utilisateurs.


🚀 Lucklytics : Transformer les données en croissance

Chez Lucklytics, nous allons au-delà des métriques – nous développons des systèmes de recommandation axés sur les résultats pour une expérience utilisateur optimale.

Réduction du biais de popularité
Équilibre entre MAP, Recall et Sérendipité
Évaluation visuelle et tests en conditions réelles

🔗 Vous souhaitez optimiser votre système de recommandation ? Parlons-en : www.lucklytics.com