Retour aux actualités
Article précédent

Le projet Miss France

Alumni

-

23/03/2026

Ces dernières années, l’Intelligence Artificielle s’est invitée au sein du concours Miss France. Un modèle, porté par AVISIA, a notamment retenu l’attention du public et des médias autour d’une question : l’IA peut-elle prédire Miss France ? Parmi les contributrices de ce projet, on y retrouve deux de nos Alumni : Solène VENEZIA (ENSAI 2021) et Anne-Sophie LE BAYON (ENSAI 2023), ainsi que Manon COUSIN.

L’édition la plus récente du concours confirme une nouvelle fois la robustesse de l’approche : plus de 50 % du Top 5 final est correctement identifié par le modèle et, pour la deuxième année consécutive, la lauréate figure parmi les candidates les mieux classées par l’algorithme. À travers cet article, nous proposons de mieux comprendre ce qui se cache derrière ce modèle.

AVISIA est un cabinet de conseil expert en Data & IA. Le projet Miss France est développé au sein de son Lab Innovation, véritable plateforme de R&D interne, qui permet aux consultants volontaires de prototyper de nouvelles idées, de porter des projets pro bono ou de créer des outils internes.

Ce Lab s’inscrit dans une logique d’intrapreneuriat : il fonctionne comme un incubateur interne, porté par l’initiative des consultants et dédié au développement des talents et des savoir-faire du cabinet. Plusieurs projets emblématiques y ont émergé, dont le Sport Lab, consacré à la prédiction de compétitions telles que la Ligue des Champions, le Ballon d’Or ou la Formule 1.

Focus sur le projet Miss France

Le projet Miss France a pour ambition d’identifier les cinq candidates les plus susceptibles d’accéder au Top 5, en cherchant à approcher au plus près le classement issu du vote du public. Chaque nouvelle édition enrichit le pipeline par l’intégration de nouvelles sources de données et de techniques de modélisation avancées.

Au fil des années, le projet a pris une dimension supplémentaire grâce à sa médiatisation, avec un objectif central : vulgariser et rendre transparent le fonctionnement des modèles prédictifs. Pour limiter l’effet « boîte noire », l’équipe partage ses travaux via des articles détaillés et un site dédié, présentant données et choix méthodologiques :

Explication du modèle : entre tendances historiques et notoriété actuelle

Afin d’estimer, pour chaque candidate, la probabilité d’accéder au Top 5 issu du vote du public, deux types de modèles sont mobilisés afin de capturer à la fois les tendances historiques et les signaux actuels de notoriété et de popularité.

  1. Modèle historique : Un modèle de machine learning est construit à partir de l’historique des élections précédentes, permettant d’identifier les régions historiquement les plus soutenues. Des techniques de scraping sont utilisées pour collecter ces données sur des sites comme Wikipédia et l’INSEE.

Qu’est-ce que le scraping (ou web scraping) ?

Le scraping est une technique qui consiste à extraire automatiquement des données depuis des sites web à l’aide de scripts ou de logiciels.




  1. Tendances actuelles de notoriété : En complément, des modèles d’IA Générative, et notamment des LLM (Large Language Models), sont utilisés pour analyser la popularité immédiate des candidates sur les réseaux sociaux. Les publications et commentaires issus de X, TikTok et Instagram mentionnant les candidates sont collectés puis analysés afin d’évaluer la tonalité des conversations autour de chaque Miss. Les approches de GenAI se révèlent particulièrement adaptées au langage des réseaux sociaux, caractérisé par des textes courts et bruités, souvent mal orthographiés, enrichis d’emojis, d’abréviations ou de nouvelles expressions.


Qu’est-ce que un LLM (Large Language Model) ?

Un LLM (Large Language Model) est une intelligence artificielle capable de comprendre et générer du langage humain. Il est “large” car il est entraîné sur d’énormes volumes de texte et des milliards de paramètres.

Fonctionnement :

  1. Tokenisation & embeddings : transforme le texte en vecteurs numériques.

  2. Attention (Transformer) : analyse le contexte pour comprendre chaque mot.

  3. Prédiction probabiliste : génère le texte mot par mot.

Résultat : le LLM peut produire résumés, traductions, explications, code et raisonnement structuré.



Enfin, les signaux issus des différents modèles sont ensuite agrégés au sein d’un modèle final, produisant un score probabiliste la probabilité pour chaque candidate d’accéder au Top 5.

D’un point de vue technique, le projet repose principalement sur les langages SQL et Python. Les données sont stockées sur BigQuery, composant de Google Cloud Platform (GCP), et leur traitement est orchestré via la plateforme Dataiku. Le projet s’accompagne également d’une page web dédiée, développée en Next.js et déployée sur Google Cloud, permettant de suivre l’évolution des prédictions ainsi que les indicateurs de popularité des candidates.

Comment se projet évolue-t-il dans le temps ?

Le projet n’est pas figé : il évolue chaque année en fonction des résultats et des enseignements tirés de l’édition précédente. Après chaque concours, l’équipe se pose des questions clés : quelles prédictions le modèle n’a-t-il pas réussi à détecter ? Quelles données ou signaux manquaient ?

Initialement centré sur l’analyse de Twitter/X, le modèle intègre désormais d’autres réseaux sociaux, notamment TikTok et Instagram, mieux représentatifs de la notoriété actuelle des candidates. X, en raison de la baisse du volume et de la qualité des contenus avant l’élection, est amené à être progressivement retiré du modèle.

Les méthodes d’analyse ont également évolué : l’IA générative a remplacé les approches classiques de NLP pour analyser les commentaires. Ces techniques se révèlent particulièrement adaptées au langage des réseaux sociaux, souvent court, bruité, mal orthographié et enrichi d’emojis, d’abréviations ou de nouvelles expressions.

Cette adaptation continue permet au projet de rester performant et pertinent, tout en testant les dernières avancées en intelligence artificielle et en favorisant l’innovation.

Conclusion

À première vue, Miss France semble difficile à prédire : seules 12 candidates sur 30 sont présélectionnées par un jury, information connue uniquement le soir de l’élection. Le classement final résulte d’un équilibre 50/50 entre jury et public, avec des facteurs imprévisibles comme l’aisance à l’oral ou la présence scénique.

Pourtant, malgré ces contraintes, le modèle d’AVISIA démontre sa capacité à capter des signaux pertinents et à produire des prédictions cohérentes.

Au-delà de la performance, ce projet constitue un terrain d’expérimentation unique, notamment autour de la GenAI, tout en favorisant le développement des compétences des collaborateurs. Inscrit dans une démarche d’intrapreneuriat et de partage, il illustre comment un cas d’usage grand public peut devenir un véritable laboratoire de recherche appliquée, alliant rigueur, innovation et pédagogie.


Envie de raconter votre projet ou expérience ? 

L’équipe Ensai Alumni se fera un plaisir de vous écouter. Contactez-nous !

Commentaires0

Veuillez vous connecter pour lire ou ajouter un commentaire

Articles suggérés

Fondation ENSAE-ENSAI - Actualités 2024 & appel aux dons
Alumni

Fondation ENSAE-ENSAI - Actualités 2024 & appel aux dons

photo de profil d'un membre

Bastien Luneteau

03 décembre

3

ENSAI Alumni organise une soirée de tables rondes orientées carrière
Alumni

ENSAI Alumni organise une soirée de tables rondes orientées carrière

photo de profil d'un membre

Maxence GUICHARD

25 octobre

Fondation ENSAE-ENSAI : premier bilan et derniers jours pour donner
Alumni

Fondation ENSAE-ENSAI : premier bilan et derniers jours pour donner

photo de profil d'un membre

Bastien Luneteau

29 novembre