Retour aux offres d’emploi

Stage Recherche - Scoring Modèles à base d'arbre

9th arrondissement of Paris, 75009, Paris, France

Présentation d’Artefact:

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée  en délivrant des réultats tangibles sur l’ensemble de la chaîne de valeur des entreprises.  

L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 800 employés allient leurs compétences pluridisciplinaires au profit  de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et  l’accompagnement au changement. 

Depuis plusieurs années, nous développons des solutions pour la chaîne logistique de grands acteurs du monde de la distribution, tels que Carrefour, Fortenova, L’Oréal ou encore Danone.



Contexte du stage & objectifs :

Ce stage de fin d’études est prévu pour continuer sur une thèse CIFRE au sein d’Artefact, qui commencerait à la rentrée 2023. Durant le stage, l’étudiant commencera son étude bibliographique et sera amené à affiner ses questions de recherche et l’approche pour y répondre. L’ensemble des problématiques décrites ci-dessous n’ont pas vocation à être traitées en intégralité durant le stage, mais durant la thèse. Les premières questions entamées dès le stage seront précisées selon les opportunités qui se présenteront début 2023 avec les clients d’Artefact.

Aujourd’hui, l’immense majorité des chaînes logistiques modernes pour la vente de produits de consommation fonctionnent à flux tendus, pour diminuer les coûts de stockages et les produits invendus. Aussi, les distributeurs ainsi que les fabricants de biens se doivent de fournir des prévisions opérationnelles de la demande au niveau des produits. Une meilleure précision de ces prévisions ayant des conséquences directes sur les niveaux de stocks, sur la génération de gaspillages, et la satisfaction client. Ces dernières années, l’utilisation de méthodes d’apprentissage automatique pour aider à une meilleure prévision des ventes.

Historiquement, les problèmes de prévisions de ventes se réalisaient de façon univariée à l’aide de modèles issus du traitement du signal traditionnel, tels que ARIMA ou Exponential Smoothing (et ses dérivées). Cependant, depuis quelques années, l’apparition de méthodes plus “modernes” de machine learning a eu un impact sur la façon dont on peut modéliser la prévision de ventes, soit avec du gradient Boosting, soit avec des réseaux de neurones tels que: Temporal Fusion Transformer, ou DeepAR ou TimeGAN.

A ce titre, Artefact mettra à disposition du/de la stagiaire un ensemble de jeux de données réelles issues de systèmes de ventes, couvrant plusieurs années d’histoires, dans différentes industries, avec l’accord de nos clients.

 

Problématiques scientifiques:

Les séries temporelles associées aux ventes possèdent plusieurs caractéristiques hiérarchiques. On dispose généralement d’un arbre hiérarchique naturel entre produits, selon les familles et sous-familles de produits (i.e yaourts aux fruits), marques etc. Dans cet arbre hiérarchique, les produits proches auront des comportements similaires. Une autre caractéristique hiérarchique est la localisation spatiale des points de vente. Sur certaines gammes de produits, les séries de ventes de deux magasins proches géographiquement ont plus de chance d’être similaires que sur deux magasins éloignés.

Enfin, il faudra être attentif à la gestion des périodes ayant été affectées par des évènements externes comme le COVID ou les gilets jaunes, les ventes ayant été bien fortement affectées par ces phénomènes.

Plusieurs grands axes de développement se présentent par rapport aux travaux déjà réalisés par Artefact & la littérature de façon générale. Cette liste des travaux n’est pas exhaustive, et pourra évoluer en fonction des avancées de l’étudiant(e) et de nos réalisations pratiques chez les clients d’Artefact.

Précision de la prévision dans le cas de réseau de neurones: Un enjeu central pour l’étudiant(e) sera de s’assurer au fil de sa recherche que la prévision des ventes reste proche de l’état de l’art. Sur nos missions, nous avons observé de très bonnes performances de modèles types forêts aléatoires dans un schéma auto-régressif; les performances d’approches plus modernes à base de réseau de neurones n’ont pas pu atteindre la même précision. Cependant, à la vue des bénéfices qu’apportent les réseaux de neurones, par exemple en termes de contrôle ou d’adaptation de l’architecture du réseau à notre problématique, l’étudiant(e) sera amené à étudier ce type de modèles au fil de ses travaux. Cela impliquera donc un effort particulier pour s’assurer que ce type de modèle ne dégrade pas la précision des ventes en comparaison aux approches historiques.

Détection d’anomalies et reconstruction des datasets: Dans le cas de prévisions pour la chaîne logistique, le signal de vente est un bon proxy pour estimer la demande réelle des consommateurs. Toutefois dans le cas de rupture de stocks, la donnée de vente n’est plus représentative de la demande réelle, et il devient nécessaire de reconstruire un historique pour avoir un reflet de la demande théorique. De la même manière, l’impact de la crise sanitaire du Covid-19, ainsi que les effets des restrictions, a eu un impact sur le signal. Comment retravailler la donnée d’entrée afin de ne pas impacter les prévisions futures en incluant du signal parasite.

Agrégation et désagrégation des séries hiérarchiques: Parfois, l’agrégation de séries temporelles à un niveau supérieur est importante car les séries du niveau inférieur ne possèdent pas assez de signal. Cela peut être le cas pour des séries erratiques, où il n’y a que peu de ventes, ou bien afin de modéliser la cannibalisation entre produits de la même famille. Un des enjeux des séries hiérarchiques est donc de savoir correctement agréger et désagréger les séries. Un des axes de recherche est donc de trouver de nouvelles méthodes, aussi bien sur l’aspect bottom-up que topdown, qui se traduira par l’architecture dans le cadre d’un réseau de neurone, et demandera davantage d’adaptation pour des modèles plus classiques.

Effets et halo et de cannibalisation entre produits: Lorsque l’on considère des produits similaires, on peut observer deux phénomènes possibles sur les ventes, soit les ventes d’un produit augmentent autant que celles de l’autre diminue (cannibalisation), soit une survente de l’un a un effet bénéfique sur l’autre (halo). Ceci est particulièrement vrai lorsqu’un événement vient créer un changement, telle qu’une promotion ou un changement de prix. Capturer ces phénomènes est particulièrement complexe, et une approche privilégiée est l’utilisation d’un réseau de neurones commun à tous les produits, qui seraient chacun représentés par un embedding que le réseau apprendra de façon non supervisée.

Contrôle et garanties sur les variables de contrôle (promotion, prix): De nombreuses variables d’entrée sont ajustables par les planificateurs côté entreprise, que sont le prix ou les caractéristiques de promotion. Ces variables ont un effet très fort sur la prévision des ventes, et un enjeu spécifique est que l’optimisation - manuelle ou automatique - de ces variables pour maximiser les ventes présente le risque de sortir du jeu de données d’entraînement. En effet, les données historiques ne présentent qu’un nombre fini d’exemples de promotions par construction. Pour palier à cela, l’étudiant(e) devra proposer un modèle qui présente des garanties sur l’impact de ces variables, tels que des bornes ajustables minimum et maximum sur l’impact de la promotion sur les ventes. Dans un second temps, un effort sera d’étudier l’optimisation automatique de ces campagnes de promotion et de prix, ce qui est facilitée par l’aspect différentiable du réseau de neurones, mais peut aussi s’étudier pour les modèles historiques.

“Cold start” pour les lancements de produits: Un enjeu récurrent porte sur la prévision de ventes de nouveaux produits, pour lesquels les données de ventes n’existent pas encore. Dans ce cadre, une approche consiste à exploiter les lancements de produits similaires, puis d’affiner la prédiction lorsque les premiers retours de ventes remontent. Une difficulté est que certains produits qui présentent des saisonnalités annuelles similaires n’appartiennent pas à la même famille de produit. Il faudra établir une méthodologie efficace pour que le transfert d’information entre les lancements donnent lieu à une prédiction précise, et puisse bien se formaliser dans le cadre d’un réseau de neurones.

Politique optimale de ré-entraînement des modèles: Toutes les méthodes développées au cours de ces travaux ont vocation à être déployées dans des infrastructures critiques, sur des très grands volumes de séries temporelles actives. Un des enjeux fort est va être donc de trouver des méthodes optimales pour s’assurer en continuité de la performance des modèles sur l’ensemble des séries, mais aussi de définir des stratégies pour le choix des hyperparamètres des modèles, en dehors de l’approche par force brute. Cet aspect d’autant plus important qu’aujourd’hui, une attention particulière est portée à l’impact carbone que peut avoir un entraînement, et par conséquent on cherche à diminuer au maximum ce temps, tout en conservant des niveaux de performance acceptables.

 

Présentation du laboratoire académique

Dans le cadre de la thèse CIFRE qui suivrait, l’encadrement aura lieu dans le laboratoire SAMM: Statistiques, Analyses et Modélisation Multidisciplinaire de l’université Paris 1 Panthéon Sorbonne. L’encadrement sera assuré par Jean-Marc Bardet, directeur du laboratoire, et Joseph Rynkiewicz, tout deux experts des modèles sur les séries temporelles, que ce soit les approches historiques ou les méthodes plus récentes à base de réseaux de neurones.

 

Candidatures

Les candidatures se feront par envoi d’e-mail à emmanuel.malherbe@artefact.com et charlotte.silo@artefact.com,, accompagné du CV et du relevé de notes des deux dernières années

 

Références bibliographiques:

Hyndman, Rob J., and George Athanasopoulos. Forecasting: principles and practice. OTexts, 2018.

Spyros Makridakis, Evangelos Spiliotis, Vassilios Assimakopoulos. M5 accuracy competition: Results, findings, and conclusions. International Journal of Forecasting 2022

Petropoulos, Fotios, et al. “Forecasting: Theory and Practice.” International Journal of Forecasting, Jan. 2022. Crossref, https://doi.org/10.1016/j.ijforecast.2021.11.001.

Thomassey, Sébastien. "Sales forecasting in apparel and fashion industry: A review." Intelligent fashion forecasting systems: Models and applications (2014): 9-27.

Salinas, David, et al. “DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks.” International Journal of Forecasting, vol. 36, no. 3, July 2020, pp. 1181–91. Crossref, https://doi.org/10.1016/j.ijforecast.2019.07.001.

Hansika Hewamalage, Christoph Bergmeir, and Kasun Bandara. "Recurrent neural networks for time series forecasting: Current status and future directions." International Journal of Forecasting 37.1 (2021): 388-427.

Yoon, Jinsung, Daniel Jarrett, and Mihaela Van der Schaar. "Time-series generative adversarial networks." Advances in neural information processing systems 32 (2019).

Kidger, Patrick, James Morrill, James Foster, and Terry Lyons. "Neural controlled differential equations for irregular time series." Advances in Neural Information Processing Systems 33 (2020): 6696-6707.

Postuler à ce poste

*

indique un champ obligatoire

CV*

Types de fichiers acceptés : pdf, doc, docx, txt, rtf

Lettre de motivation

Types de fichiers acceptés : pdf, doc, docx, txt, rtf