Le DevOps pour faciliter l’intégration du machine learning à l’environnement IT

Journal du Net

3 mai 2021

Chronique de Vincent Bonnot, H2O.ai

Aujourd’hui encore, trop de modèles de Machine Learning ne sont pas déployés en production et demeurent dans les data labs des entreprises. Vincent Bonnot propose une solution à ce problème : réunir les équipes Data Science et Informatique autour du concept de Machine Learning Ops (MLOps).

Il existe un réel problème de mise à l’échelle avec le Machine Learning, mais non pas dans le sens où les gens l’entendent habituellement, à savoir que ceci est trop complexe ou que les modèles sont des boîtes noires – non, la plus grosse difficulté réside dans le fait que les personnes compétentes n’utilisent pas, pour le moment, une approche appropriée permettant de mettre ces modèles en production plus rapidement.

L’approche adéquate est le MLOps, une méthode éprouvée permettant d’améliorer la collaboration et la communication entre les Data Scientists et les professionnels IT afin de mieux gérer le cycle de vie des modèles. L’indice est dans le nom : tout comme DevOps a façonné le développement rapide d’applications en mode Agile en fonction des besoins de l’entreprise, MLOps peut faire de même pour combler le fossé entre la complexité et le déploiement des modèles de ML.

Le cœur du problème est que, à mesure que l’utilisation du Machine Learning se répand, nous créons des modèles plus nombreux et de meilleure qualité, mais ceux-ci ne répondent pas encore aux objectifs fixés par l’entreprise. Erick Brethenoux, analyste chez Gartner, a estimé l’année dernière que moins de la moitié des modèles développés (47%) sont déployés en production.

Deux équipes qui ne collaborent pas comme elles le devraient

D’où cette insatisfaction des métiers. Alors que le Machine Learning commence à gagner du terrain, la vitesse à laquelle les Data Scientists (et Citizen Data Scientists) peuvent créer des modèles grâce à la technologie AutoML ne cesse de croître. Mais si les modèles ne sont ni déployés ni utilisés, le Machine Learning n’apporte alors aucune valeur aux métiers.

Alors qu’attendons-nous ? L’historique des données constituait un obstacle, tout comme leur récupération et leur stockage, pour tirer bénéfice du Machine Learning, mais le Big Data et des systèmes comme Hadoop l’ont résolu pour nous. Cela a déplacé le problème vers la découverte de schémas, des tendances à partir de ces données, et une solution a commencé à se dessiner grâce à la création de plus en plus de modèles de Machine Learning via l’AutoML. Désormais, nous essayons de permettre à l’entreprise de valoriser ces modèles en les exploitant. Cependant, lorsque les modèles sont déployés, le temps nécessaire à une entreprise pour les exploiter peut représenter des semaines, voire des mois.

Notre analyse met en avant l’explication suivante : lorsque les modèles sont utilisés, la partie MLOps est orchestrée par l’équipe de Data Science. Celle-ci tend à créer et à développer les modèles, puis l’équipe IT prend en charge leur déploiement et gestion. Cependant, ces deux équipes ne travaillent pas ensemble aussi efficacement qu’elles le pourraient, et ce pour plusieurs raisons :

Elles ont des mentalités complètement différentes. Les Data Scientists ont tendance à être créatifs et à aimer expérimenter. Ils travaillent dans un univers R&D et n’aiment généralement pas ou peu les processus, ils ne suivent pas de structure et restent très concentrés sur la création du meilleur modèle possible. L’équipe IT a, quant à elle, des règles et procédures à respecter car elle détient la responsabilité des systèmes de production et doit les faire fonctionner ; elle cherche à s’assurer que les systèmes qu’elle construit sont robustes et disponibles 24×7, et sont conformes aux normes et aux processus de l’entreprise. Lorsqu’un modèle est mis en production, ce sont les Data Scientists qui l’ont créé, mais c’est le service informatique qui doit le gérer ; et les approches des deux équipes ne sont pas toujours aussi alignées qu’elles devraient l’être.

De plus, chaque équipe possède des compétences différentes. L’équipe de Data Scientists se concentre sur les outils nécessaires à la création d’un modèle performant et précis ; elle ne se soucie pas autant des environnements de production et des exigences de code. Le service IT comprend les environnements de production et les logiciels qui peuvent être utilisés, mais ne connait pas les détails complexes de la construction d’un modèle de Machine Learning. Il n’assimile pas forcément ce qu’est un algorithme de Machine Learning et n’a pas non plus une vision claire du langage de Machine Learning, tel que Python ou R.

Les équipes de Data Scientists sont désormais de plus en plus sollicitées par différentes entités de l’entreprise pour résoudre un nombre croissant de problèmes. Et il n’est pas de leur ressort de comprendre les systèmes informatiques, car c’est l’équipe IT qui en a la responsabilité. De même, il n’est pas nécessaire que l’équipe IT connaisse les rouages d’un modèle de Machine Learning. Ce que nous devons à tout prix éviter, ce sont les schémas du type : « Construisons un modèle, envoyons-le au service IT, et ils prendront le relais ».

Il existe donc un manque d’appropriation du problème. Lorsque les Data Scientists élaborent un modèle de risque de crédit pour l’équipe Risques, cette dernière est leur cliente. Les Data Scientists construisent le modèle et le service IT le déploie, et chacune de ces trois équipes devient alors responsable de la résolution du problème. La gouvernance entre également en jeu. Ainsi, lorsqu’un modèle est déployé et qu’il enclenche des prises de décisions régulières toutes les secondes, minutes, ou heures, sur un processus métier, ce modèle devient alors critique pour l’entreprise. Il faut donc s’assurer qu’il est parfaitement géré et que seuls certains y ont accès. Seules les personnes autorisées doivent pouvoir le voir et comprendre son fonctionnement. Mais lorsque l’on ajoute ou supprime des modèles, il est important de s’assurer du suivi et de la traçabilité des modifications faites. Qui a mis en place le changement ? Quand ? À quelle fréquence ? Le suivi de ce processus pour la conformité mais aussi pour la résolution des défaillances est stratégique.

Face à cet ensemble de défis, MLOps est le moyen le plus efficace pour mieux dimensionner et régir l’activité de Machine Learning. Cette méthode permet aux équipes de Data Science et IT de collaborer et de gérer efficacement, immédiatement, et de manière centralisée les opérations quotidiennes nécessaires au maintien des modèles parfaitement opérationnels et ainsi garantir leur performance.

Grâce à cette approche, l’équipe de Data Scientists a la possibilité d’intervenir seulement lors d’un problème grave survenu sur le modèle lui-même, ce qui lui permet de se concentrer sur la création de davantage de modèles. La nouvelle équipe IT orientée « Model Ops » peut ainsi déployer et gérer rapidement, et de manière centralisée, les modèles, en faisant évoluer l’ensemble du processus.

La méthode MLOps est logique ; des processus opérationnels très similaires existent déjà, applicables même sur le modèle de Machine Learning le plus complexe et sophistiqué ; il convient de le tester et de s’assurer qu’il fonctionne d’une manière spécifique, puis de le déployer en production. Il s’agit ici de disciplines auxquelles les équipes IT sont très habituées et qu’elles maîtrisent déjà.

Ramener de 6 à 1 mois la durée nécessaire au déploiement des modèles opérationnels grâce à l’approche MLOps.

La technologie MLOps fonctionne également dans le monde réel, car nos clients en bénéficient déjà. L’un d’eux, une grande institution financière européenne, a développé 250 modèles grâce à notre solution, mais six à neuf mois était nécessaires pour les déployer en production. Grâce à l’approche MLOps, cela ne leur prend plus qu’un mois – un gain de productivité impressionnant, voire radical.

Par ailleurs, plus la crise sanitaire s’ancre dans le temps, plus les ressources deviennent limitées, et la seule façon de pouvoir profiter de tout le potentiel du Machine Learning est, soit d’augmenter les effectifs afin de développer et déployer des modèles, soit de créer des structures permettant l’automatisation.

Lorsqu’il est correctement effectué, le passage à MLOps permet d’automatiser de nombreux processus, et laisse la liberté d’œuvrer aux enjeux stratégiques, c’est-à-dire réussir la transformation digitale grâce à l’IA et la Data : capter les données, en tirer bénéfice grâce au Machine Learning, tout en supervisant les étapes par les bonnes personnes et en appliquant les processus adéquats pour s’assurer de l’apport de valeur.

Enfin, une conclusion clé pour le Data Scientist qui a tendance à ne s’intéresser qu’au code et peut donc ne pas réaliser à quel point d’autres critères sont à considérer pour réussir un projet de Machine Learning : il est primordial de gérer le cycle de vie des modèles, de s’assurer que les environnements de production sont disponibles, et de veiller à utiliser la bonne infrastructure pour exécuter ces modèles.

En définitive, le Machine Learning n’est qu’une application d’entreprise parmi d’autres. Alors, fédérons toutes les ressources et personnes impliquées et faisons en sorte de rendre le Machine Learning aussi standardisé et facile à déployer que possible, en adoptant l’approche « Machine Learning Ops ».

Publiée le 3 mai 2021 par JDnet