Le Big Data, un fabuleux champ de recherche exploratoire pour l’informatique. Interview de Médéric Morel, co-auteur du livre " Big Data et Machine Learning, Les concepts et les outils de la data science "
L’explosion quantitative des données due aux outils du numérique et à Internet, rend cette masse de données difficile à exploiter avec les outils classiques d’analyse et de traitement informatique. L’ère du Big Data s’ouvre devant nous avec des perspectives d’exploration et d’exploitation, pour certaines encore inconnues.
EDI
‘…Nombreuses sont les publications consacrées au big data … Rares sont ceux écrits en français, et très peu manifestent une intention didactique. « Big data et machine learning », est l'une de ces heureuses exceptions…’
Big Data et Machine learning de Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli s’adresse à tous les intervenants d’un projet Big Data, généralistes ou non. Il leur permet une mise à niveau sur l’état de l’art en ce domaine, en se référant concrètement aux études de cas présentées. Médéric Morel nous en dit plus…
Quels domaines ou technologies mobilise le Big Data, pour quels enjeux ?
Presque tous les domaines métiers sont concernés, des services publics à l’industrie, en passant par les services financiers, même si certains acteurs comme les services de lutte contre les fraudes ont déjà pris un peu d’avance. Les enjeux du Big Data sont la réduction de coûts, l’amélioration d’efficacité des processus existants : marketing, vente, finance, pilotage de l’entreprise C’est un complément de l’informatique décisionnelle et cela concerne les organes décisionnels des organisations, car le Big Data intervient en transversal et permet de lancer des processus exploratoires, utiles à la stratégie de l’entreprise.
Quelle est la différence entre un Data scientist et un Data miner ?
Un data miner est un explorateur de données en entreprise, c’est un métier liés aux services financiers notamment dans l’assurance ; les actuaires par exemple créent des modèles à partir des services clients. Dans le data mining on utilise des outils classiques et on applique des méthodes classiques d’informatique sur des stocks de données.
Un data scientist analyse à la fois les données internes, mais il expérimente également le croisement de données hétérogènes (données internes et données issues des réseaux sociaux par exemple). Le data scientist doit programmer pour créer ou assembler les jeux de données dont il a besoin. Son métier tient à la fois de la recherche appliquée et de la programmatique, d’où la difficulté de trouver des profils compétents : il faut aimer programmer et de ce fait, on les recrute davantage chez les informaticiens que chez les mathématiciens.
En quoi le Machine learning est-il fondamental et quelles sont ses spécificités ?
Le Machine learning correspond à une forme de programmation automatique. On donne un jeu de données en entrée avec le résultat et cela permet de générer la partie algorithmique du programme qui sera capable de reconstruire la solution commune à ce jeu de données et avec d’autres données de même type. C’est fondamental car l’objectif du traitement en data science est de construire des modèles, c'est-à-dire des programmes qui seraient plus complexes à écrire à la main.
Votre ouvrage est un état des lieux sur le Big Data. Quels outils actuels sont à son service aujourd’hui et demain ?
Les outils utilisés viennent des acteurs du web, comme Facebook, Google, notamment. Aujourd’hui on évoque beaucoup Hadoop, la plateforme en open source qui permet de paralléléliser les calculs. C’est l’outil de référence pour l’écriture d’applications de stockage et de traitement de données distribuées en mode batch. Hadoop propose aux développeurs des briques essentielles pour répondre à leurs besoins. Une autre plateforme est en train de monter, il s’agit d’Apache Spark. Créée par la Fondation Apache, Spark 1.0 réduit la latence des traitements plus rapidement pour certaines requêtes sur Hadoop. Elle offre la possibilité de créer des tâches d'analyse de données qui peuvent fonctionner jusqu'à 100 fois plus vite - en mémoire - que celles réalisées avec le traditionnel outil MapReduce de Hadoop.
Maj. 29/7/2021