MapReduce, Big Data et…PFM

J’ai participé au petit déjeuner « MapReduce, la révolution dans l’analyse des Big Data » organisé parOCTO et Platform le 27 septembre 2011.

MapReduce est la technologie de répartition des traitements sur une multitude de machines bon marchés (“pizza box”) situées dans des data-centers géants développées par Google pour servir d’infrastructure pour l’ensemble de ses services (Search, Gmail,…). Elle est associée à la gestion de fichiers (GFS – Google File System) et la répartition des données (Big table).

Cette technologie a été partagée par Google et a fait l’objet d’une implémentation open source sous l’égide de la fondation Apache : Hadoop. Il est composé de HDFS (Hadoop Distributed File System), Hbase (répartition des données) et MapReduce (répartition des traitements).

Cette technologie est associé aux notions de :

  • « Web temps réel » introduit notamment par Facebook et Twitter qui permettent des interactions quasi temps réel et très personnalisées au sein de communautés d’utilisateurs de volumes très importants
  • « NO SQL » qui remet en cause les technologies relationnelles traditionnelles de gestion de données qui ne sont pas capable de supporter des traitements temps réel sur de très hautes volumétrie d’utilisateurs avec des historiques complets et basé sur une répartition très forte des traitement
  • « Big Data » lié à l’augmentation gigantesque des données mis à disposition sur le web et à la digitalisation croissante des flux d’information de notre société et derrière à l’émergence d’un nouveau monde de services exploitant ces données.
  • Ces technologies « NO SQL », « Big Data » et « MapReduce » ont rendu possible et ont été à la base du développement de nouveaux services tels que Facebook et Twitter reposant sur une exploitation beaucoup plus intensive des données et dans des conditions économiques beaucoup moins couteuses (que les technologies relationnelles ou de datawarehouse traditionnelles).

Julien Cabot, Directeur de la practice Capital Market chez OCTO a fait une présentation des « enjeux métiers » pour les entreprises lié aux nouvelles technologies des données représentées par MapReduce.

J’en ai retenu les points suivants :

  • Cela modifie la vision traditionnelle des données vers une vision plus extensive des données qui ne se limite pas aux données structurées de l’entreprise mais s’ouvre aussi aux données semi-structurées (XML, CSV), aux données quasi-structurées (log, flux RSS) et aux données non structurées (documents, videos) à la fois interne mais aussi externes à l’entreprise (exemple type : associé un flux twitter à des données d’application métier d’entreprise).
  • Il s’agit d’un modèle d’exploitation plus « brute » des données : cela évite le nettoyage ou la mise en forme des données qui sont des processus très lourds et contraignants. Les données sont prises brutes. Il n’y a pas d’échantillonnage. Elles sont prises dans leur totalité et notamment avec l’ensemble de leur historique. L’approche est plus statistique que exhaustive : si 80% des données sont exploitées et 20% rejetées ce n’est pas un problème.
  • Cela correspond à une logique de décloisonnement par rapport aux silos organisationnels de données ou aux processus d’entreprise.
  • L’objectif est orienté découverte de comportement, d’association, de modèle (pattern).
  • Tout un écosystème s’est constitué autour de cela :
    • Intégration des données : Sqoop (données relationnelles), Flume, Chukwa, Scribe, Kafka (données de log)
    • Supervision : Hue, Platform
    • Requêtage : Pig, Hive
    • Visualisation : IBM Big Sheet, Pentaho, Hue Beeswax
    • Traitement : Mahout, Huma
    • Workflow : Oozie, Azkaban

Ces technologies sont exploitables en cloud privé dans différentes configurations avec des offres d’acteurs tels que Platform, Cloudera, IBM InfoSphere BigInsights, MapR, Hortonworks, etc.

Microsoft a aussi un projet de « MapReduce like » Dryad.

Amazon possède une offre en cloud public Amazon Elastic Map Reduce.

Et il est possible de combiner cloud public et privé.

 

A quoi cela sert-il ?

Nous vivons dans un monde de plus en plus numérique où chaque utilisateur produit un flux de plus en plus important  de données en temps réel et voit des aspects de plus en plus étendu de ses activités s’incarner de manière virtuelle.

On voit déjà tout le potentiel de l’exploitation de ces données et de ce partage (maitrisé) dans des applications comme Facebook (réseau social), Twitter (flux d’information), Foursquare (geolocalisation), Runkeeper (course), Spotify (musique), etc…

Le partage de l’information entre les fournisseurs et les utilisateurs et entre utilisateurs recèle un potentiel d’amélioration gigantesque comme l’illustre le programme de recherche MyData mené en Angleterre.

Et nous ne sommes qu’au début de cette évolution qui est une tendance sociétale de fond (voir ces deux articles « Vers un monde de données » et « La nouvelle science des données« ). Je vous recommande aussi le blog d’OCTO (et notamment cet article).

Soit dit en passant, les données les plus riches, celles porteuses de la plus grande valeur ajoutée en terme d’information sur soi sont les données bancaires. Elles en disent bien plus que les données de communications interpersonnelles, d’information ou de géolocalisation. Dans la banque c’est le domaine du Personal Finance Management (PFM) (ou gestionnaire de budget) qui commence à bouger en France avec Money Center de Boursorama et des startups comme Linxo ou Monyspot(et un nouveau pas encore sorti Bankeen – ex Perspecteev, une startup du Camping) (mais nous sommes en retrait par rapport à ce qui existe aux USA et en Europe dont j’ai donné un aperçu lors d’une précédente édition de Finovate.)