Le numérique dans la chaine de l’évolution au Museum de l’histoire naturelle

Judicieuse idée qu’a eue ATKearney d’inscrire la journée « leadership beyong digital » dans le magnifique lieu du Museum d’histoire naturelle. Plus la journée avançait et plus il devenait presque évident que la transformation numérique constituait une étape importante de l’évolution…

museum 2

L’internet de l’objet et le big data militent pour une économie d’abondance Lire la suite

L’internet de l’objet et le Big data façonnent le futur de notre économie

Le Think Tank « l’Institut Montaigne » analyse dans un rapport le potentiel économique du Big Data et des objets connectés pour la France et ses entreprises et avance des propositions concrètes. Ce rapport intitulé « Big data et objets connectés : Faire de la France un champion de la révolution numérique. » est le résultat du groupe de travail dirigé par Gilles Babinet digital Champion pour la France et Robert Vassoyan Directeur Général de Cisco France.

 DSC02154

L’internet des objets va doubler la taille de l’univers numérique tous les deux ans. Lire la suite

IBM et Twitter avancent ensemble vers l’économie de la donnée.

L’économie de la donnée devient chaque jour de plus en plus présente. Cette économie bénéficie des grandes tendances technologiques telles que cloud, Big Data et réseaux sociaux qui, combinées ensemble, offrent des perspectives quasiment illimitées.

IBM TwitterIBM vient encore de le rappeler en annonçant ce 17 mars les premiers produits issus du partenariat signé avec Twitter en octobre 2014 . Cet accord donnait la possibilité à IBM d’exploiter le fabuleux Firehorse de Twitter qui contient la totalité des informations contenus dans l’ensemble des Tweets (lire le billetLes réseaux sociaux montrent la voie de l’économie de la donnée) . Les premiers produits concernent des outils pour les développeurs qui seront à même d’écrire des applications allant puiser dans les données Twitter. On trouve également des services d’analyses de données dans le cloud pour exploiter ces données Twitter. Ce service de données fonctionne sur la technologie d’intelligence artificielle Watson d’IBM et sur IBM insights qui est une déclinaison d’hadoop.

Si la première cible était les besoins marketing, IBM a très vite identifié des opportunités beaucoup plus larges. Exploiter les données des réseaux sociaux et du web n’est bien sûr pas l’apanage d’IBM et de nombreuses sociétés sont déjà positionnées sur ce créneau. Le partenariat entre Twitter et IBM n’est d’ailleurs pas exclusif. Cela ne semble pas inquiéter IBM outre mesure car son objectif est de se concentrer sur des cas d’usage avant tout. Watson-Analytics-ScreenshotCes cas d’usage porteront bien évidemment sur le marketing mais couvriront également l’analyse du Churn (l’attrition), la gestion des talents et le développement de produits pour ne citer que les principaux. Avec sa connaissance des clients dans de nombreux secteurs, IBM a également cumulé de nombreuses et précieuses données qui, associées aux données Twitter, peuvent encore gagner en pertinence. Une centaine de clients ont été impliqués dans ce projet et environ 4000 employés IBM ont été formés pour aider les clients à exploiter la valeur des données

La stratégie d’IBM est révélatrice de l’importance de l’économie de la donnée et du rôle que peuvent jouer les réseaux sociaux dans ce domaine. Nous ne sommes plus à l’heure des panels et des statistiques, on dispose désormais d’informations multi-temporelles à grande échelle. On peut à la fois saisir l’immédiateté d’une émotion en temps réel et analyser des historiques sur plusieurs années.

Les applications sont infinies, restent à définir avec précautions les méthodes et les limites d’utilisation et s’assurer du bien-fondé des résultats et des recommandations tout en veillant à préserver la vie privé des utilisateurs.

Des informations complémentaires dans :Q & A with Will Reilly: Cloud ‘fundamental’ to IBM/Twitter partnership

 

Un CRM Big Data dans le Cloud avec Salesforce

 Salesforces fait un pas de plus dans le Big Data.en annonçant le 5 mars Salesforce Marketing Cloud Predictive Decisions qui sera disponible en mai 215. Une approche de « CRM Big Data » dans le Cloud qui peut simplifier la tâche des équipes marketing

Salesforce illustrationRendre le CRM Big Data accessible. Si certaines entreprises sont rebutées par la technicité et la complexité des plateformes de Big Data les solutions dans le cloud peuvent sans doute les inciter à profiter des avantages du Big Data sans en craindre les écueils et la complexité. Sans aucun doute Salesforce est le grand leader du CRM mais surtout il montre par cette annonce qu’il est possible, pour ceux qui le souhaitent, de profiter des avantages du CRM et du Big Data sans pour autant disposer en interne de ressources techniques spécifiques.    Sales force n’utilise pas le terme DMP (Data Management Plateform) mais la solution en présente certains aspects. Des intégrateurs comme Micropole et Ysance ont déjà à leur catalogue des offres de types DMP dans le cloud qui facilite la mise en œuvre de ces solutions.  N’oublions pas néanmoins qu’on ne peut pas s’affranchir d’analyser et de recenser les sources des données qui vont alimenter ces plateformes et de déterminer les flux de données sortants pour savoir comment les exploiter et à quels fins.

Salesforce veut mettre la « science des données » dans les mains des directions marketing.    Les entreprises doivent interagir avec leurs clients de manière personnalisées et en temps réel pendant un parcours d’achat de plus en plus « cross channel ». La solution « Predictive Decisions » de Salesforce affiche cette ambition. Le marketing devrait pouvoir s’appuyer sur la science des données pour analyser l’engagement du client, lui faire des recommandations de manière proactive et ainsi augmenter le taux de conversion. La solution donne la possibilité de concevoir des programmes intelligents allant au-delà de l’engagement contextuel pour faire du marketing prédictif en utilisant des algorithmes sophistiqués. Le marketing devrait ainsi disposer d’une plateforme unique combinant le CRM et les données marketing avec des informations contextuelles. Il pourra élaborer des tableaux de bord à partir d’informations provenant d’interactions, de navigations mais également d’autres applications de Salesforce. Sales force avec cette annonce a souligné quelques innovations qui demandent encore à être détaillées.

  • « collect beacon » avec les mises à jour en temps réel de contenus et de comportements utilisateurs directement dans la plateforme pour permettre des décisions prédictives.
  • Workflow et automatisation. Les données de comportements des clients sont chargées automatiquement dans la plateforme marketing Cloud en temps réel
  • Décisions prédictives natives. Anticiper quel contenu obtiendra le plus fort taux de conversion. Faire en sorte que chaque message soit personnalisé à l’individu et son contexte.

Le Cloud s’impose de plus en plus en plus comme un facilitateur de technologies. C’est en particulier le cas pour le Big Data. Pendant le salon du Big Data Paris on pouvait noter que de nombreuses sociétés s’associent pour offrir des solutions de big data dans le cloud et en accélérer ainsi l’adoption.

Un monde différent avec le Big Data selon Gilles Babinet

 Comme trop souvent avec les nouveautés, le terme Big Data est mis à toutes les sauces. Le livre de Gilles Babinet est donc le bienvenu, il remet les choses à leur place et permet de comprendre les origines, le potentiel mais également les freins et les risques du Big Data.

DSCN5681

C’est à l’issu des deux jours du salon Big Data Paris que se tenait la soirée de lancement du livre « Big Data, Penser l’homme et le monde autrement » écrit par Gilles Babinet. Une soirée quicloudera VIP V1 avait lieu au fatlab « la Paillasse » avec la participation d’Axelle Lemaire et d’une célébrité du Big Dat en la personne de Doug Cutting ( de la société Cloudera) concepteur de Hadoop le fameux framework Big Data. Ayant eu le plaisir de rencontrer l’auteur ce soir-là et d’entendre les commentaires flatteurs d’Axelle Lemaire sur le livre je ne pouvais pas faire moins que de le lire.

Faire bouger les lignes sans verser dans l’angélisme

La lecture en vaut la peine, en plus du fait qu’il se lit facilement le livre est utile à tous. C’est un Gilles et Ericlivre de convictions qui cherche à faire bouger les lignes sans verser dans l’angélisme. La première partie rappelle les origines et illustre l’intérêt du Big Data avec des exemples dans la santé, l’agriculture et la ville. C’est précis, documenté et plaisant à lire. La promesse du Big Data tient à trois moments: révéler, prédire, réagir.

Le Big Data doit être pris en charge par la direction Générale

La deuxième partie pose les vrais problèmes liés aux organisations et souligne l’impact économique des données. Gilles Babinet précise que : « il est apparu que le Big Data effrayait les directeurs des systèmes d’informations tant il s’inscrivait en rupture par rapport aux processus traditionnels » car le Big Data revient à remettre en cause l’organisation en silos. Le Big Data doit être reconnu comme un enjeu stratégique et par conséquent être pris en charge par la direction générale.

La question de la juste utilisation du Big Data par les institutions

Gilles Babinet est également conscient des questions qui se posent autour de la vie privée avec l’utilisation du Big Data et pour ce faire il revient dans la troisième partie sur l’affaire Snowden et les différents programmes utilisés par la NSA (XKeystore, Prism et MonsterMind). Intéressant et instructif on se croirait presque dans un roman d’espionnage. La question du respect de la vie privée est de taille et Gilles Babinet pense que : « la question de la juste utilisation du Big Data par les gouvernements et autres institutions va se poser avec de plus en plus d’acuité. »

Alors sans hésiter je vous conseille vivement la lecture de ce livre ( paru aux éditions Le passeur et bravo Gilles pour ce beau travail d’explication et de sensibilisation. (Gilles Babinet est Digital Champion et représente la France auprès de la commission européenne sur ces sujets.)

Google met sa maitrise du Big Data au service de la recherche pharmaceutique

Et si le big Data nous aidait à mieux vivre ? C’est en tout cas le sens des travaux effectués par Google sur la recherche pharmaceutique. Ne nous méprenons pas, Google n’entend pas remplacer les grands laboratoires pharmaceutiques mais cherche à explorer les possibilités d’accélérer les processus en utilisant les principes du Big Data.

 

google drug

Le deep learning appliqué à la recherche pharmaceutique. Habitué à manipuler des volumes gigantesques de données provenant de sources variées Google, associé au Pand Lab de l’université de Standford, a publié un document ( Large-Scale Machine Learning for Drug Discovery ) qui analyse comment des données provenant de sources variées pourraient permettre de déterminer avec une plus grande précision les composants chimiques pour réaliser les traitements appropriés à de nombreuses maladies. Pas de révélation médicale dans cette approche mais le test de modèles de traitement basés sur des techniques de machines learning et de deep learning. Le Deep Learning s’inspire de la neurobiologie pour constituer un réseau de neurones artificiels capable d’apprendre sur le modèle du cerveau humain. Lire la suite

Le Big Data exigera des bases de données NoSQL qu’elles repoussent encore leurs limites

Le Big Data sera un des éléments clé de la transformation numérique des entreprises. Le terme recouvre cependant de nombreuses technologies. Parmi celles-ci on trouve les bases de données NoSQL dont la multitude des offres nécessite de comprendre les principes qui régissent leur conception.

life-of-pix-free-stock-photos-light-sky-silo-windows-lillyphotographer

Face au déferlement de données auquel on a assisté ces dernières années, et à la prise de conscience que ces données pouvaient constituées une valeur sans commune mesure pour l’entreprise, une nouvelle vague de bases de données a vu le jour. Un mouvement amorcé en 2009 par les grands acteurs du web qui ont été les premiers à être confrontés à des volumétries inédites de données, structurées et non structurées, et à un nombre vertigineux de requêtes.

Les bases de données NoSQL adressent des enjeux différents de ceux des bases de données relationnelles historiques

Ces bases de données de type NoSQL viennent compléter (et non pas remplacer) les bases de données relationnelles qui se heurtaient à des limites d’évolutivité et de performances dans des environnements de données massives.

Avec la prolifération annoncée des objets connectés qui vont être autant de sources de nouvelles données, la gestion de bases de données massives se posera de manière accrue.

Les solutions de type NoSQL existent en grand nombre aujourd’hui et la difficulté consiste à choisir la base de données NoSQL adaptée à un contexte précis.

Pas réellement de définition précise d’une base de données NoSQL mais des objectifs communs :

Les bases de données NoSQL se différencient du modèle SQL par une logique de représentation de données non relationnelle qui se caractérise en général par :

  • D’importants volumes de données structurées et non structurées
  • Une multitude de requêtes simultanées
  • Une forte évolutivité de type scale out (évolution horizontale par rajout de serveurs)
  • De hautes performances
  • Pas de schéma (schema less) . La base de données n’impose pas de définition des éléments au sein d’un ensemble de données .

Les objectifs étant globalement partagés par l’ensemble des fournisseurs de bases de données NoSQL, comment dès lors faire la différence parmi une offre abondante ?

Les concepteurs de bases de données NoSQL ont du faire des choix d’architecture pour réaliser leurs objectifs. Les caractéristiques et les fonctionnalités d’une base de données NoSQL sont souvent la résultante de compromis et de combinaisons de choix complétés par des développements spécifiques de fonctionnalités.

Choisir une base de données nécessite de comprendre les choix architecturaux qui ont concouru à sa conception

   Le parti pris par les fournisseurs ne préjuge pas de la qualité d’une base de données NoSQL mais il permet de comprendre son positionnement et son adaptation par rapport à des cas d’usage et des conditions d’exploitation. Sans être exhaustif on peut recenser quelques choix d’architectures déterminants

1. Le choix du modèle de données : On trouve quatre modèles qui présentent chacun des intérêts et des limites. Les limites de chaque modèle pouvant être compensées certaines fois par des fonctions additionnelles

      • Clé/Valeur
      • Orienté colonne
      • Documents
      • Graphe

 2. Le mode de répartition des données : Face à une quantité de données importante et à de nombreux accès simultanés, il est nécessaire de répartir les données et les accès sur différents serveurs. Les moyens d’y arriver sont nombreux et on trouvera des systèmes totalement distribués ou de types master/slave. La topologie choisie et les algorithmes pour implémenter la distribution des données auront une incidence sur

  • L’uniformité de la répartition des données et des accès
  • La quantité maximale de données et de requêtes supportées avec le même niveau de performance.
  • Le maintien des performances en cas d’ajout ou de suppression d’une ressource
  • La simplicité de rajout d’une ressource
  • Le maintien des accès en cas de perte d’une ressource

3. La nature de l’algorithme:  Les algorithmes sont utilisés pour mettre en œuvre l’infrastructure distribuée en fonction du modèle de données choisi. Le choix de l’algorithme et son implémentation sont essentiels. Si on a par exemple choisi un modèle de données clé/valeur, pour des raisons de simplicité et de performances, et un système distribué de type pair à pair (peer to peer), pour un équilibrage de charge homogène, on pourra alors s‘appuyer sur un algorithme de type Table de hashage distribuée DHT (Distributed Hash Table) pour la mise en œuvre de la solution.

Dans cet exemple la combinaison « pair à pair » et l’algorithme « DHT » déterminera la qualité de performance, la souplesse d’évolution du cluster et le niveau de disponibilité selon les réplications permises.

4. La programmation:  Rarement mentionnés dans les documentations techniques, les choix de programmation ne sont pas sans conséquence sur les performances et la frugalité (l’usage minimum des ressources) de la base de données.  Plus la programmation sera proche de l’OS (programmation bas niveau), plus les performances seront optimisées et moins la consommation des ressources sera importante. Cela demande cependant une expertise forte et un investissement supérieur en temps de développement

Une maitrise complète des ressources par le code présente l’avantage de pouvoir assurer que certaines fonctions peuvent s’effectuer sans dégrader les performances. Une consommation minimum de ressource mémoire par exemple permet d’optimiser des fonctions de multithread et d’obtenir une scalabilité au sein d’un nœud d’un cluster sans impact sensible sur les performances.

Attention aux effets de seuils: Par définition lorsque l’on s’intéresse aux bases de données NoSQL on arrive dans des domaines extrêmes, ou qui tendront à le devenir dans l’avenir, en termes de nombre de requêtes et en quantité de données. La question est donc de s’assurer que les performances resteront constantes au fur et à mesures de l’augmentation des ressources.  On pourrait imaginer que le problème est résolu par le simple ajout physique de ressources.

Dans la réalité on constate une effet de seuil. Cet effet de seuil, comme son nom l’indique, se déclenche quand un niveau de requête est dépassé. La performance se dégrade alors sans possibilité d’y remédier par l’ajout de ressources matérielles. La manière dont on a implémenté le code de la base de données prend alors toute son importance . Plus l’effort de développement aura porté sur l’optimisation du code en utilisant de la programmation bas niveau, et plus tard l’effet de seuil se fera ressentir.

En fonction de chaque contexte et des prévisions de croissance l’effet de seuil peut être ou non un problème. Des benchmarks permettent de s’assurer que la solution envisagée supportera les charges prévues dans le temps.

Simplicité opérationnelle

Si les notions de scalabilité, de performances et de disponibilité sont particulièrement sensibles dans un contexte de bases de données NoSQl il ne faut pas pour autant négliger le côté opérationnel de la solution

  • Mise en œuvre : simplicité de l’interface utilisateur, utilisation ou non du format de données d’origine, besoin d’interruption lors d’ajout de ressources.
  • Intégration dans un environnement existant : infrastructures et standards du marché supportés

Pas de recette miracle donc mais des questions à se poser qui pourront nécessiter au final quelques tests pour valider que les niveaux de performances et les capacités d’évolution répondent bien aux cas d’usages concernés.

Documentations:

a lire également : Quartet FS et quasardb s’allient pour repousser les limites de l’analyse Big Data