Blog
Accueil  |  
Plan du site  |  

Parlez-vous BIG DATA ? Le BIG DATA de A à Z.

Terme galvaudé depuis plusieurs années déjà, le Big Data est devenu l'une des plus grandes tendances technologiques, qui influence petit à petit l'ordre économique et sociétal. En effet, le Big Data est bien plus qu'un simple volume de données, c'est un spectre de technologies et d'usages innovants. Certains appréhendent un autre Big Brother, d'autres annoncent d'extraordinaires évolutions dans l'industrie, la santé, la finance, la gestion urbaine ou encore la relation client.

 

Vous trouverez ci-après un nombre de mots-clés, liés au concept du Big Data : des acronymes, des termes techniques, des noms de produits, etc., rencontrés au travers de nos activités d'intégration et de conseil Big Data & Analytics chez nos clients.

 

Cette liste non-exhaustive est remise à jour régulièrement pour nous servir d'un point de repère par rapport à l'évolution continue du concept Big Data et son appropriation. N'hésitez pas à la consulter et à nous faire part de vos remarques ou suggestions d'amélioration !

 

Parlez-vous Big Data ? Le Big Data de A à Z.

  • 3V's : les trois principes régissant le Big Data (Volume, Vélocité, Variété).

 

  • 5V's : les cinq principes régissant le Big Data (Volume, Vélocité, Variété, Valeur et Visualisation).

 

  • ACID - un acronyme pour Atomicity, Consistency, Isolation and Durability. ACID est un ensemble d'exigences ou de propriétés qui, lorsqu'elles sont respectées, garantissent l'intégrité des données traitées, résultantes des transactions et issues des bases de données. L'explosion des volumes de données, issues des transactions, a attiré davantage l'attention sur la nécessité de respecter les dispositions ACID.

 

  • Analyse des modèles séquentiels (sequential patterns analysis) - cherche à découvrir ou à identifier des modèles similaires, des événements réguliers ou des tendances au sein des données au cours d'une transaction.

 

  • Advanced Analytics (Analyse Avancée) - une analyse autonome ou semi-autonome des données ou des contenus, est basée sur les technologies et les outils plus sophistiqués que ceux de la Business Intelligence traditionnelle. L'analyse avancée permet d'analyser plus finement et en temps réel toute sorte de données (structurées et non-structurées), pour y obtenir une meilleure compréhension, des prédictions ou des recommandations quant aux problématiques positionnées. L'analyse avancée intègre entre autres les techniques d'extraction de données, de l'apprentissage automatique, de l'adaptation des modèles, de la prévision, de la visualisation, de l'analyse sémantique, des statistiques multivariées, de la simulation, du traitement complexe des événements, des réseaux de neurones.

 

  • Algorithmes - un ensemble défini d'instructions ou d'opérations, qui permet de résoudre un problème ou atteindre un résultat escompté.

 

  • Apache Spark - un système de calcul en clusters open source qui permet de gérer le Big Data en temps réel, grâce à ses capacités de traitement en mémoire et de développement des algorithmes pour le traitement des données complexes.

 

  • Arbre de décision - une technique d'aide à la décision, comprenant une question ou une condition simple à plusieurs réponses, qui se présentent sous forme graphique d'un arbre.

 

  • Association - l'une des techniques d'exploration de données (du data mining) les plus connues. Avec l'association, un modèle est découvert en fonction d'une relation entre les éléments d'une même transaction.

 

  • Bayes (Théorème de Bayes) - une méthode standard statistique que les data scientists utilisent pour comprendre la probabilité d'un événement.


  • Behavior (comportement) - comprendre le comportement de l'utilisateur est l'une des clés de l'analyse avancée.


  • Cassandra - une base de données distribuée NoSQL open-source, conçue pour gérer d'importants volumes de données, issus de nombreux serveurs. Cette base de données est orientée colonnes, offrant une grande disponibilité et une robustesse dans la gestion des données en temps réel.

 

  • Classification - une technique d'extraction de données classique basée sur l'apprentissage par machine.

 

  • Cleansing (data cleansing, nettoyage de données) - recherche, correction et suppression d'erreurs dans les données, venant des fichiers, des bases de données ou encore des entrepôts de données.    

  • Clustering - une technique d'exploration de données automatique qui crée un groupe d'objets significatif ou utile avec des caractéristiques similaires.

 

  • Columnar (or Column-Oriented) Database - des bases de données de nouvelle génération (telles que Cassandra open-source et Vertica de HP) sont conçues pour stocker des données par colonne plutôt que par ligne comme les bases de données SQL traditionnelles. Leur conception offre un accès plus rapide aux données et une gestion performante du Big Data. Les bases de données en format Columnar sont particulièrement utilisées pour les applications Analytics (analyse, reporting).

 

  • Cognitif (informatique cognitive, cognitique, cognitive computing) - usage / intégration des processus de pensée humaine dans un système technologique / informatique. 

 

  • Datalake (lac des données) - un stockage global des informations présentes dans l'entreprise, quelle que soit la provenance et le format des données. De plus, un Datalake permet de gérer les flux en temps réel et de faciliter le traitement et la transformation de l'information. Le Datalake autorise également aux applications à interagir directement sur les données dans le but de fournir les bonnes informations aux bons services de l'entreprise en un minimum de temps. La création de valeur n'est plus uniquement dans l'usage des données à des fins de reporting.

 

  • Data Visualization - une technique de mise en forme, lisible et visible, des calculs effectués ou des données explorées. Cette technique est indispensable pour l'appréhension du Big Data.

 

  • Data Science (science des données) - un ensemble des méthodes scientifiques, mathématiques, statistiques et des technologies, permettant d'extraire des informations utiles du Big Data et de résoudre des problèmes analytiques complexes.

 

  • DatawareHouse (entrepôt de données) - une base de données décisionnelle, permettant de collecter, d'organiser et de stocker des informations en vue d'offrir une plateforme décisionnelle aux différents métiers de l'entreprise. Ce dispositif est régi par le principe d'ETL : Extract, Transform et Load, pour livrer des informations précises aux métiers distincts selon un chemin relativement défini.

 

  • Deep Learning - un sous-ensemble du Machine Learning permettant un apprentissage profond grâce à la modélisation des données (texte, image, son, vidéo, audio, etc.) avec un niveau d'abstraction assez élevé sur la base des réseaux de neurones artificiels.

 

  • DeepQA research project - initié par IBM, le projet DeepQA étudie la façon dont les technologies du traitement du langage naturel, de la récupération de l'information et de l'apprentissage automatique, influencent les technologies traditionnelles de réponses aux questions automatisées. p.ex. IBM Jeopardy! Challenge.

 

  • Elasticsearch - développé en Java, ce serveur distribué permet l'indexation et la recherche des données quasiment en temps réel.

 

  • ETL (Extract, Transform and Load) - une solution logicielle utilisée pour déplacer les données d'une base de données, par exemple celle qui gère le système applicatif des transactions bancaires, vers une autre, comme par exemple le datawarehouse utilisé pour le reporting. La donnée doit être nettoyée avant d'être transmise d'une base à une autre.

 

  • Flume - une des technologies de la famille Apache Hadoop (parmi HBase, Hive, Oozie, Pig and Whirr), qui permet de distribuer, de collecter, d'agréger et de déplacer efficacement de grandes quantités de données d'événements en continu. Une entreprise, par exemple, peut utiliser Apache Flume sur son serveur Web pour collecter les données, issues des réseaux sociaux et destinées à des analyses marketing.

 

  • Géospatiale (Analyse Géospatiale) - une tendance alimentant le Big Data avec la croissance des données géospatiales générées et collectées par les systèmes IT d'aujourd'hui. L'analyse géospatiale à partir d'un nombre croissant de cartes, de graphiques, de photographies et d'autres contenus géographiques constitue une forme spécifique de visualisation des données (voir "V" pour la data visualisation).

 

  • Global Pulse - le programme des Nations Unies vise à mettre le Big Data au service du développement sociétal et humain : l’analyse des données, issues des communications Internet et mobiles, et des réseaux sociaux permet d'identifier plus rapidement que les indicateurs habituels, les tensions sur les prix de denrées alimentaires, le déclenchement et la progression d’épidémies, les fluctuations du marché de l’emploi, etc. http://www.unglobalpulse.org/ .

 

  • Gouvernance de données - un système intégrant des technologies, des processus et des organisations en vue d'optimiser la qualité, la sécurité et la traçabilité des informations d'une entreprise.

 

  • Hadoop - une plate-forme open-source, écrite en Java, pour le développement des applications distribuées, qui servent à travailler (stockage, traitement, distribution et analyse) avec un volume important de données, organisées en une multitude de noeuds distribués. Hadoop a été créée par Doug Cutting de Yahoo, sur la base du concept MapReduce, BigTable et GoogleFS de Google Labs'.

 

  • Hbase - une base de données non-relationnelle distribuée (NoSQL), base orientée colonnes, écrite en Java.

 

  • Hive - un système d'entrepôt de données construit sur Hadoop.

 

  • In-Memory Database - lors des transactions ou des requêtages, les ordinateurs récupèrent en général les données directement des disques durs. Ce procédé peut devenir trop lent lorsque les systèmes informatiques gèrent du Big Data. Les systèmes In-Memory Databases (bases de données en mémoire) utilisent la mémoire principale d'un ordinateur pour stocker les données fréquemment utilisées, ce qui réduit considérablement les temps de traitement. Les bases de données en mémoire incluent entre autres IBM DB2BLU, IBM DashDB, SAP HANA, Oracle Times Ten In-Memory.

 

  • Intelligence Artificielle -  ensemble de théories et de technologies de nouvelle génération, mises au service de développement des systèmes, qui permettent de simuler l'intelligence humaine. 

 

  • IoT (Internet of Things, Internet des Objets) - des objets et des lieux physiques connectés et ayant donc leurs propres identités digitales (adresse IP, protocoles smtp, http...) qui leur permettent de communiquer les uns avec les autres.

 

  • Java - un langage de programmation développé chez Sun Microsystems et publié en 1995. Hadoop et un certain nombre d'autres grandes technologies de gestion des données ont été construites à l'aide de Java, qui reste une technologie de développement dominante sur le marché.

 

  • Kafka -  initialement développé par Linked-in et intégré dans la famille Apache depuis 2012, ce système de messagerie distribué permet de centraliser le stockage et l'échange de tous les types de données qui sont générés par une entreprise en temps réel. 

 

  • K-Means - un algorithme de regroupement des données, permettant des analyses non-supervisées en vue de définir des tendances au sein de ces données et de les regrouper en fonction des caractéristiques similaires. (p.ex. parc clients / prospects).
     
  • Machine learning - une technique d'Intelligence Artificielle qui allie le volume massif d'informations et les algorithmes d'apprentissage en vue de détecter des solutions aux problématiques très complexes, voir de prédire des événements pour un cas d'usage particulier.

 

  • Metadonnée (metadata) - une donnée servant à définir ou à décrire une autre donnée. Les metadonnées sont à la base du Web sémantique.

 

  • Multiples V's - Volume, Vélocité, Variété, Valeur, Visualisation, Véracité, Vendors, etc.

 


  • NoSQL (not only SQL) - désigne les bases de données qui ne sont pas fondées comme l'architecture typique des bases de données relationnelles. Les bases NoSQL ont été développées pour la gestion du Big Data. En voici différents types des bases NoSQL : les bases clef/valeur (ex. Redis), les bases orientées colonnes (ex. HBase, Cassandra), les bases orientées document (ex. CouchDB, RavenDB, MongoDB), les bases orientées graphes (ex. Neo4).

 

  • Petabyte de données - est équivalent des 1 000 000 000 000 000 bytes. 

 

  • Prévision - une des techniques d'exploration de données qui recouvre la relation entre les variables indépendantes et la relation entre les variables dépendantes et indépendantes.

 

  • SGBDR - un acronyme de Système de Gestion de Base de Données Relationnelles. SGBDR remplissait sa fonction encore dans les années 90s en devenant la référence pour le stockage de données et l'échange des données entre les entreprises en vase clos dans un format déterminé et maîtrisé.

 

  • Smart disclosure - divulgation intelligente de données par une entreprise ou un service public américain auprès des utilisateurs ou clients de leurs services. Cet accès aux données personnelles dans des formats ouverts est donné de façon périodique pour permettre aux clients de les réutiliser dans le domaine de la finance, de la santé, de l'énergie, etc.

 

  • SQL - Structured Query Language (Langage de requête structurée).

 

  • The Weather Company - une société de prévisions météorologiques et de technologies de l'information, qui appartient à l'unité commerciale Data et Analytics d'IBM depuis 2016.

 

  • Truven Health - fournit des données sur les soins médicaux, des analyses et des services de conseil.

 

  • Volume - IDC estime que le volume de l'information mondiale atteindra 2,7 zettabytes cette année (soit 2,7 milliards de téraoctets) et qui doublera tous les deux ans.

 

  • Vitesse - la vitesse de transfert des données doit devenir de plus en plus rapide à partir des systèmes financiers, des systèmes de vente au détail, des sites Web, des capteurs, des puces RFID et des réseaux sociaux.

 

  • Variété - il y a 5 - 10 ans, l'informatique gérait principalement des données alphanumériques faciles à stocker dans des lignes et des colonnes structurées dans des bases de données relationnelles. Aujourd'hui, les données non structurées, telles que les messages Tweets et Facebook, les documents, le contenu Web, etc., font partie intégrante du grand mixage de données.

 

  • Valeur - la production et la captation de données créent de la valeur, surtout lorsque dans l'analyse des problèmes complexes nous tenons compte de la variabilité des cas, au lieu de raisonner sur le « client moyen », le « patient moyen » ou « l’électeur moyen ».

 

  • Visualisation - voir Data Visualization. 

 

  • Watson (IBM Watson) - un programme applicatif d'intelligence artificielle développé par IBM pour traiter le langage naturel (langue parlée par un être humain). IBM Watson fait partie du DeepQA research project et a notamment gagné en 2011 au jeu télévisé Jeopardy!. Watson peut comprendre toutes les formes de données (y compris non-structurées, texte, image, vidéo et audio), interagir naturellement avec les gens via des chatbots, apprendre (en utilisant l'approche du Machine Learning) et raisonner (en fonction de la personnalité, du ton et des émotions des clients, utilisateurs).