Le Big Data, l’essentiel en 1000 mots !

  1. Accueil
  2. Actualités
Le Big Data, l’essentiel en 1000 mots !

Le Big Data, l’essentiel en 1000 mots !

La notion du Big Data est présentée comme une nouvelle révolution industrielle semblable à la découverte de la vapeur et de l’électricité (19ème siècle), et de l’informatique (fin du 20ème siècle).

  Ce phénomène est qualifiée comme étant la dernière étape de la troisième révolution industrielle, laquelle est en fait celle de « l’information ». Dans tous les cas, le Big Data est considéré comme une source de bouleversement profond de la société.

     Inventé par les géants du web, le Big Data se présente comme une solution dessinée pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes.

·       C’est quoi ?

    Le Big Data ou volumes massifs de données (mégadonnées), consiste en un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.

    Selon une étude faite par IBM, Chaque jour, nous générons 2,5 trillions d’octets de données. 90% des données dans le monde ont été créées au cours des deux dernières années seulement.

     Ces données sont collectées des informations provenant de partout : Réseaux sociaux, objets connectés, télécommunications, messages envoyés, vidéos publiés, informations climatiques, signaux GPS, transaction en ligne, et bien d’autres encore.

·       Les 3V du Big DATA 

Volume : Il faut stocker énormément d’information : le Big Data représente un volume important de données croissants de tous types.

Variété : Il faut stocker beaucoup de données de toutes sortes : le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc ..).

Vélocité : Il faut pouvoir avoir accès rapidement à toutes ces données : l'énorme rapidité avec laquelle les données sont générées, stocker et traitées.

·       Quelles utilités en santé ?

Le big data intéresse de très nombreux acteurs du monde de la santé (Entreprises, organismes de recherche, à but lucratif ou non, scientifiques, médecins, industriels) car il permet de nombreux progrès médicaux.

  •  Sources de données :

Les bases de données médico-administratives :

Dans le domaine de la santé, le big data correspond à l’ensemble des données socio-démographiques et de santé, disponibles auprès de différentes sources et bases de données.

La France par exemple possède environ 260 bases de données publiques dans le domaine de la santé) , et le portail Epide?miologie?France 

recense jusqu’à 500 bases de données médico-économiques tel que (SNIRAM, ATIH,CNAV, CépiDc, cohortes, registres et études en cours.

L’exploitation de ces données présente de nombreux intérêts :

- identification de facteurs de risque de maladie, aide au diagnostic, au choix et au suivi de l’efficacité des traitements, pharmacovigilance, épidémiologie…

-Elle n’en soulève pas moins de nombreux défis techniques et humains, et pose autant de questions éthiques.

-Les objets de santé connectés :

Selon le rapport « The Internet of Things Market », le nombre d’objets connectés devrait être de 68 milliards en 2020. De plus, en 2012, le total des données stockées dans le monde était de 500 petabytes. Après la course à la puissance de calcul puis au développement des réseaux, l’enjeu réside désormais dans le stockage de ces données dans le « cloud », mais aussi et surtout, à libérer leur accès (open data) et à les traiter rapidement et en masse (Big Data).

L’utilisation de ces données à bon escient est un enjeu majeur pour la recherche et la santé publique , notamment :

1-     Prédire des épidémies

Disposer de nombreuses informations sur l’état de santé des individus dans une région donnée permet de repérer l’élévation de l’incidence de maladies ou de comportements à risque, et d’alerter les autorités sanitaires.

Ainsi, le site HealthMap par exemple, a pour objectif de prédire la survenue d’épidémies à partir de données provenant de nombreuses sources.

2-     Améliorer la pharmacovigilance

L’analyse des données issues de cohortes ou des bases médico-économiques sur le long terme peut donc permettre d’observer beaucoup de phénomènes, et notamment de faire des rapprochements entre des traitements et la survenue d’événements en santé. Cette pratique permet de repérer des événements indésirables graves et d’alerter sur certains risques.

3-     Mener des Evaluations médico-économiques

Les informations contenues dans les différentes bases médico-administratives servent de base pour mener des études de coût (cost of illness…) ou des évaluations médico-économiques (CEA-CUA etc...)

4-     En Recherche :

Lorsqu’un chercheur souhaite démarrer une étude se fondant sur l’utilisation de données massives, il commence par identifier les bases qui lui sont utiles et demande un accès spécifique aux équipes ou organismes qui détiennent ces données. Il doit ensuite s’entourer de nombreuses compétences pour effectuer des méta-analyses intégrant toutes ces données.

  • Les défis éthiques du big data :

Lors d’un essai clinique, un consentement est nécessaire avant le recueil de données de santé. De même, tout chercheur ou clinicien qui utilise des données du soin doit en informer le patient concerné et faire une déclaration auprès de l’organisme concerné. Mais d’autres recueils se font à l’insu des contributeurs, notamment lors de recherches sur internet par mots clés ou lors de la transmission de données d’objets connectés. Cela pose évidemment des problèmes éthiques relatifs au souhait des citoyens de partager ou non ces données avec des tiers, ainsi que sur la préservation de l’anonymat.

Et de nombreuses autres questions se posent : faut-il conserver toutes les données ? Faut-il les mutualiser ? Qui doit les gérer et sous quelles conditions les partager ? Comment faire en sorte que Google, Apple, Facebook et Amazon ne s’approprient pas une partie d’entre elles ? Les enjeux sont de taille : risque de divulgation de la vie privée et conséquences pour la vie sociale, perte de confiance dans la puissance publique et la confidentialité de la recherche, harcèlement publicitaire…. Ces problématiques font régulièrement l’objet d’avis de la part de comités d’éthiques. 

Sources & Références : IBM, Inserm, Smart cities, lebigdata,

Cet article est une synthèse des différents articles et publications visant à simplifier la notion du big data et son utilité en santé publique.