Big Data : l’incroyable explosion de nos données en ligne

C’est un des buzzwords de ces dernières semaines (mois ?). Le Big Data fait beaucoup parler, mais fait aussi beaucoup rêver. Derrière ce mot se cache l’incroyable quantité de données disponible notamment sur le net, et surtout la manière dont on peut les traiter pour obtenir des informations utiles. Tendances de société, de consommation, usages ou opinions, épidémies… Tout est potentiellement possible. Le tout est de savoir exploiter ces données, de savoir où chercher et comment le faire. Un exemple très simple pouvant illustrer ce concept est Google Flu. Le moteur de recherche a ainsi mis en place des indicateurs permettant de suivre la propagation de la grippe à travers le monde, sa basant sur les recherches lancées sur son moteur.

Oui, mais… Si les Big Data semblent représenter pour certains un des enjeux majeurs de la prochaine décennie, tout le monde ne s’accorde pas sur ce point. Forcément compliqué de faire la part des choses entre données utiles et inutiles, de savoir où chercher, et au final d’apporter une information pertinente. La première problématique en matière d’information étant selon le stratégiste Alan Mitchell (relayé dans un passionnant papier d’Internet Actu) d’apporter la bonne information à la bonne personne, et pas nécessairement de traiter une multitude de données. D’où l’opposition entre Small Data et Big Data. La deuxième question qui se pose concerne l’opposition entre les organisations (principales bénéficiaires et utilisatrices du Big Data) et les individus. Ces derniers et leurs besoins devraient être au centre des intentions, ce qui n’est pas le cas dans une vision centrée Organisation du Big Data. Des statistiques générales et impersonnelles qui ne s’adapteront pas aux cas uniques de chacun.

Tout cela ne vous rappelle rien ? L’annonce de Facebook Graph Search hier repose grandement sur ce concept de Big Data et de traitement de masse de l’information. Sauf qu’elle est davantage centrée sur l’individu, et fait remonter à la surface de nombreuses informations personnelles. Ces dernières étaient jusque là oubliées et enterrées parmi les (trop) nombreuses données présentes sur le réseau. Demain, elles seront donc exploitées, triées et analysées pour leur donner du sens. Le projet soulèvera bien sûr son lot de problème, entre les données pas à jour, les renseignements incomplets donnés par beaucoup et l’intérêt pas forcément existant pour la plupart des informations ainsi mises en avant (perso, connaître les films qu’ont aimé mes amis de moins de 25 ans habitant Montpellier ne m’intéresse pas). Mais surtout, il fera remonter bon nombre de données personnelles que vous n’avez pas forcément envie d’exposer à tous, qu’elles aient été publiques un jour ou pas. Et encore moins de leur donner du sens en permettant de les recouper. C’est là que la question de l’identité numérique prendra tout son sens, celui de la confidentialité aussi…

Mais revenons-en à nos moutons, à savoir la multiplication des données en ligne. La firme IDC, mandatée par EMC (spécialiste des logiciels et systèmes de stockage), a réalisé une étude sur la prolifération de ces données et anticipe déjà ce que cela donnera en 2020. Les résultats sont particulièrement intéressants. Voici les principaux enseignements :

  • En 2011, 5 exaoctets de données étaient générés tous les deux jours. Cela se fait désormais en 10 minutes seulement.
  • Seules 0,5% de ces données sont analysées
  • Il n’y avait que 130 exaoctets de données dans l’univers numérique en 2005. Il devrait y en avoir plus de 40 000 à l’horizon 2020.
  • En 2020, les données représenteront l’équivalent de plus de 5 000 GO par personne.
  • En 2012, 35% de ces informations nécessiterait une protection, mais ce n’est le cas que pour 20% d’entre elles.

N’hésitez pas à jeter un œil à l’étude complète. Et pour compléter ces quelques chiffres, voici les infographies réalisées à l’occasion.

 

 

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Les meilleurs outils productivité