Accéder directement au contenu de la page Accéder à la navigation principale Accéder à la recherche

Des milliards de données dorment dans les serveurs et les data centers. Ce sont les dark data. Leur coût financier et environnemental est devenu un problème qu’il n’est plus possible d’ignorer.

Selon une étude de l’éditeur de logiciels MEGA International menée par l’institut Enterprise Strategy Group, le volume moyen de données dans les entreprises double tous les deux ans. Aujourd’hui, le poids des données générées par les entreprises chaque jour dans le monde est de 1,3 milliard de gigaoctets.

Un grand nombre de ces données sont des dark data, ou données froides, également appelées « données oubliées ». Il s’agit de données très rarement, voire jamais consultées et utilisées. Elles sont générées par une multitude d’interactions des utilisateurs des systèmes d’information des entreprises et des organisations (fichiers de log des serveurs, données de géolocalisation, e-mails et fichiers attachés…).

Or, avec l’extension du cloud et l’usage croissant des objets connectés (IoT), cette production massive de données froides ne fait que s’accélérer. Au niveau mondial, le Rapport 2019 sur l’état des dark data publié par TRUE Global Intelligence pour l’éditeur de logiciels Splunk estimait que les dark data représentaient 52 % des données stockées dans le monde.

Facture salée

En s’accumulant dans les serveurs des entreprises et dans les data centers, ces données dormantes génèrent un coût financier considérable, avoisinant les 2 milliards d’euros chaque mois au niveau mondial, selon une étude du cabinet américain International Data Corporation (IDC). A cela s’ajoute un coût environnemental élevé et croissant : selon une étude de Veritas, les dark data ont été responsables en 2020 de l’émission de 6,4 millions de tonnes de CO2, soit l’équivalent de l’empreinte carbone d’une voiture parcourant 575 000 fois le tour de la Terre.

Or, le secteur de la data est déjà responsable de 4 % des émissions de gaz à effet de serre : à eux seuls, les data centers ont une empreinte carbone plus importante (2,5 % des émissions de CO2) que celle de l’industrie de l’aviation (2,1 %).

Un troisième aspect mérite l’attention des dirigeants : la multiplication des failles générées par cette masse de données susceptible de menacer la sécurité des systèmes informatiques des entreprises.

Prendre conscience du problème

Le sujet n’est manifestement pas une priorité pour les entreprises. « Qui va prendre la responsabilité de supprimer ces données ? Personne ne souhaite ne serait-ce qu’entrouvrir la porte pour nettoyer tout cela. Il est souvent plus facile de les garder », déplore Cor Bonda, Lead consultant Data & Analytics chez Axians Pays-Bas.

« Il est essentiel d’instaurer une politique de data management partagée par tous dans l’entreprise. Mais il faut partir du besoin et non de la data. »

Il serait pourtant temps de s’en préoccuper sérieusement, notamment à l’heure où le prix de l’énergie flambe et les coûts de stockage dans les data centers également. Sans compter que les réglementations sur la gestion des données personnelles, comme le RGPD, qui se multiplient obligent à ne pas conserver indéfiniment ces dernières.

Mais, bien souvent, les entreprises et notamment les PME qui disposent de peu de ressources se demandent comment retrouver cette donnée. « Les organisations ne savent souvent même pas qu’elles ont des dark data ! La première chose à faire est donc de les identifier », note Cor Bonda. Il faut ensuite réaliser une classification entre les données froides qui doivent le rester, celles qui sont exploitables et celles à supprimer définitivement.

Quelles solutions?

« Pour cela, il faut partir du besoin et non de la data. Il est essentiel d’instaurer une politique de data management partagée par tous dans l’entreprise », conseille le Lead consultant Data & Analytics d’Axians Pays-Bas, qui ajoute cependant que « la première chose à faire est de produire moins de data et donc de dark data ».

Former les équipes à cette problématique, effectuer des audits réguliers afin d’identifier et éliminer les dark data, établir une cartographie et un registre de traitement des données personnelles pour suivre leur cycle de vie peuvent y contribuer. Ce travail de localisation, d’identification et de classification de la data peut être optimisé par l’intelligence artificielle.

En effet, l’IA est potentiellement un outil intéressant pour valoriser les dark data. Elle peut en effet sensiblement améliorer la connaissance et la relation client en utilisant et exploitant davantage de données associées aux clients, et jusqu’ici éparpillées.

19/10/2023