Comment la donnée est-elle collectée puis transformée en information utile aux prises de décisions des gestionnaires d’une ville ? Quel est son parcours du monde physique (terrain) au monde digital (stockage, IA, applications métiers, etc.) ? Explications.
Le système de traitement des données via les environnements de type « smart » peut ressembler à un véritable labyrinthe pour le profane. Au tout début de la chaîne, on trouve des capteurs qui collectent les éléments du terrain et les transforment en données numériques. On récupère ainsi des températures, le niveau de remplissage d’une poubelle ou un taux de CO2. En complément de ces données collectées sur le terrain, on rassemble également des données provenant de systèmes externes comme la météo…
A l’autre bout de ce chemin inextricable, c’est le monde complexe des applications, dont le but est de guider dans les décisions à prendre pour enclencher des actions. On parle alors, par exemple, d’applications métiers utilisées par les services techniques d’une ville, ou d’applications web ou mobiles pour les opérationnels et les usagers finaux.
Mais il existe toute une partie, plus obscure, entre l’objet connecté et l’application, ces briques qui enrichissent des données brutes pour créer des informations à valeur ajoutée qui permettent de prendre des décisions et d’agir. La première étape de cette « boîte noire » est de collecter des données, au travers de capteurs aussi divers que variés, ce qui nécessite d’être capable de prendre en compte tous les protocoles de communication utilisés par ces capteurs.
Convergence vers le « data lake »
Des données de tous types, et surtout de tous formats, vont alors converger vers un « data lake », un ensemble de « données non structurées et non modifiées », qui est une zone de stockage dans laquelle, si elle n’est pas organisée correctement, les data scientists risquent de « patauger » avant de s’y retrouver. « Ils peuvent passer 75 % de leur temps à « nettoyer la donnée » avant de pouvoir l’interpréter », indique Gwendal Azous, consultant IoT d’Axians, la marque de VINCI Energies dédiée à l’ICT.
Par exemple, selon les types de capteurs, une donnée de température peut tantôt être exprimée en degrés Celsius et tantôt en Fahrenheit. Pour gagner en efficacité, il va falloir homogénéiser cette donnée.
Pour cela, Axians met en œuvre un logiciel en amont du stockage pour normaliser les données. Une température en Fahrenheit sera ainsi automatiquement traduite en degrés Celsius si le client a choisi cette norme avec son intégrateur. Idem pour les dates dont les structures varient d’un pays à l’autre. « Cette organisation du « data lake« , insiste Edouard Henry-Biabaud, Business Development Manager Axians, est fondamentale pour l’efficacité du système. »
Une fois normalisée, la donnée va suivre un chemin dans les différentes bases de données qui constituent le « data lake ». Celles-ci ont des caractéristiques spécifiques de rétention, appelée persistance (durée de vie de la donnée), de rapidité d’accès et de capacité de stockage, en fonction des types de traitements que l’on souhaite appliquer à cette donnée.
BDD chaudes, tièdes et froides
Les bases de données (BDD) dites « chaudes », par exemple des bases relationnelles (de type SQL), permettent d’accéder très rapidement à la donnée pour la traiter quasiment en temps réel. C’est là que l’on trouvera par exemple le référentiel objets, les données de monitoring nécessitant un traitement ou une réaction immédiate. Le temps de conservation de la donnée est limité, d’une à quatre semaines.
Au-delà de ce délai, la donnée n’est pas détruite mais reversée dans une base de données « froides », conçue pour l’archivage. Dans une telle base, le temps d’accès à la donnée importe peu.
« À partir de mesures comme celle du flux des piétons, de la météo et du taux de remplissage du parking, nous pouvons prédire le taux de remplissage d’un magasin. »
Les bases de données dites « tièdes » sont le domaine du big data. Alliant la quantité et la vitesse de traitement, elles alimentent les processus de data analyse et les algorithmes « intelligents ».
« Disponibles en moyenne pendant au moins une année (dépend très fortement du nombre de cas d’usage et du volume de données), ces données vont être utilisées pour réaliser des analyses prédictives afin d’optimiser la maintenance ou pour anticiper des comportements et prendre des décisions en amont d’un événement », précise Edouard Henry-Biabaud.
Une phase importante du traitement de la donnée est de la remettre dans son contexte. « La donnée brute « il fait 22 degrés » ne permet pas de juger de son intérêt. En revanche, une fois croisée avec la donnée du mois et du lieu, elle prend une signification. 22 °C en janvier à Paris, il fait chaud. En août, c’est normal. Une fois croisées par les datas analysts, les données s’enrichissent pour fournir des informations, lesquelles une fois travaillées par l’IA vont produire de la connaissance », explique Edouard Henry-Biabaud.
« De cette façon, à partir de trois mesures comme celle du flux des piétons, de la météo et du taux de remplissage du parking, nous allons être capables de prédire le taux de remplissage du magasin », complète Gwendal Azous.
Des applis pour l’action
Une fois collectée, normalisée et stockée dans la base adéquate, la donnée va jouer son rôle de « carburant » pour les applications finales. L’intérêt de cette architecture, pour une ville ou pour une entreprise, est de pouvoir très simplement multiplier des applications différentes qui iront puiser les données nécessaires dans les différentes bases chaudes, froides et tièdes de ce « data lake » unique.
Différents types d’applications accèdent aux bases de données via des API, autrement dit via des connecteurs logiciels. Des applications métiers, d’une part, qui donnent une vision précise d’un cas d’usage comme la gestion de l’éclairage public, de la qualité de l’air ou de la collecte des déchets. Ce type d’applications permet aux services techniques de la ville, souvent organisés par domaine d’intervention, d’accéder aux informations qui les concernent afin de réaliser leur tâche.
Des applications transversales, d’autre part, qui vont corréler des informations de différents cas d’usage pour apporter un point de vue plus riche, car moins siloté, du fonctionnement de la ville. Un hyperviseur peut être installé au-dessus de l’ensemble pour faciliter la visualisation, et donc la prise en compte des informations importantes issues de ces différentes applications.
De la collecte au traitement de la donnée, l’organisation du système d’information d’une ville produit la connaissance qui permet de prendre des décisions, car, finalement, c’est bien l’humain bien informé qui décide, et non l’algorithme !
14/11/2019