L’émergence du Big Data, quel coût pour l’environnement ?

Quentin Gallouédec
10 min readMar 13, 2020
Photo by NASA on Unsplash

Le Big Data, qu’est-ce donc ? En examinant les tendances de recherche de Google Trends, on remarque que c’est un terme très peu utilisé avant 2012.

Evolution normalisée des tendances de recherche pour “Big Data”, de janvier 2004 à fevrier 2020. Version actualisée disponible sur Google Trends

À partir de quel volume d’informations peut-on parler de Big Data ? 1 Go ? 100 Go ? 1 To ? En 2011, Lev Manovich, dans Trending: The Promises and the Challenges of Big Social Data écrivait :

“Big Data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time.”

C’est une définition acceptable, bien qu’elle évolue avec le niveau technologique de l’époque. En 2011 par exemple, le volume de l’ensemble des données stockées dans le monde était estimé à 4.6 ZB (4 600 000 000 TB). Aujourd’hui, on serait autour de 50 ZB.

Stocker de l’information consomme-t-il de l’énergie ?

Non, en général. Quand j’éteins mon ordinateur, il s’arrête de consommer de l’énergie, pourtant les données de mon disque dur continuent d’exister. Comme la plupart des ordinateurs récents, j’ai un disque type Solid-State Drive (SSD). C’est un type de mémoire non-volatile. Une mémoire non-volatile est une mémoire qui continue à stocker les données, même en l’absence d’alimentation électrique. Ce qui consomme réellement de l’énergie, ce n’est pas stocker des données, mais de les traiter.

Le Big Data, n’est pas seulement la détention d’un grand nombre de données, c’est aussi leur utilisation, leur traitement. L’analyse de ces données, dans le but de leur donner du sens, est appelé big analytics. C’est le big analytics qui consomme de l’énergie.

Comment peut-on traiter autant de données ?

Les ordinateurs sont de plus en plus puissants. On estime que tous les 18 mois, leur capacité à traiter des données est multipliée par 2 : c’est la loi de Moore. Mais ce n’est pas vraiment ce qui nous intéresse ici. Ce qui nous intéresse, c’est plutôt le coût énergétique de ce traitement massif de données. La capacité à traiter des données s’est améliorée. Mais la capacité à traiter des données efficacement s’est également améliorée. En d’autres termes : le traitement d’une donnée est de moins en moins coûteux énergétiquement.

Voici un photo de CDC 6600. Produit en 1964, il était capable d’effectuer 3 millions d’opérations en virgule flottante par seconde (FLOPS). Il a été pendant 5 ans le super-ordinateur le plus puissant du monde.

CDC 6600, produit en 1964 par Control Data Corporation. Capable de traiter 10 millions d’opérations par seconde.

Il consommait 30 kW, soit une efficacité énergétique de 100 FLOPS/W. Pour comparaison, son homologue actuel est 100 millions de fois plus efficace énergiquement (Summit — IBM Power System AC922 :148 PFLOPS; 15 GFLOPS/W).

Qu’a-t-on dit jusqu’ici ?

  1. La quantité de données stockées (et donc traitées) augmente.
  2. La consommation énergétique nécessaire pour traiter une donnée diminue.

Et comment évolue la consommation énergétique totale nécessaire au traitement de toutes ces données ?

Répartition de la consommation mondiale d’énergie en 2010. Source : The World Bank : Global Consumption Database

The World Bank publie sur son site les données qui ont été recueillies en 2010. La répartition de la consommation énergétique est donnée ci-contre.

Les ICT (Information and Communication Technologies) représentaient à l’époque 5.3% de la consommation mondiale d’énergie. La consommation des ICT se partage en plusieurs contributions.

Estimation des différentes contributions de la consommation des ICT en 2013, pour 2017 (source : Andrae, Anders, & Corcoran, Peter M. (2013). Emerging trends in electricity consumption for consumer ICT)

Les Data Centers représentent une part importante (autour de 20%) de la consommation totale de tous les ICT. Plusieurs études s’accordent sur le fait que cette part va augmenter dans les décénies qui arrivent.

Qu’est ce qui consomme le plus dans un Data Center ?

Voyons les différentes contributions de la consommation d’un Data Center. En 2016, l’IEEE Communications Surveys & Tutorials publiait une étude dans laquelle on retrouve un estimation de la consommation électrique d’un Data Center.

Répartition de la consommation énergétique d’un Data Center. Source : M. Dayarathna, Y. Wen and R. Fan, “Data Center Energy Consumption Modeling: A Survey,” in IEEE Communications Surveys & Tutorials, vol. 18, no. 1, pp. 732–794, Firstquarter 2016. doi: 10.1109/COMST.2015.2481183

50% de la consommation est due au refroidissement des circuits. Les Data Centers sont composés d’ordinateurs, et les ordinateurs de processeurs, et les processeurs de transistors. Ces transistors, surtout quand ils changent d’état, dissipent de l’énergie par effet Joule. Pour éviter une surchauffe des circuits électroniques, il faut donc être capable de refroidir efficacement ces processeurs.

Les 50% restant se partagent entre la consommation due aux serveurs, au hardware réseau, à la conversion d’énergie et à l’éclairage. Ce sont autant d’axes d’améliorations possibles pour limiter la consommation des Data Centers.

Ici se conclue cette longue introduction. Dans la suite de cette story, nous traiterons plusieurs aspects de ce problème complexe qu’est l’impact environnemental des Data Centers. Je présente ici le résultat d’une veille sur ce sujet, en présentant différentes informations qui m’ont semblé pertinentes.

Comment refroidir plus efficacement les Data Centers ?

Comment sont refroidis les Data Centers ?

Dans la plupart des cas, le principe de refroidissement des Data Center suit le schéma suivant.

Legacy raised floor cooling. Source : https://journal.uptimeinstitute.com/

Ce qui est important de retenir sur la figure précédente, c’est qu’il existe un circuit d’air. Cette boucle passe par une zone sous les racks, où de l’air frais est injecté. Cet air frais refroidit les racks. L’air chaud est ensuite évacué par des bouches situées au plafond. Finalement l’air chaud est refroidi par l’unité CRAC, puis recommence son cycle.

Le watercooling, plus efficace que l’aircooling

Il existe des méthodes qui permettent de refroidir des circuits plus efficacement. Déjà largement adopté chez les gamers, le watercooling utilise de l’eau pour refroidir les circuits.

Ordinateur équipé d’un système de watercooling de la marque Corsair. Source : https://www.anandtech.com/

Le watercooling est plus efficace que l’aircooling pour plusieurs raisons. La capacité thermique massique de l’eau est bien plus importante que celle de l’air. Cela veut dire qu’à masse égale, l’eau stocke (et donc évacue) beaucoup plus d’énergie que l’air (environ 3500 fois plus). Néanmoins, ce système ne permet de refroidir que certains espaces bien ciblés. En fait, on utilise jamais uniquement le watercooling. Il existe toujours un système d’aircooling qui vient en complément pour refroidir les zones moins critiques.

Utilise-t-on le watercooling dans les Data Centers ?

Très peu. La raison principale est la sécurité. C’est peut-être la première chose que le watercooling m’a suggéré : “et si ça fuit ?”. Un Data Center est une réalisation très complexe qui nécessite une grande fiabilité. La plupart des pannes sont d’ailleurs dues à des erreurs humaines.

Pour assurer des niveaux de fiabilité acceptables, des procédures très restrictives sont mises en place. Dans la plupart des cas, l’eau est bannie des Data Centers, ou à défaut, restreinte au strict minimum.

De plus, la plupart des standards des cartes-mères qui sont aujourd'hui utilisés ont été établis en supposant une dissipation de la chaleur par l’air. Les designs actuels ne sont pas optimaux pour du watercooling. Quand bien même ce serait le cas, il n’existe pas aujourd’hui de constructeur qui peut garantir un niveau de fiabilité à la hauteur des exigences d’un Data Center.

Peut-on faire mieux que le watercooling ?

Il existe des systèmes qui vont encore plus loin : l’immersion-cooling. Ce système de refroidissement consiste à immerger le circuit dans un liquide diélectrique.

Selon 3M, ce sont des économies de l’ordre de 97% qui peuvent être réalisées en utilisant ce système de refroidissement. Cependant, pour être réellement efficace, il faut s’assurer que le fluide est en mouvement sur l’ensemble du volume occupé. Dans le cas contraire, l’échange thermique ne se ferait que par conduction et serait ainsi beaucoup moins efficace. Hors d’un tuyau, cette contrainte est dure à satisfaire. Pour cette raison, l’immersion-cooling ne doit pas être vue comme une solution miracle.

J’ai capté l’énergie, maintenant où est-ce que je la mets ?

S’il est possible de récupérer efficacement l’énergie dissipée par les processeurs et les autres composants, faut-il encore savoir qu’en faire.

Dans le XVe arrondissement de Paris, des appartements qui sont réservés à des bénéficiaires en attente d’un logement social sont chauffés en grande partie grâce à un Data Center de Free (source). Les locataires devraient économiser 500 euros/an sur leurs charges, ce qui correspond en moyenne à 50% des dépenses sur l’eau chaude et 80% sur le chauffage. C’est un bon exemple de recyclage de l’énergie thermique.

Une technique similaire consiste à localiser les Data Center dans des zones froides, et utiliser l’air exterieur pour refroidir les rack. On appelle ça le free cooling. En 2009 déjà, Google instalait son serveur Hamina en Finlande pour réduire ses dépenses en refroidissement.

L’équipe d’Hamina faisant du ice fishing dans le golf de Finlande. (source : google.com)

Une étape clée : consommer de l’énergie verte

Il est essentiel de considérer le problème dans sa globalité. Les Data Centers ne polluent pas en tant que tel. C’est la production de l’énergie qu’ils consomment qui pollue. Ainsi, la première étape consiste à utiliser de l’énergie qui a un impact limité, voire nul sur l’environnement. C’est ce qu’on appelle la green energy.

Google par exemple affiche une volonté de limiter son impact environnemental en achetant des éoliennes sur la zone européenne. Selon l’article, l’énergie produite par ces éoliennes équivaut à l’énergie consommée par 500 000 européens.

Les sources d’énergie ont beaucoup évoluées au 20e siècle. Elles devront continuer d’évoluer au 21e siècle. Il faut une modification structurelle profonde des modes de consommation et de production pour réussir ce que l’on appelle la transition énergétique, qui est l’un des volets de la transition écologique.

Une transition énergétique n’est pas quelque chose d’inédit. l’Allemagne par exemple s’est quasiment débarrassée du pétrole comme source d’électricité en quelques dizaines d’années.

Une nouvelle transition énergétique est donc tout à fait possible. Mais elle est avant tout nécessaire. Les énergies fossiles doivent être remplacées par les énergies vertes. C’est en réalisant cette transition que l’on pourra limiter efficacement l’impact de la consommation énergétique des Data Center sur l’environnement.

Le coût environnemental de la production de l’électronique des Data Centers

Les matériaux de l’électronique

Ce n’est pas un problème propre aux Data Centers, mais plutôt à l’électronique au sens large. Nos smartphones, ordinateurs, télévisions, montres connectées, box internet etc. sont tous composés de circuits électroniques. Pour être fabriqués ces circuits électroniques nécessitent d’utiliser des matières premières comme du cuivre, du tantale, du platine, du palladium, du plomb, de l’étain, du terbium, de l’yttrium, du gadolinium et bien d’autres matériaux, plus ou moins abondants dans la nature.

Visualisation des différents matériaux composant un smartphone. (source : sciencesetavenir.fr)

L’utilisation de ces matériaux rares n’est pas polluante en soit. C’est leur extraction qui est très couteuse pour l’environnement. Prenons l’exemple du gallium. Le gallium est utilisé entre autres pour la fabrication de puces logiques à ultra-haute vitesse et la fabrication de MESFETs pour préamplificateurs micro-ondes à faible bruit. Il est extrait en Chine majoritairement. Le tantale, utilisé pour la fabrication de condensateurs à forte capacité par unité de volume, est extrait majoritairement au Rwanda, au Congo et au Brésil. Le terbium, utilisé dans les micro-actionneurs est lui aussi extrait en Chine. Pour fabriquer n’importe quel circuit électronique, il faut assembler des métaux issus des quatre coins de la planète: Amérique du Sud, Afrique, Asie de l’Est. Juste pour le transport, la production d’un iPhone X coûte par exemple 63kg de CO2 à la planète. Selon une étude du Journal of Cleaner Production, en 2040, les télécommunications représenteront 14% des rejets mondiaux de gaz à effet de serre.

L’alternative efficace mais limitée : le recyclage

Malheureusement, il n’est pas possible de rivaliser avec les performances des systèmes électroniques actuels en utilisant des matériaux à extraction non-polluante. Pour limiter l’impact écologique de ces extractions minières, une solution pourrait résider dans le recyclage. Pour l’exemple des smartphones, une société néerlandaise, Fairphone, s’est donné le défi de développer des smartphones ayant un impact minimal sur l’environnement. Il basent leur produit sur la modularité, ainsi, quand un composant est usé, ou que les performances ne sont plus satisfaisantes pour l’utilisateur, il peut ne changer que quelques pièces, au lieu de remplacer l’intégralité du téléphone.

Si cet exemple est interessant avec les smartphones, il ne s’applique pas à nos Data Centers.

Le green500 : les meilleurs élèves des supercalculateurs

Le green500 est un classement mis à jour tous les six mois, dans lequel on retrouve les supercalculateurs les plus efficaces énergétiquement de la planète. C’est un classement similaire au top500, à la différence près que les supercalculateurs ne sont pas classés suivant leur FLOPS, mais suivant leur FLOPS/Watt. Le supercalculateur en haut de ce classement en novemblre 2019 est le japonais A64FX prototype de Fujitsu, avec ses 16 876 GFLOPS/Watt.

Conclusion

Le Big Data a un impact fort sur l’environnement. Celui-ci est du d’une part à la consommation des Data Centers, et d’autre part à la production de l’électronique de ces derniers.

Pour réduire l’impact environnemental des Data Centers, on peut les construire dans des pays froids, immerger les racks, les alimenter en énergie verte etc. Ce sont autant de solutions innovantes qui sont régulièrement testées.

L’accord de Paris sur le climat prévoit de contenir d’ici à 2100 le réchauffement climatique “nettement en dessous de 2 °C par rapport aux niveaux préindustriels”. Quel sera le rôle du Big Data dans l’atteinte des objectifs formulés ?

--

--