Une infrastructure informatique plus disponible et plus verte

par Daniel Henchoz, responsable du groupe production et systèmes, Ci-UNIL

Dans un souci d’une constante amélioration de la disponibilité de nos services, nous avons procédé à divers travaux majeurs dans nos datacenters.

© beebright – Fotolia

Le Ci propose son cloud privé

Notre université a la chance de pouvoir bénéficier de trois salles informatiques réparties sur le campus : notre salle principale dans les sous-sols du bâtiment Géopolis récemment construit, une salle « secondaire » dans les locaux du Centre informatique à Amphimax et une troisième, dédiée principalement à la sauvegarde, dans les sous-sols de l’Internef. En plus de ces locaux sur sites, nous disposons également d’un rack dans les locaux de l’EPFL à Microcity-Neuchâtel pour une deuxième sauvegarde des données précieuses.

Notre cloud privé est actuellement supporté par une infrastructure VMWARE de 29 serveurs physiques, servi par deux baies de stockage EMC de 120 TB chacune, pour un total de 510 machines virtuelles.

Nous avons commencé à virtualiser les serveurs que nous exploitons en 2006. Nous hébergeons aujourd’hui 510 machines virtuelles, propulsées par seulement 29 serveurs physiques.

Ce service supporte la majorité de nos applications centrales critiques, comme les serveurs de l’informatique administrative par exemple, ou encore ceux en charge des finances et des ressources humaines basés sur le logiciel SAP. Les services d’annuaires, portail MyUNIL, CMS, télé-enseignement et bien d’autres sont également hébergés sur cette infrastructure. On peut également préciser au passage que ces systèmes sont partiellement redondants (pour les services les plus critiques) grâce à une réplication entre les sites de Géopolis et Amphimax.

Un projet en cours verra le remplacement de ces équipements par une nouvelle architecture « hyperconvergée » d’ici à la fin de cette année. L’infrastructure deviendra au passage complètement redondante, ce qui améliorera encore la disponibilité.

Les sauvegardes de ces données sont assurées par les logiciels Networker et Avamar sur nos équipements DataDomain installés dans les datacenters Internef et Microcity.

Le stockage de masse de fichiers

Le stockage de masse est lui supporté par deux clusters ISILON répliqués et installés dans nos salles Géopolis et Amphimax. Ces équipements hébergent principalement des données de recherche, mais également certaines de nos données académiques et administratives. La technologie « scale-out » nous donne la possibilité de faire grandir cette installation jusqu’à plusieurs PetaBytes si nécessaire : la limite financière sera probablement atteinte avant la limite technique. Notre cluster primaire est actuellement composé de 20 nœuds pour un espace utilisable de 1,6 PB. Le cluster secondaire de réplication offre une capacité similaire.

Espace de stockage NAS à l’UNIL : la capacité a été multipliée par 4 en 2.5 ans.

Les fichiers sont accessibles au travers de différents partages avec des droits d’accès particuliers en utilisant les protocoles CIFS et NFS. Ces points de montages peuvent être exploités directement depuis des postes personnels, des instruments de mesure ou des serveurs centraux. Une bande passante 10 Gb/s par nœud offre un confort d’accès suffisant pour la plupart des applications. Une grande majorité des fichiers (plusieurs millions de très petits fichiers) contiennent des données de recherche pour les expériences en cours et passées.

Une partie (environ 1/3) des données stockées sur ces clusters est copiée de manière régulière sur un stockage objet de type ECS avec le logiciel ADA de la maison ASG. Cette copie concerne les données réputées sensibles par leurs propriétaires.

Les travaux dans notre datacenter Amphimax

Nous avons commencé en mars 2015 une étude pour améliorer le rendement énergétique et la sécurité de notre datacenter situé à l’Amphimax qui avait été conçu en 2003 lors de la création du bâtiment avec les standards et les budgets du moment.

Le concept « allée chaude – allée froide » permet de diminuer la dépense énergétique nécessaire au refroidissement des serveurs.

L’aménagement des racks n’avait à l’époque pas été fait en utilisant une technique d’allée froide ou allée chaude visant à réduire la dépense énergétique nécessaire au refroidissement des ordinateurs. Cette installation faite avec des racks disparates et simplement organisés en rangées dans la salle n’est pas du tout optimale pour avoir le meilleur rendement possible des systèmes de ventilation. En effet, plus la différence de température entre l’air chaud et l’air froid dans la salle est importante, meilleur sera le rendement de l’installation. Il est donc pertinent de confiner l’air chaud et l’air froid dans des zones bien distinctes. Afin d’améliorer cette situation, nous avons procédé à l’installation d’un « cube » de racks confiné par des portes à chaque bout de l’allée et des tôles jusqu’au plafond. L’air froid pulsé dans le faux-plancher de la salle est ainsi aspiré par les faces avant des serveurs depuis l’extérieur du cube, puis réchauffé par le système de refroidissement de ces mêmes serveurs pour ensuite être rejeté sur leur face arrière dans « l’allée chaude ». Un système d’extraction de l’air chaud installé au plafond aspire l’air chaud pour le renvoyer vers les climatiseurs afin que celui-ci soit à nouveau refroidi par l’eau du lac et à nouveau pulsé dans le faux-plancher du local.

La complexité grandissante de l’infrastructure due au nombre de services critiques en constante augmentation, implique qu’une interruption de l’alimentation électrique et/ou du refroidissement aurait des conséquences importantes sur la disponibilité des services et l’intégrité des données. Le datacenter Amphimax était déjà protégé par deux onduleurs avec leur jeu de batterie permettant de « survivre » à une coupure d’alimentation électrique de maximum 30 minutes (durée fortement dépendante du degré d’utilisation des serveurs à ce moment-là). Précisons qu’un onduleur permet également de protéger les ordinateurs des surtensions causées par la foudre, ce qui en fait un élément indispensable. Par contre, une coupure d’alimentation d’eau du lac aurait très vite posé un problème, car sans refroidissement correct de la salle, les 70 kW dissipés actuellement par les serveurs engendrent une montée de la température rapide et incontrôlée. Et un ordinateur arrête de fonctionner si la température est trop élevée, et voit sa durée de vie diminuer en flèche. Afin de nous prémunir contre ces risques, nous avons procédé à l’installation d’un groupe électrogène externe permettant de prendre le relais des onduleurs pour une durée plus longue (il suffit de remplir le réservoir en fuel, la coupure peut donc être très longue) et ainsi assurer l’approvisionnement énergétique des serveurs et des systèmes de ventilation.

L’eau de ville au secours de l’eau du lac

Ces travaux nous ont également permis de secourir l’alimentation des climatiseurs en eau du lac par un basculement automatique sur l’alimentation en eau de ville en cas de défaillance des pompes de l’eau du lac. Ce dernier maillon de la chaîne est primordial, car sans l’eau qui extrait les calories fournies par la dissipation de chaleur des serveurs, tout le fonctionnement du datacenter serait compromis.

Nos génératrices et nos onduleurs ont déjà évité 3 arrêts du système d’information de l’UNIL en 2017

Tous ces travaux se sont déroulés dans la deuxième partie de l’année 2016 et se sont terminés au début de cette année 2017. Nous avons déjà pu bénéficier de ces améliorations à trois reprises depuis le début de l’année. Une première fois lors du remplacement du contacteur général du bâtiment, une deuxième fois lors d’une coupure du courant de ville sur une partie du campus à la suite d’un orage et une dernière fois à la fin du mois de juillet pour permettre une nouvelle coupure de l’alimentation générale du bâtiment afin d’installer les éléments nécessaires pour le raccordement des nouveaux panneaux solaires sur le toit d’Amphimax. A chaque fois nous n’avons pas eu à déplorer d’incident sur les services informatiques fournis à la communauté. Sans ces mesures, une coupure électrique (planifiée ou non) aurait nécessité plusieurs heures d’indisponibilité de nos services et engendré de forts risques de pertes de données.

Les projets d’amélioration en cours

Nos deux salles informatiques de Geopolis et Amphimax offrent maintenant un bon niveau de fiabilité et de rendement diminuant ainsi la facture énergétique et l’empreinte carbone. Ces améliorations, ainsi que le raccordement prochain de panneaux solaires sur le toit de ces deux bâtiments, contribuent à la diminution du PUE (Power Usage Effectiveness ou Indicateur d’efficacité Energétique) de nos datacenters.

Les panneaux solaires à l’UNIL. L’Amphimax produit en pic 400 KW d’énergie solaire et notre datacenter n’en consomme que 70 (Alain Herzog © UNIL 2015 | Paul-Henri Hons © UNIL 2017, Unibat).

Le service UNIBAT met en place les éléments de comptage nécessaires qui nous permettront de déterminer une valeur de notre PUE* prochainement : on ne peut mesurer ses progrès sans disposer de métriques fiables. Ces diverses mesures permettront de diminuer encore l’empreinte écologique et la facture en énergie.

Finalement, nous prévoyons des travaux de réaménagement de notre troisième datacenter à Internef. Ces travaux consisteront principalement à une réorganisation du système de distribution de courant électrique dans la salle ainsi qu’à un ajout de deux onduleurs.

La collaboration comme clé d’un Campus plus vert

Ces travaux d’optimisation et d’amélioration n’auraient pas pu être réalisés sans l’aide précieuse du service Unibat et du bureau d’étude Egenco. Nous profitons de cet article pour les remercier chaleureusement pour leur professionnalisme et leur dynamisme qui ont permis de verdir l’informatique à l’UNIL.

* PUE (Power Usage Effectiveness ou Indicateur d’efficacité Energétique):
Le PUE est un indicateur mis au point par le Gren Grid pour mesurer l’efficacité énergétique d’un datacenter. Il est calculé en divisant le total de l’énergie consommée par le datacenter par le total de l’énergie utilisée par les équipements informatiques (serveur, stockage, réseau).