Renouvellement du stockage utilisé par l’environnement VMware

par Christophe Marbacher, production & système, Ci-UNIL

Depuis début 2014, nos datacenters et leurs fermes de machines virtuelles profitent d’un stockage plus fiable et plus performant.

11_stockage
© jim – Fotolia.com

Les bons et loyaux services des baies CX4-240

Après 4 ans de fonctionnement sans faille, les deux baies EMC CX4 240 avaient atteint leurs limites de performances et de capacité. De plus, le mécanisme mis en œuvre pour assurer une redondance des données entre nos 2 datacenters (Geopolis et Amphimax) n’apportait pas une réponse satisfaisante de reprise après incident. Quasiment exclusivement utilisé par l’environnement de virtualisation VMware, le stockage est l’un des composants central du service d’hébergement proposé (mais également utilisé) par le Centre informatique ; en effet, une machine virtuelle a besoin d’un processeur, de mémoire, d’une connexion au réseau ainsi que de disques pour stocker les applications et les données. Conscient des nouvelles contraintes et avec l’aide de la société Inginia SA qui a réalisé un audit de notre environnement, le Centre informatique a confirmé sa confiance aux baies EMC avec l’acquisition de deux nouvelles baies VNX Next Generation 5400 équipées chacune de 100 TB de disques ainsi que 2 clusters VPLEX pour la réplication et la haute disponibilité des données.

11_stockage_tier
Mécanisme de hiérarchisation automatique (ou tiering) du VNX Next Generation : les données fréquemment utilisées sont remontées dans la catégorie Extreme Performance composée de disques SSD, tandis que les données dites froides sont déplacées sur des disques conventionnels. Ce mécanisme repose sur des statistiques hebdomadaires et réalise l’équilibrage chaque nuit.

La virtualisation du stockage

Contrairement aux anciennes baies de stockage qui se basaient uniquement sur une compartimentation RAID et une réplication basée sur le produit MirrorView, les nouvelles baies font usage de pools (ou groupes), de la hiérarchisation automatique (ou tiering) et tirent parti d’un nouveau logiciel qui utilise les capacités de parallélisme des CPU récents. Ces nouvelles baies peuvent absorber jusqu’à 1 million d’opérations par secondes (IOPS). La hiérarchisation automatique assure des performances accrues à des coûts maîtrisés en faisant usage de disques SSD pour héberger les données fréquemment accédées et ce de façon automatique. Les groupes apportent une souplesse supplémentaire dans la gestion de la volumétrie et tirent parti de tous les mécanismes mentionnés ci-dessus.

Le Centre informatique s’était fixé pour objectif de trouver une solution permettant de basculer son environnement de production sur un site unique dans l’éventualité d’une panne majeure sur l’autre site. La réponse fut le produit VPLEX de la société EMC qui permet de présenter des volumes distribués aux serveurs ESX (VMware), sans que ces derniers ne sachent où sont géographiquement stockées les données ni le nombre de copies. Le cas, non virtuel lui et lourd de conséquences, d’une panne de courant sur tout un datacenter est maintenant couvert puisque même si une baie entière d’un site est en panne, les serveurs ESX (VMware) peuvent continuer d’accéder en lecture et écriture au stockage sans aucune interruption. Dans l’éventualité d’une panne complète d’un site, les ESX du site qui survit accèdent à tout le stockage et utilisent le mécanisme de High Availability de vSphere pour redémarrer les machines virtuelles.

Le produit VPLEX repose sur 2 clusters physiques, nommés cluster-1 et cluster-2 respectivement localisés à Geopolis et Amphimax. Ces équipements sont placés entre les serveurs ESX et les baies de stockage. Ce sont eux qui présentent des LUN (espaces de stockage) aux serveurs et qui réalisent l’écriture simultanée sur les baies de disques.

11_stockage_vplex
Console de gestion des clusters VPLEX

La sécurité des données a également bénéficié des améliorations apportées aux nouvelles baies VNX (multicores, nombre de snapshots, etc). Dorénavant, chaque espace de stockage est protégé par des snapshots (ou instantanés) réalisés toutes les 2 heures, ce qui permet de retrouver leur état tel qu’il était jusqu’à 36 heures dans le passé. Ceci permet de réduire le RTO (Recovery Time Objective = le temps nécessaire pour redémarrer les services après une panne majeure) qui habituellement s’accroît proportionnellement à la volumétrie devant être sauvegardée. Bien entendu, cette protection vient en complément des outils traditionnels de sauvegarde tels que NetWorker pour les fichiers et bases de données ainsi qu’Avamar pour les machines virtuelles complètes. Sur un modèle similaire aux sauvegardes, les snapshots ont une durée de vie limitée dans le temps et sont effacés automatiquement à la fin de la période de rétention. La rétention est volontairement voulue courte pour éviter de gaspiller de l’espace disque précieux car coûteux.

11_stockage_snapshots
Snapshots (ou instantanés) réalisés sur les baies VNX en complément aux sauvegardes traditionnelles permettant de réduire drastiquement le temps nécessaire au redémarrage des services en cas de panne.

Les équipements VPLEX, en plus de l’usage des volumes distribués, permettront à l’avenir de simplifier grandement le renouvellement des baies de stockage ou la multiplication de ces dernières. Habitué à devoir maintenir le niveau de compatibilité entre les cartes d’accès au réseau SAN et le code exécuté sur les baies (VNX Operating Environment), le Centre informatique simplifie la matrice des compatibilités.

Les 3 axes d’une politique de gestion des données : performance, volumétrie et sécurité

Les groupes utilisés sur les SAN VNX couplés à la hiérarchisation automatique permettent déjà d’atteindre un excellent niveau de performance à un coût maîtrisé. Des baies entièrement équipées de disques SSD existent déjà sur le marché (baies XtremIO par exemple) mais sont pour l’heure limitées à des besoins très spécifiques en raison de leur coût élevé. Une alternative consiste à étendre le cache du stockage sur les serveurs eux-mêmes en ajoutant des cartes équipées de disques SSD utilisés comme tampon (cartes FusionIO par exemple).

La problématique de la volumétrie pourrait être réglée par l’usage de la déduplication sur les volumes primaires, mécanisme déjà présent depuis de nombreuses années dans les environnements de sauvegarde (Data Domain, Avamar). Elle n’a pas été jugée nécessaire pour la volumétrie actuelle mais pourrait être activée pour des environnements de test par exemple. L’idée est de disposer d’un système capable de repérer des redondances dans les fichiers stockés et d’en profiter pour n’en garder qu’une seule copie, d’où un taux de compression potentiellement élevé.

Les mécanismes de protection des données (sauvegardes traditionnelles, snapshots et réplications) pourraient dans l’avenir être pilotés par un outil central qui ferait des propositions d’usage des différents mécanismes pour répondre aux contraintes de reprise des services en cas de panne majeure. Nul doute qu’une interface unifiée qui permettrait de restaurer les différentes natures de données de façon transparente ne sera pas simple à implémenter. Chaque environnement, et en particulier celui des bases de données et applications de gestion, impose l’usage d’outils propriétaires pour garantir la consistance et la cohérence des données. Ces outils propriétaires sont un frein à l’introduction de nouveaux mécanismes unifiés.

Mais ne boudons pas notre plaisir : le SAN nouveau est arrivé, taillé pour héberger avec efficacité les centaines de machines virtuelles nécessaires au bon fonctionnement de l’UNIL.