Où sont stockées mes données ? Visite d’un monde très organisé

par Serge Paschoud, responsable gestion, Ci-UNIL

« Pour vivre heureux, vivons cachés » ! se lamente une feuille Excel jamais consultée depuis dix ans. Venez découvrir le monde méconnu du stockage des données.

14_stockage
© Julien Eichinger – Fotolia

Les différents types de données selon leur structure et leur localisation

Le Centre informatique a pour mission de sauvegarder et de sécuriser une quantité considérable de données en constante augmentation. Leur gestion est dépendante de la donnée elle-même et de sa localisation.

  • Les données structurées correspondent à des données organisées de manière précise afin de simplifier leur utilisation. On y retrouve par exemple les données RH, les données financières et de différentes bases de données. Ces données essentielles au fonctionnement de l’UNIL concernent les collaborateurs, les étudiants et beaucoup de processus internes à l’Université.
  • Les données non structurées correspondent à tous les fichiers créés par les collaborateurs de l’Université. Ce peut être des résultats de la recherche scientifique, des rapports de travail, des cours, des présentations PowerPoint, et parfois des photos de vacances. Leur localisation est importante.
    • Si elles se trouvent sur l’infrastructure centrale de l’UNIL, par exemple sur DocUNIL, leur gestion est assurée par le Ci.
    • Si elles se trouvent sur le disque dur de votre ordinateur, le Ci peut vous fournir une sauvegarde uniquement par l’intermédiaire de CrashPlan, un système prévu pour les postes de travail.
    • Si elles se trouvent dans un cloud privé, le Ci ne peut pas fournir de service de sauvegarde. Pour des raisons de confidentialité, l’usage d’un cloud privé est proscrit pour toutes les données sensibles.

Les différentes méthodes de sécurisation de données primaires

La réplication est une copie nommée donnée secondaire sur un support identique. Cette donnée secondaire est généralement très rapidement utilisable en cas de problème avec la donnée primaire.

La sauvegarde est une copie sur un support différent, par un logiciel différent. Elle n’est utilisée qu’en cas de problème majeur.

Le snapshot est une copie régulière des données modifiées. Il s’agit d’un système de versioning permettant de récupérer un fichier avant une erreur de manipulation ou une corruption. C’est le rêve de tout utilisateur.

14_donnes_bureau
Toute activité génère des données encore faut-il les stocker, les retrouver et les comprendre. © Robert Kneschke – Fotolia

Comment l’UNIL traite-elle mes différentes données ?

Le Ci possède plusieurs infrastructures ou solutions logicielles différentes pour le stockage des données de l’UNIL.

Le SAN (Storage Area Network ou réseau de stockage) stocke les données utilisées par l’ensemble des machines virtuelles hébergées au Ci. Cette infrastructure est une mutualisation de l’espace de stockage et se comporte grosso modo comme un disque dur géant. Toutes ces données sont répliquées sur un second site et sauvegardées sur un DataDomain sur un troisième site. Les données nécessitent actuellement environ 90 To d’espace qui augmente d’environ 30 To par année.

Le NAS (Network Attached Storage) est un stockage de fichier pour toutes les données non-structurées qui sont présentes dans l’infrastructure du Ci. Elles occupent environ 400 To et augmentent d’environ 140 To par année. L’augmentation est due à la création de nouvelles données à l’UNIL ainsi qu’au rapatriement de données stockées localement. Ces données sont répliquées, sauvegardées et des snapshots sont régulièrement effectués. Tout cela sur trois sites différents.

Le logiciel CrashPlan, s’il est activé sur votre machine, vous permet de sauvegarder régulièrement certains dossiers de votre disque dur. Ce service, lancé en 2013, est en constante augmentation. Plus de 1200 licences étaient actives en janvier 2015. Le volume de données reste relativement faible mais ce sont des données sélectionnées par les utilisateurs et donc potentiellement essentielles. Le système conserve au moins une version par jour de vos documents durant trois mois, ce qui vous laisse le temps de rattraper une mauvaise manipulation, et j’en parle par expérience. En plus de votre disque dur, une unique copie est sauvegardée sur un serveur dédié à CrashPlan.

Aucun service n’est fourni par le Ci pour toutes les données sur votre disque dur mais non sauvegardée par Crashplan ou sur un cloud privé. Il peut exister une infrastructure interne à une faculté / un institut mais celle-ci n’est pas dépendante du Ci. Dans ce cas, c’est de la responsabilité de la faculté / de l’institut de sécuriser ces données. La quantité de ces données est extrêmement difficile à estimer mais elle est potentiellement très élevée.

La dispersion des données sur plusieurs sites est une pratique courante pour augmenter la sécurité du stockage. Ainsi, l’UNIL possèdent trois salles abritant les infrastructures.

14_stockage_schema
A gauche : comparaison entre les différentes manières de stocker les données selon leur sécurisation et leur prix. A droite : les trois caractéristiques générant les coûts principaux d’un espace de stockage.
14_donnes_datacenter
Différentes images des datacenters de l’UNIL

Perspectives

Actuellement l’UNIL conserve, réplique, et sauvegarde le maximum de données dans les limites de ses moyens et sans demander de participation financière aux facultés ou aux services. Le stockage nécessite une part importante et toujours croissante du budget informatique de l’UNIL. En 2014, environ 1.2 million de CHF ont étés consacrés uniquement à l’achat du hardware et du software, sans inclure les frais de personnel, d’infrastructure ou d’énergie. Malgré cela, il faut généralement trouver le bon équilibre entre augmenter l’espace offert, la performance et/ou la sécurité, chacune de ces caractéristiques entraînant un coût élevé.

Toutefois, le monde du stockage bouge et de nombreuses technologies liées à la sécurisation des données arrivent sur le marché actuellement. On peut donc espérer conserver, voire améliorer la qualité de service, mais pour des volumes de données de plus en plus importants.

A retenir

  • Les données sur votre machine ne sont pas sécurisées sans CrashPlan. Pour l’obtenir, prenez contact avec le help desk.
  • Les clouds privés ne sont pas autorisés par l’UNIL pour stocker les données sensibles.
  • Les données stockées par le Ci sont fortement sécurisées sur trois sites différents.