Business Continuity et Disaster Recovery d’une infrastructure virtuelle

Bonjour,

Afin de pouvoir vous parler de VMware Site Recovery Manager, j’ai trouvé intéressant de faire une introduction aux différents concepts qui régissent une reprise d’activité.

Premièrement, le BCP (Business Continuity Planning) ou BCM (Business Continuity Management) est un processus de planification proactif qui assure des services ou des produits essentiels lors d’une interruption. Il doit permettre de mettre en place des procédures afin d’assurer la continuité et la survie de l’entreprise en respectant les obligations légales ou autres d’une organisation.

A tous les niveaux, seront intégrés des notions de gestion d’incidents, d’opérations et de communications, souvent oubliées, ce qui peut vite générer un déficit d’image, même si le cas a été résolus dans les meilleures conditions.

Le BCP n’englobe pas seulement l’IT, mais également la gestion des employés, avec la prise en compte de risques tel que les pandémies, les déplacements et les moyens de communications, après une catastrophe naturelle.

Il est composé du Business Continuity Plan, qui va offrir un pourcentage de disponibilité, selon la criticité de l’application, souvent lié aux SLA (Service Level Agreement).

De là, va découler des solutions de Haute Disponibilité (HA), d’un BRP (Business Resumption Plan), qui va gérer la reprise d’activité, après la perte d’un service (backup / restaure) et finalement en cas de désastre majeur du DRP (Disaster Recovery Plan).

Les solutions de DRP sont souvent confondues avec celle du Business Continuity Plan, pourtant ce ne sont pas les même procédures, métriques, et outils, bien que de plus en plus des solutions offre les deux, tel que la virtualisation de stockage (Falconstor, Datacore, Metrocluster) et le CDP (Continuous Data Protection).

La Haute disponibilité :

Pour la partie HA (High Availability), elle est mesurée à l’aide du pourcentage de disponibilité par année.

Évidemment, plus il y a de 9, derrière la virgule, plus la solution est complexe et couteuse.

C’est dans ce cas-là, que la virtualisation sort son épingle du jeu et offre d’une manière simple de la Haute Disponibilité hardware, à l’aide d’un stockage partagé et de fonctionnalité de redémarrage des VMs, perdues lors du crash de l’hyperviseur.

Autres solutions de HA, les clusters de serveurs comme le MSCS (Microsoft Cluster Service) et plus récemment le Failover Cluster pour Windows 2008 R2, qui génèrent souvent plus de problèmes qu’ils n’en résolvent…

La mode actuelle étant de mettre en place le cluster, au niveau applicatif, avec sa propre réplication, à l’image du DAG (Database Availability Group) de Microsoft Exchange 2010.

Le BRP ET DRP

Lors de la perte d’un service ou d’un datacenter, on va utiliser des métriques tel que :

Le RPO (Recovery Point Objective) perte de données définie comme étant le maximum acceptable, en cas de crise, qui va dépendre de la réplication et des backups des données.

Le RTO (Recovery time Objective) délai prédéfini dans lequel les processus critiques doivent être rétablis. Toutes vos applications et services n’auront pas forcément le même RTO, en cas de DRP. Cela pourra aller de quelques minutes à plusieurs semaines.

Le BRP (Business Resumption Plan) est simplement votre procédure de restauration d’un serveur, à l’aide de vos backups ou snapshots, qui vous permettrons de restaurer vos données et services.

On va utiliser ce terme lors que l’on a perdu 1 service qui n’a pas de solution de HA et donc il faudra, selon le type de crash, changer le hardware défectueux ou restaurer la donnée voire l’entier de l’OS et des données.

D’expérience, si l’on redéploye une VM et que l’on fait un full restaure, ceci pour autant qu’il n’y a pas des TB de données, il est possible de remettre en production un serveur en moins de deux heures.

Finalement le DRP, qui est une procédure lié à un crash majeur dans l’entreprise. Il existe deux types de désastre, le clinique, qui est principalement lié à l’erreur humaine et aux défauts d’infrastructures et les catastrophes naturelles.

Voici un slide du VMworld 2011 représentant les différents cas de figures.

Cela va exiger un site distant, en principe à un minimum d’une soixantaine de Km de l’entreprise, afin de garantir la sécurité physique des données. C’est également dans ce type de cas que le Cloud IaaS peuvent offrir un solution simple et élastic.

VMware prévoit déjà d’intégrer SRM et vSphere Replication dans leur outil vCloud Director.

C’est lors de la perte d’un datacenter que l’on va voir si les procédures sont complètes et bien réfléchies.

En principe, si elles ont été testées, une à deux fois par année, il ne devrait pas y avoir de surprise.

Ces process devraient être fait de telles manières que n’importe quel personnel de l’IT, soit capable de remonter la production, même si c’est un sous-traitant, qui ne connait pas l’infrastructure. Sacré pari !

Une fois de plus la virtualisation permet de mettre en place de solutions de DRP simples et efficaces, à l’aide de la réplication des baies de stockage ou d’applications tiers tel que Weeam, vSphere Replication et bientôt Hyper-V Replica avec Windows 8.

C’est là que VMware SRM (Site Recovery Manager) va rentrer en jeu et permettre une reprise de production extrêmement rapide, sur le site DR.

Pour les serveurs physiques, des outils comme Double Take, Storage Fondation, Falconstor ou Datacore permettront de répliquer et représenter des LUN à des serveurs de spare, sur le site distant.

Cet article se veut une introduction et vulgarisateur, à ces différents concepts et n’est évidemment pas exhaustif, si vous avez des remarques et compléments d’informations, c’est avec plaisir que je vous laisse ajouter des compléments à cette article.

Il existe passablement de documentations et normes, qui régissent leur mise en place, notamment la norme ISO/PAS22399:2007, qui est un consensus des normes internationales.

Bon BCM

Business Continuity et Disaster Recovery d’une infrastructure virtuelle

Trending Articles

Practice Sheet of Right form of verbs for HSC Students

Download: FK ft Shenky – Nakuyewa ”Prod by: Shenky”

How to win at Markstrat (Markstrat Tips and Tricks) – Vodites

Ominde Commission Report and Recommendations – Ominde Report of 1964

Bureau of Internal Revenue: Regional Offices (Directory)

GO 53 on Enhancement of Ex-gratia upto 5 Lakhs Toddy Tappers in Telangana

Cakewalk CA-2A Leveling Amplifier v2.0.1.97 WiN, v2.0.1.96 OSX Incl Keygen

Mp3 Download: Mdu - Kunjenjenjena

How the kill the job , when DTP request running for long hours.

Microsoft Intune から展開しているアプリのアップデートについて

18-year-old girl was beaten for half an hour by two Northampton men in 'an...

Car crash in Dunton Bassett leaves driver in critical condition

Macky 2, Two Others In Road Accident

Application log 00000000000000089514: Could not convert queue DLVST90CLNT

Detroit mafia: D’Anna Brothers agree to plea deal

Delivery block field greyed out using VA02

Muloraki Au

【個人撮影】スマホのプライベート映像♪「中に出さないで///」カラオケ屋での生ハメ撮りが流出ｗ【リベンジポルノ】＠PornHub

BREAKING NEWS: Diamond Platnumz Is Reported Dead After Ghastly Car Accident

FIAT 500 B0111 B0112