00 - Single Post

3 règles de base pour une relève informatique efficace en cas de désastre

20 décembre 2018 par NOVIPRO

Conseils essentiels pour pouvoir reprendre rapidement vos affaires après une catastrophe, quelle que soit la complexité de votre infrastructure TI.

Toute entreprise fait face à des risques qui peuvent mettre ses ressources informatiques en péril. En cas de catastrophe naturelle, d’accident, d’incendie, de panne, de contamination par virus ou d’attaque informatique, son infrastructure TI peut soudain devenir inutilisable.

L’entreprise s’en trouve alors paralysée. Les chaînes de montage s’arrêtent, les magasins ne peuvent pas enregistrer les transactions, les livraisons sont suspendues, les représentants au service à la clientèle ne peuvent plus répondre aux demandes. Ce scénario catastrophe, les entreprises veulent l’éviter et préserver la continuité de leurs opérations.

Faute de pouvoir poursuivre ses activités après un événement malheureux, une entreprise perd des revenus. Et chaque heure de paralysie affecte sa réputation auprès de ses clients. Il est donc impératif de pouvoir se relever rapidement d’un coup dur.

La sauvegarde des données est une première étape pour se prémunir, mais elle n’est pas suffisante. La relève va bien au-delà: elle exige l’accès à des capacités de calcul pour traiter les données récupérées afin de pouvoir reprendre les opérations.

Voici trois conseils de base pour organiser une relève informatique efficace :

1- Établir et mettre à jour un plan de relève adapté

Pour assurer la continuité de vos affaires après un sinistre ou un désastre, il vous faut bâtir un plan de relève qui tient compte des caractéristiques de votre entreprise. La préparation de ce plan inclut les étapes suivantes :

Fixer des objectifs d'OTR (RTO) et d'OPR (RPO)

Un plan bien structuré commence par la définition d’objectifs liés à deux mesures couramment utilisées pour évaluer la tolérance d’une entreprise aux risques d’interruption. Ces deux objectifs s’expriment en durée :

Objectif de temps de reprise/OTR (en anglais : Recovery Time Objective / RTO)
C’est la durée maximale admissible d’interruption des activités à partir de l’événement. Après combien de temps une paralysie hypothèque-t-elle gravement la santé et l’avenir de votre entreprise? La période d’interruption varie selon le secteur, l’entreprise et l’environnement concurrentiel et réglementaire. Elle peut également varier selon les fonctions dans une même entreprise. Peut-être que chaque minute d’interruption d’une chaîne de montage lui coûte une fortune, alors que la suspension des livraisons pendant une journée ou deux ne lui causerait pas un tort irréparable.

Objectif de point de reprise/OPR (en anglais: Recovery Point Objective / RPO)
C’est le moment le plus éloigné de l’événement, dans le passé, où l’entreprise pourrait récupérer les données. Jusqu’à quand acceptez-vous de remonter, avant l’incident, pour reprendre vos activités? Ce point sert à identifier les données qu’on se résout à perdre dans la pire situation. Dans beaucoup de cas, il ne sera pas possible de récupérer les données générées dans les secondes qui ont précédé l’incident. Il faudra donc remonter en amont et repartir sur la base de données plus ancienne; mais ancienne à quel point?

Pour beaucoup d’organisations, le délai acceptable de perte de données ne dépasse pas 4 heures. Là encore, ce délai varie d’une entreprise à l’autre, et d’une catégorie de données à l’autre.

Identifier et localiser les environnements informatiques critiques

Vos objectifs d’OPR et d’OTR s’appliquent à des serveurs, à des bases de données et aux applications qui jouent un rôle critique dans vos activités. Votre plan devrait les inventorier et déterminer où ces éléments sont hébergés.

Cartographier les interrelations entre les systèmes

Les systèmes entièrement autonomes sont rares. La plupart sont liés à d’autres, qui les alimentent ou qu’ils alimentent. Une cartographie de vos systèmes vous permet de voir les liens de dépendance d’un système à l’autre et d’identifier des regroupements: vous devez savoir quels systèmes doivent fonctionner en amont pour qu’un système critique en aval puisse, à son tour, se remettre en action.

Prévoir la reprise des opérations après l’intermède de relève

Pensez aux éléments pratiques pour qu’un système TI puisse être remis en marche et redevienne utilisable: ressources humaines, accès à des locaux, électricité, climatisation, interfaces de communication, etc.

Envisager des scénarios de désastre

Une bonne façon de valider votre plan de relève est d’imaginer des scénarios concrets: inondation, tempête, séisme, panne électrique majeure, attaque informatique… Cet exercice vous indiquera si le plan semble complet ou s’il mérite des ajustements.

Prioriser en fonction des contraintes budgétaires

La sécurité a un coût. Voyez vos délais d’OPR et d’OTR comme une franchise d’assurance : chaque fois que vous les réduisez, le montant de votre prime augmente. À vous d’évaluer le risque de perte que vous pouvez assumer selon votre situation d’affaires.

L’assurance tous risques existe en TI : c’est la relève à haute disponibilité. Cette configuration duplique l’infrastructure TI de l’organisation. Elle garde l’infrastructure de relève constamment allumée et alimentée par les dernières données. En cas de défaillance de l’infrastructure de production, la seconde prend la relève instantanément, sans interruption des activités ni perte de données.

Parce qu’il est coûteux, ce type de relève est habituellement réservé aux systèmes réellement critiques – pensons, par exemple, aux transactions bancaires. Cela dit, le développement de l’offre infonuagique a rendu ce type de solution abordable à un plus grand nombre d’entreprises.

2- Prévoir une relève dans un centre de données éloigné

Toute stratégie de relève informatique doit tenir compte de la géographie. Pour se prémunir contre des dommages physiques, il n’y a pas d’autre alternative que de prévoir des ressources situées assez loin de votre principal centre de données pour ne pas être affecté de la même façon par un désastre ou un sinistre.

Aucune distance ne peut vous donner une garantie absolue — du moins tant qu’il n’y a pas de centre de données dans l’espace! Mais les experts s’entendent pour estimer qu’à partir de 250 kilomètres, deux centres de données courent peu de risque d’être frappés en même temps par une même catastrophe.

Le Canada est assez grand pour permettre aux entreprises d’ici de prévoir leur infrastructure de relève sur le territoire du pays. C’est d’ailleurs préférable, voire obligatoire, pour plusieurs industries réglementées et pour certains types de données.

Pour se doter d’une infrastructure de relève, votre entreprise devra faire deux choix importants :

acheter ou louer l’équipement de relève;
l’héberger dans votre propre centre de relève, ou plutôt chez un fournisseur.

Il vous faudra ensuite provisionner les machines de relève pour que, le moment venu, elles soient utilisables par les usagers autorisés.

3- Tester régulièrement vos processus de relève

Votre plan et votre infrastructure de relève passeront-ils le test de la réalité ? Rien ne permet mieux de répondre à cette question que des tests réguliers.

On vous recommande donc de tester, au moins une fois par année, que vos processus de relève sont fonctionnels.

La conclusion de chaque test vous donne l’occasion, au besoin, de mettre à jour votre plan de relève selon l’évolution de vos besoins et de vos ressources.

Avec un plan de relève solide et complet, un deuxième centre de données suffisamment éloigné du site primaire, et une pratique régulière de tests de vos processus, votre organisation sera bien préparée pour répondre à toute éventualité.

Un éventail de solutions pour la reprise après sinistre

Les entreprises ont de plus en plus d’options pour assurer la continuité de leurs activités.

Une option qui s’est beaucoup développée ces dernières années est celle de la reprise après sinistre en tant que service (Disaster recovery as-a-service ou DRaaS).

Cette solution vous donne accès à un centre de relève dans un nuage (cloud) privé, géré par un fournisseur de confiance. Cela évite à l’entreprise toute dépense en capitalisation pour acquérir et mettre à jour des équipements informatiques de relève qui, peut-être, ne serviront jamais. Cette option réduit aussi les coûts en ressources humaines liées à la gestion des équipements et des processus de relève.

Un bon fournisseur vous fait bénéficier d’économies d’échelle appréciables parce que son centre de données sécurisé est partagé par plusieurs clients. Il assure la mise à jour régulière des équipements et des protocoles.

Par ailleurs, parce que la virtualisation des environnements pose des enjeux particuliers à la relève, plusieurs solutions, comme celles de CommVault, ont été développées pour simplifier, unifier et automatiser la gestion des sauvegardes et des mises à jour afin de faciliter la reprise des activités.

E-SPACE vous offre une solution de relève complète

Notre équipe d’experts peut vous aider à bâtir et à mettre à jour un plan de reprise de vos activités, puis à effectuer régulièrement des tests de relève. Nous vous offrons une infrastructure de relève à distance dans un centre de données hautement sécurisé. Notre plateforme infonuagique permet de gérer une grande variété de plateformes informatiques. Au besoin, nous pouvons vous assurer une relève de haute disponibilité, toujours prête à prendre le relais. Découvrez l’offre d’E-SPACE pour la relève informatique en cas de désastre.