#18 : Le pire est certain (2/2) (A propos du PRA) | La cybersécurité expliquée à ma grand-mère

Description

Episode consacré au plan de reprise d'activité PRA.

Forum Reddit du podcast https://www.reddit.com/r/cybermamie/

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Bonjour mamie, bonjour et bienvenue dans la cybersécurité expliquée à ma grand-mère, le podcast pour expliquer la cybersécurité à des gens qui n'y comprennent rien. Dans l'épisode 17, intitulé Le pire est certain nous avions décrit comment sauvegarder les activités critiques de l'entreprise, mais seulement d'un point de vue organisationnel et non d'un point de vue technique. Il est important de comprendre que l'un ne va pas sans l'autre. Vous ne pouvez pas vouloir protéger votre business sans vous poser des questions sur l'outil informatique mis en œuvre pour l'opérer. Par ailleurs, et c'est la réciproque de cette relation, Il est illusoire de travailler sur un plan de résilience sans se poser des questions sur les parties métiers, car sans cette adéquation entre les deux parties, métier d'une part et technique de l'autre, il n'y aura jamais d'allocation optimum des ressources. En d'autres termes, vous allez dépenser beaucoup d'argent et d'énergie pour protéger des processus métiers qui n'ont pas de valeur ajoutée. C'est le résultat de cet arbitrage qui va donner le plan de reprise d'activité, ou DRP en anglais. Un plan de reprise d'activité, ou DRP, est un ensemble structuré de directives, de procédures et d'informations conçues pour permettre à l'organisation de répondre efficacement à une interruption majeure ou une catastrophe, avec pour objectif de minimiser les perturbations et de rétablir les fonctions critiques dans le meilleur délai. Alors, qu'est-ce que contient un plan DRP ? Avant toute chose, et c'est vrai pour beaucoup de documents en cybersécurité, il contient des objectifs attendus, c'est-à-dire le but du plan, son champ d'application, et les objectifs de reprise après une interruption. Ce point est loin d'être anecdotique, car il fixe les objectifs, et par corollaire, les moyens qui seront mis en œuvre. Si vous avez des objectifs de reprise très ambitieux, mais pas de moyens à mettre en face, il y a peu de chances d'atteindre ces objectifs. Pour les déterminer, il faut aussi définir au sein de l'organisation la pétance au risque, c'est-à-dire ce que l'organisation peut admettre ou pas en matière de perte opérationnelle sur des processus métiers importants ou essentiels. On verra plus tard comment ces objectifs seront déclinés dans le plan de DRP lui-même. Pour ce faire, on va mener une analyse d'impact, que l'on nomme souvent BI en anglais, pour Business Impact. D'ailleurs, on parle assez souvent de Business Impact Analysis, BIA. Ceux-ci documentent les fonctions métiers essentielles, leur importance et les conséquences d'une interruption. En d'autres termes, ce qu'il faut protéger à tout prix dans l'organisation. L'identification des risques permet de répertorier les menaces potentielles et leurs impacts possibles sur l'organisation. Par exemple, la perte d'un centre de calcul, qui est très certainement l'événement dont l'impact est le plus important, mais qui est souvent le risque le plus mitigé. On reviendra plus tard sur cet exemple. Une fois que les risques et les impacts les plus importants sont identifiés, vient alors l'un des éléments les plus importants, la stratégie de reprise. Une stratégie de reprise, dans le cadre d'un plan DRP, est essentiellement un plan d'action conçu pour restaurer rapidement. et efficacement les opérations critiques d'une entreprise suite à une interruption majeure, comme une catastrophe naturelle, une panne du système informatique ou tout autre événement perturbateur. On y trouve bien évidemment la définition des objectifs de reprise. Souvenez-vous que dans les étapes précédentes, il a été déterminé l'impact business, c'est-à-dire l'importance de tel ou tel système ou processus. Et bien de ce niveau d'importance découle directement l'objectif à atteindre qui est formalisé par le temps de reprise, ou RTO en anglais, et l'objectif de point de reprise, RPO en anglais. Le RTO spécifie le délai maximum pour restaurer les fonctions après une perturbation, tandis que le RPO définit la quantité maximum de données que l'entreprise peut se permettre de perdre, et tout ceci mesuré en temps. En d'autres termes, le premier facteur détermine le temps maximum que vous pouvez attendre avec un système hors service, et le second est la quantité maximum de données que vous acceptez de perdre. Par exemple, vous pouvez attendre deux heures maximum que votre système soit hors service et vous êtes prêt à perdre au maximum une heure de données. Dans ce cas, il faudra probablement se préparer à rejouer une partie de votre activité pour récupérer les données perdues. En fait, ces deux paramètres n'ont l'air de rien, car sur le papier, ils apparaissent comme des objectifs un peu abstraits. Mais en réalité, c'est bien plus complexe que cela, car d'une part, il faut comprendre que le métier aura une tendance naturelle à vouloir des objectifs les plus proches de zéro. Concrètement, aucune tolérance ni sur le temps nécessaire pour relancer l'activité, ni sur la perte de données. En fait, il est assez illusoire de penser que ces objectifs sont atteignables Car pour les atteindre, il faut énormément de moyens. Moyens généralement disproportionnés par rapport à la plus-value du système. Et c'est d'autant plus vrai pour certains systèmes qui vont être considérés comme critiques alors qu'ils ne sont pas actifs la nuit et le week-end. Ce qui montre bien qu'ils ne sont pas si critiques que ça. Il faut bien comprendre que plus l'objectif est proche de zéro, et plus le coût sera élevé. Et le meilleur exemple qui existe, ce sont les centres de calcul. Car leur rôle est de fournir de manière optimum et continue tout ce dont un serveur a besoin pour fonctionner. De l'électricité bien sûr, mais aussi du refroidissement sans oublier la protection physique. Un centre de calcul n'est pas simplement un bunker dans lequel on enteste des serveurs, mais c'est tout un ensemble de services de très haute résilience. Il n'est pas rare que ces centres soient alimentés par différentes lignes électriques de fournisseurs différents. Il y a bien entendu un système de sécurité physique qui permet de restreindre au maximum l'accès physique au serveur. Il y a même... dans les salles d'entrée des salles, du papier collant au sol pour retenir les poussières qui sont sous vos chaussures. On peut faire le parallèle avec l'aéronautique et ses multiples systèmes en redondance qui existent pour éviter un problème en cas de panne. Et même si les centres de calcul dépensent une fortune pour assurer la résilience de leur affin structure, aucun ne peut afficher un taux de disponibilité de 100%, tout simplement parce que cet objectif est inatteignable. En partant du constat à ces terratères que le risque zéro n'existe pas, ou plutôt, pour reprendre la phrase de Schopenhauer, le pire est certain, comment peut-on atteindre cet objectif ? D'abord, il faut prendre en compte les techniques de reprise. La stratégie doit inclure la sélection des méthodes spécifiques pour la reprise des activités, telles que des solutions de sauvegarde et de restauration de données, la réplication des systèmes critiques sur des sites distants, ou l'utilisation de services cloud pour assurer la continuité des opérations. En d'autres termes, ce sont des décisions d'architecture. qui doivent être prises. Si vous avez un RPO de 1 heure, c'est à dire que vous tolérez au plus une perte de données représentant une heure d'activité et que vous avez des sauvegardes jour d'année, vous allez avoir très certainement un problème. Il en va de même pour votre stratégie au niveau des serveurs. Si vous n'avez qu'un serveur dans un centre de calcul pour rendre le service, il va être très dur pour ne pas dire impossible d'atteindre l'objectif. Au delà des aspects techniques et d'architecture, il est impératif que les personnes responsables d'opérer la procédure soient formées et entraînées à la pratiquer. Il est donc important de planifier les ressources nécessaires pour garantir que les personnes, les technologies et les équipements appropriés sont disponibles et peuvent être mobilisés rapidement en cas de besoin. Il n'y a pas de bonne gestion de crise sans plan de communication efficace. Mais il ne faut pas s'y tromper. Encore une fois, si l'on fait un parallèle avec l'aéronautique, il faut piloter, naviguer et communiquer et faire ses actions dans cet ordre et dans cet ordre uniquement. Piloter ici, c'est exécuter le plan de reprise, c'est-à-dire lancer les actions et mobiliser les personnes nécessaires. Naviguer revient à monitorer l'exécution de ce plan, concrètement vérifier que les services sont bien rendus en temps et en heure. Si d'aventure il y a une déviation ou un écart, l'action correctrice sera proportionnelle à l'écart constaté. Un petit écart impliquera une petite action du management. alors qu'un gros écart impliquera une action beaucoup plus forte. Et dernier point, communiquer. Car en ayant géré les deux points précédents, vous serez en position de communiquer efficacement et très clairement auprès d'un tiers. Évidemment, tout ceci est très beau sur le papier, mais ce n'est rien si le scénario n'est pas testé de manière efficace. Il faut comprendre par efficace que le scénario du test est cohérent par rapport au contexte. Si par exemple, vous avez deux serveurs sur lesquels tourne une activité, et que le scénario... implique de basculer l'activité de l'un vers l'autre, votre test ne sera valide que si vous le faites avec une volumétrie similaire à celle que vous rencontrez en production. J'adore quand un plan se déroule sans un compte ! Et bien évidemment, votre stratégie de reprise d'activité doit être revue régulièrement pour prendre en compte d'une part les évolutions des contraintes métiers, mais aussi les évolutions de votre système d'information. Seule une approche pragmatique et systématique vous permettra de mieux comprendre les risques et surtout de mieux les mitiger. Et d'une certaine manière, rendre le pire peut-être un peu moins certain. Encore merci d'avoir écouté cet épisode de la cybersécurité expliquée à ma grand-mère. N'hésitez pas à le liker et à le partager avec d'autres et à en parler autour de vous. Si vous êtes sur Spotify, vous pouvez aussi donner votre avis et proposer des sujets qui vous semblent pertinents. Mais surtout n'oubliez pas, pour certains, la cybersécurité est un bon jeu de vie ou non, c'est bon.

Description

Episode consacré au plan de reprise d'activité PRA.

Forum Reddit du podcast https://www.reddit.com/r/cybermamie/

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Bonjour mamie, bonjour et bienvenue dans la cybersécurité expliquée à ma grand-mère, le podcast pour expliquer la cybersécurité à des gens qui n'y comprennent rien. Dans l'épisode 17, intitulé Le pire est certain nous avions décrit comment sauvegarder les activités critiques de l'entreprise, mais seulement d'un point de vue organisationnel et non d'un point de vue technique. Il est important de comprendre que l'un ne va pas sans l'autre. Vous ne pouvez pas vouloir protéger votre business sans vous poser des questions sur l'outil informatique mis en œuvre pour l'opérer. Par ailleurs, et c'est la réciproque de cette relation, Il est illusoire de travailler sur un plan de résilience sans se poser des questions sur les parties métiers, car sans cette adéquation entre les deux parties, métier d'une part et technique de l'autre, il n'y aura jamais d'allocation optimum des ressources. En d'autres termes, vous allez dépenser beaucoup d'argent et d'énergie pour protéger des processus métiers qui n'ont pas de valeur ajoutée. C'est le résultat de cet arbitrage qui va donner le plan de reprise d'activité, ou DRP en anglais. Un plan de reprise d'activité, ou DRP, est un ensemble structuré de directives, de procédures et d'informations conçues pour permettre à l'organisation de répondre efficacement à une interruption majeure ou une catastrophe, avec pour objectif de minimiser les perturbations et de rétablir les fonctions critiques dans le meilleur délai. Alors, qu'est-ce que contient un plan DRP ? Avant toute chose, et c'est vrai pour beaucoup de documents en cybersécurité, il contient des objectifs attendus, c'est-à-dire le but du plan, son champ d'application, et les objectifs de reprise après une interruption. Ce point est loin d'être anecdotique, car il fixe les objectifs, et par corollaire, les moyens qui seront mis en œuvre. Si vous avez des objectifs de reprise très ambitieux, mais pas de moyens à mettre en face, il y a peu de chances d'atteindre ces objectifs. Pour les déterminer, il faut aussi définir au sein de l'organisation la pétance au risque, c'est-à-dire ce que l'organisation peut admettre ou pas en matière de perte opérationnelle sur des processus métiers importants ou essentiels. On verra plus tard comment ces objectifs seront déclinés dans le plan de DRP lui-même. Pour ce faire, on va mener une analyse d'impact, que l'on nomme souvent BI en anglais, pour Business Impact. D'ailleurs, on parle assez souvent de Business Impact Analysis, BIA. Ceux-ci documentent les fonctions métiers essentielles, leur importance et les conséquences d'une interruption. En d'autres termes, ce qu'il faut protéger à tout prix dans l'organisation. L'identification des risques permet de répertorier les menaces potentielles et leurs impacts possibles sur l'organisation. Par exemple, la perte d'un centre de calcul, qui est très certainement l'événement dont l'impact est le plus important, mais qui est souvent le risque le plus mitigé. On reviendra plus tard sur cet exemple. Une fois que les risques et les impacts les plus importants sont identifiés, vient alors l'un des éléments les plus importants, la stratégie de reprise. Une stratégie de reprise, dans le cadre d'un plan DRP, est essentiellement un plan d'action conçu pour restaurer rapidement. et efficacement les opérations critiques d'une entreprise suite à une interruption majeure, comme une catastrophe naturelle, une panne du système informatique ou tout autre événement perturbateur. On y trouve bien évidemment la définition des objectifs de reprise. Souvenez-vous que dans les étapes précédentes, il a été déterminé l'impact business, c'est-à-dire l'importance de tel ou tel système ou processus. Et bien de ce niveau d'importance découle directement l'objectif à atteindre qui est formalisé par le temps de reprise, ou RTO en anglais, et l'objectif de point de reprise, RPO en anglais. Le RTO spécifie le délai maximum pour restaurer les fonctions après une perturbation, tandis que le RPO définit la quantité maximum de données que l'entreprise peut se permettre de perdre, et tout ceci mesuré en temps. En d'autres termes, le premier facteur détermine le temps maximum que vous pouvez attendre avec un système hors service, et le second est la quantité maximum de données que vous acceptez de perdre. Par exemple, vous pouvez attendre deux heures maximum que votre système soit hors service et vous êtes prêt à perdre au maximum une heure de données. Dans ce cas, il faudra probablement se préparer à rejouer une partie de votre activité pour récupérer les données perdues. En fait, ces deux paramètres n'ont l'air de rien, car sur le papier, ils apparaissent comme des objectifs un peu abstraits. Mais en réalité, c'est bien plus complexe que cela, car d'une part, il faut comprendre que le métier aura une tendance naturelle à vouloir des objectifs les plus proches de zéro. Concrètement, aucune tolérance ni sur le temps nécessaire pour relancer l'activité, ni sur la perte de données. En fait, il est assez illusoire de penser que ces objectifs sont atteignables Car pour les atteindre, il faut énormément de moyens. Moyens généralement disproportionnés par rapport à la plus-value du système. Et c'est d'autant plus vrai pour certains systèmes qui vont être considérés comme critiques alors qu'ils ne sont pas actifs la nuit et le week-end. Ce qui montre bien qu'ils ne sont pas si critiques que ça. Il faut bien comprendre que plus l'objectif est proche de zéro, et plus le coût sera élevé. Et le meilleur exemple qui existe, ce sont les centres de calcul. Car leur rôle est de fournir de manière optimum et continue tout ce dont un serveur a besoin pour fonctionner. De l'électricité bien sûr, mais aussi du refroidissement sans oublier la protection physique. Un centre de calcul n'est pas simplement un bunker dans lequel on enteste des serveurs, mais c'est tout un ensemble de services de très haute résilience. Il n'est pas rare que ces centres soient alimentés par différentes lignes électriques de fournisseurs différents. Il y a bien entendu un système de sécurité physique qui permet de restreindre au maximum l'accès physique au serveur. Il y a même... dans les salles d'entrée des salles, du papier collant au sol pour retenir les poussières qui sont sous vos chaussures. On peut faire le parallèle avec l'aéronautique et ses multiples systèmes en redondance qui existent pour éviter un problème en cas de panne. Et même si les centres de calcul dépensent une fortune pour assurer la résilience de leur affin structure, aucun ne peut afficher un taux de disponibilité de 100%, tout simplement parce que cet objectif est inatteignable. En partant du constat à ces terratères que le risque zéro n'existe pas, ou plutôt, pour reprendre la phrase de Schopenhauer, le pire est certain, comment peut-on atteindre cet objectif ? D'abord, il faut prendre en compte les techniques de reprise. La stratégie doit inclure la sélection des méthodes spécifiques pour la reprise des activités, telles que des solutions de sauvegarde et de restauration de données, la réplication des systèmes critiques sur des sites distants, ou l'utilisation de services cloud pour assurer la continuité des opérations. En d'autres termes, ce sont des décisions d'architecture. qui doivent être prises. Si vous avez un RPO de 1 heure, c'est à dire que vous tolérez au plus une perte de données représentant une heure d'activité et que vous avez des sauvegardes jour d'année, vous allez avoir très certainement un problème. Il en va de même pour votre stratégie au niveau des serveurs. Si vous n'avez qu'un serveur dans un centre de calcul pour rendre le service, il va être très dur pour ne pas dire impossible d'atteindre l'objectif. Au delà des aspects techniques et d'architecture, il est impératif que les personnes responsables d'opérer la procédure soient formées et entraînées à la pratiquer. Il est donc important de planifier les ressources nécessaires pour garantir que les personnes, les technologies et les équipements appropriés sont disponibles et peuvent être mobilisés rapidement en cas de besoin. Il n'y a pas de bonne gestion de crise sans plan de communication efficace. Mais il ne faut pas s'y tromper. Encore une fois, si l'on fait un parallèle avec l'aéronautique, il faut piloter, naviguer et communiquer et faire ses actions dans cet ordre et dans cet ordre uniquement. Piloter ici, c'est exécuter le plan de reprise, c'est-à-dire lancer les actions et mobiliser les personnes nécessaires. Naviguer revient à monitorer l'exécution de ce plan, concrètement vérifier que les services sont bien rendus en temps et en heure. Si d'aventure il y a une déviation ou un écart, l'action correctrice sera proportionnelle à l'écart constaté. Un petit écart impliquera une petite action du management. alors qu'un gros écart impliquera une action beaucoup plus forte. Et dernier point, communiquer. Car en ayant géré les deux points précédents, vous serez en position de communiquer efficacement et très clairement auprès d'un tiers. Évidemment, tout ceci est très beau sur le papier, mais ce n'est rien si le scénario n'est pas testé de manière efficace. Il faut comprendre par efficace que le scénario du test est cohérent par rapport au contexte. Si par exemple, vous avez deux serveurs sur lesquels tourne une activité, et que le scénario... implique de basculer l'activité de l'un vers l'autre, votre test ne sera valide que si vous le faites avec une volumétrie similaire à celle que vous rencontrez en production. J'adore quand un plan se déroule sans un compte ! Et bien évidemment, votre stratégie de reprise d'activité doit être revue régulièrement pour prendre en compte d'une part les évolutions des contraintes métiers, mais aussi les évolutions de votre système d'information. Seule une approche pragmatique et systématique vous permettra de mieux comprendre les risques et surtout de mieux les mitiger. Et d'une certaine manière, rendre le pire peut-être un peu moins certain. Encore merci d'avoir écouté cet épisode de la cybersécurité expliquée à ma grand-mère. N'hésitez pas à le liker et à le partager avec d'autres et à en parler autour de vous. Si vous êtes sur Spotify, vous pouvez aussi donner votre avis et proposer des sujets qui vous semblent pertinents. Mais surtout n'oubliez pas, pour certains, la cybersécurité est un bon jeu de vie ou non, c'est bon.

Embed