continuidad de negocio

69
Auditoria de Sistemas Informáticos Ing. De Sistemas INTRODUCCIÓN La Planeación de Continuidad del Negocio y la Planeación de Contingencia para los sistemas de información son elementos del sistema de control interno establecidos para administrar la disponibilidad de los procesos críticos y los datos valiosos de computadora en el caso de una interrupción. La planeación de Continuidad del Negocio es un proceso más que un proyecto. Los planes que el planificador desarrolla como parte de este proceso dirigirán la respuesta a incidentes desde simples emergencias hasta desastres totales. La meta última del proceso es poder responder mejor a incidentes que puedan impactar en la gente, las operaciones y la capacidad de entregar bienes y servicios al mercado. Esta área presenta una visión general de los principios de BCP (por Business Continuity Planning) y DRP (por Disaster Recovery Planning) y específicamente las siguientes áreas: los procesos de BCP y DRP Análisis de impacto al negocio Estrategias y alternativas de recuperación Pruebas de plan Respaldo y restauración Consideraciones de auditoria 1

Upload: marco-antonio-chavez-carranza

Post on 04-Jul-2015

1.228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

INTRODUCCIÓN

La Planeación de Continuidad del Negocio y la Planeación de Contingencia para los sistemas de información son elementos del sistema de control interno establecidos para administrar la disponibilidad de los procesos críticos y los datos valiosos de computadora en el caso de una interrupción.

La planeación de Continuidad del Negocio es un proceso más que un proyecto. Los planes que el planificador desarrolla como parte de este proceso dirigirán la respuesta a incidentes desde simples emergencias hasta desastres totales.

La meta última del proceso es poder responder mejor a incidentes que puedan impactar en la gente, las operaciones y la capacidad de entregar bienes y servicios al mercado.

Esta área presenta una visión general de los principios de BCP (por Business Continuity Planning) y DRP (por Disaster Recovery Planning) y específicamente las siguientes áreas: los procesos de BCP y DRP Análisis de impacto al negocio Estrategias y alternativas de recuperación Pruebas de plan Respaldo y restauración Consideraciones de auditoria

1

Page 2: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

I. GENERALIDADES

1.1. OBJETIVO

Proveer garantía de que en el caso de una interrupción, los procesos de continuidad del negocio y recuperación de desastres asegurarán el reinicio a su debido tiempo de los servicios de TI mientras que se minimiza el impacto sobre el negocio.

1.2. TAREAS

Hay tres (3) tareas dentro del área de continuidad del negocio y recuperación de desastres:

B T6.1 Evaluar si las previsiones de respaldos y de recuperación son las adecuadas para asegurar que se retome el procesamiento.

B T6.2 Evaluar el plan de recuperación de desastres de la organización para asegurar que éste posibilita la recuperación de las capacidades de procesamiento de TI en el caso de un desastre.

B T6.3 Evaluar el plan de continuidad del negocio de la organización para asegurar su capacidad de continuar las operaciones esenciales del negocio durante el período de una interrupción de TI.

1.3. DECLARACIONES DE CONOCIMIENTO

Existen ocho declaraciones de conocimiento dentro del área del Plan de Continuidad del Negocio y Recuperación de Desastres:

B KS6.1 Conocimiento de copias de respaldo de datos, procesos de almacenamiento, mantenimiento, retención y recuperación, y prácticas.

B KS6.2 Conocimiento de aspectos regulatorios, legales, contractuales y de seguros relacionados con la continuidad del negocio y recuperación de desastres.

B KS6.3 Conocimiento del análisis de impacto al negocio (BIA).B KS6.4 Conocimiento del desarrollo y mantenimiento de los planes de continuidad del

negocio y recuperación de desastres.B KS6.5 Conocimiento de los enfoques y métodos de prueba de la continuidad del

negocio y recuperación de desastres.B KS6.6 Conocimiento de las prácticas de administración de recursos humanos

relacionados con la continuidad del negocio y recuperación de desastres (por ejemplo, planeación de evacuaciones, equipos de respuesta).

B KS6.7 Conocimiento de los procesos utilizados para activar los planes de continuidad del negocio y recuperación de desastres.

2

Page 3: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

B KS6.8 Conocimiento de los tipos de sitios alternos de procesamiento y los métodos usados para monitorear los acuerdos contractuales (por ejemplo, hot sites, warm sites, cold sites).

1.4. RELACIÓN DE TAREAS CON LAS DECLARACIONES DE CONOCIMIENTO

Las declaraciones de tarea son lo que se espera que el candidato CISA sepa cómo hacer. Las declaraciones de conocimiento delinean lo que se espera que el candidato CISA sepa para realizar las tareas, La tarea y las declaraciones de conocimiento están mapeadas en la Figura 6.1 hasta donde es posible hacerlo. Note que a pesar de que hay a menudo traslape, cada declaración de tarea generalmente se mapeará a varias declaraciones de conocimiento.

Figura 6.1Mapeo de Declaraciones de Tareas y ConocimientoDeclaraciones de Tareas Declaraciones de Conocimiento

T6.1 Evaluar si las previsiones de respaldos y de recuperación son las adecuadas para asegurar que se retome el procesamiento.

KS6.1 Conocimiento de copias de respaldo de datos, procesos de almacenamiento, mantenimiento, retención y recuperación, y prácticas.

KS6.5 Conocimiento de los enfoques y métodos de prueba de la continuidad del negocio y recuperación de desastres.

T6.2 Evaluar el plan de recuperación de desastres de la organización para asegurar que éste posibilita la recuperación de las capacidades de procesamiento de TI en el caso de un desastre.

KS6.2 Conocimiento de aspectos regulatorios, legales, contractuales y de seguros relacionados con la continuidad del negocio y recuperación de desastres.

KS6.3 Conocimiento del análisis de impacto al negocio (BIA).KS6.4 Conocimiento del desarrollo y mantenimiento de los

planes de continuidad del negocio y recuperación de desastres.

KS6.5 Conocimiento de los enfoques y métodos de prueba de la continuidad del negocio y recuperación de desastres.

KS6.6 Conocimiento de las prácticas de administración de recursos humanos relacionados con la continuidad del negocio y recuperación de desastres (por ejemplo, planeación de evacuaciones, equipos de respuesta).

KS6.7 Conocimiento de los procesos utilizados para activar los planes de continuidad del negocio y recuperación de desastres.

KS6.8 Conocimiento de los tipos de sitios alternos de procesamiento y los métodos usados para monitorear los acuerdos contractuales.

T6.3 Evaluar el plan de continuidad del negocio de la organización para asegurar su capacidad de continuar las operaciones esenciales del negocio durante el período de una interrupción de TI.

KS6.2 Conocimiento de aspectos regulatorios, legales, contractuales y de seguros relacionados con la continuidad del negocio y recuperación de desastres.

KS6.3 Conocimiento del análisis de impacto al negocio (BIA).KS6.4 Conocimiento del desarrollo y mantenimiento de los

planes de continuidad del negocio y recuperación de desastres.

KS6.5 Conocimiento de los enfoques y métodos de prueba de la continuidad del negocio y recuperación de desastres.

KS6.6 Conocimiento de las prácticas de administración de recursos humanos relacionados con la continuidad del negocio y recuperación de desastres (por ejemplo, planeación de evacuaciones, equipos de respuesta).

3

Page 4: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

KS6.7 Conocimiento de los procesos utilizados para activar los planes de continuidad del negocio y recuperación de desastres.

II. PLANEACIÓN DE LA CONTINUIDAD DEL NEGOCIO / RECUPERACIÓN DE DESASTRES

La Planeación de continuidad del negocio (BCP) es un proceso diseñado para reducir el riesgo de negocio de la organización que surja de una interrupción no esperada de las funciones /operaciones críticas (manuales o automáticas) necesarias para la supervivencia de la organización. Esto incluye recursos humanos /materiales que soportan estas funciones /operaciones críticas y garantía de la continuidad de pollo menos el nivel mínimo de los servicios necesarios durante por lo menos las operaciones críticas.

El negocio moderno no puede evitar todas las formas de riesgo corporativo o de daño potencial. Un objetivo realista es asegurar la supervivencia de una organización estableciendo una cultura que identificará y administrará esos riesgos que podrían causarle que sufra.

B Algunos ejemplos de estos riesgos corporativos incluyen:B Incapacidad de mantener los servicios críticos al cliente.B Daño en la participación de mercado, la imagen, reputación o marca.B No poder proteger los activos de la Compañía, incluyendo propiedad intelectual y

personal.B Falla de control del negocio.B No poder cumplir los requisitos legales o regulatorios.

El objetivo de la continuidad del negocio / recuperación de desastres es permitir que un negocio continúe brindando sus servicios críticos en caso de una interrupción y que pueda sobrevivir a una interrupción desastrosa de sus sistemas de información. Es necesaria una planeación rigurosa y una asignación de recursos para planear adecuadamente para un evento semejante.

El primer paso para preparar un nuevo plan de continuidad del negocio es identificar los procesos de negocio de importancia estratégica, que son los procesos clave que son responsables tanto del crecimiento permanente del negocio como del cumplimiento de las metas del negocio.

Basado en los procesos clave, el proceso de administración del riesgo puede comenzar con una evaluación del riesgo. El riesgo es directamente proporcional al valor de los activos y a la probabilidad de que ocurra la amenaza percibida. De ese modo, el resultado de la evaluación del riesgo debe ser la identificación de lo siguiente:

B Esos recursos humanos y esos elementos de infraestructura que soportan los procesos clave

B Una lista de las vulnerabilidades potenciales - los peligros o amenazas a la organizaciónB La probabilidad estimada de que ocurran estas amenazas

4

Page 5: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

La administración de estos riesgos está resuelta en la preparación del plan de continuidad del negocio.

La parte de operaciones del plan de continuidad del negocio debe ocuparse de todas las funciones y activos requeridos para continuar como una organización viable, La extensión de aprovisionar facilidades alternas que deben ser conseguidas es en última instancia una decisión de negocio basada en la administración del riesgo.

El enfoque está en la disponibilidad de los procesos clave del negocio para continuar operaciones si surgiera algún tipo de interrupción.

BCP es principalmente una responsabilidad de la alta gerencia, ya que ella es la encargada de salvaguardar tanto los activos como la viabilidad de la organización. El plan de continuidad del negocio es generalmente ejecutado por las unidades de negocio y de soporte por igual, para proveer un nivel mínimo de funcionalidad de las operaciones del negocio, inmediatamente después de que se produzca una interrupción, mientras se está llevando a cabo la recuperación. Este plan debe abarcar todas las funciones y los activos que se requieren para continuar como una organización viable. Esto incluye los procedimientos de continuidad calificados como necesarios para sobrevivir y para minimizar las consecuencias de la interrupción del negocio.

La planificación de la continuidad del negocio toma en consideración:

B Las operaciones críticas que son más necesarias para la supervivencia de la organización.B Los recursos humanos/materiales que las soportan.

Además del plan de continuidad de las operaciones, el plan de continuidad del negocio incluye:

B El plan de recuperación de desastres que se usa para recuperar una instalación que se tornó inoperable, incluyendo la reubicación de las operaciones en un nuevo lugar.

B El plan de restauración que se usa para regresar las operaciones a la normalidad, ya sea en una instalación recuperada o en una nueva.

Uno de los requerimientos más importantes es el mejoramiento de la seguridad de las operaciones normales. Esto implica la introducción de las contramedidas que disminuyen la probabilidad de que ocurra dicho evento que podría causar la interrupción del negocio.

Aún sin interrupción, las condiciones del cumplimiento de las metas del negocio deben ser verificadas regularmente para cumplir con estas metas.

En general, el concepto de BCP es igual a la combinación de la planificación de recuperación de desastres más las operaciones del negocio. Dependiendo de la complejidad de la organización, podría haber uno o más planes para resolver los diversos aspectos de la continuidad del negocio y recuperación de desastres. Estos planes 110 tienen necesariamente que ser integrados en un solo

5

Page 6: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

plan. Sin embargo, cada uno tiene que ser consistente con otros planes para tener una estrategia viable de BCP.

Aún si se manejaran procesos similares de la misma organización en un lugar geográfico diferente, las soluciones de BCP y DR. pueden ser diferentes para escenarios diferentes. Las soluciones pueden ser diferentes debido a los requerimientos contractuales (Ej., la misma organización está procesando una transacción en línea para un cliente y el back office está procesando para otro cliente). Una solución de BCP para el servicio en línea será significativamente diferente de uno para el procesamiento del back office.

3.1. Planeación de la Continuidad del Negocio/Recuperación de Desastres de SI

Para el caso de la planificación de continuidad del negocio de SI el método es el mismo que en BCP, con la diferencia de que en este caso los sistemas de procesamiento de SI están amenazados. El procesamiento de SI es de importancia estratégica - es un componente crítico ya que la mayoría de los procesos clave del negocio dependen de la disponibilidad de sistemas clave y componentes de infraestructura.

A través de todo el proceso de BCP, el plan general de la organización debe ser tomado en consideración. Todos los planes de SI deben soportar y ser consistentes con el plan de continuidad del negocio corporativo. Esto significa que las instalaciones de procesamiento alternas que soportan las operaciones clave deben estar listas y tener planes actualizados respecto a su uso.

La planeación de la continuidad del negocio / recuperación de desastres es un componente importante de la estrategia general de continuidad del negocio y recuperación de desastres de una organización. Como se mencionó arriba, el procesamiento de SI es de importancia estratégica, porque casi todos los procesos del negocio dependen del uso de recursos de información automatizados para alcanzar los objetivos de la misión de una organización. Por lo tanto, debería haber una instalación reservada y lista para soportar estas operaciones clave en caso de una interrupción en que el negocio no pudiera funcionar sin el procesamiento continuo de información. En caso de que fuera un plan separado, el plan de SI deberá ser consistente con y soportar el plan corporativo de continuidad del negocio.

El plan de continuidad del negocio debe también estar basado en la estrategia de la institución. De ese modo, la clasificación con respecto a la criticidad de los diversos sistemas de aplicación desplegados en la organización depende de la naturaleza del negocio así como también del valor de cada aplicación al negocio.

Este valor es directamente proporcional al papel que desempeña el sistema de aplicación para soportar la estrategia de la organización. Los componentes del sistema de información (incluyendo los componentes de infraestructura de la tecnología) son luego empatados con las aplicaciones (por ejemplo, el valor de una computadora o una red está determinado por la importancia del sistema de aplicación que la usa).

6

Page 7: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Una vez que la evaluación del riesgo identifica el valor de los componentes de SI de la organización, se puede desarrollar un plan para establecer la criticidad de los sistemas en la mayoría de los métodos apropiados para su recuperación.

Nota: El candidato a CISA no será examinado sobre el cálculo real del anáfisis del riesgo; sin embargo, el auditor de SI debe estar familiarizado con el cálculo de análisis del riesgo

3.2. Desastres y Otras Interrupciones

Los desastres son interrupciones que ocasionan que los recursos críticos de información queden inoperantes por un período de tiempo, impactando adversamente las operaciones organizacionales. La interrupción podría durar desde varias horas hasta varios días, dependiendo de la extensión del daño a los recursos de información. Más importante aún, los desastres requieren esfuerzos de recuperación para restaurar el estado operativo.

Un desastre puede ser causado por calamidades naturales, como por ejemplo terremotos, inundaciones, tornados, tormentas eléctricas severas, incendios, etc. los cuales causan daños importantes a las instalaciones de procesamiento y a la localidad en general. Otros eventos desastrosos que causan interrupciones pueden ocurrir cuando los servicios esperados ya no son proporcionados a la compañía, como por ejemplo, el suministro de energía eléctrica, las telecomunicaciones, el suministro de gas natural u otros servicios provistos por externos (que pueden o no estar relacionados con un desastre natural). Un desastre podría también ser causado por eventos precipitados por seres humanos tales como ataques terroristas, ataques de hackers, virus o error humano.

No todas las interrupciones críticas del servicio se clasifican como desastres, pero tienen aún un carácter de alto riesgo. Por ejemplo, la interrupción del servicio es causada a veces por mal funcionamiento del sistema, eliminación accidental de archivos, ataques de negación de servicio (DoS), intrusiones y virus. Estos casos pueden requerir que se tomen acciones para recuperar el estado operativo a fui de reanudar el servicio. Dichas acciones pueden requerir la restauración de hardware, software o archivos de datos. Por tanto, se debe contar con un sistema de clasificación basado en riesgos, bien definido para determinar si un evento causante de interrupción requiere o no iniciar los esfuerzos de BCP o DRP.

Un buen plan de continuidad del negocio tomará en cuenta todos los tipos de acontecimientos que impacten tanto las instalaciones de procesamiento de los sistemas de información críticos como las funciones organizacionales normales de operación del usuario final.

a. Tratando con Daños a la Imagen, la Reputación o la Marca

Los rumores dañinos pueden surgir de muchas fuentes (incluso internas). Pueden o no estar asociados con un incidente serio o con una crisis. Ya sean "espontáneos" o un efecto colateral de un problema de continuidad del negocio o recuperación de desastre, sus consecuencias pueden ser

7

Page 8: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

devastadoras. Una de las peores consecuencias de las crisis es la pérdida de la confianza y de la buena voluntad.

Las actividades de relaciones públicas efectivas (PR) en una organización pueden jugar un papel importante para ayudar a contener el daño a la imagen y asegurar que la crisis no empeore. Ciertas industrias (por ejemplo, bancos, organizaciones de atención a la salud, líneas aéreas, refinerías de petróleo, plantas químicas, de transporte, de energía nuclear, u otras organizaciones con impacto social relevante) deben tener protocolos elaborados para tratar con accidentes y con catástrofes.

Toda organización que experimente un incidente mayor deberá considerar y aplicar algunas mejores prácticas básicas. Independientemente de las consecuencias de un incidente (demora o interrupción del servicio, pérdidas económicas, etc.), de darse alguno, cualquier opinión pública o rumores negativos pueden ser muy costosos. Reaccionar de manera apropiada en público (o para con los medios) durante una crisis no es sencillo. Se debe nombrar y preparar de antemano un vocero debidamente entrenado. Normalmente, el asesor legal o un funcionario de relaciones públicas es la mejor elección. Nadie, independientemente de su rango en la jerarquía de la organización, con excepción del vocero, debe hacer declaraciones públicas.

Como parte de la preparación, el vocero debería contar con y mantener actualizado un comunicado genérico con espacios en blanco a ser llenados con las circunstancias específicas. Esto no debe ser desviado a causa de improvisación o de presión de tiempo. El comunicado no debe establecer las causas del incidente sino más bien indicar que se ha iniciado una investigación y sus resultados serán reportados. No se debe suponer la responsabilidad. No se debe culpar al sistema o al proceso. En su lugar, se puede sugerir un posible "error humano".

3.3. Proceso de BCP

El proceso de BCP puede dividirse en las etapas de ciclo de vida siguientes:

Creación de una política de continuidad del negocio. Análisis del impacto al negocio. Clasificación de las operaciones y análisis de criticidad. Identificación de los procesos de SI que soportan funciones organizacionales críticas. Desarrollo de un plan de continuidad del negocio y procedimientos de recuperación de

desastre de SI. Desarrollo de procedimientos de reanudación. Programa de entrenamiento y de toma de conciencia. Prueba e implementación del plan. Monitoreo.

8

Page 9: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

3.4. Política de Continuidad del Negocio y Recuperación de Desastres

Una política de continuidad del negocio debe ser proactiva y abarcar controles preventivos, de detección y correctivos. El plan de continuidad del negocio (BCP) es el control correctivo más crítico. Depende de que otros controles sean efectivos, en particular la administración de incidentes, y respaldo de medios.

Las directrices siguientes están alineadas con las mejores prácticas. Los incidentes y sus impactos pueden, hasta un cierto punto, ser mitigados a través de monitoreo preventivo.

Esto requiere que el grupo de administración de incidentes tenga el personal adecuado, esté debidamente respaldado y entrenado en administración de crisis y que el plan de continuidad del negocio esté bien diseñado, documentado, probado en ejercicio, financiado y auditado.

3.5. Administración de Incidentes dentro de BCP

Los incidentes y las crisis son dinámicos por naturaleza. Evolucionan, cambian con el tiempo y las circunstancias, y a menudo son rápidos e imprevisibles. A causa de esto, su administración debe ser dinámica, proactiva y bien documentada. Un incidente es cualquier evento no esperado, incluso si éste no causara daños significativos.

Dependiendo de una estimación del nivel de daños resultantes a la organización, todos los tipos de incidentes deben ser clasificados. Un sistema de clasificación podría incluir las siguientes categorías: sin importancia, menor, mayor y crisis. Cualquiera de estas clasificaciones es dinámicamente provisional hasta que se resuelva el incidente. Estos niveles pueden describirse como sigue:

Incidentes sin importancia son los que no causan daños perceptibles o significativos, como por ejemplo, caídas del sistema operativo (OS) muy breves con recuperación total de la información o cortes de energía momentáneos con respaldo de suministro de energía ininterrumpible (UPS).

Eventos menores son los que, aunque no insignificantes, no producen un impacto material (de relativa importancia) o financiero negativo.

Los incidentes mayores causan un impacto material negativo sobre los procesos de negocios y pueden afectar otros sistemas, departamentos o incluso clientes externos.

La crisis es un incidente mayor que puede tener un impacto material (de relativa importancia) serio sobre el funcionamiento continuo del negocio y que puede también tener un impacto adverso sobre otros sistemas o terceros. La seriedad de ellos depende de la industria y de las circunstancias, pero la severidad es generalmente directamente proporcional al tiempo transcurrido desde el inicio del incidente hasta su resolución.

Los incidentes menores, mayores y las crisis deben ser documentados, clasificados, y se les debe dar seguimiento hasta que sean corregidos o resueltos. Este es un proceso dinámico, ya que un incidente mayor puede disminuirse momentáneamente y aún así expandirse más tarde para convertirse en

9

Page 10: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

una crisis mayor. Los accidentes sin importancia pueden ser analizados estadísticamente para identificar cualquier causa sistémica o evitable.

La figura 6.2 provee un ejemplo de un sistema de clasificación de incidentes y protocolo de reacción.

El oficial de seguridad (SO) u otra persona designada debe ser notificado sobre todos los incidentes tan pronto ocurra cualquier evento que los provoque. Esta persona deberá seguir un protocolo preestablecido (por ejemplo, llamar a un vocero, alertar a la alta gerencia e involucrar a las agencias regulatorias).

En general, el criterio principal para la severidad (nivel) de los incidentes es el tiempo sin servicio. El servicio puede definirse como la inclusión de compromisos con clientes que pueden ser tanto clientes externos como departamentos internos. En la mayoría de los entornos, la severidad es proporcional al tiempo improductivo. Otros criterios pueden incluir el impacto sobre los datos o sobre las plataformas. Un enfoque conservador "a salvo de fallas" sería asignar a cualquier incidente insignificante un nivel inicial, provisional de severidad (ver la figura 6.2). A medida que el incidente evoluciona, este nivel debe ser reevaluado con frecuencia por la persona o por el equipo a cargo, al que a menudo se hace referencia como un equipo de respuesta a incidentes o de llamada de incendio (FIRECALL).

Figura 6.2

3.6. Análisis del Impacto al Negocio

El análisis del impacto al negocio (BIA) es un paso crítico para desarrollar el plan de continuidad del negocio. Esta etapa implica identificar los diversos eventos que podrían tener un impacto sobre la continuidad de las operaciones y su impacto financiero, humano, legal y de reputación sobre la organización,

10

Page 11: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Para ejecutar esta etapa con éxito, se debe lograr un entendimiento de la organización, de los procesos claves del negocio y de los recursos de SI utilizados para soportarlos. Esta etapa requiere un elevado nivel de soporte por parte de la alta gerencia y la total participación del personal tanto de Tecnología de la Información (TI) como de los usuarios finales. Se debe establecer la criticidad de los recursos de información (por ejemplo, aplicaciones, datos, redes, software de sistema, instalaciones o centros de procesamiento, etc.) que dan soporte a los procesos críticos del negocio de una organización con la aprobación de la alta gerencia. Es importante incluir todos los tipos de recursos de información y mirar más allá de los tradicionales (por ejemplo, operaciones del mainframe) para que se puedan incluir en la planeación de la continuidad del negocio /recuperación ante desastres. Por ejemplo, muchos grupos de usuarios finales han instalado redes de área local LANs sofisticadas y estaciones de trabajo que realizan funciones críticas diariamente, y muchos ejecutivos almacenan información vital en laptops y asistentes digitales personales (PDAs). A veces éstos son puestos en operación sin la participación de TI.

Hay diferentes métodos para efectuar un análisis del impacto sobre el negocio (BIA). Uno de los más populares es el método de cuestionario.

Las tres principales preguntas que deben ser consideradas durante la etapa de BIA incluyen las siguientes:

¿Cuáles son los diferentes procesos de negocio?

Cada proceso necesita ser evaluado para determinar su importancia relativa. Las indicaciones de criticidad pueden incluir, por ejemplo:

El proceso que soporta la salud y la seguridad, como por ejemplo los registros de pacientes de hospital y los sistemas de control de tráfico aéreo.

La interrupción del proceso causaría una pérdida de ingresos a la organización o costos excepcionales inaceptables.

El proceso debe satisfacer requisitos legales o estatutarios. El número de segmentos del negocio o número de usuarios que son afectados. Un proceso puede ser crítico o no dependiendo de factores tales como tiempo y modo

de operación, (por ejemplo, horas de negocio u operaciones de ATM). .

¿Cuáles son los recursos de información crítica relacionados con los procesos críticos de negocio de la organización?

Esta es la primera consideración porque la interrupción de un recurso de información no es un desastre en sí mismo, a menos que esté relacionado con un proceso crítico del negocio, como por ejemplo que la organización pierda los procesos que generan ingresos debido a una falla en el sistema de información. Otros ejemplos de los potenciales procesos críticos del negocio pueden incluir:

Recepción de pagos. Producción. Pago a los empleados. Publicidad.

11

Page 12: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Despacho de productos terminados. Cumplimiento de leyes y regulaciones.

¿Cuál es el período crítico de tiempo de recuperación para los recursos de información en el cual se debe restablecer el procesamiento del negocio antes de que se experimenten pérdidas significativas o inaceptables?

En gran parte, la duración de este período de tiempo depende de la naturaleza del negocio que esté presentando la interrupción. Por ejemplo, las instituciones financieras, como los bancos y las empresas de seguros, tendrán por lo general un período de tiempo de recuperación crítico mucho más corto que las empresas de fabricación (producción).

También, la época del año o día de la semana pueden afectar la ventana de tiempo para la recuperación. Por ejemplo, un banco que esté experimentando un apagón mayor un sábado a medianoche tiene más tiempo para recuperarse que si fuera un lunes a medianoche, dado el supuesto de que el banco no procesará en domingo.

Para tomar esta decisión, como se muestra en la Figura 6.3, hay dos factores independientes de costo a considerar:

Uno es el costo de tiempo improductivo del desastre, cuyo componente principal se deriva del tiempo improductivo y de la falta de servicio. Este componente, en el corto plazo (por ejemplo, horas, días, semanas), crece rápidamente con el tiempo, donde el impacto de una interrupción aumenta cuanto más tiempo dura.

El otro factor es el costo de las estrategias de corrección alternativas (la activación del plan de continuidad del negocio), que disminuye con el objetivo escogido para el tiempo de recuperación. El costo de recuperación tiene también muchos componentes (muchos de ellos rígidos - inflexibles). Esto incluye el costo de preparar y probar periódicamente el plan de continuidad del negocio, el costo de los requerimientos de respaldo fuera del sitio, el costo de la cobertura de seguros, el costo anual de los contratos de sitio alternativo, etc, Las estrategias alternativas de recuperación pueden estar representadas por puntos utilizando coordenadas, tales como marco de tiempo - costo.

Al identificar estos costos, la Figura 6.3 muestra también la suma de ambas curvas de costo como costos totales (interrupción y recuperación), donde una organización querría encontrar el punto en el cual el costo total puede ser minimizado. Esto puede ser hecho evaluando las estrategias alternativas de desarrollo, donde con unas pocas estrategias discretas, la curva descendente puede ser trazada y cada punto en esa curva representaría una posible estrategia. La curva como un todo representa todas las estrategias posibles. Cada estrategia posible tiene probablemente un costo fijo (es decir, no cambia con el tiempo) - cuanto más corto es el tiempo de recuperación que se pretende, más elevado será el costo fijo.

12

Page 13: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

La suma de todos los costos - tiempo sin servicio y recuperación - como costo total tiene que ser minimizado. El primer grupo, los costos del tiempo sin servicio, se incrementan con el tiempo y el segundo, los costos de recuperación, decrecen con el tiempo; la suma usualmente es una curva en U. En el fondo de la curva en U se puede encontrar el costo más bajo.

Figura 6.3

a. CLASIFICACIÓN DE LAS OPERACIONES Y ANÁLISIS DE LA CRITICIDAD

¿Cuál es la clasificación de los sistemas considerando los riesgos? Esto implica una determinación del riesgo basándose en el impacto que se deriva del período de tiempo de recuperación crítico así como también de la probabilidad de que ocurra una interrupción adversa. Muchas organizaciones considerarán un riesgo de ocurrencia para determinar un costo razonable de su preparación. Por ejemplo, pueden determinar que hay un 0.1 por ciento de riesgo (o 1 en 1000) de que en los próximos cinco años la organización sufra una interrupción grave. Si el impacto que se determina de una interrupción es de US$10 millones entonces el costo máximo razonable de estar preparados podría ser US$10 millones x 0.1 por ciento = US$10,000 durante cinco años. A partir de este proceso basado en el análisis del riesgo, puede tener lugar la clasificación de la prioridad de los sistemas críticos para desarrollar las estrategias de recuperación. El procedimiento de clasificar por importancia del riesgo se debe llevar a cabo en coordinación tanto con el personal de procesamiento de los sistemas de información como con el usuario final.

Figura 6.4Clasificación de los Sistemas

Clasificación DescripciónCrítico Estas funciones no pueden realizarse a menos que sean reemplazadas por capacidades

idénticas. Las aplicaciones críticas no pueden ser reemplazadas por métodos manuales. La tolerancia a la interrupción es muy baja. Por lo tanto, el costo de interrupción es muy alto.

Vital Estas funciones pueden realizarse manualmente pero sólo por un período breve de tiempo. Hay mayor tolerancia a la interrupción que con los sistemas críticos, por lo tanto, los costos de interrupción son un poco más bajos considerando que las funciones son restauradas dentro de un marco de tiempo determinado (por lo general 5 días o menos).

13

Page 14: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Sensitivo Estas funciones se pueden realizar manualmente, a un costo tolerable y por un período prolongado de tiempo. Aún cuando se pueden realizar manualmente, por lo general es un proceso difícil y requiere de personal adicional para llevarlas a cabo.

No Sensitivo Estas funciones pueden ser interrumpidas por un período prolongado de tiempo, a un costo muy pequeño o nulo para la compañía y requiere de poco o ningún esfuerzo para ponerse al día cuando son restauradas.

La etapa siguiente en la administración de la continuidad es identificar las diversas estrategias de recuperación y las alternativas disponibles para recuperarse de una interrupción y /o de un desastre. La selección de una estrategia apropiada basada en el análisis del impacto sobre el negocio y en el análisis de la criticidad es el paso siguiente para desarrollar un plan de continuidad de negocios y un plan de recuperación de desastres. Las dos medidas que ayudan en la determinación de las estrategias de recuperación son el objetivo de punto de recuperación (Recoveiy Point Objective - RPO) y el objetivo de tiempo de recuperación (Recoveiy Time Objective - RTO).

3.7. Objetivo de Punto de Recuperación y Objetivo de Tiempo de Recuperación

El RPO se determina en base a la pérdida aceptable de datos en el caso de una interrupción de las operaciones. Ello indica el punto más anticipado en el tiempo al cual es aceptable recuperar los datos. Por ejemplo, si el proceso puede permitirse perder los datos hasta cuatro horas antes del desastre, entonces la última copia de respaldo debería ser hasta cuatro horas antes del desastre o de la interrupción y por tanto, las transacciones durante RPO y la interrupción deberán ser ingresadas después de la recuperación, (conocido como "catchup data" o puesta al día de los datos).

RPO cuantifica efectivamente la cantidad permitida de pérdida de datos en el caso de interrupción. Es casi imposible recuperar la totalidad de los datos. Incluso después de ingresar los datos faltantes, algunos todavía se perderán y a ellos se hace referencia como datos huérfanos.

El objetivo de tiempo de recuperación (RTO) está determinado en base al tiempo improductivo aceptable en el caso de una interrupción de las operaciones, Ello indica el punto más anticipado en el tiempo en el que las operaciones de negocio deben retomarse después del desastre. La figura 6,5 muestra la relación entre RTO y RPO.

Figura 6.5Relación entre un RTO y RPO

14

Page 15: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Ambos conceptos están basados en parámetros de tiempo. Cuanto más bajo sea el tiempo de recuperación requerido, más elevado será el costo de las estrategias de recuperación, es decir, si el RPO está en minutos (pérdida de datos aceptable más baja posible), entonces el espejado o la duplicación de datos debe implementarse como la estrategia de recuperación. Si el RTO es menor, entonces el sitio alternativo podría preferirse a un contrato de hot site.

También, cuanto más bajo sea el RTO más baja será la tolerancia a desastre. La tolerancia a desastre es la brecha de tiempo dentro de la cual el negocio puede aceptar la no disponibilidad de los servicios críticos de TI.

Cortes máximos tolerables - El tiempo máximo que la organización puede soportar procesar en modo alterno. Después de este punto, pueden surgir diferentes problemas, en especial, si el SDO alterno es más bajo que el SDO habitual, y la información pendiente de ser actualizada puede tornarse no manejable.

3.8. Estrategias de Recuperación

Una estrategia de recuperación es una combinación de medidas preventivas, de detección y correctivas. La acción más efectiva sería:

« Donde sea posible, eliminar la amenaza completamente • Minimizar la probabilidad de que ocurra « Minimizar el efecto una ocurrencia

Eliminar la amenaza y minimizar el riesgo de que ocurra pueden resolverse a través de la implementación de seguridad física y ambiental. Minimizar el efecto puede lograrse implementando una resiliencia (capacidad de volver al estado normal de operación luego de ocurrir un evento

15

Page 16: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

adverso) integrada a través de direccionamiento alternativo y redundancia, que se discuten en detalle más adelante en este capítulo.

Por lo tanto, el primer método para desarrollar una estrategia de recuperación debería ser determinar si se puede implementar la resiliencia integrada. Un procedimiento de recuperación de desastre se ocupará de la restauración de las instalaciones afectadas, perdidas o dañadas, las que no están cubiertas por la resiliencia.

La selección de una estrategia de recuperación dependería de:

• La criticidad del proceso del negocio y las aplicaciones que soportan los procesos.• Costo.• El tiempo requerido para recuperarse.• Seguridad.

Hay diversas estrategias para recuperar los recursos críticos de información. La estrategia apropiada es la que tiene un costo para un tiempo aceptable de recuperación que también es razonable con el impacto y la probabilidad de ocurrencia que se determinó en el análisis de impacto sobre el negocio. El costo de recuperación es el costo de prepararse para posibles interrupciones (es decir, compra, mantenimiento y prueba regular de las computadoras redundantes, y mantenimiento del direccionamiento alterno de la red) así como también el costo de poner todos estos elementos en uso en el caso de una interrupción. Estos últimos costos pueden a menudo estar asegurados, pero los primeros generalmente no lo están. Sin embargo, las primas de seguros para desastre serán por lo general más bajas si hay un plan adecuado.

Las estrategias de recuperación basadas en el nivel de riesgo identificado para la recuperación deberían incluir desarrollar:

• Hot Sites• Wcirm Sites• Cold Sites• Instalaciones de procesamiento de información duplicada• Sitios móviles• Acuerdos recíprocos con otras organizaciones

3.9. Alternativas de Recuperación

Las interrupciones más prolongadas y más costosas, en particular los desastres que afectan la instalación física primaria, requieren alternativas de recuperación en un sitio distinto a la ubicación primaria (Offsite). Los tipos de instalaciones de respaldo de hardware en sitio alternativo que existen son:

16

Page 17: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

ʚ Hot sites - Se configuran totalmente y están listos para operar dentro de varias horas. El equipo, red y software del sistema deben ser compatibles con la instalación primaria que está siendo respaldada. Las únicas necesidades adicionales son personal, programas, archivos de datos y documentación.Los costos asociados con el uso de un hot site de terceros por lo general son elevados, pero más bajos que crear un sitio redundante, y con frecuencia son costos justificables para las aplicaciones críticas. Cuando se planea apropiadamente, la cobertura de seguro por lo general compensará los costos incurridos por usar este tipo de instalación. Los costos incluyen un costo básico de suscripción, una cuota mensual, cargos de prueba, costos de activación (para cuando el sitio es usado para una emergencia real) y cargos por uso por hora o por día. Las estructuras de precios varían entre proveedores. Algunos proveedores de Hot sites imponen un derecho elevado de activación para desalentar el uso innecesario de la instalación. Otros vendedores no tienen costos de activación y estimulan el uso de la facilidad para fines que 110 son de desastre, como por ejemplo el procesamiento cuando el sitio primario está sobrecargado. El contrato debe incluir la cantidad de tiempo que se necesita, la frecuencia y el tiempo especificado para la prueba. 305 Manual de Preparación al Examen CISA 2008.El hot site está destinado para operaciones de emergencia durante un período limitado de tiempo y no para uso prolongado. El uso prolongado afectaría la protección de otros suscriptores.

ʚ Warm sites - Están parcialmente configurados, por lo general con conexiones de red y equipo periférico seleccionado, como por ejemplo unidades de discos, unidades de cintas y controladores, pero sin la computadora principal. Algunas veces un warm site está equipado con una CPU menos potente que la que se usa generalmente. El supuesto detrás del concepto de warm site es que la computadora puede por lo general obtenerse rápidamente para una instalación de emergencia (a condición que sea un modelo ampliamente usado) y, como la computadora es la unidad más cara, dicho acuerdo es menos costoso que un hot site. Después de la instalación de los componentes que se necesitan, el sitio puede estar listo para el servicio dentro de horas; sin embargo, la ubicación y la instalación de la CPU y de otras unidades faltantes podría tomar varios días o semanas.

ʚ Cold sites - Tienen sólo el ambiente básico (cableado eléctrico, aire acondicionado, piso, etc.) para operar una instalación de procesamiento de información. El cold site está listo para recibir los equipos, pero no ofrece ningún componente en el lugar antes que se requiera su uso. La activación del lugar puede llevar varias semanas

ʚ Instalaciones de Procesamiento de Información (IPFs) Duplicadas (Redundantes) - Son lugares de recuperación dedicados, desarrollados por la empresa que se prepara para la interrupción y que pueden respaldar las aplicaciones críticas. Pueden variar desde un hot site listo y en espera hasta un contrato recíproco para el uso de la instalación de otra compañía.El supuesto es que hay pocos problemas para coordinar la compatibilidad y la disponibilidad en el caso de sitios duplicados de instalaciones de procesamiento de la información, Sin embargo, las organizaciones más grandes pueden experimentar problemas similares a los encontrados en acuerdos recíprocos entre compañías 110 relacionadas. Esto es particularmente cierto si las instalaciones de procesamiento de información a nivel departamental o divisional son administradas por separado, o cuando existen celos políticos hostiles internamente.

17

Page 18: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Deben existir varios principios para asegurar la viabilidad de este método:

El lugar escogido no debe estar sujeto a los mismos desastres naturales que el lugar original (primario).

o Debe haber una coordinación de estrategias de hardware /software. Debe existir un grado razonable de compatibilidad que sirva como base del respaldo. '

o Se debe asegurar la disponibilidad de recursos. Las cargas de trabajo de los sitios deben estar monitoreadas para asegurar que la disponibilidad para uso de respaldo de emergencia no se vea afectada.

o Debe haber acuerdos respecto a la prioridad de agregar aplicaciones (cargas de trabajo) hasta que; se hayan utilizado plenamente todos los recursos de recuperación.

o Es necesaria una prueba periódica. Aunque los lugares duplicados sean propiedad común e

o incluso si los sitios están bajo la misma administración, es necesaria una prueba de la operación de respaldo.

ʚ Sitios móviles - Este es un remolque diseñado que puede ser transportado rápidamente a un lugar de negocio o a un sitio alterno para proveer una instalación acondicionada lista de información de procesamiento. Estos sitios móviles pueden estar conectados para constituir áreas de trabajo más grandes y pueden ser configuradas previamente con servidores, computadoras de escritorio, equipos , de comunicación, e incluso con enlaces de datos de microonda y de satélite. Son una alternativa útil en el caso de un desastre expandido y son una alternativa eficiente en costos para duplicar las instalaciones de procesamiento de información para una organización de oficinas múltiples.

ʚ Acuerdos recíprocos con otras organizaciones - Este es un método usado con menos frecuencia entre dos o más organizaciones con equipos o aplicaciones similares. Bajo el acuerdo típico, los participantes prometen proveerse mutuamente tiempo de computadora cuando surja una emergencia.

a. Las ventajas incluyen:B Bajo costoB Es posible que sea la única opción disponible, en casos de equipo de vendedor único,

porque no se dispone de hot sites .b. Las desventajas incluyen:

B Por lo general no son obligatoriasB Las diferencias en la configuración de equipos a menudo necesitan cambios en los

programas para operar con efectividadB Los cambios de cargas de trabajo o configuraciones que no son notificados a los

participantes vuelven el acuerdo limitado o inútil.c. Las preguntas críticas que se deben cubrir en un acuerdo recíproco incluyen:

B ¿Cuánto tiempo estará disponible el sitio de la computadora anfitriona? ,B ¿Qué instalaciones, equipos y software estarán disponibles?B ¿Se proveerá asistencia de personal?B ¿Con qué rapidez se puede tener acceso a la instalación anfitriona de recuperación?

18

Page 19: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

B ¿Pueden establecerse en el lugar anfitrión las comunicaciones de voz y datos?B ¿Por cuánto tiempo puede continuar la operación de emergencia?B ¿Con qué frecuencia puede el sistema ser probado para verificar su compatibilidad?B ¿Cómo se mantendrá la confidencialidad de los datos?B ¿Qué tipo de seguridad se brindará para las operaciones y los datos de los sistemas de

información?B ¿Con qué anticipación se requiere dar aviso para usar la instalación?B ¿Hay ciertas épocas del año, mes, etc., en que las instalaciones del socio no están

disponibles?

19

Page 20: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

TECNOLOGÍAS DE RECUPERACIÓN

Las disposiciones contractuales para el uso de instalaciones de terceros deben abarcar lo siguiente:

Ω Configuraciones - ¿Son las configuraciones de hardware y software adecuadas para satisfacer las necesidades de la compañía, a medida que éstas varían en el tiempo?

Ω Desastre - ¿Es la definición de desastre lo suficientemente amplia para satisfacer las necesidades anticipadamente?

Ω Velocidad de disponibilidad - ¿Con qué rapidez después de un desastre estarán disponibles las instalaciones?

Ω Suscriptores por sitio - ¿El contrato limita el número de suscriptores por sitio?Ω Suscriptores por área - ¿El contrato limita el número de suscriptores en un edificio o área?Ω De Preferencia - ¿Quién obtiene preferencia si hay desastres comunes o regionales? ¿Existe

copia de respaldo para las facilidades de respaldo?o ¿Es el uso de la instalación exclusivo o el cliente tiene que compartir el espacio

disponible si múltiples clientes declaran desastre simultáneamente?o ¿Tiene el proveedor más de una instalación disponible para uso del suscriptor?

Ω Seguros ¿Existen coberturas de seguro adecuadas para los empleados en la instalación de respaldo? ¿El seguro actual reintegrará esos montos?

Ω Período de uso -¿Cuánto tiempo está disponible la instalación para su uso? ¿Es este período adecuado? ¿Qué soporte técnico proveerá el operador del sitio? ¿Es adecuado?

Ω Comunicaciones - ¿Son las comunicaciones adecuadas? ¿Son suficientes las conexiones de comunicación con el sitio de respaldo, para permitir la comunicación ilimitada si fuera necesario?

Ω Garantías - ¿Qué garantías dará el proveedor respecto a la disponibilidad del sitio y lo adecuado de las instalaciones? ¿Hay limitaciones de responsabilidad (generalmente hay) y está la compañía dispuesta a vivir con éstas?

Ω Auditoria - ¿Hay una cláusula de derecho a auditar, que permite una auditoria del sitio para evaluar la seguridad lógica, física y ambiental?

Ω Pruebas - ¿Qué derechos de prueba están incluidos en el contrato? Verificar con la compañía de seguros para determinar cualquier reducción de primas que puedan obtenerse debido a la disponibilidad del lugar de respaldo.

Ω Confiabilidad - El proveedor debe poder dar fe de la confiabilidad del o de los sitios que se están ofreciendo. Idealmente, el proveedor debe tener una UPS, suscriptores limitados, una administración técnica adecuada y garantías de compatibilidad de hardware y software.

Ω Obtención de Hardware AlternativoΩ Hay varias alternativas disponibles para asegurar el hardware y las instalaciones físicas de

respaldo, incluyendo:Ω Un proveedor o tercero - Los proveedores de hardware son por lo general la mejor fuente

para el reemplazo de equipo. Sin embargo, esto implica a menudo un período de espera que no es aceptable para las operaciones críticas. Es improbable que cualquier proveedor garantice una reacción específica ante una crisis. Los acuerdos con el proveedor se utilizan mejor cuando se planea trasladarse de un hot site a un warm o cold site. Los acuerdos se

20

Page 21: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

deben planear por adelantado. Otra fuente de reemplazo de equipo es el mercado de hardware usado. Este mercado puede suministrar componentes críticos o sistemas enteros, previo aviso, en un tiempo relativamente breve, a menudo con ahorro. Estas relaciones de ventas deben ser cultivadas anticipándose a la emergencia real.

Ω ® Fuera de inventario - Dichos componentes están rápidamente a disposición provenientes del inventario de los proveedores, previo aviso, no muy anticipado, y con una necesidad mínima de acuerdos especiales. Para hacer uso de este método, se deben utilizar varias estrategias, incluyendo: Actualizar periódicamente el equipo para mantenerse al día Mantener la compatibilidad del software para permitir la operación de equipos más nuevos

Ω Contrato de crédito o tarjetas de crédito de emergencia - Asegurar los planes de recuperación incluye instrucciones sobre cómo se va a pagar dicho equipo. Esto podría ser por medio de un contrato de crédito con proveedores o mediante la disposición de una tarjeta de crédito de emergencia, con un límite de crédito suficientemente alto. No debería dejarse a empleados individuales, incluso a gerentes, el asumir la responsabilidad de dichas compras por su propia cuenta.

Dado que se requieren datos y software para estas estrategias, es necesario considerar acuerdos especiales para su respaldo en medios removibles y para su almacenamiento seguro y a salvo fuera del sitio.

Adicionalmente, parte de la recuperación de las instalaciones de TI involucrarán las telecomunicaciones, para las cuales las estrategias que se consideran usualmente incluyen:

Prevención de desastres de red, que incluye: Direccionamiento alternativo Direccionamiento diversificado Diversidad de red de largo alcance Protección del loop local Recuperación de voz Disponibilidad de circuitos apropiados y ancho de banda adecuado

d. Planes de recuperación de desastres de servidor

Estas estrategias se discuten con mayor detalle más adelante en este capítulo.

Habiendo desarrollado una estrategia para la recuperación de las instalaciones de TI, suficiente para soportar los procesos críticos del negocio, es esencial que las estrategias para estas actividades puedan funcionar hasta que todas las instalaciones sean restauradas. Por lo tanto pueden incluir:

No hacer nada hasta que las instalaciones de recuperación estén listas Usar los procedimientos manuales Cumplir solamente con los requisitos regulatorios y legales Concentrarse en los clientes, proveedores, productos, sistemas, etc. más importantes.

21

Page 22: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Usar sistemas basados en PC para capturar datos para procesamiento posterior o realizar procesamiento local simple.

3.10. Desarrollo de Planes de Continuidad del Negocio y Recuperación de Desastres

Basado en la información recibida del BIA, el análisis de criticidad y la estrategia de recuperación seleccionada por la gerencia, se debe desarrollar un plan detallado de continuidad del negocio y recuperación de desastre. Se deben resolver todos los problemas involucrados en la interrupción de los procesos de negocio, incluyendo la recuperación ante desastre. Los diversos factores que se deben considerar mientras se desarrolla el plan son:

B Estar preparado antes de un desastre cubriendo el manejo de respuestas a incidentes para resolver todos los incidentes que afecten los procesos y análisis del negocio

B Procedimientos de evacuaciónB Procedimientos para declarar un desastreB Las circunstancias bajo las cuales se debe declarar un desastre. Todas las interrupciones

no son desastres, pero un pequeño incidente, si no es resuelto a su debido tiempo o de manera apropiada puede conducir a un desastre, Por ejemplo, un ataque de virus 110 reconocido y contenido en el tiempo puede hacer colapsar toda la instalación de TI.

B La clara identificación de las responsabilidades en el planB La clara identificación de las personas responsables de cada función en el planB La clara identificación de información de los contratosB La explicación paso por paso de la opción de recuperaciónB La clara identificación de los diversos recursos requeridos para la recuperación y

operación continúa de la organizaciónB La aplicación paso por paso de la etapa de recuperación.

El plan debe estar documentado y escrito en un lenguaje sencillo comprensible para todos. Es común identificar los equipos de personal que son responsables de tareas específicas en caso de desastre. Algunos equipos importantes que se deben constituir y sus responsabilidades están explicados a continuación. Se deben mantener copias del plan fuera del sitio.

3.11. Organización y Asignación de Responsabilidades

El plan debe identificar los equipos con sus responsabilidades asignadas en el caso de un incidente / desastre. Para implementar las estrategias que se han desarrollado para la recuperación del negocio, se debe identificar el personal de toma de decisiones de SI y del usuario final. Estas personas por lo general lideran equipos creados en respuesta a una función crítica o tarea definida en el plan. Dependiendo del tamaño de la operación del negocio, estos equipos pueden estar diseñados para ser asumidos por una sola persona. La participación de los siguientes equipos depende del nivel de la interrupción del servicio y de los tipos de activos perdidos o dañados. Es una buena idea desarrollar una matriz sobre la correlación entre los equipos que se necesitan para participar y el esfuerzo de recuperación /nivel de interrupción estimado.

22

Page 23: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Los equipos pueden incluir:

Equipo de respuesta a incidentes - Un equipo que ha sido diseñado para recibir la información sobre todo incidente que pueda ser considerado como una amenaza a los activos /procesos. Este informe puede ser útil para coordinar un incidente en curso y o para un análisis post-mortem. El análisis de todos los incidentes también provee entradas para actualizar los planes de recuperación.

Equipo de acción de emergencia - Es el primer equipo de respuesta. Se designan como bomberos y personal auxiliar de bomberos, cuya función es ocuparse de los incendios o de otros escenarios de respuesta de emergencia. Una de sus funciones primarias es la evacuación ordenada de personal y garantizar la vida humana.

Equipo de evaluación de daños - Evalúa el grado de los daños una vez ha ocurrido un desastre. El equipo debe estar constituido por personas que tengan la capacidad de evaluar los daños y de estimar el tiempo que se requiere para las operaciones de recuperación en el lugar afectado. Este equipo debe incluir personal con habilidad en el uso de equipos de prueba, con conocimientos sobre sistemas y redes y entrenado en las regulaciones y procedimientos de seguridad aplicables. Además, tienen la responsabilidad de identificar las posibles causas del desastre y su impacto sobre los daños y predecir el tiempo en que se estará fuera de operación.

Equipo administrador de la emergencia - Responsable de coordinar las actividades de todos los otros equipos y está a cargo de la toma de decisiones claves. Ellos determinan la activación del plan de continuidad del negocio. Otras funciones conllevan organizar las finanzas de la recuperación, manejar los asuntos legales que se presentan a partir del desastre y manejar las relaciones públicas y las consultas de los medios de comunicación.

Este equipo funciona como el supervisor de los desastres y se requiere para coordinar las siguientes actividades:

o Recuperar los datos críticos y vitales desde el sitio de almacenamiento alternoo Instalar y comprobar el software del sistema y las aplicaciones en el lugar de

recuperación (hoto site, cold site, oficina de servicios).o Identificar, comprar e instalar hardware en el lugar de recuperación del sistemao Operar desde el lugar de recuperación del sistemao Redireccionar el tráfico de comunicaciones de redo Restablecer la red de usuario /sistemao Transportar a los usuarios a la instalación de recuperacióno Reconstruir bases de datos

23

Page 24: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

o Suministrar los artículos de oficina necesarios, tales como , formularios especiales, inventario de cheques, papel

o Hacer los arreglos y pagar por los gastos de reubicación de los empleados en el sitio de recuperación

o Coordinar el horario de uso de los sistemas y de trabajo de los empleados

Equipo de almacenamiento Offsite - Responsable de obtener, empacar y enviar los medios y los registros a las instalaciones de recuperación, así como también de establecer y supervisar un programa de almacenamiento externo para la información creada durante las operaciones en el lugar de recuperación

Equipo del software - Responsable de restaurar el software del sistema y sus actualizaciones, si las hay, de cargar y probar el software de los sistemas operativos y de resolver los problemas a nivel del sistema.

Equipo de las aplicaciones - Viaja al lugar de recuperación del sistema y restaura los paquetes y los programas de aplicación del usuario en el sistema de respaldo. A medida que progresa la recuperación, es posible que este equipo tenga la responsabilidad de monitorear el desempeño de las aplicaciones y la integridad de la base de datos.

Equipo de operaciones de emergencia - Está constituido por operadores de turno y supervisores de turno que residirán en el lugar de recuperación de los sistemas y administrarán las operaciones del sistema durante la totalidad del desastre y de los proyectos de recuperación. Otra responsabilidad podría ser coordinar la instalación de hardware, si un hot site u otra facilidad lista para el equipo no ha sido designada como el centro de recuperación.

Equipo de recuperación de la red - Responsable de redireccionar el tráfico de comunicaciones de voz y de datos de la red WAN, restablecer el control de la red anfitriona y el acceso al lugar de recuperación del sistema, proveer un soporte continuo para las comunicaciones de datos y supervisar la integridad de las comunicaciones.

Equipo de Comunicaciones - Viaja al lugar de recuperación donde trabajan conjuntamente con el equipo remoto de red para establecer una red de usuario /sistema. Este equipo es también responsable de conseguir e instalar hardware de comunicaciones en el lugar de recuperación y de trabajar con las portadoras locales de conmutación y proveedores de gateway en el redireccionamiento de servicio local y acceso al gateway.

Equipo de Transportes - Sirve como un equipo de apoyo para ubicar un lugar de recuperación, si no se hubiera determinado uno previamente, y es responsable de coordinar el transporte de los empleados de la compañía al sitio de recuperación. También pueden ayudar a contactar los empleados para informarles de los nuevos lugares de trabajo y para programar y hacer arreglos para el alojamiento de los empleados.

24

Page 25: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Equipo de hardware de usuario - Ubica y coordina la entrega e instalación de terminales de usuario, impresoras, máquinas de escribir, fotocopiadoras y otros equipos necesarios. Este equipo ofrece también soporte al equipo de comunicaciones y a cualquier esfuerzo de salvamento de hardware y de instalaciones.

Equipo de preparación de datos y registros - Trabajan desde las terminales instaladas en el lugar de recuperación del usuario, actualiza la base de datos de las aplicaciones. Este equipo supervisa también al personal contratado para el ingreso de los datos y asiste en los esfuerzos de salvar los registros, obtener los documentos primarios y otras fuentes de información ingresada.

Equipo de soporte administrativo - Provee soporte al personal de oficina, a los otros equipos y sirve como un centro de mensajes para el lugar de recuperación del usuario. Este equipo puede también controlar las funciones de contabilidad y de nómina así como también la administración continua de las instalaciones.

Equipo de suministros - Da apoyo a los esfuerzos del equipo de hardware de usuarios contactando a los vendedores y coordinando la logística para un suministro continuo de los elementos necesarios de oficina y de cómputo.

Equipo de salvamento - Administra el proyecto de reubicación. Este equipo hace también una evaluación más detallada de los daños a las instalaciones y equipos que la realizada inicialmente; suministra la información necesaria al equipo administrador de la emergencia para determinar si el plan debería estar dirigido a la reconstrucción o reubicación; provee la información necesaria para presentar reclamos de seguros (los seguros son una fuente primaria de financiamiento para los esfuerzos de recuperación) y coordina los esfuerzos necesarios para el salvamento inmediato de los registros, como por ejemplo restaurar documentos en papel y en medios electrónicos.

Equipo de reubicación - Coordina el proceso de traslado del hot site a una nueva ubicación o a la ubicación original restaurada. Esto implica la reubicación de las operaciones de procesamiento de los sistemas de información, tráfico de comunicaciones y operaciones de usuario. Este equipo también monitorea la transición a los niveles normales de servicio.

Equipo de coordinación - Responsable de coordinar los esfuerzos de recuperación en las diversas oficinas ubicadas en lugares geográficos diferentes.

Equipo de asuntos legales - Responsable de manejar los problemas legales que surjan por diversas razones debido a cualquier incidente o no disponibilidad de servicio (por ejemplo, de acuerdo con las nuevas leyes establecidas por muchos países, la organización es responsable de asegurar sus activos de TI, y será responsable de los daños a terceros inocentes en el caso de incidencia).

25

Page 26: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Equipo de prueba de recuperación - Responsable de probar diversos planes desarrollados y de analizar el resultado.

Equipo de entrenamiento - Un equipo que proveerá entrenamiento a los usuarios para las disposiciones de los procedimientos de continuidad del negocio y recuperación de desastre.

3.12. Otros Aspectos a Tener en Cuenta en el Desarrollo del Plan

El personal que debe reaccionar a los escenarios de desastre / interrupción es el responsable de los recursos más críticos. Por lo tanto, la participación de la Gerencia y de los usuarios es vital para el éxito del plan de continuidad del negocio. La participación de la Gerencia de Usuarios es esencial para la identificación de los sistemas críticos, sus tiempos críticos de recuperación asociados y la especificación de los recursos que se necesitan para su recuperación. Las tres divisiones principales que requieren participación en la formulación del plan de continuidad del negocio son los servicios de soporte, las operaciones del negocio y el soporte de procesamiento de la información.

Cuando se formule el plan, se deben incluir los puntos siguientes:

B Una lista del personal, con información de contacto, requerido para mantener las funciones críticas del negocio en el corto, mediano y largo plazo

B La configuración de las instalaciones físicas, escritorios, sillas, teléfonos, etc. que se requieren para mantener las funciones críticas del negocio en el corto, mediano y largo plazo

3.13. Componentes de un BCP

Dependiendo del tamaño y/o de los requerimientos de una organización, un BCP puede estar constituido por más de un documento de plan. Este debe incluir:

B Plan de continuidad de operacionesB Plan de recuperación de desastreB Plan de reanudación del negocio

Puede también incluir:

B Plan de soporte de la continuidad / plan de contingencia de TIB Plan de comunicaciones de crisisB Plan de respuesta a incidentesB Plan de transporteB Plan de emergencia de ocupante

26

Page 27: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Figura 6.6.Propósito y alcance do los componentes de BCPPlan Propósito AlcancePlan de Continuidad del Negocio (BCP)

Proveer procedimientos para sostener las operaciones esenciales del negocio mientras éste se recupera de una interrupción significativa

Se ocupa de los procesos del negocio; dirigido a TI basado únicamente como soporte para los procesos de negocio.

Plan de Recuperación (o reanudación) del Negocio (BRP)

Proveer procedimientos para recuperar las operaciones del negocio inmediatamente después de un desastre.

Se ocupa de los procesos de negocio; no se enfoca en Tí; dirigido a TI basado únicamente como soporte para los procesos de negocio

Plan de Continuidad de las Operaciones (COOP)

Proveer procedimientos y capacidades para sostener las funciones estratégicas esenciales de una organización en un sitio alterno hasta por 30 días

Se ocupa del subconjunto de las misiones de una organización que se consideran más críticas; por lo general se escribe a nivel de las oficinas centrales; no está enfocado a TI

Plan de Soporte de Continuidad /Contingencia de TI

Proveer procedimientos y capacidades para recuperar una aplicación importante o un sistema general de soporte

Lo mismo que el plan de contingencia de TI; se ocupa de las interrupciones del sistema de TI; no está enfocado al proceso de negocio,

Plan de Comunicaciones de Crisis

Proveer procedimientos para diseminar los reportes de estado al personal y al público

Se ocupa de las comunicaciones con el personal y con el público; no está enfocado a TI.

Plan de Respuesta a Incidentes Cibernéticos

Proveer estrategias para detectar, responder a, y limitar las consecuencias de incidentes cibernéticos maliciosos

Se enfoca sobre las repuesta a incidentes de seguridad de información que afectan los sistemas y/o las redes

Plan de Recuperación de Desastres (DRP)

Proveer procedimientos detallados para facilitar la recuperación de capacidades en un sitio alterno

A menudo se enfoca en TI; limitado a las interrupciones importantes con efectos de largo plazo

Plan de Emergencia de Ocupantes (OEP)

Proveer procedimientos coordinados para minimizar la pérdida de vidas o las lesiones y proteger de daños a la propiedad en respuesta a una amenaza física

Se enfoca sobre el personal y el particular de propiedad para la facilidad específica; no es un proceso de negocio ni está basado en la funcionalidad del sistema de TI,

27

Page 28: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Para las fases de planeación, implementación y evaluación del plan de continuidad del negocio se debe acordar lo siguiente:

B Las políticas que regirán todos los esfuerzos de continuidad y recuperaciónB Las metas /requerimientos/ productos para cada faseB Instalaciones alternativas para realizar tareas y operacionesB Recursos de información crítica a instalar (por ejemplo, datos y sistemas)B Personas responsables de su ejecuciónB Recursos disponibles para ayudar en la ejecución del plan (incluyendo recursos humanos)

« El cronograma de actividades con las prioridades establecidas

La mayoría de los planes de continuidad del negocio se crean como procedimientos que acomodan las estrategias de recuperación del sistema, del usuario y de la red. Se deben conservar copias del plan en la sitio alterno de recuperación y, de ser posible, en las residencias del personal clave responsable de la toma de decisiones. Cada vez con más frecuencia, una organización coloca su plan en un web site espejado Los componentes de este plan incluyen al personal clave en la toma de decisiones, respaldos de los suministros que se requieren, la organización y la asignación de las responsabilidades, redes de telecomunicación y seguros.

e. Personal Clave para la Toma de Decisiones

El plan debe contener un directorio de notificaciones del personal clave o "árbol de llamadas" en la toma de decisiones de SI y del personal del usuario final que se requiera para iniciar y llevar a cabo los esfuerzos de recuperación. Es por lo general un directorio telefónico de las personas que deben ser notificadas en caso de un desastre o de una catástrofe. El punto para recordar cuando se prepara la lista es que en el caso de un desastre extendido o de un incendio / explosión durante horas normales de negocio que daña severamente las oficinas de la organización, muchos jefes de equipo pueden no estar disponibles.

Este directorio debe contener la información siguiente:

B Una lista, con prioridades, de los contactos, es decir, quién debe ser llamado primero en una lista de teléfonos.

B Números de teléfono y direcciones primarias y de emergencia para cada persona crítica a contactar, Estos serán por lo general jefes clave de equipo, responsables de contactar a los miembros de su equipo.

B Números de teléfono y direcciones de los representantes del equipo y de los vendedores de software.

B Números de teléfono de los contactos, dentro de la compañía, que hayan sido designados para proveer suministros y equipo o servicios.

B Números de teléfono de las personas a contactar en las instalaciones de recuperación, incluyendo representantes en el mismo lugar o servicios definidos previamente de redireccionamiento de las comunicaciones de red.

28

Page 29: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

B Números de teléfono de las personas a contactar en las instalaciones de almacenamiento alterno (off¬site) y de las personas a contactar dentro de la compañía que estén autorizadas para retirar las copias de respaldos de la instalación alterna.

B Números de teléfono de los agentes de la compañía de seguros.B Números de teléfono de los contactos del personal de las empresas contratadas.B Números de teléfono y contactos de agencias legales / regulatorias /de gobierno, si se

requiriera.f. Respaldos de los Suministros Requeridos

El plan debe considerar todos los suministros necesarios para la continuidad de las actividades normales del negocio durante el proceso de recuperación. Esto incluye procedimientos escritos detallados y actualizados que puedan ser fácilmente seguidos por el personal permanente y el contratado que no esté familiarizado con las operaciones estándar de recuperación. También, un suministro de formularios especiales como por ejemplo, un stock de cheques, formularios de facturas y formularios de órdenes deben estar resguardados en otro lugar.

Si la función de ingreso de datos dependiera de ciertos dispositivos de hardware y/o de programas de software, estos programas y equipos deben ser suministrados al Hot-süe incluyendo equipo especializado y programas de Intercambio Electrónico de Datos (EDI). Lo mismo se aplicaría al equipo criptográfico.

g. Métodos de Recuperación de Desastre de las Redes de Telecomunicaciones

El plan debe abarcar las redes de telecomunicaciones de la organización. Hoy día, las redes de telecomunicaciones son claves para los procesos comerciales tanto en las organizaciones grandes como en las pequeñas. Es por eso que se debe dar una alta prioridad a los procedimientos para asegurar capacidades continuas de telecomunicaciones,

Las redes de telecomunicación son susceptibles a los mismos desastres naturales que los centros de datos, y también son vulnerables a diversos inconvenientes que son propios de las características de los medios de telecomunicación. Estos incluyen los desastres de la oficina central de conmutación, corte de cables, perturbaciones de corta duración y errores en las comunicaciones, violaciones de la seguridad relacionados con intrusión (hacking) (los intrusos telefónicos se conocen como phreakers) así como vulnerabilidades causadas por humanos. Es responsabilidad de la organización y no de los proveedores de servicios de comunicación asegurar servicios constantes de comunicación. Los proveedores de servicios de comunicación no son responsables de suministrar servicio de respaldo, a pesar de que muchos hacen duplicación de los principales componentes dentro de sus sistemas. Por lo tanto, la organización debe hacer provisiones para respaldar sus propias instalaciones de telecomunicación.

Para mantener los procesos críticos del negocio, el plan de continuidad de procesamiento de información del negocio debe disponer que se cuente con las capacidades adecuadas de telecomunicaciones alternas.

29

Page 30: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Los métodos de protección de la red son:

Redundancia - Implica una variedad de soluciones, que incluyen:

o Proveer capacidad adicional, con un plan para usar el excedente de capacidad, si no estuviera disponible la capacidad primaria normal de transmisión, En el caso de una LAN, se podría instalar un segundo cable a través de una ruta alterna para ser usado en el caso de que se dañara el cable primario.

o Proveer vías múltiples entre los routerso Protocolos dinámicos de direccionamiento, como por ejemplo primero "abrir la ruta

más corta" (OSPF - Open Shortest Path First) y "protocolo mejorado de direccionamiento de gateway interior" (EIGRP).

o Considerar, para las fallas de dispositivos, el evitar un solo punto de falla en los routers, switches, firewalls, etc.

o Proteger los archivos de configuración para recuperación en el caso de que los dispositivos de red fallen, como son los routers, switches, etc. Por ejemplo, las organizaciones deben utilizar los servidores de Protocolo Trivial de Transporte de Archivos (TFTP). La mayoría de los dispositivos de red soportan TFTP para guardar y recuperar la información de configuración.

Direccionamiento Alternativo - Direccionamiento alternativo es el método de direccionar información a través de un medio alterno como por ejemplo cable de cobre o fibra óptica. Esto involucra el uso de distintas redes, circuitos o puntos si la red normal no estuviera disponible. La mayoría de los proveedores locales de servicios de comunicación están desplegando anillos de fibra óptica de rotación contraria (counter-rotating). Estos anillos tienen cables de fibra óptica que transmiten información en dos direcciones diferentes y se encuentran en grupos de cables cubiertos y separados para mayor protección. En la actualidad, estos anillos se conectan a través de una oficina central de conmutación. Sin embargo, la expansión futura de los anillos puede incorporar una segunda oficina central en el circuito. Algunos proveedores de servicios de comunicación están ofreciendo rutas alternativas para puntos diferentes de presencia u oficinas centrales alternativas. Otros ejemplos incluyen circuitos conmutados como una alternativa para los circuitos dedicados; teléfonos celulares y comunicación por microondas como una alternativa para los circuitos terrestres y el correo expreso como una alternativa para las transmisiones electrónicas.

Direccionamiento diverso - El método de encaminar el tráfico a través de instalaciones divididas de cable, o instalaciones duplicadas de cable. Esto se puede lograr con fundas de cables diferentes y/o duplicados. Si se usan fundas diferentes de cables, el cable puede estar en el mismo conducto y por lo tanto sujeto a las mismas interrupciones que el cable al que está respaldando. El abonado de servicio de comunicación puede duplicar las instalaciones teniendo rutas alternativas, aunque la entrada hacia y desde el lugar del cliente puede estar en el mismo conducto. El abonado puede obtener direccionamiento diverso y direccionamiento alternativo desde el proveedor de servicios de comunicación local, incluyendo instalaciones de entrada dual. Sin embargo, adquirir este tipo de acceso es muy costoso y requiere mucho tiempo. La mayoría de los proveedores de servicios de

30

Page 31: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

comunicación proveen instalaciones para direccionamiento alternativo y diverso, a pesar de que la mayoría de los servicios son transmitidos por los medios terrestres. Además, estas instalaciones de cableado están por lo general ubicadas en el suelo o en el subsuelo. Las instalaciones ubicadas en el suelo comparten el espacio con los sistemas mecánicos y eléctricos que pueden crear grandes riesgos debidos a error humano y a la ocurrencia de un desastre.

Diversidad de Red de Largo Alcance - Muchos vendedores de instalaciones de recuperación han puesto a disposición diversas redes de larga distancia utilizando circuitos TI entre los principales proveedores de servicios de comunicación de larga distancia. Esto asegura el acceso de larga distancia si algún proveedor de servicios de comunicación experimentara una falla de red. Varios de los principales proveedores de servicios de comunicación han instalado ahora software de redireccionamiento automático y líneas redundantes que proveen recuperación instantánea si ocurriera un corte en sus líneas. El Auditor de SI debe verificar que la facilidad de recuperación tenga estas capacidades vitales de telecomunicación.

Protección de Circuito de "Última Milla" - Muchas instalaciones de recuperación proveen una combinación redundante de acceso de proveedores de servicios de comunicación locales Tls, microondas y/o cable coaxial al enlace local de comunicaciones. Esto permite tener acceso a las comunicaciones aunque el proveedor de servicios de comunicación local haya tenido un desastre. También se utiliza el direccionamiento alternativo del proveedor de servicios de comunicación local.

Recuperación de Voz - Dada la dependencia de las industrias de servicios, financieras y de venta al detalle de los servicios de voz, se sugiere contar con cableado redundante o servicios de VoíP.

Nota: El candidato a CISA debería saber qué método se recomienda para qué datos /información basado en esta criticidad

h. Arreglo Redundante de Discos Independientes (o Baratos)

Arreglo Redundante de Discos Baratos (Redundant Array of Inexpensive Disks -RAID) provee mejoras de desempeño y capacidades de tolerancia a fallas por medio de soluciones de hardware o de software, desglosando datos y grabándolos en una serie de múltiples discos para mejorar el desempeño y/o salvar simultáneamente grandes archivos. Estos sistemas proveen el potencial para mirroring (operación en espejo) eficiente en costos fuera del sitio para respaldo de datos.

Se define una variedad de métodos clasificados en 11 niveles, siendo los más populares 0, 3 y 5, para combinar varios manejadoras de disco (di.sk drives), pero aparentando ante el sistema como un solo manejador de disco. RAID mejora la solución de un solo manejador ya que ofrece mejor desempeño y /o redundancia de datos.

31

Page 32: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

i. Descripción de los Niveles de RAID

Las descripciones a nivel de RAID son las siguientes:

v Nivel 0 - Striped Disk Array Without Fault Tolerance (arreglo de disco con datos distribuidos sin tolerancia de fallas): Mejora el desempeño creando lo que parece ser un disco de entre varios manejadores de disco separados físicamente. Las áreas que parecen ser un cilindro o una pista en un manejador de disco lógico están distribuidas entre dos o más manejadores de disco físicos. Los beneficios de este método se relacionan con el desempeño mejorado en el acceso a los datos logrando velocidades y tamaños máximos de transferencia. Por ejemplo, cuando se lee un bloque de datos, la operación de lectura puede implicar varias lecturas simultáneas separadas de varios discos físicos. Sin embargo, este método, a pesar de que mejora el desempeño, no provee redundancia ni paridad.

v Nivel 1 - Mirroring (Espejado): Permite que una copia exacta de información en un área de disco, sea copiada a otra. Una vez establecidos, los datos grabados en el disco también se graban en el espacio libre de la otra mitad del disco espejo. Cuando se implementa el sistema espejo, los aspectos a considerar incluyen:

o Los manejadores (drives) del sistema espejo corren desde el mismo controlador, y no protege los datos de falla del controlador de drives, a menos que el sistema espejado sea ejecutado desde un controlado!' independiente.

o Para un mejor desempeño en la lectura a disco y mayor tolerancia a fallas, se debe usar un controlador de disco independiente para cada mitad del disco espejo.

o El sistema de espejado de disco corta efectivamente a la mitad el espacio disponible del disco.

o El sistema de espejado de disco tiene un costo inicial bajo, ya que sólo se necesita un drive adicional para lograr tolerancia a fallas.

o El sistema de espejado de disco hace más lentas las grabaciones ya que los datos deben ser grabados en dos lugares cada vez, pero acelerará las lecturas, ya que el controlador de entrada / salida tiene dos lugares desde los cuales leer información. Generalmente, para los ambientes multiusuario, el sistema espejo obtiene el mejor desempeño de todos los niveles RAID.

v Nivel 2 – Hamming code elliptical curve cryptoghraphy (ECC) – Es el proceso de intercalar datos en múltiples drives, incluyendo información de paridad creada usando la técnica del código de Hamming. El código de Hamming es la técnica de codificación de algoritmos hash que se usa para recuperar los datos perdidos que están duplicados en otro drive. Si un algoritmo hash se aplica a los datos en un disco que también está en un disco redundante y los valores son iguales entre los dos, los datos son recuperables desde el disco redundante. Este nivel requiere generalmente un gran número de discos para almacenamiento del usuario además de los discos que contienen la codificación de recuperación de errores, donde puede haber por ejemplo, un disco de recuperación por cada cuatro discos de almacenamiento del usuario. Este nivel sin embargo se usa muy pocas veces a causa de la gran cantidad de recursos de computadora que son necesarios.

32

Page 33: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

v Nivel 3 – Transferencia paralela con paridad. Usa paridad a nivel de byte en dispositivos (drives) dedicados y datos de usuario distribuidos a través de los múltiples dispositivos. Provee las características del nivel 0, mejor desempeño del disk striping, además de la redundancia provista con el uso de paridad de datos en un dispositivo dedicado de paridad. La información de paridad se calcula cuando los datos se graban, lo cual puede afectar el desempeño. Este proceso provee capacidades de tolerancia a fallas a través de la disponibilidad de drives redundantes (por lo menos tres).

v Nivel 4 – Discos de datos independientes con bloques de paridad compartida. Es similar al nivel 3 pero usa paridad de nivel de bloque y disk striping en vez a nivel de byte dentro de un bloque. Como el nivel 3, provee capacidades de tolerancia a fallas a través de la disponibilidad de drives redundantes.

v Nivel 5 – Discos de datos independientes con bloques de paridad distribuida. Hace una distribución, tanto de los datos como de la información de paridad en todos los drives múltiples a nivel de bloque. Difiere del disk striping normal en que los datos de la banda de paridad son recuperables de ese modo se provee al sistema de la capacidad de tolerancia a fallas. Cuando los datos son grabados en un disco, los datos se graban en todos los discos divididos en bandas en un arreglo de discos, tal como ocurre con el disk striping del nivel 0 de RAID. Sin embargo la información de paridad grabada en disco se hace en un disco separado de aquel donde los datos correspondientes están grabados. De ese modo, si ocurriera algo a uno de los discos en el arreglo, los datos en ese disco pueden ser reconstruidos a partir de la información de paridad en los otros discos. Adicionalmente, el nivel de RAID 5 difiere del nivel 4 en que la información de paridad en el nivel 5 de RAID está distribuida en todos los discos del arreglo. En el nivel 4, el disco específico está dedicado a información de paridad, lo que hace al nivel 5 más rápido que el nivel 4, porque puede ejecutar más de una operación de escritura a la vez.

v Nivel 6 – Discos de datos independientes con dos esquemas independientes de paridad distribuida. Es similar a RAID 5 en que hace striping tanto de datos como de información de paridad en todos los drivers múltiples. Sin embargo, difiere en que calcula dos con juntos de información de paridad para cada bloque de datos. Este método con protección de paridad provee capacidades elevadas con tolerancia a fallas para responder a fallas de disco o de vías.

v Nivel 7 – Asincronía optimizada para tasas elevadas I/O así como también tasas elevadas de transferencia de datos. Se basa en una arquitectura caracterizada por transferencias asíncronas de I/O. estas transferencias son controladas de manera independiente y escondidas (cached) por medio de un microprocesador interno de arreglo integrado en OS en tiempo real, donde todas las escrituras y las lecturas son escondidos centralmente por medio de un bus interno de transferencia de datos escondidos de alta velocidad con generación de paridad integrada en el escondite. Esto permite que múltiples drives de disco conectados sean diseñados como hot standbys. Es una solución patentada altamente costosa que provee altos niveles de desempeño a través de sus capacidades de transferencia de datos que son escondidos.

v Nivel 10 – Fiabilidad muy alta combinada con alto desempeño. Se caracteriza como un arreglo de datos distribuidos (Striped) con altas tasas I/O alcanzadas distribuyendo los segmentos del nivel 1 (requiere un mínimo de cuatro pistas para implementarse).

33

Page 34: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

v Nivel 53 – Altas tasas de I/O y desempeño de transferencia de datos. Se caracteriza como un arreglo de datos distribuidos (Striped) de nivel 0 con segmentos como los arreglos del nivel 3. Las altas tasas de transferencia de datos se alcanzan debido a los segmentos de arreglo de nivel 3 y a altas tasas de I/O basadas en striping de nivel 0. Esta es una solución costosa, pero con altas capacidades de desempeño.

v Nivel 0+1 – High data transfer performance (alto desempeño de transferencia de datos). Esta implementado como un arreglo de espejo (mirror) cuyos segmentos son arreglos de nivel 0. Diseñado con la tolerancia a fallas similar al nivel 5, este método es muy costoso de implementar y es susceptible de una pérdida significativa de su capacidad de tolerancia de fallas si fallara cualquiera de sus pistas. En esencia se convierte en un arreglo de nivel 0 cuando falla alguna pista donde se necesita un mínimo de cuatro para su implementación.

Comparando las técnicas arriba citadas, los niveles 0 y 1 de RAID tienen mejor desempeño cuando se basan en software, mientras que los niveles 3,5 y 6 de RAID se ejecutan más rápido en hardware. El nivel 2 de RAID se basa en hardware y es intensivo en recursos y por lo tanto se usa muy pocas veces. Los niveles restantes son soluciones de alto costo / alto nivel de gastos generales con limitada escalabilidad.

j. Seguros

El plan debe contener información clave de los seguros de la organización. La política de tener seguros para los equipos de procesamiento de los sistemas de información es por lo general una política de riesgos múltiples diseñada para proveer diversos tipos de cobertura de SI. Debe ser construida de manera modular de modo que pueda ser adaptada al ambiente de SI particular del asegurado.

Los tipos específicos de cobertura disponible son:

Equipo e instalaciones de SI: provee cobertura por daños físicos al sitio de procesamiento de información y al equipo de su propiedad. (se deben obtener seguros del equipo arrendado cuando el arrendatario sea responsable de la cobertura de riesgos). Se le advierte al Auditor de SI que revise estas pólizas ya que muchas pólizas solo obligan a reemplazar equipos no recuperables con “otro de clase y calidad similares” sin que obligue necesariamente al proveedor del equipo a que los reemplace con equipos nuevos idénticos al equipo dañado.

Reconstrucción de los Medios (Software). Cubre daños a los medios de SI que sean de propiedad del asegurado y del cual el asegurado sea responsable. El seguro está disponible para situación que se presenten en el lugar de procesamiento normal, en el sitio alterno o durante el tránsito de un sitio al otro y cubre el costo real de reproducción del medio. Las consideraciones para determinar el valor de la cobertura son los costos para reproducir los medios dañados, los gastos de los respaldos y el reemplazo físico de los dispositivos de los medios, como por ejemplo las cintas, los cartuchos y los discos.

Gastos adicionales. Están diseñados para cubrir los costos adicionales que ocasiona la continuidad de las operaciones luego de los daños o de la destrucción en el sitio de procesamiento de información. El valor del seguro por cobertura de gastos adicionales se

34

Page 35: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

basa en la disponibilidad y en el costo de las instalaciones y de las operaciones de respaldo alternativo. Los gastos adicionales pueden también cubrir la perdida de las ganancias netas causadas por daños a los medios de computación. Esto provee el reembolso por pérdidas monetarias provenientes de la suspensión de operaciones a causa de la perdida física de los equipos o de los medios. Un ejemplo de una situación que requiere este tipo de cobertura seria si las instalaciones de procesamiento de información estuvieran en el sexto piso y los primeros cinco pisos se quemaran, las operaciones se interrumpirían aunque el centro de procesamiento de información no hubiera sido afectado.

Interrupción del negocio. Cubre la perdida de las ganancias debido a la interrupción de la actividad de la compañía por causa de algún mal funcionamiento de los sistemas de información de la organización.

Documentos y registros valiosos. Cubre el valor real efectivo de los documentos y registros valiosos (no definidos como medios) que se encuentren en las instalaciones del asegurado, contra la pérdida o daño físico directo.

Errores y omisiones. Provee protección legal de responsabilidad en caso de que el profesional cometa un acto, error u omisión que tenga como consecuencia una pérdida financiera para un cliente. Este seguro fue originalmente diseñado para las oficinas de servicios pero ahora varias compañías de seguros lo ofrecen para proteger a los analistas de sistemas, los diseñadores de software, los programadores, los consultores y otro personal de SI.

Cobertura de fidelidad. Por lo general toma la forma de fianzas generales o colectivas. Cubre pérdida originada por actos deshonestos o fraudulentos de los empleados. Este tipo de cobertura es la que prevalece en las instituciones financieras que operan su propio IPF.

Transporte de medios. Provee cobertura para la pérdida o daño potencial a los medios en tránsito hacia las instalaciones de procesamiento de información fuera de las instalaciones. La redacción de la cobertura de transito en la póliza especifica, por lo general, que todos los documentos deben ser filmados o copiados de otro modo. Cuando la póliza no manifiesta específicamente que los datos sean filmados antes de ser transportados y el trabajo no es filmado, la gerencia debe obtener del asegurador del transportador una carta que describa específicamente la posición y la cobertura del transportador en el caso de que se destruyan los datos.

Varios puntos clave son importantes para recordar sobre los seguros. La mayoría de los seguros abarca solamente pérdidas financieras, basadas en el nivel histórico de desempeño y no el nivel existente de desempeño. También, los seguros no compensan las pérdidas de imagen y de la buena reputación.

3.14. Pruebas De Plan

La mayoría de las pruebas de la continuidad del negocio no llegan a una prueba a escala total de todas las porciones operativas de la corporación. Esto no debe excluir la realización de pruebas totales o parciales, porque uno de los fines de la prueba de continuidad del negocio es determinar si el plan funciona bien o determinar que porciones del plan necesitan ser mejoradas.

35

Page 36: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

La prueba debe ser programada durante un tiempo que minimice las interrupciones a las operaciones normales. Los fines de semana son generalmente un buen momento para llevar a cabo las pruebas. Es importante que los miembros clave del equipo de recuperación participen en el proceso de prueba y se les dé el tiempo necesario para poner todo su esfuerzo en ello. La prueba debe ocuparse de todos los componentes críticos y simular las condiciones reales de procesamiento en el periodo de tiempo más activo, aun si se lleva a cabo fuera de horas laborales.

k. Especificaciones

La prueba debe tratar de cumplir las siguientes tareas:

Verificar si el plan de continuidad del negocio es completo y preciso. Evaluar el desempeño del personal involucrado en el ejercicio. Evaluar el entrenamiento y el conocimiento de los miembros del equipo de continuidad que

no pertenece al negocio. Evaluar la coordinación entre el equipo de continuidad del negocio y los vendedores

externos y los proveedores. Medir la habilidad y capacidad del lugar de respaldo para llevar a cabo el procesamiento

prescrito. Evaluar la capacidad de recuperación de los registros vitales. Evaluar el estado y la cantidad de equipo y de suministros que han sido reubicados en el

lugar de recuperación. Medir el desempeño general de actividades operativas y de procesamiento d los sistemas de

información relacionadas con el mantenimiento de la entidad de negocio.

Ejecución de pruebas

Para efectuar pruebas, se deben completar cada una de las siguientes etapas de prueba:

Pre-prueba. El conjunto de acciones necesarias para establecer el escenario para la prueba real. Va desde colocar las mesas en el area apropiada de recuperación de operaciones hasta transportar e instalar equipo telefónico de respaldo. Estas actividades están fuera del ámbito de las que ocurrirían en el caso de una emergencia real, en la que no hay advertencia previa del caso y por lo tanto, no hay tiempo para acciones preparatorias.

Prueba. Es la acción real de la prueba de continuidad del negocio. Las actividades operativas reales son ejecutadas para probar los objetivos específicos del plan de continuidad del negocio. Se debe realizar el ingreso de datos, llamadas telefónicas, procesamiento de los sistemas de información, el manejo de órdenes y movimiento de personal, equipo y proveedores. Los evaluadores examina a los miembros del personal cuando estos realizan las tareas designadas. Esta es la prueba real de la preparación para responder una emergencia.

Post-prueba. La limpieza de las actividades de grupo. Esta fase comprende asignaciones tales como devolver todos los recursos a su lugar apropiado, desconectar el equipo, devolver el personal y eliminar todos los datos de la compañía de los sistemas de terceros. La limpieza

36

Page 37: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

posterior a la prueba incluye también evaluar formalmente el plan e implementar las mejoras indicadas.

Además, se pueden efectuar los siguientes tipos de pruebas:

Evaluación de escritorio / Prueba en papel. Un recorrido del plan en papel, que involucra a los principales participantes en la ejecución del plan quienes razonan lo que podría ocurrir en un tipo particular de interrupción de servicio. Ellos pueden recorrer todo el plan o solo una parte del mismo. La prueba en papel por lo general precede la prueba de preparación.

Prueba de preparación. Por lo general una versión localizada de una prueba total, en la que los recursos reales son empleados en simular una caída de sistema. Esta prueba se realiza periódicamente en diferentes aspectos del plan y puede ser una forma costo-efectiva para obtener gradualmente evidencia sobre si el plan es bueno. También provee un medio para mejorar el plan en etapas.

Prueba operativa total. Esta a una paso de una interrupción real de servicio. La organización debe haber probado el plan en papel y localmente antes de probar el cierre completo de las operaciones. Para los fines de probar el plan de continuidad del negocio, este es el desastre.

l. Documentación de resultados.

Durante cada etapa de la prueba se debe mantener documentación detallada de las observaciones, problemas y resoluciones. Cada equipo debería tener un formulario de diario con pasos específicos e información a ser registrada, que pueda ser usada como documentación. Esta documentación sirve también como información histórica importante que puede facilitar la recuperación durante un desastre real. Adicionalmente, las compañías de seguros o las autoridades pueden requerirla. Finalmente, la documentación también ayuda a efectuar un análisis detallado tanto de las fortalezas como de las debilidades del plan.

m. Análisis de resultados

Es importante tener formas de medir el éxito del plan y de la prueba comparando con los objetivos planteados. Por lo tanto, los resultados deben ser calibrados en forma cuantitativa en oposición a una evaluación basada únicamente en la observación.

Las medidas específicas varían dependiendo de la prueba y de la organización. Sin embargo, estas medidas generales usualmente aplican:

Tiempo. El tiempo transcurrido para realizar las tareas prescritas, la entrega de equipo, la reunión de personal y la llegada a un lugar predeterminado.

Cantidad. La cantidad de trabajo realizado en el lugar de respaldo por el personal de oficina y las operaciones de procesamiento de los sistemas de información.

Conteo. El numero de registros vitales llevados exitosamente al lugar de respaldo frente al número requerido, y el número de suministros y de equipo solicitado frente al efectivamente recibido. también se puede medir el número de sistemas críticos recuperados exitosamente con el número de transacciones procesadas.

37

Page 38: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Exactitud. La exactitud de la entrada de datos en el lugar de recuperación frente a la exactitud normal (como un porcentaje). También se puede determinar la exactitud de los ciclos reales de procesamiento mediante la comparación de los resultados salientes con los resultados para el mismo periodo procesado bajo condiciones normales.

n. Mantenimiento del plan

Se debe revisar y actualizar en forma programada los planes y estrategias para la continuidad del negocio para que reflejen el reconocimiento continuado de los requerimientos cambiantes. Los siguientes factores, entre otros pueden tener un impacto sobre los requerimientos cambiantes. Los siguientes factores, entre otros, pueden tener un impacto sobre los requerimientos de continuidad del negocio y la necesidad de que el plan sea actualizado:

Una estrategia que es apropiada en un punto en el tiempo puede no ser adecuada cuando las necesidades de la organización cambian.

Se puede desarrollar o adquirir nuevos recursos/aplicaciones. Los cambios en la estrategia del negocio pueden alterar la importancia de las aplicaciones

críticas o considerar como criticas aplicaciones adicionales. Los cambios en el software o ambiente de hardware pueden hacer obsoletas o inapropiadas

los planes actuales.

Un paso importante para mantener un plan de continuidad del negocio es actualizarlo y probarlo cada vez que ocurran cambios relevantes dentro de la organización. También es aconsejable incluir BCP como parte del proceso del ciclo de vida de desarrollo de sistema SDLC.

La responsabilidad de mantener el plan de continuidad del negocio a menudo recae en el coordinador del plan de continuidad del negocio. Las responsabilidades específicas de mantenimiento del plan incluyen:

Desarrollar un programa para revisión y mantenimiento periódicos del plan avisando a todo el personal sobre sus funciones y la fecha límite para recibir revisiones y comentarios.

Exigir revisiones no programadas cuando hayan ocurrido cambios significativos. Examinar las revisiones y comentarios y actualizar el plan dentro de los 30 días siguientes a

partir de la fecha de revisión. Hacer arreglos y coordinar las pruebas programadas y no programadas del plan de

continuidad del negocio para evaluar si son adecuadas. Participar en las pruebas programadas del plan, que deben realizarse por lo menos una vez al

año en fechas específicas. Para las pruebas programadas y no programadas, el coordinador escribirá evaluaciones e integrará cambios para resolver los resultados de pruebas fallidos en el plan de continuidad del negocio en un plazo de 30 días.

Desarrollar un programa para entrenar el personal de recuperación en los procedimientos de emergencia y de recuperación, como se establece en el plan de continuidad del negocio. Las fechas de entrenamiento deben programarse dentro de los 30 días siguientes a cada revisión del plan y a la prueba programada del plan.

38

Page 39: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Mantener registros de las actividades de mantenimiento del plan de continuidad del negocio, pruebas, entrenamiento y revisiones.

Actualizar, por lo menos trimestralmente, el directorio de notificaciones con todos los cambios de personal, incluyendo números de teléfono, responsabilidades o estatus dentro de la compañía.

Una herramienta de software para administrar planes de continuidad y de recuperación puede ser muy útil para rastrear y dar seguimiento a las tareas de mantenimiento.

3.15. Respaldo (BACKUP) Y Recuperación

Como es aconsejable asegurar que las actividades lucrativas de un negocio (incluyendo las operaciones de SI en su función de soporte) no sean interrumpidas en el caso de un desastre, se usan medios secundarios de almacenamiento (por lo general rollos de cinta, cartuchos de cinta, discos duros removibles, casetes o discos espejados) para almacenar programas y datos asociados para fines de copias de respaldo. Estas cintas u otros medios de almacenamiento secundario son almacenados en una o más instalaciones físicas (a las que se hace referencia como bibliotecas fuera del sitio o alternas), basado en la disponibilidad de uso y riesgo percibido de interrupción del negocio. Es la responsabilidad del bibliotecario offsite mantener un inventario perpetuo del contenido de estas bibliotecas, controlar el acceso a los medios de biblioteca y rotar los medios entre diferentes bibliotecas, en la medida que sea necesario. También, es necesario mantener una copia actualizada del plan de continuismo del negocio.

o. Controles de la Biblioteca en el Sitio Alterno

Los controles sobre las instalaciones de la biblioteca ubicada en el sitio alterno de almacenamiento son importantes para asegurar la operación ininterrumpida del negocio en caso de desastre y para optimizar la utilización de los recursos de SI. El acceso no autorizado a esta información podría traer como consecuencia pérdida de datos, cambios no autorizados a los datos e impacto en la capacidad de SI para proveer servicios continuos de cómputo y podrían resultar en pérdida o cambios no autorizados a los datos.

Los controles sobre la biblioteca en el sitio alterno incluyen:

Garantizar el acceso físico al contenido de la biblioteca. Asegurar que la construcción física pueda resistir el fuego/calor (por lo menos dos horas) Ubicar la biblioteca lejos de la sala de computadoras, preferentemente a millas / kilómetros

de distancia para evitar que el riesgo de un desastre afecte a ambas instalaciones. Asegurar que solo el personal autorizado tenga acceso a la biblioteca y a los medios fuera de

línea. Asegurar que se mantenga un inventario perpetuo de todos los medios de almacenamiento y

de los archivos almacenados en la biblioteca. Asegurar que se mantenga un registro de información respecto al contenido, a las versiones

y a la ubicación de los archivos de datos.

39

Page 40: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

a. Seguridad y control de las instalaciones alternas (Off-site)

El sitio alterno de procesamiento de información debe ser tan seguro y controlado como el sitio primario. Esto incluye controles adecuados de acceso físico como por ejemplo puertas cerradas con cerrojo, ninguna ventana y personal para vigilancia. El centro alterno no debe ser identificado con facilidad desde el exterior, por lo tanto, no deben existir letreros que identifiquen el vendedor/compañía y la ubicación y uso del sitio. Eso se hace con el fin de prevenir un sabotaje intencional al sitio alterno si la destrucción del sitio primario proviniera de un ataque malicioso. La instalación alterna no debe estar sujeta al mismo desastre natural que afecto al sitio primario.

La instalación alterna debe poseer el mismo monitoreo y control ambiental constante que el sitio primario. Esto incluye el monitoreo de humedad, de temperatura y de aire que lo rodea para lograr condiciones optimas para almacenar medios magnéticos y en papel y, si fuera aplicable, equipo operativo de computo y dispositivos periféricos. Incluido en los controles ambientales apropiados, está el suministro ininterrumpido de energía operando sobre un piso falso y con la instalación de detectores apropiados de humo y de agua y un sistema de extinción de incendio probado y en operación.

b. Respaldo de los medios y de la documentación

Un elemento crucial del plan de recuperación para la continuidad de un negocio, en el sitio o en el sitio alterno, es la disponibilidad de datos adecuados. La duplicación de datos y de documentación importantes, incluyendo el almacenamiento de dichos datos y de la documentación de respaldo en el sitio alterno, es un requisito previo para cualquier tipo de recuperación.

A las copias de datos tomadas para respaldo en el sitio alterno de almacenamiento se les debe dar el mismo nivel de seguridad que a los archivos originales. La instalación alterna y los acuerdos para su transporte deben, por lo tanto, satisfacer los requerimientos de seguridad para los datos de clase más sensitiva en los medios de respaldo.

c. Procedimientos periódicos de copias de respaldo

Tanto los archivos de datos como los de software deben ser respaldados periódicamente. El periodo de tiempo en el que se debe programar la copia de respaldo puede diferir por programa de aplicación o por sistema de software. Por ejemplo, ciertos sistemas de aplicación que se ejecutan mensualmente en los cuales los archivos principales o de transacciones se actualizan mensualmente requerirán que se programen las copas de respaldo después de que se ejecute la producción mensual. Sin embargo, los sistemas operativos o el software de aplicación que sea actualizado con frecuencia podrán requerir copias de respaldo semanales. A menudo los sistemas en línea en tiempo real que efectúan el procesamiento de grandes volúmenes de transacciones requieren copias de respaldo cada noche o inmediatamente o utilizan actualizaciones de archivos maestros espejados en una instalación de procesamiento separada.

40

Page 41: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Programar las copias de respaldo periódicas puede a menudo realizarse con facilidad por medio de un sistema automatizado de administración de cintas y de un software automatizado de programación de trabajos. Automatizar los procedimientos de respaldo prevendrá contra rotación equivocada o respaldos perdidos debidos a error del operador.

d. Frecuencia de rotación

Los respaldos de los datos y del software deben seguir a la ocurrencia de cambios de manera continuada. Una copia del archivo o registro en un momento determinado en el tiempo debe ser realizada con fines de respaldo. Todos los cambios o transacciones que ocurran durante el intervalo entre la copia y la fecha actual también deben ser retenidos.

Las consideraciones para establecer los cronogramas de respaldo de archivos incluyen los siguientes:

Se debe determinar la frecuencia y periodo de retención de cada respaldo de los archivos. La estrategia de respaldo debe anticipar la falla en cualquier etapa del ciclo de

procesamiento. Los archivos maestros deben ser retenidos a intervalos apropiados, como por ejemplo al final

de un procedimiento de actualización, para proveer sincronización entre los archivos y los sistemas.

Los archivos de transacciones deben coincidir con los archivos maestros, de modo que un archivo maestro de una generación previa pueda ser actualizado completamente para recrear un archivo maestro actualizado.

Los archivos en tiempo real requieren técnicas especiales de respaldo, como por ejemplo bitácora o log duplicado de transacciones, uso de imágenes de registros maestros antes y/o después, identificar la fecha de las transacciones y simulación de las comunicaciones.

Los sistemas de administración de base de datos requieren un respaldo especializado, por lo general provisto como una característica integral del DBMS.

Las descripciones de los archivos necesitan ser mantenidas para que coincidan con cada versión de un archivo que sea retenido; para los sistemas DBMS, esto puede conllevar guardar versiones separadas de los diccionarios de datos.

Puede ser necesario asegurar la licencia para usar determinado software de vendedor en un sitio alterno; esto se debe arreglar con anticipación a la necesidad.

El respaldo de software debe incluir bibliotecas de código objeto y de código fuente y debe incluir disposiciones para mantener los parches de los programas actualizados en todos los lugares donde existan respaldos.

De igual modo, cualquier documentación que se requiera para la operación consistente y continua del negocio debe ser preservada en un sitio de respaldo alterno. Esto incluye los documentos requeridos para restaurar la base de datos de producción. Como ocurre con los archivos de datos, las copias fuera del sitio se deben mantener actualizadas para asegurar su uso. Es importante recordar que un respaldo adecuado es prerrequisito para una recuperación exitosa.

e. Tipos de medios y documentación rotada

41

Page 42: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Sin software, el hardware de computadora tiene poco valor. Por lo tanto, el software incluyendo sistemas operativos, lenguajes de programación, compiladores, programas utilitarios y de aplicación debe ser mantenido en un sitio alterno y en un estado actualizado. También la documentación en papel y sus copias deben ser almacenadas en un sitio alterno. Esta información en la forma de guías operativas, manuales de usuario, registros, archivos de datos, bases de datos y documentos de entrada / salida, provee la materia prima y los productos terminados para el ciclo de procesamiento de los sistemas de información.

La figura describe la documentación que debe tener respaldo y que debe ser almacenada en un sitio alterno.

Almacenamiento en el sitio alternoClasificación DescripciónProcedimientos de operación Librerías o bibliotecas (programas) de ejecución de las aplicaciones,

instrucciones para la ejecución consecutiva de trabajos, manuales del sistema operativo y procedimientos especiales.

Documentación de sistemas y de programas

Diagramas de flujo, listados del código fuente de los programas, sentencias o instrucciones del lenguaje especial de control de trabajaos, condiciones de error y manuales de los usuarios.

Procedimientos especiales Cualquier procedimiento o instrucción que este fuera de lo ordinario como por ejemplo el procesamiento de excepción, variaciones en el procesamiento y procesamiento de emergencia.

Documentos fuente de entrada / Documentos de salida

Cosas duplicadas, fotocopias, microfichas, reportes de microfilm o resúmenes que se requieren para hacer auditoria, análisis histórico, la realización de trabajo vital, la satisfacción de los requisitos legales o agilizar los reclamos de seguros.

Plan de continuidad del negocio Una copia apropiada del plan para referencia.

Los datos sensitivos que se almacenan en un sitio alterno deben ser almacenados en un contenedor de medios magnéticos a prueba de incendio. Cuando los datos son enviados de regreso al sitio de recuperación, los datos deben ser almacenados y sellados en el contenedor de medios magnéticos.

Toda organización debería tener una política escrita que rija que es lo que se almacena y por cuando tiempo. Los cronogramas de copias de respaldo y la rotación de cintas CD o cualquier medio que se use en un lugar alterno son importantes. Esta rotación de cintas se puede realizar por medio de software de administración.

f. Método de rotación

A pesar de que hay diversos métodos para la rotación de medios, una de las técnicas más aceptadas es referida como el método abuelo-padre-hijo. En este método se hacen copias de respaldo (hijo) diariamente durante el curso de una semana. La copia de respaldo final tomada durante la semana se convierte en la copia de respaldo para esa semana (padre). Los medios anteriores de copia de respaldo diario son entonces rotados para su reutilización como medios de respaldo para la segunda semana. Al final del mes, la copia de respaldo semanal final es retenida como la copia de respaldo

42

Page 43: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

para ese mes (abuelo). Los medios de respaldo semanal anteriores son entonces rotados para su reutilización en los meses posteriores. Normalmente las cintas u otros medios mensuales y anuales son retenidos y no están sujetos al ciclo de rotación.

Un elemento clave de este método es que las copias de respaldo rotadas en el sitio alterno no deben ser devueltas para su reutilización hasta que su reemplazo haya sido enviado al sitio alterno.

g. Mantenimiento de los archivos almacenados en el sitio alterno

Se debe mantener un inventario de los elementos almacenados en el sitio alterno. Este inventario debe contener información como por ejemplo:

El nombre del archivo de datos, el número de serie del volumen, la fecha en que fue creado, el periodo contable y el número de identificación de respaldo de almacenamiento en el sitio alterno para todas las cintas de respaldo.

El nombre del documento, su ubicación, el sistema pertinente y la fecha de la última actualización para toda la información critica.

Los sistemas automatizados de administración de cintas tienen por lo general opciones que ayudan a registrar y mantener esta información.

h. Mejores prácticas de administración de la continuidad del negocio

La necesidad de revisar continuamente y de mejorar en base al proceso de continuidad del negocio es crítica para el desarrollo de estrategias exitosas y robustas de recuperación para una organización, independientemente de si la organización está en la etapa inicial de desarrollo de un BCP o desarrollando la implementación inicial de un proceso BCM. En esfuerzo de aumentar las capacidades de BCM (y de cumplir con las directrices regulatorias), algunas organizaciones han comenzado a adoptar las mejores prácticas de entidades independientes de la industria y especificas de la industria y agencias regulatorias. Algunas de estas entidades/practicas/regulaciones/estándares son:

Instituto de continuidad del negocio (Bussines Continuity Institute BCI). Buenas prácticas para la administración de continuidad del negocio

Agencia Nacional de Protección contra Incendios de EEUU (US National Fire Protection Agency NFPA)

Asociación Federal de Administración de Emergencias de EEUU (US Federal Emergency Managemente Association FEMA). Guía para negocios e industrias para la administración de emergencias.

Objetivos de control para Tecnología de la información y relacionadas (COBIT) Consejo Federal de Examen de Instituciones Financieras de Estados Unidos (US Federal

Financial Institutions Examination Council-FFIEC) ® Junta de Reserva Federal de Estados Unidos (US Federal Reserve Borrad-FRB)

43

Page 44: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Ley de Portabilidad y Responsabilidad de Seguros de Salud de Estados Unidos (US Health Insurance Portability and Accountability Act-HIPAA)

® Comisión Federal Regulatoria de Energía de Estados Unidos (US Federal Energy Regulatory Commission-FERC)

Instituto Internacional de Recuperación de Desastres (Disaster Recovery Institute Internacional- DRII) - Prácticas profesionales para los profesionales de la continuidad del negocio

III. AUDITORÍA AL PLAN DE CONTINUIDAD DEL NEGOCIO (DRP + COOP + BRP)

Las tareas del Auditor de SI incluyen:

Entender y evaluar la estrategia de continuidad del negocio y su conexión con los objetivos del negocio.

Evaluar los planes de continuidad del negocio para determinar si son adecuados y están actualizados a través de la revisión de los planes y comparándolos con los estándares apropiados y/o con las reglamentaciones del gobierno.

Verificar que los planes de continuidad del negocio sean efectivos para asegurar que las capacidades de procesamiento de información puedan ser reanudadas prontamente después de una interrupción imprevista revisando los resultados de las pruebas anteriormente realizadas por el personal de SI y por el personal usuario.

Evaluar el almacenamiento en el sitio alterno para asegurar que es adecuado, inspeccionando la instalación y revisando su contenido y la seguridad y los controles ambientales del mismo.

Evaluar la capacidad del personal de SI y del usuario para responder con eficacia en situaciones de emergencia revisando los procedimientos de emergencia, el entrenamiento de los empleados y los resultados de sus pruebas y ejercicios.

Asegurar que el proceso de mantener planes esté instalado y vigente. Evaluar si los manuales y procedimientos de continuidad del negocio están escritos en una

forma sencilla y fácil de entender. Esto se puede lograr a través de entrevistas y determinando si todos los interesados entienden sus funciones y responsabilidades con respecto a las estrategias de continuidad del negocio.

3.1. Revisión del Plan de Continuidad del Negocio BCP

Cuando se está revisando el plan desarrollado, los Auditores de SI deben verificar que sean evidentes los elementos básicos de un buen plan. Los procedimientos de auditoria para tratar dichos elementos básicos incluyen:

Obtener una copia vigente del plan o del manual de continuidad del negocio. Obtener una muestra de las copias distribuidas del manual y verificar que estén al día. Evaluar la efectividad de los procedimientos documentados para iniciar la ejecución del plan

de continuidad del negocio.

44

Page 45: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

Revisar la identificación, las prioridades y el apoyo planeado de las aplicaciones críticas, incluyendo los sistemas desarrollados basados en PC o desarrollados por el usuario final.

Determinar si todas las aplicaciones han sido revisadas en cuanto a su nivel de tolerancia en el caso de un desastre.

Obtener una copia de los acuerdos relativos al uso de facilidades de respaldo. Determinar si todas las aplicaciones críticas (incluyendo las aplicaciones de PC) han sido

identificadas. Determinar si el Hot site tiene las versiones correctas de todo el software del sistema.

Verificar que todo el software sea compatible; de otro modo el sistema no podrá procesar los datos de producción durante la recuperación del desastre.

Obtener una lista de los miembros del equipo de implementación Revisar la lista del personal de continuidad del negocio, los contactos del Hot site de

emergencia, los contactos del vendedor de emergencia, etc. para que sean los apropiados y que estén completos.

Escoger una muestra del personal asignado y llamarlos para verificar que efectivamente sus números de teléfono y direcciones sean correctos como se indican y que posean una copia vigente del manual de continuidad del negocio.

Entrevistarlos para establecer si conocen y entienden las responsabilidades que se les asignaron en una situación de interrupción /desastre.

Evaluar los procedimientos para documentar las pruebas. Evaluar el procedimiento para actualizar el manual. ¿Las actualizaciones se aplican y son

distribuidas a su debido tiempo? ¿Están documentadas las responsabilidades específicas de mantenimiento del manual?

Revisar los procedimientos de respaldo que se siguen para cada área cubierta por el DRP, Determinar si los procedimientos de respaldo y recuperación se están siguiendo Además de los pasos citados aquí anteriormente se debe: Evaluar todos los procedimientos de emergencia escritos para verificar si contemplan todos

los detalles, si son apropiados, exactos, actuales y comprensibles. Identificar si las transacciones reingresadas en el sistema a través del proceso de

recuperación necesitan ser identificadas por separado de las transacciones normales. Determinar si todos los equipos de recuperación tienen procedimientos escritos a seguir en

el caso de un desastre. Determinar si existe un procedimiento adecuado para actualizar los procedimientos de

emergencia escritos. Determinar si los procedimientos de recuperación de usuarios están documentados. Determinar si el plan trata de manera adecuada el traslado al sitio de recuperación. Determinar si el plan trata de manera adecuada la recuperación desde el sitio de

recuperación. Determinar si los elementos necesarios para la reconstrucción del sitio primario de

procesamiento de la información están almacenados en el sitio alterno, como por ejemplo los planos, el inventario de hardware y los diagramas del cableado.

Las preguntas a considerar incluyen:

45

Page 46: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

¿Quién es responsable de la administración o coordinación del plan? ¿Es el administrador /coordinador del plan responsable de mantener el plan actualizado? ¿Hay un equipo de implementación de la recuperación de desastre (i.e., los primeros

miembros de equipo de respuesta que reaccionarán a la emergencia con pasos de acción inmediata)?

¿Dónde se almacena el plan de recuperación de desastre? ¿Qué sistemas críticos están cubiertos por el plan? ¿Qué equipo no está cubierto por el plan? ¿Por qué no? ¿El plan opera bajo algún supuesto? ¿Cuáles son? ¿Identifica el plan los puntos de encuentro del comité de administración de desastres o del

equipo de administración de emergencias para que se reúnan y decidan si se debe activar el plan de continuidad del negocio?

¿Son los procedimientos documentados adecuados para una recuperación exitosa? ¿Considera el plan diferentes grados de desastres? ¿Se consideran en el plan los respaldos para las telecomunicaciones? (Incluyendo los

respaldos de líneas para comunicación de voz y de datos) ¿Dónde está el sitio de la facilidad de respaldo? ¿Considera el plan la reubicación a una nueva instalación de procesamiento de información

en el caso de que no se pueda restaurar el centro original? ¿Incluye el plan procedimientos para cruzar los datos de archivos principales, los datos

automatizados del sistema de administración de cintas, etc., con los archivos recogidos previos al desastre?

¿Considera el plan la carga de datos procesados manualmente en un sistema automatizado? ¿Son los procedimientos formales que especifican los procedimientos y responsabilidades de

respaldo? ¿Qué entrenamiento se ha dado al personal para usar equipos y procedimientos establecidos

de respaldo? ¿Están documentados los procedimientos de restauración? ¿Se requieren respaldos regulares y sistemáticos de archivos de aplicaciones y datos

sensitivos y/o críticos? ¿Quién determina los métodos y la frecuencia de almacenamiento o respaldo de los datos de

información crítica? ¿Qué tipo de medios se están usando para la toma de las copias de respaldo? ¿Se usa un sitio de almacenamiento alterno para mantener respaldos de la información

crítica que se requiere para procesar operaciones, tanto en el sitio como fuera de él? ¿Se asignó prioridad a las necesidades de los usuarios de modo que el hardware pueda ser

redistribuido cuando los equipos se han retirado del sitio para su reparación? ¿Existe documentación adecuada para realizar una recuperación en caso de desastre o de

pérdida de datos? ¿Hay un cronograma para las pruebas y el entrenamiento sobre el plan?

46

Page 47: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

3.2. Evaluación de Resultados de Pruebas Anteriores

El coordinador del plan de continuidad del negocio debe mantener documentación histórica de los resultados de las pruebas anteriores. Estos resultados deben ser revisados y el Auditor de SI debe determinar que se hayan incorporado al plan las acciones que requieran ser corregidas. También, el Auditor de SI debe evaluar las pruebas anteriores para verificar si contemplan todos los detalles y si son precisas para alcanzar sus objetivos. Se deben revisar los resultados de las pruebas para determinar si se alcanzaron los resultados apropiados y para determinar las tendencias de problemas y las resoluciones apropiadas de los problemas.

3.3. Evaluar el Sitio de Almacenamiento Alterno

El sitio de almacenamiento alterno debe ser evaluado para asegurar la presencia, sincronización y vigencia de los medios y de la documentación críticos. Esto incluye archivos de datos, software de aplicación, documentación de las aplicaciones, software del sistema, documentación del sistema, documentación de operaciones, suministros necesarios, formularios especiales y una copia del plan de continuidad del negocio. Para verificar las condiciones que se mencionan aquí, el Auditor de SI debe realizar una revisión detallada del inventario. La revisión incluye comprobar si los nombres de los archivos, los números de serie de los volúmenes, los períodos contables y las ubicaciones de identificación de respaldos (bin) de las cintas son los correctos. El Auditor de SI debe también revisar la documentación y compararla con la documentación de producción para verificar si está actualizada así como también evaluar la disponibilidad de la instalación y asegurar .

3.4. Entrevistar al Personal Clave

El Auditor de SI debe entrevistar al personal clave requerido para una recuperación exitosa de las operaciones del negocio. Todo el personal clave debe tener un entendimiento de las responsabilidades que se Ies ha asignado, así como también documentación detallada y actualizada que describa sus tareas.

3.5. Evaluar la Seguridad del Sitio Alterno

La seguridad del sitio alterno debe ser evaluada para asegurar que tenga los controles de acceso físico y ambiental apropiados, Estos controles incluyen la capacidad de limitar el acceso sólo a los usuarios autorizados a ingresar al sitio, pisos falsos, controles de humedad, controles de temperatura, circuitos especializados, suministro ininterrumpido de energía, dispositivos de detección de agua, detectores de humo y un sistema apropiado de extinción de incendios. El Auditor de Sí debe examinar el equipo para verificar si tiene actualizadas las tarjetas de inspección y de calibración

47

Page 48: Continuidad de Negocio

Auditoria de Sistemas Informáticos Ing. De Sistemas

3.6. Revisar el Contrato de Procesamiento Alternativo

El Auditor de SI debe obtener una copia del contrato con el proveedor del sitio de procesamiento alterno.

Se deben verificar las referencias del proveedor para asegurar que es confiable. Se debe revisar el contrato contra los lineamientos siguientes:

Asegurar que el contrato esté redactado con claridad y sea comprensible Reexaminar y confirmar los acuerdos de la organización con las reglas que se apliquen a ios

sitios compartidos con otros suscriptores. Asegurar que la cobertura del seguro se ajuste a los costos del desastre y cubra la totalidad

(o la mayor parte) de los mismos. Asegurarse que se puedan realizar pruebas en el Hot site a intervalos regulares. Revisar y evaluar los requerimientos de comunicación para el sitio de respaldo, Asegurarse de que el documento de depósito en garantía (en fideicomiso) establecido para el

código de fuente sea revisado por un abogado que se especialice en tales contratos. Determinar la tolerancia del recurso de limitación en el caso de la violación de un contrato.

3.7. Revisar la Cobertura de Seguros

Es esencial que la cobertura del seguro refleje el costo real de recuperación. Tomando en consideración la prima de seguro (costo), se debe verificar que la cobertura de los daños de los medios, la interrupción del negocio, el reemplazo de equipo y el procesamiento de la continuidad del negocio sean adecuados.

48