Servicio Avanzado de Comunicación de Incidencias SCI

 

    Inicio > Incidencias servicio > Avería en los sistemas de almacenamiento

 
 Crítica | CerrCerrada | No notificar

Avería en los sistemas de almacenamiento
Identif: 676
Centro: S.C.I. (Centros Teatinos)
Servicio: Todos los servicios Estado: Cerrada

Inicio: 22/09/11 04:20 Fin: 26/09/11 10:00 Resuelta en: 101 horas y 40 minutos.
Suspensión del servicio:
Se ha detectado que las controladoras de la SAN 6100 están rearrancando continuamente desde las 4:20 de hoy.

Al llegar nos hemos encontrado que una de ella estaba parada en estado "FAULT" y que varias máquinas se encuentran con sus discos en "READ-ONLY" y por tanto no funcionan correctamente y otras, sin embargo, pueden acceder a los discos a través del controlador activo Las que están en 'read-only' se rearrancan para que puedan seguir funcionando.

Se prueba a arrancar la controladora en fallo y se comprueba que, al arrancar, provoca el rearranque de la otra, y viceversa, rebotando ambas de forma alternativa. Se decide dejar apagado el controlador que falló y seguir trabajando con el otro.

Como resultado de esto, se vuelven a quedar las mismas máquinas con discos en read-only y se vuelven a rearrancar.

Paralelamante a esta actuación, se abre una avería en HP y se le envía la información que solicitan para diagnosticar el problema (los logs relacionados con la controladora).

En un momento de la mañana en que se están ejecutando unas operaciones que modifican los metadatos de la EVA (relacionado con el entorno de backup que, a raíz del problema, no había quedado bien) vuelve a producirse el problema. Se le comenta a HP y nos dice que, de momento, no ejecutemos ningún comando que pueda afectar a los metadatos de la EVA.

HP nos informa que la llamada ha pasado a segundo nivel. Al mismo tiempo nos dice que han detectado, en los logs enviados, que la semana anterior habíamos incluido nuevos discos en la EVA. Nos preguntan si son realmente discos nuevos o con datos preexistentes. Les comunicamos que eran nuevos. También nos dicen que han detectado una configuración hardware que no es correcta, concretamente, nos dicen que en la enclosure 7 no puede haber discos porque está destinada a las controladoras y, además, que la versión de algunos discos es obsoleta. Les comentamos que la instalación hardware la ha realizado HP.

En el análisis de la situación, se llega a la conclusión de que las máquinas afectadas por el problema, y que dejan los discos en read-only, no están actualizadas, por lo que se decide programar una actualización de ellas.

Al final de la mañana HP nos solicita acceso remoto a la EVA afectada.

Anotaciones:

Sobre las 16 horas nos ponemos en contacto con HP para comentarles que ya hemos habilitado el acceso remoto a la EVA afectada. El técnico rechaza esa posibilidad porque dice que no van a seguir mirando nada porque tenemos una configuración no soportada y algunos elementos no actualizados, y que hay que resolver eso antes de seguir.
Curiosamente su propios protocolos dicen que no se puede actualizar nada en un equipo de este tipo si la EVA no lleva un minimo de 48 horas estable.

No estando de acuerdo en cómo está gestionando la incidencia el técnico que nos está atendiendo, decidimos contactar por otras vías con HP para intentar resolver el problema.
Escrito por JM.Ramos el día 22/09/11 a las 17:00
Verificamos que las replicas que se están realizando sobre la eva 4400 no van correctamente, pasando alguna al estado failed. Realizamos distintas pruebas, como interrumpir la comunicación entre san, pruebas de arranque de las controladoras, reproduciendo el problema de rearranques alternativos de las controladoras.

Se vuelve a rearrancar las máquinas afectadas y se deja interrumpida la comunicación entre ambas EVAs para intentar que paren las replicas ya que no deja hacerlo desde el gestor por no estar operativas las dos controladoras.

Volvemos a contactar con HP insistiendo en la necesidad de cambiar la controladora.
Escrito por JM.Ramos el día 23/09/11 a las 00:00
Al llegar nos encontramos que una serie de máquinas dicen que le han desaparecido los discos que le ofertaba la SAN y por tanto no están operativas, no puediéndose ofertar entre otros los servicios de web, correo, etc. Dada las circunstancias y para evitar males mayores dada la inestabilidad de la SAN, se decide parar las máquinas, dejando sólo un mínimo servicio de DNS, ldap y radius para que puedan funcionar otros servicios no afectados.

Se vuelve a contactar con HP. Se consigue que nos envíen la controladora nueva, previa comprobación de que los nuevos discos instalados no son de recompra, que es a lo que parece que soporte de HP quiere ahora achacar el problema.
Escrito por JM.Ramos el día 23/09/11 a las 09:00
El técnico que viene a instalar la controladora nos comenta que la especificación hardware relativa a la enclosure no es aplicable en nuestro caso porque no se trata de una extensión de cabina, que es el caso para el que parece procede esa exigencia.

Se instala la nueva controladora y persiste el problema. Dado que en las pruebas realizadas previamente no fue posible apagar de forma ordenada ninguna de las dos controladoras antiguas, el técnico de HP toma la decisión de pedir una segunda controladora nueva. Afortunadamente, después de rearrancar completamente las SAN con una sola controladora es posible gestionarla de nuevo pero no es posible desactivar las réplicas.
Escrito por JM.Ramos el día 23/09/11 a las 23:00
Dada la situación se establece un plan de emergencia para intentar llevarse los discos a las otras SAN. Como no funciona el mecanismo de réplicas es necesario hacerlos de forma artesanal lo que implica una mayor duración. Estamos a la espera de la llegada de la nueva controladora.
Escrito por JM.Ramos el día 24/09/11 a las 09:00
Se instala la nueva controladora y, en principio, sigue persistiendo el problema de los rearranques. Sin embargo, después de un rearranque total de la SAN (y simultáneo de las dos controladoras) la situación parece estabilizarse. Aprovechamos para borrar las réplicas, y una vez desaparecidas éstas el problema del rearranque desaparece. Se deja las SAN en observación durante un par de horas antes de hacer nada.
Escrito por JM.Ramos el día 24/09/11 a las 15:00
Dado que no se produce ningún problema durante el tiempo de observación se decide arrancar de nuevo los servicios. Sobre las 0 horas del 25 están de nuevo operativos todos.
Escrito por JM.Ramos el día 25/09/11 a las 00:15
Pasadas más de 24 horas sin problemas, consideramos que la situación se ha normalizado y cerramos la incidencia.
Escrito por JM.Ramos el día 26/09/11 a las 10:00

 
Servicio Central de Informática de la Universidad de Málaga
Boulevard Louis Pasteur, 33
Campus de Teatinos - Málaga 29071
Valid XHTML 1.0 Transitional Nivel 1 accesibilidad