Disponibilidad eléctrica en centros de datos
Leyendo sobre los últimos problemas de servicio sufridos por Amazon en Dublín, sorprende ver que la gran mayoría de pérdidas de servicio en centros de datos tienen sus orígenes en la falta de suministro eléctrico. Si repasamos las grandes caídas de servicio de los años 2009 y 2010 casi el 50% tienen relación directa con este problema.
La redundancia de fuentes de alimentación y la capacidad de producir su propia energía son características comunes en los centros de datos certificados, ofreciendo por ello unos estándares de calidad y control regulados. A pesar de ello, y basándome en mi propia experiencia y en la realidad actual que reflejan los canales especializados en sus artículos, se demuestra claramente que la “disponibilidad eléctrica del 100%” es, a día de hoy, todavía una tarea pendiente.
Centrándonos en detalle en la disponibilidad eléctrica de los racks; un proyecto reciente nos ha demostrado que también en este ámbito queda mucho por hacer.
No hace mucho aceptamos la responsabilidad de administración de sistemas de una empresa con varios sistemas en colocation distribuidos en 2 racks en un centro de datos (DC) de Barcelona. Durante la primera visita al DC nos quedamos tristemente sorprendidos al ver su estado: un entramado de cables de red y fibra, de fuentes de alimentación y cables eléctricos. En medio de todo eso: regletas de enchufe (de las de un “todo a 100” hablando en plata) sostenidas sobre los cables, colgando en el espacio que dejaban los demás elementos, con su interruptor de corte de corriente entre los cables, como se puede ver en las fotografías.
Durante la visita, el técnico del anterior MSP (Managed Services Provider o Proveedor de Servicios Gestionados) movió un poco los cables, supongo que para hacerlo un poco más presentable en aquél momento. Ese movimiento causó el apagón repentino de medio rack (al presionarse el interruptor de una regleta) y la consiguiente pérdida de servicio para el cliente final.
En la auditoría que realizamos a posteriori con el objetivo de normalizar el estado de los racks para organizarlos correctamente, se diagnosticaron múltiples problemas y deficiencias adicionales: superación con creces del umbral máximo de potencia en las líneas eléctricas que llegan a los racks, sistemas con fuentes supuestamente redundantes enchufados a la misma línea, servidores montados del revés (frontal hacia pasillo caliente), sistemas enchufados y arrancados (es decir consumiendo luz y recursos de refrigeración) que ya no se usaban desde hacía tiempo, trozos de bridas y cintas adhesivas perdidas en medio del entramado, hardware viejo abandonado entre los servidores, etc.
La lista completa es todavía más larga, sorprendente y triste.
Para el cliente, la mala praxis de su anterior proveedor, se ha traducido en un sobre-coste económico importante para la normalización y adecuación de dicha instalación y ha representado para sus clientes finales numerosas horas de downtime, es decir, sin disponer en absoluto del servicio contratado por culpa de los mantenimientos.
¿Qué conclusiones podríamos sacar?
En primer lugar que “las cosas deben hacerse bien en toda la cadena”.
Es decir, desde el proveedor de energía, el DC con sus servicios y técnicos de mantenimiento hasta la configuración y cableado de los equipos en los racks. Por mucha redundancia que haya en cada capa es fundamental seguir unas reglas estrictas para asegurar que dicha redundancia será efectiva en caso de problemas.
En segundo lugar, hay que considerar que es probable que un centro de datos sufra un apagón un día (uno cada dos años no parece exagerado) con lo cual cada cliente tiene que valorar bajo sus propios criterios el coste directo e indirecto que le puede representar en su negocio. Para la mayoría el riesgo será aceptable y para una minoría claramente no lo será. Para esta segunda categoría serán necesarias medidas adicionales de mantenimiento de los datos y/o servicios, y de mecanismos que garanticen la continuidad del negocio y una recuperación rápida ante desastres, de los que hablaremos en posteriores artículos.
¿Cómo se consigue la tranquilidad?
En CAPSiDE entendemos que a día de hoy es vital, para cualquier negocio que dependa de tecnologías de IT, disponer de un consultor de servicios independiente de cualquier marca o centro de datos, que coordine al resto de proveedores, supervise y controle los servicios, y trabaje permanentemente para la mejora continua del servicio.
Defendemos el modelo que aporta la versatilidad necesaria para moverse en un mercado creciente como el de proveedores de sistemas IT, ya que el punto de vista de una consultoría independiente aporta una visión real, profesional y no condicionada hacia ninguna de las múltiples opciones de alojamiento.
Si un MSP ligado a un solo proveedor le recomienda situar todos sus sistemas, incluyendo sus servicios de disaster recovery, en distintos data center de una misma compañía, por motivos de partnership o propiedad… ¿no cree que sería una mejor solución poderlo distribuir en varias compañías/data centers para asegurar una alta disponibilidad real también de proveedores y de red?
Consultorías independientes como CAPSiDE pueden actualizar, por todo lo anterior, su conocimiento del mercado de manera continua basado en el benchmarking regular de los proveedores, para sacar a posteriori las conclusiones y recomendaciones acorde con las necesidades reales del cliente.


