Un caso práctico de virtualización de un entorno real de producción

A raíz de un post anterior en este blog, el amigo J.L. Medina nos ha invitado a visitar un excelente artículo que ha publicado en su blog dedicado a la virtualización, al que la llamado Be Virtual, My Firend.

En este blog, J.L. habla de infraestructuras virtualizadas, principalmente con VMware, lo cual no me extraña, pero sin excluir otros posibles productos, que haberlos los hay, y muy buenos además.

En el artículo Caso Práctico: Virtualización de entorno de Producción – Infraestructura Virtual, podemos encontrar un extenso desarrollo sobre los principios para virtualizar un entorno de producción. Es un caso real, donde se ha virtualizado un total de 31 servidores. Servidores físicos, memoria, sus limitaciones, procesadores, conectividad de red, almacenamiento, backup y recuperación … un artículo completísimo y muy revelador que sin duda hará las delicias de los amigos de lo virtual :)

Después de leer este tipo de artículos, uno se sigue preguntando cómo es posible que la gente siga invirtiendo en hardware y rellenando armarios rack de un modo innecesario.

Excelente trabajo, J.L. Es uno de los mejores textos que he leído sobre virtualización.

Vodafone, servicios no disponibles y fallo de la continuidad

Buenas a todos,

Hoy os voy a contar un pequeño problema que estoy sufriendo con Vodafone. A buen seguro, dado que es un fallo que afecta a la totalidad del parque de clientes, más de uno de vosotros esté sufriendo los mismos problemas. Probablemente, algún otro blog o medio se ha hecho eco de este problema, con lo que lamento la reiteración.

Vodafone lleva desde ayer experimentando problemas con parte de sus servicios. Concretamente, hablo de algo tan básico como la posibilidad que los clientes tenemos de conocer el consumo acumulado desde la última factura. Aparentemente, el resto de los servicios funciona, pero tampoco os lo puedo asegurar, ya que no he verificado la disponibilidad de la totalidad de la cartera de servicios en línea.

Lo que sí he verificado es que en Vodafone hay un problema, y grave. Aplicar evolutivos o correctivos a los aplicativos es algo común, frecuente y necesario. Aplicar evolutivos o correctivos sin controlar la continuidad del negocio es un riesgo operacional que una empresa de la categoría de Vodafone no se puede permitir.

Cuando auditamos un área de Diseño y Desarrollo, si cogemos cualquier metodología, comprobaremos que para la totallidad del ciclo de vida de una aplicación hay controles. Hay controles para la definición de requisitos, para el análisis funcional, la construcción … cada parte tiene infinidad de puntos de control, y que en ciertas ocasiones pueden ser mareantes y excesivos.

Pero hay dos puntos de control que son cruciales y que no pueden resultarnos mareantes, ya que son dos puntos embudo donde podemos comprobar si todo lo que procede de la factoría de software es correcto o no. Hablamos de las pruebas previas a una subida a producción, y de la gestión de incidencias en producción.

El primer punto es obvio: si las pruebas de pase a producción son correctas y completas, teóricamente no debería pasar a producción nada defectuoso. Y si pasa algo inadvertido o incontrolado, que eventos de este tipo siempre hay, para eso está nuestro segundo punto: con una adecuada gestión de incidencias, cualquier problema severo debe ser atendido con prontitud y con el mínimo impacto en la continuidad.

¿Y por qué cuento todo esto? Sencillo. Vodafone lleva, según mis cálculos, más de 24 horas con la parte de sus sistemas que atiende peticiones de consumo inoperativa. La idea original, supongo, era suspender el servicio ayer domingo, minimizando el impacto, ya que la gente en domingo, teóricamente, usa menos los servicios. En principio, la página web anunciaba cambios y que la vuelta a la normalidad estaba prevista hoy lunes a las 8 de la mañana.

El problema es que son las 15,30 del día siguiente y el servicio sigue sin funcionar, lo que me hace pensar que:

* Existe un problema con algún evolutivo o correctivo
* El pase a producción no se ha controlado adecuadamente
* En caso de que el pase estuviera controlado, la gestión de incidencias no ha funcionado adecuadamente.
* Vodafone tiene controles de continuidad a todas luces insuficientes.

El problema puede resultar a priori de pequeña entidad. Yo sin embargo me planteo lo que puede suponer que la banca online de cualquier entidad no te permita conocer, por ejemplo, tu posición global durante más de 30 horas, y me tengo que llevar las manos a la cabeza: sería impensable. Idéntico planteamiento si lo que no podemos saber es el consumo acumulado en nuestra tarjeta de crédito, o el crédito remanente en una tarjeta regalo que hemos recibido.

Muchas veces las personas más pegadas al área técnica critican que la auditoría basada en controles, que es más procedimental, es burocracia que no sirve de gran cosa. A todos ellos les emplazo a llamar a Vodafone, donde con toda probabilidad, muchas cabezas están hechando mucho humo para arreglar algo que una buena gestión de controles podría haber mitigado.

Suerte al personal de Vodafone. Si alguien allí está leyendo ésto, recomendarles la modificación del mensaje sms de «servicio temporalmente indisponible» que se recibe al hacer la consulta puede ser interesante. Quizás un mensaje más cálido (tiren de CRM, pongan el nombre del cliente, por ejemplo) y una estimación del tiempo que queda de indisponibilidad harían que muchos clientes asumieran que estas cosas pasan, y que cuando pasan, los profesionales trabajan duro para solucionarlo. La consulta vía Web también es fría, y no proporciona información útil, como tampoco la proporcionan los operadores del servicio de atención.

Un saludo.