Llegamos a ustedes gracias a:



Reportajes y análisis

Espacio para crecer

Cómo planificar la capacidad del centro de datos

[03/02/2015] La planificación de las necesidades del centro de datos necesita dar respuesta a dos preguntas: ¿Qué va a tener que comprar el próximo año? Y ¿cuándo va a tener que comprarlo?

Para responder a estar preguntas, necesita conocer la siguiente información:

  • Utilización actual: ¿Qué componentes pueden influir en la capacidad del servicio? ¿Cuánto de cada uno utiliza usted en este momento?
  • El crecimiento normal: ¿Cuál es la tasa de crecimiento esperada del servicio, sin la influencia de eventos específicos de negocios o de marketing? A veces esto se llama crecimiento orgánico.
  • Crecimiento planificado: ¿Qué eventos de negocios o de marketing están planeados? ¿Cuándo van a ocurrir, y cuál es el crecimiento previsto debido a cada uno de estos eventos?
  • Espacio libre: ¿Qué tipo de uso de los picos a corto plazo hace su servicio? ¿Hay eventos particulares en el próximo año, como los Juegos Olímpicos o una elección, que espera que causen un pico de uso? ¿Qué capacidad de repuesta se necesita para manejar estos picos? El espacio libre por lo general se especifica como un porcentaje de la capacidad actual.
  • Horarios: Para cada componente, ¿Cuál es el tiempo de espera desde el pedido hasta la entrega, y desde la entrega hasta que esté en servicio? ¿Existen restricciones específicas para atraer nueva capacidad en el servicio, como el cambio de ventanas?

A partir de esa información, se puede calcular la cantidad de capacidad que necesitará para cada recurso al final del año siguiente con una fórmula sencilla:

Recursos Futuros = Uso actual x (1 + Crecimiento Normal + Planificación de Crecimiento) + Espacio Libre

A continuación, puede calcular la capacidad adicional que necesita comprar para cada recurso:

Recursos adicionales = recursos futuros y recursos actuales

Realice este cálculo para cada recurso, independientemente de si cree que necesitará más capacidad. Está bien llegar a la conclusión de que no necesitará más ancho de banda en el próximo año. No está bien ser tomado por sorpresa y quedarse sin ancho de banda de la red debido a que no cuenta con una planificación de la capacidad. Para los recursos compartidos, deberán combinarse los datos de muchos equipos para determinar si se necesita más capacidad.

Uso actual

Antes de poder considerar la compra de equipo adicional, es necesario comprender lo que tiene disponible actualmente y cuánto de él está utilizando. Antes de que pueda evaluar lo que tiene, necesita una lista completa de todas las cosas que se requieren para prestar el servicio. Si se le olvida algo, no será incluido en su planificación de la capacidad, y puede quedarse sin esa cosa después, y como resultado ser incapaz de hacer crecer el servicio tan pronto como sea necesario.

Qué rastrear

Si está proporcionando servicios basados en Internet, las dos cosas más necesarias son algunas máquinas para prestar el servicio y una conexión a Internet. Algunas máquinas pueden ser máquinas genéricas que pueden personalizarse más adelante para realizar tareas determinadas, mientras que otras pueden ser aparatos especializados.

Planificación datacenter

Profundizando en esto, las máquinas tienen CPU, cachés, RAM, almacenamiento y red. Conectarse a Internet requiere una red local, routers, switches y una conexión con al menos un ISP. Yendo aún más profundo, las tarjetas de red, routers, switches, cables y dispositivos de almacenamiento tienen limitaciones de ancho de banda. Algunos aparatos pueden tener tarjetas de red de gama alta que necesitan cableado especial y las interfaces en el engranaje de la red. Todos los dispositivos de red necesitan direcciones IP. Estos son todos los recursos que deben ser rastreados.

Dando un paso atrás, todos los dispositivos ejecutan algún tipo de sistema operativo, y algunos corren software adicional. Los sistemas operativos y software pueden requerir licencias y contratos de mantenimiento. Los datos y la información de configuración de los dispositivos pueden necesitar copias de seguridad en aún más sistemas. Yendo más atrás, las máquinas deben instalarse en un centro de datos que se ajuste a sus necesidades de energía y medio ambiente. El número y tipo de bastidores en el centro de datos, el poder y la capacidad de enfriamiento y el espacio disponible necesario para realizar un seguimiento. Los centros de datos pueden proporcionar servicios adicionales por equipo, como el servicio de consola. Para las empresas que tienen varios centros de datos y puntos de presencia, puede haber vínculos entre esos sitios que también tienen límites de capacidad. Estos son todos los recursos adicionales para realizar un seguimiento.

Los proveedores externos pueden proporcionar algunos servicios. Los contratos que cubren estos servicios especifican los límites de costo o de capacidad. Para asegurarse de que se han cubierto todos los aspectos posibles, hable con la gente de todos los departamentos, y averigüe lo que hacen y cómo se relaciona con el servicio. Por todo lo que se refiere a los servicios, es necesario entender cuáles son los límites, cómo se puede realizar un seguimiento de ellos, y cómo se puede medir la cantidad de la capacidad disponible que utiliza.

¿Cuánto tiene?

No hay sustituto para una buena base de datos de inventario actualizada para hacer el seguimiento de sus activos. La base de datos de inventario debe mantenerse al día por lo que es un componente esencial en los procesos de pedidos, aprovisionamiento y de desmantelamiento. Un sistema de inventario actualizado le da los datos que necesita para saber qué cantidad tiene de cada recurso. También se debe utilizar para rastrear el inventario de licencias de software y contrato de mantenimiento, y la cantidad contratada de los recursos que están disponibles por parte de terceros.

El uso de un número limitado de configuraciones de la máquina estándar -y tener un conjunto de aparatos estándar, sistemas de almacenamiento, enrutadores y conmutadores- hace que sea más fácil mapear el número de dispositivos para los recursos de nivel inferior, tales como la CPU y la RAM.

¿Cuánto está utilizando ahora?

Identifique los recursos limitantes para cada servicio. Su sistema de monitoreo probablemente ya está recopilando datos sobre el uso de recursos de la CPU, RAM, almacenamiento y ancho de banda. Normalmente recoge estos datos a una frecuencia mayor que la requerida para la planificación de la capacidad. Un resumen o muestra estadística pueden ser suficiente para fines de planificación y generalmente simplificar los cálculos. Combinando estos datos con los datos del sistema de inventario mostrará la cantidad de capacidad de reserva que tiene actualmente.

El seguimiento de todo en la base de datos de inventario y el uso de un conjunto limitado de configuraciones de hardware estándar también hace que sea fácil especificar la cantidad de espacio, energía, refrigeración y otros recursos del centro de datos que se utilizan por dispositivo. Con todos los datos introducidos en el sistema de inventario, puede generar automáticamente la tasa de utilización del centro de datos.

Planificación datacenter
Crecimiento normal

El sistema de monitoreo proporciona los datos sobre el uso actual y la capacidad actual de forma directa. También puede suministrar el ritmo normal de crecimiento de los años anteriores. Busque cualquier cambio notable en el uso, y vea si corresponde a un evento en particular, como la puesta en marcha de un nuevo producto o una unidad especial de marketing. Si el desplazamiento debido a ese evento persiste durante el resto del año, calcule el cambio y descuéntelo de los datos posteriores para evitar incluirlo en los eventos al hacer el cálculo del crecimiento normal. Incluya los datos de tantos años como sea posible en un gráfico, para determinar si la tasa de crecimiento normal es lineal o sigue alguna otra tendencia.

Crecimiento planificado

El segundo paso es la estimación de crecimiento adicional debido a los eventos de marketing y de negocios, como lanzamientos de nuevos productos o nuevas características. Por ejemplo, el departamento de marketing podría estar planeando una gran campaña en mayo que asegura aumentará la base de clientes en un 20% a 25%. O tal vez un nuevo producto está previsto a lanzarse en agosto, el cual se basa en tres servicios existentes y se espera que la carga de cada uno de los que tuvieron 10% en el lanzamiento, aumente en 30% para finales de año. Utilice los datos de los cambios detectados en el primer paso para validar los supuestos sobre el crecimiento esperado.

Espacio libre

El espacio libre es la cantidad de exceso de capacidad que se considera de rutina. Cualquier servicio tendrá picos de uso o condiciones de borde que requieren extender el uso de recursos de vez en cuando. Para evitar que estas condiciones desencadenen apagones, las piezas de los recursos deben estar disponibles de forma rutinaria. Cuánto espacio libre se necesita para cualquier servicio determinado es una decisión del negocio. Dado que el exceso de capacidad es la capacidad no utilizada en gran parte, por su propia naturaleza representa un potencial desperdicio de la inversión. Por tanto, una empresa financieramente responsable querrá equilibrar el potencial para la interrupción del servicio con el deseo de conservar los recursos financieros.

Sus datos de monitoreo deben recoger estos picos de recursos y proporcionar datos estadísticos sobre cuándo, dónde y con qué frecuencia ocurren. Los datos sobre las interrupciones y los informes post mortem también son clave para determinar el espacio libre razonable.

Otro de los componentes en la determinación de la cantidad de espacio libre que se necesita es la cantidad de tiempo que se necesita para tener recursos adicionales desplegados en producción desde el momento en que alguien se da cuenta que se requieren recursos adicionales. Si se necesitan tres meses para hacer nuevos recursos disponibles, entonces necesita tener más espacio libre disponible que si se toma dos semanas o un mes. Como mínimo, necesita suficiente espacio libre para permitir el crecimiento esperado durante ese período de tiempo.

Resistencia

Los servicios fiables también necesitan capacidad adicional para satisfacer sus SLA. La capacidad adicional permite que algunos componentes fallen, sin que los usuarios finales experimenten una interrupción o degradación en el servicio. La capacidad adicional tiene que estar en un dominio de error diferente; de lo contrario, una sola interrupción podría acabar tanto con las máquinas principales como con la capacidad de reserva que debe estar disponible para asumir el control de la carga.

Los fallos de dominio también se deben considerar a gran escala, por lo general a nivel del centro de datos. Por ejemplo, los trabajos de mantenimiento en toda la instalación de los sistemas de energía requieren que se cierre todo el edificio. Si todo un centro de datos está fuera de línea, el servicio debe ser capaz de funcionar sin problemas en los otros centros de datos que no tienen problemas de capacidad. Dar a conocer la capacidad de servicio a través de muchos dominios de falla, reduce la capacidad adicional requerida para el manejo de los requisitos de resistencia, que es la manera más costo-efectiva para proporcionar esta capacidad adicional. Por ejemplo, si un servicio se ejecuta en un centro de datos, se requiere un segundo centro de datos para proporcionar la capacidad adicional, aproximadamente el 50%. Si un servicio se ejecuta en nueve centros de datos, se requiere de una décima parte para proporcionar la capacidad adicional; esta configuración requiere solo el 10% de la capacidad adicional.

El estándar de oro es proporcionar suficiente capacidad para que dos centros de datos estén de baja al mismo tiempo. Esto permite que uno quede fuera de servicio por un mantenimiento planificado, mientras que la organización está preparada para que otro centro de datos esté de baja de forma inesperada.

Calendario

La mayoría de las empresas planifica sus presupuestos anuales, con los gastos divididos en cuartos. Basado en su crecimiento normal planificado, se puede trazar cuándo necesita que estén disponibles los recursos. Yendo hacia atrás desde esa fecha, es necesario averiguar cuánto tiempo se tarda desde el "inicio" hasta que los recursos están disponibles.

¿Cuánto tiempo se necesita para que las órdenes de compra sean aprobadas y enviadas al vendedor? ¿Cuánto tiempo pasa desde la recepción de una orden de compra hasta que el vendedor haya entregado las mercancías? ¿Cuánto tiempo pasa desde la entrega hasta que los recursos están disponibles? ¿Hay pruebas específicas que deben llevarse a cabo antes de que el equipo sea instalado? ¿Hay ventanas específicas de cambio que quiera convertir en capacidad extra? Una vez que la capacidad adicional se enciende, ¿cuánto tiempo se tarda en volver a configurar los servicios para hacer uso de ellos? Con esta información, puede proporcionar un calendario de gastos.

Los servicios físicos generalmente tienen un plazo de ejecución más largo que los servicios virtuales. Parte de la popularidad de las ofertas de IaaS y PaaS, como Amazonis EC2 y Elastic Storage, es que los nuevos recursos recién solicitados tienen tiempo de entrega prácticamente instantáneo.

Siempre es costo-efectivo reducir el tiempo de entrega de recursos, porque significa que estamos pagando por menos exceso de capacidad para cubrir el tiempo de entrega de recursos. Este es un lugar donde la automatización que preparan los recursos recién adquiridos para su uso tiene un valor inmediato.

Planificación de capacidad avanzada

Los ambientes grandes, de alto crecimiento como los servicios populares de Internet requieren un enfoque diferente para la planificación de capacidad. Las técnicas de planificación de la capacidad de estilo empresarial estándar son a menudo insuficientes. La base de clientes puede cambiar rápidamente en formas que son difíciles de predecir, lo cual requiere un análisis estadístico más profundo y más frecuente de los datos de seguimiento del servicio para detectar con mayor rapidez cambios significativos en las tendencias de uso. Este tipo de planificación de la capacidad requiere conocimiento técnico profundo. Los planificadores de capacidad tendrán que estar familiarizados con conceptos como QPS, usuarios activos, compromiso, los recursos primarios, límite de capacidad y los conductores principales.

Este extracto es del libro: La práctica de la administración del sistema de nube: Diseño y operación de grandes sistemas distribuidos Vol. 2, por Thomas A. Limoncelli, Strata R. Chalup y Christina J. Hogan, publicado por Pearson / Addison-Wesley Professional. Reproducido con permiso de los autores y el editor.