un — Planificación de Capacidad: Arte & Ciencia

un

invitado

1 / ?

volver a las lecciones

Lo que el Libro de Allspaw Resuelve

La Disciplina de No Quedarse Sin Capacidad

John Allspaw escribió 'The Art of Capacity Planning' (O'Reilly, 2008; segunda edición 2017) después de ejecutar operaciones en Flickr durante años de crecimiento explosivo. Su tesis: la planificación de capacidad no es un ejercicio de hoja de cálculo único. Es una disciplina continua que combina medición, pronóstico & criterio de ingeniería. Omita cualquiera de esos tres & su servicio se queda sin capacidad en producción o quema dinero en hardware que está inactivo.

La planificación de capacidad se sitúa entre dos modos de fallo:

- Subprovisión: los servicios se ejecutan calientes, la latencia se dispara, las tasas de error suben, los clientes se van. La forma más rápida de perder usuarios en una fase de crecimiento.

- Sobreprovisión: el hardware se ejecuta al 10% de utilización, las finanzas preguntan por qué el presupuesto sigue creciendo sin que los ingresos sigan el ritmo. La forma más rápida de perder recursos en una revisión presupuestaria.

El arte radica en encontrar el corredor entre esos dos acantilados & permanecer dentro de él mientras la carga de trabajo cambia.

Tres preguntas centrales impulsan cada ejercicio de capacidad:

- ¿Qué tenemos? Capacidad actual en unidades concretas: solicitudes por segundo, consultas por segundo, gigabytes de almacenamiento, conexiones simultáneas.

- ¿Qué necesitamos? Demanda pronosticada en una fecha futura con límites de incertidumbre explícitos.

- ¿Cuándo debemos actuar? Tiempo de entrega para adquisición, provisión o escalado. La nube lo reduce a minutos; en local puede ser meses.

Corredor de planificación de capacidad: bajo, óptimo, alto

Por qué No Puede Ser una Hoja de Cálculo

Una empresa de comercio electrónico planifica la capacidad una vez al año, en noviembre, extrapolando linealmente el tráfico de los 12 meses anteriores. Se ejecutan en servidores dedicados con un tiempo de entrega de adquisición de 6 semanas. Su tráfico muestra una fuerte estacionalidad semanal (pico de fin de semana 3x), fuerte estacionalidad anual (Black Friday 5x) & ha crecido un 40% año tras año durante tres años.

Lista al menos tres modos de fallo específicos que este enfoque de proyección lineal una vez al año probablemente producirá. Para cada fallo, nombra la parte específica de la realidad de la empresa que la hoja de cálculo ignora & propone una cadencia de medición o planificación más frecuente que lo aborda.

Carga de Trabajo versus Utilización

Dos Números Diferentes, Ambos Requeridos

La planificación de capacidad falla cuando los equipos miden solo una de las dos dimensiones esenciales.

Carga de trabajo: la demanda en el sistema desde afuera. Solicitudes por segundo, transacciones por minuto, megabytes por segundo, usuarios simultáneos. La carga de trabajo describe lo que el mundo te está pidiendo.

Utilización: qué tan lleno se ejecuta el sistema mientras sirve esa demanda. Porcentaje de CPU, memoria usada, profundidad de cola, ancho de banda de red, IOPS de disco. La utilización describe cómo se siente el sistema bajo esa demanda.

La carga de trabajo solo te dice qué está llegando pero no si puedes servirlo. La utilización solo te dice qué tan lleno estás pero no qué esperar mañana. Necesitas ambos, trazados lado a lado, para tomar decisiones de capacidad.

Proporción de capacidad = carga de trabajo / utilización. Si sirves 1,000 solicitudes por segundo al 50% de CPU, tu proporción de capacidad es 2,000 RPS por 100% de CPU por servidor. Este factor de conversión te permite traducir la carga de trabajo pronosticada en un número de servidor requerido.

Allspaw enfatiza medir a la granularidad correcta. Una muestra por minuto oculta picos de 30 segundos. Una muestra por hora lo oculta todo. El trabajo real de capacidad necesita resolución submúltiplo de minutos para eventos de pico & resolución de minuto para tendencias. Cualquier cosa más gruesa produce confianza falsa peligrosa.

Carga de trabajo + utilización trazadas juntas a lo largo del tiempo

Qué Instrumentar

Tu equipo está lanzando instrumentación de capacidad en un lanzamiento de producto nuevo (un servicio de transcodificación de video). Puedes elegir hasta 8 métricas para rastrear a resolución submúltiplo de minutos. El servicio ingiere cargas de video, las cola, transcodifica a múltiples formatos & escribe salidas al almacenamiento de objetos.

Elige exactamente 8 métricas. Para cada una, etiqueta si captura carga de trabajo o utilización & justifica por qué cada métrica se merece la inclusión versus una métrica que dejaste fuera. Identifica una métrica que, si solo tuvieras una, sería la más predictiva del agotamiento de capacidad.

Tendencia, Estacionalidad, Incertidumbre

Tres Capas de Cada Pronóstico

Allspaw & el libro SRE de Google están de acuerdo en la estructura de un pronóstico útil: tendencia, estacionalidad & límites de incertidumbre. Omita cualquiera & el pronóstico se vuelve engañoso.

Tendencia: la pendiente de la demanda durante meses o años. A menudo modelada con regresión lineal para ventanas cortas, exponencial o piecewise-lineal para crecimiento compuesto. La línea de tendencia responde 'adónde se dirige la demanda en general?'

Estacionalidad: los patrones cíclicos en múltiples escalas de tiempo. Diaria (pico de tráfico por la tarde), semanal (picos de fin de semana), anual (Black Friday, temporada fiscal, año escolar). La estacionalidad multiplicativa se escala con la tendencia; la estacionalidad aditiva suma un desplazamiento constante.

Límites de incertidumbre: el cono de pronóstico. Un pronóstico sin límites es una adivinanza. Los pronósticos reales publican una estimación central con límites superiores e inferiores explícitos, típicamente al 90% o 95% de confianza. El cono se amplía a medida que proyectas más lejos en el futuro. Un pronóstico de 4 semanas podría tener límites de ±10%; un pronóstico de 12 meses a menudo tiene ±50%.

Desacoplamiento del crecimiento empresarial de la demanda técnica: los pronósticos de planificación de capacidad pronostican la carga técnica de trabajo, pero los equipos empresariales pronostican ingresos, registros o campañas. El trabajo del planificador de capacidad es traducir pronósticos empresariales en demanda técnica: un crecimiento de suscripciones del 30% podría significar un 30% más de llamadas API, pero podría significar un 80% más si los usuarios nuevos usan el sistema más intensamente, u solo un 15% si convierten a tasas más bajas. La proporción de conversión importa tanto como el pronóstico empresarial subyacente.

Pronóstico: línea de tendencia, ondas estacionales, cono ampliándose

Pronóstico de Tráfico de Vacaciones

Tu servicio sirve un sitio de comercio electrónico. El tráfico de Black Friday el año pasado fue 5x el promedio de noviembre, sostenido durante 12 horas. La empresa ha crecido un 40% año tras año. El marketing está lanzando una promoción pagada que se espera agregue un 20% adicional al tráfico de Black Friday este año.

Estima el pico de Black Friday de este año como múltiplo del promedio mensual actual. Muestra tu trabajo. Luego propón límites superiores e inferiores específicos para el pronóstico & explica qué eventos del mundo real podrían empujar la demanda real fuera de esos límites.

Conocer Tu Límite

Encuentra el Límite Antes de que la Producción Lo Haga

El pronóstico te dice qué está llegando. Las pruebas de límite te dicen si el sistema puede servirlo. Allspaw trata las pruebas de límite como una entrada no negociable para la planificación de capacidad: no sabes tu capacidad real hasta que la has probado bajo carga controlada.

Tres tipos de pruebas de límite:

- Prueba de carga sintética: un generador de carga (k6, Locust, JMeter, vegeta) impulsa tráfico a un servicio destino en staging. Aumenta la carga hasta que algo se rompa. El punto de ruptura es el límite. Lo mejor para pruebas de servicio aisladas.

- Simulacro de producción: reduce deliberadamente la capacidad en producción (drena un porcentaje de servidores, mata una región) y observa cómo la capacidad restante maneja el tráfico real. Prueba el comportamiento real de producción incluyendo interacciones inesperadas. Confianza más alta pero riesgo más alto.

- Carga de sombra: reprodice el tráfico de producción real en un servicio destino corriendo en paralelo a la producción. Captura patrones reales de carga de trabajo (mezcla de consulta rara, agentes de usuario raros) sin afectar a los usuarios. Punto medio fuerte.

Margen de seguridad es el búfer entre la carga actual & el límite. Reglas de oro de SRE:

- 50% margen de seguridad en estado estable para un servicio de una sola región (para que una falla de región no agote la región superviviente)

- 30% margen de seguridad para un servicio de múltiples regiones con redundancia N+2

- 100%+ margen de seguridad acercándose a eventos de pico conocidos (Black Friday, finales de deportes)

El margen de seguridad no es desperdicio. Es el costo de no alertar a los ingenieros a las 3 AM, no perder clientes durante un pico & no sufrir una falla en cascada cuando una región falla. Los equipos de finanzas a veces empujan para reducir el margen de seguridad; los ingenieros de capacidad deben articular el costo de ejecutar ajustado para hacer esa conversación factual en lugar de emocional.

Búfer de margen de seguridad: carga actual, límite & la brecha entre ellos

Diseñar una Prueba de Límite

Heredas un servicio sin un límite de capacidad documentado. La carga de producción actual es 800 solicitudes por segundo en 12 servidores, CPU promedio 35%. El marketing está anunciando una campaña en 6 semanas se espera que impulse el tráfico a 3,000 RPS en pico.

Diseña un programa de prueba de límite en las próximas 4 semanas. Especifica el/los tipo(s) de prueba, las métricas que definen 'roto', el objetivo de margen de seguridad que establecerías & la acción que tomas dependiendo de si la prueba de límite revela suficiente capacidad. Sé concreto sobre lo que haces si la prueba de límite muestra que los 12 servidores actuales no pueden manejar 3,000 RPS.

Arriba, Afuera o Diagonal

Cuándo Agregar Potencia, Agregar Cajas o Ambas

Tres estrategias de escalado básicas, cada una con perfiles de costo & confiabilidad distintos:

Escalado vertical (escalado arriba): máquinas más grandes. Reemplaza servidores de 8 núcleos con servidores de 32 núcleos. Camino más simple; funciona hasta que alcanzas los límites de máquina única. El punto único de fallo permanece. El costo crece no linealmente: una máquina de 32 núcleos a menudo cuesta más que 4x uno de 8 núcleos.

Escalado horizontal (escalado afuera): más máquinas. Agrega servidores detrás de un balanceador de carga. La capacidad se escala linealmente con el recuento de servidores. Los modos de fallo se desplazan: debes manejar la coordinación distribuida, pero una falla de servidor único ya no destruye el servicio. La complejidad operativa aumenta.

Escalado diagonal (término de Allspaw): escala arriba primero a un tamaño por servidor cómodo, luego escala afuera desde allí. Combina operaciones más simples de servidores grandes con la redundancia de múltiples servidores. La mayoría de servicios de producción vive en territorio de escalado diagonal.

Precios reservados versus bajo demanda: los proveedores en la nube recompensan la previsibilidad. La capacidad reservada es 30-60% más barata que bajo demanda pero requiere un compromiso de 1-3 años. Los planificadores de capacidad típicamente bloquean la demanda de estado estable con capacidad reservada & explotan en demanda para picos. Misjuzgar este división puede gastar dinero (sobre-reservado) o exponer presupuesto a sorpresa (bajo-reservado durante picos).

Instancias puntuales & cargas de trabajo preemibles: 60-90% más barato que bajo demanda pero puede ser reclamado con minutos de aviso. Adecuado para trabajos por lotes, análisis, cargas de trabajo de entrenamiento o cualquier servicio diseñado para interrupción elegante. El tráfico de producción de cara al usuario típicamente evita puntual.

Ruta de escalado diagonal: cajas pequeñas a medianas luego escalado horizontal

Elegir una Ruta de Escalado

Tu servicio de transcodificación de video se ejecuta en 8 instancias de nube de tamaño medio (8 núcleos cada una). Esperas crecimiento de 3x en los próximos 6 meses. La carga de trabajo es vinculada a CPU, paralelizable por video & cada transcodificación de video toma 90 segundos de extremo a extremo. Las instancias reservadas cuestan 50% de bajo demanda. Las instancias puntuales cuestan 30% de bajo demanda pero pueden terminarse con aviso de 2 minutos.

Recomienda una estrategia de escalado para los próximos 6 meses. Especifica qué tamaños de instancia eliges, la mezcla de reservado/bajo demanda/puntual & justifica cada pieza de la mezcla contra las características de la carga de trabajo. Identifica el riesgo más grande en tu plan & propone una mitigación.

Carreras en Planificación de Capacidad

Dónde las Habilidades de Planificación de Capacidad Pagan

La planificación de capacidad raramente es un título de trabajo por sí solo. Las habilidades aparecen bajo varios roles:

Ingeniero de Confiabilidad del Sitio: la planificación de capacidad es una responsabilidad central de SRE. La mayoría de equipos de SRE tienen uno o dos ingenieros que se especializan en capacidad, siendo dueños de los modelos de pronóstico, pruebas de límite & automatización de provisión.

Ingeniero de Costo en la Nube / FinOps: un rol más nuevo enfocado en la optimización del gasto en la nube. Combina planificación de capacidad con modelado financiero, negociación de contrato & gestión de cartera de instancias reservadas. Paga extremadamente bien en empresas nativas en la nube grandes porque las facturas en la nube a menudo son el segundo gasto más grande después de la nómina.

Ingeniero de Rendimiento: se enfoca en la eficiencia por nodo & pruebas de límite. El trabajo: extrae más capacidad del mismo hardware a través del perfilado, optimización & cambios arquitectónicos. Conocimiento pesado de sistemas & lenguaje de tiempo de ejecución.

Especialista en Planificación de Capacidad: en empresas muy grandes (Google, Meta, Amazon, Netflix), existen equipos dedicados de planificación de capacidad. Son dueños de modelos de pronóstico a través de toda la flota, negocian adquisición a escala & coordinan con finanzas en hoja de ruta de hardware de múltiples años.

Habilidades que componen: análisis de series de tiempo (R, Python statsmodels, Prophet), teoría de colas (M/M/1, M/M/c, Ley de Little), al menos una herramienta de gestión de configuración, al menos un panel de costos en la nube & la capacidad de escribir un informe de pronóstico que un CFO pueda entender & actuar. Las habilidades técnicas te consiguen la entrevista; las habilidades de comunicación te consiguen el presupuesto.

Carreras de capacidad: SRE, FinOps, Rendimiento, Especialista

Resumen

Lo Que Ahora Sabes

La planificación de capacidad es una disciplina continua, no un ejercicio anual. Has cubierto:

- El corredor entre subprovisión & sobreprovisión

- Carga de trabajo versus utilización como las dos dimensiones de medición

- Tendencia, estacionalidad & límites de incertidumbre como las tres capas de cada pronóstico

- Pruebas de límite (sintética, sombra, simulacro de fuego) como la única forma de conocer capacidad real

- Búferes de margen de seguridad & por qué no son desperdicio

- Escalado diagonal & la decisión de precios reservado/bajo demanda/puntual

- Caminos de carrera donde estas habilidades ganan autoridad presupuestaria

Dos ideas importan más. Pronóstica con límites, nunca con puntos únicos. & mide tu límite antes de que la producción lo haga. Lleva esos dos adelante & el resto sigue.

Lectura recomendada: 'The Art of Capacity Planning' de Allspaw (O'Reilly, segunda edición 2017), los capítulos relevantes en el Libro SRE de Google (gratis en sre.google/books/) & 'Systems Performance' de Brendan Gregg para el trabajo de sistemas subyacente. La lección complementaria de geometry-of va más profundo en la estructura visual: Ley de Little como área, curvas de colas, pendientes de tendencia & envolventes de margen de seguridad.