un — Geometría de la Planificación de Capacidad

un

invitado

1 / ?

volver a las lecciones

L = λ × W: Un Rectángulo

La Ley de Little: la Ecuación Más Útil en Planificación de Capacidad

John Little demostró en 1961 que para cualquier cola estable, independientemente de su estructura interna: L = λ × W, donde:

- L = número promedio de elementos en el sistema (cola + en servicio)

- λ (lambda) = tasa de llegada promedio de elementos por unidad de tiempo

- W = tiempo promedio que cada elemento pasa en el sistema

La lectura geométrica: grafica la tasa de llegada λ en un eje y el tiempo de residencia W en el otro. El producto L es el área del rectángulo que forman. La planificación de capacidad vive dentro de este rectángulo.

Por qué importa: dos de las tres cantidades determinan la tercera. Si mides rendimiento & latencia, conoces la ocupación. Si mides ocupación & rendimiento, conoces la latencia. La ley es robusta: se aplica a solicitudes web, mesas de restaurante, colas de supermercado & canales de CPU sin modificación.

Tres ejemplos concretos:

- Un servicio web maneja 200 solicitudes/segundo con latencia promedio de 50 ms (0,05 s). L = 200 × 0,05 = 10 solicitudes en vuelo en cualquier momento.

- Una cafetería sirve 60 clientes/hora con tiempo promedio de permanencia de 15 minutos (0,25 h). L = 60 × 0,25 = 15 clientes adentro en promedio.

- Una línea de producción fabrica 100 artículos/hora, & cada artículo toma 2 horas de principio a fin. L = 100 × 2 = 200 artículos en proceso.

Implicación de aprovisionamiento: si puedes dimensionar para L (elementos en vuelo simultáneos), has dimensionado el sistema. El número de threads de trabajo, conexiones de base de datos, o ranuras de cola se derivan de L.

La Ley de Little como rectángulo: λ en x, W en y, área = L

Dimensionamiento de un Grupo de Trabajadores

Tu servicio de transcodificación de vídeo está dimensionado para una tasa de llegada promedio de 30 trabajos de transcodificación por minuto, cada uno tomando 90 segundos de principio a fin. El grupo de trabajadores actual tiene 30 trabajadores.

Aplica la Ley de Little para determinar si el grupo actual está dimensionado adecuadamente. Muestra tu trabajo. Luego explica qué cambia si la tasa de llegada se duplica, & qué cambia si el tiempo individual de transcodificación se duplica. ¿Cuál escenario estresa más al sistema?

Por Qué la Latencia Explota Después del 80% de Utilización

La Curva Más Importante en Planificación de Capacidad

Grafica la utilización en el eje x (0% a 100%) & la latencia promedio en el eje y. La forma que emerge es una de las curvas más importantes en operaciones: explica por qué los equipos apuntan a utilización muy por debajo del 100%, por qué el margen de seguridad reservado no es desperdicio, & por qué los sistemas que se ejecutan 'eficientemente' a alta utilización se desmorona sin advertencia.

La curva de cola M/M/1: para un sistema con llegadas Poisson (aleatorias) & tiempos de servicio exponenciales (aleatorios), el tiempo de espera promedio sigue:

W_q = ρ / (μ(1-ρ))

donde ρ (rho) es la utilización (0 a 1) & μ es la tasa de servicio. El denominador (1-ρ) es el punto clave: cuando ρ se aproxima a 1, el denominador se aproxima a 0, & el tiempo de espera se aproxima al infinito.

Ejemplos numéricos (multiplicador de latencia vs ρ para M/M/1):

- ρ = 0,5: ratio de latencia 1,0 (línea base)

- ρ = 0,7: ratio de latencia ~2,3

- ρ = 0,8: ratio de latencia ~4,0

- ρ = 0,9: ratio de latencia ~9,0

- ρ = 0,95: ratio de latencia ~19,0

- ρ = 0,99: ratio de latencia ~99,0

El codo se sitúa alrededor del 70-80% de utilización. Por debajo del codo, añadir carga aumenta la latencia lentamente. Por encima del codo, la latencia explota de forma no lineal. Por eso la regla canónica de SRE es: apunta a utilización en estado estable por debajo del 80%, nunca ejecutes sostenidamente por encima del 90%.

Por qué los equipos de operaciones tradicionales subestiman esto: un servidor al 60% de CPU se ve 'ocupado' pero tiene margen de latencia confortable. Un servidor al 90% de CPU se ve 'productivo' pero está a un salto de carga de una catástrofe de latencia. La verdad geométrica: la pendiente de la curva es la amenaza real, no su valor y actual.

Curva de colas M/M/1: x = utilización, y = latencia, codo al ~80%

Lectura de la Curva

Un equipo ejecuta un servicio al 85% de utilización de CPU en estado estable. La latencia p99 actual es de 200 ms. Están considerando añadir un 30% más de tráfico para consolidar carga de trabajo de otro servicio que se está discontinuando.

Predice qué sucede con la latencia al pasar del 85% a aproximadamente 110% (sobre capacidad) usando la curva de colas. ¿Por qué la utilización de CPU por encima del 100% literalmente no se puede sostener, & qué síntoma visible lo reemplaza? Recomienda una utilización objetivo para la carga de trabajo consolidada & justifica el margen de seguridad que estás dejando.

Pendiente, Intercepción, & el Cono de Pronóstico

Leyendo el Crecimiento desde una Pendiente

Pronosticar demanda se reduce (en muchos casos) a dibujar la línea correcta a través de datos históricos. Las propiedades geométricas de esa línea: pendiente, intercepción, & cono de incertidumbre, codifican todo el pronóstico.

Tendencia lineal (y = mx + b): apropiada para ventanas cortas o procesos genuinamente lineales. La pendiente m es la tasa de crecimiento por unidad de tiempo. La intercepción b es el valor inicial. Útil cuando el crecimiento es constante. Tiende a subestimar cuando el proceso es realmente compuesto.

Tendencia exponencial (y = b × e^(mx)): apropiada para crecimiento compuesto: adopción viral, efectos de red de usuarios, multiplicatividad estacional. En una escala logarítmica del eje y, el crecimiento exponencial se vuelve lineal, lo que facilita la estimación de pendiente. La pendiente m en escala logarítmica es la tasa de crecimiento por unidad de tiempo.

Lineal por partes: apropiada cuando el crecimiento tiene regímenes distintos. Una startup podría crecer lentamente durante 18 meses, luego tener un punto de inflexión viral que produzca 6 meses de crecimiento explosivo, luego una meseta. Tres segmentos lineales encajan mejor que cualquier curva única.

Cono de pronóstico: la estimación central más límites superior e inferior, dibujados como un cono que se amplía hacia el futuro. El ancho del cono crece con el tiempo porque la incertidumbre se compone. Un pronóstico de 4 semanas podría tener límites ±10%; un pronóstico de 12 meses a menudo tiene ±50% o más.

Descomposición de estacionalidad: la demanda real combina tendencia + ciclo estacional + ruido. Las librerías estadísticas (statsmodels, Prophet) descomponen una serie en estos tres componentes, permitiendo que la tendencia se proyecte separada del patrón estacional. Geométricamente, la tendencia es la deriva subyacente, la estacionalidad es el ondulación periódica encima, & el ruido es el jitter residual.

Cono de pronóstico: línea de tendencia, ondulaciones estacionales, límites de incertidumbre ampliándose

Elección de un Modelo de Tendencia

Tienes 24 meses de volúmenes de solicitud mensuales. Los meses 1-12 crecieron de 1M a 2M (parecem lineal, +83K/mes). Los meses 13-18 crecieron de 2M a 4M (más pronunciado, +330K/mes). Los meses 19-24 crecieron de 4M a 12M (mucho más pronunciado). Marketing confirma que una característica de producto viral se lanzó en el mes 13 impulsando el punto de inflexión.

¿Cuál modelo de tendencia se ajusta mejor: lineal puro, exponencial puro, o lineal por partes? Justifica tu elección usando el comportamiento de la pendiente. Luego propone cómo pronosticar los meses 25-30: estimación central explícita, límite superior, & límite inferior. ¿Qué evento del mundo real podría romper cualquiera de los límites?

Capacidad vs Demanda como Geometría 2D

El Gráfico Donde Todos los Equipos de Capacidad Viven

Grafica el tiempo en el eje x. Grafica la demanda & la capacidad en el eje y como dos líneas separadas. El espacio vertical entre ellas en cualquier punto en el tiempo es el margen de seguridad. El área 2D entre las curvas es el sobre de margen de seguridad.

Tres formas de referencia:

- Sobre saludable: la línea de capacidad se mantiene cómodamente por encima de la línea de demanda. El espacio puede reducirse durante picos pero nunca desaparece. El sobre es una banda de seguridad.

- Sobre cerrándose: la capacidad crece más lentamente que la demanda. El espacio se reduce con el tiempo. El punto de intersección en el futuro es cuándo el sistema se queda sin margen de seguridad: la fecha límite para que el equipo añada capacidad.

- Sobre invertido: la demanda excede la capacidad. El sistema está en territorio de incidente. La magnitud vertical de la inversión es el déficit que debe servirse de alguna forma (desbordamiento de cola, tasas de error, impacto en clientes).

El gráfico estándar de planificación de capacidad grafica:

- Historial de demanda reciente (línea azul sólida)

- Demanda de pronóstico con límites (línea punteada + cono sombreado)

- Capacidad actual (línea verde sólida)

- Adiciones de capacidad planificadas con fechas de entrega (función de pasos)

- La fecha de intersección donde la demanda de pronóstico cruza la capacidad actual: esta es la fecha límite para el próximo aprovisionamiento

La regla visual de decisión: mantén la función de pasos de capacidad por encima del límite superior del cono de pronóstico en todo momento. No aprovisions para la estimación central; aprovisiona para el límite superior. El costo de sobre-aprovisionamiento es finito (algo de capacidad inactiva); el costo de sub-aprovisionamiento es ilimitado (usuarios perdidos, falla en cascada, daño a reputación).

Sobre de margen de seguridad: línea de demanda, función de pasos de capacidad, cono de pronóstico, fecha de intersección

Lectura del Sobre

Tu gráfico de capacidad muestra: la demanda actual es de 1.500 RPS creciendo 20% por mes. La capacidad actual es de 2.500 RPS. Un nuevo lote de servidores (+1.500 RPS de capacidad) llega en 8 semanas. El cono de pronóstico tiene límites ±15% en el horizonte de 8 semanas.

Calcula la fecha cuando la demanda de pronóstico (estimación central, límite superior) golpea la capacidad actual. ¿Llegará el nuevo lote de servidores a tiempo? ¿Cuál es la forma visual del sobre entre ahora & la llegada del nuevo lote, & qué acción tomarías si la demanda de límite superior intersecta la capacidad actual antes de que llegue el nuevo lote?

Geometría de Capacidad: Resumiendo

Formas Que Predicen el Futuro

Has caminado a través de cuatro estructuras geométricas que corren bajo la planificación de capacidad:

- La Ley de Little (L = λ × W) como el área de un rectángulo que define la ocupación en estado estable

- La curva de colas con su codo al 80% de utilización, codificando el costo no lineal de ejecutar en caliente

- Pendientes de tendencias & conos de pronóstico que convierten datos históricos en proyecciones accionables

- Sobres de margen de seguridad como gráficos 2D de capacidad versus demanda, con fechas de intersección que marcan plazos de aprovisionamiento

La planificación de capacidad es, en su núcleo visual, la disciplina de mantener una curva seguramente por encima de otra a lo largo del tiempo. Los números son aderezo; las formas llevan la verdad. Un ingeniero de capacidad que lee correctamente la curva de colas atrapará problemas que un panel de CPU oculta hasta que el sistema ya está ardiendo.

La lección complementaria sobre planificación de capacidad cubrió las prácticas: medición, pronóstico, pruebas de límite, margen de seguridad, & escalado. Esta lección cubrió la geometría subyacente. Juntas forman el andamio visual & analítico de ejecutar servicios que se escalan sin sorpresa.