L = λ × W: Un Rectángulo
La Ley de Little: la Ecuación Más Útil en Planificación de Capacidad
John Little demostró en 1961 que para cualquier cola estable, independientemente de su estructura interna: L = λ × W, donde:
- L = número promedio de elementos en el sistema (cola + en servicio)
- λ (lambda) = tasa de llegada promedio de elementos por unidad de tiempo
- W = tiempo promedio que cada elemento pasa en el sistema
La lectura geométrica: grafica la tasa de llegada λ en un eje y el tiempo de residencia W en el otro. El producto L es el área del rectángulo que forman. La planificación de capacidad vive dentro de este rectángulo.
Por qué importa: dos de las tres cantidades determinan la tercera. Si mides rendimiento & latencia, conoces la ocupación. Si mides ocupación & rendimiento, conoces la latencia. La ley es robusta: se aplica a solicitudes web, mesas de restaurante, colas de supermercado & canales de CPU sin modificación.
Tres ejemplos concretos:
- Un servicio web maneja 200 solicitudes/segundo con latencia promedio de 50 ms (0,05 s). L = 200 × 0,05 = 10 solicitudes en vuelo en cualquier momento.
- Una cafetería sirve 60 clientes/hora con tiempo promedio de permanencia de 15 minutos (0,25 h). L = 60 × 0,25 = 15 clientes adentro en promedio.
- Una línea de producción fabrica 100 artículos/hora, & cada artículo toma 2 horas de principio a fin. L = 100 × 2 = 200 artículos en proceso.
Implicación de aprovisionamiento: si puedes dimensionar para L (elementos en vuelo simultáneos), has dimensionado el sistema. El número de threads de trabajo, conexiones de base de datos, o ranuras de cola se derivan de L.
Dimensionamiento de un Grupo de Trabajadores
Tu servicio de transcodificación de vídeo está dimensionado para una tasa de llegada promedio de 30 trabajos de transcodificación por minuto, cada uno tomando 90 segundos de principio a fin. El grupo de trabajadores actual tiene 30 trabajadores.
Por Qué la Latencia Explota Después del 80% de Utilización
La Curva Más Importante en Planificación de Capacidad
Grafica la utilización en el eje x (0% a 100%) & la latencia promedio en el eje y. La forma que emerge es una de las curvas más importantes en operaciones: explica por qué los equipos apuntan a utilización muy por debajo del 100%, por qué el margen de seguridad reservado no es desperdicio, & por qué los sistemas que se ejecutan 'eficientemente' a alta utilización se desmorona sin advertencia.
La curva de cola M/M/1: para un sistema con llegadas Poisson (aleatorias) & tiempos de servicio exponenciales (aleatorios), el tiempo de espera promedio sigue:
W_q = ρ / (μ(1-ρ))
donde ρ (rho) es la utilización (0 a 1) & μ es la tasa de servicio. El denominador (1-ρ) es el punto clave: cuando ρ se aproxima a 1, el denominador se aproxima a 0, & el tiempo de espera se aproxima al infinito.
Ejemplos numéricos (multiplicador de latencia vs ρ para M/M/1):
- ρ = 0,5: ratio de latencia 1,0 (línea base)
- ρ = 0,7: ratio de latencia ~2,3
- ρ = 0,8: ratio de latencia ~4,0
- ρ = 0,9: ratio de latencia ~9,0
- ρ = 0,95: ratio de latencia ~19,0
- ρ = 0,99: ratio de latencia ~99,0
El codo se sitúa alrededor del 70-80% de utilización. Por debajo del codo, añadir carga aumenta la latencia lentamente. Por encima del codo, la latencia explota de forma no lineal. Por eso la regla canónica de SRE es: apunta a utilización en estado estable por debajo del 80%, nunca ejecutes sostenidamente por encima del 90%.
Por qué los equipos de operaciones tradicionales subestiman esto: un servidor al 60% de CPU se ve 'ocupado' pero tiene margen de latencia confortable. Un servidor al 90% de CPU se ve 'productivo' pero está a un salto de carga de una catástrofe de latencia. La verdad geométrica: la pendiente de la curva es la amenaza real, no su valor y actual.
Lectura de la Curva
Un equipo ejecuta un servicio al 85% de utilización de CPU en estado estable. La latencia p99 actual es de 200 ms. Están considerando añadir un 30% más de tráfico para consolidar carga de trabajo de otro servicio que se está discontinuando.
Pendiente, Intercepción, & el Cono de Pronóstico
Leyendo el Crecimiento desde una Pendiente
Pronosticar demanda se reduce (en muchos casos) a dibujar la línea correcta a través de datos históricos. Las propiedades geométricas de esa línea: pendiente, intercepción, & cono de incertidumbre, codifican todo el pronóstico.
Tendencia lineal (y = mx + b): apropiada para ventanas cortas o procesos genuinamente lineales. La pendiente m es la tasa de crecimiento por unidad de tiempo. La intercepción b es el valor inicial. Útil cuando el crecimiento es constante. Tiende a subestimar cuando el proceso es realmente compuesto.
Tendencia exponencial (y = b × e^(mx)): apropiada para crecimiento compuesto: adopción viral, efectos de red de usuarios, multiplicatividad estacional. En una escala logarítmica del eje y, el crecimiento exponencial se vuelve lineal, lo que facilita la estimación de pendiente. La pendiente m en escala logarítmica es la tasa de crecimiento por unidad de tiempo.
Lineal por partes: apropiada cuando el crecimiento tiene regímenes distintos. Una startup podría crecer lentamente durante 18 meses, luego tener un punto de inflexión viral que produzca 6 meses de crecimiento explosivo, luego una meseta. Tres segmentos lineales encajan mejor que cualquier curva única.
Cono de pronóstico: la estimación central más límites superior e inferior, dibujados como un cono que se amplía hacia el futuro. El ancho del cono crece con el tiempo porque la incertidumbre se compone. Un pronóstico de 4 semanas podría tener límites ±10%; un pronóstico de 12 meses a menudo tiene ±50% o más.
Descomposición de estacionalidad: la demanda real combina tendencia + ciclo estacional + ruido. Las librerías estadísticas (statsmodels, Prophet) descomponen una serie en estos tres componentes, permitiendo que la tendencia se proyecte separada del patrón estacional. Geométricamente, la tendencia es la deriva subyacente, la estacionalidad es el ondulación periódica encima, & el ruido es el jitter residual.
Elección de un Modelo de Tendencia
Tienes 24 meses de volúmenes de solicitud mensuales. Los meses 1-12 crecieron de 1M a 2M (parecem lineal, +83K/mes). Los meses 13-18 crecieron de 2M a 4M (más pronunciado, +330K/mes). Los meses 19-24 crecieron de 4M a 12M (mucho más pronunciado). Marketing confirma que una característica de producto viral se lanzó en el mes 13 impulsando el punto de inflexión.
Capacidad vs Demanda como Geometría 2D
El Gráfico Donde Todos los Equipos de Capacidad Viven
Grafica el tiempo en el eje x. Grafica la demanda & la capacidad en el eje y como dos líneas separadas. El espacio vertical entre ellas en cualquier punto en el tiempo es el margen de seguridad. El área 2D entre las curvas es el sobre de margen de seguridad.
Tres formas de referencia:
- Sobre saludable: la línea de capacidad se mantiene cómodamente por encima de la línea de demanda. El espacio puede reducirse durante picos pero nunca desaparece. El sobre es una banda de seguridad.
- Sobre cerrándose: la capacidad crece más lentamente que la demanda. El espacio se reduce con el tiempo. El punto de intersección en el futuro es cuándo el sistema se queda sin margen de seguridad: la fecha límite para que el equipo añada capacidad.
- Sobre invertido: la demanda excede la capacidad. El sistema está en territorio de incidente. La magnitud vertical de la inversión es el déficit que debe servirse de alguna forma (desbordamiento de cola, tasas de error, impacto en clientes).
El gráfico estándar de planificación de capacidad grafica:
- Historial de demanda reciente (línea azul sólida)
- Demanda de pronóstico con límites (línea punteada + cono sombreado)
- Capacidad actual (línea verde sólida)
- Adiciones de capacidad planificadas con fechas de entrega (función de pasos)
- La fecha de intersección donde la demanda de pronóstico cruza la capacidad actual: esta es la fecha límite para el próximo aprovisionamiento
La regla visual de decisión: mantén la función de pasos de capacidad por encima del límite superior del cono de pronóstico en todo momento. No aprovisions para la estimación central; aprovisiona para el límite superior. El costo de sobre-aprovisionamiento es finito (algo de capacidad inactiva); el costo de sub-aprovisionamiento es ilimitado (usuarios perdidos, falla en cascada, daño a reputación).
Lectura del Sobre
Tu gráfico de capacidad muestra: la demanda actual es de 1.500 RPS creciendo 20% por mes. La capacidad actual es de 2.500 RPS. Un nuevo lote de servidores (+1.500 RPS de capacidad) llega en 8 semanas. El cono de pronóstico tiene límites ±15% en el horizonte de 8 semanas.
Geometría de Capacidad: Resumiendo
Formas Que Predicen el Futuro
Has caminado a través de cuatro estructuras geométricas que corren bajo la planificación de capacidad:
- La Ley de Little (L = λ × W) como el área de un rectángulo que define la ocupación en estado estable
- La curva de colas con su codo al 80% de utilización, codificando el costo no lineal de ejecutar en caliente
- Pendientes de tendencias & conos de pronóstico que convierten datos históricos en proyecciones accionables
- Sobres de margen de seguridad como gráficos 2D de capacidad versus demanda, con fechas de intersección que marcan plazos de aprovisionamiento
La planificación de capacidad es, en su núcleo visual, la disciplina de mantener una curva seguramente por encima de otra a lo largo del tiempo. Los números son aderezo; las formas llevan la verdad. Un ingeniero de capacidad que lee correctamente la curva de colas atrapará problemas que un panel de CPU oculta hasta que el sistema ya está ardiendo.
La lección complementaria sobre planificación de capacidad cubrió las prácticas: medición, pronóstico, pruebas de límite, margen de seguridad, & escalado. Esta lección cubrió la geometría subyacente. Juntas forman el andamio visual & analítico de ejecutar servicios que se escalan sin sorpresa.