De “cajas” a “software + plataforma”: el verdadero cambio de paradigma en Operaciones

Al pasar de “cajas” (appliance/ATCA) a “software + plataforma” (Linux + VM/Kubernetes + storage/red virtual), el cambio grande para Operaciones no es sólo tecnológico. Es un cambio de paradigma sobre qué significa “salud”, dónde ocurre una falla y cómo se mide. Si este cambio no se hace explícito, el resultado típico es predecible: más alertas, más “incidentes” que no lo son, más tickets “fantasma”, y diagnósticos más lentos.

1) Antes: operar “cosas” estables; ahora: operar “comportamientos” dinámicos

El mundo de las “cajas”

En plataformas basadas en appliances:

La unidad de operación era una entidad estable: un chasis, un blade, un host.
La identidad era constante: el mismo equipo, la misma ubicación lógica, el mismo rol.
La salud se interpretaba como estado del dispositivo: arriba/abajo, degradado/no degradado.
La observabilidad venía preempaquetada: alarmas del vendor con severidades y correlaciones relativamente consistentes.

Esto producía un modelo mental muy potente: “si la caja está bien, el servicio está bien” (o al menos, esa era la hipótesis inicial más razonable).

El mundo de “software + plataforma”

En entornos virtualizados/contenerizados:

La unidad “real” ya no es el host, sino el servicio (una capacidad de negocio) implementado por componentes que cambian.
Las entidades son efímeras: instancias que aparecen/desaparecen por diseño.
La salud ya no es “estado”, es comportamiento: ¿está cumpliendo su promesa (latencia, errores, disponibilidad) bajo condiciones cambiantes?
La plataforma es parte del sistema: orquestación, red virtual, almacenamiento, identidad, políticas.

Cambio de paradigma: Operaciones deja de “mantener estables objetos estables” y pasa a “garantizar resultados estables” sobre un sistema inherentemente dinámico.

2) Qué significa “salud” cambia: de métricas de infraestructura a señales de servicio

En el modelo tradicional, “salud” se respondía con métricas de infraestructura: CPU, memoria, disco, interfaces, alarmas de hardware.

En el modelo moderno, “salud” se responde de forma más completa con señales orientadas a servicio:

Experiencia del usuario/sistema consumidor (SLO/SLI).
Correctitud (respuestas válidas).
Latencia y errores (no sólo “si está encendido”).
Capacidad de sostener carga sin degradación.

No significa que la infraestructura ya no importe; significa que deja de ser el primer idioma para expresar salud. En plataformas modernas, infraestructura “bien” puede coexistir con servicio “mal”, y viceversa.

Nuevo criterio operativo: si no hay impacto medible en el servicio, muchas “alarmas” deben tratarse como diagnóstico o capacity signal, no como incidente.

3) Dónde ocurre una falla cambia: de un punto a una cadena

En appliances, muchas fallas se podían localizar en un punto: “ese equipo” o “ese módulo”. En software + plataforma, los problemas son a menudo interacciones:

entre capas (aplicación ↔ runtime ↔ kernel ↔ red virtual ↔ storage),
entre componentes (dependencias),
entre políticas (seguridad, cuotas, placement),
entre automatización y realidad (reconciliación continua).

Esto introduce un cambio clave: el incidente no vive “en un lugar”, vive en una relación. La causa no siempre es un componente roto; puede ser una decisión de configuración, una política, o un límite operativo que se alcanza.

Cambio de paradigma: de “root cause puntual” a “sistema acoplado con fallas por interacción”.

4) Cómo se mide cambia: de umbrales simples a evidencia contextual

Umbrales heredados: el origen de muchos falsos positivos

Cuando migras a cloud/containers, una tentación natural es reutilizar reglas de monitoreo “de caja”:

CPU > X
Memoria usada > Y
Disco > Z

El problema: en Linux y plataformas modernas, esos indicadores no siempre significan lo mismo ni tienen la misma relación con impacto.

Resultado: aumentan falsos positivos del tipo:

“todo está en rojo” pero el servicio está bien,
“muchas alertas” pero ninguna explica el impacto,
“tendencias normales” interpretadas como incidentes.

Medición moderna: impacto + contexto + correlación

Sin entrar en fallas específicas, el cambio es este:

Primero se mide el impacto en el servicio (lo que el usuario/sistema percibe).
Luego se usa el resto (plataforma/infra) para explicar y acotar.
Se privilegian señales que incluyen contexto: qué cambió, dónde, desde cuándo, a qué afecta.

Cambio de paradigma: de “monitoreo por umbral” a “monitoreo por intención (SLO) y diagnóstico por capas”.

Nuevos tipos de problemas operativos (más allá de “se cayó un host”)

El paso a “software + plataforma” trae problemas operativos que antes eran raros o inexistentes:

Problemas de dinámica: el sistema cambia constantemente (deploys, escalado, reprogramación). La estabilidad depende de la calidad del cambio y de cómo la plataforma reacciona.
Problemas de configuración/política: pequeños cambios declarativos pueden tener efectos amplios (seguridad, red, placement, límites).
Problemas de dependencia: más servicios internos, más componentes compartidos (DNS, ingress, certs, storage classes, registries).
Problemas de observabilidad: más datos, pero también más riesgo de “no ver lo importante” (o verlo demasiado tarde) por falta de enfoque.
Problemas de automatización: la plataforma repara/ajusta sola; eso es una ventaja, pero también puede enmascarar degradaciones hasta que se vuelven sistémicas.

Cambio de paradigma: se opera un sistema que “se mueve” por sí solo; lo operativo se vuelve gobernanza de comportamiento, no sólo reacción a fallas.

¿Por qué aumentan los falsos positivos (y cómo reconocerlos conceptualmente)?

Sin entrar aún en ejemplos concretos, los falsos positivos aumentan por cuatro razones típicas:

Reuso de métricas con significado distinto La misma palabra (“memoria”, “disco”, “CPU”) describe fenómenos distintos según capa y aislamiento.
Medir componentes en vez de medir servicio Alertas por componentes que no se traducen en impacto generan ruido.
No modelar lo efímero como normalidad En cloud, reinicios, rescheduling y reemplazo de instancias pueden ser parte del diseño. Si eso se trata como anomalía, el monitoreo se vuelve hostil.
Falta de correlación con cambios En plataformas dinámicas, “qué cambió” es un predictor fuerte. Sin esa dimensión, el monitoreo queda ciego a causalidad.

Idea guía: un falso positivo no es “una alerta mala”; es una alerta que no está alineada con la intención del sistema (servicio) ni con el comportamiento normal de la plataforma.

Operar promesas, no objetos…

La transición de cajas a software + plataforma no es “cambiar hardware por cloud”. Es cambiar:

el objeto de operación (servicio vs host),
la definición de salud (comportamiento vs estado),
la localización de fallas (interacciones vs puntos),
y el método de medición (impacto + contexto vs umbrales aislados).

Esto explica por qué, durante la transición, se ven: más ruido operativo, más falsos positivos, y más tiempo invertido en “traducir” señales.

Para aterrizarlo sin entrar en diagnóstico detallado, algunos ejemplos comunes que suelen aparecer en este cambio (sólo como referencia):

“memoria alta” reportada sin impacto real en servicio,
“pods reiniciando” como parte de reconciliación vs incidente real,
“disco del nodo alto” por dinámicas de imágenes/logs,
“latencia intermitente” por interacción entre capas (app/red/infra).