Guía básica para entender la latencia en redes informáticas

Guía básica para entender la latencia en redes informáticas

En una conexión de fibra óptica típica entre Madrid y Nueva York, el tiempo que tarda un paquete en recorrer la distancia puede superar los 70 milisegundos solo por la propagación física de la luz a través del cable. Ese retraso, conocido como latencia, determina si una videollamada se siente natural o si un jugador en un servidor europeo nota que sus acciones llegan tarde en un título competitivo.

La latencia en redes informáticas mide el tiempo que transcurre desde que un dispositivo envía datos hasta que recibe la respuesta. No se trata de la cantidad de información que viaja, sino del retraso acumulado en cada salto de la ruta. Cuando ese valor sube por encima de ciertos umbrales, aplicaciones enteras dejan de ser útiles aunque el ancho de banda siga siendo alto.

Table

Qué mide exactamente la latencia y por qué aparece en cada capa del modelo TCP/IP
Factores que aumentan la latencia en redes reales y cómo detectarlos
Latencia frente a ancho de banda: por qué no son lo mismo y cómo se complementan
1. Protocolos que mitigan el efecto de la latencia alta
Latencia en aplicaciones de machine learning y cloud computing actuales
Ejemplos concretos de medición y optimización de latencia
Consideraciones finales sobre la latencia en redes informáticas

Qué mide exactamente la latencia y por qué aparece en cada capa del modelo TCP/IP

La latencia se compone de cuatro elementos principales que se suman en cada paquete: tiempo de propagación, tiempo de transmisión, tiempo de procesamiento en routers y tiempo de cola en buffers congestionados. Cada uno depende de factores físicos y de configuración que varían según el tipo de red.

En la capa física, la distancia y el medio determinan la velocidad de propagación. La luz en fibra óptica viaja a aproximadamente dos tercios de su velocidad en el vacío, lo que añade unos 5 microsegundos por kilómetro. En enlaces de cobre o radioenlaces esa cifra aumenta notablemente.

El tiempo de transmisión depende del tamaño del paquete y de la velocidad del enlace; un paquete de 1500 bytes en un enlace de 1 Gbps tarda 12 microsegundos en salir del adaptador, pero en un enlace de 100 Mbps ese mismo paquete necesita 120 microsegundos.
El procesamiento en cada router incluye la lectura de cabeceras, la consulta de tablas de enrutamiento y posibles operaciones de NAT o firewall que pueden añadir entre 10 y 200 microsegundos por salto.
Las colas en buffers congestionados son la causa más variable; cuando un enlace está saturado, los paquetes esperan en memoria y la latencia puede multiplicarse por diez o más en cuestión de segundos.

Estas cuatro componentes explican por qué dos rutas con la misma distancia física pueden mostrar latencias muy distintas según la calidad de los equipos intermedios y la carga de tráfico.

Factores que aumentan la latencia en redes reales y cómo detectarlos

La mayoría de los aumentos de latencia no vienen de la distancia, sino de decisiones de configuración o de hardware intermedio. Un bufferbloat en un router doméstico puede elevar la latencia de 10 ms a más de 300 ms aunque el enlace esté solo al 60 % de uso.

Los sistemas operativos también influyen. El algoritmo de control de congestión TCP utilizado por defecto en muchas distribuciones Linux hasta hace poco (Cubic) reacciona de forma más agresiva que BBR, que intenta mantener la latencia baja incluso cuando el enlace está cerca de su capacidad máxima.

Utiliza la herramienta ping con paquetes de tamaño variable para aislar si el problema está en la propagación o en el procesamiento; paquetes grandes que muestran mucha más latencia suelen indicar limitaciones de transmisión o colas.
Ejecuta traceroute o mtr durante varios minutos para identificar saltos donde la latencia salta de forma consistente; un salto que añade 40 ms de forma repetida suele corresponder a un enlace saturado o a un equipo con buffers sobredimensionados.
Monitorea la latencia con herramientas como smokeping o Prometheus durante periodos de 24 horas para detectar patrones que coinciden con horas punta de tráfico en el proveedor.

En entornos corporativos, los firewalls de nueva generación que inspeccionan el contenido de cada paquete añaden entre 50 y 150 microsegundos adicionales por flujo. Cuando se activan funciones de prevención de intrusiones esa cifra puede duplicarse fácilmente.

Latencia frente a ancho de banda: por qué no son lo mismo y cómo se complementan

Muchos usuarios confunden ambos conceptos porque ambos afectan la experiencia de navegación, pero responden a problemas distintos. El ancho de banda determina cuántos datos pueden circular simultáneamente, mientras que la latencia determina cuánto tarda el primer byte en llegar.

Característica	Latencia	Ancho de banda
Unidad típica	Milisegundos (ms)	Megabits por segundo (Mbps)
Ejemplo en fibra simétrica	5-15 ms locales	300-1000 Mbps
Impacto en videollamada	Retraso en la conversación	Calidad de imagen cuando hay movimiento
Forma de mejorarla	Reducir saltos o usar rutas más directas	Contratar más capacidad o priorizar tráfico

Una conexión con 1 Gbps de ancho de banda pero 120 ms de latencia puede resultar más lenta para cargar una página web que otra de 100 Mbps con solo 15 ms de latencia. El motivo es que la mayoría de las páginas web necesitan decenas de conexiones TCP pequeñas, y cada una de ellas espera el tiempo de ida y vuelta antes de enviar el siguiente fragmento.

Protocolos que mitigan el efecto de la latencia alta

HTTP/3 sobre QUIC reduce el impacto de la latencia porque permite que varios flujos viajen en paralelo sin esperar confirmaciones de cada uno. En pruebas controladas con 100 ms de latencia, HTTP/3 puede completar la carga de una página entre un 30 y un 50 % más rápido que HTTP/2 sobre TCP.

En el ámbito del cloud computing, servicios como AWS Global Accelerator o Google Cloud CDN eligen rutas más cortas en la red troncal para reducir la latencia efectiva entre el usuario y el origen, aunque el ancho de banda contratado siga siendo el mismo.

Latencia en aplicaciones de machine learning y cloud computing actuales

Cuando un modelo de machine learning se ejecuta en la nube, la latencia de red se suma a la latencia de inferencia del propio modelo. Un modelo que tarda 8 ms en procesar una imagen en GPU puede necesitar 40 ms adicionales solo en el viaje de ida y vuelta si el usuario está a 2000 km del centro de datos.

Por eso muchas empresas despliegan modelos en regiones cercanas al usuario final o utilizan arquitecturas edge con dispositivos NVIDIA Jetson o Google Coral que ejecutan inferencia localmente y solo envían resultados agregados a la nube.

En juegos en la nube como GeForce Now o Xbox Cloud Gaming, una latencia superior a 40 ms hace que el control se sienta impreciso porque la imagen que recibe el jugador ya está desfasada respecto a su acción.
En transacciones financieras de alta frecuencia, cada milisegundo de latencia puede suponer una diferencia de miles de euros en mercados donde los precios cambian en microsegundos.
En sistemas de conducción autónoma que dependen de actualizaciones de mapas en tiempo real, la latencia de red debe mantenerse por debajo de 20 ms para que la información sea útil antes de que el vehículo avance varios metros.

Los proveedores de cloud ofrecen ahora instancias con redes de latencia ultra baja dentro del mismo centro de datos (menos de 10 microsegundos entre máquinas) para cargas de trabajo de machine learning distribuido que requieren sincronización constante entre GPUs.

Ejemplos concretos de medición y optimización de latencia

Un caso habitual aparece cuando una empresa española conecta sus oficinas de Barcelona y Valencia a través de un proveedor de red MPLS. La latencia medida con paquetes de 64 bytes suele estar en 8 ms, pero cuando se transfieren archivos grandes a través de SMB la latencia efectiva percibida por los usuarios sube a 45 ms por culpa del bufferbloat en los routers de borde.

La solución en este escenario suele pasar por activar algoritmos de gestión de colas como fq_codel o cake en los routers Linux que actúan como gateway. Tras el cambio, la latencia bajo carga baja de nuevo a valores cercanos a los 12 ms incluso cuando el enlace está al 90 % de uso.

Otro ejemplo aparece en redes 5G. Aunque la especificación promete latencias de 1 ms en condiciones ideales, las mediciones reales en ciudades españolas durante 2023 mostraron valores medios entre 12 y 25 ms para tráfico de usuario normal. La diferencia se debe principalmente a la distancia hasta la estación base y a la carga de la celda.

Un tercer caso se da en arquitecturas serverless. Una función AWS Lambda invocada desde un cliente en Chile puede tardar 180 ms solo en el establecimiento de la conexión TLS cuando se usa la región de Virginia. Al cambiar la invocación a la región de São Paulo esa latencia baja a 65 ms sin modificar ni una línea de código de la función.

Consideraciones finales sobre la latencia en redes informáticas

Entender la latencia requiere separar los componentes que se pueden controlar de los que dependen de la infraestructura física. La distancia entre dos puntos es fija, pero la elección de rutas, la configuración de buffers y el protocolo de transporte sí están al alcance de administradores y desarrolladores.

La Guía básica para entender la latencia en redes informáticas muestra que medir con herramientas adecuadas y aplicar configuraciones específicas suele tener más impacto que simplemente contratar más ancho de banda. En la mayoría de escenarios reales, reducir la latencia en un 30 % mejora la experiencia de usuario más que duplicar la velocidad del enlace.

Observar cómo se comporta la latencia bajo diferentes cargas y en distintas horas del día permite tomar decisiones informadas sobre dónde colocar recursos en la nube o qué cambios de configuración aplicar en los routers de la red local.

Si quieres conocer otros artículos parecidos a Guía básica para entender la latencia en redes informáticas puedes visitar la categoría Tecnologia para Principiantes.

Entradas Relacionadas