0
Alertas por ping alto

Closed 2 Respuestas 1 Views
De golpe Nagios empezó a generar alertas por ping alto. La estructura sería la siguiente:

Un switch core con dos switches conectados. Estos dos switches tienen varios servidores KVM. Aleatoreamente las VM empiezan a generar esas alertas. Digo aleatoreamente porque surgen desde distintos hosts conectados a cualquiera de los dos switches.

El nagios corre dentro de una de esas VM y todo en la misma vlan por lo que el recorrido que hace no sale de estos switches.

Al no tener algo que monitoree mejor y me guarde un histórico metí un Zabbix. En los momentos en que Nagios genera los alertas no hay uso intensivo ni en switches ni en vm/host de CPU, Memoria, temperatura, tráfico de red.

 

La consulta sería qué recomiendan ustedes hacer para atacar este inconveniente. Tengo pensado meter un wireshark a ver si encuentro algo raro.

Por el momento es solo ese alerta y no está afectando a otros servicios pero me llama la atención que de un día para otro comenzó a pasar. Otra cosa: pasa incluso de madrugada cuando hay muy poca actividad de red.

Tal vez hay algo muy obvio que estoy pasando por alto.

Gracias

 

UPDATE: a este problema se empezó a sumar pérdidas de paquetes. El problema estuvo en la cantidad de conexiones soportadas por el firewall, estábamos muy por encima. Solucionado esto el ping alto seguí estando. Migré la VM de Nagios a otro host y por el momento ya no hay alertas.
cerrada con la nota: Migré la VM de Nagios a otro host y por el momento ya no hay alertas.

2 Respuestas

1
Backups que generen IO en los servers? Desde el nagios si le tiras ping a otra vm que este en ese mismo hypervisor tambien tenes latencia? Por qué en ese caso descartás el switch si es que el trafico fluye entre vms a través del bridge del hypervisor.
respondido por edux (10,270 puntos) May 10
8Comentarios
comentado por panoptic0 (1,950 puntos) May 10
Algunas de las VM que tira alerta están dentro del mismo servidor que el Nagios. Pero otras no (VM y otros servers físicos) ¿si son dentro del mismo hypervisor entonces los paquetes no salen del servidor para comunicarse entre VM de la misma vlan?

Los backups se hacen de madrugada una vez por semana, este problema arrancó hace poco y en cualquier horario. No logro juntar algún patrón todavía que me indique por donde ir atacando el problema.
comentado por edux (10,270 puntos) May 10
para mi si las eth de las vm estan montadas en el mismo br0 el trafico entre vms no va a ir al switch, entonces ahi te queda aislado el problema en ese server (al menos para troubleshootear).

asi tiradísimo de los pelos, no tenés algo que genere ruido electrico? la instalación es decente? comento porque hace mil años laburaba en un lugar donde tenían un motor trifásico gigante que metía interferencia en un uplink que pasaba cerca.

los contadores de CRC y errores de las eth estan en 0?
comentado por panoptic0 (1,950 puntos) May 11
Contadores de CRC y errores están en 0. Tampoco tengo algo que esté metiendo ruido. Me tiene desconcertado.
comentado por edux (10,270 puntos) May 11
Tenés ip fijas o tenes dhcp para los servers (digo si al momento de renovar el lease algo pasa).
comentado por panoptic0 (1,950 puntos) May 11
Dhcp que asigna por mac-address.
comentado por edux (10,270 puntos) May 11
y no te correlaciona el momento de la latencia con el momento de renovar el lease?
comentado por edux (10,270 puntos) May 11
Otra cosa para mirar son los logs de los switches para ver si tenés logs de STP. apuntalos a un syslog temporalmente. tenes entre el core y los otros 2 switches tenés 1 uplink solamente o esta redundante?
comentado por panoptic0 (1,950 puntos) May 11
Voy a verificar momento del lease a ver si coinciden. Respecto a lo otro el core son dos switches en stack. Los otros simples. Voy por el lado de ver los logs del switch.
1
Si te está pasando entre VMs que corren en el mismo hypervisor, o entre VMs y el hypervisor (asumiendo que el nagios está en el hypervisor), entonces no sería un tema del switch, sino un tema de la red del mismo equipo físico, o de ahí para adentro. Fijate si podés monitorear la cantidad de tráfico que pasa por las placas físicas del hypervisor en esos momentos (asumiendo que ya revisaste la CPU/mem/I/O del hypervisor físico y no encontraste correlación).
respondido por godlike (8,010 puntos) May 14
...