NVIDIA Mellanox MQM8790-HS2F Solución técnica: Optimización de interconexión de baja latencia para racimos RDMA / HPC / AI

April 10, 2026

Esta solución técnica está diseñada para arquitectos de redes, ingenieros de preventa y líderes de operaciones. Proporciona una guía completa para la arquitectura, implementación y operación de tejidos InfiniBand de alto rendimiento centrados en el NVIDIA Mellanox MQM8790-HS2F, dirigidos a clústeres de entrenamiento de IA y HPC intensivos en RDMA.

1. Antecedentes y Análisis de Requisitos

Los clústeres modernos de entrenamiento de IA y computación científica se enfrentan cada vez más a la interconexión de red como el principal cuello de botella de rendimiento. Los tejidos Ethernet tradicionales luchan con el control de congestión, la latencia de cola y las capacidades de descarga de CPU, sin poder satisfacer las demandas de los patrones de comunicación de entrenamiento distribuido como All-Reduce y All-to-All. Los requisitos clave incluyen: latencia de extremo a extremo submicrosegundo, transporte sin pérdidas y sin caídas, soporte de GPU Direct RDMA, y la capacidad de escalar linealmente a miles de nodos. Se requiere una arquitectura de conmutación InfiniBand dedicada para resolver fundamentalmente estos desafíos de eficiencia de interconexión.

2. Diseño General de la Arquitectura de Red/Sistema

Esta solución recomienda una topología Fat-Tree de dos capas para lograr un ancho de banda no bloqueante y de bisección completa. Tanto las capas leaf como spine utilizan el switch InfiniBand MQM8790-HS2F, que proporciona 40 puertos de 200 Gb/s HDR QSFP56. Tomando como ejemplo un clúster de 512 nodos, el diseño es el siguiente:

Capa leaf: Cada MQM8790-HS2F conecta 20 nodos de cómputo (doble enlace ascendente) y 8 enlaces ascendentes a la capa spine.
Capa spine: 8 switches MQM8790-HS2F forman el plano spine, con conectividad de malla completa entre cada switch leaf y cada switch spine.
Red de almacenamiento y gestión: Una subred InfiniBand separada o Ethernet fuera de banda para evitar interferencias con el tráfico de cómputo.

Esta arquitectura garantiza un ancho de banda de 200 Gb/s entre dos nodos cualesquiera, con múltiples rutas redundantes que aseguran que un único punto de fallo no afecte la conectividad global. La alta densidad de puertos del MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 reduce el número de switches requeridos en un 50% en comparación con las soluciones EDR de generación anterior, al tiempo que reduce la complejidad del tejido.

3. Rol y Características Clave del NVIDIA Mellanox MQM8790-HS2F

El NVIDIA Mellanox MQM8790-HS2F sirve como unidad de conmutación central en esta solución, cumpliendo los siguientes roles críticos:

Motor de conmutación sin pérdidas: El control de flujo de capa de enlace InfiniBand elimina la pérdida de paquetes, asegurando la eficiencia del transporte RDMA.
Enrutamiento adaptativo: Equilibra dinámicamente el tráfico a través de múltiples rutas, evitando puntos calientes de congestión y mejorando el rendimiento efectivo.
Computación en red SHARPv3: Descarga operaciones de reducción al switch, acelerando All-Reduce en 2-3*.
Alta densidad y bajo consumo de energía: 40 puertos a 200 Gb/s con un consumo de energía por puerto líder en la industria, reduciendo el TCO.

Según la hoja de datos del MQM8790-HS2F y las especificaciones del MQM8790-HS2F, el switch ofrece una capacidad de conmutación agregada de 16 Tb/s, latencia de puerto a puerto inferior a 130 ns y admite fuentes de alimentación y ventiladores intercambiables en caliente para entornos de producción 24/7. Además, el dispositivo es totalmente compatible con los adaptadores NVIDIA ConnectX-6/7 HDR y una amplia gama de cables ópticos/de cobre HDR, validando la madurez del ecosistema compatible con MQM8790-HS2F.

4. Recomendaciones de Implementación y Escalado (con Topologías Típicas)

Siga estos pasos al implementar la solución:

Gestión de subred: Implemente Gestores de Subred (SM) activos-pasivos; se recomienda la plataforma NVIDIA UFM para la gestión centralizada y la telemetría.
Particiones y niveles de servicio: Utilice claves de partición (P_Key) para aislar inquilinos o cargas de trabajo; configure mapeos SL2VL para priorizar el tráfico de entrenamiento de IA.
Selección de cables: Utilice cables de cobre pasivos para distancias cortas (≤3m) y cables ópticos activos o transceptores para tramos más largos para mantener la integridad de la señal.

Para clústeres más grandes que excedan los 2.000 nodos, se puede adoptar una topología Fat-Tree de tres niveles o Dragonfly+, con la capa central continuando utilizando el MQM8790-HS2F como bloque de construcción. Al adquirir unidades adicionales, consulte el precio del MQM8790-HS2F y la disponibilidad a través de distribuidores autorizados; las listas verificadas de MQM8790-HS2F en venta suelen incluir el firmware y la garantía más recientes. La solución de switch InfiniBand MQM8790-HS2F escala elegantemente desde la investigación de IA departamental hasta centros de supercomputación exaescala.

5. Operaciones, Monitorización, Solución de Problemas y Optimización

La operación efectiva del tejido InfiniBand requiere una monitorización proactiva y una solución de problemas disciplinada:

Monitorización: Utilice ibnetdiscover para la verificación de la topología, perfquery para los contadores de puertos y la telemetría UFM para la visibilidad de la congestión en tiempo real.
Problemas comunes y resolución:
- Link flapping: Verifique el asiento del cable y ejecute pruebas de diagnóstico de cables; reemplace ópticas defectuosas.
- Fallo del gestor de subred: Asegúrese de que las prioridades del SM estén correctamente configuradas y de que el SM secundario tenga una base de datos válida.
- Enrutamiento adaptativo desigual: Ajuste los parámetros del algoritmo de enrutamiento (por ejemplo, routing_engine=ftree) y habilite la distribución de carga.
Consejos de optimización: Habilite la agregación SHARP para operaciones colectivas; ajuste la MTU a 4096 bytes para transferencias de mensajes grandes; utilice Calidad de Servicio para separar el tráfico de control, datos y gestión.

Las actualizaciones regulares de firmware a través del portal de soporte de NVIDIA garantizan parches de seguridad y mejoras de rendimiento. Consulte la hoja de datos del MQM8790-HS2F para obtener líneas de base de rendimiento detalladas y valores de contadores esperados en condiciones saludables.

6. Resumen y Evaluación de Valor

El NVIDIA Mellanox MQM8790-HS2F ofrece una plataforma de conmutación InfiniBand preparada para el futuro que aborda los desafíos centrales de la interconexión de clústeres RDMA/HPC/IA: latencia, pérdidas, sobrecarga de CPU y escalabilidad. Al implementar la arquitectura Fat-Tree de dos capas descrita anteriormente, las organizaciones pueden lograr una escalabilidad de rendimiento lineal, tiempos de finalización de trabajos predecibles y un TCO significativamente reducido en comparación con las soluciones Ethernet heredadas. La combinación del switch de velocidad HDR de 200 Gb/s, la densidad de 40 puertos y las capacidades de computación en red lo convierten en una opción ideal para implementaciones nuevas o actualizaciones por etapas desde tejidos EDR/HDR. Para los equipos de arquitectura que evalúan clústeres de próxima generación, la solución de switch InfiniBand MQM8790-HS2F ofrece un diseño de referencia probado y listo para producción.