Conmutador InfiniBand Mellanox (NVIDIA) MQM9790-NS2F en acción | Optimización de interconexión de baja latencia para RDMA/HPC/AI
May 28, 2026
A medida que los grupos de capacitación de IA a gran escala y los centros de computación de alto rendimiento (HPC) elevan los requisitos de ancho de banda y latencia de la red a niveles sin precedentes,Las soluciones Ethernet tradicionales luchan cada vez más con el control de congestión y la latencia de cola impredecible bajo cargas de trabajo RDMAUn importante centro nacional de supercomputación se enfrentó recientemente exactamente a este reto al actualizar su clúster de GPU de próxima generación.Mellanox (NVIDIA) MQM9790-NS2F, también conocido como MellanoxEn la actualidad, la mayoría de los grupos de trabajo se encuentran en la misma situación que en los años anteriores.
Antecedentes y desafío: El muro de escalabilidad
El centro de supercomputación HDR InfiniBand estaba funcionando casi saturado con más de 2.000 GPUs ejecutando trabajos paralelos de entrenamiento de IA.Las operaciones de comunicación colectiva como all-reduce y all-to-all estaban experimentando picos significativos de latencia de cola.La red se había convertido en el cuello de botella principal, causando tiempo de inactividad de la GPU que desperdiciaba tanto recursos computacionales como energía.Los ingenieros estimaron que casi el 30% de los ciclos de computación se perdieron por gastos de comunicación durante las carreras de entrenamiento distribuidas a gran escala.
Lo que el equipo necesitaba era un interruptor capaz de entregar400 Gb/s por puertoEn la actualidad, la tecnología de HDR se ha convertido en una herramienta muy útil para el desarrollo de sistemas de procesamiento de datos, con soporte nativo RDMA y aceleración de la computación en red, todo ello manteniendo la compatibilidad con la infraestructura HDR existente.Se aplicará el método de evaluación de la calidad de los productos.yLas especificaciones MQM9790-NS2F, determinaron que elMQM9790-NS2F Conmutador de banda anchaofreció el equilibrio ideal de densidad, rendimiento y conjunto de características.
Solución y implementación: una actualización de la tela NDR de 64 puertos
El centro desplegó cuatroMQM9790-NS2F 400Gb/s NDR OSFP de 64 puertosconmutadores en una topología de hoja de columna vertebral, interconectando 2.048 GPU en 64 nodos de cómputo. Cada nodo se conecta a través de un solo cable divisor OSFP a 4x100Gb/s,Proporcionar un ancho de banda agregado de 400 Gbps por servidor y optimizar la densidad de gestión de cables.
| Parámetro de despliegue | Configuración |
|---|---|
| Modelo del interruptor | NVIDIA Mellanox MQM9790-NS2F, también conocido como NVIDIA Mellanox(4 unidades) |
| Configuración del puerto | 64x OSFP, 400Gb/s NDR por puerto |
| Total de las GPU | 2,048 (NVIDIA H100) |
| Características de la red | SHARPv3, enrutamiento adaptativo, control de congestión. |
La clave para el despliegue fue garantizar laMQM9790-NS2F compatibles con el nuevo sistemael funcionamiento con los adaptadores de extremo HDR existentes. The switch’s automatic speed negotiation and link-layer translation allowed a phased migration strategy — legacy nodes operate at HDR speeds while new NDR-capable servers leverage full 400Gb/s bandwidthEl centro también utilizó la agregación en red de SHARPv3, reduciendo el tráfico total en más del 65% para los grandes tamaños de mensajes que se encuentran comúnmente en la capacitación de LLM.
Para aquellos que evalúan mejoras similares,Precio MQM9790-NS2Flas investigaciones yMQM9790-NS2F para la ventaEn la actualidad, la disponibilidad de la información ha aumentado significativamente entre los clientes empresariales y de investigación.El cambio de coste total de propiedad competitivo factoring en el menor número de interruptores debido a la densidad de 64 puertos hace que sea una opción atractiva tanto para nuevas construcciones y proyectos de actualización.
Resultados y beneficios: ganancias de rendimiento medibles
- La latencia de reducción total (mensaje de 1 GB):Reducido de 48 μs a 19 μs (mejora del 60%)
- Utilización efectiva de la GPU:Aumento del 71% al 93% durante la formación a gran escala
- Tiempo de finalización del trabajo (equivalente a GPT-3 175B):Reducido en un 41%
- La latencia de cola inducida por la red (percentil 99):Cortado de 210 μs a menos de 35 μs
Como unMQM9790-NS2F Solución de conmutador de banda ancha, el despliegue demostró que los tejidos NDR de 400Gb/s pueden cumplir sus promesas teóricas.La combinación de algoritmos de control de congestión y enrutamiento adaptativo eliminó los patrones de colapso "incast" que plagaron el tejido HDR anterior durante las fases de comunicación de todos a todos.
Resumen y perspectivas: Una fundación para la IA exascale
El éxito del centro de supercomputaciónMQM9790-NS2F: el contenido de agua en el aguaAhora están planeando una segunda fase que duplicará el recuento de GPU a 4,096 utilizandoMQM9790-NS2F 400Gb/s NDR OSFP de 64 puertosLas funciones de telemetría y gestión fuera de banda de los switches también han permitido evitar la congestión de forma predictiva.reducción de los gastos generales operativos del equipo de red.
Para los arquitectos de red y los gerentes de TI que evalúan los tejidos de próxima generación, elNVIDIA Mellanox MQM9790-NS2F, también conocido como NVIDIA Mellanoxsea que esté construyendo un nuevo clúster de investigación de IA o mejorando una instalación de HPC existente, este switch ofrece la baja latencia,fundamento de gran ancho de banda requerido para cargas de trabajo paralelas modernas.

