NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch en acción: Optimización de la interconexión de baja latencia

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch en acción: Optimización de interconexión de baja latencia para racimos RDMA / HPC / AI

En la capacitación de IA, las simulaciones de computación de alto rendimiento (HPC) y el almacenamiento distribuido a gran escala, la latencia y el ancho de banda de la red a menudo dictan el límite superior de la eficiencia del clúster.Para ayudar a las organizaciones a superar este cuello de botella, elMQM9790-NS2F: el contenido de agua en el aguaEl switch InfiniBand de NVIDIA Mellanox se está convirtiendo en un componente de interconexión central en muchas implementaciones de IA y HPC.ilustrando cómo este interruptor ofrece redes RDMA de baja latencia y ganancias de rendimiento medibles.

Antecedentes y desafío: de la presión de red de mil GPU a diez mil GPU

Una institución de investigación líder operaba anteriormente un grupo de mil GPU para el entrenamiento de grandes modelos de lenguaje y la simulación del clima.A medida que los parámetros del modelo crecieron de decenas de miles de millones a cientos de miles de millones, la red HDR InfiniBand de 200Gb/s existente comenzó a experimentar congestión y aumento de los gastos de comunicación.y las GPU frecuentemente inactivas mientras esperan las transferencias de redLos arquitectos necesitaban con urgencia una solución que ofreciera una mayor densidad de puertos, un balance de carga más preciso y una plena compatibilidad con la infraestructura RDMA existente.

Después de una evaluación exhaustiva, el equipo seleccionó un tejido InfiniBand de grado NDR basado en elNVIDIA Mellanox MQM9790-NS2F, también conocido como NVIDIA MellanoxCon 64 puertos OSFP, cada uno operando a una velocidad de línea de 400Gb / s, el switch se ajusta perfectamente a las demandas de rendimiento de los servidores GPU de próxima generación.

Solución y implementación: NDR Fabric + Red RDMA sin pérdidas

En el nuevo diseño, cada servidor GPU está equipado con adaptadores ConnectX‐7 de doble puerto, conectados a dos interruptores de hoja.MQM9790-NS2F 400Gb/s NDR OSFP de 64 puertoslos switches forman una topología Fat-Tree de dos capas utilizando una arquitectura Clos no bloqueadora.Aprovechando la RDMA nativa de InfiniBand para transferir datos directamente de la memoria de GPU a la memoria remota de GPU, evitando la CPU y la carga de software.

Utilización del puerto y compatibilidad:Los adaptadores HDR existentes pueden funcionar a velocidades reducidas, protegiendo así las inversiones previas.MQM9790-NS2F compatibles con el nuevo sistemaLa lista cubre los servidores y sistemas de almacenamiento de GPU convencionales, que no requieren modificaciones de controladores durante la implementación.
Operaciones inteligentes:Los monitores telemétricos integrados enlazan los errores y la congestión en tiempo real, ayudando a los equipos a aislar rápidamente los problemas del módulo óptico o del cable y reduciendo drásticamente el tiempo medio de reparación.

Resultados y beneficios: el tiempo de iteración de la formación se redujo en un 38%, el gasto general de la red se redujo a un 8%

En un proyecto de formación preliminar de 100 mil millones de parámetros de tipo GPT, el clúster basadoMQM9790-NS2F Conmutador de banda anchaEl tiempo de iteración se redujo de 2,8 segundos a 1,73 segundos, lo que supone una mejora del 38%.lo que significa que las GPU pasaron significativamente más tiempo en el cálculo útilGracias a la computación en red SHARPv3 dentro del switch NDR, la utilización del ancho de banda de All-Reduce casi se duplicó.

En el lado del almacenamiento, la NVMe de baja latencia en InfiniBand aumentó el ancho de banda agregado de lectura / escritura del sistema de archivos paralelos en 2,3 veces.Los tiempos de almacenamiento y restauración de puntos de control se redujeron de 12 minutos a menos de 5 minutosEstas cifras se recogen en los informes internos de ensayos y se alinean con lasLas especificaciones MQM9790-NS2Fla línea de base.

Resumen y perspectivas: La interconexión NDR como opción predeterminada para la infraestructura de IA de próxima generación

Este caso demuestra claramente que, para los clusters RDMA/HPC/IA de gran escala, la adopción deMQM9790-NS2F Solución de conmutador de banda anchaPara los arquitectos que planean clusters de diez mil GPU, el sistema de procesamiento de datos es el más adecuado.Se aplicará el método de evaluación de la calidad de los productos.El modelo está ahora en producción en serie; para elPrecio MQM9790-NS2Fo bienMQM9790-NS2F para la ventaLas futuras cargas de trabajo impulsarán la demanda hacia 800Gb/s y más allá.La plataforma de conmutación NDR seguirá desempeñando un papel fundamental en el desbloqueo del potencial informático.