Solución Técnica de Switch InfiniBand NVIDIA Mellanox MQM9790-NS2F

April 13, 2026

Este documento técnico está diseñado para arquitectos de red, ingenieros de preventa y líderes de operaciones.MQM9790-NS2F: el contenido de agua en el agua un conmutador NDR InfiniBand de 400 Gb/s  y proporciona orientaciones detalladas sobre el diseño de la arquitectura, las tecnologías clave, el despliegue y la ampliación, así como las operaciones y el seguimiento,Específicamente para la optimización de interconexiones de cluster de baja latencia RDMA/HPC/AI.

1Antecedentes del proyecto y análisis de los requisitos

La formación moderna de IA y las cargas de trabajo de HPC están impulsando los clústeres de miles a decenas de miles de GPU.Los tejidos Ethernet tradicionales luchan con la latencia de cola y la sobrecarga de la CPU, mientras que las implementaciones InfiniBand heredadas pueden carecer de suficiente densidad de puertos y ancho de banda. Los requisitos clave incluyen latencia de conmutación de submicrosegundos, reenvío de velocidad de línea completa sin pérdida de paquetes,apoyo RDMA eficiente, y una escalabilidad perfecta a cientos de interruptores.NVIDIA Mellanox MQM9790-NS2F, también conocido como NVIDIA Mellanoxaborda directamente estas necesidades con su capacidad NDR de 400 Gb/s y sus características informáticas avanzadas en red.

2Diseño general de la arquitectura de red y sistema

La arquitectura recomendada adopta una topología Fat-Tree de dos capas (también conocida como Clos plegado), que equilibra el ancho de banda de bisección, el costo y la escalabilidad.Los servidores GPU equipados con adaptadores ConnectX-7 NDR se conectan a los interruptores de hojaEn la capa de la columna vertebral,MQM9790-NS2F Conmutador de banda anchaEste diseño garantiza un ancho de banda de bisección completo: cualquier interruptor de hoja puede comunicarse con cualquier otra hoja a velocidad de cable.se puede desplegar una topología de tres capas (leaf-spine-super-spine), soportando hasta decenas de miles de nodos de GPU.

Los interruptores de las hojas:Modelos OSFP de 64 puertos, cada uno conectado a 32 servidores (doble puerto) más enlaces ascendentes a espinas.
Capa de la columna: MQM9790-NS2F 400Gb/s NDR OSFP de 64 puertosUn diseño totalmente no bloqueante requiere puertos de columna vertebral iguales al número de interruptores de hoja.
Administración de subredes:Un administrador de subred dedicado o redundante maneja el cálculo de rutas, el enrutamiento adaptativo y el cambio de fallo.

3. Papel y características clave de la NVIDIA Mellanox MQM9790-NS2F en la solución

Como el núcleo de la columna vertebral y dispositivo de hoja opcionalmente, elMQM9790-NS2F: el contenido de agua en el aguaofrece varias capacidades críticas:

El rendimiento de la velocidad de línea NDR de 400 Gb/s:Cada uno de los 64 puertos OSFP opera a 400Gb/s duplex completo, proporcionando una capacidad de conmutación agregada de 51.2Tb/s.
Latencia muy baja y enrutamiento adaptativo:La conmutación de corte mantiene la latencia de puerto a puerto por debajo de 130 ns. El enrutamiento adaptativo equilibra dinámicamente el tráfico a través de múltiples rutas, evitando puntos calientes.
Computación en red (SHARPv3):Soporta agregación y reducción jerárquica escalable, descargando operaciones colectivas de la CPU / GPU y reduciendo el movimiento de datos hasta 10 veces.
Diseño nativo RDMA:El RDMA acelerado por hardware permite el acceso directo a la memoria de la GPU, eliminando la participación de la CPU y reduciendo drásticamente la sobrecarga de comunicación.
Telemetría completa y calidad de servicio:El control de la congestión, el monitoreo del búfer y la clasificación del flujo garantizan un rendimiento determinista para cargas de trabajo mixtas.

De acuerdo con elSe aplicará el método de evaluación de la calidad de los productos., el interruptor también admite fuentes de alimentación y ventiladores intercambiables en caliente, puertos de administración redundantes y un conjunto completo de diagnósticos, lo que lo hace adecuado para entornos de producción 7 × 24.

4Recomendaciones de implementación y escalado (con topología típica)

Un clúster típico de 2.048 GPU se puede construir utilizando 64 switches de hoja y 32 switches de columna vertebral.MQM9790-NS2F compatibles con el nuevo sistemaPara la expansión a 8,192 GPU, se agrega una capa superespinal, que interconecta múltiples pods.

Al escalar, considere lo siguiente:

Cables y óptica:Utilice los DAC OSFP a OSFP para enlaces cortos dentro del rack y los cables de salida OSFP a 4xOSFP o módulos ópticos para distancias más largas.Las especificaciones MQM9790-NS2FEn cuanto al alcance y el presupuesto de energía.
Tamaño de la subred:Un solo administrador de subred puede manejar hasta 2.000 nodos; más allá de eso, despliega múltiples subred o utiliza un diseño de administrador de subred distribuido.
Redundancia:Los servidores de doble domicilio y los interruptores de columna redundantes eliminan los puntos de falla individuales.MQM9790-NS2F Solución de conmutador de banda anchaadmite el cambio de dirección sin golpes con la configuración SM adecuada.

5. Operaciones, monitoreo, solución de problemas y optimización

Las operaciones eficaces requieren visibilidad y automatización.

Monitoreo:Utilice el Administrador de tejidos y las API de telemetría de NVIDIA para realizar un seguimiento de los errores de puerto, la temperatura, el consumo de energía y la utilización del enlace.
Solución de problemas:ElMQM9790-NS2F: el contenido de agua en el aguaproporciona contadores por puerto, histogramas de ocupación de búfer y registros de congestión. En caso de deterioro del rendimiento, compruebe la configuración de enrutamiento adaptativo, asegúrese de que todos los enlaces de tejido sean simétricos,y verificar que la agregación SHARP está habilitada para los colectivos apoyados.
Optimización:Ajuste los parámetros de enrutamiento adaptativos basados en la carga de trabajo (por ejemplo, sensibles a la latencia vs. sensibles al rendimiento).Revisar regularmente lasPrecio MQM9790-NS2FLas inversiones en el sector de la construcción y la construcción de nuevas instalaciones de construcción y construcción de nuevas instalaciones de construcción y construcción de nuevas instalaciones

Para las organizaciones que evalúanMQM9790-NS2F para la venta, asegúrese de que su pila de software (por ejemplo, NCCL, OpenMPI) admita características NDR como SHARPv3 y reducción basada en hardware.

6Resumen y evaluación del valor

ElMQM9790-NS2F Solución de conmutador de banda anchaofrece un camino claro para construir tejidos de baja latencia y alto ancho de banda para los clusters RDMA/HPC/AI más exigentes.Las capacidades de computación en red y en red abordan directamente los desafíos de escalabilidad y rendimiento de las cargas de trabajo modernas.. Al adoptar la arquitectura descrita anteriormente topología Fat-Tree, conmutadores de núcleo NDR y operación nativa de RDMA las organizaciones pueden lograr el escalado lineal de la GPU, reducir los tiempos de finalización de los trabajos en más del 30%,Para una planificación detallada, consulte elSe aplicará el método de evaluación de la calidad de los productos.Para discutir un diseño personalizado o obtenerPrecio MQM9790-NS2Fy disponibilidad, póngase en contacto con un socio autorizado de NVIDIA.