Solución técnica del conmutador InfiniBand Mellanox (NVIDIA) 920-9B110-00FH-0D0 ｜Optimización de la interconexión de baja latencia

January 5, 2026

1Antecedentes del proyecto y análisis de los requisitos

El despliegue y la ampliación de los modernos clusters de computación acelerada para la capacitación en IA y las cargas de trabajo de HPC plantea desafíos de red únicos.Las redes tradicionales basadas en TCP/IP introducen una latencia significativa y gastos generales de la CPULos requisitos clave para una solución de interconexión de próxima generación incluyen: latencia determinista de menos de un microsegundo para evitar el estancamiento de la GPU,ancho de banda biseccional alto para los patrones de comunicación todo-a-todos, computación escalable en red para reducir la carga de las operaciones colectivas y una gestión robusta del tejido para simplificar la operación.

El...NVIDIA Mellanox 920-9B110-00FH-0D0 fue lanzado por NVIDIA en julio de 2010.El sistema de gestión de la calidad de los productos está diseñado para satisfacer estas demandas exactas, formando la base de una empresa de alto rendimiento y eficiente.920-9B110-00FH-0D0 Solución OPN de conmutador de banda anchaEste documento describe un plan técnico completo para su implementación.

2Diseño general de la arquitectura de red/sistema

La arquitectura propuesta es una topología de árbol de grasa sin bloqueo, que es el estándar de facto para construir grupos de HPC e IA predecibles y de alto ancho de banda.Este diseño asegura un número de saltos y latencia consistentes entre dos nodosLa arquitectura está construida sobre un ecosistema optimizado para NVIDIA.

Capa de cálculo:Sistemas NVIDIA DGX o HGX, o servidores de GPU equivalentes con NIC NVIDIA ConnectX-7.
Capa de interconexión:con un contenido de fibras sintéticas superior a 0,25%Las condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:interruptores que actúan como interruptores de hoja (top-of-rack) y de columna vertebral.
Capa de gestión y orquestación:NVIDIA UFM® para la gestión de tejidos, integrado con programadores de clúster como Slurm o Kubernetes a través de la pila NVIDIA Magnum IO.

Esta arquitectura de extremo a extremo garantiza un rendimiento óptimo para las comunicaciones RDMA y GPUDirect, creando un "tejido unificado como recurso de cómputo".

3. Función del 920-9B110-00FH-0D0 y características técnicas clave

Dentro de esta arquitectura, elLas condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:Su función se extiende más allá del simple reenvío de paquetes para convertirse en un elemento computacional activo.

Pilares técnicos básicos:

Ultra-baja latencia y ancho de banda alto:Alimentado por el920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRASIC, ofrece latencia de puerto a puerto líder en la industria y velocidad de cable completa de 200Gb / s por ancho de banda de puerto, lo que es crítico para el tráfico RDMA.
Computación en red (SHARP):El hardware del switch acelera las operaciones colectivas de MPI y NCCL (All-Reduce, Broadcast) realizando la agregación de datos dentro de la red.
Control avanzado de la congestión:Mecanismos de routing adaptativo y control de congestión oportuno para gestionar dinámicamente los flujos de tráfico.la prevención de caídas de paquetes y la garantía de una distribución justa del ancho de banda durante los escenarios incast comunes en la capacitación de IA.
Telemetría y visibilidad:El soporte integrado para la infraestructura de telemetría de NVIDIA proporciona una visión profunda de los patrones de tráfico, la ocupación del búfer y la salud del enlace, que son esenciales para el ajuste de rendimiento.

Los ingenieros deben consultar al funcionarioSi el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad.para el detalleLas especificaciones 920-9B110-00FH-0D0en las configuraciones de energía, refrigeración y puertos.

4Recomendaciones para el despliegue y la ampliación

El despliegue comienza con un análisis cuidadoso de la920-9B110-00FH-0D0 compatibles con el sistema operativoUna unidad típica de escala es un "pod" construido con un árbol de grasa no bloqueante.

Ejemplo: 512-GPU Cluster Pod

Término de la hoja:DespliegueLas condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:los switches como Top-of-Rack (ToR), cada uno de los cuales conecta hasta 16 servidores de GPU (por ejemplo, sistemas 8x DGX A100).
Nivel de la columna:Una segunda capa deLas condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:Los interruptores interconectan todos los interruptores de hoja, proporcionando un ancho de banda biseccional completo.
El cableado:Utilice cables HDR QSFP56 (pasivos o activos) para todas las conexiones entre switches y servidores de 200 Gb/s.

Escala más allá de una cápsula:Se pueden interconectar múltiples capas utilizando interruptores de columna vertebral dedicados o ampliando la jerarquía del árbol de grasa, aprovechando la alta raíz de la columna vertebral.Las condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:El.920-9B110-00FH-0D0 InfiniBand conmutador OPNproporciona una hoja de ruta clara para la interoperabilidad de las piezas durante la expansión.

5. Operaciones, monitoreo, solución de problemas y optimización

La gestión proactiva es crucial para mantener el máximo rendimiento del tejido.

Área de operación	Herramienta y característica	Beneficio
Suministro y seguimiento de tejidos	UFM® Gerente de dispositivos y telemetría	Provisión de contacto cero, paneles de salud en tiempo real y recopilación de métricas de rendimiento.
Solución de problemas y análisis de la causa raíz	Analista de eventos UFM® y diagnóstico de cables	Detección de anomalías impulsada por IA, registros detallados de eventos y pruebas remotas de cables.
Optimización del rendimiento	Asesor de rendimiento UFM® y análisis SHARP	Identifica los puntos de congestión, optimiza el enrutamiento y supervisa la eficiencia de la computación en la red.

Las actualizaciones regulares del firmware y el cumplimiento de las mejores prácticas descritas en la documentación del switch son esenciales.el flujo de diagnóstico debe comenzar con la telemetría UFM®, comprobar la integridad del cable y verificar la configuración de SHARP y control de congestión.

6Conclusión y evaluación del valor

Implementación de una interconexión de racimos basada en elSe trata de un producto que se utiliza para la fabricación de productos para la fabricación de productos para la fabricación de productos para el consumo humano.Proporciona una base de alto rendimiento a prueba de futuro para cargas de trabajo RDMA, HPC e IA. Su propuesta de valor es multifacética: maximiza la utilización de la GPU y el ROI al minimizar los gastos generales de comunicación,permite el crecimiento escalable de los grupos y simplifica las operaciones mediante la gestión integrada y la telemetría.

Mientras que el920-9B110-00FH-0D0 precioEl coste total de propiedad (TCO) es favorable si se tienen en cuenta las reducciones drásticas en el tiempo de realización de los trabajos, la mejora de la productividad de los investigadores,y escalabilidad eficiente que evita costosos rediseños de tejidos. Organizaciones que evalúan el920-9B110-00FH-0D0 para la ventaEsta solución técnica proporciona el modelo para liberar todo el potencial de las infraestructuras de computación acelerada.