Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Solución técnica del conmutador de banda ancha
April 15, 2026
1Antecedentes del proyecto y análisis de los requisitos
Los clusters de entrenamiento de IA modernos y los entornos de computación de alto rendimiento (HPC) se enfrentan a un desafío común de escalabilidad: a medida que aumentan los recuentos de GPU y la densidad de cómputo,Los tejidos Ethernet tradicionales se convierten en el cuello de botella principal debido a la sobrecarga TCP/IPPara cargas de trabajo que dependen de RDMA (Remote Direct Memory Access), incluso el jitter de nivel de microsegundo puede reducir la utilización efectiva de la GPU en un 30-40%.Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 (incluido el juego)El switch InfiniBand aborda directamente estos desafíos al proporcionar un tejido determinista sin pérdidas optimizado para operaciones colectivas, algoritmos de reducción total y comunicaciones MPI de alta frecuencia.
Los requisitos clave para las redes de IA/HPC de próxima generación incluyen: latencia de conmutación de submicrosegundos, soporte para velocidades NDR de 400Gb/s, computación en red basada en hardware (SHARP v2),y compatibilidad con la infraestructura HDR existenteEl.Los requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas decumple con todos estos criterios, ofreciendo al mismo tiempo una capacidad de gestión y telemetría de nivel empresarial.
2Diseño general de la arquitectura de red y sistema
La arquitectura recomendada se centra en una topología de dos capas de árbol de grasa (espina dorsal-hoja),que proporciona ancho de banda de bisección completo y latencia determinista para los patrones de comunicación todo a todos típicos en el entrenamiento distribuidoLa capa de la columna vertebral se compone deNVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo.interruptores, cada uno de los cuales funciona como una columna vertebral de tejido NDR. Los interruptores de hoja (por ejemplo, la serie QM9700) se conectan a nodos de cómputo a través de adaptadores ConnectX-7 o BlueField-3,mientras que los enlaces ascendentes a la columna ejecutan a velocidades NDR de 400Gb/s.
Para las implementaciones a gran escala que superen las 2.000 GPU, se puede implementar una arquitectura de tres niveles (acceso de agregación de núcleos), con el920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDREste diseño garantiza una escalabilidad de rendimiento lineal y admite una futura expansión a NDR200 (800Gb/s) sin necesidad de una actualización de carretilla elevadora.El funcionario920-9B210-00FN-0D0 InfiniBand conmutador OPNSimplifica la adquisición en varios sitios y garantiza la coherencia del firmware en todo el tejido.
3. Función y características clave del 920-9B210-00FN-0D0 en la solución
ElLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas desirve como el eje central de alto rendimiento dentro del tejido InfiniBand. Sus capacidades clave incluyen:
- Densidad de puerto NDR de 400 Gb/s:Cada uno920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDREl switch proporciona hasta 32 puertos de 400Gb/s, soportando transceptores de cobre y ópticos para cableado flexible hasta 500 metros (modo único).
- Computación en red (SHARP v2):Las operaciones de reducción total aceleradas por hardware reducen el tiempo de comunicación colectiva hasta 8 veces para las cargas de trabajo de capacitación de IA, mejorando directamente la utilización de la GPU.
- Enrutamiento adaptativo y control de congestión:La selección dinámica de la ruta evita la formación de puntos de acceso y garantiza la latencia determinista bajo patrones de tráfico incast.
- RDMA sobre Ethernet convergente (RoCE) Alternativa:A diferencia de RoCE, la banda InfiniBand nativa en elLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas deNo requiere ninguna configuración PFC y ofrece un rendimiento constante incluso a un 95% de utilización del enlace.
Los ingenieros pueden consultar elSi el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad.yLas especificaciones 920-9B210-00FN-0D0El interruptor está completamente conectado a una red de control de velocidad de alta velocidad.920-9B210-00FN-0D0 compatibles con el sistema operativocon todos los principales terminales NVIDIA InfiniBand y ópticas NDR de terceros.
4Recomendaciones de implementación y escalado (ejemplos de topología)
Cluster pequeño (128-256 GPU):Una columna de 2xLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas deCada uno de ellos se conecta a 8-16 interruptores de hojas, proporcionando un ancho de banda de bisección y redundancia.Cluster medio (512-1024 GPUs):Cuatro interruptores de columna vertebral en una configuración sin bloqueo, con cada interruptor de hoja con 4 enlaces ascendentes (2 por columna vertebral).Clúster grande (2048+ GPUs):Capa del núcleo de 8xNVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo.Todos se interconectan a 400Gb/s NDR, con disponibilidad NDR200 opcional.
Para las organizaciones que evalúan los costes, el920-9B210-00FN-0D0 precioLas unidades están disponibles en el mercado en el Reino Unido y en el Reino Unido.920-9B210-00FN-0D0 para la ventaA través de la red de distribución autorizada de NVIDIA, con tiempos de entrega típicos de 4-6 semanas.
5. Operaciones, monitoreo, solución de problemas y optimización
La gestión está centralizada a través de NVIDIA Unified Fabric Manager (UFM), que proporciona telemetría en tiempo real, análisis predictivo de fallos y reparación automatizada.920-9B210-00FN-0D0 Solución OPN de conmutador de banda anchaincluyen:
- Las líneas de referencia de rendimiento:Utilice los mapas de calor de latencia de UFM para identificar las micro-explosiones.Las especificaciones 920-9B210-00FN-0D0confirmar los contadores de hardware para las marcas ECN y la ocupación del búfer.
- Administración del firmware:Mantenga todas las unidades en la misma rama de firmware NDR.Si el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad.incluye una matriz de compatibilidad para ConnectX-7 y BlueField-3.
- Escenarios de fallas:Las fuentes de alimentación redundantes y los módulos de ventiladores permiten una redundancia de N + 1.
- Consejos de optimización:Habilitar el enrutamiento adaptativo en todos los puertos de la columna vertebral; desactivar los marcos de pausa global; configurar SHARP para todas las cargas de trabajo de reducción intensiva; utilizar el920-9B210-00FN-0D0 InfiniBand conmutador OPNIdentificadores para asignar puertos físicos a funciones lógicas.
6Resumen y evaluación del valor
ElMellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 (incluido el juego)representa un elemento fundamental para las telas de IA y HPC de alto rendimiento. Al ofrecer ancho de banda NDR de 400 Gb/s, latencia de conmutación de submicrosegundos y computación en red SHARP v2,elimina los cuellos de botella de la red que normalmente limitan la escalabilidad de la GPUEl.Los requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas deNo es sólo un interruptor, es un completo920-9B210-00FN-0D0 Solución OPN de conmutador de banda anchaEsto incluye la plena compatibilidad con las infraestructuras HDR existentes, la capacidad de gestión de nivel empresarial a través de UFM y una ruta de migración clara a futuras velocidades NDR200.Para arquitectos de red y administradores de TI que buscan optimizar el rendimiento de las interconexiones de racimos RDMA/HPC/IA, este interruptor ofrece un ROI medible a través de una mayor utilización de la GPU, tiempos de finalización de trabajos reducidos y menores gastos generales operativos.
Referencia de las especificaciones clave
| Parámetro | Valor |
|---|---|
| Modelo | NVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo. |
| Tasa de datos | NDR de 400 Gb/s (por puerto) |
| OPN de base | 920-9B210-00FN-0D0 InfiniBand conmutador OPN |
| Configuración completa | 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR |
| Cambiar la latencia | < 200 ns |
| Consumo de energía | Se trata de un sistema de transmisión de energía que permite la transmisión de energía a través de un circuito eléctrico. |

