Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Práctica de aplicación del conmutador de banda ancha

January 6, 2026

últimas noticias de la compañía sobre Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Práctica de aplicación del conmutador de banda ancha

Antecedentes y desafíos: el cuello de botella de la red en la computación moderna

En la carrera por el descubrimiento científico y los avances de la IA, las capacidades computacionales de una institución de investigación líder no estaban siendo sofocadas por la falta de potencia de procesamiento en bruto,sino por su tejido de redSu infraestructura HDR InfiniBand existente, aunque capaz, estaba luchando para mantenerse al día con la masiva,las demandas de comunicación sincronizadas de sus nuevos clústeres NVIDIA DGX desplegados y cargas de trabajo HPC tradicionalesLos investigadores se enfrentaron a retrasos significativos en los tiempos de finalización de los trabajos, siendo la latencia de la red y la congestión durante los patrones de comunicación de todos a todos el principal cuello de botella.

El desafío era doble: primero, reducir drásticamente la latencia para las operaciones de acceso remoto directo a memoria (RDMA) críticas para las simulaciones de HPC basadas en MPI.tejido no bloqueante para trabajos de capacitación de IA que requirieron una sincronización constante de parámetros a través de cientos de GPULa institución necesitaba una solución a prueba de futuro que pudiera manejar velocidades NDR de 400Gb/scompatiblescon su ecosistema existente, garantizando un camino de actualización rentable sin una revisión completa.

Solución y implementación: Implementación del tejido 920-9B210-00FN-0D0

Después de una evaluación exhaustiva, la institución seleccionó losNVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo.La solución se centró en el despliegue de múltiples920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDRlos interruptores para formar una capa de columna vertebral de alto ancho de banda y baja latencia, que conecta todos los nodos computacionales y de almacenamiento.

El despliegue fue estructurado como una topología híbrida de árbol de grasa de dos niveles para maximizar el ancho de banda biseccional y minimizar el número de saltos.

  • Cuadro de tejido:Una capa de columna construida enteramente conLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad delos switches, que proporcionan el backbone NDR de 400 Gb/s.
  • Integración sin fisuras:Aprovechando la compatibilidad con versiones anteriores del switch, se conectaron los switches de hoja HDR existentes y los NIC, protegiendo las inversiones anteriores al tiempo que permitían actualizaciones incrementales de nodos a NDR.
  • Administración avanzada:Todo el tejido, incluido el nuevo920-9B210-00FN-0D0 InfiniBand conmutador OPNEl sistema de control de rendimiento de las unidades, fue administrado bajo un solo panel de vidrio utilizando NVIDIA UFM®, lo que permite una telemetría de rendimiento precisa, el aprovisionamiento automatizado de tejidos y el aislamiento rápido de fallas.
  • Validación:El equipo de TI consultó rigurosamente al funcionarioSi el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad.ylas especificacionespara validar el alcance del cable, la potencia y los requisitos de refrigeración en su centro de datos, asegurando un rendimiento óptimo.

Esta arquitectura estableció un sistema unificado920-9B210-00FN-0D0 Solución OPN de conmutador de banda ancha, que sirve tanto a las cargas de trabajo clásicas de HPC de la institución como a las emergentes de IA en una red única y potente.

Efectos y beneficios: ganancias cuantificables en el rendimiento y la eficiencia

El impacto del despliegue de laLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad deEl proyecto de investigación de la empresa fue inmediatamente medible y transformador a través de múltiples dimensiones de sus operaciones.

El método métrico Antes del despliegue Después del despliegue 920-9B210-00FN-0D0
Término de tiempo medio de latencia del MPI ~ 0,7 microsegundos ~0,5 microsegundos
Tiempo de finalización del trabajo de capacitación de IA (modelo grande) 5.2 días 3.8 días(reducción del 27%)
Utilización de tejidos durante el pico de todos A menudo supera el 85%, causando congestión Estable por debajo del 60% a velocidades NDR
Las tareas administrativas (reconfiguración de las fábricas) Procesos manuales y de largo plazo Automatizado mediante la integración UFM®

El beneficio más significativo fue la reducción dramática del tiempo de ejecución de las aplicaciones.Los resultados del estudio mostraron una mejora del 20-30% debido a una latencia de MPI más baja y consistente.Para los equipos de IA, el rendimiento casi teórico de RDMA sobre el nuevo tejido significaba que los recursos de la GPU estaban completamente saturados de computación, no estancados esperando transferencias de red.Al evaluar el total920-9B210-00FN-0D0 precioEn el marco de la contratación pública, la aceleración resultante en los resultados de la investigación produjo un retorno de la inversión convincente, muy superior al gasto inicial de capital.

Conclusión y perspectivas: un proyecto para infraestructuras a prueba de futuro

El éxito de la aplicación de laNVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo.En este entorno de investigación sirve como un poderoso modelo para cualquier organización que enfrente desafíos de interconexión similares.Demuestra que invertir en un tejido de red de vanguardia no es un coste accesorio sino un multiplicador estratégico para las inversiones computacionales.

El despliegue de la institución demuestra que elLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad dees más que un simple interruptor; es una plataforma que permite la convergencia.simplificar las operaciones y acelerar el descubrimientoA medida que esta tecnología se vuelve más disponiblepara la venta, establece un nuevo estándar para lo que es posible en el agrupamiento de alto rendimiento.

Mirando hacia el futuro, la escalabilidad y el margen de maniobra inherentes del tejido NDR 400Gb / s significan que la institución está bien posicionada para integrar recursos informáticos aún más potentes en el futuro.El...Los requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad deha eliminado efectivamente la red como un cuello de botella, permitiendo a los investigadores centrarse únicamente en los límites de sus algoritmos e imaginación.