Mellanox (NVIDIA) 920-9B110-00FH-0D0 Práctica de aplicación de conmutadores de banda ancha
January 5, 2026
Antecedentes y desafío: el cuello de botella de la red en un centro de investigación de IA multimodal
Un importante centro de investigación de IA multimodal, cuyo trabajo abarca la capacitación de modelos de lenguaje grandes, simulaciones informáticas científicas y desarrollo de sistemas autónomos, se enfrentaba a un muro de escalabilidad crítico.Su tejido Ethernet existente de 100Gb/s luchó bajo el intensoLos principales desafíos eran triples: tiempos de finalización impredecibles de los trabajos debido a la congestión de la red,utilización ineficiente de la GPU a menudo por debajo del 60%La necesidad de un tejido determinista y de ultrabaja latencia era primordial.
Solución y implementación: Arquitectura con el 920-9B110-00FH-0D0 InfiniBand Switch OPN
Los ingenieros del centro diseñaron un nuevo cluster basado en el NVIDIA Mellanox 920-9B110-00FH-0D0.Utilizando estos interruptores como ambos nodos de la hoja y la columna vertebralEl núcleo HDR **920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s** proporcionó el ancho de banda bidireccional necesario y la densidad de puertos para interconectar más de 1,000 GPUs NVIDIA A100 y H100 sin problemas.
Las decisiones clave de despliegue incluyen:
- La Fundación de Tejido:La estandarización en el **920-9B110-00FH-0D0** garantizó un tejido homogéneo y de alto rendimiento, simplificando la gestión y la solución de problemas.
- Habilitación de la computación en red:El Protocolo de Agregación y Reducción Jerárquica Escalable (SHARP) TM de NVIDIA se activó en todo el tejido, descargando operaciones colectivas (como All-Reduce) de la CPU a la red de conmutadores.
- RDMA de extremo a extremo:El ecosistema **920-9B110-00FH-0D0 compatible**, incluidos los adaptadores ConnectX-7, permitió una verdadera ruta RDMA (Remote Direct Memory Access) de extremo a extremo,eludir el sistema operativo y las CPU para el movimiento de datos.
- Gestión inteligente:El tejido fue administrado por NVIDIA UFM®, proporcionando una telemetría profunda e información impulsada por IA para un monitoreo proactivo de la salud y la optimización del rendimiento.
Resultados y beneficios: ganancias cuantificables en el rendimiento y la eficiencia
El despliegue de la solución OPN de conmutación InfiniBand **920-9B110-00FH-0D0** produjo resultados transformadores, abordando directamente los desafíos iniciales.Las métricas de rendimiento fueron capturadas antes y después de la migración.
| El método métrico | Red anterior | con 920-9B110-00FH-0D0 de tejido | Mejora |
|---|---|---|---|
| Utilización media de la GPU | ~58% | ~92% | +59% |
| Reducción total de la latencia (4KB) | 15 μs | 5 μs | Reducción del 67% |
| Tiempo de formación de modelos de gran tamaño (punto de referencia) | Línea de base (100%) | 41% de la línea de base | 2.4 veces más rápido |
| Límites de escalabilidad de los grupos | 256 nodos | 1024+ nodos (validados) | Escala 4x+ |
Los beneficios se extendieron más allá de la velocidad bruta. La eficiencia operativa mejoró debido a los tiempos de finalización predecibles de los trabajos. Los investigadores ahora podían lanzar experimentos más grandes y complejos con confianza.Acelerar el ritmo de la innovaciónLas robustas especificaciones **920-9B110-00FH-0D0**, detalladas en su ficha de datos oficial, proporcionaron la confianza de ingeniería necesaria para este despliegue de misión crítica.
Conclusión y perspectivas futuras
Este caso de aplicación demuestra claramente que el **Mellanox (NVIDIA) 920-9B110-00FH-0D0** es mucho más que un simple componente de conmutación;es un facilitador computacional para la IA moderna y la infraestructura HPCAl proporcionar una baja latencia determinista, aprovechando la computación en la red y permitiendo una RDMA sin fisuras, transforma el rendimiento del clúster de un cuello de botella en una ventaja competitiva.
El éxito de este despliegue subraya el valor de la solución OPN integrada **920-9B110-00FH-0D0 de conmutadores InfiniBand**.los principios arquitectónicos habilitados por este cambio se convertirán en el estándar de factoPara las organizaciones que evalúan el **920-9B110-00FH-0D0 a la venta** y su **920-9B110-00FH-0D0 precio** frente al costo total de propiedad,Este caso proporciona un argumento convincente para invertir en una red que desbloquee todo el potencial de cada dólar de computación gastado.

