Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 en Acción: Optimizando Interconexiones de Baja Latencia para Clústeres RDMA/HPC/IA

April 14, 2026

últimas noticias de la compañía sobre Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 en Acción: Optimizando Interconexiones de Baja Latencia para Clústeres RDMA/HPC/IA

En la era de la formación de modelos de IA a gran escala y HPC exascale, la latencia de red se ha convertido en el cuello de botella más crítico que limita la escalabilidad del clúster lineal.,ElMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 (incluido el equipo de producción)InfiniBand Switch está transformando la forma en que las instituciones de investigación y los laboratorios de IA de las empresas diseñan sus tejidos de alto rendimiento.Las condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:ofrece una latencia determinística y ultrabaja para cargas de trabajo intensivas en RDMA.

Antecedentes y desafío: El muro de comunicación del clúster de IA

Un centro de investigación de IA de tamaño medio estaba luchando con el tiempo de inactividad de la GPU durante el entrenamiento distribuido a través de 64 nodos.Las operaciones de comunicación colectiva (all-reduceLos arquitectos de red necesitaban una solución sin pérdidas y de alto rendimiento capaz de escalar a 200Gb/s por puerto, manteniendo una latencia de menos de un microsegundo..Después de evaluar las opciones disponibles, el equipo seleccionó el920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRcomo el bloque de construcción principal para su nueva topología de la columna vertebral.

Solución y implementación: Implementación del tejido InfiniBand

El despliegue se centró enNVIDIA Mellanox 920-9B110-00FH-0D0 fue lanzado por NVIDIA en julio de 2010.Cada nodo de cómputo estaba equipado con adaptadores HDR ConnectX-6, conectándose a los interruptores de hoja a través de cables de cobre pasivos.Incluidos los principales pasos de aplicación:

  • Alternativa RDMA sobre Ethernet convergente (RoCE):Nativa InfiniBand con control de congestión basado en hardware eliminado caídas de paquetes por completo.
  • Enrutamiento adaptativo:El920-9B110-00FH-0D0 Solución OPN de conmutador de banda anchapermitió el equilibrio dinámico de carga en múltiples trayectorias, evitando la formación de puntos calientes.
  • Gestión de los tejidos:Utilizando el Administrador de Subredes (OpenSM) conLas especificaciones 920-9B110-00FH-0D0confirmando el soporte de hasta 2.000 nodos en un solo tejido.

Antes de la adquisición, los ingenieros revisaron losSi el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad.El objetivo es validar la compatibilidad con la óptica existente.920-9B110-00FH-0D0 compatibles con el sistema operativoEn cuanto al presupuesto, el proyecto incluyó todos los grandes conjuntos de cables HDR, simplificando la factura de materiales.920-9B110-00FH-0D0 precioEn la actualidad, la tecnología HDR ha demostrado ser competitiva frente a los switches HDR alternativos, y las unidades estaban fácilmente disponibles (920-9B110-00FH-0D0 para la venta) a través de los socios de canal de NVIDIA.

Resultados y beneficios: ganancias de rendimiento medibles

La telemetría posterior al despliegue reveló mejoras dramáticas en tres métricas clave:

El método métrico Antes (100GbE) Después de (920-9B110-00FH-0D0 HDR) Mejora
La velocidad media de latencia de reducción total (64 nodos) 340 μs 78 μs Reducción del 77%
Tiempo de inactividad de la GPU (gastos generales de comunicación) El 38% El 11% Ganancia absoluta del 27%
Utilización efectiva del ancho de banda de las telas El 62% El 94% +32%

Más allá de los números en bruto, el920-9B110-00FH-0D0 InfiniBand conmutador OPNpermitió al equipo escalar de 64 a 256 nodos sin rediseñar la tela.La latencia determinista proporcionada por el control de flujo basado en créditos de InfiniBand resultó esencial para mantener la consistencia del entrenamiento en cientos de GPULos ingenieros también aprovecharon elLas condiciones de los requisitos de seguridad de los equipos de seguridad deberán ser las siguientes:Notificación de congestión basada en hardware para identificar y remediar las micro-explosiones en tiempo real.

Resumen y perspectivas: El futuro de las interconexiones de IA

La implementación valida queNVIDIA Mellanox 920-9B110-00FH-0D0 fue lanzado por NVIDIA en julio de 2010.sirve como un elemento fundamental para la próxima generación de AI y HPC clusters.Las organizaciones pueden recuperar hasta el 30% de la computación de la GPU antes desperdiciada en puestos de comunicaciónPara los arquitectos que planifican una nueva infraestructura de IA, elSi el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad.proporciona una guía detallada sobre topologías que van desde pequeños grupos DGX hasta implementaciones a escala de supercomputación.

A medida que las cargas de trabajo evolucionan hacia un mayor paralelismo de modelos y densidades de GPU más altas, el920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRLa tecnología de la tecnología de la información ofrece un camino claro de actualización a las futuras telas de 400Gb/s a través de su diseño retrocompatible.920-9B110-00FH-0D0 preciolas ganancias de eficiencia operativa o la verificación920-9B110-00FH-0D0 compatibles con el sistema operativoOpciones de cableado, este interruptor InfiniBand ofrece un ROI medible para organizaciones basadas en datos.