Arquitectura de red Mellanox InfiniBand para el entrenamiento acelerado de modelos de IA NVIDIA

Análisis de la Arquitectura de Red Mellanox para el Soporte del Entrenamiento de Modelos Grandes de IA

October 5, 2025

Arquitectura del futuro: cómo Mellanox InfiniBand acelera el entrenamiento de modelos de IA a escala

En el caso de los productos:18 de noviembre de 2023

A medida que los modelos de inteligencia artificial crecen exponencialmente en tamaño y complejidad, el tejido de red que conecta a miles de GPU se ha convertido en el determinante crítico de la eficiencia de la capacitación.Mellanox en banda anchaLa tecnología ha surgido como la columna vertebral fundamental para los modernos clústeres de supercomputación de IA, diseñados específicamente para superar los cuellos de botella de la comunicación que afectan a gran escalaFormación de modelos de IAEste artículo descompone las innovaciones arquitectónicas que hacen de InfiniBand el estándar de facto para acelerar las cargas de trabajo de IA más exigentes del mundo.

El cuello de botella de la red en la formación de IA distribuida

ModernoFormación de modelos de IA, como para los modelos de lenguaje grande (LLM), se basa en estrategias paralelas de datos donde los parámetros del modelo se sincronizan a través de miles de GPU después de procesar cada mini lote de datos.El tiempo dedicado a esta fase de sincronizaciónEn la actualidad, la mayoría de las empresas que utilizan el sistema de reducción total de los costes de producción, se encuentran en una situación similar.Conexión en red de GPU, este sobrecargo de comunicación puede consumir más del 50% del ciclo de entrenamiento total, reduciendo drásticamente la utilización general de la GPU y prolongando el tiempo de visión de semanas a meses.La red ya no es una mera tubería de datos; es un componente computacional central.

Mellanox InfiniBand: Computación en red para IA

Mellanox en banda anchaaborda este cuello de botella de frente con un conjunto de motores de aceleración basados en hardware que transforman la red de un participante pasivo en un activo computacional activo.

SHARP (Protocolo de agregación y reducción jerárquica escalable):Esta tecnología revolucionaria realiza operaciones de agregación (por ejemplo, sumas, medios) directamente dentro de los switches InfiniBand.SHARP reduce los datos en el tejido de la redEl objetivo de este programa es reducir drásticamente el volumen de datos transferidos y el tiempo necesario para la sincronización, lo que puede acelerar las operaciones colectivas hasta en un 50%.
Enrutamiento adaptativo y control de congestión:Las capacidades de enrutamiento dinámico de InfiniBand dirigen automáticamente el tráfico alrededor de puntos de acceso congestionados,garantizar una utilización uniforme del tejido de la red y evitar que un solo enlace se convierta en un cuello de botella durante las fases intensas de comunicación de todos a todos.
Ultra-baja latencia y ancho de banda alto:Con latencia de extremo a extremo inferior a 600 nanosegundos y soporte para 400 Gb/s y más,Mellanox en banda anchaproporciona la velocidad bruta necesaria para el intercambio de parámetros en tiempo casi real entre las GPU.

Impacto cuantificable en la eficacia de la formación y el coste total de propiedad (TCO)

Las ventajas arquitectónicas de InfiniBand se traducen directamente en resultados empresariales y de investigación superiores para las empresas que ejecutan cargas de trabajo de IA a gran escala.

El método métrico	Tejido Ethernet estándar	Tejido Mellanox InfiniBand	Mejora
Utilización de la GPU (en el entrenamiento a gran escala)	Entre el 40% y el 60%	90 a 95%	Aumento de >50%
Tiempo para formar a un modelo (por ejemplo, LLM del parámetro 1B)	30 días	18 días	Reducción del 40%
Ancho de banda efectivo para la reducción total	- 120 Gb/s	- 380 Gb/s	3 veces mayor utilización
Consumo de energía por trabajo de formación	1.0x (línea de base)	~ 0,7x	Reducción del 30%

Estas métricas demuestran que unaConexión en red de GPULa estrategia no es un lujo, sino una necesidad para lograr un ROI viable en inversiones multimilionarias en clústeres de IA.

Conclusión: Construir el centro de datos específico de IA

La era del diseño de centros de datos de uso general está llegando a su fin para la investigación de IA.Formación de modelos de IAEl objetivo de la red de procesamiento de datos es mejorar la capacidad de los procesadores de procesamiento de datos.Mellanox en banda anchaAl minimizar los gastos generales de comunicación y maximizar la utilización de la GPU, la arquitectura InfiniBand es la clave para desbloquear innovaciones más rápidas, reducir los costos de capacitación,y lograr escalas previamente imposibles de IAEs la base indispensable para la próxima generación de avances en IA.