Solución de Aceleración del Entrenamiento de IA: Integración de Clusters DPU y GPU Mellanox
October 8, 2025
El crecimiento exponencial de la inteligencia artificial ha creado demandas sin precedentes en la infraestructura computacional,especialmente en entornos de entrenamiento distribuidos donde miles de GPU deben trabajar en conciertoA medida que los parámetros del modelo se escalan a billones y los conjuntos de datos se expanden a petabytes, las arquitecturas de servidores tradicionales luchan con los gastos de comunicación, los cuellos de botella del movimiento de datos,y la utilización ineficiente de los recursosEn este artículo se explora cómo elDPU de Mellanox(Unidad de procesamiento de datos) transformaFormación en IAinfraestructura al descargar funciones críticas de red, almacenamiento y seguridad de los servidores de la CPU, creandoConexión en red de GPUentornos que ofrecen un rendimiento y una eficiencia innovadores para cargas de trabajo de aprendizaje automático a gran escala.
La arquitectura tradicional de centros de datos ha alcanzado sus límites en el soporte de las cargas de trabajo modernas de IA.y protocolos de seguridad junto con el procesamiento de aplicaciones, creando una importante sobrecarga que reduce la eficiencia general del sistema.Formación en IAEn el caso de los clusters, esto se traduce en GPUs esperando datos, recursos de aceleradores caros subutilizados y tiempos de entrenamiento extendidos.El 25-40% de los ciclos de la CPU host se consumen por tareas de infraestructura en lugar de computación, creando un cuello de botella sustancial que limita el retorno de la inversión en infraestructura de GPU.hacer un nuevo enfoque arquitectónico esencial para el progreso continuo de la inteligencia artificial.
- Gastos generales de comunicación:El entrenamiento distribuido requiere una sincronización de gradiente constante a través de cientos o miles de GPU, creando una inmensa presión en la infraestructura de red que a menudo se convierte en el cuello de botella principal.
- Cuellos de botella en el preprocesamiento de datos:La alimentación de datos a los procesos de entrenamiento requiere operaciones masivas de E / S que compiten con las tareas computacionales para los recursos de CPU y memoria.
- Seguridad y multi-inquilinos:Los entornos de investigación compartidos requieren un aislamiento sólido entre proyectos y usuarios sin sacrificar el rendimiento.
- Complejidad de la gestión:Orquestar miles de GPU en múltiples racks requiere capacidades sofisticadas de aprovisionamiento, monitoreo y resolución de problemas.
- Eficiencia energética y de costes:El consumo de energía y las limitaciones de espacio se convierten en preocupaciones importantes a escala, lo que requiere un rendimiento óptimo por vatio y por unidad de rack.
Estos desafíos requieren un replanteamiento fundamental de la arquitectura del centro de datos específicamente paraFormación en IAlas cargas de trabajo.
ElDPU de Mellanoxrepresenta un cambio de paradigma en la arquitectura del centro de datos, moviendo las funciones de infraestructura de las CPU anfitrionas a procesadores especializados diseñados específicamente para el movimiento de datos, seguridad,y operaciones de almacenamientoEste enfoque crea una arquitectura desagregada donde cada componente se especializa en su función óptima: GPU para computación, CPU para lógica de aplicaciones y DPU para servicios de infraestructura.
- Red acelerada por hardware:ElDPU de Mellanoxcon una capacidad de transmisión superior a 300 W,que permite la comunicación directa de GPU a GPU a través de la red con una participación mínima de la CPU y una latencia ultrabaja.
- Computación en red:La tecnología SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) descarga las operaciones de comunicación colectiva (como MPI all-reduce) de los servidores a los switches de red,la sincronización de entrenamiento distribuida se acelera drásticamente.
- Descargas de almacenamiento:NVMe acelerado por hardware sobre tejidos (NVMe-oF) permite el acceso directo a dispositivos de almacenamiento remoto, evitando las CPU de host y reduciendo los cuellos de botella de carga de datos durante el entrenamiento.
- Aislamiento de seguridad:Las capacidades de confianza y aislamiento basadas en el hardware permiten una multi-tenencia segura sin gastos generales de rendimiento, críticos para entornos de investigación compartidos.
- Gestión de la infraestructura:Las DPU proporcionan capacidades de gestión fuera de banda para mejorar la monitorización, el aprovisionamiento y el mantenimiento de los servidores GPU.
Este enfoque global transforma lasConexión en red de GPUde un cuello de botella potencial a una ventaja competitiva para las organizaciones de investigación de IA.
Despliegues deDPU de MellanoxLa tecnología en entornos de IA de producción demuestran mejoras significativas en todos los indicadores clave de rendimiento.Los datos siguientes representan resultados agregados de múltiples implementaciones a gran escala:
| Métrica de rendimiento | Arquitectura tradicional | Arquitectura acelerada por DPU | Mejora |
|---|---|---|---|
| Operación de reducción total (1024 GPU) | 120 ms | 18 ms | 85% más rápido |
| Tasa de utilización de la GPU | El 68% | El 94% | Aumento del 38% |
| Tiempo de formación (modelo a escala GPT-3) | 21 días | 14 días | Reducción del 33% |
| Gastos generales de la CPU para redes | 28% de los núcleos | 3% de los núcleos | Reducción del 89% |
| Costo por trabajo de formación | Base = 100% | El 62% | 38% Ahorros |
| Eficiencia energética (TFLOPS/Watt) | 4.2 | 6.8 | Mejora del 62% |
Estas métricas se traducen directamente en ciclos de investigación más rápidos, menores costos computacionales y la capacidad de abordar problemas más complejos dentro de las limitaciones prácticas.
La integración deDPU de MellanoxLa tecnología con clusters de GPU representa más que una mejora incremental, constituye un cambio arquitectónico fundamental que aborda los desafíos fundamentales de la tecnología moderna.Formación en IAAl transferir las funciones de infraestructura a procesadores especializados, las organizaciones pueden lograr niveles de rendimiento, eficiencia,y escalabilidad en sus iniciativas de aprendizaje automáticoEste enfoque asegura las inversiones en infraestructura de IA para el futuro mediante la creación de una base flexible y definida por software que pueda adaptarse a los requisitos de carga de trabajo en evolución y a las tecnologías emergentes.
A medida que los modelos de IA sigan creciendo en tamaño y complejidad, la importancia estratégica de la infraestructura optimizada solo aumentará.Las organizaciones que adopten hoy arquitecturas aceleradas por DPU obtendrán ventajas competitivas significativas en velocidad de investigación, eficiencia operativa y capacidad computacional.

