Soluciones de red de computación de alto rendimiento (HPC): InfiniBand permite un rendimiento de supercomputación innovador

September 27, 2025

Soluciones de red de computación de alto rendimiento (HPC): InfiniBand permite un rendimiento de supercomputación innovador
Soluciones de red de computación de alto rendimiento: cómo Mellanox InfiniBand permite un rendimiento de supercomputación innovador
1La nueva era de las demandas computacionales

Las fronteras de la ciencia, la ingeniería y la inteligencia artificial están siendo impulsadas por la computación de alto rendimiento (HPC).Desde la simulación de modelos climáticos y el descubrimiento de nuevos medicamentos hasta la capacitación de modelos de IA generativa masivaEn la actualidad, la complejidad y la escala de estas cargas de trabajo están creciendo exponencialmente.redes de superordenadoresinfraestructura, que debe mover de manera eficiente grandes conjuntos de datos entre miles de nodos de computación sin convertirse en un cuello de botella.Es el sistema nervioso central de la supercomputadora moderna.

2Los cuellos de botella de las redes críticas en HPC

Las arquitecturas de red tradicionales a menudo no pueden seguir el ritmo de las demandas de la computación en exascala y la IA.

  • Sensibilidad a la latencia:Las aplicaciones paralelas estrechamente acopladas, que utilizan la interfaz de transmisión de mensajes (MPI), son muy sensibles a la latencia.
  • Producción impredecible:La congestión de la red puede causar un rendimiento errático, lo que lleva a los nodos de cómputo a estar inactivos mientras esperan datos, desperdiciando valiosos recursos computacionales y aumentando los tiempos de finalización del trabajo.
  • Operaciones colectivas ineficientes:Las operaciones como reducciones y barreras que involucran múltiples nodos pueden consumir una cantidad significativa de recursos de la CPU host, desviando los ciclos de las tareas de computación centrales.
  • Límites de escalabilidad:Muchas redes luchan por mantener el rendimiento y la latencia constante a medida que los tamaños de los racimos aumentan a decenas de miles de nodos, lo que dificulta el camino a la exescala y más allá.
3La solución Mellanox InfiniBand: una arquitectura de extremo a extremo

Las de NVIDIAMellanox en banda anchaEl objetivo de este proyecto es desarrollar una plataforma de redes de extremo a extremo diseñada específicamente para superar estos problemas.El HPCEs más que una NIC; es un tejido holístico que acelera inteligentemente el movimiento de datos y el cálculo.

Innovaciones tecnológicas clave:
  • Computación en red (NVIDIA SHARPTM):Este es un rasgo revolucionario que distingue a InfiniBand. El Protocolo de Agregación y Reducción Jerárquica Escalable (SHARP) descarga las operaciones colectivas (por ejemplo, MPI Allreduce,Barrera) de la CPU a la red de conmutadoresEsto reduce drásticamente la latencia y libera los recursos de la CPU para el cálculo de la aplicación.
  • Acceso remoto directo a la memoria (RDMA): Mellanox en banda anchatiene soporte RDMA nativo, lo que permite mover datos directamente desde la memoria de un nodo a otro sin involucrar a la CPU.Esta técnica de "bypass del núcleo" es fundamental para lograr una latencia ultrabaja y un ancho de banda alto.
  • Enrutamiento adaptativo y control de congestión:El tejido dirige dinámicamente el tráfico alrededor de los puntos de acceso, garantizando una utilización uniforme de la red y evitando la congestión antes de que afecte al rendimiento de la aplicación.Esto conduce a un rendimiento predecible y constante.
  • Integración sin fisuras de la GPU (GPUDirect®):Tecnologías como GPUDirect RDMA permiten que los datos fluyan directamente entre la memoria GPU de diferentes servidores a través de la estructura InfiniBand,que es fundamental para acelerar la capacitación de IA multi-GPU y multi-nodo y las cargas de trabajo de computación científica.
4Resultados cuantificables y mejoras en el rendimiento

El desarrollo deMellanox en banda anchaEn los principales centros de supercomputación e instituciones de investigación ha dado resultados espectaculares y medibles:

El método métrico Mejora con Mellanox InfiniBand Impacto en las cargas de trabajo de HPC
Rendimiento de la aplicación Hasta 2,5 veces más rápido Reducción del tiempo de solución para las simulaciones complejas y los trabajos de capacitación de IA.
La latencia Sub-1 microsegundo de extremo a extremo Prácticamente elimina los retrasos de comunicación para las aplicaciones MPI.
Utilización de la CPU Hasta un 30% de reducción de los gastos generales de la CPU Libera millones de horas de CPU para computación en lugar de comunicación.
Escalabilidad Soportado en grupos con más de 10.000 nodos Proporciona una ruta probada para las implementaciones de computación exascale.
Utilización del tejido Eficiencia superior al 90% Maximiza el retorno de la inversión en infraestructura.
5Conclusión: Impulsando la próxima generación de descubrimientos

Mellanox en banda anchase ha establecido como el patrón de oro pararedes de superordenadores, proporcionando el rendimiento necesario, la escalabilidad y la inteligencia requeridos por los más exigentes del mundoEl HPCAl resolver cuellos de botella críticos de las redes a través de innovaciones como la computación en red, permite a investigadores y científicos lograr resultados innovadores más rápidamente.No es sólo una interconexión; es un acelerador esencial para el conocimiento y la innovación humanos.