NVIDIA Mellanox MCX556A-ECAT en Acción: RDMA/RoCE Permite Latencia Ultra Baja y Avances en el Rendimiento del Servidor
April 23, 2026
En el almacenamiento distribuido, la computación de alto rendimiento (HPC) y los clústeres de entrenamiento de IA, la latencia de red y la sobrecarga de la CPU han limitado durante mucho tiempo la eficiencia general del servidor. Un despliegue reciente en un proveedor de servicios en la nube a gran escala demuestra cómo la NVIDIA Mellanox MCX556A-ECAT aborda estos desafíos a través de las tecnologías RDMA y RoCE, ofreciendo ganancias medibles tanto en rendimiento como en reducción de latencia.
El cliente opera un clúster de almacenamiento Ceph de varios petabytes que soporta miles de máquinas virtuales. Antes de la actualización, su infraestructura 25GbE que utilizaba TCP/IP estándar sufría de alta utilización de la CPU (más del 60% en los nodos de almacenamiento) y latencia inconsistente durante las cargas pico. Las ventanas de copia de seguridad frecuentemente excedían las ocho horas, y los trabajos de entrenamiento de IA experimentaban interrupciones de E/S. El equipo necesitaba una solución que pudiera reducir la intervención de la CPU, disminuir la latencia y escalar sin una revisión completa de la infraestructura. Después de revisar la hoja de datos oficial de MCX556A-ECAT y comparar las especificaciones de MCX556A-ECAT, seleccionaron la MCX556A-ECAT como el componente central de la actualización.
La arquitectura se centró en la tarjeta adaptadora Ethernet MCX556A-ECAT, un adaptador dual-port 100GbE que soporta PCIe 3.0/4.0 x16. Desplegada como una tarjeta de red PCIe adaptadora MCX556A-ECAT ConnectX, permitió RoCE v2 en la topología leaf-spine existente con cambios mínimos en los switches. Los pasos clave del despliegue incluyeron:
- Reemplazo de adaptadores 25GbE heredados por la MCX556A-ECAT en 40 nodos de almacenamiento y 150 nodos de cómputo.
- Habilitación de descargas de hardware: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA y T10-DIF para la integridad de los datos.
- Configuración de Priority Flow Control (PFC) y Enhanced Transmission Selection (ETS) para un transporte RoCE sin pérdidas.
- Verificación del estado compatibles con MCX556A-ECAT con los switches Mellanox Spectrum existentes y la óptica QSFP28.
Todo el despliegue tomó dos fines de semana, con cero tiempo de inactividad utilizando migración en vivo para las cargas de trabajo de cómputo.
Las mediciones posteriores al despliegue revelaron mejoras drásticas en métricas clave. La siguiente tabla resume la comparación antes/después:
| Métrica | Antes (25GbE TCP/IP) | Después (MCX556A-ECAT con RoCE) | Mejora |
|---|---|---|---|
| Utilización de CPU del nodo de almacenamiento | 62% | 18% | ↓ 71% |
| Latencia promedio (lectura aleatoria 4K) | 450 µs | 42 µs | ↓ 90.7% |
| Rendimiento agregado del clúster | 38 Gb/s | 172 Gb/s | ↑ 353% |
| Duración de la ventana de copia de seguridad | 8.5 horas | 1.8 horas | ↓ 79% |
Más allá de los números, el equipo de ingeniería informó que RDMA redujo significativamente el jitter, eliminando los picos de "latencia de cola" que anteriormente plagaban los puntos de control de entrenamiento de IA. Como una solución madura de tarjeta adaptadora Ethernet MCX556A-ECAT, la tarjeta también simplificó la resolución de problemas a través de telemetría incorporada y notificación de congestión. Para organizaciones que evalúan el precio de MCX556A-ECAT frente a las ganancias de rendimiento, el cliente logró el ROI en nueve meses puramente por el ahorro de núcleos de CPU y la finalización más rápida de trabajos por lotes. El adaptador está ahora MCX556A-ECAT a la venta a través de múltiples socios de canal, haciendo que este nivel de rendimiento sea accesible también para empresas de nivel medio.
El despliegue demuestra que la MCX556A-ECAT cumple su promesa: latencia RDMA sub-microsegundo, descarga drástica de CPU y escalado lineal de rendimiento. Ya sea que esté ejecutando bases de datos distribuidas, simulaciones HPC o almacenamiento NVMe-oF, la NVIDIA Mellanox MCX556A-ECAT ofrece una base preparada para el futuro. A medida que 100GbE se convierte en el nuevo estándar para las espinas dorsales de los centros de datos, las soluciones construidas alrededor de este adaptador continuarán superando a las pilas TCP/IP heredadas. Para una planificación detallada, consulte la hoja de datos oficial de MCX556A-ECAT o consulte con arquitectos de soluciones para validar las configuraciones compatibles con MCX556A-ECAT para su entorno específico.

