Práctica de aplicación: NVIDIA Mellanox MCX631102AN-ADAT RDMA/RoCE Transporte de baja latencia y mejora del rendimiento del servidor

April 27, 2026

En el almacenamiento distribuido, la computación de alto rendimiento y los clústeres de entrenamiento de IA, la latencia de red y la sobrecarga de la CPU se han convertido en los principales cuellos de botella que limitan el rendimiento del servidor. Un proveedor de servicios en la nube actualizó recientemente su backend de almacenamiento NVMe-oF seleccionando el adaptador de servidor NVIDIA Mellanox MCX631102AN-ADAT. Al implementar RDMA sobre Converged Ethernet (RoCEv2), lograron un transporte de baja latencia de extremo a extremo y ganancias significativas en el rendimiento del servidor. Este estudio de caso examina el rendimiento del adaptador en un entorno de producción.

Antecedentes y desafío: el cuello de botella de la pila de protocolos TCP/IP

La infraestructura existente de 25 GbE del proveedor manejaba el tráfico de almacenamiento utilizando la pila de software TCP/IP tradicional. En escenarios NVMe/TCP, la utilización de la CPU para la encapsulación y des-encapsulación de paquetes superó el 40%, lo que resultó en latencias de almacenamiento superiores a 200µs y una capacidad de cómputo severamente reducida en los servidores de aplicaciones. Los arquitectos necesitaban urgentemente una solución que pudiera eludir la pila de red del kernel, reducir la interferencia de la CPU y mantener un rendimiento a velocidad de línea en enlaces duales de 25 GbE. Después de evaluar múltiples opciones, eligieron el MCX631102AN-ADAT ConnectX-6 Lx de doble puerto 25GbE SFP28 como el hardware central para la renovación de su tejido de almacenamiento.

Solución e implementación: RDMA/RoCEv2 con descargas de hardware

La implementación reemplazó todos los servidores orientados al almacenamiento con la tarjeta adaptadora Ethernet MCX631102AN-ADAT, ejecutándose en modo RoCEv2 sin pérdidas (usando ECN y PFC). Los pasos clave de implementación incluyeron:

Habilitar SR-IOV y dedicar funciones virtuales (VF) a las máquinas virtuales de almacenamiento, eludiendo la pila de red del hipervisor
Configurar NVMe over Fabrics (NVMe-oF) con transporte RDMA, eliminando por completo la sobrecarga de TCP
Ajustar los umbrales de búfer del conmutador para el tráfico RoCE de 25 GbE sin pérdidas en la topología leaf-spine

Las especificaciones del MCX631102AN-ADAT— incluyendo marcas de tiempo de hardware, transporte de conexión dinámica (DCT) y motor de recepción vectorizado — se utilizaron por completo para garantizar una latencia predecible de sub-microsegundos incluso bajo una carga agregada de 50 Gbps.

Ganancias de rendimiento medidas y beneficios operativos

Después de migrar a la infraestructura basada en NVIDIA Mellanox MCX631102AN-ADAT, se capturaron las siguientes métricas:

Métrica	Antes (TCP/IP 25GbE)	Después (RoCEv2 con MCX631102AN-ADAT)
Latencia de lectura NVMe-oF (P99)	215 µs	18 µs
Utilización de CPU (Ruta de E/S de almacenamiento)	41% (un solo núcleo saturado)	7% (distribuido entre núcleos)
Rendimiento agregado del servidor (RX+TX)	42 Gbps (limitado por software)	49.8 Gbps (velocidad de línea)
Rendimiento de paquetes pequeños (64B)	8.1 Mpps	37.5 Mpps (dirección de flujo por hardware)

Los ingenieros notaron que la solución de tarjeta adaptadora Ethernet MCX631102AN-ADAT entregó una latencia de cola predecible adecuada para bases de datos de análisis en tiempo real. Además, los núcleos de CPU liberados se reasignaron a cargas de trabajo de aplicaciones, lo que aumentó la densidad general de inquilinos en aproximadamente un 24% en los mismos servidores físicos.

Compatibilidad e integración del ecosistema

Al expandir la implementación, el equipo de operaciones verificó que el adaptador es compatible con MCX631102AN-ADAT con sus conmutadores NVIDIA Spectrum existentes (perfiles RoCE sin pérdidas), así como con conmutadores ToR de terceros de Arista y Cisco con configuración DCBX. Para la planificación de adquisiciones, consultaron la hoja de datos del MCX631102AN-ADAT para validar los envolventes de potencia (aproximadamente 12W típicos) y los requisitos térmicos. Las primeras consultas a granel confirmaron que el precio del MCX631102AN-ADAT sigue siendo competitivo en comparación con SmartNICs de clase similar, con múltiples distribuidores que enumeran MCX631102AN-ADAT en venta bajo acuerdos de volumen estándar.

Resumen y perspectivas

El caso de producción demuestra claramente que el MCX631102AN-ADAT permite un cambio fundamental de las redes de almacenamiento limitadas por TCP a los tejidos acelerados por RDMA sin requerir una revisión completa de la infraestructura de 100 GbE. Al aprovechar el diseño MCX631102AN-ADAT ConnectX-6 Lx de doble puerto 25GbE SFP28, las organizaciones pueden duplicar el rendimiento efectivo para cargas de trabajo sensibles a la latencia mientras recuperan recursos significativos de la CPU. Mirando hacia el futuro, el mismo patrón de implementación se extenderá a marcos de aprendizaje automático distribuidos (NCCL sobre RoCE) y aplicaciones con estado basadas en microservicios. Para los arquitectos que evalúan las actualizaciones de 25 GbE, el NVIDIA Mellanox MCX631102AN-ADAT se erige como un bloque de construcción probado y endurecido en producción para redes de centros de datos de alto rendimiento y baja latencia.