NVIDIA Mellanox MCX653105A-HDAT Adaptador de servidor Solución técnica
June 15, 2026
A medida que el almacenamiento distribuido, las bases de datos convergentes y las plataformas de capacitación de IA evolucionan hacia redes 100GbE/200GbE, la pila TCP / IP tradicional se ha convertido en un cuello de botella primario de rendimiento.Las operaciones críticas como la replicación de datos y la sincronización de registros son muy sensibles a la latencia, sin embargo, la pila de red del núcleo introduce decenas de microsegundos de retraso y consume recursos de CPU significativos para el procesamiento de protocolos, lo que limita gravemente la escalabilidad del rendimiento.Los centros de datos modernos requieren una solución de red que ofrezca una latencia de casi memoria, velocidad de transmisión de la línea, y mínima intervención de la CPU.
Esta solución técnica se centra en elNVIDIA Mellanox MCX653105A-HDAT, también conocido como NVIDIAAdaptador de servidor, diseñado para satisfacer los siguientes requisitos clave:
- La latencia entre nodos para almacenamiento distribuido y cargas de trabajo HPC
- Utilización de la CPU por debajo del 10% para el procesamiento de la red, liberación de núcleos para la lógica de aplicaciones
- Transporte sin pérdidas con control de la congestión para evitar picos de latencia de cola
- Integración perfecta con la infraestructura Ethernet existente
- La carga de hardware para NVMe-over-Fabrics (NVMe-oF) y GPUDirect RDMA
La arquitectura propuesta adopta una topología CLOS de dos niveles (espina dorsal) con RoCE (RDMA sobre Ethernet convergente) desplegado como protocolo de transporte principal.Todos los servidores de computación y almacenamiento están equipados con elTarjeta de adaptador Ethernet MCX653105A-HDATPFC (Priority Flow Control) y ECN (Explicit Congestion Notification) están habilitados para crear dominios Ethernet sin pérdidas para el tráfico RDMA,mientras que las colas de prioridad separadas aislan el almacenamiento, HPC y flujos de gestión.
Las decisiones arquitectónicas clave incluyen:
- RoCEv2sobre UDP-IP para permitir el enrutamiento a través de los límites de la capa 3
- DCQCN (Notificación de congestión cuantificada del centro de datos)para la gestión proactiva de la congestión
- PCIe particionadopara dedicar ancho de banda para el almacenamiento frente al tráfico de cómputo en el mismo adaptador
- Soporte para varios hostsque permite que hasta cuatro servidores compartan un único adaptador (escenarios de almacenamiento desglosados)
En el centro de esta solución se encuentra laNVIDIA Mellanox MCX653105A-HDAT, también conocido como NVIDIAEl motor de descarga crítica es un adaptador ConnectX‐6 Dx de doble puerto de 100GbE.Si el vehículo no está equipado con un dispositivo de control de velocidad, se aplicará el procedimiento siguiente:, la tarjeta integra aceleradores de hardware que cambian fundamentalmente la forma en que los servidores manejan las entradas y salidas de red.
La siguiente tabla destaca cómo las características específicas abordan los requisitos arquitectónicos:
| Características | Función | Beneficio |
|---|---|---|
| Descarga de hardware de RoCE | RDMA completa en el adaptador | La latencia es inferior a 1 μs, cero copias de la CPU |
| La carga de descarga del objetivo NVMe-oF | Aceleración de hardware para comandos NVMe | 5 veces el rendimiento de almacenamiento, 90% de reducción de la CPU |
| ASAP2 (cambio acelerado) | Abrir vSwitch descarga al hardware | Superposiciones de virtualización de velocidad de línea |
| Inicio seguro y criptografía en línea | Descarga de hardware IPsec/TLS | Encriptación sin penalización de rendimiento |
ElMCX653105A-HDAT Adaptador ConnectX tarjeta de red PCIeTambién incluye telemetría avanzada cada paquete lleva marcas de tiempo de hardware y contadores de flujo, alimentando la visibilidad de congestión en tiempo real sin encuestas a la CPU host.Para las organizaciones encargadas de la contratación pública, elPrecio de MCX653105A-HDATOfrece un ROI atractivo en comparación con las alternativas basadas únicamente en CPU o FPGA.
Para un clúster típico de 200 nodos, se recomienda el siguiente enfoque de implementación:
- Capa de hojas:Los switches con capacidad RoCE (por ejemplo, NVIDIA SN3700) con PFC/ECN habilitado, configurados para parámetros DCQCN ajustados a la velocidad de carga de trabajo.
- Capa de la columna:Interruptores no bloqueadores con una proporción de sobrescripción adecuada (máximo 3: 1 para el tráfico de almacenamiento).
- El lado del servidor:Uno.Solución de tarjeta de adaptador Ethernet MCX653105A-HDATel número de nodos de almacenamiento compartido, o uno por nodo para HPC de alta intensidad de cómputo.
- Buffers y MTU:Configurar las tramas jumbo de 9000 bytes de extremo a extremo y asignar 10~20% del búfer de interruptor por grupo prioritario para garantizar la no pérdida.
Cuando se verifica la compatibilidad, la mayoría de las plataformas de servidores principales seCompatible con MCX653105A-HDATEl adaptador tiene una interfaz PCIe 4.0/5.0 x16 que garantiza un ancho de banda a prueba de futuro para las CPU de próxima generación.
Las implementaciones de RoCE de producción requieren una visibilidad proactiva.
- Recolección de telemetría:Utiliza los NVIDIA
Mft(Mellanox Firmware Tools) y-S de etilopara exportar contadores por puerto y por fila a Prometheus o sistemas similares. - Métricas clave para el seguimiento:PFC pausa cuadros por segundo, ECN marcado velocidad de paquete, RoCE retransmisiones, y la temperatura del adaptador.
- Detección de congestión:Un aumento repentino en las pausas de PFC a menudo indica un receptor lento; comprobarLas especificaciones MCX653105A-HDATpara los parámetros de ajuste del umbral del amortiguador.
- Administración del firmware:Programe actualizaciones de firmware durante las ventanas de mantenimiento; el adaptador admite la migración en vivo de conexiones RoCE para minimizar el tiempo de inactividad.
- Lista de control de ajuste de rendimiento:Habilitar la coalescencia IRQ, configurar los tamaños de anillo Rx / Tx adecuados (4096 recomendado), pin interrupciones a núcleos dedicados y verificar el ancho de enlace PCIe (x16 @ Gen4/5).
ElNVIDIA Mellanox MCX653105A-HDAT, también conocido como NVIDIAProporciona una base completa y lista para la producción de tejidos de baja latencia basados en RDMA/RoCE.Al descargar toda la trayectoria de los datos desde los comandos de almacenamiento hasta la conmutación virtual y el cifrado de seguridad, transforma la red de servidores de un cuello de botella en un acelerador.Las organizaciones que adopten esta solución pueden esperar:
- La latencia determinística es inferior a 2 μs.a través de cientos de nodos
- Mejora del rendimiento de 5×10 vecespara los flujos de trabajo NVMe-oF y HPC
- Reducción del 80 al 90%en gastos generales de la CPU relacionados con la red
- Escalabilidad linealsin colapso por congestión
Para los ingenieros que evalúan las opciones, elSi el vehículo no está equipado con un dispositivo de control de velocidad, se aplicará el procedimiento siguiente:Las guías oficiales de compatibilidad son las referencias autorizadas.MCX653105A-HDAT para la ventaA través de los socios de canal de NVIDIA, el camino hacia un plano de datos de alto rendimiento y baja latencia es claro y alcanzable.Esta solución técnica proporciona un plan para cualquier organización que busque liberar todo el potencial de las redes 100GbE con RDMA y RoCE.

