Libro blanco técnico: NVIDIA Mellanox 920-9B210-00FN-0D0 Solución de conmutación de banda ancha
January 6, 2026
La evolución de las cargas de trabajo computacionales hacia la capacitación de IA a escala exascale y las simulaciones de HPC de alta fidelidad ha cambiado fundamentalmente el cuello de botella del rendimiento de la computación a la interconexión.Los clusters modernos dependientes de RDMA demandan un tejido que ofrezca no solo un ancho de banda alto sino también una latencia determinista ultrabajaLas redes heredadas a menudo introducen latencia variable, pérdida de paquetes inducida por congestión y complejidad de gestión,que se traducen directamente en un mayor tiempo de solución, infrautilizados recursos de la GPU/CPU, y aumento de los gastos generales operativos.
Esta solución técnica aborda los requisitos fundamentales para los centros de datos y las instalaciones de investigación de próxima generación: establecer una red de datos unificada,Tejido de alto rendimiento capaz de converger cargas de trabajo clásicas de HPC (basadas en MPI) y IA moderna (comunicación colectiva)Las principales exigencias técnicas incluyen latencia de conmutación de menos de un microsegundo, rendimiento no bloqueante para los patrones de comunicación todo-a-todos, control inteligente de congestión,y un marco de gestión que proporciona una visibilidad profunda y automatizaciónEl.920-9B210-00FN-0D0 Solución OPN de conmutador de banda anchaestá diseñado para cumplir con estos estándares exigentes.
La arquitectura propuesta es un tejido de hoja de columna diseñado para el máximo ancho de banda biseccional y escalabilidad, basado en la tecnología NDR 400Gb/s InfiniBand.NVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo.La capa de hoja puede consistir en una mezcla de switches NDR o HDR, que conectan nodos de cómputo (servidores GPU como sistemas NVIDIA DGX, grupos de CPU),almacenamiento paralelo de alto rendimiento (NVMe-oF), y nodos de gestión.
Este diseño desacoplado asegura una latencia predecible y elimina la sobre suscripción dentro del tejido.
- Tejido unificado:Una red única para el tráfico de computación (este-oeste) y almacenamiento, simplificando la gestión y reduciendo el CAPEX.
- Operación sin pérdidas:Aprovechando el control de congestión nativo de InfiniBand y la gestión del flujo de tráfico para garantizar cero pérdida de paquetes, lo cual es crítico para el rendimiento de RDMA y MPI.
- Red definida por software:La integración con NVIDIA Cumulus Linux y la plataforma UFM® permite la automatización de tejidos programables y la gestión basada en políticas.
El...920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDREl switch es la piedra angular estratégica de esta arquitectura, actuando como la columna vertebral de alto rendimiento.
Sus principales características técnicas, según se detalla en el documento oficialSi el vehículo no está equipado con un dispositivo de seguridad, el vehículo deberá ser equipado con un dispositivo de seguridad., se dirige directamente a la optimización de baja latencia:
- Intercambio de corte y latencia ultrabaja:El switch utiliza una arquitectura avanzada de conmutación de corte a través, logrando una latencia de puerto a puerto de menos de 100 nanosegundos..
- NDR 400Gb/s Ancho de banda:Cada puerto ofrece 400Gb / s, proporcionando el espacio necesario para evitar la congestión durante las cargas de trabajo pico como los puntos de control de capacitación de IA distribuidos o las operaciones de MPI_allreduce a gran escala.
- Enrutamiento adaptativo y control de congestión:La tecnología SHARPTM v3 de NVIDIA, integrada en el switch, descarga las operaciones colectivas de la CPU,Reducción drástica de los gastos generales de sincronizaciónCombinado con el enrutamiento dinámico adaptativo, evita los puntos calientes y garantiza una utilización equilibrada del tejido.
- Compatibilidad con anterioridad y con posterioridad:El cambio es parte integrante de una estrategia de migración fluida.compatiblesEn la actualidad, la tecnología de la red está disponible en más de un millón de dispositivos, con equipos HDR (200Gb/s) y EDR (100Gb/s) existentes, lo que permite actualizaciones por etapas.Las especificaciones 920-9B210-00FN-0D0El desarrollo de las redes de telecomunicaciones en los puertos es crucial para la planificación de la conectividad portuaria y los tipos de cable.
El despliegue inicial debe seguir un enfoque modular de "pod".Los requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad deinterruptores en un papel de columna vertebral para la redundancia, conectados a múltiples HDR o NDR interruptores de hoja que admiten varias docenas de nodos de cómputo.
Topología recomendada para un rendimiento óptimo:Una topología Clos (Fat-Tree) de dos niveles sin bloqueo.El número de conmutadores de columna vertebral (920-9B210-00FN-0D0 unidades) está determinado por el número de enlaces ascendentes de cada conmutador de hoja y la proporción deseada de sobrescripción (idealmente 1Se trata de un ejemplo de un sistema de control de velocidad (HPC).
- Expansión:Para escalar el grupo, añadir más interruptores de hojas y proporcionalmente añadir másLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad deLa dirección y el enrutamiento de la tela se escalan sin problemas bajo la gestión UFM®.
- Aumentar la escala:Los nodos individuales pueden ser actualizados a NDR NIC, aprovechando inmediatamente el ancho de banda completo de 400Gb/s a la columna vertebral.compatiblesLa naturaleza apoya este entorno heterogéneo.
- Cables y energía:La planificación del despliegue debe tener en cuenta los cables ópticos compatibles con NDR (por ejemplo, OSFP).Las especificaciones 920-9B210-00FN-0D0proporcionar datos exactos sobre el consumo de energía y los datos térmicos para un diseño preciso de la energía y la refrigeración del centro de datos.
Cuando esta solución esté disponiblepara la venta, se recomienda que los socios certificados se involucren para modelar el modelo correcto920-9B210-00FN-0D0 precioy cantidad para su plan de escala específica.
La excelencia operacional se logra a través de la plataforma NVIDIA UFM®, que proporciona una gestión integral del ciclo de vida de toda la tela, incluidos todos los componentes de la misma.Los requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad deCambiar.
- Monitoreo proactivo:UFM® ofrece telemetría en tiempo real sobre el estado de los interruptores, la utilización de puertos, la temperatura, los contadores de errores y el análisis en profundidad de los patrones de tráfico a nivel de aplicación,incluidas las matrices de comunicación MPI y RDMA.
- Gestión automatizada de tejidos:Desde el aprovisionamiento inicial y la validación del cable hasta las actualizaciones de firmware y las copias de seguridad de configuración, UFM® automatiza las tareas de rutina, reduciendo el error humano y los gastos generales operativos.
- Solución de problemas:Las herramientas avanzadas pueden identificar anomalías de rendimiento, identificar flujos de mal comportamiento que causan congestión y visualizar la topología de la tela para aislar rápidamente los enlaces o componentes fallidos.
- Optimización continua:Aprovechar los conocimientos de UFM® para cargas de trabajo de tamaño adecuado, validar que el rendimiento se alinea conhoja de datosLa revisión periódica de las métricas de congestión y latencia es clave para mantener el máximo rendimiento de los tejidos.
Desarrollar una arquitectura de tejido centrada en elNVIDIA Mellanox 920-9B210-00FN-0D0 también está disponible en vivo.El switch InfiniBand proporciona una ventaja competitiva fundamental para las organizaciones dependientes de la computación de alto rendimiento.Esta solución técnica ofrece un valor cuantificable en múltiples dimensiones:
| Dimensión de valor | Resultado alcanzado |
|---|---|
| Desempeño técnico | Tener una latencia determinística de menos de un microsegundo, un ancho de banda de 400 Gb/s sin bloqueo y un funcionamiento libre de congestión para RDMA y MPI. |
| Aceleración de las actividades empresariales y de investigación | Reducción de los tiempos de ejecución de las aplicaciones en un 20-40%, acelerando el tiempo de descubrimiento y los ciclos de desarrollo de productos. |
| Eficiencia operativa | La gestión unificada, el aprovisionamiento automatizado y la telemetría profunda reducen el TCO y minimizan el tiempo de inactividad. |
| Protección de las inversiones | La retrocompatibilidad y la arquitectura escalable protegen las inversiones existentes y proporcionan un camino claro hacia las tecnologías futuras. |
En resumen, elLos requisitos de seguridad de los sistemas de seguridad de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de seguridad de los sistemas de los sistemas de seguridad deLa infraestructura no es sólo un componente, sino el facilitador de una infraestructura convergente de alto rendimiento.Transforma la red de un pasivo potencial en un activo estratégico que libera completamente el poder de los modernos clústeres computacionales.

