abril 24, 2025 11:31 4 min

Configuración de NVLink en un VPS con configuración Multi-GPU

NVLink, la interconexión GPU de alto ancho de banda de NVIDIA, revoluciona las cargas de trabajo Multi-GPU al permitir un intercambio rápido de memoria y transferencia de datos, superando con creces las limitaciones de PCIe. Para científicos de datos, ingenieros de ML o usuarios de HPC, NVLink puede acelerar tareas como el entrenamiento de modelos de deep learning o simulaciones a gran escala. Por ejemplo, podrías usar NVLink con dos GPUs A100 para entrenar un large language model más rápido mediante la agrupación de la memoria GPU. Sin embargo, configurar NVLink en un entorno virtualizado es complejo y requiere hardware y configuración específicos. Esta guía explica NVLink, sus limitaciones en un VPS y cómo configurarlo para un rendimiento óptimo.

Limitaciones y advertencias

No todos los proveedores de VPS admiten configuraciones NVLink.
Solo bare-metal-based VPS o dedicated GPU virtual machines con passthrough directo permiten que NVLink funcione.
No hay soporte de NVLink en entornos containerized como Docker a menos que se ejecute directamente en el host.

¿Qué es NVLink?

NVLink permite que dos o más GPUs NVIDIA compatibles:

Compartan memoria entre GPUs para grandes datasets
Intercambien datos a hasta 600 GB/s total bandwidth
Realicen multi-GPU training más rápido sin intervención de la CPU

Compatible en GPUs como:

NVIDIA A100, V100, RTX 3090, 4090, A6000, etc.
Normalmente requiere un physical NVLink bridge

NVLink en VPS: requisitos previos

Antes de intentar configurar NVLink en un VPS, asegúrate de lo siguiente:

Hardware del host

El physical server debe tener:
- Al menos two NVLink-compatible GPUs
- NVLink bridge(s) instalados
- BIOS y firmware que admitan NVLink
Las configuraciones compatibles comunes incluyen dual A100 o RTX 3090 con NVLink bridge.

Configuración del VPS

El VPS debe aprovisionarse en un GPU passthrough-enabled hypervisor, como:
- KVM/QEMU con VFIO (PCI passthrough)
- VMware ESXi con DirectPath I/O
- Proxmox VE con GPU passthrough

⚠️ Nota: NVLink no funciona entre dispositivos virtualizados a menos que ambas GPUs se pasen como dispositivos PCIe completos a la misma VM.

Paso a paso: cómo configurar NVLink en un VPS

Paso 1: Asegurar el passthrough de las GPUs

El host necesita pasar both physical GPUs directamente a tu VPS.

Para KVM/QEMU con VFIO:

Actualiza el XML de libvirt o qemu para pasar ambas GPUs.

Paso 2: Instalar los drivers de NVIDIA

Dentro del VPS (guest OS), instala el latest NVIDIA driver:

Reinicia después de la instalación.

Paso 3: Verificar la topología de NVLink

Una vez dentro del guest OS:

Deberías ver:

	GPU0	GPU1	CPU Affinity
GPU0	X	NV1	0-15
GPU1	NV1	X	0-15

Donde NV1 significa que NVLink está activo entre GPU0 y GPU1.

Paso 4: Habilitar el acceso Peer-to-Peer (opcional pero recomendado)

Asegúrate de que Peer-to-Peer y Access estén marcados como Enabled.

Consideraciones de seguridad

Isolated access: Asegúrate de que tu VPS no esté sobreasignado ni compartido con otros al usar full GPU passthrough.
No shared memory leakage: NVLink crea un espacio de memoria compartida—limita el acceso a entornos de confianza.
Audit access to /dev/nvidia devices*.

Solución de problemas de NVLink

Síntoma	Posible causa	Solución
NVLink not shown in nvidia-smi	GPUs not bridged properly	Power off host and reinstall physical NVLink bridge
Only one GPU visible	Passthrough misconfiguration	Check VM XML/device passthrough settings
Peer-to-peer disabled	Driver mismatch or BIOS settings	Upgrade driver, check BIOS for NVLink support
Low bandwidth	NVLink lanes underutilized	Use nvidia-smi nvlink –status to verify lanes

NVLink es un cambio radical para cargas de trabajo intensivas en GPU, ofreciendo enormes ventajas de rendimiento cuando se configura correctamente, incluso en entornos virtuales. Con passthrough directo de GPU y una configuración cuidadosa, puedes aprovechar el poder de las interconexiones Multi-GPU en un VPS, convirtiéndolo en un nodo de high-performance computing para aplicaciones exigentes.

Cómo configurar NVLink en un VPS con configuración de multi-GPU