Konfigurieren von NVLink auf einem VPS mit Multi-GPU-Setup

NVLink, NVIDIAs GPU-Interconnect mit hoher Bandbreite, revolutioniert Multi-GPU-Workloads, indem es eine schnelle Speicherfreigabe und Datenübertragung ermöglicht, die weit über die PCIe-Beschränkungen hinausgeht. Datenwissenschaftler, ML-Ingenieure oder HPC-Anwender können mit NVLink Aufgaben wie das Training von Deep-Learning-Modellen oder groß angelegte Simulationen beschleunigen. Sie können beispielsweise NVLink mit zwei A100-GPUs verwenden, um ein großes Sprachmodell schneller zu trainieren, indem sie GPU-Speicher gemeinsam nutzen. Die Konfiguration von NVLink in einer virtualisierten Umgebung ist jedoch komplex und erfordert spezielle Hardware und Einstellungen. Diese Anleitung erklärt NVLink, seine Einschränkungen in einem VPS und wie man es für eine optimale Leistung konfiguriert.

Beschränkungen und Vorbehalte

Nicht alle VPS-Anbieter unterstützen NVLink-Konfigurationen.
Nur Bare-Metal-basierte VPS oder virtuelle Maschinen mit dediziertem Grafikprozessor und direktem Passthrough ermöglichen den Einsatz von NVLink.
Keine NVLink-Unterstützung in containerisierten Umgebungen wie Docker, es sei denn, sie werden direkt auf dem Host ausgeführt.

Was ist NVLink?

NVLink ermöglicht es zwei oder mehr kompatiblen NVIDIA-GPUs,:

Gemeinsame Nutzung des Speichers über GPUs hinweg für große Datensätze
Daten mit einer Gesamtbandbreite von bis zu 600 GB/s austauschen
Schnelleres Multi-GPU-Training ohne CPU-Beteiligung durchführen

Unterstützt auf GPUs wie:

NVIDIA A100, V100, RTX 3090, 4090, A6000, etc.
Erfordert normalerweise eine physische NVLink-Brücke

NVLink in VPS: Voraussetzungen

Bevor Sie versuchen, NVLink auf einem VPS zu konfigurieren, müssen Sie Folgendes sicherstellen:

Host-Hardware

Der physische Server muss über Folgendes verfügen
- Mindestens zwei NVLink-kompatible GPUs
- NVLink-Brücke(n) installiert
- BIOS und Firmware, die NVLink unterstützen
Zu den üblichen kompatiblen Konfigurationen gehören Dual A100 oder RTX 3090 mit NVLink-Brücke.

VPS-Konfiguration

Der VPS muss auf einem GPU-Passthrough-fähigen Hypervisor bereitgestellt werden, z. B.:
- KVM/QEMU mit VFIO (PCI-Passthrough)
- VMware ESXi mit DirectPath-E/A
- Proxmox VE mit GPU-Passthrough

⚠️ Hinweis: NVLink funktioniert nicht über virtualisierte Geräte, es sei denn, beide GPUs werden als vollständige PCIe-Geräte an dieselbe VM weitergeleitet.

Schritt für Schritt: So konfigurieren Sie NVLink auf einem VPS

Schritt 1: Sicherstellen des Passthrough von GPUs

Der Host muss beide physischen GPUs direkt an Ihren VPS weiterleiten.

Für KVM/QEMU mit VFIO:

Aktualisieren Sie libvirt oder qemu XML, um beide GPUs durchzulassen.

Schritt 2: NVIDIA-Treiber installieren

Installieren Sie innerhalb des VPS (Gastbetriebssystem) den neuesten NVIDIA-Treiber:

Starten Sie nach der Installation neu.

Schritt 3: Überprüfen der NVLink-Topologie

Sobald Sie im Gastbetriebssystem sind:

Sie sollten sehen:

	GPU0	GPU1	CPU-Affinität
GPU0	X	NV1	0-15
GPU1	NV1	X	0-15

Wobei NV1 bedeutet, dass NVLink zwischen GPU0 und GPU1 aktiv ist.

Schritt 4: Aktivieren Sie den Peer-to-Peer-Zugriff (optional, aber empfohlen)

Stellen Sie sicher, dass sowohl Peer-to-Peer als auch Access als Enabled markiert sind .

Sicherheitsüberlegungen

Isolierter Zugang: Stellen Sie sicher, dass Ihr VPS nicht überbelegt ist oder gemeinsam mit anderen gehostet wird, wenn Sie vollen GPU-Passthrough verwenden.
Keine gemeinsamen Speicherverluste: NVLink erstellt eine gemeinsame Speicherplatzbeschränkung für den Zugriff auf vertrauenswürdige Umgebungen.
Überprüfen Sie den Zugriff auf /dev/nvidia-Geräte*.

Fehlersuche bei NVLink-Problemen

Symptom	Mögliche Ursache	Behebung
NVLink wird nicht in nvidia-smi angezeigt	GPUs nicht richtig gebrückt	Schalten Sie den Host aus und installieren Sie die physische NVLink-Brücke neu
Nur eine GPU sichtbar	Passthrough falsch konfiguriert	VM XML/Geräte-Passthrough-Einstellungen überprüfen
Peer-to-Peer deaktiviert	Treiber oder BIOS-Einstellungen stimmen nicht überein	Treiber aktualisieren, BIOS auf NVLink-Unterstützung prüfen
Niedrige Bandbreite	NVLink-Lanes nicht ausgelastet	Verwenden Sie nvidia-smi nvlink –status, um die Lanes zu überprüfen

NVLink ist ein entscheidender Faktor für GPU-intensive Workloads und bietet bei richtiger Konfiguration immense Leistungsvorteile – sogar in virtuellen Umgebungen. Mit direktem GPU-Passthrough und einer sorgfältigen Einrichtung können Sie die Leistung von Multi-GPU-Verbindungen auf einem VPS nutzen und ihn in einen Hochleistungs-Rechenknoten für anspruchsvolle Anwendungen verwandeln.

Wie konfiguriere ich NVLink auf einem VPS mit Multi-GPU-Setup?