Multi-GPU Kurulumu ile Bir VPS’de NVLink Yapılandırma

NVLink, NVIDIA’nın yüksek bant genişliğine sahip GPU bağlantısı, çoklu GPU iş yüklerini hızlı bellek paylaşımı ve veri transferi sağlayarak devrim niteliğinde bir şekilde PCIe sınırlamalarını aşar. Veri bilimcileri, ML mühendisleri veya HPC kullanıcıları için NVLink, derin öğrenme model eğitimi veya büyük ölçekli simülasyonlar gibi görevleri hızlandırabilir. Örneğin, GPU belleğini birleştirerek büyük bir dil modelini daha hızlı eğitmek için çift A100 GPU ile NVLink kullanabilirsiniz. Ancak, sanallaştırılmış bir ortamda NVLink yapılandırmak karmaşıktır ve belirli donanım ve kurulum gerektirir. Bu kılavuz, NVLink’i, bir VPS’deki sınırlamalarını ve optimal performans için nasıl yapılandırılacağını açıklar.

Sınırlamalar ve Uyarılar

  • Tüm VPS sağlayıcıları NVLink kurulumlarını desteklememektedir.

  • Yalnızca bare-metal tabanlı VPS veya doğrudan geçiş yapan özel GPU sanal makineleri NVLink’in çalışmasına izin verir.

  • Docker gibi konteynerleştirilmiş ortamlarda NVLink desteği yoktur, yalnızca doğrudan ana makinede çalıştırıldığında.

NVLink Nedir?

NVLink, iki veya daha fazla uyumlu NVIDIA GPU’nun:

  • Büyük veri setleri için GPU’lar arasında bellek paylaşımı yapmasına olanak tanır

  • Toplam 600 GB/s bant genişliğine kadar veri alışverişi yapar

  • CPU müdahalesi olmadan daha hızlı çoklu GPU eğitimi gerçekleştirir

Aşağıdaki GPU’lar ile desteklenir:

  • NVIDIA A100, V100, RTX 3090, 4090, A6000, vb.

  • Genellikle bir fiziksel NVLink köprüsü gerektirir

VPS’de NVLink: Ön Gereksinimler

Bir VPS’de NVLink yapılandırmaya çalışmadan önce, aşağıdakilerin sağlandığından emin olun:

Ana Makine Donanımı

  • Fiziksel sunucuda şunlar bulunmalıdır:

    • En az iki NVLink uyumlu GPU

    • NVLink köprüsü(leri) kurulmuş olmalıdır

    • NVLink’i destekleyen BIOS ve firmware

  • Ortak uyumlu kurulumlar, NVLink köprüsü ile çift A100 veya RTX 3090 içerir.

VPS Yapılandırması

  • VPS, GPU geçişine izin veren bir hipervizör üzerinde sağlanmalıdır, örneğin:

    • KVM/QEMU ile VFIO (PCI geçişi)

    • VMware ESXi ile DirectPath I/O

    • Proxmox VE ile GPU geçişi

⚠️ Not: NVLink sanallaştırılmış cihazlar arasında çalışmaz, her iki GPU’nun da aynı VM’ye tam PCIe cihazları olarak geçiş yapılması gerekir.

Adım Adım: VPS’de NVLink Nasıl Yapılandırılır

Adım 1: GPU’ların Geçişini Sağlayın

Ana makine, her iki fiziksel GPU’yu doğrudan VPS’nize geçirmelidir.

KVM/QEMU ile VFIO için:

# İki GPU’yu vfio-pci ile atamak için örnek
echo "vendor_id device_id" > /sys/bus/pci/devices/0000:65:00.0/driver/unbind
echo "vendor_id device_id" > /sys/bus/pci/devices/0000:66:00.0/driver/unbind
echo "vendor_id device_id" > /sys/bus/pci/drivers/vfio-pci/new_id

Her iki GPU’yu geçirecek şekilde libvirt veya qemu XML’yi güncelleyin.

Adım 2: NVIDIA Sürücülerini Yükleyin

VPS içinde (misafir işletim sistemi), en son NVIDIA sürücüsünü yükleyin:

sudo apt update
sudo apt install -y nvidia-driver-535

Kurulumdan sonra yeniden başlatın.

Adım 3: NVLink Topolojisini Doğrulayın

Misafir işletim sistemine girdikten sonra:

nvidia-smi topo -m

Şunları görmelisiniz:

GPU0GPU1CPU Bağlılığı
GPU0XNV10-15
GPU1NV1X0-15

Burada NV1, GPU0 ile GPU1 arasında NVLink’in aktif olduğunu gösterir.

Adım 4: Peer-to-Peer Erişimini Etkinleştirin (Opsiyonel ama Tavsiye Edilir)

nvidia-smi p2p

Peer-to-Peer ve Erişim’in her ikisinin de Etkin olarak işaretlendiğinden emin olun.

 Güvenlik Dikkat Edilmesi Gerekenler

  • İzole erişim: Tam GPU geçişi kullanırken VPS’nizin aşırı abone edilmediğinden veya başkalarıyla birlikte barındırılmadığından emin olun.

  • Paylaşılan bellek sızıntısı yok: NVLink, paylaşılan bir bellek alanı oluşturur—erişimi güvenilir ortamlara sınırlayın.

  • /dev/nvidia cihazlarına erişimi denetleyin*.

NVLink Sorun Giderme

 

BelirtiOlası SebepÇözüm
nvidia-smi’de NVLink görünmüyorGPU’lar düzgün bir şekilde köprülenmemişAna makineyi kapatın ve fiziksel NVLink köprüsünü yeniden takın
Yalnızca bir GPU görünürGeçiş yapılandırmasında hataVM XML/cihaz geçiş ayarlarını kontrol edin
Peer-to-peer devre dışıSürücü uyumsuzluğu veya BIOS ayarlarıSürücüyü güncelleyin, NVLink desteği için BIOS’u kontrol edin
Düşük bant genişliğiNVLink hatları yeterince kullanılmıyorHatları doğrulamak için nvidia-smi nvlink –status kullanın

 

NVLink, GPU yoğun iş yükleri için bir oyun değiştiricidir ve doğru yapılandırıldığında, sanal ortamlarda bile muazzam performans avantajları sunar. Doğrudan GPU geçişi ve dikkatli bir kurulum ile, bir VPS’de çoklu GPU bağlantılarının gücünden yararlanabilir ve onu talepkar uygulamalar için yüksek performanslı bir hesaplama düğümüne dönüştürebilirsiniz.