Настройка NVLink на VPS с несколькими GPU

NVLink, высокоскоростной GPU-интерконнект от NVIDIA, революционизирует рабочие нагрузки с несколькими GPU, обеспечивая быстрый обмен памятью и передачу данных, значительно превосходя ограничения PCIe. Для data scientist’ов, ML инженеров и пользователей HPC NVLink может ускорить такие задачи, как обучение моделей глубокого обучения или крупномасштабные симуляции. Например, вы можете использовать NVLink с двумя графическими процессорами A100 для ускорения обучения большой языковой модели за счет объединения памяти GPU. Однако настройка NVLink в виртуализированной среде сложна и требует специального оборудования и настроек. В этом руководстве рассказывается о NVLink, его ограничениях в VPS и о том, как настроить его для достижения оптимальной производительности.

Ограничения и предостережения

Не все поставщики VPS поддерживают установку NVLink.
Только пустые VPS или выделенные виртуальные машины с GPU и прямым проходом позволяют работать с NVLink.
Нет поддержки NVLink в контейнерных средах, таких как Docker, если они не запускаются непосредственно на хосте.

Что такое NVLink?

NVLink позволяет двум или более совместимым графическим процессорам NVIDIA:

Делить память между GPU для больших наборов данных
Обмениваться данными с общей пропускной способностью до 600 ГБ/с
Выполнять более быстрое обучение на нескольких GPU без участия CPU

Поддерживается на таких GPU, как:

NVIDIA A100, V100, RTX 3090, 4090, A6000 и т.д.
Обычно требуется физический мост NVLink

NVLink в VPS: предварительные условия

Прежде чем приступать к настройке NVLink на VPS, убедитесь в следующем:

Аппаратное обеспечение хоста

Физический сервер должен иметь:
- Не менее двух NVLink-совместимых графических процессоров
- Установлен мост(ы) NVLink
- BIOS и встроенное ПО, поддерживающие NVLink
Обычно совместимые конфигурации включают два A100 или RTX 3090 с мостом NVLink.

Конфигурация VPS

VPS должен быть размещен на гипервизоре с поддержкой GPU passthrough, например:
- KVM/QEMU с VFIO (PCI passthrough)
- VMware ESXi с DirectPath I/O
- Proxmox VE с GPU passthrough

⚠️ Примечание: NVLink не работает между виртуализированными устройствами, если оба GPU не передаются как полноценные PCIe-устройства в одну и ту же виртуальную машину.

Шаг за шагом: как настроить NVLink на VPS

Шаг 1: Обеспечьте пропуск графических процессоров

Хост должен передавать оба физических GPU непосредственно на ваш VPS.

Для KVM/QEMU с VFIO:

Обновите libvirt или qemu XML, чтобы пропустить оба GPU.

Шаг 2: Установка драйверов NVIDIA

Внутри VPS (гостевой ОС) установите последнюю версию драйвера NVIDIA:

Перезагрузитесь после установки.

Шаг 3: Проверка топологии NVLink

Находясь в гостевой ОС:

Вы должны увидеть:

	GPU0	GPU1	CPU Affinity
GPU0	X	NV1	0-15
GPU1	NV1	X	0-15

Где NV1 означает, что NVLink активен между GPU0 и GPU1.

Шаг 4: Включите одноранговый доступ (необязательно, но рекомендуется)

Убедитесь, что Peer-to-Peer и Access отмечены как Enabled.

Соображения безопасности

Изолированный доступ: Убедитесь, что ваш VPS не перегружен подпиской и не размещен совместно с другими при использовании полного GPU passthrough.
Отсутствие утечки общей памяти: NVLink создает ограниченный доступ к общему пространству памяти в доверенных средах.
Аудит доступа к устройствам /dev/nvidia*.

Устранение неполадок NVLink

Симптом	Возможная причина	Устранение
NVLink не отображается в nvidia-smi	Графические процессоры не подключены к мосту должным образом	Отключите питание хоста и переустановите физический мост NVLink
Виден только один GPU	Неправильная конфигурация passthrough	Проверьте настройки прохода VM XML/устройств
Одноранговая связь отключена	Несоответствие драйверов или настроек BIOS	Обновите драйвер, проверьте BIOS на поддержку NVLink
Низкая пропускная способность	Дорожки NVLink используются недостаточно эффективно	Используйте nvidia-smi nvlink –status для проверки дорожек

NVLink – это революционное решение для рабочих нагрузок с интенсивным использованием GPU, обеспечивающее огромные преимущества в производительности при правильной настройке – даже в виртуальных средах. Благодаря прямому прохождению GPU и тщательной настройке вы можете использовать мощь многопроцессорных соединений на VPS, превратив его в высокопроизводительный вычислительный узел для требовательных приложений.

Level up your server setup! Apply AVA and launch with a 15% discount