当前位置：首页 > 虚拟机 > 正文

超融合在线迁移虚拟机

虚拟机
2024-06-13 16:46:47
1375

一、虚拟化/超融合中的GPU直通与vGPU

虚拟化与超融合的GPU革命：直通与vGPU之战

随着技术的快速发展，GPU已经从图形处理专属领域转向AI和大数据领域它是区块链计算的基石。在现代企业数据中心中，GPU的并行计算能力在图像处理、AI训练和推理以及高性能计算（HPC）任务中发挥着关键作用。例如，NVIDIA的CUDA平台提供了显着的性能改进，包括：在不带GPU的Xeon8180STAC-2Benchmark中，服务器性能仅为带GPU服务器的1/8.9，其低延迟和高能效挑战了CPU的现状。

虚拟化/超融合中的GPU使用策略主要分为两种模式：GPU直通和vGPU。

GPU直通（PCIePass-through）：该方式性能损失很小（小于5%），但不支持共享多个虚拟机，可能需要额外的GPU。不支持卡迁移和在线迁移，适用于性能要求非常高的场景。
虚拟GPU（vGPU）：可以利用NVIDIA的Time-Sliced、MIG等GPU资源分区技术来并行运行多个虚拟机，但这增加了管理复杂度，并且需要显存分配。NVIDIA的vGPU系列A、B、C和Q专为各种工作负载而设计。例如，A系列针对vCSV进行了优化，但在实时迁移方面存在限制，这可能会影响服务的连续性。

以NVIDIA的A40为例，它提供了丰富的vGPU解决方案，可以适应各种用户需求，包括虚拟工作站、AI训练、虚拟桌面和虚拟应用程序。vGPU需要NVIDIAGRID软件许可证，硬件要求包括支持IOMMU的CPU（例如AMD、Intel或海光/鲲鹏SMMU）和可能的SR-IOV功能。选择正确的vGPU系列（例如A系列与vCS、C系列与vPC）很重要，但必须谨慎处理实时迁移的限制。

许可证和系列匹配：
A系列：vCS
C系列：vPC
B系列：vWS
Q系列、C系列、B系列：vWS
硬件要求：
支持IOMMU的CPU
可能需要开启SR-IOV
限制：
实时迁移限制
直通GPU和vGPU虚拟机迁移可能会导致服务中断

SMTXOS5.1更新引入了GPU直通和vGPU支持，特别适合实时渲染和AI训练。用户可以通过CloudTower轻松配置。目前支持的NVIDIA显卡包括T4、V100和A30，根据GPU型号的具体特性，具有vGPU分割模式。要了解有关NVIDIA显卡的vGPU支持的更多信息，请参阅官方文档。

深入讨论CPU和GPU之间的战争，以及如何在虚拟化环境中明智地选择和管理GPU资源，将为您的企业带来前所未有的计算能力。更多信息请参阅Intel的比较和NVIDIA的详细技术指南TeslaV100应用性能指南和vGPU用户指南虚拟GPU类型参考。