你现在可以在VMware基础架构运行Nvidia vGPU

由于VMware与Nvidia之间的合作有了新篇章，即Project Monterey，企业现在可以在Nvidia vGPU上运行AI和机器学习工作负载等计算密集型应用程序，并使用VMware vSphere对其进行管理。

传统上来看，人工智能、深度学习(DL)和机器学习(ML)工作负载仅限于CPU，但是Nvidia虚拟计算服务器(vCS)使IT管理员可以将这些工作负载转移到GPU或虚拟GPU(vGPU)，并通过vSphere管理这些工作负载。该策略旨在提高GPU利用率，加强安全性并简化管理。

Nvidia公司产品管理高级总监Raj Rao在名为《通过vSphere上的Nvidia vGPU运行ML和计算工作流的最佳做法》的会议上说：“AI、DL和 ML都是非常需要计算的工作量，并且需要大量的计算。一般的硬件不能满足这些要求。”

借助Project Monterey项目，VMware旨在最终简化vSphere环境中机器学习的开发和交付。目前，他们寻求借助vCS和vGPU来简单地加速这些环境的计算。

Nvidia GPU具有张量计算核心，可激活AI所需的大型矩阵运算。其GPU还具有先进的计算核心，可用于更多用途的多任务计算工作负载。这些GPU通常在所有流行的OEM服务器中可用;企业可以将它们部署在本地或云中。虚拟化GPU可从硬件GPU中提取功能、性能和可靠性。

研究和咨询公司Gartner的研究主管Paul Delory说：“这是面向虚拟化的硬件加速器的总体趋势的一部分，我们越来越多地将特殊功能转移到专用硬件。”

通过vSphere管理vGPU

借助通过vSphere管理vGPU的新功能，管理员可以启用多种工作负载，例如在同一主机上运行Windows和Linux VM。VMware客户越来越多地在边缘计算中使用vGPU，而5G GPU计算则是vSphere管理vGPU的新兴用例。

管理员还可以在vSphere中使用vGPU，以加速图形工作负载;编码和解码VMware Horizon工作负载;运行机器学习、深度学习和高性能计算工作负载;并开发增强现实或虚拟现实应用程序。

由vSphere管理的vGPU还可为启用vGPU的VM的vMotion等流程提高效率。管理员可以使用vSphere管理GPU和vGPU，然后以更加简化的方式使用这些GPU和vGPU管理vMotion工作负载。

VMware的高级工程师Uday Kurkure说：“机器学习训练或高性能计算工作可能需要几天的时间。

如果你要进行服务器维护，则需要停止作业并关闭服务器…再次启动服务器并重新启动作业。但是…其实你不必关闭作业并关闭服务器，你可以使用vMotion-将这些工作转移给另一台主机，从而节省了几天的时间。” 如果你要在vSphere上设置Nvidia vGPU，请在主机上安装Nvidia GPU。在运行于主机之上的管理程序上安装Nvidia vGPU Manager，以虚拟化基础GPU。然后，管理员可以运行多个具有相同操作系统(例如Windows或Linux)的VM，这些VM可以访问相同的虚拟GPU。然后，这些主机可以快速高效地运行高性能计算或机器学习工作负载。

vSphere和虚拟环境中的机器学习

通过vGPU，人们可以提供更有效的机器学习训练。管理员可以在数据中心中运行其他工作负载的同时，训练他们的机器学习应用程序，从而大大减少训练机器学习应用程序所需的时间。例如，根据Kurkure的说法，用于单词预测的复杂语言建模工作量最多可能需要56个小时来训练，而使用vGPU只需8个小时。与本地GPU相比，vGPU在训练时间方面仅为4%。但是，对于大多数企业而言，机器学习仍然处于起步阶段。

Delory说：“Project Monterey对于AI或ML工作负载的好处是使它们可以访问GPU。但是现在，你要么必须在所有主机上安装GPU(这很昂贵)，要么将硬件专用于AI或ML工作负载-这既复杂又昂贵。”

你现在可以在VMware基础架构运行Nvidia vGPU

虚拟化相关栏目本月热门文章