容器云环境建设和优化GPU资源池的生态和管理?

容器云屏蔽了应用和硬件、操作系统、网络之间的关系。但是对于AI来说,容器使用GPU卡也是势在必行的,是大趋势所在。
有几个疑问:
1、如何能在使用GPU时做到不影响容器云灵活的管理、如编排调度、弹性伸缩?
2、使用GPU运算是否需要应用一定要求,如保存状态?

参与6

2同行回答

Monica WangMonica WangNVIDIA AI Enterprise 产品经理 NVIDIA英伟达
可以使用NVAIE软件套件,该软件套件在Openshift, VMware Tanzu以及上游K8S都已做了性能认证,可以通过NVAIE中的Operator模块支持云原生的编排调度和扩展。显示全部

可以使用NVAIE软件套件,该软件套件在Openshift, VMware Tanzu以及上游K8S都已做了性能认证,可以通过NVAIE中的Operator模块支持云原生的编排调度和扩展。

收起
硬件生产 · 2022-04-28
浏览918
罗文江罗文江课题专家组云计算架构师某银行
环境准备:(A) GPU节点安装好NVIDIA驱动和 nvidia-docker套件。 (B)docker daemon运行时配置启动 nvidia runtime运行时。 (C)在 Kubernetes 安装nvidia的k8s-device-plugin开启vGPU支持,在创建POD时,YAML中容器请求带上资源类型 nvidia.com/gpu,可以将POD调度到GPU节点上 。 apiVer...显示全部
  1. 环境准备:(A) GPU节点安装好NVIDIA驱动和 nvidia-docker套件。 (B)docker daemon运行时配置启动 nvidia runtime运行时。 (C)在 Kubernetes 安装nvidia的k8s-device-plugin开启vGPU支持,
  2. 在创建POD时,YAML中容器请求带上资源类型 nvidia.com/gpu,可以将POD调度到GPU节点上 。
    apiVersion: v1
    kind: Pod
    metadata:
      name: gpu-pod
    spec:
      containers:
        - name: cuda-container
          image: nvidia/cuda:10.0-base
          resources:
            limits:
              nvidia.com/gpu: 1
  3. 使用GPU对应用没有特别要求,具体看应用自身的需求。譬如如果应用运行过程中要写中间数据,则反过来要求容器云提供持久化的存储能力。
收起
银行 · 2022-04-30
浏览859

提问者

niu2340
系统工程师江苏省农村信用社联合社
擅长领域: 云计算容器容器云

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-04-25
  • 关注会员:3 人
  • 问题浏览:1431
  • 最近回答:2022-04-30
  • X社区推广