跳转到文档内容
版本:下一个

设备共享

HAMi 允许多个任务共享同一块 GPU、MLU 或 NPU 设备, 从而最大化异构 AI 计算资源的利用率。

设备共享

HAMi 的设备共享能力包括:

  • 多任务共享: 同一设备可被多个任务共享,每个任务仅使用设备的一部分资源。
  • 设备显存控制: 可按 MB 或百分比分配显存。
  • 使用指定设备: 支持选择特定类型的异构 AI 设备,或通过 UUID 精确指定目标设备。
  • 容器内硬限制: 可对流式多处理器施加硬限制。
  • 无侵入式控制: 无需修改现有程序即可实现资源分配管理。
  • 动态 MIG 支持: 支持通过 MIG 切片动态调整 MIG,实现动态 MIG 切片能力。

HAMi 设备共享示例,展示多个任务共享单个 GPU

优势

这些特性能够在多种设备类型和工作负载的共享设备环境中,提高资源利用率与隔离性。

CNCFHAMi 是 CNCF Sandbox 项目