创建standard专属资源池-九游平台
在ai开发过程中,由于业务需求的多样化和资源使用的复杂性,为满足特定业务对资源确定性、安全性、高效性的严格要求,创建专属资源池成为必要举措。
专属资源池是一种为特定用户、业务或项目专门划分和预留的资源集合,这些资源在物理或逻辑上与其他资源隔离开来,以确保特定需求能够得到满足。
modelarts standard资源池提供了在使用modelarts进行ai开发(包括自动学习、创建workflow工作流、创建notebook实例、创建训练作业和创建推理服务)所需的计算资源。更多standard资源池介绍请见standard资源池功能介绍。
modelarts standard专属资源池以弹性集群的方式提供专属计算资源,需要通过创建standard专属资源池获取计算资源,以满足您在使用modelarts过程中特定的业务需求。
本章节主要介绍创建standard专属资源池的详细操作。
前提条件
- 已经创建虚拟私有云。
- 已经创建子网。
步骤一:创建网络
modelarts网络是承载modelarts资源池节点的网络连接,基于华为云的vpc进行封装,对用户仅提供网络名称以及cidr网段的选择项。为了防止在打通vpc的时候有网段的冲突,modelarts网络提供了多个cidr网段的选项,用户可以根据自己的实际情况进行选择。
虚拟私有云vpc是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。
- 登录modelarts管理控制台,在左侧导航栏中选择“ai专属资源池 > 弹性集群cluster”,默认进入“standard资源池”页面。
- 切换到“网络”页签,单击“创建”,弹出“创建网络”页面。
- 在“创建网络”弹窗中填写网络信息。
- 网络名称:创建网络时默认生成网络名称,也可自行修改。
- 网段类型:可选“预置”和“自定义”。自定义网络建议使用网段:10.0.0.0/8~24、172.16.0.0/12~24、192.168.0.0/16~24,子网掩码可选范围8-28。
- ipv6:开启ipv6功能后,将自动为子网分配ipv6网段,暂不支持自定义设置ipv6网段,该功能一旦开启,将不能关闭。(如果创建网络时未勾选开启ipv6,也可在创建网络后在操作列单击“更多>启用ipv6”,如图2)
图1 创建网络图2 启用ipv6- 单用户最多可创建15个网络。
- 网段设置以后不能修改,避免与将要打通的vpc网段冲突。可能冲突的网段包括:
- 用户的vpc网段
- 容器网段(固定是172.16.0.0/16)
- 服务网段(固定是10.247.0.0/16)
- 确认无误后,单击“确定”。
步骤二:打通vpc(可选)
打通vpc通常指在不同的vpc之间或者vpc与其他网络环境之间建立网络连接,以实现资源共享和安全通信。
通过打通vpc,可以方便用户跨vpc使用资源,实现资源共享、提升数据传输效率、保障业务连续性等。
- 在“网络”页签,单击网络列表中某个网络操作列的“打通vpc”。
图3 打通vpc
- 在打通vpc弹框中,打开“打通vpc”开关,在下拉框中选择可用的vpc和子网。
需要打通的对端网络不能和当前网段重叠。
图4 打通vpc参数选择- 如果没有vpc可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。
- 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。
- 支持1个vpc下多个子网的打通,如果vpc下有多个子网,会显示“ ”,单击“ ”即可添加子网(上限10个)。
- 如果需要使用打通vpc的方式实现专属资源池访问公网,由于要访问的公网地址不确定,一般是建议用户在vpc中创建snat。此场景下,在打通vpc后,专属资源池中作业访问公网地址,默认不能转发到用户vpc的snat,需要提交工单联系九游平台的技术支持在专属资源池vpc的路由中添加指向对等连接的缺省路由。当您开启默认路由后,在打通vpc时,会将modelarts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加缺省路由即可完成网络配置。
步骤三:创建standard专属资源池
modelarts standard专属资源池以弹性集群的方式提供专属计算资源,需要通过创建standard专属资源池获取计算资源,以满足您在使用modelarts过程中特定的业务需求。
- 登录modelarts管理控制台,在左侧菜单栏中选择“ai专属资源池 > 弹性集群cluster”。
- 在“standard资源池”页签,单击“购买ai专属集群”,进入购买ai专属集群界面,参见下表填写参数。
表1 ai专属集群的参数说明 参数名称
子参数
说明
计费模式
-
计费模式可以选择“包年/包月”或“按需计费”。
- 包年/包月是预付费模式,按订单的购买周期计费,适用于可预估资源使用周期的场景,价格比按需计费模式更优惠。
- 按需计费是后付费模式,按云服务器的实际使用时长计费,可以随时开通/删除云服务器。
集群规格
集群名称
standard专属资源池的名称。
只能以小写字母开头,由小写字母、数字、中划线(-)组成,不能以中划线结尾。
购买方案
modelarts standard场景下选择“modelarts standard(标准版)”。
“modelarts lite elastic cluster(原生接口)”用于modelarts lite cluster场景,相关资料请见《modelarts lite cluster用户指南》。该参数仅在贵阳一区域显示。
资源池类型
可选物理资源池和逻辑资源池。逻辑资源池与规格有关,如果无逻辑规格则不显示逻辑资源池。
物理资源池不支持弹性资源,优势是提供更高的隔离性,物理隔离,网络专属,且支持网络打通等。
逻辑资源池支持弹性资源,优势是创建、扩缩容更快。
作业类型
根据业务需要,选择该资源池支持的作业类型,包括“开发环境”、“训练作业”和“推理服务”。
集群高级配置
- 集群规格:可以保持默认或选择自定义。选择自定义时,支持设置集群规模、开启控制节点高可用开关。
- 集群规模:表示资源池支持管理的最大实例数量,请根据业务场景选择。
- 控制节点高可用:开启后,系统为您的集群创建三个控制平面节点,确保集群的可靠性。如果集群规模为1000/2000节点,则必须开启。如果关闭高可用,您的集群只会创建一个控制平面节点。资源池创建后,控制节点高可用的开启或关闭状态不可修改。
- 控制节点分布:可以选择随机分配,也可以指定可用区。控制节点推荐尽可能随机分布在不同可用区以提高容灾能力。
- 随机分配:系统会随机分配控制节点的可用区,尽可能将控制节点随机分布在不同可用区以提高容灾能力 。如果某可用区资源不足,将分配至资源充足的可用区,优先保障集群创建成功,可能无法保障可用区级容灾。
- 指定可用区:自定义选择控制节点的可用区。
网络
ma网络
指定资源池运行的网络,可以与该网络中的其他云服务资源实例互通。仅物理资源池需要设置网络。
在下拉框中选择,如果没有可用网络,单击右侧的“创建”,创建一个可用的网络。创建网络相关可以参考步骤一:创建网络章节。
ipv6网络
开启ipv6功能。如果开启了此功能,要求资源池绑定的网络也开启ipv6功能,网络开启ipv6可以参考步骤一:创建网络章节。该功能一旦开启,将不能关闭。
默认规格
cpu架构
cpu架构指的是中央处理器(cpu)的指令集和设计规范。支持x86和arm64两种不同的cpu架构。请根据实际需要选择。
实例规格类型
支持cpu、gpu、ascend三种芯片规格资源,根据实际需要选择。
实例规格
在下拉框中选择需要使用的规格。平台分配的资源规格包含了一定的系统损耗,实际可用的资源量小于规格标称的资源。实际可用的资源量可在专属资源池创建成功后,在详情页的“节点”页签中查看。
当前部分规格为受限购买(如ascend规格),需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(如果无客户经理可提交工单反馈)。
可用区
您可以根据实际情况选择“随机分配”或“指定az”。可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。
- 随机分配:系统自动分配可用区。
- 指定az:指定资源池节点在哪个可用区域。考虑系统容灾时,推荐指定节点在同一个可用区。可设置可用区的实例数。
实例数
选择专属资源池的实例数,选择的实例数越多,计算性能越强。
当“可用区”选择“指定az”时,实例数会根据可用区的数据自动计算,此处无需再次设置。
说明:单次创建时,实例数建议不大于30,否则可能触发限流导致创建失败。
部分规格支持整柜购买,此时实例数量会显示为“数量*整柜”,购买的实例总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。整柜下的实例生命周期需保持一致,需要一起创建、一起删除。
节点高级配置
开启“节点高级配置”开关后,支持设置实例的操作系统。
存储配置
部分规格支持“存储配置”开关,该参数默认关闭。
系统盘
打开“存储配置”开关后,可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。
部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘的磁盘类型和大小。
容器盘
打开“存储配置”开关后,可以看到每个实例自带的容器盘的磁盘类型、大小和数量。容器盘的类型只能是本地盘或云硬盘,不允许修改。
部分规格没有携带容器盘,在创建专属资源池时支持设置容器盘的磁盘类型和大小。此时,磁盘类型仅支持云硬盘(包括通用sso、高io和超高io)。
添加容器数据盘
部分规格支持额外挂载容器数据盘,可以看到“添加容器数据盘”参数,单击该参数前面的 号,可以给专属资源池的每个实例额外挂载容器数据盘,此处挂载的盘都是evs云硬盘,会单独收费。
支持设置挂载盘的磁盘类型、大小和数量,具体取值以控制台实际显示为准。
容器盘高级配置-指定磁盘空间
容器盘空间默认划分为两块,一块用于存放容器引擎 (docker/containerd) 工作目录、容器镜像的数据和镜像元数据;另一块用于kubelet组件和emptydir临时存储等。通过“指定磁盘空间”参数设置这两块分区大小的比例。容器引擎空间的剩余容量将会影响镜像下载和容器的启动及运行。
容器盘的类型是本地盘时,不支持设置“指定磁盘空间”。
容器盘高级配置-容器引擎空间大小
该参数限制的是pod容器空间分配的大小。可指定容器引擎空间大小。
仅支持整数, 默认值与最小值为50gib,不同规格的最大值不同,数值有效范围请参考界面提示。自定义设置容器引擎空间大小不会造成额外费用增加。
该参数限制了单个pod作业使用磁盘的大小。
容器盘高级配置-写入模式
部分规格支持设置磁盘的写入模式,写入模式包括“线性”和“条带化”。
- 线性:线性逻辑卷是将一个或多个物理卷整合为一个逻辑卷,实际写入数据时会先往一个基本物理卷上写入,当存储空间占满时再往另一个基本物理卷写入。
- 条带化:创建逻辑卷时指定条带化,当实际写入数据时会将连续的数据分成大小相同的块,然后依次存储在多个物理卷上,实现数据的并发读写从而提高读写性能。条带化模式的存储池不支持扩容。
新增规格
支持添加多个规格。限制如下:
- 添加的多个规格项中,不能有相同的规格。
- 选择多个规格的cpu架构必须相同。例如都是x86,或者都是arm。
- 如果选择了多个gpu或npu规格,由于不同规格的参数网络平面不互通,分布式训练时训练速度会受到影响。如果您要做分布式训练,建议您只选择一个gpu或npu规格。
- 一个资源池中,最多可添加10种规格。
资源调度与切分
自定义驱动
默认关闭。部分gpu和ascend规格资源池允许自定义安装驱动。集群中默认会安装驱动,无需用户操作。只有需要指定驱动版本时,需要开启。
gpu驱动/ascend驱动
打开“自定义驱动”开关,显示此参数,选择gpu/ascend驱动。如果实例规格类型为gpu则显示“gpu驱动”,如果实例规格类型为ascend则显示“ascend驱动”。
开启高可用冗余
-
- 开启高可用冗余:是否开启资源池的高可用冗余,超节点默认开启高可用冗余。
- 冗余节点分布策略:冗余节点的分布策略,超节点仅支持step均分:每个超节点内预留相同数量的冗余节点。
- 冗余实例数:此规格设置的高可用冗余实例数量。冗余系数指的是冗余节点分布策略为step均分时,每个超节点内预留的冗余节点数量。
说明:当前仅snt9c规格支持该功能。
高级配置
集群描述(可选)
输入集群描述信息,方便查找区分集群。
标签
单击“添加新标签”,可以为standard资源池配置标签信息,通过标签实现资源的分组管理。此处的标签信息可以同源标签管理服务tms中预定义的标签信息,也可以输入自定义标签。也可以在创建完成后的standard资源池详情页面中通过“标签”页签设置标签信息。
说明:tms预定义标签对所有支持标签功能的服务资源可见。自定义标签只对自己服务可见。
网段
可选默认和自定义。
- 默认:系统随机分配一个不冲突的网段供用户使用,因后续不支持修改建议商用场景选择手动分配,确保网段符合用户诉求。
- 自定义:需要自定义k8s容器网段和k8s服务网段。
- k8s容器网段:集群下容器使用的网段,决定了集群下容器的数量上限。创建后不可修改。
- k8s服务网段:同一集群下容器互相访问时使用的service资源的网段。决定了service资源的上限。 创建后不可修改。
购买时长
-
选择购买时长。只有选择“包年/包月”计费模式时才需填写。
自动续费
是否自动续费。只有选择“包年/包月”计费模式时才需填写。
- 按月购买:自动续费周期为1个月。
- 按年购买:自动续费周期为1年。
- 单击“立即购买”确认规格。产品规格和协议许可确认无误后,单击“提交”,即可创建专属资源池。
- 当资源池创建成功后,资源池的状态会变成“运行中”,当“节点个数”中的“可用”和“总数”值大于0时,资源池才能下发任务。
- 可以将鼠标放在“创建中”字样上,查看当前创建过程详情。如果单击查看详情,可跳转到“操作记录”中。
- 可以在资源池列表左上角“操作记录”中查看资源池的任务记录。
常见问题
创建专属资源池时,能选到规格但最终创建时发生报错,提示无可用资源?
由于专属资源的可选规格是动态监测的,因此在极少数情况下会出现,规格在购买界面可以被选择,但由于没有及时支付和创建资源池,导致该规格售罄创建失败。
建议您在创建界面更换规格重新创建资源池。
为什么无法使用资源池节点上的全部cpu资源?
由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8u,节点分配给系统组件部分cpu,可用的资源会小于8u。
建议您在启动任务前,在该资源池的详情页中,单击“节点”页签,查看实际可用的cpu资源。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨