使用ai gallery在线推理服务部署模型-九游平台
ai gallery支持将训练的模型或创建的模型资产部署为在线推理服务,可供用户直接调用api完成推理业务。
约束限制
- 如果模型的“任务类型”是“文本问答”或“文本生成”,则支持在线推理。如果模型的“任务类型”是除“文本问答”和“文本生成”之外的类型(即自定义模型),则模型文件必须满足自定义模型规范(推理)才支持模型自定义推理。
- 当使用自定义镜像部署推理服务时,要确认镜像是否满足自定义镜像规范,否则无法成功完成推理服务的部署。
部署推理服务
- 登录ai gallery。
- 单击“模型”进入模型列表。
- 选择需要部署为推理服务的模型,单击模型名称进入模型详情页。
- 在模型详情页,选择“部署 > 推理服务”进入部署推理服务页面。
- 在部署推理服务页面完成参数配置。
表1 部署推理服务 参数
子参数
说明
推理服务设置
服务名称
必填项,自定义一个在线推理服务的名称。
支持1~30个字符。
安全认证
支持“公开”和“appcode认证”。
- 公开:无需认证,api地址可被公开访问。
- appcode认证:需使用有效的appcode进行认证。appcode使用api网关颁发的appcode进行身份认证,调用者将appcode放到请求头中进行身份认证,确保只有授权的调用者能够调用api接口。
appcode的获取方法:单击ai gallery页面右上角“我的gallery”,在左侧菜单栏选择“鉴权管理”。在“鉴权管理”中单击“创建appcode”,填写描述信息后,即可在列表中显示新增的appcode。
说明:推理服务只能使用计算规格所在区域的appcode进行认证鉴权。
描述
输入在线服务的描述信息。
支持0~100个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词。
高级设置
推理任务类型
选择推理任务类型。
- 当模型的“任务类型”是“文本问答”或“文本生成”时,“推理任务类型”默认和模型“任务类型”一致。“推理任务类型”支持修改,如果模型文件满足自定义模型规范(推理),则“推理任务类型”支持选择“自定义”。
- 当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型(即自定义模型)时,则“推理任务类型”默认为“自定义”,支持修改为“文本问答”或“文本生成”。
- 当使用自定义镜像部署推理服务时,“推理任务类型”默认为“自定义”,且不支持修改。
参数设置
当使用自定义镜像部署推理服务时,如果自定义镜像的“模型文件”中上传了“gallery_inference/inference_params.json”文件,则此处会显示inference_params文件里的参数配置项,支持修改自定义镜像的部署参数。
计算规格选择
-
按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。
- 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。
- 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,ai gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。
- 在“运行时长控制”选择是否指定运行时长。
- 不限时长:不限制作业的运行时长,ai gallery工具链服务部署完成后将一直处于“运行中”。
- 指定时长:设置作业运行几小时后停止,当ai gallery工具链服务运行时长达到指定时长时,系统将会暂停作业。时长设置不能超过计算资源的剩余额度。
说明:如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致ai gallery工具链服务异常中断。ai gallery的计算规格的计费说明请参见计算规格说明。
- 服务参数配置完成后,单击“启动部署”。
- 在“订单信息确认”页面,确认服务信息和费用,单击“确定”跳转至在线推理服务列表页面。
当“状态”变为“运行中”表示在线推理服务部署成功,可以进行服务预测。
推理服务预测
待在线推理服务状态变为“运行中”时,便可进行推理预测。
- 在在线推理服务列表页面,选择服务“状态”为“运行中”的服务。
- 单击操作列的“推理测试”,在测试页面根据任务类型以及页面提示完成对应的测试。
调用api
待推理服务的状态变为“运行中”时,可单击操作列的“调用”,复制对应的接口代码,在本地环境或云端的开发环境中进行接口。

当部署推理服务的“安全认证”选择了“appcode认证”,则需要将复制的接口代码中headers中的x-apig-appcode的参数值修改为真实的appcode值。
python示例代码如下:
import requests api_url = "https://xxxxxxx/v1/gallery/65f38c4a-bbd0-4d70-a724-5fccf573399a/" headers = { "content-type": "application/json", "x-apig-appcode": "your_appcode" } def query(payload): response = requests.post(api_url, headers=headers, json=payload) return response.json() output = query({ "inputs": "我是一名作家,喜欢写" })
查看推理服务
在在线推理服务列表页面,单击服务操作列的“服务详情”(如果是“运行中”的推理服务,则需要单击操作列的“更多 > 服务详情”),可以在弹窗中查看推理服务的“服务信息”、“服务日志”和“指标效果”。
停止推理服务
当“运行中”的推理服务使用完成后,在在线推理服务列表页面,单击操作列的“更多 > 停止服务”即可停止推理服务,节约资源成本。
查看推理效果
当推理服务处于“运行中”时,在服务列表单击操作列的“更多 > 服务详情”,在弹窗中选择“指标效果”页签,可以查看推理效果。
支持设置时间区间,查看不同时间下的推理效果。
仅当推理服务处于“运行中”,才支持查看监控指标。
指标名称 |
指标说明 |
---|---|
cpu使用率 |
在推理服务启动过程中,机器的cpu占用情况。 |
内存使用率 |
在推理服务启动过程中,机器的内存占用情况。 |
显卡使用率 |
在推理服务启动过程中,机器的npu/gpu占用情况。 |
显存使用率 |
在推理服务启动过程中,机器的显存占用情况。 |
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨