九游平台/ 云容器引擎 cce/ / / / 工作负载异常:实例拉取镜像失败
更新时间:2024-07-15 gmt 08:00

工作负载异常:实例拉取镜像失败-九游平台

问题定位

当工作负载状态显示“实例未就绪:back-off pulling image "xxxxx"”,该状态下工作负载实例k8s事件名称为实例拉取镜像失败重新拉取镜像失败。查看k8s事件的方法请参见。

排查思路

根据具体事件信息确定具体问题原因,如表1所示。

表1 实例拉取镜像失败

事件信息

问题原因与九游平台的解决方案

failed to pull image "xxx": rpc error: code = unknown desc = error response from daemon: get xxx: denied: you may not login yet

没有登录镜像仓库,无法拉取镜像。

排查项一:kubectl创建工作负载时未指定imagepullsecret

failed to pull image "nginx:v1.1": rpc error: code = unknown desc = error response from daemon: get https://registry-1.docker.io/v2/: dial tcp: lookup registry-1.docker.io: no such host

镜像地址配置有误找不到镜像导致失败。

排查项二:填写的镜像地址错误(使用第三方镜像时)

排查项三:使用错误的密钥(使用第三方镜像时)

failed create pod sandbox: rpc error: code = unknown desc = failed to create a sandbox for pod "nginx-6dc48bf8b6-l8xrw": error response from daemon: mkdir xxxxx: no space left on device

磁盘空间不足。

排查项四:节点磁盘空间不足

failed to pull image "xxx": rpc error: code = unknown desc = error pulling image configuration: xxx x509: certificate signed by unknown authority

从第三方仓库下载镜像时,第三方仓库使用了非知名或者不安全的证书.

排查项五: 远程镜像仓库使用非知名或不安全的证书

failed to pull image "xxx": rpc error: code = unknown desc = context canceled

镜像体积过大。

排查项六: 镜像过大导致失败

failed to pull image "docker.io/bitnami/nginx:1.22.0-debian-11-r3": rpc error: code = unknown desc = error response from daemon: get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (client.timeout exceeded while awaiting headers)

排查项七:无法连接镜像仓库

error: toomanyrequests: too many requests.

you have reached your pull rate limit, you may increase the limit by authenticating an upgrading

由于拉取镜像次数达到上限而被限速。

排查项八:拉取公共镜像达上限

排查项一:kubectl创建工作负载时未指定imagepullsecret

当工作负载状态异常并显示“实例拉取镜像失败”的k8s事件时,请排查yaml文件中是否存在imagepullsecrets字段。

排查事项:

  • 当pull swr容器镜像仓库的镜像时,name参数值需固定为default-secret。
    apiversion: extensions/v1beta1
    kind: deployment
    metadata:
      name: nginx
    spec:
      replicas: 1
      selector:
        matchlabels:
          app: nginx
      strategy:
        type: rollingupdate
      template:
        metadata:
          labels:
            app: nginx
        spec:
          containers:
          - image: nginx 
            imagepullpolicy: always
            name: nginx
          imagepullsecrets:
          - name: default-secret
  • pull第三方镜像仓库的镜像时,需设置为创建的secret名称。

    kubectl创建工作负载拉取第三方镜像时,需指定的imagepullsecret字段,name表示pull镜像时的secret名称,创建密钥的方法请参见。

排查项二:填写的镜像地址错误(使用第三方镜像时)

cce支持拉取第三方镜像仓库中的镜像来创建工作负载。

在填写第三方镜像的地址时,请参照要求的格式来填写。镜像地址格式为:ip:port/path/name:version或name:version,若没标注版本号则默认版本号为latest。

  • 若是私有仓库,请填写ip:port/path/name:version。
  • 若是docker开源仓库,请填写name:version,例如nginx:latest。
    图1 第三方镜像

镜像地址配置有误找不到镜像导致失败,kubernetes event中提示如下信息:

failed to pull image "nginx:v1.1": rpc error: code = unknown desc = error response from daemon: get https://registry-1.docker.io/v2/: dial tcp: lookup registry-1.docker.io: no such host

九游平台的解决方案:

可编辑yaml修改镜像地址,也可在工作负载详情页面更新升级页签单击更换镜像。

排查项三:使用错误的密钥(使用第三方镜像时)

通常第三方镜像仓库都必须经过认证(账号密码)才可以访问,而cce中容器拉取镜像是使用密钥认证方式,这就要求在拉取镜像前必须先创建镜像仓库的密钥。

九游平台的解决方案:

若您的密钥错误将会导致镜像拉取失败,请重新获取密钥。

创建密钥的方法请参见。

排查项四:节点磁盘空间不足

当k8s事件中包含以下信息,表明节点上用于存储镜像的磁盘空间已满,会导致重新拉取镜像失败。您可以通过清理镜像或扩容磁盘解决该问题。

failed create pod sandbox: rpc error: code = unknown desc = failed to create a sandbox for pod "nginx-6dc48bf8b6-l8xrw": error response from daemon: mkdir xxxxx: no space left on device

您可以执行以下命令,确认节点上存储镜像的磁盘空间:

lvs

方案一:清理镜像

您可以执行以下步骤清理未使用的镜像:
  • 使用containerd容器引擎的节点:
    1. 查看节点上的本地镜像。
      crictl images -v
    2. 确认镜像无需使用,并通过镜像id删除无需使用的镜像。
      crictl rmi {镜像id}
  • 使用docker容器引擎的节点:
    1. 查看节点上的本地镜像。
      docker images
    2. 确认镜像无需使用,并通过镜像id删除无需使用的镜像。
      docker rmi {镜像id}

请勿删除cce-pause等系统镜像,否则可能导致无法正常创建容器。

方案二:扩容磁盘

扩容磁盘的操作步骤如下:

  1. 在evs控制台扩容数据盘。详情请参见。

    在evs控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。

  2. 登录cce控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”
  3. 登录目标节点。
  4. 使用lsblk命令查看节点块设备信息。

    这里存在两种情况,根据容器存储rootfs而不同。

排查项五: 远程镜像仓库使用非知名或不安全的证书

从第三方仓库下载镜像时,若第三方仓库使用了非知名或者不安全的证书,节点上会拉取镜像失败,pod事件列表中有“实例拉取镜像失败”事件,报错原因为"x509: certificate signed by unknown authority"。

当前euleros 2.9镜像中有进行安全增强,移除系统中部分非安全或过期知名证书配置,部分第三方镜像在其他类型节点上未报错,在euleros 2.9系统报此错误属正常现象,也可通过下述九游平台的解决方案进行处理。

九游平台的解决方案

  1. 确认报错unknown authority的第三方镜像服务器地址和端口。
    从"实例拉取镜像失败"事件信息中能够直接看到报错的第三方镜像服务器地址和端口,如上图中错误信息为:
    failed to pull image "bitnami/redis-cluster:latest": rpc error: code = unknown desc = error pulling image configuration: get https://production.cloudflare.docker.com/registry-v2/docker/registry/v2/blobs/sha256/e8/e83853f03a2e792614e7c1e6de75d63e2d6d633b4e7c39b9d700792ee50f7b56/data?verify=1636972064-aqbl5ractnuddzv/3eshzwnqoe8=: x509: certificate signed by unknown authority

    对应的第三方镜像服务器地址为 production.cloudflare.docker.com,端口为https默认端口443

  2. 在需要下载第三方镜像的节点上加载第三方镜像服务器的根证书。

    euleros, centos节点执行如下命令,{server_url}:{server_port}需替换成步骤1中地址和端口,如 production.cloudflare.docker.com:443。

    若节点的容器引擎为containerd,最后一步“systemctl restart docker”命令替换为"systemctl restart containerd"。
    openssl s_client -showcerts -connect {server_url}:{server_port} < /dev/null | sed -ne '/-begin certificate-/,/-end certificate-/p' > /etc/pki/ca-trust/source/anchors/tmp_ca.crt
    update-ca-trust
    systemctl restart docker
    ubuntu节点执行如下命令。
    openssl s_client -showcerts -connect {server_url}:{server_port} < /dev/null | sed -ne '/-begin certificate-/,/-end certificate-/p' > /usr/local/share/ca-certificates/tmp_ca.crt
    update-ca-trust
    systemctl restart docker

排查项六: 镜像过大导致失败

pod事件列表中有“实例拉取镜像失败”事件,报错原因如下。这可能是镜像较大导致的情况。

failed to pull image "xxx": rpc error: code = unknown desc = context canceled

登录节点使用docker pull命令手动下拉镜像,镜像拉取成功。

问题根因:

kubernetes默认存在拉取镜像超时时间,如果一定时间内镜像下载没有任何进度更新,下载动作就会取消。在节点性能较差或镜像较大时,可能出现镜像无法成功下载,负载启动失败的现象。

九游平台的解决方案:

  • 方案一(推荐)
    1. 登录节点手动下载镜像。
      • containerd节点:
        crictl pull 
      • docker节点:
        docker pull 
    2. 创建负载时,确认负载的镜像拉取策略imagepullpolicy为ifnotpresent(默认策略配置),此时负载会使用已拉取到本地的镜像。
  • 方案二(仅支持v1.25及以上版本的集群):修改节点池的配置参数。defaultpool节点池中的节点不支持修改该参数。
    1. 登录cce控制台。
    2. 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。
    3. 单击节点池名称后的“更多 > 配置管理”。
    4. 在侧边栏滑出的“配置管理”窗口中,修改“容器引擎docker/containerd配置”的image-pull-progress-timeout参数。该参数用于设置镜像拉取的超时时长。
    5. 单击“确定”,完成配置操作。

排查项七:无法连接镜像仓库

问题现象

创建工作负载时报如下错误。

failed to pull image "docker.io/bitnami/nginx:1.22.0-debian-11-r3": rpc error: code = unknown desc = error response from daemon: get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (client.timeout exceeded while awaiting headers)

问题原因

无法连接镜像仓库,网络不通。swr仅支持直接拉取docker官方的镜像,其他仓库的镜像需要连接公网。

九游平台的解决方案:

  • 方案一:给需要下载镜像的节点绑定公网ip。
  • 方案二:先将镜像上传到swr,然后从swr拉取镜像。

排查项八:拉取公共镜像达上限

问题现象

创建工作负载时报如下错误。

error: toomanyrequests: too many requests.

you have reached your pull rate limit, you may increase the limit by authenticating an upgrading: https://www.docker.com/increase-rate-limits.

问题原因

dockerhub对用户拉取容器镜像请求设定了上限,详情请参见。

九游平台的解决方案:

将常用的镜像上传到swr,然后从swr拉取镜像。

相关文档

网站地图