docker 容器重启追踪

背景

无意中看到 docker ps 显示容器重启了, 虽然服务正常,还是准备查询一下

步骤

确认到服务重启

找到上一个停止的容器的日志

查看日志

发现容器是正常停止的, 基本排除服务器重启

确认机器没有重启

查看docker日志

可以发现是node 的状态从new 变成了down

查看系统日志

监控到软件oom 了

1
journalctl -e


可以在aliyun 的监控看到当时cpu有增加,但是只有75%

结论

prometheus 的容器oom导致的docker node 节点的down, 但还不知道为什么会导致我的traefik 的容器重启,暂时的解决方式是给 prometheus 加上资源限制

2024docker使用代理

背景

和上一篇文章类似,墙内世界自己推送了image之后, 服务器(我的环境是centos)上拉取也得使用代理。
但是最近很多伙伴反馈只简单的更新环境变量没有效果,通过文档上面更新docker daemon.json 也没有效果

解决

还是参考官方文档, 使用 systemd unit file

  1. Create a systemd drop-in directory for the docker service:
1
sudo mkdir -p /etc/systemd/system/docker.service.d
  1. Create a file named /etc/systemd/system/docker.service.d/http-proxy.conf that adds the HTTP_PROXY environment variable:
1
2
3
4
5
[Service]
Environment="HTTP_PROXY=http://127.0.0.1:7890"
Environment="HTTPS_PROXY=http://127.0.0.1:7890"
Environment="NO_PROXY=localhost,127.0.0.1,docker-registry.example.com,.corp"

  1. Flush changes and restart Docker
1
2
sudo systemctl daemon-reload
sudo systemctl restart docker
  1. Verify that the configuration has been loaded and matches the changes you made, for example:
1
2
3
sudo systemctl show --property=Environment docker

Environment=HTTP_PROXY=http://127.0.0.1:7890 HTTPS_PROXY=http://127.0.0.1:7890 NO_PROXY=localhost,127.0.0.1,docker-registry.example.com,.corp

注意

我偷懒只写了http_proxy, 结果发现没有效果, 请一定不能省略https_proxy

containerd常见命令

背景

自docker hub以及各种源被墙之后, 阿里云的ack服务就拉取不到docker镜像啦, ack服务底层又是使用containerd, 所以手动使用docker 命令拉取镜像也不可以,需要使用 containerd 对应的命令, 比如 crictl.

但是 crictl 不支持 http_proxy, 所以使用 ctr

1
2
3
4
5
6
7
8
9
10
11
12
# 使用代理
export https_proxy=http://127.0.0.1:7890;export http_proxy=http://127.0.0.1:7890;export all_proxy=socks5://127.0.0.1:7890

# 查看命名空间
ctr namespaces list

# 查看镜像列表
ctr -n k8s.io images list

# 拉取获取推送
ctr -n k8s.io images pull -u username:pass registry.niumag.com/namespace/image:snap
ctr -n k8s.io images push -u username:pass registry.niumag.com/namespace/image:snap