跳转至

管理本地服务

本地部署的worker agent / ft agent / proxy agent服务组件,除非机器硬件故障造成服务卡死或网络故障,几乎无需运维。一般只需解决硬件故障,服务会自动拉起

当有新版本的本地服务时,服务会自行升级为最新版本,保持最新的功能

如果发现使用异常时,可以按以下顺序排查:

  1. 绝大多数异常来源于硬件或网络,因此首先确认异常出现的主机,登录主机查看nvidia-smi检查GPU状态(是否卡死或其他ERR)或其他,出现硬件故障重启主机或联系供应商解决

  2. 排除硬件故障,可以用以下命令查看相应服务的状态和日志进行排查

worker agent

与创建实例、重置实例、开机、关机相关的异常,可以找到对应主机后,在该主机上检查该服务状态和日志

# 查看状态,是否为running
sudo systemctl status worker-agent.service

# 如果状态不是running,那么启动服务
sudo systemctl start worker-agent.service

# 如果服务启动后状态仍然会变成failed,无法启动,查看日志
sudo journalctl -u worker-agent.service

# 如需卸载worker agent(如果没有安装pct工具,请参考部署服务文档)
sudo pct uninstall worker-agent

ft agent

如果克隆实例出现异常,可以找到对应源主机和目标主机后,在主机上检查该服务状态和日志(只要内网连通正常,且部署时正确完成了ssh免密或设置了ssh密码,出现异常概率极低)

# 查看状态,是否为running
sudo systemctl status ft-agent.service

# 如果状态不是running,那么启动服务
sudo systemctl start ft-agent.service

# 如果服务启动后状态仍然变成failed,无法启动,查看日志
sudo journalctl -u ft-agent.service

# 如需卸载ft agent(如果没有安装pct工具,请参考部署服务文档)
sudo pct uninstall worker-agent

proxy agent

如果出现实例无法连接,首先排除主机上worker agent的问题(可能为GPU等造成了服务卡死),然后排查proxy agent(一般会造成更大范围的影响)

# 查看状态,是否为running
sudo systemctl status proxy-agent.service

# 如果状态不是running,那么启动服务
sudo systemctl start proxy-agent.service

# 如果服务启动后状态仍然变成failed,无法启动,查看日志
sudo journalctl -u proxy-agent.service

# 如需卸载proxy agent(如果没有安装pct工具,请参考部署服务文档)
sudo pct uninstall proxy-agent

迁移docker root dir目录

使用pct工具可以执行以下命令迁移当前主机上的docker root dir目录(即容器实例的系统目录所使用的目录,因此需要有一定的剩余容量)到其他的目录,其中的数据如容器镜像等会完整迁移:

# 先停止docker
sudo systemctl stop docker.service

# 迁移:
# --src 源目录,可以使用docker info | grep Dir命令查看
# --dest 迁移的目录目录
sudo pct migrate docker --src /var/lib/docker --dest /data/docker

# 启动docker
sudo systemctl start docker.service