栾城区住房建设局官方网站,怎么创建一个软件平台,网络运维的工作内容,福州网站seo优化公司首选#xff0c;为了防止后期docker满#xff0c;Docker容器 - 启动报错#xff1a;No space left on device#xff0c;更换一下docker存储位置
1、停止Docker服务 首先停止Docker守护进程#xff0c;可以使用以下命令#xff1a;
sudo systemctl stop docker 备份现有…首选为了防止后期docker满Docker容器 - 启动报错No space left on device更换一下docker存储位置
1、停止Docker服务 首先停止Docker守护进程可以使用以下命令
sudo systemctl stop docker 备份现有的Docker数据在进行目录更改之前建议你备份当前Docker的数据以防止意外数据丢失。
2、创建新的存储目录这个盘有28TB足够了 使用以下命令在/home目录下创建一个名为docker的新目录
sudo mkdir /media/cys/c4e58bbe-a73a-4b02-ae9e-2b310ee884fb/docker 3、编辑Docker配置文件 修改Docker的启动配置文件/etc/docker/daemon.json如果文件不存在则创建该文件。在文件中添加以下内容如果文件已存在则添加data-root一行即可
{ data-root: /media/cys/c4e58bbe-a73a-4b02-ae9e-2b310ee884fb/docker } 4、启动Docker服务 保存并关闭编辑器后启动Docker服务以应用更改
sudo systemctl start docker 5、验证更改 运行以下命令验证Docker的数据存储目录是否已经更改
docker info | grep Docker Root Dir 然后按照教程一步步来
GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.
1.需要docker支持GPU
sudo docker run --help | grep -i gpus | wc -L
# run the second instruction only if the output of the first instruction is equal to 0
distribution$(. /etc/os-release;echo $ID$VERSION_ID) curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed s#deb https://#deb [signed-by/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update
sudo apt install -y nvidia-docker2
sudo systemctl restart docker
sudo docker run -it --rm --gpus all ubuntu nvidia-smi最后一句话不用执行
2.# For China Mainland users:我们执行
docker pull registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.8.0-py38-torch2.0.1-tf2.13.0-1.9.4 3.这一步官方是这个命令但这种情况智能gradio产生外链进行访问无法访问docker内的127.0.0.1
# Step3: run the docker container
docker run -it --name facechain -p 7860:7860 --gpus all registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.8.0-py38-torch2.0.1-tf2.13.0-1.9.4 /bin/bash 如果要本地也能访问127.0.0.1:7860要执行如下代码
docker run -it --name facechain --network host -p 7860:7860 --gpus all registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.8.0-py38-torch2.0.1-tf2.13.0-1.9.4 /bin/bash 这一步如果说已经存在facechain容器那就docker ps -a看看存在的话
那就docker close facechain
docker rm facechain然后再执行一下step3
或者systemctl restart docker需要稍微等等
4.进到docker里执行
# Step4: Install the gradio in the docker container:
pip3 install gradio3.50.2
pip3 install controlnet_aux0.0.6
pip3 install python-slugify
pip3 install onnxruntime1.15.1
pip3 install edge-tts
pip3 install modelscope1.10.0# Step5 clone facechain from github
GIT_LFS_SKIP_SMUDGE1 git clone https://github.com/modelscope/facechain.git --depth 1
cd facechain
CUDA_VISIBLE_DEVICES0 python3 app.py CUDA_VISIBLE_DEVICES0 python3 app.py
不知道为什么使用python3 app.py程序一开始是起得来的但是之后训练汇报训练失败的错误然后就会显示在四张卡上都错误可能是我过程中 CUDA_VISIBLE_DEVICES0,1,2,3了但是后面我清空掉docker按理说不该默认四卡调的后面看到有说法这LDM主要是循环迭代耗时放多卡意义不大所以还是单卡了。这个错误排查了一个晚上和一个上午才搞定
使用 CUDA_VISIBLE_DEVICES0 python3 app.py是没有问题的 会报没有share link缺文件下载一下 下载一下frpc_linux_amd64,改名字为frpc_linux_amd64_v0.2,
然后docker cp frpc_linux_amd64_v0.2 container名字:/opt/conda/lib/python3.8/site-packages/gradio,
还需要赋权限chmod x /opt/conda/lib/python3.8/site-packages/gradio/frpc_linux_amd64_v0.2