临清做网站wordpress网站百度收录首页

张小明 2026/1/11 16:28:16
临清做网站,wordpress网站百度收录首页,兰陵成都设计公司,传统营销与网络营销的区别Ubuntu触发硬件级系统重启1. 挂载系统服务2. 编写GPU状态监控3. 编写重启函数3.1 启用内核硬件重启许可3.2 执行硬重启函数4. 启用监控服务因为一些至今尚未搞明白的神奇原因#xff0c;RTX5090的显卡时不时就会在跑AI推理的时候挂掉#xff08;GPU lost#xff09;#xf…Ubuntu触发硬件级系统重启1. 挂载系统服务2. 编写GPU状态监控3. 编写重启函数3.1 启用内核硬件重启许可3.2 执行硬重启函数4. 启用监控服务因为一些至今尚未搞明白的神奇原因RTX5090的显卡时不时就会在跑AI推理的时候挂掉GPU lost导致整个操作系统都在短时间内跟着一起挂掉。在windows server上这会导致整个操作系统自动关机重启但是在Ubuntu上这会导致显示器画面卡死在:nvidia-modeset:ERROR:GPU:0:ERRORwhilewaitingforGPU progres使用的操作系统Ubuntu24.04.3Nvidia驱动Driver Version: 580.95.05到现在也不知道为什么会有这个显卡挂掉的问题【在同一台机器的windows server系统上同样会出现这个问题而且更换了多个版本的驱动都存在让我不得不怀疑硬件问题】如果有人能知道可能的原因请麻烦告知一下。但不论如何目前的目的是让Ubuntu系统在显卡挂掉的情况下能够全自动重启恢复。经过研究发现系统级的systemd服务在显示器画面已经爆炸的情况下其实还在正常工作而进一步的研究发现通过python的GPUtil.getGPUs()可以获取目前还在正常工作的显卡数量如果这个数量低于正常水平那么显而易见说明有显卡此时出现了故障掉线了。这样解决思路就有了基于在systemd服务中挂载一个root用户启动的python脚本如果检测到GPU目前的工作数量低于正常水平比如我的系统中应该是2张那么就发出指令触发系统重启。1. 挂载系统服务在系统服务路径/etc/systemd/system/下新建一个服务文件gpu_monitor.service[Unit]Descriptiongpu_monitorAfternetwork.target[Service]UserrootWorkingDirectory/你的工程路径/gpu_monitorExecStart/你的用户路径/anaconda3/envs/common/bin/python -u /你的工程路径/gpu_monitor.pyRestartalways[Install]WantedBymulti-user.target2. 编写GPU状态监控编写python代码gpu_monitor.py监控GPU状态importtimeimportGPUtilimportsubprocess# 正常情况下的GPU数量NORMAL_GPU_NUM2# 初始休眠防止显卡无法恢复的情况下无限重启INIT_SLEEP120# 检测间隔INTERVAL60defreboot_system():pass# 系统重启逻辑defmain():gpu_numlen(GPUtil.getGPUs())print(fDetect GPU num{gpu_num}, init sleep until start monitor...)# 初始休眠防止显卡无法恢复的情况下无限重启time.sleep(INIT_SLEEP)whileTrue:try:gpu_numlen(GPUtil.getGPUs())ifgpu_numNORMAL_GPU_NUM:print(fGPU lost! GPU num{gpu_num})reboot_system()# 重启命令执行后等待一段时间防止程序提前退出time.sleep(INTERVAL)else:print(GPU is ok!)exceptExceptionase:print(ferror:{e})finally:time.sleep(INTERVAL)if__name____main__:main()3. 编写重启函数对于如何重启恢复尝试了很多办法当然思路都是基于python和root用户去运行重启命令。但事实证明reboot和shutdown这种软重启在log中能够自动恢复操作系统但实际显示器上的画面依然停留在故障页面因此需要使用硬件层面的重启方式。最后实验证明需要使用基于sysrq-trigger的硬重启方式才能完全恢复系统状态。3.1 启用内核硬件重启许可运行命令查看当前内核许可执行的权限cat/proc/sys/kernel/sysrq发现默认输出为176Linux 内核中 kernel.sysrq 的值是二进制位掩码每一位对应一个 SysRq 功能十进制值是所有开启位的数值之和。把 176 转换成二进制对应的二进制10110000对应的权限中不包含重启十进制2二进制位序号1的权限。因此如果需要在原本的基础上添加重启权限则需要设置为1762178。保险起见不修改原文件选择覆盖配置文件的参数配置方式sudovim/etc/sysctl.d/99-sysrq-reboot.conf添加行kernel.sysrq178刷新配置sudosysctl --system查看当前配置sudovim/etc/sysctl.d/99-sysrq-reboot.conf发现在最下面已经多了kernel.sysrq 178这会覆盖前面相同名字的参数此时内核已经允许执行硬件级别重启操作。3.2 执行硬重启函数重启对应的命令是b即向/proc/sysrq-trigger写入b触发。因此对应的python函数代码为defreboot_system():try:# 同步磁盘避免数据丢失print(同步磁盘数据到硬盘...)subprocess.run([sync],timeout10,checkTrue)exceptsubprocess.CalledProcessErrorase:print(f磁盘同步失败{str(e)})exceptsubprocess.TimeoutExpired:print(磁盘同步超时仍尝试重启...)exceptExceptionase:print(fSync失败{str(e)})try:# 写入b触发重启硬件级withopen(/proc/sysrq-trigger,w)asf:f.write(b)print(SysRq-b 重启指令已发送系统即将重启...)exceptPermissionError:print(错误无 root 权限写入 SysRq 相关文件)exceptFileNotFoundError:print(错误内核不支持 SysRqCONFIG_MAGIC_SYSRQ 未开启)exceptExceptionase:print(fSysRq 重启失败{str(e)})4. 启用监控服务添加服务和开机自启动sudosystemctl daemon-reloadsudosystemctlenablegpu_monitor.servicesudosystemctl start gpu_monitor.service此时如果脚本检测到系统的GPU发生lost就会自动重启计算机了。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

常州行业网站外链大全

5个关键问题:分布式节点发现的深度剖析与实战解决方案 【免费下载链接】ignite Apache Ignite 项目地址: https://gitcode.com/gh_mirrors/ignite16/ignite 在构建大规模分布式系统时,节点发现机制是确保集群稳定运行的核心基础。本文将从实际生产…

张小明 2026/1/11 16:11:40 网站建设

《高性能网站建设指南胶州网站建设哪家好

第一章:MCP AZ-500 Agent安全防护概述在现代云环境中,Azure安全中心(Microsoft Defender for Cloud)通过部署MCP AZ-500 Agent实现对虚拟机和工作负载的深度安全监控。该代理程序作为核心组件,负责收集系统日志、执行漏…

张小明 2026/1/11 14:05:54 网站建设

投资交易网站开发网站开发怎么赚钱

【题目链接】 ybt 1453:移动玩具 洛谷 P4289 [HAOI2008] 移动玩具 【题目考点】 1. 广搜 2. 双向广搜 3. map map存储键值对 由于map底层是红黑树(一种二叉搜索树),其键的类型必须可以比较,即键的类型支持"…

张小明 2026/1/11 14:18:07 网站建设

一级a做爰片在线看网站wordpress添加新的小工具栏

一、Calico 概述Calico 是一款开源的容器网络解决方案,基于 BGP(边界网关协议)实现容器间的网络互联,同时提供强大的网络策略(Network Policy)能力,用于控制容器间的访问权限。对于 Kubernetes …

张小明 2026/1/11 16:20:37 网站建设

公司做网站需要注意什么事情自己做发卡网站

微信机器人开发文档 作为专注微信生态开发的高阶API封装平台,WTAPI框架凭借深度协议解析与RPA流程自动化技术,已实现微信从个人号到社群、朋友圈的全链路功能覆盖。无论是营销客服、用户运营还是数据管理,开发者均可通过简洁的API调用&#…

张小明 2026/1/11 12:16:15 网站建设

网站建站 宝平台一直维护是不是要跑路了

Higress网关健康检查:5个关键配置优化微服务稳定性 【免费下载链接】higress Next-generation Cloud Native Gateway | 下一代云原生网关 项目地址: https://gitcode.com/GitHub_Trending/hi/higress 在云原生架构中,Higress网关的健康检查功能是…

张小明 2026/1/10 5:52:31 网站建设