说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111588055.5 (22)申请日 2021.12.23 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 付浩瀚 王雁鹏 黎世勇 孙鹏  张恒华 骆宝童 张建宇 王帅俭  刘伟  (74)专利代理 机构 北京易光知识产权代理有限 公司 11596 代理人 徐升升 (51)Int.Cl. G06F 11/30(2006.01) G06F 11/34(2006.01) G06N 20/00(2019.01) (54)发明名称 一种慢节点检测方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种慢节点检测方法、 装置、 电子设备及存储介质, 涉及人工智能技术领域, 尤其涉及集群系统、 分布式机器学习、 节点故障 检测等领域。 具体实现方案为: 感知模块向第一 节点发起计时请求, 其中, 所述第一节点为一个 或多个在集群系统中执行训练任务的训练节点; 所述感知模块接收所述第一节点反馈的计时信 息; 所述感知模块根据所述计时信息检测出所述 集群系统存在慢节点。 采用本公开, 可 以在大规 模的训练任务中检测出慢 节点。 权利要求书3页 说明书11页 附图4页 CN 114328098 A 2022.04.12 CN 114328098 A 1.一种慢 节点检测方法, 包括: 感知模块向第一节点发起计时请求, 其中, 所述第一节点为一个或多个在集群系统中 执行训练任务的训练节点; 所述感知模块接收所述第一节点反馈的计时信息; 所述感知模块 根据所述计时信息检测出 所述集群系统存在慢 节点。 2.根据权利要求1所述的方法, 其中, 所述感知模块根据 所述计时信 息检测出所述集群 系统存在慢 节点, 包括: 所述感知模块在所述计时信息大于阈值的情况 下, 检测出 所述集群系统存在慢 节点。 3.根据权利要求1所述的方法, 还 包括: 所述感知模块向所述第一节点发起暂停训练任务的请求; 所述感知模块 运行慢节点检测程序, 检测出 所述慢节点在所述 集群系统中的位置 。 4.根据权利要求3所述的方法, 其中, 所述感知模块运行慢节点检测程序, 检测出所述 慢节点在所述 集群系统中的位置, 包括: 所述感知模块以单机检测、 集群检测、 二分法的方式循环执行集合通信检测中的至少 一种检测模式运行 所述慢节点检测程序, 检测出 所述慢节点在所述 集群系统中的位置 。 5.根据权利要求1 ‑4中任一项所述的方法, 还 包括: 所述感知模块将慢节点信 息通知调度模块, 所述慢节点信 息用于表征所述慢节点在所 述集群系统中的位置; 其中, 所述调度模块 位于所述第一节点、 或与所述第一节点存在通信交 互的第二节点。 6.一种慢 节点检测方法, 包括: 第一节点接收感知模块发起的计时请求; 其中, 所述第一节点为一个或多个在集群系 统中执行训练任务的训练节点; 所述第一节点基于所述计时请求进行集合通信操作, 完成所述集群系统中的数据交 换, 得到计时信息; 所述第一节点向所述感知模块发送所述计时信息 。 7.根据权利要求6所述的方法, 还 包括: 所述第一节点接收所述感知模块发起的暂停训练任务的请求; 所述第一节点响应所述暂停训练任务的请求, 暂停训练任务, 存储所述训练任务的进 度状态; 所述第一节点 通知所述感知模块 运行慢节点检测程序。 8.根据权利要求7 所述的方法, 还 包括: 调度模块接收所述感知模块发送的慢节点信 息, 所述慢节点信 息用于表征所述慢节点 在所述集群系统中的位置; 所述调度模块位于所述第 一节点的情况下, 所述第 一节点接受所述调度模块的调度控 制, 根据所述慢节点信息, 将由所述慢节点执行 的所述训练任务的进度状态替换到正常的 备选节点, 继续执 行所述训练任务。 9.根据权利要求7 所述的方法, 还 包括: 调度模块接收所述感知模块发送的慢节点信 息, 所述慢节点信 息用于表征所述慢节点 在所述集群系统中的位置;权 利 要 求 书 1/3 页 2 CN 114328098 A 2所述调度模块位于与 所述第一节点存在通信交互 的第二节点的情况下, 所述第 一节点 接收所述慢节点信息, 所述慢节点信息为: 所述第二节点接受所述调度模块的调度控制后 转发给所述第一节点的信息; 所述第一节点根据所述慢节点信 息, 将由所述慢节点执行的所述训练任务的进度状态 替换到正常的备选节点, 继续执 行所述训练任务。 10.根据权利要求8或9所述的方法, 其中, 所述备选节点, 与所述慢节点存在主备倒换 关系。 11.一种慢 节点检测装置, 包括感知模块, 用于: 向第一节点发起计时请求, 其中, 所述第一节点为一个或多个在集群系统中执行训练 任务的训练节点; 接收所述第一节点反馈的计时信息; 根据所述计时信息检测出 所述集群系统存在慢 节点。 12.根据权利要求1 1所述的装置, 其中, 所述感知模块, 用于: 在所述计时信息大于阈值的情况 下, 检测出 所述集群系统存在慢 节点。 13.根据权利要求1 1所述的装置, 其中, 所述感知模块, 用于: 向所述第一节点发起暂停训练任务的请求; 运行慢节点检测程序, 检测出 所述慢节点在所述 集群系统中的位置 。 14.根据权利要求13所述的装置, 其中, 所述感知模块, 用于: 以单机检测、 集群检测、 二分法的方式循环执行集合通信检测中的至少一种检测模式 运行所述慢节点检测程序, 检测出 所述慢节点在所述 集群系统中的位置 。 15.根据权利要求1 1‑14中任一项所述的装置, 其中, 所述感知模块, 用于: 将慢节点信 息通知调度模块, 所述慢节点信 息用于表征所述慢节点在所述集群系统中 的位置; 其中, 所述调度模块 位于所述第一节点、 或与所述第一节点存在通信交 互的第二节点。 16.一种慢 节点检测装置, 包括第一节点, 用于: 接收感知模块发起的计时请求; 其中, 所述第一节点为一个或多个在集群系统中执行 训练任务的训练节点; 基于所述计时请求进行集合通信操作, 完成所述集群系统中的数据交换, 得到计时信 息; 向所述感知模块发送所述计时信息 。 17.根据权利要求16所述的装置, 其中, 所述第一节点, 用于: 接收所述感知模块发起的暂停训练任务的请求; 响应所述暂停训练任务的请求, 暂停训练任务, 存 储所述训练任务的进度状态; 通知所述感知模块 运行慢节点检测程序。 18.根据权利要求17 所述的装置, 还 包括: 位于所述第一节点的调度模块, 用于接收所述感知模块发送的慢节点信息, 所述慢节 点信息用于表征 所述慢节点在所述 集群系统中的位置; 所述第一节点, 用于接受所述调度模块的调度控制, 根据所述慢节点信息, 将由所述慢 节点执行的所述训练任务的进度状态替换到正常的备选节点, 继续执 行所述训练任务。权 利 要 求 书 2/3 页 3 CN 114328098 A 3

.PDF文档 专利 一种慢节点检测方法、装置、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种慢节点检测方法、装置、电子设备及存储介质 第 1 页 专利 一种慢节点检测方法、装置、电子设备及存储介质 第 2 页 专利 一种慢节点检测方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:15:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。