说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111523410.0 (22)申请日 2021.12.14 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区 二号路1158号 (72)发明人 徐海涛 杨羽涛 邬惠峰 戴翚  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 代理人 杨泽 黄健 (51)Int.Cl. G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称 基于多智能体强化学习模型的边缘缓存方 法和装置 (57)摘要 本申请实施例提供了一种基于多智能体强 化学习模型的边缘缓存 方法和装置, 通过获取当 前缓存的多个高等流行度内容和 中等流行度内 容的信息, 信息包括内容标识、 第一存储状态和 内容的第一流行度, 第一流行度表 示内容被请求 的概率, 中等流行度内容可用于与邻近服务器进 行合作被邻近服务器获取; 通过多智能体强化学 习模型对内容标识、 第一存储状态和第一流行度 进行处理, 得到下一时刻缓存的目标内容的目标 内容标识和目标存储状态; 并对当前缓存的内容 进行更新。 本申请提供的技术方案提高了终端设 备请求的内容在本地服务器和邻近服务器中的 命中率, 从而减少了终端设备请求内容的时延, 有效地提升了用户体验。 权利要求书3页 说明书15页 附图5页 CN 114185677 A 2022.03.15 CN 114185677 A 1.一种基于多智能体强化学习 模型的边缘缓存方法, 其特征在于, 应用于本地服务器, 包括: 获取当前缓存的多个内容的信息, 所述信息包括内容标识、 第一存储状态和所述内容 的第一流行度, 所述多个内容包括第一流行度大于第一流行度阈值的高等流行度内容, 以 及, 第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容, 所述第一 流行度阈值大于所述第二流行度阈值, 所述第一流行度表示所述内容被请求的概率, 所述 中等流行度内容用于被终端设备请求或与邻近服 务器进行合作被所述邻近服 务器获取; 通过多智能体强化学习 模型对所述内容标识、 所述第 一存储状态和所述第 一流行度进 行处理, 得到下一时刻缓存的目标内容的目标内容标识和目标存 储状态; 根据所述目标内容标识、 所述目标存储状态和所述目标内容对应的目标流行度, 对当 前缓存的内容进行 更新。 2.根据权利要求1所述的方法, 其特征在于, 所述通过多智能体强化学习 模型对所述内 容标识、 所述第一存储状态和所述第一流行度进行处理, 得到下一时刻缓存的目标内容的 目标内容标识和目标存 储状态, 包括: 针对每一个内容, 根据所述内容标识, 分别获取所述邻近服务器将所述内容发送至所 述本地服务器的第一时延, 以及, 中心服务器将所述内容发送至所述本地服务器的第二时 延, 并在所述邻近服 务器中获取 所述内容的第二存 储状态和第二 流行度; 根据所述第一存储状态、 所述第一流行度、 所述第二存储状态、 所述第二流行度、 所述 第一时延和所述第二时延, 计算缓存所述内容对应的瞬时收益、 平均收益和收益估计值, 所 述瞬时收益表示所述内容对应的时延减少量; 根据所述瞬时收益、 所述平均收益和所述收益估计值, 确定下一时刻缓存的临时内容 的临时内容标识和临时存 储状态, 并根据临时内容标识确定临时内容对应的临时流行度; 对所述临时内容重复执行上述步骤, 直至得到符合预设条件的目标内容的目标内容标 识和目标存 储状态。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述第一存储状态、 所述第一流 行度、 所述第二存储状态、 所述第二流行度、 所述第一时延和所述第二时延, 计算缓存所述 内容对应的瞬时收益、 平均收益和收益估计值, 包括: 根据公式: 计算缓存所述内 容对应的瞬时收益; 其中, 表示内容f对应的瞬时收益, xkf表示内容f在本地服务器k中的第一存储状 态, pkf表示内容f在本地服务器k中的第一流行度, ds表示第二时延, pk'f表示内容f在邻近服 务器k'中的第二流行度, xk'f表示内容f在邻近服务器k'中的第二存储状态, dn表示第一时 延, 表示所有服 务器的集 合, k表示本地 服务器, N表示内容f的数量, N>1; 根据公式: 计算缓存所述内容对应的平均收益;权 利 要 求 书 1/3 页 2 CN 114185677 A 2其中, 表示到t时刻在本地服务器k缓存所述内容f对应的平均收益, 表示到t‑1 时刻在本地服务器k缓存所述内容f对应的平均收益, 表示直到t‑1时刻, 内容f在本地 服 务器k的缓存次数; 根据公式: 计算缓存所述内容对应的收益估计值; 其中, 表示当前时刻t在本地服务器k缓存所述内容f对应的收益估计值, 表示 到t‑1时刻在本地服务器k缓存所述内容f对应的平均收益。 4.根据权利要求2或3所述的方法, 其特征在于, 所述对所述临时内容重复执行上述步 骤, 直至得到符合预设条件的目标内容的目标内容标识和目标存 储状态, 包括: 在每次执 行时, 计算所述临时内容对应的总收益估计值; 在当前得到的所述临时内容的总收益估计值与上一次得到的所述临时内容的总收益 估计值的差值小于预设阈值, 或, 重复执行上述步骤的次数达到循环次数阈值时, 按照得到 的所述临 时内容对应的收益估计值从大到小的顺序, 将预设数量个所述临时内容确定为目 标内容, 并确定目标内容标识和目标存 储状态。 5.根据权利要求4所述的方法, 其特征在于, 所述计算所述临时内容对应的总收益估计 值, 包括: 根据公式: 和公式 计算所述临时内容对应的总收 益估计值; 其中, 表示本地服务器缓存的所有临时内容对应的总收益估计值, 表示内容 f对应的收益估计值, 表示所有服务器的集合, k表示本地服务器, N表示内容f的数 量, N>1, xkf表示内容f在本地 服务器k中的存 储状态, ck表示本地 服务器k的存 储空间。 6.根据权利要求2所述的方法, 其特征在于, 所述邻近服务器满足约束条件: 其中, k'表示所述邻近服务器, 表示所有所述邻近服务器的集合, dkk'表示所述本地 服务器k和所述邻近服务器k'的之 间的直线距离, r表 示服务器对应的基站的无线电有效传 输范围。 7.一种基于多智能体强化学习模型的边 缘缓存装置, 其特 征在于, 包括: 获取模块, 用于获取当前缓存的多个内容的信 息, 所述信 息包括内容标识、 第 一存储状 态和所述内容的第一流行度, 所述多个内容包括第一流行度大于第一流行度阈值的高等流 行度内容, 以及, 第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内 容, 所述第一流行度阈值大于所述第二流行度阈值, 所述第一流行度表示所述内容被请求 的概率, 所述中等流行度内容用于被终端设备请求或与邻近服务器进 行合作被所述邻近服 务器获取; 处理模块, 用于通过多智能体强化学习模型对所述内容标识、 所述第一存储状态和所权 利 要 求 书 2/3 页 3 CN 114185677 A 3

.PDF文档 专利 基于多智能体强化学习模型的边缘缓存方法和装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多智能体强化学习模型的边缘缓存方法和装置 第 1 页 专利 基于多智能体强化学习模型的边缘缓存方法和装置 第 2 页 专利 基于多智能体强化学习模型的边缘缓存方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:16:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。