专利一种基于强化学习的个性化旅游线路推荐方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111498094.6 (22)申请日 2021.12.09 (71)申请人河海大学地址 210024 江苏省南京市鼓楼区西康路1 号申请人云境商务智能研究院南京有限公司 (72)发明人曹杰　陈蕾　王有权　丁达　申冬琴　罗婕　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 代理人陈建和 (51)Int.Cl. G06Q 10/04(2012.01) G06F 16/9537(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06Q 50/14(2012.01) (54)发明名称一种基于强化学习的个性化旅游线路推荐方法 (57)摘要本发明公开了一种于强化学习的个性化旅游线路推荐方法，首先获取不同景点之间的移动交通时间和每个景点的平均访问时间，根据用户历史访问旅游线路建立景点 ‑景点转移概率模型和用户偏好模型。然后基于所述用户偏好模型、景点‑景点转移概率模型和景点热度模型，构建景点效用函数模型，最后基于获取的景点效用函数模型和个性化旅游路线约束，设计强化学习算法，获取匹配度最高的旅游路线，作为最终向用户推荐的旅游路线。本发明解决了传统旅游路线推荐方法无法满足游客的个性化需求的问题，同时考虑用户喜好和景点受欢迎程度，避免了景点类别的冷启动问题。权利要求书4页说明书8页附图1页 CN 114386664 A 2022.04.22 CN 114386664 A 1.一种基于强化学习的个性化旅游线路推荐方法，其特征在于，包括以下步骤：步骤S1、获取不同景点之间的移动交通时间和每个景点的平均访问时间；步骤S2、根据用户历史访问旅游线路建立景点 ‑景点转移概率模型和用户偏好模型；步骤S3、构建景点热度模型，并基于所述用户偏好模型、景点 ‑景点转移概率模型和景点热度模型，构建景点效用函数模型；步骤S4、基于获取的景点效用函数模型和个性化旅游路线约束，设计强化学习算法，获取匹配度最高的旅游路线，作为最终向用户推荐的旅游路线。 2.根据权利要求1所述的一种基于强化学习的个性化旅游线路推荐方法，其特征在于，所述步骤S1中获取不同景点的交通通行时间和景点的平均访问时间具体步骤包括：步骤S1.1、获取不同景点之间的移动交通时间；根据两个景点间的距离长度，将景点间的通行方式划分为步行、骑行与车行；其中当景点之间距离小于2 km时，则默认计算步行时间；当景点之间距离在2km ‑5km之间时，则默认计算骑行时间，当景点之间距离大于5km时，则默认计算车行时间；基于第三方地图API可以获取采用不同骑行方式时两个景点之间的移动交通时间；将景点pi和景点pj之间的移动交通时间记为T(pi， pj)；步骤S1.2、获取各景点的平均访问时间；根据用户历史旅游路线和群体历史旅游路线，统计每个景点的平均访问时间；景点访问时间为到达景点和离开景点之间的时间差，将景点pi的平均访问时间记做D(pi)。 3.根据权利要求2所述的一种基于强化学习的个性化旅游线路推荐方法，其特征在于，步骤S2中建立景点 ‑景点转移概率模型和用户偏好模型的具体步骤包括：步骤S2.1、对景点和用户数据进行编号，得到景点pi和用户ui的one‑hot热独编码，经过嵌入层embed ding layer，获取景点的初始表示向量pi和用户的初始表征向量ui；步骤S2.2、通过图注意力网络，学习景点的输出表示向量；用户访问景点pi后下一步访问的景点pj，学习景点pi的在神经网络第l层的输出表示向量计算方式如下：其中表示景点pi在第l层的输出表示向量，初始化为景点pi的初始表示向量pi， αij代表其他景点的权重，计算方法如下：其中We表示注意力网络的权值参数，通过使用归一化指数函数计算其他景点的权重； LeakyReLU()为激活函数，给所有负值赋予一个非零斜率，计算过程如下：权　利　要　求　书 1/4 页 2 CN 114386664 A 2其中， a为(1,∞)区间内的固定参数。步骤S2.3、通过图注意力网络，学习景点的输入表示向量；根据景点pi上一步访问的景点pj，学习景点pi在第l层的输入表示向量计算方式如下：表示景点pi在第l层的输入表示向量，初始化为景点pi的初始表示向量pi， bij为其他景点的权重，计算方式如下： Wb表示注意力网络的权值参数，使用归一化指数函数计算其他景点的权重；步骤S2.4、根据景点pi在第L层的输出表示向量和景点pj在L层的输入表示向量，计算 pi‑pj的转移概率模型如下：其中，为景点pi在第L层的输出表示向量，为景点pj在第L层的输入表示向量，为可学习的参数；步骤S2.5、根据景点pi在第l层的输出表示向量和输入表示向量，计算景点pi在第l层的表示向量如下：其中，是景点pi在第l层的表示向量， | |为拼接操作；步骤S2.6、根据景点在第l层的表示向量，计算用户在第l层的表示向量如下：其中，和分别为用户ui在第l层和第l+1层的表示向量，为用户访问过的景点pi在第l层的表示向量； Vl表示图神经网络第l层的权重矩阵， bl表示图神经网络第l层的偏置向量， Ag greate(·)为平均聚合函数；步骤S2.7、根据景点和用户的表示向量，计算用户对景点的偏好模型如下：权　利　要　求　书 2/4 页 3 CN 114386664 A 3

专利 一种基于强化学习的个性化旅游线路推荐方法

专利一种基于强化学习的个性化旅游线路推荐方法