全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111510989.7 (22)申请日 2021.12.10 (71)申请人 壹药网科技 (上海) 股份有限公司 地址 201210 上海市浦东 新区唐镇上丰路 977号1幢B座80 5室 (72)发明人 王文彪 于刚 李志刚  (74)专利代理 机构 上海申新 律师事务所 31272 代理人 吴轶淳 (51)Int.Cl. H04L 9/40(2022.01) (54)发明名称 一种爬虫 行为的识别方法及防范系统 (57)摘要 本发明公开一种爬虫行为的识别方法及防 范系统, 包 括: S1: 接收用户的访问请求; S2: 存储 连接地址、 访问对象和状态码; S3: 判断连接地址 是否为具有爬虫行为的连接地址; 是, 转向S6; 否, 转向S4; S4: 判断访问请求与爬 虫行为的相似 度; 相似度在第一范围, 接受访问请求; 相似度在 第二范围, 转向S5; 相似度在第三范围, 转向S6; S5: 验证码校验; 是, 接受访问请求; 否, 转向S6; S6: 将连接地址存入黑名单。 本发明的有益效果 在于: 分别对用户的累计访问请求和实时访问请 求进行分析, 提高了对爬虫行为识别的准确度, 实现了较好的识别效果。 并通过合理设置相似度 范围及验证码校验机制来实现对正常访问请求 和爬虫行为的有效区分, 提高用户体验。 权利要求书2页 说明书8页 附图5页 CN 114338099 A 2022.04.12 CN 114338099 A 1.一种爬虫 行为的识别方法, 其特 征在于, 包括: 步骤S1: 接收用户的访问请求, 并记录连接地址、 访问对象和状态码; 步骤S2: 将所述连接地址、 所述访问对象和所述状态码存 入一日志模块; 步骤S3: 采用所述日志模块对所述连接地址的所述访 问对象与所述状态码进行分析, 并根据分析 结果判断所述连接地址是否为具有爬虫 行为的连接地址; 若是, 转向步骤S6; 若否, 转向步骤S4; 步骤S4: 采用一分析模块判断所述访问请求与爬虫 行为的相似度; 若相似度在一预设的第 一范围, 接受所述访问请求并向所述用户返回请求的所述访问 对象, 随后结束判断; 若相似度在一预设的第二范围, 转向步骤S5; 若相似度在一预设的第三范围, 转向步骤S6; 步骤S5: 对所述用户发起验证码校验, 并判断所述用户是否通过 校验; 若是, 接受所述访问请求并向所述用户返回请求的所述访问对象, 随后结束判断; 若否, 转向步骤S6; 步骤S6: 将所述连接地址存 入黑名单, 随后结束判断。 2.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S3包括: 步骤S31: 判断所述连接地址是否在预设的高风险连接地址范围内; 若是, 增加所述相似度的数值, 随后转向步骤S32; 若否, 转向所述 步骤S32; 步骤S32: 根据所述访问对象和所述状态码判断是否符合第一访问规 律 若是, 判断所述连接地址为具有爬虫 行为的连接地址, 随后转向步骤S6; 若否, 转向步骤S3 3; 步骤S33: 根据所述访问对象判断是否符合第二访问规 律; 若是, 判断所述连接地址为具有爬虫 行为的连接地址, 随后转向步骤S6; 若否, 转向步骤S34; 步骤S34: 根据所述状态码和所述连接地址判断是否符合第三访问规 律; 若是, 判断所述连接地址为具有爬虫 行为的连接地址, 随后转向步骤S6; 若否, 转向步骤S3 5; 步骤S35: 判断自所述连接地址发出的所述访 问请求的次数是否在预定时间内超过访 问限值; 若是, 增加所述相似度的数值, 随后转向步骤S4; 若否, 转向步骤S4。 3.根据权利要求1所述的识别方法, 其特 征在于, 所述相似度的计算公式为: 其中: cosθ为所述相似度, x1为所述连接地址, x2为所述黑名单中连接地址的频率, y1为 所述访问对象, y2为所述黑名单中访问对象的频率。 4.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S4还 包括:权 利 要 求 书 1/2 页 2 CN 114338099 A 2步骤S41: 从所述访问请求中提取用户标识; 步骤S42: 判断所述用户标识是否在预设用户标识范围中; 若是, 接受所述访问请求并向所述用户返回请求的所述访问对象, 随后结束判断; 若否, 转向步骤S43; 步骤S43: 计算并判断所述访问请求与爬虫 行为的相似度; 若相似度在所述第 一范围中, 接受所述访问请求并向所述用户返回请求的所述访问对 象, 随后结束判断; 若相似度在所述第二范围中, 转向步骤S5; 若相似度在所述第三范围中, 转向步骤S6 。 5.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S5包括: 步骤S51: 向所述用户发送验证码认证请求, 并记录认证次数; 步骤S52: 判断所述认证次数 是否达到认证上限值; 若是, 转向步骤S6; 若否, 转向步骤S5 3; 步骤S53: 判断所述认证请求是否通过; 若是, 接受所述访问请求并向所述用户返回请求的所述访问对象, 随后结束判断; 若否, 返回所述 步骤S51。 6.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S6包括: 根据所述连接地址或所述访问对象, 对所述连接地址设置在所述黑名单中存储的周 期; 所述周期为预设的第一周期或第二周期。 7.一种爬虫行为的防范系统, 其特征在于, 用于实施权利要求1 ‑6任意一项所述的识别 方法, 包括: 负载均衡模块, 所述负载均衡模块连接多个用户并用于接收所述用户发出的访问请 求; 分析模块, 所述分析模块接收自所述负载均衡模块转发的所述访 问请求, 并判断所述 访问请求与预设爬虫模型的相似度; 校验模块, 所述校验模块连接所述分析模块, 根据所述相似度向所述用户发出验证码 校验请求; 日志模块, 所述日志模块连接所述分析模块与所述校验模块, 用于将所述相似度极高 的, 和/或未通过验证码校验请求的所述用户加入黑名单; 所述负载均衡模块 根据所述 黑名单判断是否转发所述外 部用户的访问请求。 8.根据权利要求7 所述的识别系统, 其特 征在于, 所述日志模块还 包括: 行为分析子模块, 所述行为分析子模块从所述日志模块中存储的日志读取所述用户、 连接地址、 访问对象和状态码, 并根据所述用户、 所述连接地址、 所述访问对象和所述状态 码判断是否将所述用户加入所述 黑名单。权 利 要 求 书 2/2 页 3 CN 114338099 A 3

.PDF文档 专利 一种爬虫行为的识别方法及防范系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种爬虫行为的识别方法及防范系统 第 1 页 专利 一种爬虫行为的识别方法及防范系统 第 2 页 专利 一种爬虫行为的识别方法及防范系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:38:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。