(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111548972.0
(22)申请日 2021.12.17
(71)申请人 北京大学
地址 100871 北京市海淀区颐和园路5号
(72)发明人 张颖 黄罡 梅宏
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
代理人 苟冬梅
(51)Int.Cl.
G06F 16/958(2019.01)
G06F 40/143(2020.01)
G06F 40/258(2020.01)
G06N 20/00(2019.01)
(54)发明名称
一种网页内容块的边界确定和分割的方法
及系统
(57)摘要
本申请提供一种网页内容块的边界确定和
分割的方法及系统, 所述方法包括: 获取待分割
网页的DOM树; 根据获取的所述DOM树, 构建与所
述DOM树对应的副本DOM树; 将所述副本DOM树中
的行内节 点与相连的文字节点进行合并处理, 以
及对所述副本DOM树进行去除网页头和网页页脚
的预处理, 获得目标DOM树; 通过预设哈希值算
法, 计算所述目标DOM树中的各个节点的结构哈
希值; 根据计算获得的所述各个节 点的结构哈希
值, 对所述待分割网页进行分割, 获得多个内容
块。 旨在能够高效、 准确地将网页分割为内容 块。
权利要求书3页 说明书19页 附图7页
CN 114186164 A
2022.03.15
CN 114186164 A
1.一种网页内容 块的边界确定和分割的方法, 其特 征在于, 所述方法包括:
获取待分割网页的DOM树;
根据获取的所述DOM树, 构建与所述DOM树对应的副本DOM树;
将所述副本DOM树中的行内节点与相连的文字节点进行合并处理, 以及对所述副本D OM
树进行去除网页头和网页 页脚的预处 理, 获得目标DOM树;
通过预设哈希值 算法, 计算所述目标DOM树中的各个节点的结构哈希值;
根据计算获得的所述各个节点的结构哈希值, 对所述待分割 网页进行分割, 获得多个
内容块。
2.根据权利要求1所述的方法, 其特征在于, 所述根据获取的所述DOM树, 构建与所述
DOM树对应的副本DOM树, 包括:
向预设DOM树副本构 建算法中, 每次输入所述待分割网页的DOM树中的一个节点和该节
点对应的父节点;
在所述一个节点为非无关节点时, 构建与所述非无关节点对应的副本节点, 并遍历所
述一个节点的子节点, 以创建所述 一个子节点的所有子节点各自对应的副本 子节点;
将所述副本子节点中的每个副本子节点与前一个副本子节点相连, 由此构建与所述
DOM树对应的副本DOM树。
3.根据权利要求1所述的方法, 其特征在于, 对所述副本DOM树进行去 除网页头和网页
页脚的预处 理, 包括:
对所述副本DOM树中每 个节点的包围盒的宽度值进行排序;
在所述排序结果中, 按从大到小的顺序选择 出一个满足预设要求的目标宽度值;
将所述副本DOM树中包围盒的宽度值与所述目标宽度值相同的节点, 沿y轴顺序排列为
数组;
对所述数组中的每 个节点的文字密度和外链比值进行计算;
将所述每个节点中的文字密度低于第一预设阈值的节点, 确定为下界节点, 以及将所
述每个节点中的外链比值高于第二预设阈值的节点, 确定为上界节点;
根据确定的所述下界节点和所述上界节点, 去除所述副本DOM树中位于所述下界节点
以上的所有节点和所述上界节点以下的所有节点。
4.根据权利要求1所述的方法, 其特征在于, 所述通过预设哈希值算法, 计算所述目标
DOM树中的各个节点的结构哈希值, 包括:
将所述各个节点, 分别输入所述预设哈希值 算法;
在输入所述预设哈希值算法中的节点为叶子节点的情况下, 将所述叶子节点的标签值
和class属性值初始化 为字符串变量;
通过对所述字符串变量进行哈希值计算, 获得 所述叶子节点的结构哈希值。
5.根据权利要求1所述的方法, 其特征在于, 所述通过预设哈希值算法, 计算所述目标
DOM树中的各个节点的结构哈希值, 包括:
将所述各个节点, 分别输入所述预设哈希值 算法;
在输入所述预设哈希值算法中的节点为列表节点的情况下, 将所述列表节点的标签值
和class属性值初始化 为字符串变量;
将所述列表节点的第一个子节点的结构哈希值和所述列表节点的字符串变量进行拼权 利 要 求 书 1/3 页
2
CN 114186164 A
2接, 获得第一字符串变量;
通过对所述第一字符串变量进行哈希值计算, 获得 所述列表 节点的结构哈希值。
6.根据权利要求1所述的方法, 其特征在于, 所述通过预设哈希值算法, 计算所述目标
DOM树中的各个节点的结构哈希值, 包括:
将所述各个节点, 分别输入所述预设哈希值 算法;
在输入所述预设哈希值算法中的节点为具有子节点, 且不为列表节点的目标节点的情
况下, 将所述目标节点的标签值和clas s属性值初始化 为字符串变量;
将所述目标节点的所有子节点按各自的结构哈希值进行排序;
将排序后的所有子节点的结构哈希值和所述目标节点的字符串变量进行拼接, 获得第
二字符串变量;
通过对所述第二字符串变量进行哈希值计算, 获得 所述目标节点的结构哈希值。
7.根据权利要求1所述的方法, 其特征在于, 所述根据计算获得的所述各个节点的结构
哈希值, 对所述待分割网页进行分割, 获得多个内容 块, 包括:
将所述各个节点的结构哈希值, 分别输入预设 分割算法;
在输入所述预设 分割算法中的节点 为叶子节点的情况 下, 不对该叶子节点进行分割;
在输入所述预设分割算法中的节点只有一个子节点的情况下, 将该节点和该节点的子
节点作为整体进行内容 块的分割;
在输入所述预设分割算法中的节点包括多个子节点的情况下, 将该节点所包括的多个
子节点中结构哈希值相同的子节点划分为 一个内容 块。
8.根据权利要求1 ‑7任一所述的方法, 其特征在于, 在对所述待分割 网页进行分割, 获
得多个内容 块之后, 所述方法还 包括:
通过预设标题模型, 预测所述目标DOM树中的各个节点的标题;
在一个节点具有标题的情况 下, 对该节点所属的最小内容 块进行标记;
将经过标记后的所述多个内容块输入预设分割优化算法, 进行内容块的分割优化, 获
得目标内容 块。
9.根据权利要求8所述的方法, 其特征在于, 获得所述预设标题模型的训练过程, 包括
如下步骤:
提取预设数量的标题样本网页的文本特征作为训练集, 所述文本特征由多个不同类型
的初始特 征共同构成;
将所述训练集输入初始标题模型进行训练, 获得 所述预设标题模型;
其中, 所述多个不同类型的初始特征包括: 文本长度特征和文本长度变化量特征、 字体
大小特征和字体大小变化量特征、 字体颜色特征和字体颜色变化量特征、 字体权重特征和
字体权重变化量特征、 内容块背 景颜色特征和内容块背 景颜色变换量特征、 背 景边框特征、
标题标签特 征。
10.根据权利要求8所述的方法, 其特征在于, 所述将经过标记后的所述多个内容块输
入预设分割优化 算法, 进行内容 块的分割优化, 获得目标内容 块, 包括:
将经过标记后的所述多个内容 块输入预设 分割优化 算法;
在输入所述分割 优化算法中的内容块为无标记的内容块, 且该内容块包含有标记的子
内容块的情况下, 去除该无标记的内容块的外 围内容块划分, 以将该包含有标记的子内容权 利 要 求 书 2/3 页
3
CN 114186164 A
3
专利 一种网页内容块的边界确定和分割的方法及系统
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:15:48上传分享