专利 一种网页内容块的边界确定和分割的方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111548972.0 (22)申请日 2021.12.17 (71)申请人北京大学地址 100871 北京市海淀区颐和园路5号 (72)发明人张颖　黄罡　梅宏　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 代理人苟冬梅 (51)Int.Cl. G06F 16/958(2019.01) G06F 40/143(2020.01) G06F 40/258(2020.01) G06N 20/00(2019.01) (54)发明名称一种网页内容块的边界确定和分割的方法及系统 (57)摘要本申请提供一种网页内容块的边界确定和分割的方法及系统，所述方法包括：获取待分割网页的DOM树；根据获取的所述DOM树，构建与所述DOM树对应的副本DOM树；将所述副本DOM树中的行内节点与相连的文字节点进行合并处理，以及对所述副本DOM树进行去除网页头和网页页脚的预处理，获得目标DOM树；通过预设哈希值算法，计算所述目标DOM树中的各个节点的结构哈希值；根据计算获得的所述各个节点的结构哈希值，对所述待分割网页进行分割，获得多个内容块。旨在能够高效、准确地将网页分割为内容块。权利要求书3页说明书19页附图7页 CN 114186164 A 2022.03.15 CN 114186164 A 1.一种网页内容块的边界确定和分割的方法，其特征在于，所述方法包括：获取待分割网页的DOM树；根据获取的所述DOM树，构建与所述DOM树对应的副本DOM树；将所述副本DOM树中的行内节点与相连的文字节点进行合并处理，以及对所述副本D OM 树进行去除网页头和网页页脚的预处理，获得目标DOM树；通过预设哈希值算法，计算所述目标DOM树中的各个节点的结构哈希值；根据计算获得的所述各个节点的结构哈希值，对所述待分割网页进行分割，获得多个内容块。 2.根据权利要求1所述的方法，其特征在于，所述根据获取的所述DOM树，构建与所述 DOM树对应的副本DOM树，包括：向预设DOM树副本构建算法中，每次输入所述待分割网页的DOM树中的一个节点和该节点对应的父节点；在所述一个节点为非无关节点时，构建与所述非无关节点对应的副本节点，并遍历所述一个节点的子节点，以创建所述一个子节点的所有子节点各自对应的副本子节点；将所述副本子节点中的每个副本子节点与前一个副本子节点相连，由此构建与所述 DOM树对应的副本DOM树。 3.根据权利要求1所述的方法，其特征在于，对所述副本DOM树进行去除网页头和网页页脚的预处理，包括：对所述副本DOM树中每个节点的包围盒的宽度值进行排序；在所述排序结果中，按从大到小的顺序选择出一个满足预设要求的目标宽度值；将所述副本DOM树中包围盒的宽度值与所述目标宽度值相同的节点，沿y轴顺序排列为数组；对所述数组中的每个节点的文字密度和外链比值进行计算；将所述每个节点中的文字密度低于第一预设阈值的节点，确定为下界节点，以及将所述每个节点中的外链比值高于第二预设阈值的节点，确定为上界节点；根据确定的所述下界节点和所述上界节点，去除所述副本DOM树中位于所述下界节点以上的所有节点和所述上界节点以下的所有节点。 4.根据权利要求1所述的方法，其特征在于，所述通过预设哈希值算法，计算所述目标 DOM树中的各个节点的结构哈希值，包括：将所述各个节点，分别输入所述预设哈希值算法；在输入所述预设哈希值算法中的节点为叶子节点的情况下，将所述叶子节点的标签值和class属性值初始化为字符串变量；通过对所述字符串变量进行哈希值计算，获得所述叶子节点的结构哈希值。 5.根据权利要求1所述的方法，其特征在于，所述通过预设哈希值算法，计算所述目标 DOM树中的各个节点的结构哈希值，包括：将所述各个节点，分别输入所述预设哈希值算法；在输入所述预设哈希值算法中的节点为列表节点的情况下，将所述列表节点的标签值和class属性值初始化为字符串变量；将所述列表节点的第一个子节点的结构哈希值和所述列表节点的字符串变量进行拼权　利　要　求　书 1/3 页 2 CN 114186164 A 2接，获得第一字符串变量；通过对所述第一字符串变量进行哈希值计算，获得所述列表节点的结构哈希值。 6.根据权利要求1所述的方法，其特征在于，所述通过预设哈希值算法，计算所述目标 DOM树中的各个节点的结构哈希值，包括：将所述各个节点，分别输入所述预设哈希值算法；在输入所述预设哈希值算法中的节点为具有子节点，且不为列表节点的目标节点的情况下，将所述目标节点的标签值和clas s属性值初始化为字符串变量；将所述目标节点的所有子节点按各自的结构哈希值进行排序；将排序后的所有子节点的结构哈希值和所述目标节点的字符串变量进行拼接，获得第二字符串变量；通过对所述第二字符串变量进行哈希值计算，获得所述目标节点的结构哈希值。 7.根据权利要求1所述的方法，其特征在于，所述根据计算获得的所述各个节点的结构哈希值，对所述待分割网页进行分割，获得多个内容块，包括：将所述各个节点的结构哈希值，分别输入预设分割算法；在输入所述预设分割算法中的节点为叶子节点的情况下，不对该叶子节点进行分割；在输入所述预设分割算法中的节点只有一个子节点的情况下，将该节点和该节点的子节点作为整体进行内容块的分割；在输入所述预设分割算法中的节点包括多个子节点的情况下，将该节点所包括的多个子节点中结构哈希值相同的子节点划分为一个内容块。 8.根据权利要求1 ‑7任一所述的方法，其特征在于，在对所述待分割网页进行分割，获得多个内容块之后，所述方法还包括：通过预设标题模型，预测所述目标DOM树中的各个节点的标题；在一个节点具有标题的情况下，对该节点所属的最小内容块进行标记；将经过标记后的所述多个内容块输入预设分割优化算法，进行内容块的分割优化，获得目标内容块。 9.根据权利要求8所述的方法，其特征在于，获得所述预设标题模型的训练过程，包括如下步骤：提取预设数量的标题样本网页的文本特征作为训练集，所述文本特征由多个不同类型的初始特征共同构成；将所述训练集输入初始标题模型进行训练，获得所述预设标题模型；其中，所述多个不同类型的初始特征包括：文本长度特征和文本长度变化量特征、字体大小特征和字体大小变化量特征、字体颜色特征和字体颜色变化量特征、字体权重特征和字体权重变化量特征、内容块背景颜色特征和内容块背景颜色变换量特征、背景边框特征、标题标签特征。 10.根据权利要求8所述的方法，其特征在于，所述将经过标记后的所述多个内容块输入预设分割优化算法，进行内容块的分割优化，获得目标内容块，包括：将经过标记后的所述多个内容块输入预设分割优化算法；在输入所述分割优化算法中的内容块为无标记的内容块，且该内容块包含有标记的子内容块的情况下，去除该无标记的内容块的外围内容块划分，以将该包含有标记的子内容权　利　要　求　书 2/3 页 3 CN 114186164 A 3

专利 一种网页内容块的边界确定和分割的方法及系统

专利一种网页内容块的边界确定和分割的方法及系统