全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210655448.1 (22)申请日 2022.06.10 (71)申请人 深圳市知学云科技有限公司 地址 518063 广东省深圳市南 山区粤海街 道白石路3609号深圳湾科技生态园9 栋B座7楼19-20单 元 (72)发明人 赵剑飞 唐湘峰 徐正彬  (74)专利代理 机构 北京麦汇智云知识产权代理 有限公司 1 1754 专利代理师 郭童瑜 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/215(2019.01) G06F 16/23(2019.01) G06F 16/242(2019.01)G06F 16/2455(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01) G06Q 50/20(2012.01) (54)发明名称 一种面向企业在 线教育高效MPP大数据引擎 处理方法 (57)摘要 本发明提出了一种面向企业在线教育高效 MPP大数据引擎处理方法, 涉及大数据引 擎技术 领域。 包括通过编写SQL的方法来完成大数据的 分析过程, 并通过外部表与消息中间件作为离线 和实时数据同步的方式来保证数据的采集时效 性和准确性, 针对不同的业务场景使用离线和实 时方案。 通过批流一体的计算实现对数据的清 洗、 加工、 计算得到分析结果。 从而实现技术收 敛, 将服务器成本、 技术和运维复杂 度降低。 将流 程缩减、 服务组件减少, 从而降低技术门槛, 而且 也只需要一种大数据引擎就能够支撑所有的大 数据分析, 不在需要引入其他分析引擎, 降低维 护成本。 权利要求书2页 说明书6页 附图5页 CN 115237906 A 2022.10.25 CN 115237906 A 1.一种面向企业在线教育高效MP P大数据引擎处 理方法, 其特 征在于, 包括: 建立标准快照数据库; 预设数据仓库, 所述数据仓库内的数据通过更新时间和创建时 间获取当天内的新增及变化; 根据所述数据仓库将其中的表分为维度表和事实表; 将所述数据仓库的线上从库 作为快照库, 在执 行快照之前, 进行延迟同步判断验证; 以外部表的方式采集数据输入至数据仓库, 并从所述快照库内预设类型数据输入至数 据仓库, 并进行同步; 当触发计算 业务后, 读取对应企业的配置信息, 根据不同企业预设不同的计算模板; 获取计算模板后, 对所述计算模板的参数进行动态替换, 生成基于结构化查询语言的 执行模板; 将企业对应的执 行模板和由所述外 部表输入的匹配数据输入至所述数据仓库; 对数据仓库收到的数据, 进行清洗和拉宽, 并写入维度表和事实拉宽表; 将对应的事实表写入预设的聚合表进行聚合计算。 2.如权利要求1所述的一种面向企业在线教育高效MPP大数据引擎处理方法, 其特征在 于, 根据所述数据仓库将其中的表分为维度表和事实表的步骤 还包括: 所述维度表采用更新 时间为晚于或等于前一天的数据采集的开始时刻; 所述事实表采 用创建时间晚于或等于前一天数据采集的开始时刻且早于当天数据采集的开始时刻。 3.如权利要求1所述的一种面向企业在线教育高效MPP大数据引擎处理方法, 其特征在 于, 在执行快照之前, 进行延迟同步判断验证的步骤 包括: 当触发所述数据仓库的主从库延时判断时, 若延时没有超过预设条件则继续下一步 骤; 反之则进 行等待, 若等待次数超过预设次数, 则进 行报警; 反之等待 预设时间后, 返回重 新进行主从库延时判断。 4.如权利要求1所述的一种面向企业在线教育高效MPP大数据引擎处理方法, 其特征在 于, 并从所述快照库内预设类型 数据输入至数据仓库, 并进行同步的步骤 包括: 从所述快照库按照日期将全量、 增量的数据存储至数据仓库中, 并结合ODS贴源层更新 模式设计的表进行 数据同步。 5.如权利要求1所述的一种面向企业在线教育高效MPP大数据引擎处理方法, 其特征在 于, 根据不同企业预设不同的计算模板的步骤 包括: 根据不同企业分别预设无定制项目的公共 模板和与对应公司匹配的定制模块。 6.如权利要求1所述的一种面向企业在线教育高效MPP大数据引擎处理方法, 其特征在 于, 将对应的事实表写入预设的聚合表进行聚合计算后的步骤 还包括: 所述外部表获取数据、 对数据仓库收到的数据进行清洗和拉宽以及聚合计算三个步骤 中任一步骤出现执 行错误, 均进行报警。 7.如权利要求1所述的一种面向企业在线教育高效MPP大数据引擎处理方法, 其特征在 于, 所述数据仓库采用开源数据库StarRocks。 8.一种面向企业在线教育高效MP P大数据引擎处 理系统, 其特 征在于, 包括: 前置预设模块, 用于建立标准快照数据库; 预设数据仓库, 所述数据仓库内的数据通过 更新时间和创建时间获取当天 内的新增及变化; 根据所述数据仓库将其中的表分为 维度表 和事实表; 延迟判断模块, 用于将所述数据仓库的线上从库作为快照库, 在执行快照之前, 进行延权 利 要 求 书 1/2 页 2 CN 115237906 A 2迟同步判断验证; 数据获取模块, 用于以外部表的方式采集数据输入至数据仓库, 并从所述快照库内预 设类型数据输入至数据仓库, 并进行同步; 模板预设模块, 用于当触发计算业务后, 读取对应企业的配置信 息, 根据不同企业预设 不同的计算模板; 执行模板生成模块, 用于获取计算模板后, 对所述计算模板的参数进行动态替换, 生成 基于结构化 查询语言的执 行模板; 综合数据获取模块, 用于将 企业对应的执行模板和由所述外部表输入的匹配数据输入 至所述数据仓库; 数据清洗模块, 用于对数据仓库收到的数据, 进行清洗和拉宽, 并写入维度表和事实拉 宽表; 结果计算模块, 用于将对应的事实表写入预设的聚合表进行聚合计算。 9.一种电子设备, 其特征在于, 包括至少一个处理器、 至少一个存储器和数据总线; 其 中: 所述处理器与所述存储器通过所述数据总线完成相互间的通信; 所述存储器存储有被 所述处理器执行 的程序指令, 所述处理器调用所述程序指令以执行如权利要求1 ‑7任一项 所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115237906 A 3

PDF文档 专利 一种面向企业在线教育高效MPP大数据引擎处理方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向企业在线教育高效MPP大数据引擎处理方法 第 1 页 专利 一种面向企业在线教育高效MPP大数据引擎处理方法 第 2 页 专利 一种面向企业在线教育高效MPP大数据引擎处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:46:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。