(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211063642.7 (22)申请日 2022.09.01 (71)申请人 山东慧创信息科技有限公司 地址 276000 山东省临沂市高新 技术产业 开发区临沂应用科 学城A14楼 (72)发明人 王立宝 王英石 张琛 王茂法  梁靖 白佳朔  (74)专利代理 机构 山东诺诚智汇知识产权代理 事务所(普通 合伙) 37309 专利代理师 李文静 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/27(2019.01) G06F 16/2453(2019.01) G06F 16/215(2019.01)G06F 16/182(2019.01) G06F 16/11(2019.01) G06F 16/176(2019.01) (54)发明名称 多维数据元融合实现数据收集和共享的时 空数据湖方法 (57)摘要 本发明公开了多维数据元融合实现数据收 集和共享的时空数据湖方法, 涉及数据处理技术 领域, 包括以下步骤: S1、 数据收集; S2、 建立数据 仓管理模型; S3、 数据分类; S4、 数据融合; S5、 数 据湖的建立。 该多维数据元融合实现数据收集和 共享的时空数据湖方法, 采用构建存储数据的数 据湖使其能够存储大量的原始数据, 利用数据仓 对数据进行处理通过数据仓的建立不仅能够降 低数据存储的成本同时能够 去除数据的重复性, 同时能够对 数据进行补偿补 充数据的完整性, 在 存储数据的过程中每一次存储前后均会自动生 成时间戳, 从而可以实现在仅查询某个时间点之 后成功提交的数据或是仅查询某个时间点之前 的数据, 有效避免了扫描更 大时间范围的数据。 权利要求书2页 说明书5页 CN 115168512 A 2022.10.11 CN 115168512 A 1.多维数据元融合实现数据收集和共享的时空数据湖方法, 其特征在于, 包括以下步 骤: S1、 数据收集 从移动设备、 网站、 移动应用程序、 社交媒体和企业应用程序中获取非关系与关系数 据, 其中获取的数据包括储存结构化数据、 半结构化数据、 非结构化数据和二进制数据, 得 到的数据为源数据; S2、 建立数据仓管理模型 建立数据仓管理模型并将 获取的源数据导入其中, 利用数据仓管理模型对导入的源数 据进行预 处理, 其中数据的预 处理包括数据的清洗、 数据补偿与数据格式处理统一, 使得源 数据能够精炼标准; S3、 数据分类 将数据仓中的源数据进行分类, 并根据源数据的类型进行分类, 然后对分类后的源数 据根据数据的相似程度和相关性进行归类; S4、 数据融合 将归类后的源数据进行 数据融合; S5、 数据湖的建立 基于HDFS可以构建存储数据的数据湖, 并利用Spark引擎将融合后的源数据摄取到数 据湖中进行储存, 并以数据湖为基础架构建时空大数据分析云平台, 用于时空湖内部存储 数据的共享; S6、 资源共享 在时空大数据分析云平台中接入共享登录入口, 其中共享登录入口需要个人注册账号 登录使用, 账号的唯一性与等级性作为读取数据湖内部数据的基础, 根据账号等级的权限 用于读取获取对数据湖 内部数据的操作, 其中账号的等级根据使用者的使用时长权限决 定, 并建立搜索引擎, 利用搜索引擎搜索共享数据湖中存 储的信息 。 2.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其 特征在于: 所述在步骤S1数据收集过程中采用的储存结构化数据为关系 型数据库中的表, 半结构化数据为CSV、 日志、 XML和JSON文件, 非结构化数据为电子邮件、 文档和PDF, 二进制 数据为图形、 音频和视频 数据。 3.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其 特征在于: 所述在步骤S2建立数据仓管理模型过程中的将获取的源数据进行处理, 其中处 理过程为数据 清洗将源数据中重复性相似性较多的数据删除, 并在数据 清洗的过程中对源 数据进行补偿查缺, 将源数据中不完整数据进行联想补充, 接着将补偿后的源数据进行规 格统一, 保证数据流 通格式的一 致性。 4.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其 特征在于: 所述在步骤S3数据分类过程中对于源数据的分类首先根据数据 的类型进行分 类, 并在分类后将源数据再次整合 根据源数据中数据的相关性进行 单元的归类。 5.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其 特征在于: 所述在步骤S5数据湖的建立过程中采用的数据湖允许存储大量的原始数据, 不 会拒绝任何数据的包容 性, 从源头获取源数据时不受数据结构的约束。权 利 要 求 书 1/2 页 2 CN 115168512 A 26.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其 特征在于: 所述在步骤S5数据湖的建立过程中利用引擎Spark将融合后的源数据摄取到数 据湖中进 行储存, 并在 存储时加入时间轴, 根据时间, 在每一次存储 前后均会自动生成时间 戳, 从而可以实现在仅查询某个时间点之后 成功提交的数据, 或是仅查询某个时间点之前 的数据, 有效避免了扫描更 大时间范围的数据。 7.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其 特征在于: 所述在S6资源共享的过程中采用的搜索引擎分别为快照查询、 增量查询和读优 化查询, 即快照查询为查询某个增 量提交操作中数据集的最新快照, 先进行动态合并最新 的基本文件和增量文件来提供近实时数据集, 增量查询为仅查询新写入数据集的文件, 需 要指定一个即时时间作为条件, 来查询此条件之后的新数据, 读优化查询为直接查询 基本 文件。权 利 要 求 书 2/2 页 3 CN 115168512 A 3

.PDF文档 专利 多维数据元融合实现数据收集和共享的时空数据湖方法

安全报告 > 其他 > 文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多维数据元融合实现数据收集和共享的时空数据湖方法 第 1 页 专利 多维数据元融合实现数据收集和共享的时空数据湖方法 第 2 页 专利 多维数据元融合实现数据收集和共享的时空数据湖方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常2024-03-18 00:50:22上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。