全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
ICS 33. 040. 40 YD CCS M32 中华人民共和国通信行业标准 YD/T XXXX-XXXX 智能计算中心数据共享技术要求 Technical requirements for data sharing in Intelligent computing center (报批稿) XXxx-xx-xx 发布 xxxx-xx-x× 实施 中华人民共和国工业和信息化部发布 目次 前 II 1范围 2规范性引用文件 3术语和定义 4缩略语 5概述. 6智能计算中心数据基本要求 6.1智能计算中心数据类别. 6.2数据组成. 6.3数据实体格式. 6.4元数据应具备的相关信息 6.5元数据编写要求. 6.6元数据录入与使用 6.7数据标准化处理要求, 7智能计算中心数据存储与管理要求, 7.1数据存储基本要求 7.2数据存储与管理要求. 7.3数据共享目录管理要求. 8智能计算中心数据共享要求. 8.1数据服务要求.. 8.2数据共享方式. 8.3数据传递接口要求 8.4认证与授权要求. 8.5数据共享服务状态监控要求 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规 定起草。 本文件由中国通信标准化协会提出并归口。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件起草单位:中国电信集团有限公司、中国信息通信研究院、中国移动通信集团有限公司、 新华三技术有限公司、浪潮电子信息产业股份有限公司、华为技术有限公司、北京百度网讯科技有限 公司、深圳市腾讯计算机系统有限公司、超聚变数字技术有限公司、天翼云科技有限公司 本文件主要起草人:赵继壮、郭亮、孙丹丹、寇晓淮、谢丽娜、唐华斌、万晓兰、齐园、胡德鹏、 张亚丽、刘劲楠、张启源、刘禄仁 I 智能计算中心数据共享技术要求 1范围 本文件规定了智能计算中心数据共享的基本模式、业务需求和技术要求等。 本文件适用于智能计算中心数据使用过程中相关数据的开放和共享。 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适 用于本文件。 GB/T25069-2022信息安全技术术语 GB/T36344-2018信息技术数据质量评价指标 GB/T41867-2022信息技术人工智能术语 T/CCSA463-2023智能计算中心总体技术要求 3 :术语和定义 GB/T41867-2022界定的以及下列术语和定义适用于本文件。 3. 1 智能计算中心artificial intelligencedata center 通过使用大规模异构算力资源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),为人 工智能应用(如人工智能深度学习模型开发、模型训练和模型推理等场景)提供所需算力服务、数据服 务和算法服务的基础设施。 3. 2 数据共享data sharing 在智算中心内部流转的数据,对智算中心其他项目、业务或者相关方共享。 3. 3 元数据metadata 关于数据或者数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问 权和数据易变性的数据。 [来源:GB/T36344-2018] 3.4数据提供方dataprovider 提供共享数据资源的机构。 3. 5 数据管理方datamanager 统一管理数据资源的机构。 3. 6 数据使用方datauser 使用共享数据资源的机构。 4缩略语 下列缩略语适用于本文件。 API 应用程序编程接口 Application Programming Interface NVMe 非易失性内存主机控制器接口规Non-VolatileMemoryExpress 范 NFS 网络文件系统 Network File System POSIX 便携操作系统接口 Portable Operating System Interface SSD 固态硬盘 Solid State Driver SATA 串行高级技术附件 Serial Advanced Technology Attachment SAS 串行连接SCSI Serial Attached SCSI S3 简单存储服务 Simple Storage Service 5概述 智能计算中心的数据共享服务是指面向人工智能数据的供给和需求,根据供需双方的约定来开展 数据共享以及提供相应的服务。智算中心内部数据包括数据集和模型库。 数据共享服务可支持多种服务角色的服务接入,包括数据提供方、数据管理方、数据使用方等。 数据提供方为多方数据共享服务提供所需数据;数据管理方根据数据使用方的需求,配置提供符合该 类供需模式所需的服务资源,协调一个或多个数据提供方完成该服务;数据使用方根据自身情况向多 方数据共享服务运营方提出数据的使用需求,对获得的共享数据结果进行确认。 6智能计算中心数据基本要求 6.1智能计算中心数据类别 6.1.1 数据集 数据集主要有文本数据、语音数据、图像数据和视频数据等几大类别: 文本数据:文本数据是指以文字形式存储的数据,包括字母、数字、符号等。文本数据是人 2 工智能中最为常见和重要的数据类型之一,因为人们通过文本进行交流和表达,文本数据可以 提供丰富的信息,如文本分类、情感分析、问答系统、文本生成等; 语音数据:语音数据是指以音频形式存储的数据,包括人的语音、音乐等声音信号。语音数 据在人工智能中也有着产泛的应用,如语音识别、语音合成、语音情感分析等; 一图像数据:图像数据是指以图像形式存储的数据,包括图片、视频帧等视觉信号。图像数据 在人工智能中也有着广泛的应用,如图像分类、目标检测、人脸识别、图像生成与风格转换等; 视频数据:视频数据是指以视频形式存储的数据,包括动态的图像、音频等多媒体信号。视 频数据在人工智能中也有着广泛的应用,如视频分类、目标跟踪、行为分析、视频生成等。 6.1.2模型库 模型库主要有模型结构、模型权重等。模型类型包含计算机视觉、自然语言处理、智能语音等。 a)计算机视觉: 1) 应支持主流计算机视觉算法方向,包括图像分类、目标检测、3D目标检测、语义分割、 动作识别、超分辨率等; 2)宜支持超大规模图像生成模型,如 stable diffusion等; 3)宜提供多个计算机视觉领域可共享开放的预训练模型。 b)自然语言处理: 1) 应支持多种自然语言处理算法方向,包括机器翻译、信息检索、文本分类、文本生成、 情感分析、文本摘要等; 2) 宜支持大规模文本生成模型,如LLaMA等; 3)宜提供多个自然语言处理领域共享开放能的预训练模型。 c)智能语音: 1)应支持多种智能语音算法方向,包括语音识别、语音合成、语音唤醒、语种识别、声纹 识别、语音降噪等; 2) 宜支持大规模自动语音识别模型,如Whisper等: 3)宜提供多个智能语音领域共享开放的预训练模型。 6.2数据组成 共享数据由3部分组成,包括数据实体、元数据和数据说明。数据说明是针对数据实体提供的具 体说明,便于使用者使用数据。数据实体、元数据和数据说明均为必备内容。 6.3数据实体格式 共享数据提供者应尽可能提供机读的电子文件,若只有纸质媒体应尽量提供电子扫描格式。电子 格式的数据,可采用但不限于: 一一表格类:用字符型、数值型、布尔型等数据类型或统一的数据结构表示的数据; 一一数据库类:利用数据库系统定义的用来存放数据的文件格式来组织、存储和管理的数据; 一网页文本类:包括网页类和文本类数据; 一一多媒体类:用数字化形式描述的,将声音、图形、图像和动画等各种媒体组合形成的数据; 一一地理空间类:用于描述地理实体空间特征和属性特征的数据,由空间数据和属性数据组成: 一一自描述类:由提供者提出的,行业内的其他通用格式数据; 一复合类:由上述2种或2种以上类型组合而成的数据。 6.4元数据应具备的相关信息 一中文名称:共享数据应具有相应的中文名称; 一英文名称:共享数据应具有相应的英文名称: 型、日期型和日期时间型,非结构化数据的数据类型一般有文本、图片、音频、视频等,地理 空间数据的数据类型一般有矢量数据、栅格数据、地图瓦片、三维数据、表格数据等; 数据格式:共享数据应具有数据格式的描述; 数据值域:共享数据应具有该数据的取值范围的描述; 一数据单位:共享数据应具有数据计量单位的描述,数值型数据的计量单位为必选项; 一数据来源:共享数据应具有数据源描述信息,包括来源机构、来源系统等; 数据产生方式:应按照数据的产生方式对数据进行分类,包括人工采集数据、信息系统产生 数据、感知设备产生数据等: 数据产生时间:共享数据应具有产生数据的时间信息: 一数据安全级别:共享数据应对该数据的安全级别进行描述,以确定该数据能够被何种权限等 级的用户或系统访问; 一数据关联度:共享数据宜具有数据关联关系的描述。 6.5元数据编写要求 6.5.1真实性 应确保元数据内容真实可信。 6.5.2易读性 凡以文本填写的内容,其文字应通俗易懂 6.5.3权威性 元数据应由数据的所有者或其认可的作者编写完成。必要时,需经过有关部门认可或专家论证。 6.5.4完整性 应按照本文件对元数据的约束条件进行填写。凡必选内容必须填写。一定条件下必选的内容在满 足条件时必须填写。可选内容宜尽可能多地填写,以帮助管理者与使用者更充分地了解数据。 6.6元数据录入与使用 6.6.1录入 可采用文字处理软件或专用录入软件
智能计算中心数据共享技术要求
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2025-07-20 23:12:15
上传分享
举报
下载
原文档
(22.2 MB)
分享
友情链接
ISO 18264 2022 Textile slings — Lifting slings for general purpose lifting operations made from fibre ropes — High modulus polyethylene (HMPE).pdf
ISO 12234-1 2012 Electronic still-picture imaging — Removable memory — Part 1 Basic removable-memory model.pdf
ISO 4689-2 2017 Iron ores — Determination of sulfur content — Part 2 Combustion titration method.pdf
ISO 3008-1 2019 Fire resistance tests — Door and shutter assemblies — Part 1 General requirements.pdf
ISO 3520 2022 Essential oil of bergamot [Citrus bergamia Risso et Poit], Calabrian type.pdf
ISO 4200-1991Plain end steel tubes,welded and seamless. General tables of dimensions and masses per.pdf
ISO 17515-1 2015 Intelligent transport systems — Communications access for land mobiles (CALM) — Evolved universal terrestrial radio access network (E-UTRAN) — Part 1 General usage.pdf
ISO 15192 2021 Soil and waste — Determination of Chromium(VI) in solid material by alkaline digestion and ion chromatography with spectrophotometric detection.pdf
ISO TS 20458 2023 Road vehicles — Design and performance specifications for advan.pdf
ISO 3611 2023 Geometrical product specifications (GPS) — Dimensional measuring equipment — Design and metrological characteristics of micrometers for external measurements.pdf
GB-T 16843-2023 单端荧光灯 安全规范.pdf
GB-T 18051-2000 潜油电泵振动试验方法.pdf
GB-T 42756.1-2023 卡及身份识别安全设备 无触点接近式对象 第1部分 物理特性.pdf
GB-T 22273-2008 良好实验室规范建议性文件 良好实验室规范原则在体外研究中的应用.pdf
GB-T 15338-2012 炭黑 试验方法精密度和偏差的确认.pdf
GB-T 12313-1990 感官分析方法 风味剖面检验.pdf
GB-T 23414-2009 微束分析 扫描电子显微术 术语.pdf
GB-T 27831-2011 化学品 遗传毒性 酿酒酵母菌基因突变试验方法.pdf
GB-T 25995-2010 精细陶瓷密度和显气孔率试验方法.pdf
GB-T 17389-2013 潜油电泵电缆系统的应用.pdf
1
/
3
12
评价文档
赞助2元 点击下载(22.2 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。