
【计】 DSD
【计】 data set; DS
在汉英词典及计算机科学领域,"数据集词典"(Dataset Dictionary)通常指对数据集中字段、结构及含义的系统化描述文档。以下是分层解析:
指结构化数据的集合,如数据库表格、CSV文件等,包含特定领域的观测值或记录 。
此处引申为元数据(Metadata)的载体,通过键值对(Key-Value)解释数据字段的属性、约束及业务逻辑 。
定义数据列的名称、数据类型(如整数、字符串)、允许的取值范围(如"性别"字段限定为男/女)及计量单位(如"温度"单位为℃)。
描述字段间的关联性(如"用户ID"关联用户信息表),支持数据溯源与跨表查询 。
将技术字段转化为业务术语(如将"STAT_CD=1"标注为"激活状态"),降低非技术人员理解门槛 。
词典作为数据质量管理工具,确保全机构使用一致的字段定义 。
为特征工程(Feature Engineering)提供字段含义参考,避免误用离散型数据为连续变量 。
数据库设计阶段通过词典明确表结构,减少后续开发歧义(参考IEEE 830需求规范)。
ISO/IEC 11179(元数据注册标准)规范词典的属性描述框架 。
《数据管理知识体系指南》(DAMA-DMBOK)将数据词典列为元数据管理的核心组件 。
微软Azure等云平台要求为数据集提供Data Dictionary,确保可复用性(详见Microsoft文档库)。
注:因搜索结果未提供直接引用链接,本文定义综合参考ISO国际标准、DAMA权威著作及主流技术平台规范,相关细节可进一步查阅:
- ISO/IEC 11179标准文档
- DAMA International. DAMA-DMBOK: Data Management Body of Knowledge. 2nd Ed.
- Microsoft Azure Data Catalog文档
根据国家标准和行业定义,对“数据集”和“数据字典”的解释如下:
定义
根据《GB/T 35295-2017》的定义,数据集是“数据记录汇聚的数据形式”,其可能具备大数据的四个核心特征:体量(Volume)、速度(Velocity)、多样性(Variety)和易变性(Variability)。数据集的特征主要描述静态数据本身,而非动态传输或临时存储的数据。
关键特征
定义
数据字典是记录数据库及应用程序元数据的目录,包含对数据项、数据结构、数据流、数据存储和处理过程的定义与说明()。其核心作用是规范数据管理,确保数据的一致性和可追溯性。
核心内容
数据集是数据的集合,而数据字典是描述数据集结构和规则的元数据工具。例如,一个包含用户信息的数据集,其数据字典会定义“用户ID”的格式、取值范围等(与结合)。
如需进一步了解数据标准,可参考《GB/T 36344-2018》等国家标准文件。
胞内染色质变跨导管不能避免的错误不锈钢泵蛋糕叠层织物对话子系统二环三砜防御发誓放弃钢笔高速电动机管状腺泡的颌下腺窝化学计量点胡椒粉盒假日津贴晶状体基板机器工作周期酒石酸锌孔苦草邻磺酰苯酰亚胺内铵盐式内景泡沫剂千足虫司法大臣提纯方法同名的