首页 > 技术信息 > 正文 文章搜索:
《数据元标准化的基本原则与方法》标准培训教材
发布时间:2006/5/24  来源:  浏览次数:6058

一、目的意义

简单地讲,该标准要解决一些几个方面的主要问题:什么是数据元,干什么用;它的基本属性是什么,如何规范地写出这些属性;产生了大量的数据元后如何管理。

数据元标准化的目的,概括地讲,就是要通过元数据的所有元素以及具体数据的数据单元(数据元)的标准化,使得数据的拥有者和使用者,对数据有着共同、一致和无歧义地理解。那么,如何实现这一点呢,就必须首先规定数据元标准化的原则和一些基本的方法。

本标准的目的就在于给出科学数据共享工程、各领域、主体数据库三个层面的数据以及关联数据,在其特定的语境中数据单元进行标准化的原则、方法以及管理的机制和模式。它不仅是科学数据共享三个层面各自内部数据规范的原则与方法,同时也是元数据元素和元数据内容规范的原则与方法。它不仅是科学数据大平台建设中数据规范、公共数据元目录编写必须遵循的原则与方法,更是各试点单位相关库结构设计和数据字典编写的依据和基础。

对内,可以作为科学数据采集、加工、处理环节工作人员的操作“手册”或工作“指南”,使其有标准可依,在分析业务流程和所关心对象、其特性和可能表示的前提下,提取所需的数据元和属性,按照本标准规定的原则和方法,对其进行标识、命名、定义等,同时提交注册。

对外,可以使有关方,根据本标准以及由此产生的数据元目录、字典,对科学数据的进行相应汇交、分发、服务和应用。

上述这些活动都必然建立在数据使用者和数据拥有者对相关数据的涵义、表示及标识有着相同而无歧义的理解基础上。

最后,本标准是科学数据共享工程、各个领域以及主题数据库设计和建设工程中数据(元)目录、数据(元)字典以及更高、更理想应用层次的数据元注册系统的顶层、基础方法性标准。一般与目录、字典或注册系统的应用说明书等一起提供给用户。

二、标准内容

首先,本标准文本中的范围已经基本给出了标准的主要内容:

1.本标准围绕各种类型的科学数据库建设和整合以及科学数据交换、共享、服务和应用对数据元标准化的需要,规定了数据元的提取、命名、标识、描述、分类、值域范围确立的基本原则与方法,数据元目录的格式规范,以及整个科学数据共享工程中数据元的维护与管理层次与机制。

2.本标准适用于科学数据共享工程各建设单位研究和制定通用和专用的数据元目录(又称数据元字典)标准。

其次,本标准围绕各种类型的科学数据库建设和整合以及科学数据交换、共享、服务和应用对数据元标准化的需要,从业务实现的功能模块的角度来看,重点要解决科学数据共享过程中的:

l        数据元如何提取

l        数据元如何命名和标识

l        数据元如何描述与表示

l        数据元的分类

l        数据元的值域

l        数据元目录的编写格式

从逻辑思维、便于阅读、理解的角度,标准文本包含以下几个板块:

什么是数据元;数据元的基本属性有哪些;如何提取数据元及其属性;数据元的分类法;数据元的标识和命名原则与方法;数据定义编写的原则与方法;数据元的值域及表达模式;数据元目录的编写格式;以及如何进行数据元的管理与维护。

三、标准应用

1.数据元和数据元属性的提取

对于以现有数据库为主的领域中科学数据共享来说,数据元和属性提取的方法上宜采用“自下而上”的方法为主。工作流程可能有两种方式和途径。

一是直接由各个主体数据库,依据本标准规定的原则和方法,对自身的数据库等相关数据资源的数据在分析、梳理基础上,归纳整理出各自数据库数据元;根据数据元的应用实际和数据库的具体要求,阐明并写出相关数据元在采集、存储和交换过程中各个属性以及属性的约束要求;描述和定义各个属性所需要的属性描述符及其约束要求;根据给定的命名、定义、标识规则和表示规范,形成各自数据库的数据(元)字典;根据领域和工程的需要,提交领域、共享工程层面的数据元。

二是各个领域先依据本标准制定各领域的具体数据元标准化的原则和方法标准和数据元目录标准规定,供相关领域和其所属的主题数据库建设和设计参考、使用,并形成领域的数据元目录以及各个主题数据库的数据(元)字典。当特定领域与共享工程层面的数据元标准化的原则、方法虽然兼容,但延拓、细化以及具体需要规定的内容较多时,可采用此种途径和方式。

对于根据科学数据的发展为出发点,在领域建设中以新建各类主题数据库为主时,领域层面科学数据共享中的数据元和属性的提取方法宜采用“自上而下”方法为主,基本步骤是,在业务流程和功能分析的基础上,通过建模分析、确立关心“对象”;通过对象类的特性以及相关表示的分析、归纳和整理,提出所需的数据元;根据不同主题数据库不同的功能要求和不同结构数据的描述要求,提出规范数据元所需的属性及其属性描述符;规定属性和属性描述符的规范性要求;依据属性和属性描述符规范对提取的数据元进行标准化;形成不同主题库和领域的数据(元)字典(或目录)。

2.对象词、特性词和表示词的应用

作为领域层面,共性的东西相对集中,所关心的事物、概念之间的关联度明显增强。在这种情况下,能够形成自身领域关于对象词、特性词和表示词的表格结构。按照使用的频次建立相应的三张表格,对各自词的内涵与外延进行明确的界定,对于不同约束条件下,不同词的选用给出具体的规定。这些方法和措施对于规范的数据元名称的形成具有十分重要的作用和意义。

3.数据元的分类

对数据元进行分类有若干目的:分类可帮助用户从众多的数据元中找出某个单一具体的数据元;方便对数据元进行数据管理分析;通过继承使原本借助其他属性(如名称和定义)不能完整表述的语义内容得以表达等作用。

国际规范、通行的数据元分类一般通过数据元的分类方案和数据元的分类属性来进行。

规范的数据元的分类方案一般包括:关键字、主题词表、分类法和本体论。在科学数据共享各个领域,数据元的分类在目录、字典制定、维护管理和满足应用需要等方面都是十分必要的。

根据各自的实际需要和应用情况,制定面向领域层面的相关关键字、主题词表、分类法是必然的,也是十分重要的。

数据元的若干成分导致了对分类的需求。主要的成分包括对象类、特性、表示、值域、数据元概念以及数据元本身。属性的使用应使各分类方案与数据元选定的成分联系起来。

每个成分与分类方案的关联使用可以使数据元应用的相关方能够更好地运用分类方案:

——分析对象类、数据元概念和数据元

——在对象类、特性、表示、数据元概念以及数据元间进行比较

——减少数据元概念和数据元的多样性

——明确无误地识别、描述和定义数据元概念和数据元

——辅助用于指定注册状态的数据元分析

——解决同义词和多义词的有关问题

——于数据注册处检索数据元概念和数据元

——辨识数据元概念和数据元之间的关系

——支持唯一的且明确无误的标识和引用对象类、数据元概念和数据元,其形式应做到语言上的中立和应用到信息技术上的可能。

4.数据元的注册管理和维护机制

数据管理者的工作手册。自下而上的,通过授权,建立系统,成立必要的机构来完成。