一套元数据属性与编码词汇表编制指南

M2B 旨在帮助内容提供者选择合适的元数据属性用于开放知识库有意义的书目信息的生成、管理和交流。它的目的包括:

  • 提供一套通用的元数据属性;
  • 鼓励规范数据、受控词表和句法编码标准的使用;
  • 推荐使用统一资源标识符(URIs)给事物命名[1],尤其是可供使用的数据值。

概念模型 

为对涉及到的书目数据描述实体和关系有一个全局的视野和一般性的了解,M2B构建了一个常用的概念模型[2](图1所示),聚焦书目资源实体,进行了较高水准的提炼。某个资源实例(如一篇文章或报告)和代理(个人作者或研究团队,负责内容的生成和资源的传播)以及主题(文章的主题或选题)三者之间的主要关系已经被认同。因此,资源、代理和主题构成了模型的3个核心实体。图2展示了,常见的概念模型下,资源实例中不同实体可能存在的多种关系所蕴含的深层次含义。

此模型体现了以下几个重要的意义(斜体部分为实体名称):

  • 基本实体及其之间的关系。资源实体是此文每个描述的中心。此模型并没有展开阐述亚实体的类型,因为不同资源的亚实体等同于不同类型的资源。关系是建立在资源实体,以及其它两个主要实体代理和主题之上的。
  • •实例中相同实体的关系。不同实例的同一实体也会有关系。如,某个资源可能与另外一个资源相关联。一个代理可能与其它代理有关联。此类关系在模型中都有展示。
  • •同一实例不同实体间的关系。任何一对实例中的关系不同于其它,并且见于不同水平。图2所示的样本关系是说明性的,也应用于不同水平的书目资源实体。如,一个代理可以为一个原创著作的产生提供资金支持,也可以支持一部著作的翻译,或者是一个著作新格式翻译版本的产生。
  • •数值的控制。规范控制是模型的重要元素。代理,无论其在某个资源中起到何种作用,都应该通过命名规范文档加以管理。概念、议题和地理方位,作为某个资源的主题,都应该按照数值词汇表的规则执行。在此报告中,尽管并非特别强调此模型中书目资源标题的规范控制,但是资源统一题名的控制依然是合乎逻辑的正确步骤。越来越多的命名规范文档、受控词表和资源数据集作为关联开放数据(LOD)已经可以公开获取。此模型有意将关联开放数据云中提取一部分数据,作为每个实体的背景,以此提醒读者其现实性。

此概念模型,是共享书目数据重要实体和关系之基本共识的关键所在,适用于不同的数据模型,且能用于不同实施途径的数据。

 

LODE-BD overall conceptual model

      图1  LODE-BD一般概念模型

    (Translator's Note: Thema theme; Value vocabularies ranging vocabulary)<br />

    图2  LODE-BD v.1.1. 案例中一般概念模型所蕴含的意义

 

一般属性组

描述书目资源的一般属性已经被认知,并且基于诸多开放知识库的综合研究成果,将其分为9组。用以描述书目资源的约24个属性,详见第1-8组。两套用以描述书目资源之间或代理之间关系的属性,详见第9组。如下表单所示, 斜体的为一些特别重点标明的属性。此报告中,资源一词实际上代表着书目资源,一种基本的资源类型。

·      1. 题名信息。对于任何资源而言,题名信息都是最重要且最相关的检索要点之一。此信息常通过以下属性加以描述:题名副题名并列题名)、翻译题名以及音译题名等。

·      2. 责任主体。此组中包含了对资源内容生成或出版负责的机构或组织信息的相关属性。如某个资源的创建者贡献者出版商发行人

·      3. 物理特征。用以描述某个资源物理形态外观和特征的相关属性,归属于此分组。具体包括:日期标识符语言格式版次/版本

·      4. 位置(地理方位)。信息交流中某个资源存放的地点和获取的位置,是很重要的。记录相关的方位获取信息的属性,归属于此特别分组。

·      5. 主题。与物理特征相反,主题分组包含了这样的属性,描述某个资源的特征,以及从主题术语分类、自由分配的关键词地理术语格式等方面去挖掘某个资源的具体内容。

·      6. 内容描述。有两种主要内容描述类型,聚焦资源的内容,而非实体对象。第一类是内容的代表性描述,通常以摘要总结注解目录;第二类为资源类型

·      7. 知识产权。凡是涉及到与某个资源获取和使用相关的知识产权的任何一个方面的属性,全部囊括在此分组,特别关注权利使用条款获取条件

·      8. 使用。与资源使用相关的属性,而非资源本身的特征,都划归到此分组。具体包括:用户文学指征教育水平

·      9. 关系。此分组对于资源的描述有一个特别的视角,主要集中描述资源本身。在此,两个资源间或两个代理间不同的关系,是描述的重点。由于此属性数量庞大,所以在下面的图表中关系分组并没有标明特定的属性。

 

       分组信息集中列于表1,每一组都有特定的属性。同时也必须要对基数、取值控制和重要属性的附加编制指南,加以特别关注。图1在对应每一栏中包含了如下要素:

 

·      A. 属性分组

·      B. 每一组包含的属性。对于属性的重要性,使用了两个特别的标记方法。“++”同时标红的,是强制执行属性。“+” 同时标蓝的,是在书目信息交换情境下强力推荐的属性。余下的是推荐的属性或可选属性。

·      C. 在非分析型和分析型书目描述情境下的属性要求,对某个进程可特别标记为M-强制执行;HR-强力推荐;R-推荐;O-可选。

·      D.  关于取值控制的编制指南,可标示为:不受控(n);推荐使用命名规范或受控词表;或遵循句法编码规则。

·      E. 与单个属性相关联的一些重要特征,尤其是语言和方案特征。方案具体可能是一个取值编码方案或句法编码方案。

  • 表1.一般属性组

    A B C D E
    组别 属性

    要求
    |强制执行|强力推荐|推荐|可选|

    取值控制 重要属性
    非分析型 分析型
    1. 题名
    信息
    题名++

     

    强制执行 强制执行 不受控 语言
    副题名
     
    可选 可选 不受控
    2. 责任主体 创建者+ 强力推荐 强力推荐 不受控或应使用命名规范
    (个人、团体、会议)
     
    方案
    贡献者 可选 可选 不受控或应使用命名规范
     
    出版商/发行人+ 强力推荐 推荐 不受控或应使用命名规范
     
    3. 物理
    特征
     
    日期++ 强制执行 强制执行 句法编码规则
     
    方案
    标识符+ 强力推荐 强力推荐 句法编码规则
     
    方案
    语言++ 强制执行 强制执行 控制表单
     
    方案
    格式/表现方式+ 强力推荐 强力推荐 控制表单
     
    方案
    版次/版本 推荐 推荐 不受控
     
     
    来源+ 强力推荐 强力推荐 不受控
     
     
    4. 方位  方位++
     
    强制执行
     
    强制执行 不受控或应使用规则
    (可通过控制表单管理保存单元名称)
     
     
    5. 主题 主题术语+ 强力推荐 强力推荐 受控词表 语言
    方案
     
    分类 可选 可选 受控词表、分类体系
     
    方案
    自由分配的关键词
     
    推荐 推荐 不受控 语言
    地理术语 可选 可选 受控词表 语言
    方案
     
    6. 内容
    描述
    描述/摘要(注解/总结/目录)
     
    推荐 推荐 不受控 语言
    类型/形式/种类
     
    推荐 推荐 受控词表 语言
    方案
    7. 知识
    属性
    权利+
    使用条款
    获取条件
     
    推荐 推荐 不受控[通过命名规范管理权利所有人]  
    8. 使用 用户
     
    可选 可选 控制表单 方案
    文学指征
     
    可选 可选 控制表单 方案
    教育水平
     
    可选 可选 控制表单 方案
    9. 关系 [资源间的关系]+
     
    可选 强力推荐 受控资源标号码  
    [代理间的关系]
     
    可选 可选 不受控或应使用命名规范  

    [1] 参见Lee,T-B。(2006)。关联数据-设计问题

    [2] 概念模型以联合国粮农组织农业信息管理标准团队(FAO AIMS team)此前开发的基于FRBR的模型为基础,进行了广泛扩展,并对现有编制指南进行了重新思考。

     

    联系我们

    如有兴趣了解更多关于M2B和LODE-BD的信息,请通过 AIMS@fao.org联系我们。

     

    文献引用格式

    Subirats, Imma; Zeng, Marcia L. (2012) Meaningful Bibliographic Metadata (M2B) Rome:.. Food and Agriculture Organization of United Nations.

  •