解释定义3

定义3:元数据元素P为资源R的内容(语义)属性,对于每一个r∈R,有P:Mr→r。Mr 为资源r的属性P的元数据(值),且Mr∈R。

元数据是关于资源的某一方面的属性,人们对于某一类事物(实体)的认识往往通过比较它们的相同属性而获得,因而常常同一类事物从某个角度去看可以归纳出一套属性集合,不同的角度可以有不同的属性集合,这就是元数据属性集,可以分别构成元数据方案。例如人的生物学属性可以包括身高、体重、肤色等等,而社会属性可以包括职业、单位、家庭等情况。

具体事物的属性可以通过赋值而使其有意义。在数字图书馆中,实体的属性值可以是具有一定数据类型的数据,根据数字图书馆的结构模型,也可以是具有id(在互联网中通常是URI)的另一个实体,即另一个“资源”。这个资源同样是数字图书馆中的内容(是不是属于该资源库,或者该“数字图书馆”,取决于该数字图书馆的开放性,即id的管理与调度的范围是否能够延伸到更大范围的网络中),即Mr∈R。

这样,资源、资源的属性与资源的属性值就构成了一个语义说明的模型:一个典型的RDF三元组结构:

资源—(属性)—→属性值,例如: 数字图书馆语义互操作—(作者)—→Keven

逻辑表达式P:Mr→r说明资源r的属性P的值是Mr。P用作谓词,→表示“蕴含”。也就是说,对于属性P,Mr 就代表了资源r。如果检索值为Mr 的命中结果,肯定包含r。

这里有一个定义困难,即什么是“内容(语义)属性”?元数据可以为了任何用途,描述信息资源的任何属性,甚至描述信息资源利用过程中的功能性、辅助性属性,不仅仅是资源内容的“语义”,例如数据格式。这些属性在某些情况下确实是用户所需要知道的。所以在这里我们并不明确区分哪些是语义属性,哪些不是,而将这个问题留给具体的数字图书馆建设时进行指定。哪些对于用户有意义的,或者要直接呈现给用户的属性,都属于“语义属性”,都是我们提出的数字图书馆语义架构中的内容。

元数据的“值”照理说不是“语义架构”所能够关注的问题。试想,一个数字图书馆中的海量资源,每个资源具有大量的属性元素,每个属性元素所具有的值几乎是不可预测的。

然而这一块正是现在的Web、语义Web和所有Internet上的应用所最缺少的,也是我们图书情报科学最早提出的、最拿手的,即“规范控制”。网络信息缺乏可信度,关键在于没有实现有效的规范控制机制,没有基本的规范控制手段,传统的图书情报规范控制方法也肯定不能适应现在的网络应用需求,必须把合理的思想,与先进的网络技术结合起来。

  • 思想一:取值来自于封闭的规范词表,例如分类词、主题词等,词表由另一套机制进行维护。
  • 思想二:取值来自于开放的权威档,例如人名、地名,权威机构赋值,开放使用。
  • 思想三:自由赋值,建立到权威档/规范体系(scheme)的关系,例如相关关系,同义关系,包含关系、从属关系等等,当然首先系统要支持这些“关系”的定义和描述。建立关系的过程和方式可以多种多样,先组后控、自动人工都可以。实际上现在的Tag就是这种思想,只是还没有完整实现和全面实施。

属性(元数据元素)和属性值的规范控制是本文提出的数字图书馆语义架构要实现的重要内容。

2 条评论 »

  1. Arale 留言,

    2006年09月20日 星期三 @ 11:06 am

    定义3没怎么看懂。
    R和r有区别吗,虽然都叫资源,但存在r∈R的关系。如果R是Repository,r是resource,那似乎和定义1和定义2相悖。根据前2个定义,似乎在定义3里,应该用C代替R,用R代替r。

  2. keven 留言,

    2006年09月20日 星期三 @ 11:31 am

    确实在定义R和r时有所混淆。在这些定义体系中,单独看每一个定义应该是没有问题的,而结合起来看,有些R应该作为r来理解。正确的理解应该是这样:
    R是集合,即资源的集合,r是集合中的某一个资源,而C是资源集合的集合。之所以定义C,是基于数字图书馆是资源集合的集合的考虑,要解决更高层次的互操作。把R理解成资源库是可以的,但不能具体化为Repository,因为当把一个Repository当作一个具体的资源时,这个资源库实际上只是一个资源而已,资源库的集合才是R。
    不知这么说是否理解了?
    谢谢您仔细看了这些定义并提出问题。我以为没人看的。

本文的RSS feed · 引用 URI

发表您的评论

您必须 登录 才能发表评论.