关于数字图书馆语义模型的思考
元数据描述是将数字图书馆中的信息资源语义外显化(或称语义化)的基本方式。元数据的标注一般可以通过两种方式:先组式或后控式。前者可以在数字图书馆建设的初期,即数字化的过程中完成,系统一俟建立,就有一套规范的语义描述层(传统上的书目数据库就是这样一种结构,但不仅仅是语义的);后者是目前语义Web发展的一个重点,即在Web上再造一个语义Web,而不是从头造一个全新的语义Web(TimBL原话是现有Web的扩展:the extension of present Web),这样主要要大量用到annotation方法,例如现在Web2.0的许多应用(用Greasemonkey给Firefox写js代码,PiggyBank/SemanticBank项目等)。
进一步,如果这些元数据能够“嵌入”逻辑语言,就能建立所对应的资源之间的丰富联系,并能进行推理。数字图书馆在这一点上比Web更有优势,因为数字图书馆{Web,更有组织。这样做不仅需要用元数据将资源之间的逻辑联系外显地表达出来,还要具有逻辑上的一致性,满足形式化条件。也就是以一定的规范本体形式来表达。
例如家谱中关于人的描述,可以建立家族本体,可以进行自动的证伪;关于地理和时间的描述,可以自动推演某些历史时期的人口分布情况。当然这些首先需要描述的规范化。
最典型的例子是图书馆的资料中的分类法和主题词标引,分别符合规范的学科体系,可以组织成完整的“知识地图”,辅助人们对于资源进行导航浏览和学习。
当然严格的形式化和完全知识在现实中是很难获得的,半形式化的本体也能做很多事情,这就需要进行理论上的探讨。
一套元数据术语集通过赋予单独的URI标识而在网上声明,这个术语集可以看成是一个领域本体。目前网络中的元数据登记注册系统常常同时管理多个元数据术语集合,除了一般的元素定义、管理维护、元素间的关系明确功能之外,还兼有多个元数据元素集合之间的关系定义、映射表维护等功能,实际上充当了本体注册系统。为了区分这两类登记注册系统,我们把只负责管理一套元数据方案的登记注册系统称为元数据注册登记系统,负责多套元数据注册登记及相互关系定义的注册体系,称为本体注册系统。一套元数据方案是对于一个信息库的抽象,本体注册系统则可以看成元元数据,是对于数字图书馆信息资源的二次抽象,可以看成是异构信息模型。
这样进行分层和抽象的目的是把元数据与资源,本体与元数据的关系定义在一阶逻辑之内,同时设定论域闭包,建立一个可以进行语义相似性计算和匹配的数字图书馆信息模型。
哪些知识表示语言和工具可以用来表达这种本体呢?有许多。例如语义网和框架系统(Semantic Network and Framework System)、一阶逻辑(First-order Logic)、本体、情境逻辑(context logic)、演绎数据库、分布式数据库等。这些大都是基于一阶逻辑的,对于不符合一阶逻辑的应用,例如概率逻辑、时态逻辑、高阶逻辑等就不能用只支持一阶逻辑的各种形式化方法,例如OWL语言。






