存档三月 26, 2006

解释定义7

定义7:对于本体五元组O(T,V,I,F,A),建立由T到V的映射的过程,即ξ:T→V,称为语义化过程。

直观地说,语义化过程就是为元数据方案建立相互之间联系的过程,主要有如前所述的三方面的联系:资源库之间、资源之间和元素之间的联系,资源库之间的联系可以看成局部本体构成全局本体,资源之间的联系是建立局部本体的过程,元素之间的联系是建立元数据方案(即元数据应用纲要,为资源库C规定所有的元数据应用纲要APr1, APr2…APrn,以及为每一类资源R规定属性元素P)的过程。正是这些联系使数字图书馆建立起资源之间的语义模型,仅仅是术语T的规范化只能提供规范的元数据方案,而不能提供整套的语义架构。

语义化的核心是为具体的数字图书馆应用建立领域本体,使领域本体发挥作用,也即建立具体数字图书馆的语义模型。满足数字图书馆的语义功能需求有赖于整个语义架构的设计和实现。本研究的目的即在于探索语义架构的组成,并为其设计和实现提供方法论支持。

留言

共享工程又一年

去年大约这个时候,去北京参加了一次共享工程会议,当时感到有些话不吐不快,可“吐”了又不好,正好在悉心经营博客,于是都倾泻在博客上了

巧的是时隔整整一年,前几天又去北京开共享工程会议,回来后依旧郁闷,都是好人哪!从高层领导到普通职员,特别三位主任副主任,焦虑之情溢于言表,心急如焚以至于坐立不安。可是为什么好事情就那么难办好呢?

作为特邀“专家”赴会,没能出什么好主意,实在实在是有愧的紧。虽然技术人员常常扮演“关键先生”的角色(这一年多的实践又是这样),然而问题还不是出在技术上的,而是制度和管理上的,这几乎已成了颠扑不破的真理。 所以虽然对目前的技术路线存有疑问,但这样的小事还轮不到担心。

最大的一个担心倒是观念上的:领导的话到底应该如何去听?哪些话该听哪些话不该听?现在最高领导都重视共享工程了,部领导抓得紧,指示一个接一个,从战略目标到具体措施,如果都听,真还办不成事。只要领会了精神,把事情办好,有些话不照领导说的办,有关系吗?当然如果只希望保住乌纱帽,不负责任,虽然事情是肯定办不好地,倒不失稳妥,呵呵,现在大家都这样。

比方说技术方案,领导说不能另起炉灶,必须在原有方案的基础上,利用原有的架构是基础,总结原有方案的教训也是以原有方案为基础,在我看来原有方案是肯定没法用的。比方说对于为农民服务,我就非常赞同LDL馆长的意见,必须根据当地具体情况,以基层图书馆为依托拓展服务。

翻开去年的博文,实在佩服自己说的真有道理,许多东西依旧没有改观,实在也很难再增加些什么,于是原封不动附在后头吧,重温一下。

附去年的博客文章(含评论及回复):

对共享工程有话要说

前几日参加了一个会 议,有关全国文化信息资源共享工程,感到我们国家的各级领导都非常急切地想把事情做好,真正为老百姓多办点实事。特别是两办发文以后,更舍得花钱了。但以 我们的经验似乎总是事与愿违,很好的事情一到下面就走样。回顾以往,我们这个行业很难找到成功案例,许多项目虎头蛇尾,转型变调,甚至被人利用。原谅我就 不举例子了。人们不禁要问:这是为什么?

目前已经不能用领导不 重视、资金不充足、人才不得力,技术不成熟等借口来解释了,国家现在对文化事业的重视超过了以往任何时期。当然我们一方面不能满足,但另一方面我们必须要 有作为才能有所地位。共享工程已启动三年,两办发文犹如一剂补药,然而如果一些根本问题没有解决,可能不会得到应有的效果。
目前有如下几点我感到有话要说:

1、定位清楚

这四个字说起来容易,争论起来没完没了。项目的目标和定位必须成为这个项目上上下下耳熟能详的东西,必须作为一切决策、运营、执行和服务中的原则和准绳。

据我了解,中央领导已经给共享工程明确定位:为三种人服务:1)农民;2)未成年人;3) 弱势群体。并将该工程定位于传播先进文化的公益性事业。这就对资源建设和最终的服务提出了明确的要求,资源建设从内容到形式都必须是这三种人所喜闻乐见 的,服务方式也必须强调对这三种人免费。而免费就会有人不高兴,或不乐意,工程的实施就常常会背离初衷,会走样,因而工程要想办法协调好与各种利益集团之 间的关系。

2、目标明确

项 目的目标涉及到工程的可持续发展问题。工程到底是个什么东东?项目总有个结束,结束之后成为什么?网站?网络运营商?资源提供商?服务平台提供商?还是兼 而有之。共享工程的网络是个全国范围的局域网(合适吗?仅仅为了规避资源的法律问题?没有其他办法?)?还是什么?我的想法,应该是个数字图书馆,是我们 文化领域的公共数字图书馆或者数字公共图书馆。谁说数字图书馆不能是一个网站?现在什么服务不是通过一个互联网门户进去的?况且共享工程还必须依托大量的 各级图书馆,特别是基层图书馆进行各种服务,最有特色的就是数字参考服务,网站倒是忽略或者无法进行大量人工服务的。共享工程与我国的公共图书馆事业有一 个非常良好的互动、互相促进的关系。谁说数字图书馆不能收藏剧团、影视等多媒体资源呢?只是碍于现有体制,没有收藏罢了。从图书馆的社会职能和定位来看, 不收藏反而是不应该的。而且对照国内国外,高等教育系统的CADLIS,科技系统的CSDL,以及美国的NSDL和DLF等全国性的联盟,我们的公共图书馆的数字图书馆一直没有一个体系,共享工程正是一个机遇。

3、规划得当

这主要是一个”技术”层面的事情,但是必须要认真对待,有时各个层面的规划计划要占到项目实施的一半时间。其中该有两个原则:1)足够公开、开放,吸取各方意见,特别要专家主事;2) 严格按程序办事,不能在执行过程中随意走样。如果要更改也要经过一定的管理程序,形成新的补充文档。这可能是项目管理层面的事情,有时严格按照项目管理学 科所规定的条条框框去做,似乎显得繁琐,然而却是很有必要的。可能我们文化部的项目没有这种习惯,为什么不能聘请一个有高级资格认证的PM呢?可能不一定适应我们的文化,但是事情总有个开始,以我的迂腐之见,总比没有好吧?

4、组织有力

” 政治路线确定之后,干部就是决定的因素。”对于共享工程,项目组织最重要的在于明确各方的关系,目前还有不少模糊的地方,涉及到信息资源的权利明确、管理 上的责任义务,等等。例如工程管理中心和国家中心之间的关系(包括资源使用的关系,到底属于无偿租用,还是永久占用?这其中就涉及到不同资源的服务边界问 题);国家中心和各省市自治区中心之间的关系;基层服务点与图书馆的关系(大量的基层服务点并不是图书馆网点,要图书馆去管理,必然有问题);基层服务点 与主管部门关系(工商、税务、公安等不认)等等。这个问题也涉及可持续发展,应该尽可能清晰地明确下来。

5、利益驱动

各参与方都是有自己的利益的,项目需要保障各方利益,才能获得自己最大的利益。这里面有两个问题需要把握:1)明确自己的利益,不要变来变去,而且上下一定要统一。如果”自己人”在一个项目中有不同的利益就麻烦了;2)与各参与方的利益关系要以明确的形式固定下来,例如合同、协议等等,以免口说无凭,后患无穷。

6、有限目标

同时不可太急功近利。英国UKOLN在最近发布的一篇”最佳实践指南”(http://www.ukoln.ac.uk/interop-focus/gpg/)中说项目的目标应该符合SMART原则,即:

# 专指度Specific: expressed singularly目标的表达具有单一性(相比较我们的许多项目目标的表达非常的”综合”"艺术”,可以各种解释,莫测高深)。
# 可度量Measurable: ideally in quantitative terms
# 可接受Acceptable: to stakeholders被所有相关利益人(领导、参与方、用户等)接受
# 现实性Realistic: in terms of achievement(目标可以被达到,而不是虚拟的、长远的)
# 时间确定Time-bound: a timeframe is stated(必需在一个时间段内完成)
技 术要讲求性价比,对于共享工程关键是两头:资源建设和最终服务,这两个方面必须下力气,资源建设要考虑长期保存、一物多用;最终服务不一定要采取最先进的 网络全自动方法,辅之以许多人工的群众运动也很好,只要效果达到,群众喜欢,得到实惠。对于网络体系架构技术发展很快,价格变化大,应以利用其他网络提供 商提供的服务为主,(例如有线电视,与之合作,租用他的频道,将来租用他的数字频道,用他的机顶盒)。很多东西都是我们不可控的,就外包出去。

- 作者: kevenlw 2005年03月11日, 星期五 10:58

回复

- 评论人:lily Thu May 26 15:52:43 CST 2005

单 位实施工享工程也有一年的时间了。我现在收到的走进农村信息是开通的时候装的其它信息停在2004.12.21,只有视频的东西能够正常接收,但有一个问 题就是无法保存下来。我们是一个县的公共图书馆,本来想在这方面走出一条服务于农的路子来,但太难了。当然有自身的原因,但共享工程资源本身也存在很多的 缺陷,起码搜索引擎方面就没办法。想来实施了的朋友都有同感。

- 评论人:keven Mon Mar 14 08:26:38 CST 2005

谢 谢!我也同意您的观点。但是目前大多数图书馆搞的数字化,我认为基本上是一种浪费,不具有系统独立性(例如完全依附于某些软件,资源不能重用,长期保存更 是奢谈,而且硬件设备三五年内就废了),如果再不能贴近用户,积极服务发挥作用,将更是一钱不值。我们在图书馆事业上的投入/产出比远远逊于国外,这一点 与其他“国有”行业的投资一样,又是一种大干快上的恶果。结果只能是多了些年终报奖的材料,以及肥了某些公司和个人。

- 评论人:罗布泊 Fri Mar 11 12:21:44 CST 2005

我极同意您的这个观点!结果虽然会如此,但是概念的“炒做”毕竟是能够从大财政口袋里掏出钱来“捷径”。不少中西部地区的公共大馆因此补上了多年“数字化”欠帐。这也是一件大好事吧?

评论(3)

解释定义6

定义6:对于一类资源R,其属性元素Pr 的数量是有限的,Pr的集合可以表达为形式化的元数据应用纲要(Application Profile)APr

具体的数字图书馆应用系统所要揭示的资源种类及每种资源的属性总是有限的,因此元数据方案的属性元素数量是有限的,对其进行较为严格的形式化规定也是可能的。目前元数据的研究最活跃的就是不同领域对于元数据属性元素集合规范的研究和制订,推出了大量的元数据标准规范方案,然而对于这些方案在形式上的约定还没有很多成果,DCMI提出的元数据应用纲要(Application Profile)是目前的一种较为成熟的形式,《都柏林核心元数据应用纲要使用指南》[1]已经被欧洲采纳为CEN CWA14855标准,并且这个标准已经被DCMI之外的领域所采用,例如IEEE/LOM、DOI、MARC/MODS等。但这个标准还只是一个初步的、主要供人阅读和使用的规范,正式的、支持机器处理的、严格精确的应用纲要尚未编制完成。

本文所提出的语义架构实际上也是对应用纲要的进一步限定和扩展,如果把一应用纲要为基础的元数据方案看成是一种简单的本体的话,完全可以采用形式化的人工语言例如OWL进行编码,这是实现元数据方案自动或半自动转换、映射服务的基础,在此基础上数字图书馆基于本体的语义架构以及基于Web服务的服务合成才能建立并发挥作用。

留言

解释定义5

定义5:对于资源库C中的每一类资源R,如果存在属性Pr∈V,有属性值Mr∈T,或存在映射函数F: Mr→T,就称为M是资源R基于本体O的元数据。

任何一套元数据方案都对数字图书馆应用中的一种或多种实体进行了属性元素的定义,如果在形式上进行一定的约束和规定,构成一套相互关联的属性元素及相互关系的规则集,并使其能够具有一定的一致性和完整性,这已经形成了一个初步的本体。

这是一个对“基于本体的元数据”最低程度的定义,即只要符合下列规定,即可称为该数字图书馆的元数据基于某个为其制订的本体(该本体主要由一整套经过规定的元数据方案构成):

  • 所有的数据元素(即属性)均为这个本体中的关系V集合的成员;
  • 所有属性词均为这个本体中术语T集合的成员;
  • 某些元素的属性值取自于规范词表,这些规范词表也是术语T集合中的成员;
  • 或者某些元素的属性值与规范词表存在一定的关系,例如规范词表约束了属性的表达方式(例如符合RFC8601表达的日期形式)。

如果所有属性元素P都取自V,所有元数据值或某些属性的所有元数据值(如主题词、分类号等)都取自规范词表(∈T),就属于规范程度比较高、比较严格地基于本体的元数据应用(数字图书馆)。进一步地,如果整个数字图书馆的应用模型和概念体系架构(包括数据类型、势或其它约束)能够以OWL/OWL-S或其它本体语言进行描述,则可以称之为严格的基于本体的数字图书馆。

留言

解释定义4

定义4:本体O为由术语T,关系V,实例I,函数F和公理A构成的五元组O(T,V,I,F,A)。

本体有很多定义,人工智能领域把本体作为一种知识建模的工具,定义为领域知识的“显式的概念化说明”[1],并认为完整的领域知识应该包括5个方面的要素组成:

  1. 类T(这里称为“术语”,似乎不太严格,对于数字图书馆中可以称为术语,更一般地应该称为“类Class”,由类名表示,是类名的集合):除了包括表达事物的一般意义上的概念,用来表达关系、功能、任务、行为、策略、推理过程等等的概念也在这个集合中。即凡是领域知识中用到的表达为术语的概念,都属此列。例如“题名”虽然表示一种属性,属于资源之间的关系(或谓词,即五元组中的V),即某个资源的“名称”是一个字串或另一资源,但这个术语(同时是个类名)是属于“类”的。
  2. 关系V:表示类之间的关联,是个抽象的集合,具体的概念术语表示形式入类。例如用、代、属、分、参的关系,或面向对象分析中的13类“标准”的关系(一时没有查到出处,如有谁知道,多谢告知),或者任何元数据方案中的元素都是表示资源之间的关系的。可以用V1×V2×…× Vn来表示术语T 1,T2,。。。,Tn之间的n元关系。雨师说这个最重要,真是说对了!数字图书馆中所需要揭示的所有关系,包括资源库之间的关系(表现为本体之间的关系——这里面好像有嵌套关系:本体包含本体)、资源之间的关系(表现为元数据方案之间的关系)、以及属性之间的关系(表现为元素之间的关系)都需要进行规范。语义架构实际上就是对这三个层次关系的规范。
  3. 实例I:即数字图书馆中的所有资源,都是实例。每个资源至少用一种元数据方案的一种元素进行过描述。当然作为工具本体的常常把实例分开存储,不包含在内,这样本体就是对于领域知识的一种抽象,领域知识本身是个数据库或者知识库。
  4. 函数F:是一种特殊的关系,即通过其它关系可以唯一地获得的关系。例如第k个关系可以由前面k-1个关系通过函数F获得,就可以记为:F:V1×V2×…× Vk-1→Vk
  5. 公理A:表示领域内的永真式,可以用来说明函数之间或关系之间存在的关联和约束。

函数和公理也并不是所有的数字图书馆本体都需要,较为严格的体系化的领域知识,例如涉及一致性、整体性维护和机器推理的一些知识库,常常需要这些描述,而且功能的实现还有赖于系统开发和专用工具的支持。大多数数字图书馆只要应用了基于类和关系描述的本体,就能够实现基本的语义功能了。因此也有将本体定义为三元组:O(T,V,L),其中T为所有论域中的概念的集合,V为建立在T上的关系的集合,L为对所有V的约束的集合。



[1]T. R. Gruber Ontolingua: A Translation Approach to Portable Ontoloty Specifications. Knowledge Acquisition, 1993, 5(2):199-220

留言

解释定义3

定义3:元数据元素P为资源R的内容(语义)属性,对于每一个r∈R,有P:Mr→r。Mr 为资源r的属性P的元数据(值),且Mr∈R。

元数据是关于资源的某一方面的属性,人们对于某一类事物(实体)的认识往往通过比较它们的相同属性而获得,因而常常同一类事物从某个角度去看可以归纳出一套属性集合,不同的角度可以有不同的属性集合,这就是元数据属性集,可以分别构成元数据方案。例如人的生物学属性可以包括身高、体重、肤色等等,而社会属性可以包括职业、单位、家庭等情况。

具体事物的属性可以通过赋值而使其有意义。在数字图书馆中,实体的属性值可以是具有一定数据类型的数据,根据数字图书馆的结构模型,也可以是具有id(在互联网中通常是URI)的另一个实体,即另一个“资源”。这个资源同样是数字图书馆中的内容(是不是属于该资源库,或者该“数字图书馆”,取决于该数字图书馆的开放性,即id的管理与调度的范围是否能够延伸到更大范围的网络中),即Mr∈R。

这样,资源、资源的属性与资源的属性值就构成了一个语义说明的模型:一个典型的RDF三元组结构:

资源—(属性)—→属性值,例如: 数字图书馆语义互操作—(作者)—→Keven

逻辑表达式P:Mr→r说明资源r的属性P的值是Mr。P用作谓词,→表示“蕴含”。也就是说,对于属性P,Mr 就代表了资源r。如果检索值为Mr 的命中结果,肯定包含r。

这里有一个定义困难,即什么是“内容(语义)属性”?元数据可以为了任何用途,描述信息资源的任何属性,甚至描述信息资源利用过程中的功能性、辅助性属性,不仅仅是资源内容的“语义”,例如数据格式。这些属性在某些情况下确实是用户所需要知道的。所以在这里我们并不明确区分哪些是语义属性,哪些不是,而将这个问题留给具体的数字图书馆建设时进行指定。哪些对于用户有意义的,或者要直接呈现给用户的属性,都属于“语义属性”,都是我们提出的数字图书馆语义架构中的内容。

元数据的“值”照理说不是“语义架构”所能够关注的问题。试想,一个数字图书馆中的海量资源,每个资源具有大量的属性元素,每个属性元素所具有的值几乎是不可预测的。

然而这一块正是现在的Web、语义Web和所有Internet上的应用所最缺少的,也是我们图书情报科学最早提出的、最拿手的,即“规范控制”。网络信息缺乏可信度,关键在于没有实现有效的规范控制机制,没有基本的规范控制手段,传统的图书情报规范控制方法也肯定不能适应现在的网络应用需求,必须把合理的思想,与先进的网络技术结合起来。

  • 思想一:取值来自于封闭的规范词表,例如分类词、主题词等,词表由另一套机制进行维护。
  • 思想二:取值来自于开放的权威档,例如人名、地名,权威机构赋值,开放使用。
  • 思想三:自由赋值,建立到权威档/规范体系(scheme)的关系,例如相关关系,同义关系,包含关系、从属关系等等,当然首先系统要支持这些“关系”的定义和描述。建立关系的过程和方式可以多种多样,先组后控、自动人工都可以。实际上现在的Tag就是这种思想,只是还没有完整实现和全面实施。

属性(元数据元素)和属性值的规范控制是本文提出的数字图书馆语义架构要实现的重要内容。

评论(2)

解释定义2

定义2:每个数字图书馆是一个论域(discourse)D,由资源库C1 C2。。。Cn(Collection)组成,资源库Ci是资源Ri(resource)的集合Ci(Ri) 。

独立异构的资源站点之间的互操作是数字图书馆所要解决的重要问题。数字图书馆不单是具有一定内容主题、功能和服务的数字化资源的集合(论域),或者说“是在有效管理下的数字对象(内容)以及对这些数字对象进行存储、发现、检索、保存等一系列服务(操作)的集合”(见高文《数字图书馆——原理与技术实现》p.111),更是对网络中不同资源库提供统一检索、统一用户视图的资源门户。

独立异构的资源站点(资源库)分别有自身的业务模型和数据模型,提供能够满足各自需求的多种服务。它们对用户的服务接口,包括元数据属性、检索功能以及服务协议等,可能都各不相同。根据目前的技术,数字图书馆要在它们之上建立一层统一的用户视图,提供统一的服务工具,必须根据数字图书馆的服务要求进行分别的处理。目前常用的做法有:

CORBA、COM/DCOM 开发统一的对象访问层
HTTP/HTML网页 内容元数据抽取
基于Web的数据库应用 Mediator/Wrapper及其它中间件
搜索引擎 全文抓取
分类/聚合服务 RSS及微格式
元搜索 搜索协议
OAI 元数据收割OAI-PMH
OpenURL 链接服务器Z39.88
Web服务 UDDI/WSDL注册/发现

(此表待完善)

统一的服务必然在资源内容、揭示方式和服务方式等各方面牺牲特殊性,只是满足粗粒度的、大范围的信息浏览、定位和查找,可能无法满足许多个性化的需求。例如对于地理信息、生物信息、数学公式等特殊学科领域方面的内容,还是需要专业信息系统提供。

本研究的目的正式满足一般的、宏观层面的信息系统的互操作,把互操作的重点集中到信息资源内容的语义上来。因此并不想提出一个新的互操作协议,或者更完善的信息内容揭示方法,而是综合现有的各种可能用于互操作的协议,以及使现有的各种内容描述、揭示方法更加一般化、模型化,满足信息系统之间高层语义交互的需求。

留言