论题的由来
世界杯期间不作文,抄写旧文充数。
上世纪九十年代以来,数字图书馆作为一个综合的研究领域得到了很大发展,在体系结构、海量存储、分布式搜索、多媒体信息管理与利用、个性化传播、人机界面与可视化方面都有了显著进展。然而对于如何保证在分布式的数字图书馆环境中,人们能够更准确而全面地获得其所需要的知识和信息这一方面,并没有太多的研究,遑论突破性的研究。但是我们也同时看到,进入二十一世纪以来在互联网技术方面的进展,以语义Web为核心的本体和元数据技术,能够结合Web服务、分布式构建技术、面向对象技术以及数据库和知识库领域几十年的积累,使这个领域的突破成为现实和可能。
数字图书馆从本质上说是一个没有明确边界的研究领域,关注的是对一个有组织(或称为有序)的信息体的构造,不论这个信息体是分布的还是集中的、虚拟的还是实在的,以满足特定的信息需求,不论这个需求来自真实的用户还是机器代理。数字化和网络化,特别是近20年来互联网的指数级发展给人们带来严重的信息超载(Information Overload),使数字图书馆应运而生。更好地组织信息,满足人们的信息需求,从根本上有赖于机器对信息的处理能力,甚至“理解”能力,而不仅仅满足于对编码信息、符号甚至信号的识别和处理。数字图书馆关注大规模信息体内的语义信息的组织和检索问题,应该说也是理所当然。
“语义”通常是指“信息的含义”。互联网不仅是无数台服务器、信息设备的联合体,更可以看作是一个庞大的信息资源的联合体。从抽象意义上来看,这个联合体实际上是一个巨大的符号系统,由无数的语法、语用和语义规则联结而成。从具体的组成来看,这个联合体是由无数自治的信息体和功能体组成,每个相对独立的信息体就是一个数字图书馆。对于作为信息体的数字图书馆而言,“语义”和基于语义而实现的功能是其存在的目的和价值所在,所有的语法规则(各类协议、结构、约束等)和语用信息都是为了组织和传播语义而存在的。
“互操作性”指不同系统平台或编程语言之间交换和共享数据的能力。互操作解决信息系统之间的“异构”问题。不同的数据库形式和结构、丰富的信息媒体(文本、音频及视频)、以及不断产生的多语种数字内容使异构也呈现出丰富多彩、无穷无尽的形式。信息系统的异构是有层次的,因而互操作也是有层次的。互联网最初的设计,是为了解决机器的互联互通,因而只要在网络和硬件层面达到互操作就可以了。随着各类标准规范的建立,达成网络操作系统、分布式数据库等数据层面的互操作也逐步成为可能。然而人类的需求是无止境的,信息资源的增加和网络规模的扩张积累到一定程度的时候,仅仅数据层面的互操作往往不能尽如人意,直接表达和处理“语义”的需求就提了出来。
互操作是数字图书馆作为网络分布式应用需要解决的一个核心问题,而语义互操作是互操作的目的和重点。这并不是说目前的互操作解决方案中没有考虑语义互操作,而是没有把语义互操作当作独立的目标来考虑。可以设想,定义和设计独立的互操作层,使数字图书馆所包含的信息资源的语义“显性”化,而不是象现在大多数系统一样,隐式地、内含地包含在语法和其它结构中,将大大地促进数字图书馆的语义互操作问题的解决。