存档语义技术

有关知识本体的三本书

雨师很早就推荐了几本书,单位里有三本,请花生壳帮忙借了来,在这里特别鸣谢,并做一个简介。

Title: Ontological engineering : with examples from the areas of Knowledge management, e-commerce and the Semantic Web (本体工程:知识管理、电子商务与语义万维网应用实例)

Author: Asunción Gómez-Pérez, Mariano Fernández-López, and Oscar Corcho.

Publisher: London ; New York : Springer, c2004.

ISBN: 1852335513 (alk. paper)(上图索书号: TP182/G633)

Summary: The book presents the major issues of Ontological Engineering and describes the most outstanding ontologies that are currently available. It covers the practical aspects of selecting and applying methodologies, languages and tools for building ontologies. Ontological Engineering will be of great value to students and Researchers, and to developers who want to integrate ontologies in their information systems.

评述:本书主要介绍了建立和应用本体的工具与方法。由于成书较早(2004年),而近两年在这个领域一些实用的东西发展和定型很快,因此本书可以作为全面了解本体方法背景和基础知识的一本读物,对于理论研究和方法学探讨都有相当的参考价值。推荐指数:****

Title: Towards the semantic web : Ontology-driven Knowledge Management (走向语义万维网:本体引导的知识管理)

Author: edited by John Davies, Dieter Fensel, and Frank van Harmelen.

Publisher: Chichester, England ; Hoboken, NJ : J. Wiley, c2003.

ISBN: 0470848677(上图索书号:TP18/T737)

Summary: Towards the Semantic Web focuses on the application of Semantic Web technology and ontologies in particular to electronically available information to improve the quality of knowledge management in large and distributed organizations. Covering the key technologies for the next generation of the WWW, this book is a mixture of theory, tools and applications in an important area of WWW research.” “Aimed primarily at researchers and developers in the area of WWW-based
knowledge management and information retrieval. It will also be a useful reference for students in computer science at the postgraduate level, academic and industrial researchers in the field, business managers who are aiming to increase the corporations’ information infrastructure and industrial personnel who are tracking WWW technology developments in order to understand the business implications.

评述:本书专注于语义万维网本体应用,各章分别由多人写作,集中了众多专家的智慧。在内容上与上一本书有许多重叠的地方,但是由于成书更早(2003年),其中提到的许多项目已经结项,一些工具已经有了新的发展或替代品,但是作为了解万维网语义化发展历程,以及探究如何将互联网转型为一个巨大的知识库,本书不失为一本很好的参考读物。推荐指数:***

Title: Information modelling and knowledge bases XVI (信息建模与知识库)

Author: edited by Yasushi Kiyoki … [et al.].

Publisher: : IOS Press, Amsterdam 2005.

ISBN: 1586034979 (hd.bd.) (上图索书号:TP18-532/I436/XVI)

评述:本书是一本收录人工智能最新进展的论文集,涉及面非常广泛,大多属于基础性研究和探索,但计算机科学本身是应用性学科,许多研究都有可能成为某一领域的突破,因此值得关注。另外本书的许多内容对于计算机专业的硕博士论文写作是非常好的参考。推荐指数:***

留言

DC与RDA联姻?

最近一条新闻 使久无声息的元数据界一下子炸开了锅:DC与RDA联姻了?!(相关资料 )
大家都知道,RDA是Resource Description and Access的缩写,是一个听起来很现代,却背负了AACR2的千吨重担,要把一个古老的行业带入未来的行业标准。
而DC常常以前者的对立面出现。它的产生似乎就是为了取代前者(虽然从来没这样讲),它从头到脚尽可能地与前者明显不同甚至截然相反。
两个对立的东西走到一起,让人感到又是那么的自然,甚至“相见恨晚”。DC诞生之初的辉煌似乎已难觅踪影,RDA正在为草案受到业内业外全面猛烈的抨击而黯然神伤。这下可以抱团取暖了。
然而摆在面前的问题还很多。众多的议论,这里这里这里 ,还有这里 ,也有欢呼雀跃者,但似乎看好的并不很多。
严重关注中….

Powered by ScribeFire.

评论(2)

也谈如何让MARC安乐死

耄耋少年陈老师在博客中谈及”如何使MARC安乐死“,图情散记在前些日子也论述了”后MARC时代图书馆信息服务的设想“,都提出了一些很好的想法,我这里也想提一点自己的看法,求教于大家。

1、想以一种新的MARC取代旧的MARC是不现实和不足取的,也是不可能的*;
2、在分布式异构环境(说白了即因特网环境)下,多种元数据方式并存是必然的和必需的;
3、元数据方案的标准化并非必需,除非需要与外界进行数据交换或共享(即互操作);
4、MARC只有在所有系统都支持,但又不依赖时才能死的安乐,死得其所;
5、使多种元数据方式在同一系统中并存的解决方案有很多,建立描述对象的属性关系模型是最基本和最可靠的,这个模型实际上是作为一种本体提供服务;
6、元数据方案的标准化不仅仅是属性元素集的标准化,也包括语法和结构的标准化,但更重要的是描述模型的标准化;
7、标准化并非是刚性的、绝对的,可以有不同级别和层次;
8、DC元数据早已不是仅仅包含一套描述元素(更不是15个)的方案,而是一套规范体系,其“应用纲要(Application)”和“抽象模型”的意义远大于元数据核心集合;
9、未来的MARC将是一套元数据描述从语义到语法结构到模型及著录规范和算法的完整体系,这套体系是固化在网络应用的人机界面中,无需用户和任何非专业人士掌握和直接面对的。

*当然,作为一种“图书馆书目”领域应用而言,目前可以作为MARC的替代有很多, 例如MARCXML,MODS等,这些标准可以作为很好的过渡,难以创造MARC昔日的辉煌。将来的ILS系统采用哪一种标准作为替代,目前还看不出来,可能要等RDA来下结论吧,也可能永远没有结论,维持一段战国纷争的时代。眼下最关键的问题,还是解决多标准互融的框架结构和模型的一致性和规范化问题。这个问题有共识了,领域标准让大家自己制定,在应用中形成,多几个都无所谓。

Powered by ScribeFire.

评论(1)

Mashup和Meshup

照我看来,RSS从1.0到2.0,是一个不可饶恕的、极大的倒退。当然这两个东西不是一个东西,完全是不同团体(是不是利益团体不知道)开发的用于同一目的的不同标准。采用混淆视听的手法,满足于一时的简单,而贻患无穷。

Kingsley Idehen在最近的一个帖子里解释了Mashup与Meshup的不同:

Mashups - 粗暴地联结不同来源的数据(Brute force joining of disparate Web Data。我的理解:不考虑被联结方的Meaning。因为没有任何属性描述,也无从查考)
Meshups - 自然地联结不同来源的数据(Natural joining of disparate Web Data )

也就是说,前者是革命婚姻,后者是自由恋爱;前者也可能碰到好人,而后者才是和谐社会的基础。

根源就在于RSS2.0的数据只比HTML多了一个数型结构的描述,链接关系的描述并不是基于语义的(不支持RDF),数据类型不具有自说明性,因而不同应用的数据进行集成(互操作)就存在很大的不确定性,没有人工的参与很难判别数据是否一致,从原理上使得数据集成的自动化成为不可能。

目前有不少2.0开放应用已经事实上支持Meshup了。即:一部分采用了RDF进行数据描述的应用,在进行Mashup时,实际上是在进行Meshup(Meshup子集于Mashup)。例如Googlebase以及Yahoo的一些应用,它们也输出RSS2.0,但却是规范的、支持RDF的RSS2.0,因为他们内部数据是支持RDF的。

Kinsley说:

I can achieve this in minutes without writing a single line of code. I
can do it because of the Data Model prowess of RDF (self-describing
instance-data), the data interchange and transformation power of XML
and XSLT respectively, the inherent power of XML based Web Services
(REST or SOAP), and of course, having a Hybrid Server product like Virtuoso at my disposal that delivers a cross platform solution for exploiting all of these standards coherently.

他还举了两个例子:

  1. Googlebase Query URL as an RDF Data Source
  2. Perform a simple Data Mesh by adding (via link copy and paste) this Upcoming.org Query Services URL for Ajax Events to the RDF Browsers list of Data Sources (paste into the Data Source URI input field).

介绍这些对我们数字图书馆建设有什么意义呢?实际上意义特别重大。与这些襁褓中的语义技术相比,目前的资源整合技术,包括跨库检索、开放链接、门户整合、单点登录等等所采用的具体做法,从总体上而言都是权宜之计,说句不好听的:都是要被淘汰的。对于RDF数据的支持将最终使互联网发生天翻地覆的变化。

语义Web现在非正式地给自己贴了个标签叫Web3.0,也就是Data Web (作为语义Web的第一层:数据层,往上还有描述层、推理层等),虽然有些滑稽与无奈,至少说明语义Web运动走出书斋和实验室,开始注重参与具体应用了。这也是2.0带来的混乱之后的醒悟吧。现在仍有许多人不相信语义Web的理想能够实现,但是我始终认为语义Web,也就是Data Web,与数字图书馆的理想是一致的,但愿Web2.0的发展能够顺利,并且尽快地过渡到3.0。

Powered by ScribeFire.

评论(1)

安装了unApi插件的post是这样地

下图是安装了unApi之后的Wordpress博客截图。

看来支持MARCXML, MODS, OAI-DC, RSS, SRW-DC等几种元数据格式,可以由机器识别和读取。这里是添加了Greasemonkey的js代码之后才显示在网页上的。

unApi插件在这里下载(需要用代理,感谢编目精灵帮我下载):http://www.lackoftalent.org/michael/blog/unapi-wordpress-plug-in/

Greasemonkey的unApi显示代码在这里下载安装:http://hublog.hubmed.org/archives/001380.html

unapi4wordpresskeven上传于Yupoo.

评论(1)

思考:资源按时空呈现

在思考上海年华图片库的呈现方式时曾经考察过一些新技术,希望探索一些开放的(2.0的)解决方案。

大量的信息资源(例如图片库)都需要标注地理信息,关于地理信息的管理一直是数字图书馆技术的热点,随着Google earth、Yahoo map等应用的成熟该技术已经走向开放、标准和实用(例如Flickr已经开始支持地理位置标注,以及图片按照地图呈现)。当然距离最重要的需求:“简单”,似乎尚有距离。
“简单”的含义是,只要标注有一定的地理/空间信息,系统就能自动提供多种呈现方式。另一方面,对于地理信息的标注或者获取,也需要有系统(平台)或工具(如通过相应微格式的havesting)的支持,并且足够简单。

据说MySQL4.1以后有一个Spetial Extension,能够在关系数据库里管理地理信息。了解了一下,大致有以下功能:

1、数据类型扩展。支持GIS数据,例如用POINT表示二维信息(dc:point; dc:box; etc.);
2、特殊操作。例如可以支持封闭图形的面积计算;
3、GIS数据的输入输出;
4、对GIS数据进行索引,以便快速查找、排序等。

不知道MySQL的这个扩展是如何实现这些功能的。只是觉得依靠关系数据库恐怕会有点问题,特别是对于目前大多数网络应用都希望以XML方式管理数据的情况下,局限性就不多说了,不必要的输入输出转换会带来效率、兼容性、互操作方面的很多问题。

目前语义Web领域对信息以时间和空间方式的呈现和管理有许多项目在做,例如SIMILESWAD-Europe 等,前者已经开发出一个很好的开放的Timeline表示方法。将来对于空间/时间信息也希望以RDF标注并能采用SPARQL查询。

有趣的是这些语义技术往往在Blog或Wiki获得最先应用:通过PHP插件或扩展的形式。可能因为这个领域最为活跃,有一批TechSavvy吧。当然这些应用可以“试错”也是一个重要原因,永远的beta版,错了也没什么关系,改了就是。

所以我们的博客、Wiki应用如果在创建内容的时候能够支持标准格式,将给搜索引擎或其他应用揭示、共享带来很大的准确性和便利性。例如我们在描述自己的时候利用博客工具提供的表格输入,就能够建立hcard或foaf数据,我们在增加链接时添加了链接者与本人的关系描述,就增加了XFN格式的社会关系描述(wordpress有这个功能)等等。目前许多个人知识管理/共享系统(例如Piggybank)就是通过内容的格式化标注和发现,建立知识库的。

参考例子:

geobloggers.com
mapufacture.com
Google Earth

用中文点亮地球


评论(2)

机器翻译可用乎?

机器翻译虽然研究了几十年了,看来还是不可用。

最近一个朋友需要推荐翻译软件,本人也一直需要快速介绍国外最新动向的博客方法,就试了几个,应该说国内软件目前在方便性和可用性方面有了很大提高,词库也多多,但还是有不少初级错误,我说的初级错误是指完全可以避免的,例如doesn’t翻译不出来,或者早在10多年以前中英翻译已经解决的问题,例如带有基本”智能”的汉字切分,等等。

自然语言的机器理解按照现在就事论事的思想走下去,越搞越复杂,恐怕像人工智能一样,死路一条。从实用的角度看,利用借助互联网上大量人工标注的语料,结合相关反馈,应该是一个方向,特别是语义技术的应用越来越普及之后,实际上有越来越多的”人工自然语言”(指经过RDF/OWL规范的语料),尤其是在某些学科领域能够再借助规范此表、分类表的控制,机器翻译(在某些Domain)应该完全能够达到实时可用。

不过以前的翻译基本上还不如自己对照原文重新做,现在估计还是可以节省一点时间了,这已经是个进步了。

我的想法是:机器翻译-在线修改-Performancing/Zoundry上传,不知道是否能做到博文生产的”产业化”。赫赫。

留言

与“一段语义Web视频介绍同一来源,一段新的视频,介绍语义Web与社会性软件(The Semantic Web & Social Software)。

同样来自Ina O’Murchu(采访的画外音) - John Breslin(本片主人公,来自DERI) 。

留言

一段语义Web视频介绍

此次在厦大与本家海伟同学谈起语义Web,我一直在鼓动我们这个学科要关注语义信息组织,在这个领域参与,并贡献我们的专业知识,近来语义Web的日子不太好过,尽管实际上已经产生了很大影响,并且有了众多的中间成果和应用,但是还是缺乏理解,缺乏普及,缺乏杀手应用。Web2.0兴起之后支持SW的人也产生了分化,SW的精英们甚至要为SW思想的发明权和控制权而战。

正好今天看到Danny Ayers的博客上贴了一个介绍SW的视频,普及性的,只有7分钟,感兴趣的可以看看。今后我会介绍更多的这方面的内容。 (今天blogspot又能访问了,如果不能访问,可试着点击这里)。

评论(2)