存档十二月, 2006

年度汉字:断

Bloglines总算好了,好的还算比较彻底。游园应该可以恢复工作了。
MSN朋友们都能上去,而我却还不行。不过我还有gtalk。可惜中国电信似乎只有一家,Keso在那里提醒大家:对于只有一个电信的中国,世界依然是不可能平的。
4.11让我们警醒,算人祸,12.26谁都没有责任,只是天灾而已吗?
断网并不要命,断头就是大事了,其中折射出的思考,恐怕在历史上都可以记一笔。
所以,我的年度汉字:断。

powered by performancing firefox

评论(5)

“数字图书馆”专业应该学什么?

思考:如果有“数字图书馆”专业,应该学些什么?

  • 数字图书馆概论/原理?(教材:《数字图书馆概论》或其它,参考课件:数字图书馆)
  • 知识组织(参考资料:Sowa的知识表示)与元数据和本体(参考课件:知识组织与元数据
  • 内容管理(结合OSS?)
  • OSS:Greenstone/Dspace/Fedora/Eprint etc.
  • 数字图书馆评价、用户研究
  • 信息构建?(包括信息检索信息组织、信息系统可用性、可视化等相关内容)
  • 传统的ILS与Web2.0相关技术(Open API、Mashup tech).等
  • 信息资源的长期保存
  • 知识产权与文化环境(数字阅读etc.)
  • 其它数字图书馆相关技术以及一般的数据库技术、软件工程、人工智能等等
    • Web技术
    • OOA/OOD
    • SemanticWeb(RDF/OWL)
    • 网格/语义网格(参考资料:网格计算
    • WebServices/SOA
    • HCI
    • Jena
    • RoR
    • LAMP(XAMPP))

        欢迎添加。

    评论(12)

    转贴:关于Tag Clouds的实现

    一直想系统地提出一个完整的实现tagging的需求,并考虑在某些平台上实现tag clouds的通用方法。正好邂逅一篇东东,留存在这里。感谢作者。

    转贴:EndTech @ micy.cn » Tag Clouds相关笔记

    Tag Clouds的属性一般有四种

    * 字号 一般与数目有关

    * 排列 字典顺序、随机

    * 颜色 固定渐进色、是否加背景等

    * 字体 一般为固定

    Tag Clouds通常是看起来无规律的,不是网格排列,这样看起来才cloudy,会更吸引人。

    Tag Clouds不仅是一组看起来有趣的图象,更是一种组织用户贡献信息的导航方式。

    Tag Clouds表达的数目多少是通过相对大小来展现的,用于当人们不需要知道每个tag具体表示精确数字是多少时。所以它更多的是给人一种全局的展示感觉,而不是用于查阅细节,这符合它作为导航的定位。

    在一个由用户贡献内容的站点中(比如flickr),你不可预见将来某天它的主要内容是什么,不能固定的告诉搜索引擎你站点的description。而Tag Clouds恰恰解决了这个问题,它动态地展示了当前你站点上的内容分布情况和热点。

    flickr是第一个将其起名为Tag Clouds并投入使用的站点,来源于Jim Flanagan在自己blog开发的一个perl写的blog插件: Zeitgeist,用来展示来自google和yahoo带来流量的搜索关键词。地址是http://jimfl.tensegrity.net/zeitcode。它使用了随机的颜色和随机的顺序,使得每次看到时,都可能有不同的TAG进入读者的视线。

    flickr团队吸取并改进了Zeitgeist的思想:

    1. 用它来表示社区用户的贡献,而不仅是搜索引擎的term。

    2. 字母顺序代替了随机,增加一种浏览方式。

    3. 随机的色彩可能不如单色,它带来了视觉上的复杂性却没有带来更多的信息。

    4. 让展示的TAG数目相对来说少一些,不会有好几页。

    Design Tips for Building Tag Clouds

    1. 记住它不单用于展现,也用于导航。

    2. 选择合适的语言,比如Perl PHP Python Ruby,他们提供了更好的数组支持(比C/JAVA方便)

    3. 要让它可以被spider看到,所以不要用Flash Javascript等实现。

    4. 使用字母顺序排列可能比随机好,因为有时可能想查看一个特定名称的TAG,好定位。

    5. 避免随机映射(比如随机颜色),它不会带来更多的信息。

    6. 迎合用户兴趣是最重要的,取最近一段时间的数据比取所有时间的好,而且它会时常变化,而不是千篇一律。另外,在搜索结果中也可以有所应用,比如根据term展示相关TAG的Tag Clouds会更有趣。

      

    每个Tag所表示的数量,通常都是符合长尾分布的,即大部分Tag使用的次数都很小,而小部分Tag使用的次数非常的高,是一个log曲线。
      

    于是为了在Tag Clouds展示的时候将字的大小控制为线性的,需要对数量做一下对数处理。于是我照着统计了一下GPL.txt中出现次数最多的100个词,它们的Tag Clouds就是这个样子滴。

    评论(3)

    近年来我国数字图书馆研究成果丰硕

    国防科技工业数字图书馆元数据加工手册数字化图书与数字图书馆应用研究图书馆数字参考咨询服务——信息管理科学博士文库图书馆数字参考咨询服务——信息管理科学博士文库

    评论(6)

    OCLC FictionFinder上线

    fictionfinderkeven上传于Yupoo.

    昨天OCLCFictionfinder上线了,看看首页,够2.0的,又是tag又是beta的,尤其是后台采用frbr重组数据。包括了OCLC WorldCat中280万种小说,Wow…

    这应该是FRBR的首个大型应用。我对frbr一直持一点保留意见:可以研究,但难堪大用,尤其对于CNMARC。编目精灵对OCLC把小说拿出来做一个应用有过精辟的总结:最适合Frbrizing,并认为CNMARC做frbrizing的最大问题是没有进行主标目标识(参见 这里)。是不是可能有其它办法呢?

    看页面下的链接,这个系统除了应用FRBR之外,还集成了FASTAudience Level两个项目的研究成果,虽然在技术上都是很小的进展,但是结合了海量数据,作用就不同了。

    哪家联合编目中心如果能够率先提供多种MARC格式的支持,这可是核心竞争力哦!

    留言

    最重要的10个Web2.0API

    Lunix Linux World前天登了一篇“Ten Web 2.0 APIs you can really use”,收录的Web2.0 API可以作为大专院校电子商务或信息管理专业Web2.0 (Mashup)课程教学参考(如果没有这门课,我倒想去开设,只要有人请我,呵呵),当然,计算机专业就免了,他们是不屑这些的。

    这十大API是:

    1. Google Maps API 入围:Yahoo’s Map APIMicrosoft’s Virtual Earth
    2. Geonames.org
    3. OpenID
    4. Amazon S3
    5. Amazon EC2
    6. Atom API
    7. OpenSearch
    8. Open Media Profile
    9. MediaWiki API
    10. JS-Kit

    一半和数字图书馆有关,另一半听都没听说过(现学现卖?),看来要好好做功课了。

    powered by performancing firefox

    评论(2)

    在线课程:介绍REST

    这是个非常好的Web2.0相关技术——REST(Representational State Transfer)介绍,不过需要少量有关Web Service技术的基础知识。

    REST - The Better Web Services Model - Parleys - The Belgian Java User Group

    就像怀了”语义Web”的种却生出Web2.0的胎,”Web服务”复杂的协议堆栈最终也极可能被抛弃,而成就REST之类的中间协议大行其道。

    powered by performancing firefox

    留言

    机器翻译可用乎?

    机器翻译虽然研究了几十年了,看来还是不可用。

    最近一个朋友需要推荐翻译软件,本人也一直需要快速介绍国外最新动向的博客方法,就试了几个,应该说国内软件目前在方便性和可用性方面有了很大提高,词库也多多,但还是有不少初级错误,我说的初级错误是指完全可以避免的,例如doesn’t翻译不出来,或者早在10多年以前中英翻译已经解决的问题,例如带有基本”智能”的汉字切分,等等。

    自然语言的机器理解按照现在就事论事的思想走下去,越搞越复杂,恐怕像人工智能一样,死路一条。从实用的角度看,利用借助互联网上大量人工标注的语料,结合相关反馈,应该是一个方向,特别是语义技术的应用越来越普及之后,实际上有越来越多的”人工自然语言”(指经过RDF/OWL规范的语料),尤其是在某些学科领域能够再借助规范此表、分类表的控制,机器翻译(在某些Domain)应该完全能够达到实时可用。

    不过以前的翻译基本上还不如自己对照原文重新做,现在估计还是可以节省一点时间了,这已经是个进步了。

    我的想法是:机器翻译-在线修改-Performancing/Zoundry上传,不知道是否能做到博文生产的”产业化”。赫赫。

    留言

    反对Google的期刊数字化计划的理由

    Dorothea Salo在Caveat Lector上撰文Control your bits,陈述了她反对Google期刊数字化计划的理由:

    1. 最重要的:永远不要因数字化而使你失去对资源的掌控(never, ever, EVER agree to a digitization deal that doesn’t leave you in control of a copy of the bits….)
    2. Google的非排他性协议对于数字化是一个骗局,是没有意义的。谁还会拿自己的东西再次数字化?在数字化版本通过世界上最强大的搜索引擎一下子就能查到的情况下?
    3. Google的扫描质量是不可相信的,历史已经证明了这一点…
    4. Google真的会拿你的资源当宝贝、为它开发最先进的系统吗?未必。它只是把资源抢到手、进行数字化而已。
    5. 如果将来想撤回被Google数字化的期刊,门都没有!
    6. Google不可能对图书馆界非常看重的“永久保存”需求做出什么承诺,不信你让Google加入Lockss试试?而且它也不许你拿来加入永久保存系统。

    Dorothea Salo再三强调她并不反对OA(开放存取),只是反对Google这只披着羊皮的狼。

    虽然面对豺狼虎豹很难有生路,但如果连选择给谁果腹的权利都没有,岂不是更悲惨了?这可能是国内许多机构争相与Google签约、并以此为荣的原因吧。相对于国内的众多数字化流氓来说,Google的“不作恶”起码还人道一些。

    评论(2)

    EDLp会议资料

    欧洲数字图书馆项目进展(EDL:European Digital Library Project)上网

    包括:

    可以看看他们的数字图书馆正在做什么。

    留言

    如何形成一个网上社区

    微软搞社区研究Danyel Fisher去OCLC西雅图分部上了一课,介绍了网络社区自然形成的几种类型,例如问答型、交互型、偶像型等等,同时对网络社区的形成要素也作了介绍:

    1、目的。社区为什么而存在;
    2、方法。正在做什么?如何做?
    3、现实:大多数人是不做任何事情的。这就是100:9:1法则;
    4、让用户明白他们正在做什么。演示给他们。
    5、满足游戏心态。提供排行榜让用户更有积极性,如:再发100个帖子就能升为大师…;
    6、核心用户最为关键。你必须花精力去营建核心用户,并且维护好他们;
    7、同时不断有新鲜血液。欢迎他们、引导他们、满足他们;
    8、记住你并不“拥有”社区,记住:人们只是在你的客厅里开Party,你并不是他们的老板;
    9、好事不出门坏事传千里。鸡蛋有缝就不要怪苍蝇来叮,物以类聚,人以群分;
    10、社区就是招牌,信誉重于生命。

    想到我们正在建立的Wiki社区,很有启发,虽然有人说坏话

    评论(10)

    Google进军专利搜索

    以下转哈斯的报道

    Google发布了它的专利搜索引擎(Google Patent Search)测试版,在这里可以查询美国专利信息全文。

    在专利搜索主页介绍,可以看到,目前,Google的数据库中有7百多万条专利数据。查询方法也很简单,可以输入专利主题、专利(申请)号、发明者、申请日期等任意信息进行专利信息查询。如果想得到更精确的结果,可以进入专利高级检索页面限定专利代理人、分类号等条件进行搜索。而检索结果显示页面,则跟Google 图书搜索的界面一样,可以直接浏览全文。

    点击搜索结果某条目,进入该专利的摘要,可以了解该专利的基本信息,还可以继续搜索该专利文本的具体某段话,或者某些名词等,阅读相关的或类似的专利信息等,同时在浏览某条专利信息的时候,调用了在线的阅读器,根据Google firefox toolbar最新功能显示,Google在线阅读器对解析pdf/doc/ppt等文档格式都有很好的支持了,包括对在该条目内再检索,以及关键词漂红等。

    评论(2)

    关于上海图书馆学会年会征文

    很高兴收到金晓明老师的电邮通知,告知“上海图书馆学会2006年学术年会征文评议结果”。因金老师没有开博,本人在这里多嘴,公告一下。未经授权,欢迎指责。

    本人只是一名普通会员,但对近年来上图学会的工作还是有所知晓的,工作开展得有声有色。所以被邀请参加此次年会征文的初评,欣然应允,希望能多了解一些本地同行的情况。

    参加过情报学会的工作,深知征文活动的不易,很难组织,特别对于一个地方性的小学会来说。论文集能不能作为考评成果要看人眼色,各单位规定都不相同,大家平素工作繁忙,年会很难吸引有价值的论文,这些情况对主承办单位来说都是考验。又遇到年底事务繁忙,增加许多工作量,常常吃苦不讨好。

    然而作为学会来说召开年会如果没有学术交流就基本上失去了意义,学会很容易成为可有可无的空谈俱乐部。

    参加完此次评议我的收获还是很大的,了解了本市图书馆界的一些基本情况。此次征文本市各大系统的图书馆都有投稿,特别有许多来自基层公共图书馆的文章。内容涉及当前的许多热门话题,如网络服务、数字图书馆、资源整合、信息共享空间等等,采用调查统计方法的实证研究也有一定比例,获奖论文都具有一定的质量,显示出上海图书馆界的总体学术水平较高。给我印象很深的是华东理工大学图书馆有多篇投稿,以理论来探讨实践问题,具有相当的水平。上海交大的研究选题十分务实,同时注重研究方法,水准自然不用我多嘴,形式上也很规范,很值得学习。

    评议结果金晓明先生在邮件中是这样总结的:

    “…在戴维民院长带领下,于12月10日由政院系的7位博导、教授组成终评专家组,用了整整一天时间对于初评结果进行了认真统计和分析…。总共征文102篇,…其中77篇论文入选年会,…学术创新奖空缺;一等奖 6篇;二等奖8篇;三等奖13篇;新人奖4篇;有6位论文作者被推荐做大会交流发言。”

    留言

    稳健、协作、创新

    构建大一统的信息门户是数字图书馆的梦想,但在网络时代这注定了是乌托邦,于是图书馆2.0的到来使我们降低了目标,从图书馆无所不能转而构建“图书馆无所不在”,希望把图书馆的各种服务和各种内容“嵌入”到读者用户的个人门户/起始页面中,或综合/融合各类服务和内容以贴近读者的需求,而不要求必须把图书馆的所有内容/服务都“集成”到一起。

    目标现实了许多,然而实现起来有难度。首先一个难度就是迷失了方向。究竟什么是图书馆该做的?什么是不该做的?图书馆学并没有告诉我们,或者就像某些人所认为的,纸本资源是图书馆的核心,这些新玩意儿该不该搞都成了疑问。而按照图书馆2.0理论,凡是读者需要的,都是我们应该提供的…于是无所适从了。

    最近一直想把相关技术进行一番梳理,对国外图情教育的“数字图书馆”课程进行了初步的考察,国外的专业教育跟社会需求还是跟得比较紧的,基本上三四年前的实践就能反映在课程设置中,一年前的内容就能反映在教案中。通过这种考察,一是想对照一下国内的专业教育,除了理念、概念性的东西和纯技术的东西,是不是还有一些“转变图书馆学研究方向”的实质性内容?这方面天地实在广阔,但却是我们所忽视的。另一个是想通过影响专业刊物对于技术论文的录用,形成一定的“导向”,引导到一些有意义、有影响,经过一段时间努力能够见到成效的领域中。实际上基金课题等也具有很强的指挥棒的作用,但基金课题设立的背后是不是有“理论指导”,还是过多地受“政治”因素的影响?

    随着图书馆事业的兴旺,国内图书馆界的技术力量也日渐勃兴,然而这些力量散落民间,并没有一种有效的机制使他们能够组织起来,实现一些共同的目标。图书馆是一个天堂般的事业,其天然的公益性应该能够做更多更美好的事情。

    稳健、协作、创新是我单位明年的工作主线,作为“技术酒徒”明年的工作原则,也未尝不可啊,呵呵。

    评论(1)

    图书馆2.0播客

    librarypodcast

    keven上传于Yupoo.

    Sirsi和Talis都有面向图书馆界的Podcasting,相比较而言,Talis的更加2.0一些。

    留言

    为图书情报专业维基写词条

    很对不住李国新和张广钦两位老师,连续两年让我写”中国图书馆年鉴”的有关词条,都没有如约,实在是因为能力不济。年鉴具有百科全书性质,本人无论从学术研究还是事业实践两个方面,都不足以概览天下掌握全局,又没有深入调研、好好学习的机会。

    而参与一本网络版的专业维基百科就不同了。可以不揣浅陋,贡献愚见。每个人在工作和研究中都可以”顺便”上载内容,看到有不满意的词条还可以”商榷”。编者同时是用户,用户也可以愤而成为编辑。学术歧见可以立马刀光剑影唇枪舌剑,无需左一篇右一篇花费数月才在纸媒上打一场笔仗,还弄得满是意气之争,驴唇不对马嘴。当事者心力衰竭,旁观者雾里看花。

    厦大建立的这个维基平台实在是一个很好的尝试。维基比留言簿可能多一点技术门槛(实在只有一点点,增加些排版符号而已,连html代码都算不上),但维基更可能成为一座金矿,而留言簿一不留神,就会变成垃圾场。

    编写百科工具书是我们这个专业的本行,而知识组织、权威控制更是我们这个专业的核心能力。维基百科提供了一种低门槛的、草根大众的应用方式,却创造了超过大英百科的应用效果。我们正可以应用这样一个平台,我们只要付出比编写《图书馆年鉴》少得多的努力,就可以让更多的人长久受益。何乐而不为呢?

    评论(2)

    博客见博客,脸上喜洋洋

    被包租公封为图林五大名编之一、饕餮程度仅次于一思不狗的图苑美食家图有其表同学日前造访沪上,凯文自然不敢怠慢,遍邀申城博主聚首华师左邻,晤谈甚欢,餐毕而不能止,移师茶肆,至深夜方得以返。
    席间无人携带相机,只好以手机留下朦胧倩影。其时laolu尚未到达。另有Leon和空心菜因故缺席(另有两人未摄入镜头)。

    评论(5)

    RDA发布新文档

    下一代英美编目条例AACR2——RDA(资源描述与存取规范),昨天发布了一个新的文档:RDA Scope and Structure,旨在解决和澄清一些基本概念和基础模型问题,为进一步的规则制定扫清障碍。RDA基本上是基于IFLA提出的两个“本体”:FRBR (Functional Requirements for
    Bibliographic Records
    ) 和FRAD (Functional Requirements for Authority
    Data
    ),从计算机角度来看显得有些别扭和复杂,但可能会带来一些规范性方面的好处。对书目或类书目信息来说,“向下兼容”可能是其最大的好处。

    留言

    ALCTS/LoC将召开元数据标准与应用研讨会

    美国图书馆馆藏与技术服务协会ALCTS(Association for Library Collections and Technical Services)与美国国会图书馆将联合举办两次“元数据标准与应用”研讨会,分别于2007年1月4-5日2月6-7日 举行,主要内容包括:

    • 数字图书馆介绍
    • 元数据介绍
    • 内容存储与检索模型
    • 关系模型
    • 元数据标准与应用概述、互操作问题、词表、应用纲要、质量管理、元数据发展跟踪等。

    从内容来看感觉很一般,看来元数据的应用和普及在大洋彼岸也并未深入人心。
    个人感觉主要原因在于:

    • 缺乏能够支持新一代元数据编目的工具;
    • 元数据编目在一般理论和模型方面(类似于ISBD与AACR2与MARC)缺乏研究以及没有取得一致。仅仅是一些语义元数据标准,成不了事。

    感觉这实际上是两次培训,老美的培训真是很贵啊。

    评论(2)