三月 28, 2006

Human Factors公司做的一项调查

关于调查的出发点,网站上说到,就像其他关系一样,用户先前的经验感受无论好坏都会影响到以后访问你网站的期望预期。正如人际关系,如果你想好好运作未来能够顺畅,那么就需要知道一些他们的过去。

用户对网站的预期其实很大程度上反映了他们上许多其他网站的后得到的模式/pattern。这里的模式是指,比如他们认为那里可以发现他们所需比如导航、回主页、搜索。同时用户也知道如何去控制或者避免他们不需要的比如广告。

这项调查就准备研究用户对网页上内容的预期。Shaihk和Lenz对出现在网站主页的关键元素的用户预期做调查/users’ expectations,结果发现用户非常清楚他们想要什么,这些内容在哪里以及一些他们要避免的内容和链接。

这次做的调查选取的网页元素和2001年做研究一样。他们特别关注以下5点:

  • 返回主页
  • 网站搜索框
  • 内部链接
  • 关于我们
  • 广告

他们找了142个大学生在一张5×5格的纸上在他们在网页上预期内容出现的方位贴上标签。他们发现原来调查者的预期没有怎么改变。

比如:
网站搜索


从图中可以看到用户通常是在右上角或者左边在logo下寻找。

我觉得广告比较有意思。2001年时发现用户知道网页顶部是付费广告。一旦他们发现这一点用户就会忽略这块内容。后来广告发布到网页右部,用户也也发现了。


最后调查说,尽管网民越来越多、网络技术的不断进化,用户对在网页上哪里寻找自己所需内容却变化不大。在用户不经常使用的链接方面,他们注意力就分散了比如“关于我们”。用户能明确预期到自己所注意的内容和链接。他们会关注自己所需要的内容包括搜索框、内部链接、返回主页,也会避免他们不需要的内容比如广告。

不同层次不同地区的用户对网页预期是不同的。了解用户知道他们的不同需求以此来指导网页设计。比如,你知道用户常常会去网页的左部寻找网站的内部链接,那么你这样设计。如果你的网页设计符合用户的预期,他们就会将注意力集中在内容上而不是费力气弄清楚你的网页设计。

三月 27, 2006

原文地址:Chinese Impressions 作者:Jason Pontin, Technology Review

我刚从上海回来。我临走时,说过我心存三个疑问并希望能够在访问中国期间得到解答。这三个问题分别是:在当今中国知识财产是不是真正受到尊重?西方能够理解等审查/同等评审/peer review和自由的学术论辩,那么在中国这些存在吗?中国能否在21世纪成为创新技术和科学发现的支配源地呢?

这些问题显然非常复杂,它们具有争议性,即使是有理性良知的人对问题的解答也有分歧。我知道自己看待问题的浅薄。但基于对上海的大学、公司和出版社的访问,我初步的回答是,没有、没有、还没有。

1、知识财产。中国目前并没有激励尊重知识产权。中国有借口继续公然藐视知识产权。这种传统观念当然是错误的。因此,在中国仍然意识薄弱的知识产权正在世界贸易组织的压力下变得越来越重要。

为什么会这样呢?中国其实拥有的自己所创造的知识财产并不多。与此同时,作为发展中国家,中国想成为世界经济的主导者。因此无论药物、软件、教育或者传媒领域,在侵权盗版问题上,中国中央政府和中国公司都表现得极为理性。的确,自由文化的支持者Larry Lessig甚至会说中国从道德上来讲都需要忽视国际的知识产权。

这样的认识似乎在中国根深蒂固。这会使这样一个古老多样化的国家带来些风险。但是,这里有个中国文化观念,周三 International Herald Tribune说到知识产权的弱势时,中国现在的情况是45年毛泽东思想影响的结果。

中国先前将创新当作公共财产。他们有句谚语,大意是一人作出发明,至少有百人能从中获益。(注:原文的引用)

当然这样的情况总有一天会改变。当中国拥有很多知识财产时,中央政府会以经济激励来实施知识产权保护。而现在,唯一受到保护的知识产权是由中央政府当权者所有或者是政府股份占很大比重的公司。

2、科学。我有种强烈的感受,中国科学家特别是生命科学领域,不收集、分析实验性数据,这和他们的西方同事一样。同行评审并没有被所有人接受,即使在实行的地方其管理实施方式也不规范。另外,自由的学术交流也没有受到重视。初级研究员并没有受到鼓励挑战实验室和部门的头头。

同样这也会改变。一些年轻的中国科学家现在美国就学或者有些已经在美国是初级研究员准备回国,当他们回到中国,他们也会带去西方标准的数据收集和同行评审。

值得注意的是年轻的中国科学家在美国工作表现极为出色。今天Technology Review的一位编辑完成了一张TR35列表,我们很吃惊,竟然有这么多出生在中国大陆。

3、中国的未来。直到现在第一第二点已经讲完了。中国不会成为科学技术的主导者,至少在经济学家所说的“正式市场”。
我将这作区分是因为中国可能会在技术和数字信息方面主导“非正式市场”,也就是说那些盗版和安全漏洞习以为常的黑市或者不规范市场。换句话说,像过去一样中国会以他自己的方式做事。

我想感谢那些在中国慷慨招待我、以典型的中国式的善意指出我可笑的无知。恕我不能说出他们的名字。他们作出了最大努力。如果这篇文章有错误判断和观点那么都是我自己的。我真诚地道歉如果任何我的东道主认为我的文字侮辱贬低了他们。但是我所写的代表了我诚实友好的印象。最后谢谢Technology Review的中国读者的介绍。

我期盼能尽快再次去中国。希望下次是北京,这次我没有时间去。希望下次的访问能够使我改观。

三月 24, 2006

为期3天的第21届CIL会议开始了。2000多图情专家汇聚一堂探讨应用于图书馆的最新技术、设备、软件和服务,想必热闹非凡。今天打开Bloglines,看到许多LIS Blogger都谈到了CIL2006。小小地吃惊了一把,随即乐开了,我阅读着详细的第一手会议报道就好像自己置身于会议现场,并且是那么得真切

CIL2006共有3个主题演讲分别安排在每天上午9点至9点45分。另本次会议有超过百位演讲者同时在4个分会场进行。这三天的报告无疑是密集的,信息量也是巨大的。今天看了第一天的报道,内容实在丰富,还没等我看完,第二天的会议资料又开始出来了。所以还是先贴些会议背景信息吧。

  • 地点:华盛顿特区希尔顿酒店
  • 时间:2006年3月22日至24日
  • 与会人数:2386人,比去年增长约15%,其中发言人和各会场主席共150人
  • 参展商:60家

三月 22, 2006

博客引爆的流行让企业逐渐认识到,原来这也是一种营销和公关的渠道,通过博客企业可以更快更广范围地获取客户的注意力。接下来的问题是,实施这一做法后的效果该如何评估。

今年2月中旬,英国Onalytica公司写了一份名为Who are the Most Influential Authorities on “Business Blogging”?报告。(via sayonly)重要部分摘抄如下:

1)报告一开始Onalytica就指出我们所认为Technorati对Blog的排名是按影响力/influence来的,但事实并非如此。Technorati根据指向博客的链接数量对博客进行排序。所以确切来讲,Technorati 依据的是流行程度/受欢迎程度/popularity做评估而非影响力;

2)宣称Onalytica从不强调使用权威性/authority这个指标,而是更关注影响力。同时不得不承认,权威性、影响力和相关性在这里的含义确实极为接近;

3)指出无法用流行程度来体现博客的影响力,相比较,博客反向链接的相关性更能体现博客的价值和影响力。该报告的作者Flemming Madsen对此举例说明。Madsen 在Technorati中搜索“禽流感”时,Google News排在了首位,Engadget也曾两次出现在首页搜索结果。从Technorati的排名机制来看,不难理解,这是因为Google News和Engadget拥有更多的反向链接。可事实是,无论Google News和Engadget都不是禽流感方面的权威。

4)那么影响力、权威、相关性之间有何联系,又应该怎样去评估博客?

前提是,Onalytica认为当信息资源被引用时,行为主体是因为觉得该信息是与其文章/网站/博客是有相关性并较其他信息更令人信服(不考虑行为主体的知识局限、信息不对称所造成的错误判断)。

首先,定义一个检索标准,也就是简单地制定一些规则。

其次,根据事先设定的标准,开始收集含有“business blogging”或“business blog”短语的信息包括网页、博客、pdf文件、各种文档等,发现其中的引用URL或者文本链接。(注:比如短语“The White House”与超文本链接www.whitehouse.gov在本研究报告中是一样。)

然后,提取这些引用链接,并经过一些人工干预,将这些链接转移到根据Leontief的理论得出的算法。

最后,根据算法得出相对的影响力排名,排名结果见Issue Influence Index。

5)Issue Influence Index是一个相对的、线性的判断影响力方法。指数1表示影响力不大,但还是有些影响力。随着指数的增大,影响力也随之扩大。指数为4的机构影响力是指数为2机构的2倍。

6)第4点中所说的Leontief,全名Wassily Leontief。其研究方向名为投入产出分析(Input/output analysis),致力于判别不同的经济领域是如何相互影响。Leontief利用数学矩阵解决了复杂的经济问题,并解决了一直以来难题“circular influence”(循环影响?)。鉴于其重大贡献,Leontief获得73年的诺贝尔经济学奖。

下表就是该研究成果,展示了在“business blogging”这个话题上最有影响力的25个机构/博客/媒体。

刚好,前天收藏了一个测试博客影响力的网站BlogInfluence (via PostShow)。

网站按照公式[(blog+posts+web links) + (Bloglines subs * 2)] * 1+(Google Pagerank/10)得出博客影响力数值。其中blog/博客反向链接数和posts/博文数量的数据来自于Technorati,web links的数据来自Yahoo。

关于这个网站我有太多疑问,站长Gorka Julio博客上有相关介绍,应该有些解答,可惜是西班牙文无法看懂。当然像这样的测试也只是做着玩玩,也就无所谓。

不过,我发现对互联网各种新媒体的影响力评估讨论得越来越多。前面报告中对商业博客话题影响力的排名研究,后面这个网站对博客影响力的研究。另外还有口碑营销该如何量化其效果其影响力,博客营销的商业价值该如何计算等等。我始终认为,我们可以通过各种算法公式对这些看似抽象的概念进行量化有效地评估其效果和影响。问题就是该如何去分析计算。目前的尝试探索,我想都是对解决问题有启发有帮助的。

三月 21, 2006

Reading 2.0会议上周在旧金山召开。虽说是为期两天,但其实主要演讲是集中在3月16日。与会者来头都不小,K师在其网摘中也曾提到。

Reading 2.0会议是由加州数字图书馆的Peter Brantley组织。Brantley在博客中引用了Thomas Jefferson的一段话

Were it left to me to decide whether we should have a government without newspapers or newspapers without a government, I should not hesitate a moment to prefer the latter. But I should mean that every man should receive those papers and be capable of reading them.
- Thomas Jefferson

这段文字中“newspaper without a government”和最后一句“every man should receive those papers and be capable of reading them”,可以窥探出读者/用户的信息透明和信息自由获取应该是为这次会议举办的主题,也是需要解决问题所在。

会议安排和会后上传的演讲PPT来看,议题都是现在热门的话题。首先引起我关注的是Lorcan Dempsey的演讲内容。Dempsey通过展示OCLC的FictionFinder项目,简单地介绍了FRBR。

Dempsey提问,到底什么‘book’?这里打引号的book,应该是泛指书籍。Dempsey后面说到,book是有层次的并存在于不同的层级中,FRBR就是划分层级的模型。经典的FRBR图例清晰地展示着各实体的层次及其之间的关联。

  • 作品/Work是不同的知识和艺术作品,如Huck Finn;
  • 作品的实现也就是知识艺术作品的实现就到了另一层次表达方式/Expressions,如Huck Finn的未删节法语有声读物、英文版、评论版;
  • 表现形式/Manifestation是作品的表达方式/的具体实现,如:1954年企鹅出版社的版本;
  • Item是表现形式的具体实例,如:我现在手上的这本书。

从上面的分析,可以看出,只有Item是实实在在的实体书籍,其他都是虚拟划分的概念层次。

OCLC的研究人员依照FRBR模型来设计算法,聚合相关著作。FictionFinderTop 1000 works就是两个FRBR的具体应用项目。

Dempsey介绍的FictionFinder研究项目不仅可以让读者查找到不同表现形式/Manifestation的图书,同时可以利用元数据进行搜索、筛选、排序。

经过数据库的改善和Bug更正,目前展现在我们面前的FictionFinder已经是比较成熟了。比较Dempsey演讲采用的截图,我们所能明显感受到的不同是,其上下网页框架变为左右。

FictionFinder项目的作用在于根据FRBR模型,重新组织书目数据库以反映信息资源的概念结构,更好地组织、展示书目数据。对于用户来说,FictionFinder原型系统能更全面地检索浏览到书目记录。

OCLC在应用研究FRBR时采用的书目数据都是来自于WorldCat。Dempsey演讲中引用了一些研究数据,值得参考。

在WordlCat中按FRBR层次划分,作品有4740多万条书目记录(其中印刷版的书目记录有2850万条),5990万条表现形式层次的记录(其中印刷版的3530万条);就作品来说,有1种表现形式的为所有作品总数的87%,这部分书目数据在WorldCat书目数据库占到总量的43%;12%的作品拥有2-5种表现形式,占整个数据库40%;大于5种表现形式的占1%,占总数的17%。平均下来,单元作品/Work的表现形式为1.3种,也就是说大部分的作品只有一种表现形式。

相应地,印刷版作品在WorldCat的数据如下图:

在PPT最后,Dempsey列举了其他FRBR应用实例,并提供丰富的FRBR理论研究和应用项目。绝对是了解研究FRBR的丰盛大餐。

1、注:

Work:作品

Expression:表达方式

Manifestation:表现形式

2、相关阅读:

关于Reading 2.0会议:

会议日程安排

与会组织

与会者

Tim O’Reilly的会议报道

Reading 2.0会议演讲PPT下载

3、近期FRBR博文:

书目记录的功能需求(FRBR)简述(注:后面的评论好!)

回答关于FRBR的一个提问