9月1日Google Blogoscoped报道Google新发布的一个小游戏Google Image Labeler(该游戏的详细玩法见此)。许多相关新闻评论都提到Google Image Labeler基于一个名为The ESP Game开发的。ESP Game是由卡内基梅隆大学计算机科学系的教授助理Luis von Ahn设计的,该游戏至今在网上已流传了3年。Ahn今年7月26日在Google做了一次名为Human Computation的技术演讲。看了他演讲的大致内容,总感觉似曾相识。搜索一下,果然是前些月看到一篇关于演讲的帖子——欢迎来到矩阵世界,从该文中得知Google买下ESP产生的巨大数据库。
讲座内容没有多大变化。相比较两次演讲,Ahn对于ESP项目的预期仍是乐观,他声称只要保证每天同时在线游戏玩家有5000人,经过2个月就能标记完所有Google图片。Ahn的信心来自于一些调查的数据。人们花费大量时间在休闲类游戏,例如2003年有90亿小时在玩纸牌游戏(相比较人类用了700万小时建成帝国大厦,2000万小时开凿巴拿马运河),经过3年的运作,ESP游戏已经吸引7万5千名用户,这些玩家总共贡献了超过1500万个标签,许多人每周至少玩20小时。但事实是这样的数据量对于图片检索来说,仅仅是个小样本。另外,最近我登录ESP Game网站,发现在线人数仅有100来人,与Ahn所说的5000人相去甚远,可以说依照这种方式恐怕很难完成任务。
我认为Ahn演讲的精彩之处在于,他坚持计算机与人类之间的关系是互依共存的,因为人脑是极为先进的处理器,能够解决计算机不能解决的问题,他将所有人类智慧视比作先进的广泛的分布式计算机集群。人类能够解决一些问题,同时计算机处理其他问题,两者互补才能共同创造更美好的世界。
Ahn将他设计的四个游戏ESP/ peekaboom/ verbosity/phetch分为2类。后三者是属于不对称性验证游戏,也就是说给予配对的2个玩家信息是不同的,假设给玩家A得到的输入信息(Input),玩家B所得是输出信息(Output),玩家B就需根据仅有的信息推断出玩家A的输入信息。比如peekaboom,玩家A知道所见图片及关联的标签,玩家B就根据不断显现出的画面片段判断该标签。经过用户的猜测推断,输入、输出信息间的联系就得到了验证。相反,ESP是属于对称性验证游戏,玩家AB得到相同的输入信息并判断可能的输出信息,当两者判断相同时即得分,但是这类游戏仅局限于少量的输出信息。
类似Google Image Labeler和ESP的还有Guess-the-Google、fastr等,这些游戏真正目的在于通过让用户为图片贴上标签、利用人类智能来提高图片搜索结果的准确度。游戏玩家需要在规定时间内和同玩者默契地对尽可能多图片使用的标签达成一致或者根据对方给出的信息找到图片。在游戏过程中,搜索引擎就可以对同一图片收集所有玩家输入的标签,并根据重复次数给予不同的权值,其中两个玩家都使用的标签重要性最大。
图片搜索对于搜索引擎而言一向是个技术难点。因为机器无法有效识别图像,目前有些技术可以使计算机辨认出颜色、形状、物体、人脸等等,但是面对海量的表达内容丰富的图片,程序仅仅是通过像素的数值得出简单结论或者依靠工具和模型分析判断,这些都是及其有限的,机器尚不能从像素间的差异归纳出各种讯息,图片搜索至今仍是愚笨被动的。Ahn举的例子很有说服力,计算机很难识别出某人比如说Martha Stewart,除此之外,她还是位女性、名人、罪犯,虽然拥有强大的计算存储能力,但是很难保证辨认相片上的所有信息。所以ESP这样的游戏将人类拥有但计算机却不曾掌握的图片识别能力挖掘出来帮助提高图片搜索的准确性。
实际上Ahn的几个项目和Google Image Labeler所指的标签意义上等同于现在应用的tag。Flickr的用户们常常会为自己拍摄的照片打上十几个tag,全面地表达照片内容。其实相比较ESP等游戏,Flickr已经事先为每张图片做好详实的索引或者说对于同一个标签有不同的角度来表现,而不用等到用户玩游戏的时候再开始数据库的数据积累。当然游戏的趣味性可以让用户更积极更投入地发挥自身的作用,发现partner和自己对标记图片的标签能够达成一致意见,那也的确是中乐趣。