中午在donews上看到一篇很可笑的文章,连基本的搜索语法都不懂的人竟然声称自己研究了三年搜索引擎,还煞有介事地拿数据进行了一番分析,分析的结果可想而知。无知者无畏,这样的文章多去了。
晚上看新浪科技,才发现这篇文章竟然被新浪转载,仔细一看,是转载作者在新浪博客的,文章末尾还将作者的博客做了链接。
当初还以为自己错了,冒犯了高人,于是仔细研究了下这篇文章。边看边做比较,当初的可笑呈几何级增长,真难想象这位眼镜蛇的眼镜后面都有什么。
1. 拿“搜索 %D0%A1%CB%B5”当做关键字去搜索,得到了“1,463,786”个结果
搜索引擎的抓取,是顺着互联网上天然存在的链接去抓取的。找到的那些搜索结果页,一定是在其他地方有指向该搜索结果的链接。没有搜索引擎蠢到像作者猜测的那样,为了增加收录量,换着关键字去其他网站抓取,因为这是徒劳。无效的结果在各家搜索引擎都会存在,比如:
百度:

google:

随着数据量的增大,无效结果也容易增多,这个是很简单的道理,google也避免不了。
2. 作弊网站
百度对于作弊网站同样也照抓不误:
1.

2.

3.

4.

5.

6.

7.

8.

9.

搜索引擎对于作弊网站都会采取坚决封杀的态度,只是发现作弊网站的算法不同,所以封禁的网站不尽相同。这个作者说的“百度针对做弊网站的作法是封杀,然而SOGOU几乎不封的,只是降权”,完全主观,站不住脚。
3. 用com进行搜索
作者实在是连基本的搜索语法都不会用。找.com的网页数量,语法绝对不是“com”,而应该是“site:com”。
这个才是搜狗收录的.com域名下的网页数量,4,658,439,587 个网页:

baidu收录了52,200,000个.com的网页:

google收录了6,650,000,000个.com的网页:

而其中中文的部分就更是只有21,700,000张。
搜狗收录网页的数量接近百度的10倍?当然不是。眼镜蛇那种搜索方法,是因为没有哪一家搜索引擎会对所有的URL域建索引,于是结果数量自然偏少。
4. 最后一段,眼镜蛇口口声声说关注搜索质量,可是前面举例的那个com,根本不是正常人的搜索需求。
如果想研究搜索质量,就应该拿一些用户真正会需要的查询,在几家搜索引擎实际搜一下,比较一下数据量,体会一下数据量大所带来的实际好处。
用户对于搜索结果不满意,很大程度上不是排序效果不好,而是搜索引擎没有收录用户认为有用的网页导致。提升数据量,是所有中文搜索引擎都要做的事情。搜索大词的时候,可能说用户不在乎有多少结果,只要第一屏都相关就行了;可是当搜索小词的时候,有结果和结果多一些,给用户的感受就是完全不一样的了。收录100亿网页,是一个技术活,能做到很不容易,至少搜狗第一家做到了。
本来,这位眼镜蛇朋友的勤奋和执着还是值得赞赏的,搜狗的新宣传刚刚开始,他能在这么短的时间内进行研究,不容易,虽然方法有问题。
可是,号称自己是第一门户的新浪,这玩笑就开大了,这样的文章,只要是攻击竞争对手,就转上去,小家子气。
仔细地想了想,也搜了一些新浪和搜狐的文章,发现这一年来,新浪科技没有报过搜狐的正面消息,负面倒是非常多,有的甚至是把帖子、博客当成了新闻报了,还有从根本就没听说过的网站那转来的,不知道,这个网站和新浪是否有转载协议。
新浪科技,是网民的科技,还是新浪的喉舌,这个问题现在应该很清楚,是新浪的喉舌。前段时间闹的沸沸扬扬的百度邮件事件,也是新浪科技的编辑要求百度降低搜狐的权值,提高新浪的权值。百度同搜狗有竞争,新浪同搜狐有竞争;百度不做内容,新浪搜索夭折——这么结合,正好对手只有一个搜狐,有这种局面,真不容易。
转载眼睛蛇的这篇文章,表面看是新浪科技的水平太差,实际是新浪的心胸太窄。这样的网站,前途就此打住吧。
Leave a Reply
|
一月 4th, 2009 at 10:42 am
This comment is automaticlly submitted by WpSender2.1 Soft.
$10 per copy. My email is 12515842@qq.com。