存档搜索引擎

百度作恶,是因为对手太弱

百度近日对管理层做了一些调整

这个调整来的真不是时候,让人不由得与前些日子的“百度裁员事件”和“女员工被害事件”以及“天极天空的双天事件”联系起来遐想。可是不管外界对百度施以什么样的眼光,百度该咋地还咋地,该荣膺的荣膺该调价的调价,似乎外界的声音对他一点影响都没有。

反过来我们再来看看百度目前的市场占有率情况,似乎与他的负面成着正比。当然,百度在搜索市场的增长,与天极的“碰瓷”是有着本质上的区别的,天极在一片口水之中冒然回升,那也只是一种回光返照的迹象,这段风声下去,下降是必然的。而百度,无论媒体和业界给他的正面还是负面,上升已经成为了他的资本,如果没有某种第三方的手段给于其一致命或突发打击,百度的上升趋势还会继续下去。

究其原因,是因为他的对手太弱了。

假若张朝阳的两年内赶超百度的话一不小心成真了,百度不会如此放肆,不会如此的肆无忌惮的不顾客户的感受(链接1联名抗议,链接2调价);

假若马云的“雅虎就是搜索、搜索就是雅虎”的壮志豪情真能把在地铁上铺天盖地的广告画面变成网民的疯狂的点击访问,百度也许会稍作收敛;

或者,中搜成器一些也好,中搜曾经有那么郝的机会(在各大门户上搜索引擎都由Powered by Zhongsou的标识),可惜最终只是个扶不起的阿斗而已。

Google呢?在农村种地的农民需要加长林肯么?

试想,在门户阵营中,没有了疯狂扩张的搜狐,没有了网聚力量的网易,没有了无处不擦边的TOM,没有了后起之秀的QQ,新浪会是怎样?

期待百度不作恶,不如期待他的对手们尽快成长起来。

评论(4)

Sogou也玩儿Rank

今天在Sogou上查my.donews.com/blogbug的外部链接,意外的发现Sogou也推出了自己的Rank值查询服务。如下:

Sogou Rank

该服务未列入搜狗的服务列表,在搜狗的网站上也找不到直接入口。后据sohu内部人士介绍,Sogou Rank搜狗搜索引擎新开发的一个新服务,目前并未直接对外公开发布,不过用户仍然可以通过查询外部链接的方式来获取相关站点的Rank值。

相对于Google Rank,Sogou Rank具有以下特点:

  1. 级别细分。不再局限于1-10之间,Sogou Rank将数值分散为1-100,更容易对比每个站点的分值;
  2. Sogou Rank只在中文网站之间做出对比,这对于中文网站来说,数据会更精确;

因为目前Sogou Rank还是未公开服务,除了不能在Sogou网站直接进入查询外,直通车用户(即安装了工具条的用户)也无法在工具条上直接看到相关网站的Rank值。

如果你也想体验一下Sogou rank,请在搜狗输入框输入:link:网址 即可,如下:

搜狗Rank查询

评论(8)

3721.COM,好域名,烂网站

雅虎也许应该继续冷冻3721.COM域名,”卷土重来”的如果只仅仅是一个网址站,那么不来也罢。

不可否认,3721背靠着几百万的客户群,但这些客户当中以企业居多。且3721发展这些客户所依赖的业务是网络实名,3721的客户之所以选择网络实名,目的是为了让网民更方便的访问他的网站,而不是他去访问别人的网站。那么网址站对他的企业网站来说,基本上没有什么利润上的帮助。

就算3721想以他简单易记的域名来抢占低端网民的上网浏览市场,以现有推出的这个网站,也不足以和265.com相抗衡。

好域名只是一根稻草。go.com远比google.com看起来更为出色。3721背倚雅虎(中国)强大的资源,是可以做出很多好玩儿的东西出来的。

只可惜,我们看到的只是一个网址站。

评论(3)

百度空间下的博客是Blog吗?

百度空间有三个大版块:博客、相册和好友圈。

公开可见的为博客和相册。

但是在百度空间发文章,竟然没有以下功能:

1、Trackback,这样我引用的别人的文章,别人无法知道;

2、Pingback,如果有人引用我的文章,我也无从知晓;

3、Alternate,firefox、IE7都无法感知rss,无法主动通知用户订阅;同时在feedburnerfeedsky,将不得不输入feed的全地址来进行烧制。同样的,也不得不在bloglines,gougou,zhuaxia等类流行Feed订阅器中输入feed的全地址才能订阅。

但愿这只是在百度空间开发上的一个疏忽。反之,这对他们来说,可是个不折不扣的笑话。并且还是大笑话。

同步发布到非得死http://hi.baidu.com/feeds/blog/item/f5dc9e516d790f2443a75b7b.html

Technorati : , , ,

评论(11)

无情的BaiduSpider——BaiduSpider来兮(袭)!

百度来了!来的迅猛而急促,致使Feedsky服务器突然变慢。

查看日志才知,既然是Spider,但为什么不携带”ETag”和”If Modify Since”一起来?

孟岩在近日思考四则里指责Feedsky没有携带”ETag”和”If Modify Since”,Feedsky已经改正,那么百度什么时候会改正?

61.135.146.199 - - [27/Apr/2006:15:04:09 +0000] “GET /anyp/2743278 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:17 +0000] “GET /anyp/466874408 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
218.0.42.220 - - [27/Apr/2006:15:04:23 +0000] “GET /anyp/hnwzhw HTTP/1.1″ 200 6286 “http://image.baidu.com/i?ct=503316480&z=540318950&tn=baiduimagedetail&word=\xc3\xf7\xd0\xc7\xd7\xdf\xb9\xe2&in=43” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)”
61.135.146.199 - - [27/Apr/2006:15:04:34 +0000] “GET /anyp/2732717 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:40 +0000] “GET /anyp/2497693 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:45 +0000] “GET /anyp/2769746 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:46 +0000] “GET /anyp/2766496 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:52 +0000] “GET /anyp/lsh303 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:58 +0000] “GET /anyp/2613258 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:59 +0000] “GET /anyp/candy-lucy HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:12 +0000] “GET /anyp/2757986 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:12 +0000] “GET /anyp/2722097 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:13 +0000] “GET /anyp/yumunaodai HTTP/1.1″ 200 7155 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:53 +0000] “GET /anyp/2744951 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:59 +0000] “GET /anyp/2725557 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:06:13 +0000] “GET /anyp/2772936 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”

评论(7)

使用My.DoNews有问题?都冲我来吧!

刘韧说我是超级用户,其实我不是!

我只是陆陆续续的帮My.DoNews上的好友们解决了一些微小的问题。比如nina的api key的问题,比如qiucool的字体问题,等等,这些问题本来微不足道,但Bloger在使用My.DoNews时却经常碰到,由此可见My.DoNews的文档是处于一个什么样的水平和级别。

前面,我多次提到对My.DoNews维护小组的不满,但没有什么成效,或者,他们都有其他的重于My.DoNews的任务在开发。

当然,除了从My.DoNews维护小组处得到帮助外,My.DoNews本身就是一个交流平台,由此,哈啰波波宣布,以后各位Bloger在使用My.DoNews时有什么问题,尽管找我,能帮之处尽量帮大家解决。或者,有可以探讨的,大家一起探讨解决。

所以,从哈啰波波宣布这一刻起,哈啰波波就成为正宗的DoNews义工一名———而这, 不管炳叔他承认不承认!

插入iframe测试:

Update 0429:

问:

杨波,你好!
想请教你一个问题,为什么我在donews上的blog没有trackback的url呢?看到你的blog上面是有这一项的。

my.donews.com/frankso

答:

这是不同的模板决定的
你选择的那个模板没有

不过这跟Trackback功能没有任何影响,即使不显示,也可以接收Trackback请求

问: 

问一下,在flickr中有一个blog this.但是不支持my.donews.com

keso的就可以.可以教教我怎么弄吗?

keso的是:my.donews.com/keso

答:

在 “What kind of weblog do you have?” 中选择Wordpress就OK了

评论(135)

Joan Miro,他是谁?

Google今日的Logo

Joan miro

看到这个Logo的时候,我以为今天是毕加索的XXXX日,结果不是。

Joan Miro,百度的结果

米罗:西班牙超现实主义画家。他早年接触过许多前卫艺术家,如凡高、马蒂斯、毕加索、卢梭等人的作品,也尝试过野兽派、立体派、达达派的表现手法。逐步形成了完全属于自己的艺术风格。

米罗的艺术代表了超现实主义的另一种风格,即有机的超现实主义。与达利的艺术不同,米罗的作品是令人愉快的。其画面洋溢着自由天真的气息。

米罗的艺术是自由而抒情的。他的画中往往没有什么明确具体的形,而只有一些线条、一些形的胚胎、一些类似于儿童涂鸦期的偶得形状。颜色非常简单,红、黄、绿、蓝、黑、白,在画面上被平涂成一个个的色块。看起来,这些画自由、轻快、无拘无束。但是,如果你认为它们是漫不经心,一蹴而就的,那你就错了。它们其实是艺术家自由幻想和深思熟虑相结合的结果。正如米罗自己所述,“当我画时,画在我的笔下会开始自述,或者暗示自己,在我工作时,形式变成了一个女人或一只鸟儿的符号……第一个阶段是自由的,潜意识的。”但是,“第二阶段则是小心盘算。”因此,尽管米罗的画天真单纯,仿佛出自儿童之手,但它们绝没有儿童画的稚拙感,它们是缜密思考后的流畅活泼。

米罗不仅是位画家,也是舞台美术设计者,他曾与恩斯特一起为迪亚吉列夫的《罗密欧与朱丽叶》设计布景和服装,也为马西纳的芭蕾舞《孩子游戏》作舞美设计。他还创作版画、雕塑和陶器。1982年,他为巴塞罗那世界杯足球赛设计的吉祥物小橘人,至今令人难忘。

评论(6)

那些在挣扎着的创业公司,百度是最好的学习榜样

梁冬的《相信中国——寻找·百度》整本书都在写李彦宏。 当然,因为百度。

我想我没资格评论这本书,说他的好或者他的坏。对百度公司的历史,我了解不够深入;对李彦宏的知晓,也只限于网上的流言。但我很感谢这本书,让我更深入的了解到了百度的成长及相关花絮。当然,书中没有负面的言论,没有说过李彦宏的不是,也没有爆出点所谓“百度作恶”的真相,其中穿插的一些糗事也贴满了金纸(见:十六、百度的首次新闻发布会,砸了!)。

不过,对李彦宏做事风格和处事作风,在新兴创业的公司里,有很多是值得学习和借鉴的地方,这里具两个例子,第一,在他与刘建国建立交往的过程中,不仅诚恳,而且慎重。在Web2.0风潮里,兴趣成为影响群体的最大因素,但是,兴趣相投的人却不一定能够在一起默契的做好事情。所以,那些新兴的公司中,把兴趣作为容纳人为第一因素的需要注意,和你在一起的人是最影响你成功与否的因素。

第二,引用一段话

直到9月份的一天,李彦宏把全公司的员工召集到1420开员工大会,资金已经打到了百度的账号上了,他才 向大家宣布了融资成功的消息,此时,一直引而不发的李彦宏,在平静地宣布了这个消息后,终于露出一点溢于言表的兴奋:”大家可以算算,每个人值多少钱。”

这种沉静显示出当事人何等的气魄。似乎用气魄不能来形容,其本质应该是——不说没有百分百把握的话,不做没有百分百把握的事。而在当前的这种新一轮的互联网创业风潮中,似乎“冒险”才是最时髦的了吧!

所以,那些在互联网创业或者准备创业的公司们,百度就是最好的学习榜样。这个中国最大的技术型互联网公司,所拥有的不仅仅是华尔街神话缔造者的身份!

评论(6)

搜狗,还真不如百度!

前几日去八大处玩,在网上寻找坐车路线。

因为搜狗地图推出较早,所以就优先使用搜狗地图查找。一番操作下来,真是令人失望,没想到这个正式发布的玩意儿连还在测试版的百度地图都不如:

先在搜狗地图选择公交换乘:

这个时候,千万别期望会给你结果,因为接下来的场景会让你摸不着头脑的:

先弹出一个提示窗口:

接下来的结果就更加的令人匪夷所思,因为输入的出发地和目的地给偷梁换柱了:

失望之余,选择百度地图吧,尽管百度首页上还没有相关链接,地址栏输入ditu.baidu.com就是了,然后在搜索框输入从龙泽苑到八大处,搜索结果如下:

这么简单的一个小对比,就体现了二者服务的差异。

当然不排除偶然现象,今天回来又仔细测试了一下,从正常渠道进入搜狗地图进行搜索,结果一样牛头不对马嘴。但是,如果输入http://map.sogou.com/bus,在这个页面输入相关搜索,还是能够得到相关结果的,如从龙泽苑到八大处的路线图为:

评论(3)

假如Gmail没有搜索引擎,那会怎么样?

今天写Blog谈DoNews聚会带不带名片的问题,依稀记得炳叔DoNews论坛里谈论过这个问题,详细内容记不清楚,大体是没人会分享自己的看家本领云云。想引用一下,苦于记不得网址,出处具体是不是在论坛也不能确认,于是借助搜索引擎,先在奇虎为DoNews论坛搜索里搜索,关键词是:炳叔 聚会 donews,数据一大堆,但没有一个是想要的。

然后转向全球最大中文搜索引擎,百度,关键词为:炳叔 聚会 donews site:donews.com,数据更多,但干扰也更多,翻过数页后,没有找到自己想要的内容,放弃之。

这让我十分感叹Gmail的好,在我的Gmail信箱里,有三千多封邮件,但想找任何一篇,都易如反掌。Gmail提供的标签功能不仅实现了自定义的分类,并且Gmail的基于搜索技术的存储方式,让任何形式的读取都变得相当容易。在查找某个邮件的时候,不仅可以根据关键词来查询,发件人、时间段等等都可以协助你在最小的范围内命中目标,记得在跟Tinyfool做交流的时候,他说Gmail最吸引他的地方就是Gmail的这种基于搜索引擎方式的存储与读取,让用户拥有相当好的应用体验。对Gmail来说,用户的体验还算是小的影响,这种快捷方便的UI体验和存储享受改变了用户对电子邮件的原始认可,与搜索引擎的结合使得这种大容量的存储变得简化和高效,用户没有必要像以往一样一页一页去翻看历史邮件或存档邮件等入库数据,直接通过搜索来控制和命中目标。

相反的,如果Gmail没有了这种优化的存储策略,会有那么多的用户支持吗?估计是没有用户原意忍受如蜗牛般的查询速度和查看速度。这也就是国内那么多邮件SP尽管也像Gmail一样提供了上GB的存储单位,但服务却一直不能让人信服的原因了。

就从这点儿看,别说人家Keso崇洋媚外

尽管没有通过搜索引擎找到炳叔的那篇文章(谁恰好浏览到了麻烦你花费一分钟告诉我,谢谢),但我还是十分的依赖搜索引擎,十分的信任搜索引擎,至少,在写KESO值钱还是老徐值钱的时候,通过关键词“keso blog 价值 计算 site:donews.com”,在百度上第一页第一条就找到了想要的结果!

补充说明:

相比起百度,我更是一个Googler,但下意识的会认为百度的索引频率比Google高,在搜索中文的时候也就自不而然的选择了百度,这大约就是百度股价神话的本质原因吧。 :P

评论(3)

制约构建可缓存的动态页面的关键:Last-Modified

车东的文章中有构建可缓存的动态页面的详细设计方案,并且提供了ASP和PHP两种技术下的简明例程,这里就不再赘述。

我使用的是ASPX,实现方式大同小异,只是实现的语言不同而已。不过,看似简单的技巧,在实现上几个问题却需要特别注意,否则将不会达到缓存的目的。先看车东的教程:

  • 页面必须包含Last-Modified: 标记
    一般纯静态页面本身都会有Last-Modified信息,动态页面需要通过函数强制加上,比如在PHP中:
    // always modified now
    header(”Last-Modified: ” . gmdate(”D, d M Y H:i:s”) . ” GMT”);
  • 必须有Expires或Cache-Control: max-age标记设置页面的过期时间:
    对于静态页面,通过apache的mod_expires根据页面的MIME类型设置缓存周期:比如图片缺省是1个月,HTML页面缺省是2天等。
    <IfModule mod_expires.c>
        ExpiresActive on
        ExpiresByType image/gif “access plus 1 month”
        ExpiresByType text/css “now plus 2 day”
        ExpiresDefault “now plus 1 day”
    </IfModule>
    对于动态页面,则可以直接通过写入HTTP返回的头信息,比如对于新闻首页index.php可以是20分钟,而对于具体的一条新闻页面可能是1天后过期。比如:在php中加入了1个月后过期:
    // Expires one month later
    header(”Expires: ” .gmdate (”D, d M Y H:i:s”, time() + 3600 * 24 * 30). ” GMT”);

按照这个规则,C#的写法是:

// 取文件的最后修改时间
DateTime dtLastModified = File.GetLastWriteTimeUtc(file);
// 一定要用 “ddd, dd MMM yyyy HH’:'mm’:’ss ‘GMT’ ” 格式,否则会出错
string lm = dtLastModified.ToString(”ddd, dd MMM yyyy HH’:'mm’:’ss ‘GMT’ “);
context.Response.AppendHeader(”Last-Modified”,lm);
context.Response.AppendHeader(”Expires“, DateTime.Now.AddHours(1).ToUniversalTime().ToString(”ddd, dd MMM yyyy HH’:'mm’:’ss ‘GMT’ “));

以上的注释段说明至关重要,如果输出的时间格式没有遵循这个标准,就会返回“无效的’Last-modified’文件头 — 忽略时间戳标记”类似的错误,而不能正确的返回304状态码,而达不到缓存的目的。

另外,Expires也是十分关键的一个字段。Expires指示了在浏览器上缓存的页过期时间,Expires与Last-Modified配合完成页面的缓存。

评论(1)

配合搜索引擎将页面静态化

对于一般的海量型搜索引擎,大多由机器人在一定时间内循环抓取内容源,这势必会造成重复访问部分页面。其重复的频度一般由搜索引擎自己决定,但大多是根据网页的优先级来考虑。如果被访的网站本身不是很热门,其对应的页面调度时间周期也就相应会延长,在短时间内被搜索引擎访问的几率也就相对较低。然而对于时事性要求比较高的搜索引擎,比如垂直型搜索引擎,一般具有固定的内容源地址,其抓取的频度就依赖于源网页的更新频度。这个时候,如果源网页输出没有做到尽可能的输出优化,就会给自己的网站带来不必要的压力负担。

车东分析了FeedBunner的抓取日志,FeedBurner的更新频度: 30分钟同步一次,可以看出,在搜索引擎高频率的请求中,搜索引擎并没有请求真正的实体,而是在成功的发送了GET请求后,优先得到服务器的返回代码,根据返回代码来判断实体文件是否有更新,如果有更新则获取真正的实体内容。

在服务器返回的代码中,如果目标未更新则返回 304 “Not Modified”

304是对应文件自If-Modified-Since域所指定的日期以来就没有更新过,服务器应当回应此状态码,而不是将实体主体发送给客户端。回应标题域中只应包括一些相关信息,比如缓存管理器、与实体最近更新(entity’s Last-Modified)日期无关的修改。相关标题域的例子有:日期、服务器、过期时间。每当304回应中给出的域值发生变化,缓存都应当对缓存的实体进行更新。

304一般是根据实体(目标页面)的最后更新时间来确定,对于动态页面,Last Modified 一般会取系统当前时间值,服务器不会返回304。如果搜索引擎抓取的目标是动态页面,则每次都会请求实体,将会对系统带来额外的压力。

为了配合搜索引擎,将页面静态化,是个不错的策略。

评论(1)