无情的BaiduSpider——BaiduSpider来兮(袭)!

百度来了!来的迅猛而急促,致使Feedsky服务器突然变慢。

查看日志才知,既然是Spider,但为什么不携带”ETag”和”If Modify Since”一起来?

孟岩在近日思考四则里指责Feedsky没有携带”ETag”和”If Modify Since”,Feedsky已经改正,那么百度什么时候会改正?

61.135.146.199 - - [27/Apr/2006:15:04:09 +0000] “GET /anyp/2743278 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:17 +0000] “GET /anyp/466874408 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
218.0.42.220 - - [27/Apr/2006:15:04:23 +0000] “GET /anyp/hnwzhw HTTP/1.1″ 200 6286 “http://image.baidu.com/i?ct=503316480&z=540318950&tn=baiduimagedetail&word=\xc3\xf7\xd0\xc7\xd7\xdf\xb9\xe2&in=43” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)”
61.135.146.199 - - [27/Apr/2006:15:04:34 +0000] “GET /anyp/2732717 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:40 +0000] “GET /anyp/2497693 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:45 +0000] “GET /anyp/2769746 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:46 +0000] “GET /anyp/2766496 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:52 +0000] “GET /anyp/lsh303 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:58 +0000] “GET /anyp/2613258 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:59 +0000] “GET /anyp/candy-lucy HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:12 +0000] “GET /anyp/2757986 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:12 +0000] “GET /anyp/2722097 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:13 +0000] “GET /anyp/yumunaodai HTTP/1.1″ 200 7155 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:53 +0000] “GET /anyp/2744951 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:59 +0000] “GET /anyp/2725557 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:06:13 +0000] “GET /anyp/2772936 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”

7 条评论 »

  1. 博客屋 留言,

    2006年04月27日 星期四 @ 11:01 pm

    spider来了,下一步就会有更多的一面被收录,也不是坏事啊~

  2. Austin 留言,

    2006年04月28日 星期五 @ 4:24 pm

    既然是GET命令,怎么会有ETAG呢?

  3. 哈啰波波 留言,

    2006年04月28日 星期五 @ 4:47 pm

    to Austin:
    不管是GET还是POST,只要是HTTP协议,都可以在头信息(Header)中加入相关参数,比如ETag,比如Last-Modified,比如Unless-Modified-Since,比如User-Agent,等等。

    以下是搜索出来的一些内容,仅供参考,这里有详细的HTTP协议的描述:
    ===================================
    下面的代码显示了IIS发送给客户端的用于响应一个初始下载请求的一些头信息,它向客户端传递了被请求的文件的详细信息。

    HTTP/1.1 200 OK
    Connection: close
    Date: Tue, 19 Oct 2004 15:11:23 GMT
    Accept-Ranges: bytes
    Last-Modified: Sun, 26 Sep 2004 15:52:45 GMT
    ETag: “47febb2cfd76c41:2062″
    Cache-Control: private
    Content-Type: application/x-zip-compressed
    Content-Length: 2844011

    在接收这些头信息之后,如果下载被中断了,IE浏览器在后来的下载请求中会把Etag值和Range头信息发送回服务器。下面的代码显示了尝试恢复被中断下载时IE发送给服务器的一些头信息。

    GET http://192.168.100.100/download.zip HTTP/1.0
    Range: bytes=822603-
    Unless-Modified-Since: Sun, 26 Sep 2004 15:52:45 GMT
    If-Range: “47febb2cfd76c41:2062″

    这些头信息表明IE缓存了IIS提供的实体标签,并在If-Range头信息中把它发送回服务器了,这是确保下载从准确相同的文件恢复的一种途径。不幸的是,并非所有的浏览器的工作方式都相同。客户端发送的用于验证文件的其它HTTP头信息可能是If-Match、If-Unmodified-Since或者Unless-Modified-Since。很明显,该规范对于客户端软件必须支持哪些头信息,或者必须使用哪些头信息没有明确的规定。因此,有些客户端根本就没有使用头信息,而IE只使用If-Range和Unless-Modified-Since。你最好用代码检查这些信息。采用这种方式的时候,你的应用程序可以在非常高的层次遵循HTTP规范,并可以使用多种浏览器。Range头信息指明了被请求的字节范围–在例子中它是服务器应该恢复文件流的起始点。

    当IIS接收到恢复下载的请求类型时,它发回包含下面的头信息的响应信息:

    HTTP/1.1 206 Partial Content
    Content-Range: bytes 822603-2844010/2844011
    Accept-Ranges: bytes
    Last-Modified: Sun, 26 Sep 2004 15:52:45 GMT
    ETag: “47febb2cfd76c41:2062″
    Cache-Control: private
    Content-Type: application/x-zip-compressed
    Content-Length: 2021408

  4. 哈啰波波 留言,

    2006年04月28日 星期五 @ 4:48 pm

    这里有详细的HTTP协议的描述:
    http://www.rfc-editor.org/rfc/rfc2616.txt

  5. Seo Vista 留言,

    2006年04月28日 星期五 @ 6:37 pm

    闲谈二头猪:Googlebot和BaiduSpider

    BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流, 并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个…

  6. 王聪 留言,

    2006年04月28日 星期五 @ 7:15 pm

    不知道可否给我一个检测蜘蛛爬虫的程序?
    tongcha@gmail.com
    谢谢!

  7. lala 留言,

    2006年05月06日 星期六 @ 5:33 pm

    嘻嘻,那个BaiduSpider是其它网站冒充的,你给百度北京银科大厦的spider组打电话问就知道了。

本文的RSS feed · 引用 URI

发表您的评论

提示:如果你刚刚提交过评论,但是还没有被显示出来,请点击这里刷新一下: 刷新评论