无情的BaiduSpider——BaiduSpider来兮(袭)!
百度来了!来的迅猛而急促,致使Feedsky服务器突然变慢。
查看日志才知,既然是Spider,但为什么不携带”ETag”和”If Modify Since”一起来?
孟岩在近日思考四则里指责Feedsky没有携带”ETag”和”If Modify Since”,Feedsky已经改正,那么百度什么时候会改正?
61.135.146.199 - - [27/Apr/2006:15:04:09 +0000] “GET /anyp/2743278 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:17 +0000] “GET /anyp/466874408 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
218.0.42.220 - - [27/Apr/2006:15:04:23 +0000] “GET /anyp/hnwzhw HTTP/1.1″ 200 6286 “http://image.baidu.com/i?ct=503316480&z=540318950&tn=baiduimagedetail&word=\xc3\xf7\xd0\xc7\xd7\xdf\xb9\xe2&in=43” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)”
61.135.146.199 - - [27/Apr/2006:15:04:34 +0000] “GET /anyp/2732717 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:40 +0000] “GET /anyp/2497693 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:45 +0000] “GET /anyp/2769746 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:46 +0000] “GET /anyp/2766496 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:52 +0000] “GET /anyp/lsh303 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:58 +0000] “GET /anyp/2613258 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:04:59 +0000] “GET /anyp/candy-lucy HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:12 +0000] “GET /anyp/2757986 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:12 +0000] “GET /anyp/2722097 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:13 +0000] “GET /anyp/yumunaodai HTTP/1.1″ 200 7155 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:53 +0000] “GET /anyp/2744951 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:05:59 +0000] “GET /anyp/2725557 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.146.199 - - [27/Apr/2006:15:06:13 +0000] “GET /anyp/2772936 HTTP/1.1″ 302 5 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
博客屋 留言,
2006年04月27日 星期四 @ 11:01 pm
spider来了,下一步就会有更多的一面被收录,也不是坏事啊~
Austin 留言,
2006年04月28日 星期五 @ 4:24 pm
既然是GET命令,怎么会有ETAG呢?
哈啰波波 留言,
2006年04月28日 星期五 @ 4:47 pm
to Austin:
不管是GET还是POST,只要是HTTP协议,都可以在头信息(Header)中加入相关参数,比如ETag,比如Last-Modified,比如Unless-Modified-Since,比如User-Agent,等等。
以下是搜索出来的一些内容,仅供参考,这里有详细的HTTP协议的描述:
===================================
下面的代码显示了IIS发送给客户端的用于响应一个初始下载请求的一些头信息,它向客户端传递了被请求的文件的详细信息。
HTTP/1.1 200 OK
Connection: close
Date: Tue, 19 Oct 2004 15:11:23 GMT
Accept-Ranges: bytes
Last-Modified: Sun, 26 Sep 2004 15:52:45 GMT
ETag: “47febb2cfd76c41:2062″
Cache-Control: private
Content-Type: application/x-zip-compressed
Content-Length: 2844011
在接收这些头信息之后,如果下载被中断了,IE浏览器在后来的下载请求中会把Etag值和Range头信息发送回服务器。下面的代码显示了尝试恢复被中断下载时IE发送给服务器的一些头信息。
GET http://192.168.100.100/download.zip HTTP/1.0
Range: bytes=822603-
Unless-Modified-Since: Sun, 26 Sep 2004 15:52:45 GMT
If-Range: “47febb2cfd76c41:2062″
这些头信息表明IE缓存了IIS提供的实体标签,并在If-Range头信息中把它发送回服务器了,这是确保下载从准确相同的文件恢复的一种途径。不幸的是,并非所有的浏览器的工作方式都相同。客户端发送的用于验证文件的其它HTTP头信息可能是If-Match、If-Unmodified-Since或者Unless-Modified-Since。很明显,该规范对于客户端软件必须支持哪些头信息,或者必须使用哪些头信息没有明确的规定。因此,有些客户端根本就没有使用头信息,而IE只使用If-Range和Unless-Modified-Since。你最好用代码检查这些信息。采用这种方式的时候,你的应用程序可以在非常高的层次遵循HTTP规范,并可以使用多种浏览器。Range头信息指明了被请求的字节范围–在例子中它是服务器应该恢复文件流的起始点。
当IIS接收到恢复下载的请求类型时,它发回包含下面的头信息的响应信息:
HTTP/1.1 206 Partial Content
Content-Range: bytes 822603-2844010/2844011
Accept-Ranges: bytes
Last-Modified: Sun, 26 Sep 2004 15:52:45 GMT
ETag: “47febb2cfd76c41:2062″
Cache-Control: private
Content-Type: application/x-zip-compressed
Content-Length: 2021408
哈啰波波 留言,
2006年04月28日 星期五 @ 4:48 pm
这里有详细的HTTP协议的描述:
http://www.rfc-editor.org/rfc/rfc2616.txt
Seo Vista 留言,
2006年04月28日 星期五 @ 6:37 pm
闲谈二头猪:Googlebot和BaiduSpider
BaiduSpider的违规抓取,可以追述到2002年左右,当时一个自称来自百度的技术人ChenJK,关于BaiduSpider,在WMW和受害者进行过交流, 并且说过已经解决了导致BaiduSpider违规的BUG,然而改版为BaiduSpider+后,这个…
王聪 留言,
2006年04月28日 星期五 @ 7:15 pm
不知道可否给我一个检测蜘蛛爬虫的程序?
tongcha@gmail.com
谢谢!
lala 留言,
2006年05月06日 星期六 @ 5:33 pm
嘻嘻,那个BaiduSpider是其它网站冒充的,你给百度北京银科大厦的spider组打电话问就知道了。