
1 opengps 2018 年 5 月 13 日 via Android 不欢迎预期之外的小搜索引擎? |
3 lukefan 2018 年 5 月 13 日 淘宝、百度、facebook 等纷纷表示确实很开心 |
4 cairnechen 2018 年 5 月 13 日 不知道是不是我的理解偏差,robots 是不是就和君子协定差不多啊 |
5 maemual 2018 年 5 月 13 日 @cairnechen #4 是 |
6 pkookp8 2018 年 5 月 13 日 via Android 是我理解错了么,百度家的也是这样 |
7 cairnechen 2018 年 5 月 13 日 @maemual 那为什么淘宝的 robots 对百度会有约束力呢? |
9 maemual 2018 年 5 月 13 日 @cairnechen #7 淘宝不是通过 robots.txt 去封的百度啊。。。 |
10 queshengyao 2018 年 5 月 13 日 via iPhone @maemual 请问一下淘宝是如何禁止百度爬虫的?我一直以为是百度遵守了 robots 协议 |
11 oonnnoo 2018 年 5 月 13 日 GitHub,除了 EtaoSpider,国内其他 bot 都被包含在*中,更皮 |
12 maemual 2018 年 5 月 13 日 @queshengyao #10 封一把百度爬虫的 UA 就好了啊。 |
13 queshengyao 2018 年 5 月 14 日 via iPhone @maemual 我用 postman 试了一下,用百度爬虫的 ua 是可以拿到淘宝商品页内容的呀 |
14 maemual 2018 年 5 月 14 日 via iPhone @queshengyao UA 只是举个例子,还有很多手段啊,比如封百度爬虫的 IP 段之类的 |
15 queshengyao 2018 年 5 月 14 日 via iPhone @maemual 嗯这我知道,要封爬虫有很多方式,但我是看到你之前回复说淘宝不是通过 robots 来防止百度爬虫的,所以想知道是百度没遵守 robots 协议,然后淘宝另外用了手段封禁吗? |
16 maemual 2018 年 5 月 14 日 @queshengyao #15 robots 只是个声明,不是个强制手段,以百度的尿性,能遵循这种君子协定? |
17 MinonHeart 2018 年 5 月 15 日 github 也这么做。爬虫多了,知乎的土豆服务器可能扛不住 |