某乎的 robots 皮一下很开心？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2800 天前的主题，其中的信息可能已经有所发展或是发生改变。

前面的部分都挺正常，最后皮一下很开心？

robots

开心

正常

皮

17 条回复 2018-05-15 18:32:32 +08:00

opengps

2018 年 5 月 13 日 via Android

不欢迎预期之外的小搜索引擎？

Telegram

2018 年 5 月 13 日 via iPhone

@opengps #1 关键是人家小搜索引擎的爬虫根本不鸟他的 robots 限制

lukefan

2018 年 5 月 13 日

淘宝、百度、facebook 等纷纷表示确实很开心

cairnechen

2018 年 5 月 13 日

不知道是不是我的理解偏差，robots 是不是就和君子协定差不多啊

maemual

2018 年 5 月 13 日

@cairnechen #4 是

pkookp8

2018 年 5 月 13 日 via Android

是我理解错了么，百度家的也是这样

cairnechen

2018 年 5 月 13 日

@maemual 那为什么淘宝的 robots 对百度会有约束力呢？

2018 年 5 月 13 日

皮一下你不开心？

maemual

2018 年 5 月 13 日

@cairnechen #7 淘宝不是通过 robots.txt 去封的百度啊。。。

queshengyao

2018 年 5 月 13 日 via iPhone

@maemual 请问一下淘宝是如何禁止百度爬虫的？我一直以为是百度遵守了 robots 协议

oonnnoo

2018 年 5 月 13 日

GitHub，除了 EtaoSpider，国内其他 bot 都被包含在*中，更皮

maemual

2018 年 5 月 13 日

@queshengyao #10 封一把百度爬虫的 UA 就好了啊。

queshengyao

2018 年 5 月 14 日 via iPhone

@maemual 我用 postman 试了一下，用百度爬虫的 ua 是可以拿到淘宝商品页内容的呀

maemual

2018 年 5 月 14 日 via iPhone

@queshengyao UA 只是举个例子，还有很多手段啊，比如封百度爬虫的 IP 段之类的

queshengyao

2018 年 5 月 14 日 via iPhone

@maemual 嗯这我知道，要封爬虫有很多方式，但我是看到你之前回复说淘宝不是通过 robots 来防止百度爬虫的，所以想知道是百度没遵守 robots 协议，然后淘宝另外用了手段封禁吗？

maemual

2018 年 5 月 14 日

@queshengyao #15 robots 只是个声明，不是个强制手段，以百度的尿性，能遵循这种君子协定？

MinonHeart

2018 年 5 月 15 日

github 也这么做。爬虫多了，知乎的土豆服务器可能扛不住