速度、并发量不是最大需求,当然能做到更好
必要的是出现爬取失败的 url,能扔进队列重试若干次
持续失败( 403/404/50x,超时……等等)的能记录下来
其次是可以自定义 header,包括 cookies 、UA 等等,当然包括可重用(session)
搜了好几个简述都没这方面说明,估计不是逐个看文档,就是看代码……
谁知道有这样的,省我一点时间,谢了
必要的是出现爬取失败的 url,能扔进队列重试若干次
持续失败( 403/404/50x,超时……等等)的能记录下来
其次是可以自定义 header,包括 cookies 、UA 等等,当然包括可重用(session)
搜了好几个简述都没这方面说明,估计不是逐个看文档,就是看代码……
谁知道有这样的,省我一点时间,谢了
