项目地址:
https://github.com/sedgwickz/jsonHunter
在线网站:
https://jsonhunter.vercel.app/
演示图:
如果觉得对你有用帮忙给个 star哈,根据情况可以继续完善。
![]() | 1 kidlj 2020-12-20 11:58:10 +08:00 via iPhone 很棒。有一个问题想问,serverless 架构每个运行的实例出口 IP 是一样的吗?如果每次不一样,那可太适合爬虫了,不过我猜可能性不大。 |
![]() | 2 vagrantear 2020-12-20 12:10:26 +08:00 已经 star 了,感觉还不戳 |
4 sedgwickz OP @kidlj 即使一个同一个 worker 是固定 ip,可以想像要是创建 N 个 worker,实现类似 Load balance 效果,比市面上免费的代理 ip 应该好多了。 |
5 WordTian 2020-12-20 12:32:49 +08:00 via Android 不过这类要封也容易,cf 有固定 ip 段的 |
6 sedgwickz OP @WordTian 其实项目初衷也不是让大家去大规模去爬取哈,主要帮助大家开发,类似方便快捷的获取 jsonplaceholder 的效果。 |
7 echowuhao 2020-12-20 12:47:16 +08:00 你要是拿来做爬虫,估计违反人家的用户条款。 |
![]() | 8 lizheming 2020-12-20 13:12:18 +08:00 https://vercel.com/docs/platform/fair-use-policy#never-fair-use Vercel 协议里禁止放爬虫的说 |
9 jinliming2 2020-12-20 14:29:10 +08:00 爬取网页的话,会自动把网页中的 http 链接替换成 https,这是 worker 自动搞得 |
![]() | 10 no1xsyzy 2020-12-20 17:44:57 +08:00 之前就听人说过了,而且对于爬套了 CF 的网站有奇效,能绕过 CF 的质询(白名单 |
  14 sampeng 2020-12-20 20:23:07 +08:00 via iPhone serveless 迟早被玩坏… |
![]() | 15 mamahaha 2020-12-20 23:23:21 +08:00 这配色真是用心良苦 |
![]() | 16 BwNVlwSq 2020-12-20 23:28:07 +08:00 via iPhone 这 LOGO,好家伙 |
![]() | 17 vilic 2020-12-21 00:24:21 +08:00 我感觉这个 HTML 到 JSON 的映射挺有意思啊,有考虑过单独做成一个库吗? |
![]() | 18 netnr 2020-12-21 08:57:25 +08:00 via Android cfw 做代理没得问题,但是滥用被投诉就有问题(我前面的跨域代理绑定的域名已经被永封了) vercel 做代理会收到警告邮件要求整改 |
![]() | 19 c978R77Le1z2f8u9 2020-12-21 09:04:06 +08:00 @no1xsyzy 我刚刚去看了一眼我的网站访问记录,cf 的 firewall rule 对 cf 的 ip 免疫 |
![]() | 20 fuxkcsdn 2020-12-21 14:08:33 +08:00 cf worker 根据 UA 就封得了了,UA 改不了我记得(刚出来那会测试的) |