
1 RaMa291041610 2024-10-14 10:07:12 +08:00 |
2 zeusho871 2024-10-14 10:08:52 +08:00 via Android tls 指纹 |
3 dearmymy OP |
4 kdwnil 2024-10-14 10:19:43 +08:00 via Android 写爬虫遇过这种策略,就是单个 tcp 连接有 http 请求次数限制,解决办法也只能请求次数差不多时起一个新的 http client ,不过我是 golang 不太清楚 python 要怎么做 |
5 cowcomic 2024-10-14 10:19:46 +08:00 试了一下,同一个 python 脚本,即使重启,request 的 ja3 和 ja4 也是不变的 咋通过这个区分请求进程的呢? |
6 defaw 2024-10-14 10:20:54 +08:00 你开 http keep-alive 了?每次都用新的连接试试 |
7 cccer 2024-10-14 10:22:28 +08:00 你是不是忽略的 cookies |
8 dearmymy OP @kdwnil 我感觉就是这个问题, 只不过 python request 库可能不好操作,还是复用了 tcp 。奇怪就是重启就可以继续。 |
12 xdeng 2024-10-14 10:39:31 +08:00 tcp 的序列号? |
14 jinjiang2024 2024-10-14 16:32:54 +08:00 有没有可能与间隔时间有关? |
15 NaclFish 2024-10-17 23:03:50 +08:00 楼主解决了吗 |
17 CC11001100 2024-10-22 23:29:07 +08:00 |
18 dearmymy OP @CC11001100 很厉害,就是我 id 打下码把。。。。 |
19 CC11001100 2024-10-23 20:58:29 +08:00 @dearmymy #18 啊哈哈不好意思没注意,已经更新图片给 id 打码了 |
20 dearmymy OP @CC11001100 从你第二个测试结果看,虽然端口不复用了。但是 ip 端口号是依次递增,这个也是很明显的爬虫特征。对于连续端口号依次递增也可以判断爬虫了。 |
21 CC11001100 2024-10-24 22:27:51 +08:00 @dearmymy #20 老哥你说得有道理,不过正常服务器上跑的任务端口估计不会这么连续,估计是因为我机器当时就跑了这一个任务,不过这个识别点也挺有意思的我寻思寻思把这个维度的识别也加上 ![]() |