最近在学习 python 爬虫:使用 pyrequests 对一个文档中的 url 逐行进行前端数据爬取,再通过 Beautifulisoup 简单处理后输出到本地 txt 中。
但是在执行过程中发现平均 3s-5s 才能处理完成一个 url,是因为我的脚本流程问题,还是其他原因?希望有大佬可以解答一下,非常感谢
1 NessajCN 290 天前 爬虫这种典型的重 io 任务当然应该开多 threading 或协程一起跑 你是这么爬的吗 |
3 Outclass 290 天前 应该访问 URL 需要时间吧,尝试多线程处理 |
4 CassianAndor 290 天前 多线程 req 不会被风控吗... |
![]() | 5 me007 290 天前 初学就这样挺好的。 你如果加快那么基本出发风控,初学解决不了,直接任何信息都获取不到 |
![]() | 6 Emi1 290 天前 “文档中的 url ” 是一个域名下面的吗,那就别多线程,最好加 sleep |
![]() | 7 coderluan 290 天前 你加个时间戳啊,哪个步骤慢哪个步骤有问题。 |
8 NoOneNoBody 290 天前 ![]() 正常的 “再通过 Beautifulisoup 简单处理后输出到本地 txt 中” 这部份不到 0.5 秒,就是说 2.5s 完成网络请求算快的了 不急着需要的话,单线程也没所谓,我很多时候为了防反爬,还要 sleep 几秒呢 |
9 Henrysun OP @NoOneNoBody 明白了 感谢,其实也不着急需要,就是因为不清楚大家的情况,所以以为是我这边流程有问题,再次感谢 @Emi1 是一个域名下的,明白了,感谢 @me007 明白了,是我有点盲目求快了,感谢 |
![]() | 10 yasea 290 天前 轻量的推荐 Playwright + Asyncio |