现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
z1421012325
V2EX    Python

现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

  •  1
     
  •   z1421012325 2019-06-22 13:12:10 +08:00 18522 次点击
    这是一个创建于 2302 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在搞电商爬虫,
    京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..


    但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

    根据用户行为来判断是否爬虫的吗?

    还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

    那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

    49 条回复    2020-07-10 12:02:28 +08:00
    VDimos
        1
    VDimos  
       2019-06-22 13:24:16 +08:00 via Android   2
    为啥说的不让你爬错了一样,于情于理不让你爬都没问题
    shanlan
        2
    shanlan  
       2019-06-22 13:26:15 +08:00
    未经同意,擅自爬取数据违法。
    o00o
        3
    o00o  
       2019-06-22 13:27:41 +08:00 via Android
    PC 端连正常用户都受影响了,更何况爬虫了
    z1421012325
        4
    z1421012325  
    OP
       2019-06-22 13:27:49 +08:00
    @VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了
    z1421012325
        5
    z1421012325  
    OP
       2019-06-22 13:29:29 +08:00
    @o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...
    daquandiao2
        6
    daquandiao2  
       2019-06-22 13:29:56 +08:00
    你最后不都想到两种办法了 怎么不试试
    z1421012325
        7
    z1421012325  
    OP
       2019-06-22 13:30:31 +08:00
    而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个
    z1421012325
        8
    z1421012325  
    OP
       2019-06-22 13:31:02 +08:00
    @shanlan 学习不商用,试试爬爬,加强技能
    q397064399
        9
    q397064399  
       2019-06-22 13:32:47 +08:00   3
    @shanlan #2 敞开大门做生意,换个姿势就不让插了? 真的是搞笑,哪天说不定我浏览器打开一下淘宝,就被定义为爬虫把我给抓走了,口袋罪何患无辞
    z1421012325
        10
    z1421012325  
    OP
       2019-06-22 13:33:07 +08:00
    @daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?
    Baboonowen
        11
    Baboonowen  
       2019-06-22 13:33:33 +08:00   1
    虽然我也写爬虫,但我不会觉得人家不让你爬错了……
    z1421012325
        12
    z1421012325  
    OP
       2019-06-22 13:40:30 +08:00
    @Baboonowen 也对,但是爬虫就是要反反爬吧
    run2
        13
    run2  
       2019-06-22 13:57:53 +08:00
    讨厌这些害的我正常浏览都要登录的 爬虫,但同时觉得,电商网站就应该明码实价,提供 API 给出价格都是应该的
    zxcslove
        14
    zxcslove  
       2019-06-22 14:04:15 +08:00
    @q397064399 根子就是不想公开竞争,弄羊毛忽悠用户,不好忽悠的用户都去死
    zxcslove
        15
    zxcslove  
       2019-06-22 14:11:31 +08:00
    @shanlan 相当于规定销售商品应当明码标价的情况下,未按商场指定方式看价格违法
    Jirajine
        16
    Jirajine  
       2019-06-22 14:17:08 +08:00 via Android
    mitm 可以试试吧,用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容(逆向 ActionScript 太痛苦)
    cabing
        17
    cabing  
       2019-06-22 14:48:20 +08:00
    我以前觉得还行吧~~,分析页面 js,ip 可以买个代理啥的。

    以前公司有个店铺卖书的,买个工具需要花钱,为了省钱,就爬过自己店铺的数据,然后再整理和分析。。
    vzev
        18
    vzev  
       2019-06-22 15:22:54 +08:00
    "但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈!
    kppwp
        19
    kppwp  
       2019-06-22 15:22:55 +08:00 via iPhone
    是通过用户行为分析的,一般还是用大量 ip 代理去解决问题。
    mrcn
        20
    mrcn  
       2019-06-22 16:10:25 +08:00 via Android
    淘宝天猫…我正常用户都用不了…
    akira
        21
    akira  
       2019-06-22 16:34:22 +08:00
    有海量 ip/账号 肯定可以爬
    z1421012325
        22
    z1421012325  
    OP
       2019-06-22 17:27:00 +08:00
    @akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..
    www6688w
        23
    www6688w  
       2019-06-22 17:35:08 +08:00
    用谷歌插件模拟真实用户采集试试呢?
    compiler
        24
    compiler  
       2019-06-22 17:37:12 +08:00
    我理解淘宝有反爬团队,干不过就加入,哈哈哈
    turi
        25
    turi  
       2019-06-22 18:24:29 +08:00
    淘宝有自动拨号 vps,每次 连上都是不同 ip.
    hgjian
        26
    hgjian  
       2019-06-22 18:39:01 +08:00 via Android
    @turi 能提供一下搜索关键词吗?没找到啊
    turi
        27
    turi  
       2019-06-22 19:02:54 +08:00
    @hgjian ip 混播
    试试这个,去年还有拨号的 vps,今年就清理干净了。
    turi
        28
    turi  
       2019-06-22 19:04:47 +08:00
    @hgjian

    这个关键词,还有的
    adsl ip
    z1421012325
        29
    z1421012325  
    OP
       2019-06-22 19:06:50 +08:00
    @www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的
    lonelygo
        30
    lonelygo  
       2019-06-22 19:13:40 +08:00
    #24 @compiler 好办法,打入敌人内部。
    UFc8704I4Bv63gy2
        31
    UFc8704I4Bv63gy2  
       2019-06-22 20:00:08 +08:00 via Android   1
    你们要爬什么我帮你们爬,一分钱一个商品可好?
    minami
        32
    minami  
       2019-06-22 20:25:18 +08:00   1
    淘宝那个反爬策略,我一正常用户都觉得恶心,多开几个商品页面就开始弹东西了
    jiejiss
        33
    jiejiss  
       2019-06-22 20:30:46 +08:00
    把下滑、点击之类的,自己先实际操作七八遍,让程序 100%记录,然后重放出来
    包括等待页面加载的时候鼠标的移动,或者是拖动浏览器的右侧滚动条,也要录
    每两次操作之间的间隔建议也是基数+随机数
    jiejiss
        34
    jiejiss  
       2019-06-22 20:31:09 +08:00
    或者干脆接入打码平台
    zdb1115
        35
    zdb1115  
       2019-06-22 21:24:51 +08:00 via Android
    31 楼的可以爬一个品类的吗?
    opengps
        36
    opengps  
       2019-06-22 21:44:54 +08:00 via Android
    爬虫本不应该是被提倡的,毕竟原创成分太少,影响真原创方的负载能力。
    DaWWW
        37
    DaWWW  
       2019-06-22 22:34:15 +08:00
    动态 ip,控制访问速度,淘宝反爬很正常啊
    dewi
        38
    dewi  
       2019-06-22 23:54:45 +08:00 via iPhone
    TB 的话可以试试淘客的 api,或者直接爬大淘客上的,但是这个方法仅适用于有返利的宝贝,无返利的宝贝目前无解。。。
    lovesky
        39
    lovesky  
       2019-06-23 00:00:35 +08:00 via Android
    selenium 是能被检测到的,你们要爬什么我帮你们爬,一分钱一个商品可好?
    hgjian
        40
    hgjian  
       2019-06-23 00:20:23 +08:00 via Android
    @turi 感谢提供
    bigbigeggs
        41
    bigbigeggs  
       2019-06-23 00:22:26 +08:00
    这个爬取好像市场价,两毛一条。
    selenium 好像不行,会有下拉框。
    可以试试 ip,那种有真实用户下单的 ip 段
    kingfalse
        42
    kingfalse  
       2019-06-23 04:08:13 +08:00 via Android
    周瑜打黄盖,常威咬来福。
    zzy578
        43
    zzy578  
       2019-06-23 04:47:42 +08:00
    我爬过一个店铺的,在 network 里找对数据的请求,分析 json 拿数据
    这个 url 没有反爬,把 cookie 加上就可以
    z1421012325
        44
    z1421012325  
    OP
       2019-06-23 11:17:36 +08:00
    @zzy578 详情页没啥反爬,只是列表页不好弄
    UFc8704I4Bv63gy2
        45
    UFc8704I4Bv63gy2  
       2019-06-23 23:11:08 +08:00 via Android
    @zdb1115 当然可以
    Jaho
        46
    Jaho  
       2019-06-24 09:05:03 +08:00
    要付费爬算我一个[手动狗头]
    yebo777
        47
    yebo777  
       2019-06-24 09:16:16 +08:00
    淘宝现在都不能正常使用,动不动就要验证
    fank99
        48
    fank99  
       2019-06-24 10:45:26 +08:00
    淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述"
    gxlonline
        49
    gxlonline  
       2020-07-10 12:02:28 +08:00
    需要挂上代理 IP,推荐:酷鱼代理 IP
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3459 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 00:18 PVG 08:18 LAX 17:18 JFK 20:18
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86