采集淘宝,找不到促销价格。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
c7898585
V2EX    程序员

采集淘宝,找不到促销价格。。。

  •  
  •   c7898585 2016-07-08 08:28:21 +08:00 5270 次点击
    这是一个创建于 3393 天前的主题,其中的信息可能已经有所发展或是发生改变。

    促销价格目测是用的折扣的方式,应该是原价*折扣 但是找遍了整个页面都找到这个折扣的比例在哪 有老司机采集过的能指导下吗

    28 条回复    2016-07-10 23:08:44 +08:00
    ufo22940268
        1
    ufo22940268  
       2016-07-08 08:30:36 +08:00
    你可以通过商品 id 去一淘上抓
    javaluo
        2
    javaluo  
       2016-07-08 08:33:20 +08:00 via Android
    这年头还采淘宝做啥
    c7898585
        3
    c7898585  
    OP
       2016-07-08 09:01:26 +08:00
    @ufo22940268
    请教下,用火车头 sku_properties 这个参数与 price 和 title 对应的话有什么好方法吗?
    还是必须单独再写一个 php ?
    c7898585
        4
    c7898585  
    OP
       2016-07-08 09:01:39 +08:00
    @javaluo 做一个论坛
    aeshfawre
        5
    aeshfawre  
       2016-07-08 09:02:10 +08:00
    作为一个老司机,
    比如这个:https://item.taobao.com/item.htm?spm=a219r.lm874.14.9.0Y2qEA&id=530963237947&ns=1&abbucket=16
    你说的折扣价就是这个 39.00 吧.
    如果是那就是没错.打开这个页面的时候,你会发现有个 get 发出
    https://detailskip.taobao.com/service/getData/1/p2/item/detail/sib.htm?itemId=530963237947&modules=qrcode,viewer,price,contract,duty,xmpPromotion,dynStock,delivery,upp,sellerDetail,activity,fqg,zjys,coupon&callback=onSibRequestSuccess
    这里面就有促销价格:
    {"cart":true,"loginPromotion":false,"price":"39.00","start":false,"type":"\u7279\u4EF7\u6D3B\u52A8"}

    话说有人收掉我这个快 30 岁的爬虫司机么,无业游民啊.
    Allianzcortex
        6
    Allianzcortex  
       2016-07-08 09:27:54 +08:00
    我为什么这么闲……不应该赶紧滚去看书吗……

    看完我大概明白 LZ 是什么意思了。这样啊,不是所有在网页上看到的信息都是写在源代码里的(是,可以通过审查元素来看到,但 ctrl+u 打开网页源码是找不到的,而网页源码是你用 requests 得到的内容)。

    去 W3C 看看 AJax 的内容,然后打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页,看看页面都向服务器请求了哪些东西)。最主要的就是模拟访问请求(然而按照淘宝那么 BT 的反爬虫,总有一些东西是不能完全模拟的,京东爬的话会好很多)
    laoyuan
        7
    laoyuan  
       2016-07-08 09:27:57 +08:00
    我就看到了 PHP
    gdtv
        8
    gdtv  
       2016-07-08 09:31:05 +08:00
    @Allianzcortex 请教一下,打开 Chrome 的开发者模式,进入 Network 那一栏,刷新网页, 然后能不能从所有请求里搜索文本?
    Allianzcortex
        9
    Allianzcortex  
       2016-07-08 09:41:04 +08:00
    @gdtv 能说的再详细一些嘛?我就暂时理解为是搜索 response 里的文字内容了。我没有尝试过,因为基本上你需要的就是一些 AJax 请求,就可以直接过滤掉单纯的 js 文件和图片了(这占了很大的一部分),直接看 response 就能发现需要什么样的内容了。
    pyengwoei
        10
    pyengwoei  
       2016-07-08 09:44:08 +08:00
    @aeshfawre 你地理位置在哪里?
    aeshfawre
        11
    aeshfawre  
       2016-07-08 10:19:47 +08:00
    @pyengwoei 江西宜春
    zichen0422
        12
    zichen0422  
       2016-07-08 10:26:31 +08:00   1
    @aeshfawre 在这里能看到老乡. 卧槽,
    gdtv
        13
    gdtv  
       2016-07-08 10:36:33 +08:00
    @Allianzcortex 就是在该 html 页面以及该页面引用的所有 js/css 的 response 里面搜索文字内容. 例如 www.a.com/test.htm 引用了
    www.a.com/1.js
    www.a.com/2.js
    www.a.com/3.js
    某个 js 里有个关键字'helloworld',但我不知道具体在哪个 js 里,当然我可以一个一个 js 打开去找,但有没有什么办法批量搜索这些 js 呢?
    aeshfawre
        15
    aeshfawre  
       2016-07-08 10:47:09 +08:00   1
    @gdtv 玩爬虫必备工具 burpsuite , 直接在 filter 里面填上你的词,就过滤出来了
    aeshfawre
        16
    aeshfawre  
       2016-07-08 10:52:40 +08:00
    @Allianzcortex 感谢,一直没用过 chrome 这个搜索功能. 最新版本是用快捷键 CTRL+SHIFT+F
    gdtv
        18
    gdtv  
       2016-07-08 11:06:26 +08:00
    @aeshfawre 谢谢
    c7898585
        19
    c7898585  
    OP
       2016-07-08 14:18:55 +08:00
    @aeshfawre 这个 403 forbidden 的怎么获得返回值的?
        20
    aeshfawre  
       2016-07-08 14:56:37 +08:00
    @c7898585 这个..., 你直接点击连接当然是 forbidden 了. 我只是将链接发出来,指明价格在哪个链接. 你自己在 chrome 的网络数据中找这链接, 只能帮到这里了,剩下的你再研究研究.
    luojing
        21
    luojing  
       2016-07-08 20:11:38 +08:00 via Android
    淘宝的采集不容易,有些好像是需要 cookie 等才能打开你要的数据,总之,是要模拟真实访问的才行
    c7898585
        22
    c7898585  
    OP
       2016-07-08 22:05:18 +08:00
    @luojing 大部分没问题啊,标题,商品详情之类的都可以直接采集,就是跳转页加了一个

    @aeshfawre 我在 chrome 中查看,确实没找到这个饿,是在 element , source ,还是 network 里找?都看了下好像都没有啊,另外这玩意能读取到吗?用的火车头采集

    @全体成员  为什么这个帖子那么多人收藏。。。。
    redhatping
        23
    redhatping  
       2016-07-08 23:15:31 +08:00 via iPhone
    @aeshfawre 做 soho 吗 我们要采取数据
    c7898585
        24
    c7898585  
    OP
       2016-07-09 08:35:20 +08:00
    @redhatping 你们也采集淘宝?
    x8888k
        25
    x8888k  
       2016-07-09 12:06:11 +08:00
    @aeshfawre 宜春哪里的
    aeshfawre
        26
    aeshfawre  
       2016-07-09 12:14:53 +08:00
    @x8888k 万载县黄茅镇
    R4rvZ6agNVWr56V0
        27
    R4rvZ6agNVWr56V0  
       2016-07-10 18:37:06 +08:00
    @aeshfawre 杭州招人,要考虑嘛?
    aeshfawre
        28
    aeshfawre  
       2016-07-10 23:08:44 +08:00
    @GeekGao Sorry,远了点.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5448 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 39ms UTC 07:13 PVG 15:13 LAX 00:13 JFK 03:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86