[开源] 分布式抓取京东商城商品评价信息然后进行数据分析,附 iphone7 36 万条评价信息分析结果展示 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
awolfly9
V2EX    Python

[开源] 分布式抓取京东商城商品评价信息然后进行数据分析,附 iphone7 36 万条评价信息分析结果展示

  •  5
     
  •   awolfly9 2017-05-10 14:12:07 +08:00 6742 次点击
    这是一个创建于 3090 天前的主题,其中的信息可能已经有所发展或是发生改变。

    附上使用地址:
    体验地址:http://awolfly9.com/jd/
    体验示例地址:http://awolfly9.com/article/jd_comment_analysis

    github:https://github.com/awolfly9/jd_analysis

    快速、全面、高提炼度和高对比度的京东商城评价信息数据分析

    • 生成好评的词云,并且获取关键字
    • 生成中评的词云,并且获取关键字
    • 生成差评的词云,并且获取关键字
    • 分析购买该商品不同颜色的比例,生成柱状图
    • 分析购买该商品不同配置的比例,生成柱状图
    • 评论购买该商品的 24 小时占比
    • 分析该商品的销售数量和评论数量和时间的关系,生成时间则线图
    • 分析该商品不同省份购买的的比例,生成柱状图
    • 分析该商品不同渠道的销售比例,生成柱状图
    • 分析该商品 PC/移动购买比例
    • 分析京东购买该商品的用户等级分布
    • 分析购买商品后写下评论的时间

    京东 iPhone7 36 万条评价信息分析结果展示

    http://awolfly9.com/jd/full_result/3995645

    附上几张 iphone7 36 万条评价信息分析后的效果图

    43 条回复    2017-05-18 11:43:40 +08:00
    jobtesting
        1
    jobtesting  
       2017-05-10 14:30:49 +08:00
    可以啊。大数据收集起来可以做电商热度智能推荐呢,类似 SMZDM
    awolfly9
        2
    awolfly9  
    OP
       2017-05-10 14:35:30 +08:00
    @jobtesting 目前项目已经开源,欢迎尝试使用
    moishalo
        3
    moishalo  
       2017-05-10 14:46:21 +08:00
    顶起. 可以针对商品, 客户群, 销售等多种角度分析. 很不错啊.
    awolfly9
        4
    awolfly9  
    OP
       2017-05-10 14:48:06 +08:00
    @moishalo 谢谢。欢迎使用,也欢迎加入微信群一起聊一聊
    hemoely
        5
    hemoely  
       2017-05-10 16:29:09 +08:00
    牛逼的不行,我曾经有过这个想法但是实践能力比楼主差太多了
    cxyfreedom
        6
    cxyfreedom  
       2017-05-10 16:33:46 +08:00
    感觉不错,可以参照这个去其他网站试试,有点点瑕疵可能就是柱状图数据多的话太密集了,基本看不清数值了
    lawyi
        7
    lawyi  
       2017-05-10 17:10:39 +08:00
    666,感谢分享
    awolfly9
        8
    awolfly9  
    OP
       2017-05-10 17:20:22 +08:00
    @hemoely 可以阅读我的代码


    @cxyfreedom 能否说说你测试的是那个商品。我优化一下。

    @lawyi 谢谢。
    cxyfreedom
        9
    cxyfreedom  
       2017-05-10 17:26:52 +08:00
    @awolfly9 因为是随机选的一个,也是我的失误,没留下链接。图表的话就是那张不同配置购买数量关系图
    undeflife
        10
    undeflife  
       2017-05-10 17:40:02 +08:00
    前三位回复的是不是楼主的朋友? 口气实在很想常见的托....

    没有恶意哈 只是你给的链接等了半天出来的是 Server Error (500)
    awolfly9
        11
    awolfly9  
    OP
       2017-05-10 17:51:21 +08:00
    @undeflife 我这里能访问的。我也想找拖,可是有必要?
    sunwei0325
        12
    sunwei0325  
       2017-05-10 18:35:58 +08:00
    感谢楼主, 请问是否兼容 Python3? 还是因为某个组件强制要求 Python2 呢?
    fuxkcsdn
        13
    fuxkcsdn  
       2017-05-10 19:07:37 +08:00 via iPhone
    支持代理池吗?
    awolfly9
        14
    awolfly9  
    OP
       2017-05-10 19:22:22 +08:00
    @fuxkcsdn 支持的。代码里面可以设置是否使用代理。具体代理池可以参考我之前的开源项目: https://github.com/awolfly9/IPProxyTool
    awolfly9
        15
    awolfly9  
    OP
       2017-05-10 19:23:05 +08:00
    @sunwei0325 目前只支持 python2。因为我的所有开发都是在 python2 上。以后会迁移到 python3.
    zzcchh
        16
    zzcchh  
       2017-05-10 19:28:13 +08:00
    wordcloud 的输出实在太丑, 我用这个 https://www.jasondavies.com/wordcloud/看起来能清爽一些
    awolfly9
        17
    awolfly9  
    OP
       2017-05-10 19:54:14 +08:00
    @zzcchh 谢谢推荐,我试试你说的这个
    banks0913
        18
    banks0913  
       2017-05-10 20:10:00 +08:00
    楼主厉害了!争取今年之内我也能像楼主一样自己能捣鼓出类似的东西
    ixinshang
        19
    ixinshang  
       2017-05-10 20:19:38 +08:00 via Android
    牛逼
    moose123
        20
    moose123  
       2017-05-10 21:08:00 +08:00
    这些评价信息能做啥呢?
    nyanyh
        21
    nyanyh  
       2017-05-10 21:10:35 +08:00
    之前在站里看过一个抓了 100W 内衣数据进行分析的帖子
    awolfly9
        22
    awolfly9  
    OP
       2017-05-10 21:27:28 +08:00
    @nyanyh 我也看到过

    @moose123 可以对数据进行可视化分析
    awolfly9
        23
    awolfly9  
    OP
       2017-05-10 21:51:42 +08:00
    @undeflife 忘记了问最重要的问题。 你访问是那个链接?用的是是浏览器打开,出现的错误是什么?
    s609926202
        24
    s609926202  
       2017-05-10 21:53:36 +08:00
    @undeflife 首先你得翻墙。。
    vjnjc
        25
    vjnjc  
       2017-05-10 22:08:31 +08:00
    好评!!!真好在买东西就试了一下,因为是三方卖家不是很放心,现在感觉至少没有刷评价的。给这个作者!!!
    billie
        26
    billie  
       2017-05-10 22:16:16 +08:00 via Android
    牛逼,已收藏
    fisher335
        27
    fisher335  
       2017-05-11 08:33:38 +08:00 via iPhone
    想办法和你的微信机器人结合一下
    ,可能效果更好
    likeshu
        28
    likeshu  
       2017-05-11 09:40:39 +08:00
    感谢,已收藏。
    bozong
        29
    bozong  
       2017-05-11 10:13:34 +08:00
    NB
    q397064399
        30
    q397064399  
       2017-05-11 11:29:53 +08:00
    oop99
        31
    oop99  
       2017-05-11 12:19:04 +08:00
    666, NB, mark
    show8salary
        32
    show8salary  
       2017-05-11 13:05:12 +08:00
    碉堡了§
    undeflife
        33
    undeflife  
       2017-05-11 13:25:48 +08:00   1
    @awolfly9 chrome 呀 大概过了一会儿之后再开 就可以开了 当时不管翻墙不翻墙都出不来 黑体的几个大字 Server Error (500)/div>
    awolfly9
        34
    awolfly9  
    OP
       2017-05-11 16:35:12 +08:00
    @fisher335 好想法。如果你又可行的想法请告诉我。
    awolfly9
        35
    awolfly9  
    OP
       2017-05-11 16:35:47 +08:00
    @undeflife 好的。谢谢你。我再测试测试。
    lawyi
        36
    lawyi  
       2017-05-11 16:37:42 +08:00
    报错 表不存在 是创建表失败了嘛。。。
    awolfly9
        37
    awolfly9  
    OP
       2017-05-11 16:43:26 +08:00
    @lawyi 可能是数据库版本问题,昨天一个哥们说过。你关注下日志。日志在 log/id.log。
    lawyi
        38
    lawyi  
       2017-05-11 16:58:06 +08:00
    @awolfly9 感谢,看日志 找到原因了,是我的数据库版本太低了
    awolfly9
        39
    awolfly9  
    OP
       2017-05-11 18:02:57 +08:00
    @lawyi 好的。运行愉快
    awolfly9
        40
    awolfly9  
    OP
       2017-05-12 09:58:58 +08:00
    @lawyi 你在生成图表的时候没有遇到字体问题吗?
    lawyi
        41
    lawyi  
       2017-05-12 12:35:41 +08:00
    @awolfly9 有遇到
    awolfly9
        42
    awolfly9  
    OP
       2017-05-12 14:24:08 +08:00
    @lawyi 能不能接个图,或者说一下你怎么解决的。我忘记写在 README 中了。
    Jessss
        43
    Jessss  
       2017-05-18 11:43:40 +08:00
    好厉害,先收藏了,回头好好学习
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2670 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 08:38 PVG 16:38 LAX 01:38 JFK 04:38
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86