学习了一段时间 R 之后的一个感觉: 数据挖掘的任务,应该由 R 来整理思路、创建模型,然后由其他语言来实现生产需求 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
RangerWolf
V2EX    问与答

学习了一段时间 R 之后的一个感觉: 数据挖掘的任务,应该由 R 来整理思路、创建模型,然后由其他语言来实现生产需求

  •  
  •   RagerWolf 2014-06-23 07:07:43 +08:00 5044 次点击
    这是一个创建于 4133 天前的主题,其中的信息可能已经有所发展或是发生改变。
    不知道这种感觉是否正确啊
    22 条回复    2015-05-18 20:34:51 +08:00
    meteor2013
        1
    meteor2013  
       2014-06-23 07:14:42 +08:00
    能具体说下理由吗?
    RangerWolf
        2
    RangerWolf  
    OP
       2014-06-23 07:25:13 +08:00
    @meteor2013 因为感觉使用R进行数据分析以及可视化都非常方便,几行命令就搞定了。同样的,matlab\octave 也挺方便的,但是创建一些方法啊、调试啊以及在追求性能、代码可维护方面,貌似还是传统的语言更合适一点。。。
    求讨论,我也只接触了一些皮毛而已
    RelativeLayout
        3
    RelativeLayout  
       2014-06-23 07:42:41 +08:00 via iPhone
    用python吧,python下有很多关于数学、图像展示、机器学习、图片处理的库,虽然学习路线陡峭,但是python做的东西很快就能用到生产上。这是matlab和r没法比的。
    yelite
        4
    yelite  
       2014-06-23 08:15:28 +08:00
    之前我也是这么想的...直到今年的 kdd,把所有数据读进去就占了 6g 内存...
    现在用 ipython notebook,读取速度和内存占用都好了很多,可视化也很方便
    cbsw
        5
    cbsw  
       2014-06-23 08:20:39 +08:00
    @RelativeLayout 说 python 学习曲线陡峭的是个什么心态
    @yelite 如果处理大数据时把所有数据读进去,python 内存也差不多吧
    laoyang945
        6
    laoyang945  
       2014-06-23 09:01:16 +08:00
    我也有同感,R作为一中间的不
    yelite
        7
    yelite  
       2014-06-23 0904:11 +08:00
    @cbsw
    csv 文件的总大小在 3G 左右
    python 用的是 pandas 的 read_csv
    R 用的是 read.csv

    python 4148M

    rsession 6684M

    还有一点,python 读取花了两分钟左右,R 居然用了将近二十分钟
    wb13
        8
    wb13  
       2014-06-23 09:27:37 +08:00
    如果用Python的话,pandas确实非常好用
    qian19876025
        9
    qian19876025  
       2014-06-23 09:32:04 +08:00
    真专业的那群人 别个都是用SPSS Matlab 之类的
    RangerWolf
        10
    RangerWolf  
    OP
       2014-06-23 09:45:55 +08:00
    @RelativeLayout python我没用来做过ML之类的事情,不知道在可视化、图表以及统计方面表现如何? R的性能之前也听别人说过,可能底层需要推倒重来提高性能。。。

    @qian19876025 你说的专业是指哪方面? 比如在阿里巴巴做用户行为分析,是否属于你说的“专业”方面? 我对类似用户行为分析、金融风险预测这方面比较刚兴趣~
    Josephpeng
        11
    Josephpeng  
       2014-06-23 09:47:39 +08:00
    @qian19876025
    SPSS 都是些坑爹的市场调研机构在用。
    R 是made by statistician, for statistician.
    Matlab应用数学,工程方面比较常见。

    R血统最纯正!
    qian19876025
        12
    qian19876025  
       2014-06-23 10:02:25 +08:00
    @Josephpeng 晕死 什么血统论都来了

    matlab 别个的库 R根本没有
    R 是怎么火起来的 如果不是因为不要钱 谁用啊

    你看看那些写论文的 用的是什么工具 以前几乎清一色的matlab 之类的
    SPSS 为什么被IBM收购 还不就是因为以前做统计的那群人一直在使用

    说好听点R是开源 说不好听点因为没钱的人太多了
    @RangerWolf 做数据分析 ML 统计 基本上好多R都靠不上边 只不过现在使用R的人多了点而已
    RelativeLayout
        13
    RelativeLayout  
       2014-06-23 14:45:39 +08:00   1
    Todd_Leo
        14
    Todd_Leo  
       2014-06-23 14:54:36 +08:00
    @qian19876025 说说看matlab什么库R没有呢?
    xunyu
        15
    xunyu  
       2014-06-23 14:59:43 +08:00
    把数据放在内存中不是个办法,spark才是王道,r的实时交互没有python好
    RangerWolf
        16
    RangerWolf  
    OP
       2014-06-23 15:35:49 +08:00
    @xunyu spark 不也是放在内存之中吗? 没用过,听说是这样
    xunyu
        17
    xunyu  
       2014-06-23 16:13:26 +08:00
    @RangerWolf spark是分布式的,多台电脑构建一个集群,数据分布在多台电脑内存中了,最夸张的是主页上显示的迭代的运算可以快10+倍
    Josephpeng
        18
    Josephpeng  
       2014-06-23 18:43:55 +08:00
    @qian19876025 念了4年统计,今天受教了。
    RangerWolf
        19
    RangerWolf  
    OP
       2014-06-23 21:46:45 +08:00
    @xunyu 了解了~ thx
    13k
        20
    13k  
       2014-09-13 00:13:57 +08:00   1
    入时尝试使用一些参数(nrows、comment.char、colClasses等)或者看看data.table包。R的package真是越来越多而且很方便,比如大神Hadley Wickham的一系列包,当然也有Spark提供的R接口包SparkR。。。
    ocsdev
        21
    ocsdev  
       2014-12-10 15:21:50 +08:00
    pandas是python数据分析的神器,欢迎加入pandas专业QQ群:297882961
    chengzhoukun
        22
    chengzhoukun  
       2015-05-18 20:34:51 +08:00 via Android
    传统的统计方面的活都是SAS在做,语法比Matlab还简单一些。
    互联网公司还是Python多一些,
    R在大学多一些
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5591 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 03:32 PVG 11:32 LAX 20:32 JFK 23:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86