![]() | 1 meteor2013 2014-06-23 07:14:42 +08:00 能具体说下理由吗? |
![]() | 2 RangerWolf OP @meteor2013 因为感觉使用R进行数据分析以及可视化都非常方便,几行命令就搞定了。同样的,matlab\octave 也挺方便的,但是创建一些方法啊、调试啊以及在追求性能、代码可维护方面,貌似还是传统的语言更合适一点。。。 求讨论,我也只接触了一些皮毛而已 |
![]() | 3 RelativeLayout 2014-06-23 07:42:41 +08:00 via iPhone 用python吧,python下有很多关于数学、图像展示、机器学习、图片处理的库,虽然学习路线陡峭,但是python做的东西很快就能用到生产上。这是matlab和r没法比的。 |
![]() | 4 yelite 2014-06-23 08:15:28 +08:00 之前我也是这么想的...直到今年的 kdd,把所有数据读进去就占了 6g 内存... 现在用 ipython notebook,读取速度和内存占用都好了很多,可视化也很方便 |
![]() | 5 cbsw 2014-06-23 08:20:39 +08:00 |
![]() | 6 laoyang945 2014-06-23 09:01:16 +08:00 我也有同感,R作为一中间的不 |
![]() | 7 yelite 2014-06-23 0904:11 +08:00 @cbsw csv 文件的总大小在 3G 左右 python 用的是 pandas 的 read_csv R 用的是 read.csv python 4148M rsession 6684M 还有一点,python 读取花了两分钟左右,R 居然用了将近二十分钟 |
![]() | 8 wb13 2014-06-23 09:27:37 +08:00 如果用Python的话,pandas确实非常好用 |
9 qian19876025 2014-06-23 09:32:04 +08:00 真专业的那群人 别个都是用SPSS Matlab 之类的 |
![]() | 10 RangerWolf OP @RelativeLayout python我没用来做过ML之类的事情,不知道在可视化、图表以及统计方面表现如何? R的性能之前也听别人说过,可能底层需要推倒重来提高性能。。。 @qian19876025 你说的专业是指哪方面? 比如在阿里巴巴做用户行为分析,是否属于你说的“专业”方面? 我对类似用户行为分析、金融风险预测这方面比较刚兴趣~ |
11 Josephpeng 2014-06-23 09:47:39 +08:00 @qian19876025 SPSS 都是些坑爹的市场调研机构在用。 R 是made by statistician, for statistician. Matlab应用数学,工程方面比较常见。 R血统最纯正! |
12 qian19876025 2014-06-23 10:02:25 +08:00 @Josephpeng 晕死 什么血统论都来了 matlab 别个的库 R根本没有 R 是怎么火起来的 如果不是因为不要钱 谁用啊 你看看那些写论文的 用的是什么工具 以前几乎清一色的matlab 之类的 SPSS 为什么被IBM收购 还不就是因为以前做统计的那群人一直在使用 说好听点R是开源 说不好听点因为没钱的人太多了 @RangerWolf 做数据分析 ML 统计 基本上好多R都靠不上边 只不过现在使用R的人多了点而已 |
![]() | 13 RelativeLayout 2014-06-23 14:45:39 +08:00 ![]() |
![]() | 14 Todd_Leo 2014-06-23 14:54:36 +08:00 @qian19876025 说说看matlab什么库R没有呢? |
![]() | 15 xunyu 2014-06-23 14:59:43 +08:00 把数据放在内存中不是个办法,spark才是王道,r的实时交互没有python好 |
![]() | 16 RangerWolf OP @xunyu spark 不也是放在内存之中吗? 没用过,听说是这样 |
![]() | 17 xunyu 2014-06-23 16:13:26 +08:00 @RangerWolf spark是分布式的,多台电脑构建一个集群,数据分布在多台电脑内存中了,最夸张的是主页上显示的迭代的运算可以快10+倍 |
18 Josephpeng 2014-06-23 18:43:55 +08:00 @qian19876025 念了4年统计,今天受教了。 |
![]() | 19 RangerWolf OP @xunyu 了解了~ thx |
20 13k 2014-09-13 00:13:57 +08:00 ![]() 入时尝试使用一些参数(nrows、comment.char、colClasses等)或者看看data.table包。R的package真是越来越多而且很方便,比如大神Hadley Wickham的一系列包,当然也有Spark提供的R接口包SparkR。。。 |
21 ocsdev 2014-12-10 15:21:50 +08:00 pandas是python数据分析的神器,欢迎加入pandas专业QQ群:297882961 |
![]() | 22 chengzhoukun 2015-05-18 20:34:51 +08:00 via Android 传统的统计方面的活都是SAS在做,语法比Matlab还简单一些。 互联网公司还是Python多一些, R在大学多一些 |