我在家初创公司工作,做着数据处理的工作。公司其他人从外面采取数据回来,我就将其进行分类和汇总。但只不过在文件夹里剪切复制数据、然后统计在 excel 表而已,算不上数据处理的有含量技术。 现在领导让我自由地处理和管理这些数据,但我对数据处理管理这方面毫无经验、也不知从哪下手。我想知道做数据处理的大佬们从开始是怎样去做数据处理、从哪获取数据管理知识和数据处理管理的工具? 小弟先在此谢过各位大佬了。握拳
![]() | 1 40aU4RaW20xf8hXn 2018-11-19 23:26:48 +08:00 via iPhone 多大数据量的 |
![]() | 2 F281M6Dh8DXpD1g2 2018-11-19 23:28:57 +08:00 你处理完了这些数据被拿去干啥了 |
3 xmadi 2018-11-19 23:37:55 +08:00 via iPhone 数据到手 首先要做的是保存原始数据 然后再清洗整理 然后把清洗后数据入到库 可以是 mysql 或者其他各种数据仓库 最后按照需求从数据仓库里面拿数据 进行分析统计什么的 |
![]() | 4 imn1 2018-11-20 00:42:40 +08:00 所有数据分析都是先学交叉分析的,简单讲就是交并差 最简单的工具,数据量小就是 excel,数据量大就是 SQL,然后才是编程 |
5 YoungBalance OP @fox1751 不多,十几 G 吧 |
6 YoungBalance OP @liprais 数据都拿去给机器学习了 |
7 YoungBalance OP @xmadi 好的,我先从数据库入手看看 |
8 YoungBalance OP @imn1 交叉分析,我去了解下 |
9 myhot21 2018-11-20 08:00:55 +08:00 via Android 把你剪切复制的工作用代码实现 |
10 YoungBalance OP |
11 YoungBalance OP @myhot21 平时用 python 写脚本做这些工作,但还是觉得远远不够 |
![]() | 12 nl101531 2018-11-20 09:03:23 +08:00 via Android hdfs+hive ? |
13 YoungBalance OP @nl101531 用 Hadoop 去处理这十几 G 数据,是否大刀小用? |
![]() | 14 nl101531 2018-11-20 09:22:57 +08:00 via Android @YoungBalance 还好吧。。。如果你对大数据处理感兴趣可以搞一下 |
15 YoungBalance OP @nl101531 好的,我试着搞搞 |
![]() | 16 yuikns 2018-11-20 09:48:04 +08:00 via iPad 看需不需要横向扩展。比如可以预期的五年后,数据量是 100G 还是 10T 以上。前者的话好好学习 postgres 会很爽的,后者可以预先学下 spark 工具 |
17 YoungBalance OP @yuikns 最近确实想深入 postgresql,多谢了 |
![]() | 18 yuikns 2018-11-20 11:00:30 +08:00 via iPad @YoungBalance 以前上课时候老师和我们说,什么叫做 bigdata 呢?其实并没有什么学术上定义,非要来个,数据之大,一台机器放不下。简单的 select join 下还是 psql 单机无敌。以后要是大了也可以塞 cockroach 去 https://www.cockroachlabs.com 。这是个分布式数据库,兼容 psql 协议,也可以做 spark 数据源。只有在必须要大数据时候再用大数据。否则就是糊弄下投资人的。 |
19 YoungBalance OP @yuikns 现在的我还是狭义认为 postgresql 是个存储数据库的想法。但我想更加知道 postgresql 在数据挖掘、数据处理方面的知识,该从何处入手? |