一个服务器只有几台,最大内存不到 16G 的软件公司 想搞爬虫、大数据,抓取的数据库主要用 SQLSERVER 。 搞数据抓取的只有一个新人,这算什么样的公司
1 crazykuma 2017-04-24 14:38:12 +08:00 ![]() 老板脑洞比虫洞还大的公司吧 |
![]() | 2 webjin1 2017-04-24 14:40:05 +08:00 via Android 走人 |
![]() | 3 crab 2017-04-24 14:42:32 +08:00 爬 V2 吗 O(∩_∩)O |
![]() | 4 qiayue PRO 搞爬虫没问题啊 搞大数据就你也没有提供更多的信息,不评论 |
![]() | 5 jarlyyn 2017-04-24 14:46:48 +08:00 爬虫不是要 ip 池和带宽么? |
6 LU35 2017-04-24 15:00:32 +08:00 快走人,下一题. |
![]() | 7 murmur 2017-04-24 15:01:50 +08:00 先搞起来骗到风投,没差 |
![]() | 8 gouchaoer 2017-04-24 15:02:24 +08:00 最重要的是钱给够了,为什么不能搞? 看不起 sqlserver 么,比 mongo 靠谱 爬虫又咋吃 cpu 和内存 |
![]() | 9 alwayshere 2017-04-24 15:02:31 +08:00 爬虫 16G 貌似也行 |
10 ryanzyy 2017-04-24 15:03:51 +08:00 看主要的开发者是否有实力吧 初期服务器弱没问题啊 |
![]() | 11 server 2017-04-24 15:06:45 +08:00 服务器够了,剩下自己发挥 |
![]() | 12 Aliencn 2017-04-24 15:06:49 +08:00 有志向的公司 |
![]() | 13 marlboros 2017-04-24 15:07:55 +08:00 搞 资金流到位 升级服务器 老板跟你提效率问题了吗? |
![]() | 14 Hozzz 2017-04-24 15:13:21 +08:00 ![]() 单从数据库方面来说, sqlserver 现在可是三大主流数据库之一... |
15 cnfzv OP |
![]() | 17 jarlyyn 2017-04-24 15:20:39 +08:00 ![]() |
18 cnfzv OP @gouchaoer 那个 java 新人就是我, spring 都不会用,也就用个 webmagic 抓俩网站,数据库服务器都是我在弄,基本什么都干。工作不重,但是很杂 |
19 yanzixuan 2017-04-24 15:26:19 +08:00 要是用 erlang , 16G 应该够用了。。。掩面跑开。。。 |
![]() | 20 ytmsdy 2017-04-24 15:40:15 +08:00 估计老板被人忽悠了,觉得手里有个十几个 G 的数据,然后分析分析就是大数据了! |
22 sweb 2017-04-24 15:47:12 +08:00 主要看钱,楼主纠结啥? |
![]() | 23 benbenlang 2017-04-24 15:48:28 +08:00 老板被卖服务器的忽悠了,,,你要再和他争辩他会觉得你能力不行。。。 |
25 firefox12 2017-04-24 16:00:47 +08:00 via iPhone 512M 主机 每天 20 分钟扫描京东全网,不过那是 5 年前了。在 512m 主机上 每天还完成 1800 万房产数据的排序。 我不觉得这样的设备有什么差的 现在端口支持 reuse 。抓多少数据只是受限于网络和 cpu |
![]() | 26 towser 2017-04-24 16:01:50 +08:00 公司名字叫什么 |
27 cnfzv OP @qqpkat2 我就是那个 java 新人,开发水平比较低,数据库基本维护就是我在弄,服务器基本没人管理,我大概做一点简单的维护,里面跑的都是公司正在用的项目程序,需要什么东西自己一点点在上面研究部署。 |
![]() | 29 Felldeadbird 2017-04-24 16:10:13 +08:00 这要看你们要爬什么数据了。 16G 内存,可以实现很多东西。 我司的爬虫才 1G 内存。主要爬对手商品信息,动态。 楼主你这种没有详细信息的内容,真让人为怀疑你是为了喷而喷。 |
30 cnfzv OP @benbenlang 并没有,都是好久之前的服务器,起码 2011 年之前的吧 |
31 stabc 2017-04-24 16:18:48 +08:00 如果是专业领域的大数据也不一定需要非常大容量啊。 |
![]() | 32 bravecarrot 2017-04-24 16:22:13 +08:00 大数据 不一定是数据量很大很大 |
33 cnfzv OP @Felldeadbird 三台服务器,全是 windows , 6 、 7 年前的机器吧,两台在外网的都是公司正在用的项目,不敢大折腾,剩下的一台是个 8g 内存的塔式,抓数据、入库、数据处理、数据查询都要在上面进行。带宽不到 1MB 吧,其实能跑的动,只是我水平不够,也只有我去弄爬虫,心累。 |
34 cnfzv OP |
35 simapple 2017-04-24 16:38:20 +08:00 也行 先跑着呗 等不够用了 上云 |
![]() | 36 reus 2017-04-24 16:39:56 +08:00 ![]() 水平不足赖硬件…… 16G 不小, SQLServer 不差,做爬虫一个人也够。 问题在于你,你能力不够,又不肯学习,才赖硬件,赖数据库,赖人手,赖公司。 抱歉,实在不知道你有什么可以抱怨的。 |
![]() | 37 deadEgg 2017-04-24 16:42:57 +08:00 16G 真的够了,你怕内存爆了,很多框架都有类似于 placeholder 的机制。 你用心去做绝对搞得出成果的,不过可能时间上和过程上比较困难一点点而已 |
![]() | 38 Jimrussell 2017-04-24 16:46:25 +08:00 ![]() 大家没注意到楼主说的是“软件公司”么。很明显老板想开拓新业务,然后挑了楼主在试水啊。花钱让你涨技术涨经验,这样的好事并不多的好吗。 |
![]() | 39 windfarer 2017-04-24 16:47:59 +08:00 楼主觉得多大的内存才能跑爬虫。。 |
40 cnfzv OP @reus 心情不太好,抱怨下能让自己好过点就碎嘴一会吧。我并不完全算开发吧,要研究爬虫,要去查数据库,比对数据字典导数据,偶尔兼职测试按要求去测业务。做的一堆东西从来没有开发文档,口头需求,现做现改,所有东西全靠自学,不会的全靠百度,最近又弄了堆破事,有心无力,允许我抱怨下吧 |
42 killerv 2017-04-24 16:59:33 +08:00 多大的业务? 16G 应该够了啊 |
43 cnfzv OP @killerv 只是爬虫 8g 都够了,可惜还有很多乱起八糟的东西跑着,而我也不只是去弄开发。我只是心情很不好,而这个公司发展方向确实也不太好,他们主要靠业务吃饭,开发并不重要。 |
![]() | 44 klxq15 2017-04-24 17:10:59 +08:00 via Android 大数据也没规定多大数据就算大数据啊。。。 |
46 we3613040 2017-04-24 17:24:51 +08:00 听着挺爽的,不过就是发展不怎样,混日子还行 |
![]() | 47 Felldeadbird 2017-04-24 17:28:20 +08:00 8G 的服务器,足够你用爬虫了。只是带宽出口 1M ,太少了。估计爬起来效率很低。你另外还有 2 台服务器,可以让他们做爬虫业务。反正我司 1U1G 100M 的服务器,每天爬 100 万的数据都没任何压力、一部分展示业务也在这台机器上进行。楼主自己做参考。 |
![]() | 48 bk201 2017-04-24 17:29:13 +08:00 window 这内存不够吧, linux 倒是可以。 |
49 eDeeraiD0thei6Oh 2017-04-24 17:29:23 +08:00 一个小目标 我觉得楼主多虑了 |
50 cnfzv OP @Felldeadbird redis 队列,数据库、爬虫都在这一个 8g 上面,另外两个机器也跑着爬虫,但是得用这个机器入库,另外两个机器跑不动 redis |
![]() | 51 Felldeadbird 2017-04-24 17:32:31 +08:00 补充一点,服务器数据是定时删除的。如果楼主公司业务需要展示以前的数据,在数据大了的情况下,单机肯定是不够用的。但是不论怎样也好。刚开始的时候,数据量不大就别去担心硬件这个事情了。等到不够用的时候,直接向上面申请。他们不审批也没关系,让他们继续等待缓慢的服务…… |
![]() | 52 brucedone 2017-04-24 17:43:01 +08:00 很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。 |
![]() | 53 hundan 2017-04-24 17:47:11 +08:00 via Android 我觉得楼主这样完全可以单干,自己开公司…… |
![]() | 54 jiangzhuo 2017-04-24 17:52:46 +08:00 16G 没什么问题吧,如果爬垂直领域的, 32 台 500M 的爬虫也挺好,另外谁有国内比较便宜的代理池子给推荐一下。 |
![]() | 56 gamecreating 2017-04-24 18:30:02 +08:00 跟机器有关系吗? PC 电脑一样采集.. |
57 lyhiving 2017-04-24 18:52:07 +08:00 via Android 有内幕,估计就是爬了“大数据”三个字 |
58 fermiz 2017-04-24 18:57:21 +08:00 我们学校给论坛的都 64G 。。。。 |
![]() | 60 SlipStupig 2017-04-24 19:10:14 +08:00 2G 内存+2Core 每天抓取上千万的电商数据..... |
![]() | 61 XDA 2017-04-24 19:33:18 +08:00 via iPhone 对比我们自建机房上百台物理机啥也没干不好,每月几十万的服务器租赁费用,没有对比就没有伤害 |
62 jyf 2017-04-24 20:33:20 +08:00 内存不是问题 主要是出口 ip 另外我想楼主可能是想吐草大数据这三个字 |
![]() | 63 wdlth 2017-04-24 21:34:47 +08:00 配置不是大问题,数据的处理才是…… |
![]() | 65 sagaxu 2017-04-24 21:58:29 +08:00 我手上 4 台专用的,没有内存低于 32G 的,虽然只用了不到 4G ,但是公司采购不到这么低内存的双 CPU 机器 |
![]() | 66 roist 2017-04-24 22:02:02 +08:00 听起来像是 老板有亲戚在当大官,能拿到政府补贴或者订单的 |
![]() | 67 scofieldpeng 2017-04-24 22:11:33 +08:00 我家里一个上网本, 2g 内存, atom 的 cpu , 250 的 sata 硬盘,爬了 几千万的数据,还做分析。你这硬件我都很口水好么== |
68 hpeng 2017-04-24 22:28:48 +08:00 via iPhone 港真,爬个数据要给我这么大内存我就偷笑了,又不在这台机上处理。我就不信要多差的技术的爬虫才会用到 16g 内存不够用的,带宽给足,什么都好说。 |
![]() | 69 victory 2017-04-25 04:05:37 +08:00 可以去华强北组一个二手服务器来他个 64G 内存 而且 2011 年服务器肯定用的 DDR3 内存 现在 DDR3 洋垃圾内存白菜价 |
![]() | 71 Leafove 2017-04-25 08:18:03 +08:00 员工工资都发不起结果 CEO 整天在整人工智能的公司我都见过 |
![]() | 72 phpiis 2017-04-25 08:23:59 +08:00 先爬再说啊,赚到钱了自然可以游说升级服务器 |
![]() | 73 dsg001 2017-04-25 09:05:56 +08:00 家用 pc 都不止这个配置吧 |
![]() | 74 wizardoz 2017-04-25 09:10:55 +08:00 为什么不可以搞?硬件等到不够用的时候再升级有什么问题? |
75 jianghu52 2017-04-25 09:31:08 +08:00 跟你说个真实的事情。我们公司,现在 3 台机器。 4G 内存内存,两台 python ,一台 java ,用了 2 条联通,一条电信。一个月,一台机器爬两百万条数据。你知道怎么搞定 IP 池的么。断线换 IP ! |
79 cnfzv OP |
80 cnfzv OP |
![]() | 81 zhengxiaowai 2017-04-25 10:10:28 +08:00 管爬不管修 |
![]() | 83 xiaoyu9527 2017-04-25 10:12:38 +08:00 @jianghu52 断线换 IP 的效率好么? 每次重播都是不同的 IP 么? |
![]() | 84 10years 2017-04-25 10:27:17 +08:00 反正爬数据是够了. |
![]() | 85 xiaoyang7545 2017-04-25 10:27:19 +08:00 现在。。大数据这个东西。。概念模糊。。多大的数据才算大数据。。所以好多人喊着做大数据的口号,其实做的就那么点屁大的东西 |
86 firefox12 2017-04-25 11:11:19 +08:00 @razrlele 下面很多人都做到了,不难的,爬京东是垂直网站,做好匹配 很快的, cpu 会是瓶颈,用正则和不用,性能差别不小,但是对垂直网站而言简单。 那时候京东不过 50 万种商品,现在大概几百万种了。 |
![]() | 87 herozzm 2017-04-25 11:45:50 +08:00 面对 lz 不想说什么了 |
![]() | 88 Tunar 2017-04-25 12:02:44 +08:00 数据具体什么级别啊 |
![]() | 89 mathgl 2017-04-25 12:11:05 +08:00 sqlserver 挺好的,没啥问题,当然要是没钱买是另外一件事了。 |
![]() | 90 allgy 2017-04-25 14:01:57 +08:00 我们服务器 2G |
![]() | 91 alphadog619 2017-04-25 14:41:54 +08:00 凑热闹的公司 |
92 BlackCat02 2017-04-25 18:11:42 +08:00 16G 是够磕碜。。公司分的开发机还有 32G 内存 |
![]() | 93 allansun 2017-04-25 19:11:45 +08:00 在用 512M 内存小机器跑 Redis 的人飘过。。。。 |
![]() | 94 imherer 2017-04-25 19:17:45 +08:00 我们服务器全是 1CPU 1 内存的 |
96 Nitromethane 2017-04-25 19:29:06 +08:00 是比我们实验室的机器少点~ 1000 万的量还不够大数据的标准~实验室机器上屯了 15T 脱敏的数据。。 |