1 renmu 2019-11-16 13:02:59 +08:00 via Android MongoDB 简单粗暴 |
![]() | 2 lhx2008 2019-11-16 13:05:49 +08:00 via Android 文本追加 |
![]() | 3 eq06 2019-11-16 13:21:18 +08:00 多线程吗?多线程弄 SQLite 拆几个数据库呢 |
![]() | 4 w2er 2019-11-16 13:28:11 +08:00 via iPhone 搬好小板凳,听大佬讲课 |
![]() | 5 tomczhen 2019-11-16 13:49:53 +08:00 哪个数据库熟悉用哪个,爬太快小心变成 DDOS/CC 直接进去包吃包住。 |
![]() | 6 ClutchBear 2019-11-16 13:57:47 +08:00 阿里云的 表格存储 |
7 RicardoY 2019-11-16 13:58:13 +08:00 via Android 配置不高就直接写文件 或者 MongoDB 现在 v2 一提到爬虫就是监狱警告.. |
![]() | 8 FaceBug 2019-11-16 15:01:28 +08:00 配合消息队列先,再管数据库 |
![]() | 9 locoz 2019-11-16 15:07:19 +08:00 数据量比较大是多大?配置不高是多高?爬完之后要做什么用?数据分析还是文本检索?啥都没有那只能说哪个熟悉用哪个了 |
10 crclz 2019-11-16 15:11:10 +08:00 ![]() 只写过玩具爬虫。一点其他领域得来的拙见:如果存储空间够的话,postgres 的插入速度完全够用:用 N+1 个线程,N 个线程往 1 个 queue 里面写数据,1 个线程定期( 100ms )将数据 bulk insert 到数据库。普通的 insert 可能吃力。 也建议了解 Cassandra。 mongo 可能速度不够用。 |
![]() | 11 wangyzj 2019-11-16 15:49:39 +08:00 kafka -> es |
![]() | 12 scriptB0y 2019-11-16 16:01:04 +08:00 Mongo 最简单实用了,感觉到千万的数据都问题不大。再大可能要具体情况具体分析了。 |
13 dbow 2019-11-16 16:04:37 +08:00 选一个 Key-Value 数据库用, 比如 leveldb, rocksdb 啥的, 自建 Mysql 顶不住千万级写入。 |
![]() | 14 ClericPy 2019-11-16 16:52:13 +08:00 这个不能闭着眼来啊... 数据量大, 有多大? 不过单机放的下, 估计也不会有太大... 数据类型是什么样的, 结构化? 半结构化? 非结构化? 文章那种段文本? 用途是什么, 热数据还是冷数据, 给什么部门用, 怎么用 你这问的有点宽泛了, 如果是跟我一样的羊毛机, mysql 可以涵盖多数需求了, 几百兆内存能跑起来一个 |
15 HTSdTt3WygdgQQGe OP 大家分析的好专业,暂定 mongo 谢谢各位 |
16 wangxiaoaer 2019-11-16 17:25:07 +08:00 无脑用 MongoDB 的怕不是磁盘不要钱? |
17 0x400 2019-11-16 17:29:18 +08:00 via Android .csv |
![]() | 18 sadfQED2 2019-11-16 17:36:22 +08:00 mongodb 后期做分析好用,另外容错率高,比如爬价格,Mysql 你用 int 存,但是某个数据可能给你返一个“100 以上”,然后你就 GG 了,如果 mysql 用 json 存,后期分析数据贼难用 But,用 mongodb 可能机器配置要求比 mysql 高,装了 mongodb 的机器基本上没法干其他的了 |
19 lc7029 2019-11-17 02:45:13 +08:00 MongoDB |
![]() | 20 encro 2019-11-17 19:58:55 +08:00 分布式爬虫: 缓存队列在 redis 部署开发方便, 索引存 mysql 查询方便, 内容存 leveldb 压缩比好 |
![]() | 21 onyourroad 2019-11-18 00:45:27 +08:00 爬虫是犯法的知道吗? |
22 indicoliteplus 2019-11-18 07:49:01 +08:00 via iPhone postgres 吧,存 json 也无压力。mongodb 虽说对开发友好,但是对业务就有点恶心了 |