请问 Python 爬虫,配合什么数据库效果最佳 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
HTSdTt3WygdgQQGe
V2EX    程序员

请问 Python 爬虫,配合什么数据库效果最佳

  •  
  •   HTSdTt3WygdgQQGe 2019-11-16 12:37:38 +08:00 via Android 4999 次点击
    这是一个创建于 2165 天前的主题,其中的信息可能已经有所发展或是发生改变。
    要爬的数据量比较大,机器配置还不高,请问怎么搭配最优
    22 条回复    2019-11-18 07:49:01 +08:00
    renmu
        1
    renmu  
       2019-11-16 13:02:59 +08:00 via Android
    MongoDB 简单粗暴
    lhx2008
        2
    lhx2008  
       2019-11-16 13:05:49 +08:00 via Android
    文本追加
    eq06
        3
    eq06  
       2019-11-16 13:21:18 +08:00
    多线程吗?多线程弄 SQLite 拆几个数据库呢
    w2er
        4
    w2er  
       2019-11-16 13:28:11 +08:00 via iPhone
    搬好小板凳,听大佬讲课
    tomczhen
        5
    tomczhen  
       2019-11-16 13:49:53 +08:00
    哪个数据库熟悉用哪个,爬太快小心变成 DDOS/CC 直接进去包吃包住。
    ClutchBear
        6
    ClutchBear  
       2019-11-16 13:57:47 +08:00
    阿里云的 表格存储
    RicardoY
        7
    RicardoY  
       2019-11-16 13:58:13 +08:00 via Android
    配置不高就直接写文件 或者 MongoDB 现在 v2 一提到爬虫就是监狱警告..
    FaceBug
        8
    FaceBug  
       2019-11-16 15:01:28 +08:00
    配合消息队列先,再管数据库
    locoz
        9
    locoz  
       2019-11-16 15:07:19 +08:00
    数据量比较大是多大?配置不高是多高?爬完之后要做什么用?数据分析还是文本检索?啥都没有那只能说哪个熟悉用哪个了
    crclz
        10
    crclz  
       2019-11-16 15:11:10 +08:00   1
    只写过玩具爬虫。一点其他领域得来的拙见:如果存储空间够的话,postgres 的插入速度完全够用:用 N+1 个线程,N 个线程往 1 个 queue 里面写数据,1 个线程定期( 100ms )将数据 bulk insert 到数据库。普通的 insert 可能吃力。
    也建议了解 Cassandra。
    mongo 可能速度不够用。
    wangyzj
        11
    wangyzj  
       2019-11-16 15:49:39 +08:00
    kafka -> es
    scriptB0y
        12
    scriptB0y  
       2019-11-16 16:01:04 +08:00
    Mongo 最简单实用了,感觉到千万的数据都问题不大。再大可能要具体情况具体分析了。
    dbow
        13
    dbow  
       2019-11-16 16:04:37 +08:00
    选一个 Key-Value 数据库用, 比如 leveldb, rocksdb 啥的, 自建 Mysql 顶不住千万级写入。
    ClericPy
        14
    ClericPy  
       2019-11-16 16:52:13 +08:00
    这个不能闭着眼来啊...
    数据量大, 有多大? 不过单机放的下, 估计也不会有太大...
    数据类型是什么样的, 结构化? 半结构化? 非结构化? 文章那种段文本?
    用途是什么, 热数据还是冷数据, 给什么部门用, 怎么用

    你这问的有点宽泛了, 如果是跟我一样的羊毛机, mysql 可以涵盖多数需求了, 几百兆内存能跑起来一个
    HTSdTt3WygdgQQGe
        15
    HTSdTt3WygdgQQGe  
    OP
       2019-11-16 17:08:01 +08:00 via Android
    大家分析的好专业,暂定 mongo 谢谢各位
    wangxiaoaer
        16
    wangxiaoaer  
       2019-11-16 17:25:07 +08:00
    无脑用 MongoDB 的怕不是磁盘不要钱?
    0x400
        17
    0x400  
       2019-11-16 17:29:18 +08:00 via Android
    .csv
    sadfQED2
        18
    sadfQED2  
       2019-11-16 17:36:22 +08:00
    mongodb 后期做分析好用,另外容错率高,比如爬价格,Mysql 你用 int 存,但是某个数据可能给你返一个“100 以上”,然后你就 GG 了,如果 mysql 用 json 存,后期分析数据贼难用

    But,用 mongodb 可能机器配置要求比 mysql 高,装了 mongodb 的机器基本上没法干其他的了
    lc7029
        19
    lc7029  
       2019-11-17 02:45:13 +08:00
    MongoDB
    encro
        20
    encro  
       2019-11-17 19:58:55 +08:00
    分布式爬虫:
    缓存队列在 redis 部署开发方便,
    索引存 mysql 查询方便,
    内容存 leveldb 压缩比好
    onyourroad
        21
    onyourroad  
       2019-11-18 00:45:27 +08:00
    爬虫是犯法的知道吗?
    indicoliteplus
        22
    indicoliteplus  
       2019-11-18 07:49:01 +08:00 via iPhone
    postgres 吧,存 json 也无压力。mongodb 虽说对开发友好,但是对业务就有点恶心了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     983 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 22:29 PVG 06:29 LAX 15:29 JFK 18:29
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86