有自建网盘的 V 友吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
naohion
V2EX    云计算

有自建网盘的 V 友吗?

  •  
  •   naohion 2020-08-12 17:24:03 +08:00 10966 次点击
    这是一个创建于 1953 天前的主题,其中的信息可能已经有所发展或是发生改变。

    主要用来存实验数据(还有 djj )小文件特别多( 300 万个),加起来没多大,4T 左右。百度盘超级会员还有 2 年,前几天公开课被百度替换成 8 秒教育片,实在忍不了,开了一个月 10TB Google One (因为 G Suite 有 40 万文件限制),rclone 用了半个月传完,发现文件夹大小都看不了,文件传没传完都不知道,打算自建。目前服务器用的是 Nextcloud,别的没问题,3900X + 32GB RAM 的服务器 300 万文件光索引就用了 2 天。干什么都要扫描 2 天,搜索一次 20 分钟没出结果。查了下有人推荐 Filerun 听说对大量文件支持很好。不知道有没 V 友用过?

    56 条回复    2020-08-16 19:06:27 +08:00
    Xusually
        1
    Xusually  
       2020-08-12 17:33:19 +08:00
    群晖?
    naohion
        2
    naohion  
    OP
       2020-08-12 17:45:45 +08:00
    @Xusually 不想买 NAS,只有一台闲置的 3900X 没独显的电脑装 CentOS 当测试服务器。不知道能不能跑黑群晖。
    laminux29
        3
    laminux29  
       2020-08-12 17:55:23 +08:00   7
    我觉得,你的问题在于,自己的知识水平,是一个急需扫盲的阶段,却又想着做一些博学家阶段才能做的事情。

    比如你说,索引用了 2 天,搜索一次 20 分钟没结果,问题是,索引与搜索阶段,你有没有分析过设备负载?甚至给开源产品直接调试做性能分析?

    你这种情况,最实际的就是,直接把需求,外包给公司,花钱让别人帮你做。
    bigmomo
        4
    bigmomo  
       2020-08-12 17:59:01 +08:00
    seafile 用专业版
    ruixue
        5
    ruixue  
       2020-08-12 18:13:10 +08:00
    G Suite 的个人云端硬盘并没有 40 万文件限制,有限制的那是共享云端硬盘,但是也没限制共享盘的数量
    G Suite 可以用第三方 api 客户端来查看文件夹大小,比如 AirExplorer 等,也可以用虚拟云端硬盘直接挂载查看
    zu1k
        6
    zu1k  
       2020-08-12 18:21:45 +08:00 via Android
    大量非结构化的小文件应该用对象存储吧
    fhsan
        7
    fhsan  
       2020-08-12 18:35:20 +08:00
    建议 ntfs + winnt + everything,秒处理
    zachlhb
        8
    zachlhb  
       2020-08-12 18:56:43 +08:00 via Android
    nextcloud 要用 postgresql 数据库,性能提升不是一星半点
    des
        9
    des  
       2020-08-12 19:15:25 +08:00
    大量文件建议用对象存储
    https://www.min.io
    https://opendev.org/openstack/swift

    不过首先要搞清楚,你说的搜索,打算搜索什么?
    naohion
        10
    naohion  
    OP
       2020-08-12 20:26:31 +08:00 via iPhone
    @des 就是普通的文件名搜索,不知道 nextcloud 有索引了为什么还这么慢。
    @fhsan 没有缩略图,移动设备查看不方便。
    wtks1
        11
    wtks1  
       2020-08-12 20:47:07 +08:00 via Android
    慢,是不是因为磁盘 IO 性能差?
    naohion
        12
    naohion  
    OP
       2020-08-12 20:51:37 +08:00 via iPhone
    @wtks1 数据库(应该包含索引)在英特尔企业级 ssd 数据盘是旧服务器上的希捷酷狼(好像叫这名字) 8T
    devliu1
        13
    devliu1  
       2020-08-12 20:53:04 +08:00
    补充下 @zachlhb 的方案。Windows Server + NTFS + Everything HTTP Server,仅仅针对文件名检索
    devliu1
        14
    devliu1  
       2020-08-12 20:53:49 +08:00
    @错了抱歉,应该是 @fhsan
    zacklin99
        15
    zacklin99  
       2020-08-12 20:59:05 +08:00 via Android
    目前用的 docker+owncloud+MySQL,感觉没啥大问题。
    festoney8
        16
    festoney8  
       2020-08-12 21:11:24 +08:00
    文件名搜索和文件夹大小统计的话,NTFS 的 mft 表挺适合处理这个,用这个特性,everything 做快速搜索,wiztree 可以做快速文件夹大小统计
    gjf
        17
    gjf  
       2020-08-12 21:11:48 +08:00
    从技术角度看,如果是用自己的硬件的话(内网),可以使用至少 3 台以上 Linux 安装类似于 FastDFS 或者 MongoDB ( GridFS )分布式文件系统组成集群(高可用、有容错),这样做比较麻烦,需要自己写代码用 API 对接文件系统。
    如果上云的话就是对象存储了呗
    misty8873
        18
    misty8873  
       2020-08-12 21:14:22 +08:00
    用对象存储吧 简单方便。。。
    Hansah
        19
    Hansah  
       2020-08-12 21:18:24 +08:00
    everything 不行?
    yyyb
        20
    yyyb  
       2020-08-12 22:22:50 +08:00
    如果我说用 nfs+samba+ftp 共享同一目录会有人抽我么?在家 windows 电脑挂载 samba,linux 挂载 nfs,在外用 ftp
    jianixrabbit
        21
    jianixrabbit  
       2020-08-12 22:26:58 +08:00 via Android
    @yyyb 抽啥 很多 nas 软件也实现了一样的用法
    calmzhu
        22
    calmzhu  
       2020-08-12 22:35:54 +08:00
    如果每日流量不大的话,直接试下阿里 oss 存储?
    自带了客户端上传下载都方便。
    就是一个网络硬盘,免维护。
    calmzhu
        23
    calmzhu  
       2020-08-12 22:37:22 +08:00
    @calmzhu 看粗了。需要搜索索引的话不合适,这个只是硬盘
    Xusually
        25
    Xusually  
       2020-08-12 22:44:41 +08:00
    @naohion 楼主你被降权了?你 @我没有提醒。
    lishoujun
        26
    lishoujun  
       2020-08-12 22:48:47 +08:00
    rockedsdb 满足你的需求么? 数据量太大是否可以分片呢?
    ===========
    公开课被替换 和你的实验数据存储在百度云有冲突么?
    可以申诉的,即使嫌麻烦不想申诉,似乎也不影响你存实验数据
    naohion
        27
    naohion  
    OP
       2020-08-12 22:50:44 +08:00 via iPhone
    @Xusually 不知道,可能是因为注册未满 90 天的原因?
    loveqianool
        28
    loveqianool  
       2020-08-12 22:51:34 +08:00
    七楼说的 ntfs + winnt + everything
    移动设备用 RDP 呀
    naohion
        29
    naohion  
    OP
       2020-08-12 22:51:58 +08:00 via iPhone
    @lishoujun 随便替换别人数据,担心什么时候重要数据也被替换了。
    mmdsun
        30
    mmdsun  
       2020-08-13 00:22:24 +08:00 via Android   1
    OneIndex,PyOne 搭建。白嫖开发者账号。空间基本用不完。
    naohion
        31
    naohion  
    OP
       2020-08-13 00:27:48 +08:00
    @mmdsun 存数据的东西白嫖还不如存百度网盘
    naohion
        32
    naohion  
    OP
       2020-08-13 00:30:32 +08:00
    @laminux29 CPU RAM 磁盘 IO 占用都很低,F12 显示超时,不知道为什么。只是归档一些数据,不想耗太高成本。
    SingeeKing
        33
    SingeeKing  
    PRO
       2020-08-13 00:30:38 +08:00
    G Suite 肯定没有 40W 数量限制,我之前还写 nodejs 的时候几十个项目的 node_modules 扔里面都没问题,更别说我自己还有十几 T 的文件了
    yeet
        34
    yeet  
       2020-08-13 00:32:30 +08:00
    不算是回答 只是说下
    rclone 有可以检查文件数量和大小的 size 命令
    返回有多少文件 文件大小
    也有可以对比两边文件(夹)一致性的 check 命令
    fkmc
        35
    fkmc  
       2020-08-13 00:35:44 +08:00 via iPhone
    nextcloud 加 es 全文搜索
    WebKit
        36
    WebKit  
       2020-08-13 00:49:16 +08:00 via Android
    @naohion 可以跑黑裙。
    lc7029
        37
    lc7029  
       2020-08-13 01:05:26 +08:00
    NAS 算吗?
    WhatZ
        38
    WhatZ  
       2020-08-13 07:49:24 +08:00 via Android
    自建的硬盘 io 和服务器负载,如果负载太高还是升级吧
    fantasylidong
        39
    fantasylidong  
       2020-08-13 08:14:03 +08:00 via Android
    g suite 个人盘并没有大小和文件夹的限制,文件夹大小你都用 rclone,不知道用 rclone 的命令看一下,而且 rclone 也可以检验
    vislins
        40
    vislins  
       2020-08-13 09:18:24 +08:00 via iPhone
    技术不行+数据不值钱+自己的时间不值钱系列。
    keventseng
        41
    keventseng  
       2020-08-13 09:38:59 +08:00
    不想白裙,那就上台黑裙:P )入台矿渣就满足需求了。
    naohion
        42
    naohion  
    OP
       2020-08-13 09:59:26 +08:00 via iPhone
    @vislins 私有云怎么说也比公有云安全,而且我还自动备份到公有云。Apple ID 莫名被封后使用公有云就比较谨慎。
    KagurazakaNyaa
        43
    KagurazakaNyaa  
       2020-08-13 10:08:05 +08:00
    这种情况还是用对象存储吧,gcp 的 Storage 或者 AWS 的 S3 都不错
    evilic
        44
    evilic  
       2020-08-13 10:35:30 +08:00
    我的建议是一台高性能的 nas,加一台多盘位的低性能 nas 做备份(或者直接忽略此项)。

    高性能的 nas 开启 webdav,如果有外网 ip 或者能穿透的话,所有平台使用 raidrive 之类的挂载到本地电脑上。nas 可以同时开启索引功能,由于性能高,或许能够解决些问题。备份的话,将指定的目录直接同步到多个 google 或其它平台的对象存储上(如果不放心,就找另外一台 nas 自动同步过去备份)。

    个人使用的话,我是不建议搭建 ceph, hadoop 对象存储, openstack 对象存储 这类的。因为多副本硬盘成本太高了不说,集群网络性能的要求也不低。价格成本和学习成本太高了。
    byzf
        45
    byzf  
       2020-08-13 11:45:04 +08:00
    三百万文件扫两天? 一秒扫 17 个文件? 你这索引是不是把文件内容也索引了?
    我觉得肯定没到机器性能问题这一步.
    chins
        46
    chins  
       2020-08-13 11:46:22 +08:00 via Android
    有,但是是 cloudreve 哈哈哈
    pkwenda
        47
    pkwenda  
       2020-08-13 12:11:18 +08:00
    minio,碎文件小文件---大文件(5T) 都可,存储非结构化数据,自带类似百度网盘的分享,上亿文件也没问题,搭建很简单

    https://niubility.me/1b67547c71f64aec889fd5b9f47cedd2
    xmh51
        48
    xmh51  
       2020-08-13 14:11:03 +08:00
    seafile 试一下 存储机制不一样
    darkerlight
        49
    darkerlight  
       2020-08-13 15:08:55 +08:00
    在等易有云 2 完善
    locoz
        50
    locoz  
       2020-08-13 15:21:27 +08:00
    nextcloud 和 seafile 都一样,碰到大量文件就特别慢,但是不至于慢到扫描两天...建议检查一下具体是哪里的问题。
    junefox
        51
    junefox  
       2020-08-13 15:33:09 +08:00
    可道云?
    xz410236056
        52
    xz410236056  
       2020-08-13 15:41:11 +08:00
    @naohion 3900X 功耗太大,淘宝 or 咸鱼买星级蜗牛这种矿难机。300 来块且低功耗,店家还给你装好黑群。省事不操心
    TEwrc
        53
    TEwrc  
       2020-08-13 16:38:12 +08:00
    nextcloud 确实是慢 我之前有十多万张图片传上去,移动端 app 连上去经常加载不出来,刷新都很费劲
    mmdsun
        54
    mmdsun  
       2020-08-14 12:38:50 +08:00 via Android
    @naohion 用 OneDrive 做存储总比网盘好吧。账号也是自己的。
    smallthing
        55
    smallthing  
       2020-08-15 16:50:56 +08:00
    @naohion 3900x 没独显能开机吗 还真没试过
    shentar
        56
    shentar  
       2020-08-16 19:06:27 +08:00
    对象存储适合存储数据,前缀(目录)检索。
    但是 djj 哪家都不会收,除非自己重新编码一下文件。
    推荐本地 windows server + everything,300 万毫无压力。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3627 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 10:24 PVG 18:24 LAX 02:24 JFK 05:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86