
主要用来存实验数据(还有 djj )小文件特别多( 300 万个),加起来没多大,4T 左右。百度盘超级会员还有 2 年,前几天公开课被百度替换成 8 秒教育片,实在忍不了,开了一个月 10TB Google One (因为 G Suite 有 40 万文件限制),rclone 用了半个月传完,发现文件夹大小都看不了,文件传没传完都不知道,打算自建。目前服务器用的是 Nextcloud,别的没问题,3900X + 32GB RAM 的服务器 300 万文件光索引就用了 2 天。干什么都要扫描 2 天,搜索一次 20 分钟没出结果。查了下有人推荐 Filerun 听说对大量文件支持很好。不知道有没 V 友用过?
1 Xusually 2020 年 8 月 12 日 群晖? |
3 laminux29 2020 年 8 月 12 日 我觉得,你的问题在于,自己的知识水平,是一个急需扫盲的阶段,却又想着做一些博学家阶段才能做的事情。 比如你说,索引用了 2 天,搜索一次 20 分钟没结果,问题是,索引与搜索阶段,你有没有分析过设备负载?甚至给开源产品直接调试做性能分析? 你这种情况,最实际的就是,直接把需求,外包给公司,花钱让别人帮你做。 |
4 bigmomo 2020 年 8 月 12 日 seafile 用专业版 |
5 ruixue 2020 年 8 月 12 日 G Suite 的个人云端硬盘并没有 40 万文件限制,有限制的那是共享云端硬盘,但是也没限制共享盘的数量 G Suite 可以用第三方 api 客户端来查看文件夹大小,比如 AirExplorer 等,也可以用虚拟云端硬盘直接挂载查看 |
6 zu1k 2020 年 8 月 12 日 via Android 大量非结构化的小文件应该用对象存储吧 |
7 fhsan 2020 年 8 月 12 日 建议 ntfs + winnt + everything,秒处理 |
8 zachlhb 2020 年 8 月 12 日 via Android nextcloud 要用 postgresql 数据库,性能提升不是一星半点 |
9 des 2020 年 8 月 12 日 |
10 naohion OP |
11 wtks1 2020 年 8 月 12 日 via Android 慢,是不是因为磁盘 IO 性能差? |
13 devliu1 2020 年 8 月 12 日 补充下 @zachlhb 的方案。Windows Server + NTFS + Everything HTTP Server,仅仅针对文件名检索 |
15 zacklin99 2020 年 8 月 12 日 via Android 目前用的 docker+owncloud+MySQL,感觉没啥大问题。 |
16 festoney8 2020 年 8 月 12 日 文件名搜索和文件夹大小统计的话,NTFS 的 mft 表挺适合处理这个,用这个特性,everything 做快速搜索,wiztree 可以做快速文件夹大小统计 |
17 gjf 2020 年 8 月 12 日 从技术角度看,如果是用自己的硬件的话(内网),可以使用至少 3 台以上 Linux 安装类似于 FastDFS 或者 MongoDB ( GridFS )分布式文件系统组成集群(高可用、有容错),这样做比较麻烦,需要自己写代码用 API 对接文件系统。 如果上云的话就是对象存储了呗 |
18 misty8873 2020 年 8 月 12 日 用对象存储吧 简单方便。。。 |
19 Hansah 2020 年 8 月 12 日 everything 不行? |
20 yyyb 2020 年 8 月 12 日 如果我说用 nfs+samba+ftp 共享同一目录会有人抽我么?在家 windows 电脑挂载 samba,linux 挂载 nfs,在外用 ftp |
21 jianixrabbit 2020 年 8 月 12 日 via Android @yyyb 抽啥 很多 nas 软件也实现了一样的用法 |
22 calmzhu 2020 年 8 月 12 日 如果每日流量不大的话,直接试下阿里 oss 存储? 自带了客户端上传下载都方便。 就是一个网络硬盘,免维护。 |
26 lishoujun 2020 年 8 月 12 日 rockedsdb 满足你的需求么? 数据量太大是否可以分片呢? =========== 公开课被替换 和你的实验数据存储在百度云有冲突么? 可以申诉的,即使嫌麻烦不想申诉,似乎也不影响你存实验数据 |
28 loveqianool 2020 年 8 月 12 日 七楼说的 ntfs + winnt + everything 移动设备用 RDP 呀 |
30 mmdsun 2020 年 8 月 13 日 via Android OneIndex,PyOne 搭建。白嫖开发者账号。空间基本用不完。 |
33 SingeeKing PRO G Suite 肯定没有 40W 数量限制,我之前还写 nodejs 的时候几十个项目的 node_modules 扔里面都没问题,更别说我自己还有十几 T 的文件了 |
34 yeet 2020 年 8 月 13 日 不算是回答 只是说下 rclone 有可以检查文件数量和大小的 size 命令 返回有多少文件 文件大小 也有可以对比两边文件(夹)一致性的 check 命令 |
35 fkmc 2020 年 8 月 13 日 via iPhone nextcloud 加 es 全文搜索 |
37 lc7029 2020 年 8 月 13 日 NAS 算吗? |
38 WhatZ 2020 年 8 月 13 日 via Android 自建的硬盘 io 和服务器负载,如果负载太高还是升级吧 |
39 fantasylidong 2020 年 8 月 13 日 via Android g suite 个人盘并没有大小和文件夹的限制,文件夹大小你都用 rclone,不知道用 rclone 的命令看一下,而且 rclone 也可以检验 |
40 vislins 2020 年 8 月 13 日 via iPhone 技术不行+数据不值钱+自己的时间不值钱系列。 |
41 keventseng 2020 年 8 月 13 日 不想白裙,那就上台黑裙:P )入台矿渣就满足需求了。 |
42 naohion OP @vislins 私有云怎么说也比公有云安全,而且我还自动备份到公有云。Apple ID 莫名被封后使用公有云就比较谨慎。 |
43 KagurazakaNyaa 2020 年 8 月 13 日 这种情况还是用对象存储吧,gcp 的 Storage 或者 AWS 的 S3 都不错 |
44 evilic 2020 年 8 月 13 日 我的建议是一台高性能的 nas,加一台多盘位的低性能 nas 做备份(或者直接忽略此项)。 高性能的 nas 开启 webdav,如果有外网 ip 或者能穿透的话,所有平台使用 raidrive 之类的挂载到本地电脑上。nas 可以同时开启索引功能,由于性能高,或许能够解决些问题。备份的话,将指定的目录直接同步到多个 google 或其它平台的对象存储上(如果不放心,就找另外一台 nas 自动同步过去备份)。 个人使用的话,我是不建议搭建 ceph, hadoop 对象存储, openstack 对象存储 这类的。因为多副本硬盘成本太高了不说,集群网络性能的要求也不低。价格成本和学习成本太高了。 |
45 byzf 2020 年 8 月 13 日 三百万文件扫两天? 一秒扫 17 个文件? 你这索引是不是把文件内容也索引了? 我觉得肯定没到机器性能问题这一步. |
46 chins 2020 年 8 月 13 日 via Android 有,但是是 cloudreve 哈哈哈 |
47 pkwenda 2020 年 8 月 13 日 minio,碎文件小文件---大文件(5T) 都可,存储非结构化数据,自带类似百度网盘的分享,上亿文件也没问题,搭建很简单 https://niubility.me/1b67547c71f64aec889fd5b9f47cedd2 |
48 xmh51 2020 年 8 月 13 日 seafile 试一下 存储机制不一样 |
49 darkerlight 2020 年 8 月 13 日 在等易有云 2 完善 |
50 locoz 2020 年 8 月 13 日 nextcloud 和 seafile 都一样,碰到大量文件就特别慢,但是不至于慢到扫描两天...建议检查一下具体是哪里的问题。 |
51 junefox 2020 年 8 月 13 日 可道云? |
52 xz410236056 2020 年 8 月 13 日 @naohion 3900X 功耗太大,淘宝 or 咸鱼买星级蜗牛这种矿难机。300 来块且低功耗,店家还给你装好黑群。省事不操心 |
53 TEwrc 2020 年 8 月 13 日 nextcloud 确实是慢 我之前有十多万张图片传上去,移动端 app 连上去经常加载不出来,刷新都很费劲 |
55 smallthing 2020 年 8 月 15 日 @naohion 3900x 没独显能开机吗 还真没试过 |
56 shentar 2020 年 8 月 16 日 对象存储适合存储数据,前缀(目录)检索。 但是 djj 哪家都不会收,除非自己重新编码一下文件。 推荐本地 windows server + everything,300 万毫无压力。 |