
主要用来存实验数据(还有 djj )小文件特别多( 300 万个),加起来没多大,4T 左右。百度盘超级会员还有 2 年,前几天公开课被百度替换成 8 秒教育片,实在忍不了,开了一个月 10TB Google One (因为 G Suite 有 40 万文件限制),rclone 用了半个月传完,发现文件夹大小都看不了,文件传没传完都不知道,打算自建。目前服务器用的是 Nextcloud,别的没问题,3900X + 32GB RAM 的服务器 300 万文件光索引就用了 2 天。干什么都要扫描 2 天,搜索一次 20 分钟没出结果。查了下有人推荐 Filerun 听说对大量文件支持很好。不知道有没 V 友用过?
1 Xusually 2020-08-12 17:33:19 +08:00 群晖? |
2 naohion OP @Xusually 不想买 NAS,只有一台闲置的 3900X 没独显的电脑装 CentOS 当测试服务器。不知道能不能跑黑群晖。 |
3 laminux29 2020-08-12 17:55:23 +08:00 我觉得,你的问题在于,自己的知识水平,是一个急需扫盲的阶段,却又想着做一些博学家阶段才能做的事情。 比如你说,索引用了 2 天,搜索一次 20 分钟没结果,问题是,索引与搜索阶段,你有没有分析过设备负载?甚至给开源产品直接调试做性能分析? 你这种情况,最实际的就是,直接把需求,外包给公司,花钱让别人帮你做。 |
4 bigmomo 2020-08-12 17:59:01 +08:00 seafile 用专业版 |
5 ruixue 2020-08-12 18:13:10 +08:00 G Suite 的个人云端硬盘并没有 40 万文件限制,有限制的那是共享云端硬盘,但是也没限制共享盘的数量 G Suite 可以用第三方 api 客户端来查看文件夹大小,比如 AirExplorer 等,也可以用虚拟云端硬盘直接挂载查看 |
6 zu1k 2020-08-12 18:21:45 +08:00 via Android 大量非结构化的小文件应该用对象存储吧 |
7 fhsan 2020-08-12 18:35:20 +08:00 建议 ntfs + winnt + everything,秒处理 |
8 zachlhb 2020-08-12 18:56:43 +08:00 via Android nextcloud 要用 postgresql 数据库,性能提升不是一星半点 |
9 des 2020-08-12 19:15:25 +08:00 |
10 naohion OP |
11 wtks1 2020-08-12 20:47:07 +08:00 via Android 慢,是不是因为磁盘 IO 性能差? |
12 naohion OP @wtks1 数据库(应该包含索引)在英特尔企业级 ssd 数据盘是旧服务器上的希捷酷狼(好像叫这名字) 8T |
13 devliu1 2020-08-12 20:53:04 +08:00 补充下 @zachlhb 的方案。Windows Server + NTFS + Everything HTTP Server,仅仅针对文件名检索 |
15 zacklin99 2020-08-12 20:59:05 +08:00 via Android 目前用的 docker+owncloud+MySQL,感觉没啥大问题。 |
16 festoney8 2020-08-12 21:11:24 +08:00 文件名搜索和文件夹大小统计的话,NTFS 的 mft 表挺适合处理这个,用这个特性,everything 做快速搜索,wiztree 可以做快速文件夹大小统计 |
17 gjf 2020-08-12 21:11:48 +08:00 从技术角度看,如果是用自己的硬件的话(内网),可以使用至少 3 台以上 Linux 安装类似于 FastDFS 或者 MongoDB ( GridFS )分布式文件系统组成集群(高可用、有容错),这样做比较麻烦,需要自己写代码用 API 对接文件系统。 如果上云的话就是对象存储了呗 |
18 misty8873 2020-08-12 21:14:22 +08:00 用对象存储吧 简单方便。。。 |
19 Hansah 2020-08-12 21:18:24 +08:00 everything 不行? |
20 yyyb 2020-08-12 22:22:50 +08:00 如果我说用 nfs+samba+ftp 共享同一目录会有人抽我么?在家 windows 电脑挂载 samba,linux 挂载 nfs,在外用 ftp |
21 jianixrabbit 2020-08-12 22:26:58 +08:00 via Android @yyyb 抽啥 很多 nas 软件也实现了一样的用法 |
22 calmzhu 2020-08-12 22:35:54 +08:00 如果每日流量不大的话,直接试下阿里 oss 存储? 自带了客户端上传下载都方便。 就是一个网络硬盘,免维护。 |
26 lishoujun 2020-08-12 22:48:47 +08:00 rockedsdb 满足你的需求么? 数据量太大是否可以分片呢? =========== 公开课被替换 和你的实验数据存储在百度云有冲突么? 可以申诉的,即使嫌麻烦不想申诉,似乎也不影响你存实验数据 |
28 loveqianool 2020-08-12 22:51:34 +08:00 七楼说的 ntfs + winnt + everything 移动设备用 RDP 呀 |
30 mmdsun 2020-08-13 00:22:24 +08:00 via Android OneIndex,PyOne 搭建。白嫖开发者账号。空间基本用不完。 |
32 naohion OP @laminux29 CPU RAM 磁盘 IO 占用都很低,F12 显示超时,不知道为什么。只是归档一些数据,不想耗太高成本。 |
33 SingeeKing PRO G Suite 肯定没有 40W 数量限制,我之前还写 nodejs 的时候几十个项目的 node_modules 扔里面都没问题,更别说我自己还有十几 T 的文件了 |
34 yeet 2020-08-13 00:32:30 +08:00 不算是回答 只是说下 rclone 有可以检查文件数量和大小的 size 命令 返回有多少文件 文件大小 也有可以对比两边文件(夹)一致性的 check 命令 |
35 fkmc 2020-08-13 00:35:44 +08:00 via iPhone nextcloud 加 es 全文搜索 |
37 lc7029 2020-08-13 01:05:26 +08:00 NAS 算吗? |
38 WhatZ 2020-08-13 07:49:24 +08:00 via Android 自建的硬盘 io 和服务器负载,如果负载太高还是升级吧 |
39 fantasylidong 2020-08-13 08:14:03 +08:00 via Android g suite 个人盘并没有大小和文件夹的限制,文件夹大小你都用 rclone,不知道用 rclone 的命令看一下,而且 rclone 也可以检验 |
40 vislins 2020-08-13 09:18:24 +08:00 via iPhone 技术不行+数据不值钱+自己的时间不值钱系列。 |
41 keventseng 2020-08-13 09:38:59 +08:00 不想白裙,那就上台黑裙:P )入台矿渣就满足需求了。 |
42 naohion OP @vislins 私有云怎么说也比公有云安全,而且我还自动备份到公有云。Apple ID 莫名被封后使用公有云就比较谨慎。 |
43 KagurazakaNyaa 2020-08-13 10:08:05 +08:00 这种情况还是用对象存储吧,gcp 的 Storage 或者 AWS 的 S3 都不错 |
44 evilic 2020-08-13 10:35:30 +08:00 我的建议是一台高性能的 nas,加一台多盘位的低性能 nas 做备份(或者直接忽略此项)。 高性能的 nas 开启 webdav,如果有外网 ip 或者能穿透的话,所有平台使用 raidrive 之类的挂载到本地电脑上。nas 可以同时开启索引功能,由于性能高,或许能够解决些问题。备份的话,将指定的目录直接同步到多个 google 或其它平台的对象存储上(如果不放心,就找另外一台 nas 自动同步过去备份)。 个人使用的话,我是不建议搭建 ceph, hadoop 对象存储, openstack 对象存储 这类的。因为多副本硬盘成本太高了不说,集群网络性能的要求也不低。价格成本和学习成本太高了。 |
45 byzf 2020-08-13 11:45:04 +08:00 三百万文件扫两天? 一秒扫 17 个文件? 你这索引是不是把文件内容也索引了? 我觉得肯定没到机器性能问题这一步. |
46 chins 2020-08-13 11:46:22 +08:00 via Android 有,但是是 cloudreve 哈哈哈 |
47 pkwenda 2020-08-13 12:11:18 +08:00 minio,碎文件小文件---大文件(5T) 都可,存储非结构化数据,自带类似百度网盘的分享,上亿文件也没问题,搭建很简单 https://niubility.me/1b67547c71f64aec889fd5b9f47cedd2 |
48 xmh51 2020-08-13 14:11:03 +08:00 seafile 试一下 存储机制不一样 |
49 darkerlight 2020-08-13 15:08:55 +08:00 在等易有云 2 完善 |
50 locoz 2020-08-13 15:21:27 +08:00 nextcloud 和 seafile 都一样,碰到大量文件就特别慢,但是不至于慢到扫描两天...建议检查一下具体是哪里的问题。 |
51 junefox 2020-08-13 15:33:09 +08:00 可道云? |
52 xz410236056 2020-08-13 15:41:11 +08:00 @naohion 3900X 功耗太大,淘宝 or 咸鱼买星级蜗牛这种矿难机。300 来块且低功耗,店家还给你装好黑群。省事不操心 |
53 TEwrc 2020-08-13 16:38:12 +08:00 nextcloud 确实是慢 我之前有十多万张图片传上去,移动端 app 连上去经常加载不出来,刷新都很费劲 |
55 smallthing 2020-08-15 16:50:56 +08:00 @naohion 3900x 没独显能开机吗 还真没试过 |
56 shentar 2020-08-16 19:06:27 +08:00 对象存储适合存储数据,前缀(目录)检索。 但是 djj 哪家都不会收,除非自己重新编码一下文件。 推荐本地 windows server + everything,300 万毫无压力。 |