
有一个项目,大概就是抓取一些数据,每条数据包含很短的字符串(不超过 200 字)和一些数字。
现在是通过把这些字符串数字等拼在一起,计算 MD5,存入数据库,以 MD5 作为唯一索引判断是否存在。
但是感觉 MD5 太长了,占用数据库空间,有没有更短的摘要算法,以减少数据库占用?
1 qwe61655 2018-10-31 11:25:37 +08:00 via iPhone 要短还要可靠 你不觉得冲突了吗 |
2 creamiced 2018-10-31 11:26:31 +08:00 抛个砖:使用 MD5 结果的前几位。 嫌 MD5 占用空间,是否说明数据量极大,能否接受更短的结果带来的更大的碰撞几率? |
3 kernel 2018-10-31 11:26:43 +08:00 取 md5 一段就行了 |
4 yanaraika 2018-10-31 11:26:46 +08:00 直接随便找个 digest 算法,取输出前若干位 |
5 Aliencn 2018-10-31 11:27:52 +08:00 |
6 surfire91 2018-10-31 11:28:08 +08:00 如何定义可靠? 你要多短的?可以看看 CRC。 |
7 imdong 2018-10-31 11:30:24 +08:00 那你有多少条数据呢? 10 条数据的话,md5 截取固定两三位也许就够了。 如果数据量非常大,我认为 md5 已经不够可靠了。 |
8 e9e499d78f 2018-10-31 11:30:29 +08:00 via iPhone xxhash 64 |
9 wysnylc 2018-10-31 11:32:18 +08:00 建议数据库全清,更省 |
10 batter 2018-10-31 11:33:15 +08:00 再短容易撞吧? |
11 shoumu 2018-10-31 11:36:19 +08:00 md5 你可以只取 64 位啊,你可以算一下碰撞概率,符合预期还可以取更短的长度 |
12 qq316107934 2018-10-31 11:40:39 +08:00 md5 可以 binary 化映射到 ASCII 全区域啊,32x16/128=4,四个字符长度足矣 |
13 msg7086 2018-10-31 12:50:34 +08:00 @qq316107934 128bit 16 字节的二进制是怎么算出四个字符的。 @myse 自己计算一下碰撞概率,算出碰撞空间,转换成 bit 就知道该用什么了。 这些密码学摘要算法的长度就是碰撞可靠性。缩短长度就是缩短碰撞可靠性。 如前面所说,每减少 1bit,碰撞空间减半,等于碰撞概率加倍。减少一个字节就是碰撞概率变成原来的 256 倍,md5 切一半就是原来的 2^64 倍。 |
14 glues 2018-10-31 12:58:21 +08:00 md5 这种过时的东西,居然还有人在用? 如 12 楼所说的,摘要指不一定非要用 hex,用 ASCII 的话,应该能省点空间 另外,硬盘白菜价的年代,还在乎这点空间? |
15 jjianwen68 2018-10-31 13:03:35 +08:00 md5 前 4 位后 4 位综合判断是不是就够了 |
16 qq316107934 2018-10-31 14:11:16 +08:00 @msg7086 #13 不好意思没仔细思考算错了,一个 ASCII 是 8bit,一个 HEX 是 4bit,应该是长度折半。 |
17 geelaw 2018-10-31 14:39:59 +08:00 via iPhone @glues #14 这个场景里并没有 adversarially chosen strings,MD5 属于一种随意的选择。 回到楼主的问题,如果你把 hash 函数建模为 random oracle,输出长度是 k bits 时,在 2^(k/2) 个 strings 时有常数概率碰撞。一般希望碰撞概率是 negligible,所以可以设置 k = w(log t) + 2 log N 其中 N 是数据的个数,t 是安全参数,w 表示严格高阶无穷大。 |
18 zjp 2018-10-31 14:45:52 +08:00 md5 取部分不如 CRC16/CRC32 实际上差不了多少 |
19 jimages 2018-10-31 14:47:47 +08:00 via iPhone 布隆过滤器? |