
经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]
这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。
1 wysnylc 2020 年 5 月 26 日 你的业务我们怎么知道? |
2 dolphintwo 2020 年 5 月 26 日 我帮你决定吧,把一万一下的不要了,比较清爽 |
3 andy12530 2020 年 5 月 26 日 25 分位数,75 分位 |
4 across 2020 年 5 月 26 日 条件是不是少了 比如你数字都在 10000 以内,直接建个数组统计一遍就得了 |
5 black11black 2020 年 5 月 26 日 百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。 |
6 JackieMe 2020 年 5 月 26 日 via Android 找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%? |
7 dbw9580 2020 年 5 月 26 日 via Android 时间序列?和滑动平均数比较 |
8 Jooooooooo 2020 年 5 月 26 日 其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了 |
9 CopenhagenCat 2020 年 5 月 27 日 四分位距 IQR,可以尝试一下 |