一个统计学问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 2101 天前的主题，其中的信息可能已经有所发展或是发生改变。

经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]

这些数表示某件事情发生的次数，实际上这个数组长度是百万级别的。由于像 1，2，3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了，还是把 100 以下的数不要。

第 1 条附言 2020 年 5 月 26 日

业务场景：寻找 ddos 攻击源。
那些数字可以看成某一个 ip 发送的 syn 包的数量。
真实数组中最小的只有 1，最大的 2400000 。
其中小于 10 的占比超过 2/3 。

所以问题就是找一个临界值，把多少一下的可以忽略。

9 条回复 2020-05-27 10:32:47 +08:00

wysnylc

2020 年 5 月 26 日

你的业务我们怎么知道?

dolphintwo

2020 年 5 月 26 日

我帮你决定吧，把一万一下的不要了，比较清爽

andy12530

2020 年 5 月 26 日

25 分位数，75 分位

across

2020 年 5 月 26 日

条件是不是少了
比如你数字都在 10000 以内，直接建个数组统计一遍就得了

black11black

2020 年 5 月 26 日

百万级远没到计算机性能瓶颈，问了白问，我感觉你这个问题改成百亿级还有点讨论的价值。。

JackieMe

2020 年 5 月 26 日 via Android

找个分布拟合一下，泊松分布二项分布什么的，然后切掉最小的 5%？

dbw9580

2020 年 5 月 26 日 via Android

时间序列？和滑动平均数比较

Jooooooooo

2020 年 5 月 26 日

其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了

CopenhagenCat

2020 年 5 月 27 日

四分位距 IQR，可以尝试一下