
背景如下
超大规模(几万亿)稀疏样本拆分成几十万 /上百万的规模进行聚类,现在使用的是 Python Sklearn 库里的 MiniBatchKMeans ,据说还是达不到业务要求
已知:现有方案只有单机场景,应该只能在 Sklearn 的基础上优化
我的任务是要比库的方法有性能提升,看了几天源码,没有什么思路...达不到性能提升的话,这工作应该是悬了
有没有优化过这一块的 xd 提供一点想法?
1 paopjian 2022-12-27 09:50:20 +08:00 几万亿的数据还是单机,这得用 CPU 跑好久吧,看着就麻烦 |
2 winglight2016 2022-12-27 10:30:32 +08:00 这么大数据量不是很容易搞吗? KNN 、SVM 一个个试过去啊,或者直接 pycaret 自动优化一把,没有比这个更轻松的工作了呀 |
3 zooo 2022-12-27 10:33:11 +08:00 找 GPU 跑 |
4 ifzzzh 2022-12-27 10:36:08 +08:00 先降维?或者用 LSH 近似聚类? |
5 LaurelHarmon 2022-12-27 10:41:25 +08:00 via Android 好好做下特征工程 |
6 jaredyam 2022-12-27 10:46:25 +08:00 你全程没提过特征处理的步骤,直接塞?建议从数据入手,没人要求你必须和一个算法死磕吧? |
7 lookStupiToForce 2022-12-27 10:48:31 +08:00 稀疏矩阵不搞特征工程等于自己给自己下降头喂屎 |
8 shoumu 2022-12-27 10:56:07 +08:00 几万亿拆分这一步是怎么做的? |
9 qzwmjv 2022-12-27 11:30:03 +08:00 先挑点特征预聚类,这个量,真的不上分布式么,单机跑到猴年马月 |
10 governcoco 2022-12-27 11:41:08 +08:00 你先清理一下数据吧,把没有意义的特征或者有问题的数据删一下。 |