如题,想收集 B 站所有用户的 UID ,但是 B 站现在用户 UID 位数已经达到了 16 位,简单的遍历似乎已经无法完成这个任务。 目前的进展: 测试了一个 16 位 UID 的上下账户,发现是连续的,疑似 B 站的散列是制造了一些固定的前缀,再以此分配 UID ,可以按一定间隔尝试寻找锚定点,进行查找。 下面这篇专栏也有一样的发现。 https://www.bilibili.com/opus/833100467182501892
看了一个测量B站Lv6用户占比的视频,我觉得不太科学,故想收集全部UID。
看了几个讨论暴力请求的,基本是没有可能,因为猪也是这么想的。
![]() | 1 moefishtang 143 天前 https://space.bilibili.com/{uid} bilibili 个人主页后面跟随的就是用户 id ,从 uid=1 开始,不停++,尝试访问对应的个人主页 能访问成功就记录用户 Username 和对应的 uid ,不能则标记为空 uid ? 感觉这个方法有点笨,而且会不会被 bilibili 风控? |
![]() | 2 NaVient 143 天前 当然是看 b 站的泄露代码看看 uid 的生成规则啦(不是 至少对 21 年以前的用户是有效的 |
![]() | 3 mingde816 OP @moefishtang 16 位 UID 你拿什么遍历,而且高并发直接风控,一秒 10 个用户都做不到(实测) |
![]() | 4 Belmode 143 天前 提供个思路,感觉技术可行:做个 B 站 XX 插件、脚本,让别人去下载,收集使用插件、脚本的人的 uid ,并且同时收集他们的关注列表。 我告诉你,最好不要干这种事,这是非法的!收集用户信息这种行为比爬页面还危险的多,非常可拷,起步就是 6 个月,罪名是:非法侵入计算机信息系统罪。你没有那些巨头流氓有证,能“合法”搜刮用户信息,你小公司、个人敢干就等着吧。(身边亲眼所见被抓的) |
![]() | 5 jaTomn 143 天前 ![]() 提供一个思路,找几个粉丝最多的 up 主,dfs 粉丝树 |
8 loser123 143 天前 @moefishtang 按理来说没拿到鉴权的 token 是无法获得对应用户信息的, 除非没做水平鉴权 |
![]() | 9 mingde816 OP @loser123 这个玩意貌似吃 IP ,我第一遍每秒稳定 40 个请求,总共是 10200 条请求,请求到第 4800 个开始风控,我做了并发和速率限制,然后后面全部失效。我第二遍尝试总共成功了一次,第三遍成功了 900 次。然后现在稳定风控。() |
10 defaw 143 天前 除了扫没有办法,有一个取巧的办法是买别人在 b 站加强风控之前爬好的数据。 |
![]() | 11 Doiiars 143 天前 搜索引擎抓过的东西可以用搜索引擎加速的。 |
13 guo4224 143 天前 via iPhone ![]() 滚,别爬劳资的资料 |
![]() | 18 RlyehHime 143 天前 via iPhone 好奇要这个干吗的 |
19 h1298841903 143 天前 @mingde816 #6 200 个也不少了吧,这样递归查询,同时查询粉丝和关注,在通过搜索关键字,通过视频查询 UP 主,感觉几轮下来,就收集的差不多了,剩下的估计就是僵尸号了。 可以通过抽样的方式,看自己搜集的比例。 |
![]() | 20 duanxianze 143 天前 行走在违法犯罪的边缘 |
![]() | 21 Shatyuka 143 天前 刑啊 |
![]() | 22 teble 143 天前 可刑可拷 |
![]() | 23 evan1 PRO 试试去爬 google 。google 搜一下 site:bilibili.com {uuid},有结果就有对应的用户,没结果就没用户。 |
![]() | 24 Wxh16144 143 天前 ![]() |
![]() | 27 x86 143 天前 带预算自然有人给你做 |
![]() | 28 lisxour 143 天前 这种东西还要问吗,不靠自己用号码池抓,你要不打电话给 b 站运维,让他把数据库导出打包发给你? |
29 Laobai 143 天前 太刑了 |
![]() | 30 binge921 143 天前 太刑了 |
31 JoeDH 143 天前 收集的理由? |
32 sir283 143 天前 via Android 用 selenium 调用浏览器访问? |
33 FlashEcho 143 天前 @Belmode #4 B 站有好几个大规模搜集用户信息的爬虫站(虽然因为反爬收集地不全),比如: laplace.live aicu.cc 我感觉如果没有商业冲突,至少 B 站是懒得管的,他们内控都一团糟,普通开发都能去生产数据库查用户隐私开盒用户,外部的网站就更懒得管了 |
34 abc1310054026 143 天前 这可能是个 XY Problem ,你想收集 UID 用来干什么? |
![]() | 35 C02TobNClov1Dz56 143 天前 ![]() 你可以试试到 b 站入职, 当现场运维人员, 然后到备份库里面导一份全量的 uid) |
![]() | 36 la2la 143 天前 V 站联系 B 站数仓人员,每天用 excel 给你拷出来一点 |
![]() | 38 suyuyu 143 天前 看了一下我的是 8 位 |
![]() | 39 edward1987 143 天前 B 站主页啥的有风控,但是活动页不一定有风控 可以找几个活动看下请求 |
40 franswish 143 天前 没玩过爬虫技术,以下是我的一些突发想法和问题: 有没有懂法的人介绍下,爬虫行为是否触犯法律和爬取速率、数据量有关系吗? 除了本贴提到的爬 b 站用户 UID (商业网站),以前还看到过想自动化爬取公开招标公告的(政府、机构、国企网站),前者只有在比较快的速率和相对大的数据量下才会有实际使用价值,而后者说只是想用脚本替掉自己每天手动刷新(也就是说只需要每天若干次爬取即可),两者都算非法入侵计算机信息系统吗? 反过来说,如果我发动很多人集中访问某个地址,行为中不包含任何自动化手段,是否不管我发动多少人,都不算非法入侵计算机信息系统? |
![]() | 41 duanxianze 143 天前 @franswish 最后一个,并不是,即使手段合法,实际造成了损失,一样可以判非法入侵计算机信息系统 |
42 1018ji 143 天前 遍历出来在 b 站发视频卖,起不美哉 |
![]() | 43 shadowyue 143 天前 你不用想做全量测试,做随机抽查,做概率测试,样本量多一点,结果就已经八九不离十了 |
![]() | 44 shadowyue 143 天前 油管上应该也有类似的内容,是分析油管有多少个视频的,你去搜搜 |
![]() | 45 MrKeanu 142 天前 你们的想法怎么这么有趣,我怎么想不到去爬 16 位的全量 uid 这种骚操作 |
46 Inception7 142 天前 @evan1 只搜的到知名 up 主 自搜查不到 |
![]() | 47 duzhuo 142 天前 @Inception7 昨天试了 duckduckgo 是可以的,site:space.bilibili.com |