Bilibili 上面那些数据可视化的视频,数据都是来自哪里? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
changwei
V2EX    问与答

Bilibili 上面那些数据可视化的视频,数据都是来自哪里?

  •  
  •   changwei 2018-12-14 19:34:22 +08:00 7860 次点击
    这是一个创建于 2492 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如这个 up 主 https://space.bilibili.com/5760446

    我看了一下他视频里面的数据最早一直到 2010 年,不知道这些数据都是哪里来的啊?如果真是 up 主自己爬虫抓了八年,那也真是厉害啊!!!

    20 条回复    2018-12-17 10:47:01 +08:00
    liyvhg
        1
    liyvhg  
       2018-12-14 19:36:46 +08:00 via Android
    战略性 mark。
    可能是来自于一些统计机构的公开数据吧?
    xzc19970719
        2
    xzc19970719  
       2018-12-14 19:39:15 +08:00
    自己爬的??根据日期分嘛
    Rokee
        3
    Rokee  
       2018-12-14 21:35:39 +08:00 via iPhone
    azh7138m
        4
    azh7138m  
       2018-12-14 21:38:57 +08:00 via Android
    @Rokee 读题啊
    是 数据 哪里 来的
    fuchar
        5
    fuchar  
       2018-12-14 21:39:49 +08:00
    mark 一下
    orsweet
        6
    orsweet  
       2018-12-14 21:43:24 +08:00 via Android
    插眼
    e9e499d78f
        7
    e9e499d78f  
       2018-12-14 21:46:31 +08:00
    open data ?
    gabon
        8
    gabon  
       2018-12-14 21:47:15 +08:00 via Android
    mock ?
    orangeade
        9
    orangeade  
       2018-12-14 21:58:18 +08:00 via Android   1
    公开数据集吧,谷歌今年还出了个数据集搜索引擎来着
    syahd
        10
    syahd  
       2018-12-14 22:00:39 +08:00 via Android   1
    我也想问,一想到数据来源可能很水立马觉得这些事情很 low。。
    我猜是百度 /谷歌的搜索指数?
    yingfengi
        11
    yingfengi  
       2018-12-14 22:09:45 +08:00 via Android
    有时候可能是编的,或者,百度一下。
    大部分所谓的统计,水分很大的。
    enjoyCoding
        12
    enjoyCoding  
       2018-12-15 01:45:19 +08:00 via iPhone
    Math.radom+lastRadom
    dachuige
        13
    dachuige  
       2018-12-15 01:54:28 +08:00
    这个问题困扰了好久
    Torpedo
        14
    Torpedo  
       2018-12-15 02:06:27 +08:00 via Android
    官方告诉的吧?
    molvqingtai
        15
    molvqingtai  
       2018-12-15 02:10:38 +08:00 via Android
    排除法,肯定不是八年抓的
    locoz
        16
    locoz  
       2018-12-15 05:40:19 +08:00   1
    首先从八年前开始爬到现在的概率非常低,这个 up 主的账号是 2014 年注册的,八年前他可能还不知道 b 站,或者并不会觉得这个网站的数据能有什么意义。
    然后根据他发的视频内容来看,av26727147 这个视频里在 2009 年的时候就出现了广告和时尚区的记录,而这两个区在我的印象中是最近一两年才出来的;还有一点就是所有视频的开头都是有一部分不为 0。
    推测出可能的情况:
    1、根据发布时间筛选那个时间以前的视频,并计算需要的值的总和。(但是根据我服务器上 2017 年 8 月 17 日的全站数据来看,按这种方式算出来的值与视频中的对不上)
    2、数据来源于第三方监控平台。(但是起始时间太早了,那时候一是可能没有这种监控平台,二是当时 b 站只是小众圈子,就算有监控平台也不太可能收录)
    3、b 站官方记录的数据,py 交易得来。(概率较低,那么早的时候 b 站会专门存这种每天的记录?)
    4、爬网页时光机、快照之类的东西,得到历史网页并解析出当时的实际值。(覆盖面不广、没有完整的数据,视频里看着又挺多,也不太可能)
    5、用评论来做估值,根据评论时间和数量判断当时的值是多少,并生成假数据。(有点可能性,但存在评论很少播放量 /收藏量很高的视频,这么弄的话误差可能比较大)
    6、以部分时间节点为关键点,并根据现在的数据来生成假数据。
    所以很可能是假数据
    locoz
        17
    locoz  
       2018-12-15 05:47:08 +08:00
    @locoz #16 补充第一点的对比,可以看到用 [2017 年 8 月 17 号的全站数据] 统计出来的 [发布时间小于等于 2009 年 10 月 1 日的视频] 的收藏数都要比视频中的高出很多。

    Pythondr
        18
    Pythondr  
       2018-12-15 10:48:52 +08:00 via Android
    看个趋势,看个热闹罢了
    changwei
        19
    changwei  
    OP
       2018-12-15 21:23:09 +08:00
    @whwq2012
    @orangeade
    @locoz

    百度指数目前最早可以查到 2011 年的数据,我也猜测是来自这个。但是他有一些数据,例如视频收藏,投币数量这种数据最早一直到 2012 年,这种数据,还要追溯到这么久以前,只有 b 站内部的人,而且还要是较高级别的运营人员才能弄到时间范围这么宽的数据吧。我就很好奇这些数据他是怎么来的,看他的账号还有 b 站官方认证,难道 b 站默默承认了他数据的真实性嘛?

    另外,如果真是假数据的话,这些 up 主就有点哗众取宠了吧,弄虚作假搞些大新闻来赚人气博眼球,我觉得这样不太好。
    locoz
        20
    locoz  
       2018-12-17 10:47:01 +08:00
    @changwei #19 百度指数那部分没问题,正常情况就能爬到,就是 B 站内的那部分数据有点怪而已。
    然后那个认证内容是“ bilibili 知名科普 UP 主”,并不能说明数据的真实性。而且审核人员的级别也不高,也无法得知数据是不是真实的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     944 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 22:07 PVG 06:07 LAX 15:07 JFK 18:07
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86