分享一个github用户活跃度排名和中国github用户分布网站 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
cloudaice
V2EX    程序员

分享一个github用户活跃度排名和中国github用户分布网站

  •  
  •   cloudaice
    cloudaice 2013-05-22 18:27:26 +08:00 12007 次点击
    这是一个创建于 4524 天前的主题,其中的信息可能已经有所发展或是发生改变。
    前段时间写了一个github用户活跃度实时排名应用。里面包括github用户在全国省市的分布状况。看看各位githuber自己的活跃度排名吧,或者在world top1000里面有没有你的身影。

    http://data.cloudaice.com
    58 条回复    2019-04-14 11:33:51 +08:00
    flowerpiggy
        1
    flowerpiggy  
       2013-05-22 18:30:59 +08:00
    除了北京和上海,就浙江代码猴子最多了。
    cloudaice
        2
    cloudaice  
    OP
       2013-05-22 18:36:41 +08:00
    @flowerpiggy 其实浙江90%以上都是在杭州,而这其中大部分都是阿里巴巴的人。
    flowerpiggy
        3
    flowerpiggy  
       2013-05-22 18:39:15 +08:00   1
    是啊,因为有阿里巴巴,杭州聚集了很多猿,大有南方IT之都的架势了。
    另台湾是0?是没数据还是真是0?
    linzhi
        4
    linzhi  
       2013-05-22 18:49:14 +08:00
    排名第一的是个妹子啊

    BTW:没写地址的人没算在内吧
    cloudaice
        5
    cloudaice  
    OP
       2013-05-22 18:56:56 +08:00
    @linzhi 对,要是没写地址的话就没办法统计,不过里面关于地名统计还是有些问题,因为有些基本都是直接写地级市,没有写省,我对像杭州这样的比较多的做了单独处理,但是其他的都没有单独处理,不知道有没有对中国省市区进行模糊匹配的库可以利用。
    cloudaice
        6
    cloudaice  
    OP
       2013-05-22 18:57:47 +08:00
    @linzhi 开始我也以为是妹子,但是发现不是,只是用了一个妹子的头像。。。
    panxianhai
        7
    panxianhai  
       2013-05-22 19:01:37 +08:00
    这个中国地图使用什么做的?D3?
    cloudaice
        8
    cloudaice  
    OP
       2013-05-22 19:08:32 +08:00   2
    @panxianhai 开始我也打算用d3做的,但是发现还要拿中国地图的数据,后来发现了这么一个东西

    https://github.com/rockyuse/svgmap?source=cc

    于是就直接拿来用了。
    panxianhai
        9
    panxianhai  
       2013-05-22 19:14:19 +08:00
    @cloudaice 这是个好东西,谢谢告知。
    aisk
        10
    aisk  
       2013-05-22 19:24:44 +08:00
    超时了……
    cloudaice
        11
    cloudaice  
    OP
       2013-05-22 19:39:08 +08:00
    @aisk 我服务器是搭在heroku上的,国内访问heroku那么慢啊。
    aisk
        12
    aisk  
       2013-05-22 19:44:00 +08:00
    @cloudaice 开了梯子秒开,看来是heroku的问题了
    cloudaice
        13
    cloudaice  
    OP
       2013-05-22 19:49:33 +08:00
    @aisk 嗯嗯,怪不得,之前也有人反映打不开。
    Keinez
        14
    Keinez  
       2013-05-22 19:57:52 +08:00
    @cloudaice 记得前段时间有消息说heroku作为免费云被太多人用来翻墙,已经被认证了……
    至少现在我挂着VPN是秒开。
    qiibeta
        15
    qiibeta  
       2013-05-22 20:02:54 +08:00
    同上……必须开梯子,不然根本打不开
    YUCOAT
        16
    YUCOAT  
       2013-05-22 20:13:40 +08:00
    排名第一的难道是python-china.org的那位?
    csslayer
        17
    csslayer  
       2013-05-22 20:14:49 +08:00
    有bug?……

    用China 这边的一个个到 World 那边去搜,只能找到前两个,但是 Score 是一样的……所以 World 那边统计没完?
    YUCOAT
        18
    YUCOAT  
       2013-05-22 20:15:25 +08:00
    我居然上榜了。。。。小小滴动!
    alexrezit
        19
    alexrezit  
       2013-05-22 20:28:01 +08:00
    分数是怎么算的? 抓取时间呢? 我想看看自己的排名, 结果改了地址之后好久也没找到.
    alexrezit
        20
    alexrezit  
       2013-05-22 20:38:10 +08:00
    好吧... 找到了... #146
    最近还要更新一些东西, 试试看能不能进 top 100.
    wencheng
        21
    wencheng  
       2013-05-22 23:00:45 +08:00
    @cloudaice 直接无法访问了
    TankyWoo
        22
    TankyWoo  
       2013-05-23 00:53:12 +08:00
    才300多名。。。

    被定位为China,现在把地址改详细了
    TankyWoo
        23
    TankyWoo  
       2013-05-23 00:55:59 +08:00
    前7名全是JS。。。
    hzlzh
        24
    hzlzh  
    PRO
       2013-05-23 01:16:53 +08:00 via iPhone
    排在#132,看了下调用的官方api gist China
    cloudaice
        25
    cloudaice  
    OP
       2013-05-23 01:22:50 +08:00
    @csslayer 是这样的,这个统计首先根据followers的人数来抓,比如china的,首先抓取followers数目的前1000个人。就是说follwers的数目没有进前1000,那么contributions再多也没用。你说的情况应该是followers数目还没有在world的前1000.
    cloudaice
        26
    cloudaice  
    OP
       2013-05-23 01:26:01 +08:00
    @alexrezit 改完之后可能要等等,后台抓取基本10分钟就可以一个轮回了,考虑抓取失败造成的影响,应该很快就可以看到的。
    cloudaice
        27
    cloudaice  
    OP
       2013-05-23 01:28:19 +08:00
    @alexrezit 另外分数计算是先根据followers的值做一个函数映射,然后加上你的contributions的值,具体函数图可以在about页面看到。这样做主要是考虑有些人follwers很多但是contributions比较少。照顾那些正在努力contribute的同学们。
    cloudaice
        28
    cloudaice  
    OP
       2013-05-23 01:33:58 +08:00
    有兴趣的同学多提一些pull request啊,目前一个主要的问题就是匹配地名,很多地名写的不详细的,就没办法统计到分布图里面,大家有没有解决的办法,比如关于中国地级市的地名模糊匹配的库。
    alexrezit
        29
    alexrezit  
       2013-05-23 07:08:21 +08:00
    @cloudaice
    ... 我的 followers 还没到上限的三分之一...
    ljbha007
        30
    ljbha007  
       2013-05-23 10:36:34 +08:00
    为啥重庆只有两个啊。。
    这个数据是怎么来的?
    TankyWoo
        31
    TankyWoo  
       2013-05-23 11:00:08 +08:00
    ,突然发现,我昨天把地址从China改为Beijing, China后,榜上就没名了

    而且好像格局变了很多,昨天我200多分才300多名,今天看到200多分都前100了
    TankyWoo
        32
    TankyWoo  
       2013-05-23 11:01:45 +08:00
    ,现在又有了,而且前进到180多名了。。。
    tulike1
        33
    tulike1  
       2013-05-23 12:16:27 +08:00
    ini
        34
    ini  
       2013-05-23 12:42:02 +08:00
    居然能进top100。。老夫自己都表示很震惊。。
    ini
        35
    ini  
       2013-05-23 12:49:04 +08:00
    @cloudaice
    楼主你确定你的算法没问题么。。我表示看了一下,排我后面的很多人followers比我多,项目的stargazers,folkers也比我多,为毛我会排在前面,老夫会愧疚的。。
    MrMign
        36
    MrMign  
       2013-05-23 13:25:57 +08:00
    @Keinez heroku也可以用来翻吗?跟gae似的??
    darcy
        37
    darcy  
       2013-05-23 13:28:41 +08:00
    @hzlzh 貌似楼主调整了算法,你已经上升至40,而livid却从表里消失了。
    xupefei
        38
    xupefei  
       2013-05-23 13:37:40 +08:00
    算法好像有问题啊……比如 #893(https://github.com/swestrich)后面的人明显比这位贡献多啊。
    另外,CTRL+F 关键字 “null” 还能搜到不少排名诡异的同学……
    hzlzh
        39
    hzlzh  
    PRO
       2013-05-23 13:49:22 +08:00
    @darcy 看了下#40,算法是改了,昨天的算法是 follower + contributions 生加,现在contributions权重增加了。
    linzhi
        40
    linzhi  
       2013-05-23 14:02:03 +08:00
    楼主的算法修改了一次 貌似还没以前的好啊 我这种水货都能在250左右啊
    66beta
        41
    66beta  
       2013-05-23 16:33:49 +08:00
    全上海只有100多???
    全国排名包含全部吗?为毛没我垫底?
    tangzx
        42
    tangzx  
       2013-05-23 17:00:09 +08:00 via iPhone
    俺也表示鸭梨很大,大粗人一个居然能进top100实在有愧啊
    sivacohan
        43
    sivacohan  
    PRO
       2013-05-23 17:23:40 +08:00
    长春铁通用户表示无法访问。
    rove
        44
    rove  
       2013-05-23 17:30:44 +08:00
    @sivacohan
    北京电信表示也没打开,翻一下墙就能打开了

    好多省市都是0..
    cloudaice
        45
    cloudaice  
    OP
       2013-05-23 17:41:17 +08:00
    @ljbha007 通过抓取github用户在github上填的地址信息
    cloudaice
        46
    cloudaice  
    OP
       2013-05-23 17:44:18 +08:00
    @TankyWoo 很有可能是抓取contributions的时候,出现了网络错误,我处理错误的时候默认给contributions赋予0。但是下一个轮回又会重新抓取,所以又回来了。不过这个问题的确需要解决。
    sivacohan
        47
    sivacohan  
    PRO
       2013-05-23 17:45:40 +08:00
    @rove

    长春铁通表示 PPTP 完全连不上。
    ssh 80% 丢包
    cloudaice
        48
    cloudaice  
    OP
       2013-05-23 17:45:59 +08:00
    @tulike1 果然很不错,多谢告知。
    AlloVince
        49
    AlloVince  
       2013-05-23 17:47:49 +08:00
    #21 但似乎与地图的数据不匹配
    cloudaice
        50
    cloudaice  
    OP
       2013-05-23 17:48:45 +08:00
    @ini 应该是你最近一年的contributions比它们多,可以看这里有具体算法描述:
    https://github.com/cloudaice/simple-data
    相对来说比较侧重活跃度,
    alexrezit
        51
    alexrezit  
       2013-05-23 17:51:59 +08:00
    @cloudaice
    嗯. 我现在就不见了. 300+ contributions.
    qiibeta
        52
    qiibeta  
       2013-05-23 17:54:10 +08:00
    昨天还在China前10……今天影子都见不到
    cloudaice
        53
    cloudaice  
    OP
       2013-05-23 17:58:41 +08:00
    我查看了一下服务器log,可能是因为我抓取github信息频率过高,一些很多页面信息抓取都失败了。我修改下代码,感谢各位的反馈啊!!!
    cloudaice
        54
    cloudaice  
    OP
       2013-05-23 18:12:51 +08:00
    @darcy 今天的排名榜单的确有问题,发现是github的搜索功能出现了问题,例如在github的搜索框里面输入 livid 用户名,查询该用户,发现查不到。而这个应用一部分是给予github搜索功能的,其他很多大神没有在表里面也是这个原因。
    TankyWoo
        55
    TankyWoo  
       2013-05-23 18:13:56 +08:00
    @cloudaice 如果这样,可以先获取时,保存上次结果,如果获取不到,可以使用上次结果。

    再进一步,如果N次后一直提示NULL,则可以清0

    一个建议,可以考虑下
    cloudaice
        56
    cloudaice  
    OP
       2013-05-23 18:43:24 +08:00
    @TankyWoo 多谢!!!
    lotus9
        57
    lotus9  
       2014-04-13 20:22:39 +08:00
    厉害~~~
    bysocket
        58
    bysocket  
       2019-04-14 11:33:51 +08:00
    竟然有我
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3587 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 00:46 PVG 08:46 LAX 17:46 JFK 20:46
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86