9000w 条真实数据开放了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
nowcoder
V2EX    程序员

9000w 条真实数据开放了

  •  
      nowcoder 2015-12-24 10:04:28 +08:00 8054 次点击
    这是一个创建于 3588 天前的主题,其中的信息可能已经有所发展或是发生改变。

    奖金 3w+ 奖金 3w+ 奖金 3w+
    大数据比赛开始啦,真实 9000w 条用户数据开放下载,极具实验研究价值,戳
    http://www.nowcoder.com/activity/calendar

    27 条回复    2015-12-24 22:35:34 +08:00
    markmx
        1
    markmx  
       2015-12-24 11:03:48 +08:00
    要先报名吗?
    Sequencer
        2
    Sequencer  
       2015-12-24 11:08:58 +08:00 via iPhone   5
    就是我不用小公司服的主要原因
    拿用做比
    呵呵呵呵
    ywind
        3
    ywind  
       2015-12-24 11:15:41 +08:00 via iPhone
    @Sequencer 肯定是非关键数据啊,阿里的比赛也是使用的真实的购买数据
    Sequencer
        4
    Sequencer  
       2015-12-24 11:17:09 +08:00 via iPhone
    @ywind 可能是我癖吧 表示不能承受被使用
    nowcoder
        5
    nowcoder  
    OP
       2015-12-24 11:21:49 +08:00
    @Sequencer 这些数据本来就是公开的,我们只是打包开放了。涉及到用户 id 等信息都已经加密了 :-)
    donghao
        6
    donghao  
       2015-12-24 11:31:29 +08:00   1
    @Sequencer 如果我没记错这应该是国际惯例,机器学习不用真实数据就没得玩了!
    nowcoder
        7
    nowcoder  
    OP
       2015-12-24 11:34:18 +08:00
    @markmx 报名以后进去就可以下载数据了~~
    songco
        8
    songco  
       2015-12-24 11:40:20 +08:00
    奖金有点少...
    nowcoder
        9
    nowcoder  
    OP
       2015-12-24 11:45:33 +08:00
    @songco 和国外比有点少。在国内不少了啦。 国内这种比赛都没人办。
    xuxanwan
        10
    xuxanwan  
       2015-12-24 11:47:17 +08:00
    早上看到的一篇报道里面周鸿说:
    >[用户把自己的数据交给互联网公司,换取它提供的各种各样服务,这是一个契约的关系]( http://xhpfm.mobile.zhongguowangshi.com:8091/v200/newshare/468290)

    so, 认了吧, 这些数据是他们的..人为刀俎我为鱼肉..
    yanyuechuixue
        11
    yanyuechuixue  
       2015-12-24 11:56:01 +08:00 via Android
    这个公司,我记住了。
    以后不用相关服务。
    jzp113
        12
    jzp113  
       2015-12-24 12:00:11 +08:00
    那几个编程的题目蛮简单的。就是不喜欢用 java
    caixiexin
        13
    caixiexin  
       2015-12-24 12:07:56 +08:00 via Android
    所谓的脱敏数据吗
    Sequencer
        14
    Sequencer  
       2015-12-24 12:42:53 +08:00
    append:
    如果要收集的我得不在用面,而是要另外明的用一面用是否送一份匿名商,在除了少人看用之外看。
    Google 、 Apple 是否送匿名信息是可的。
    包括很多,源件都有送匿名信息的。
    如果是源件,或者其他比良心的件我都勾用改善服和支持者,同些信息的用途也明表示出。然如果用於的,用都不勾。
    我用 Google 和 iCloud 的日,他把我的用於比?
    有使用些件,敢件,有明的面用是否活?
    想到之前的某大直接拿校校卡行大分析,有束的分析感到度反感。\\
    @nowcoder 能理解者除了私之外法在用上收其他利益的苦衷,但是是希望在做些之前,用能知道自己的信息被拿去做大。
    nowcoder
        15
    nowcoder  
    OP
       2015-12-24 12:47:26 +08:00
    @jzp113 编程题支持 c++, python 和 c#。 那个练习卷是给你熟悉环境用的。比较简单。正式比赛会难一些。
    dqh3000
        16
    dqh3000  
       2015-12-24 12:50:22 +08:00
    @Sequencer

    谷歌拿邮件数据去机器学习做邮件垃圾分类

    谷歌拿 utube 视频去做机器学习分类

    你确定每个作者都知道了吗?
    dream7758521
        17
    dream7758521  
       2015-12-24 12:52:24 +08:00 via Android
    居然是中华万年历,传说中广告超多,频繁唤醒
    m8syYID5eaas8hF7
        18
    m8syYID5eaas8hF7  
       2015-12-24 12:52:28 +08:00
    @Sequencer 也不算吧,用户点赞别的用户也可以看到,这个本来就是公开的数据啊
    hellokittyer
        19
    hellokittyer  
       2015-12-24 12:57:19 +08:00
    直接上个下载地址吧
    JQ
        20
    JQ  
       2015-12-24 13:08:13 +08:00
    要报名才能看到数据 ?有测试数据么
    jiezhi
        22
    jiezhi  
       2015-12-24 13:38:50 +08:00
    虽然没搞过这个,先把数据拿下来备用:-D
    a40049
        23
    a40049  
       2015-12-24 15:57:12 +08:00
    虽然想报名,但是看到必须填写手机号,还是算了
    SourceMan
        24
    SourceMan  
       2015-12-24 16:09:12 +08:00
    V2ex 可以通过遍历用户 ID 拿到用户的信息, L 大真是不为我们的“隐私”着想!!!
    23333~
    s7lx
        25
    s7lx  
       2015-12-24 16:19:20 +08:00   3
    只要数据不想参加比赛的可以看这里 http://pan.baidu.com/s/1bobAO9L 密码 ste5
    billwang
        26
    billwang  
       2015-12-24 22:09:55 +08:00
    中华万年历记住了,以后再也不用。
    meantobe
        27
    meantobe  
       2015-12-24 22:35:34 +08:00   2
    2006 年 8 月, AOL 出于好意而公开了一大批查询日志样本,供人研究。这些日志涉及三个多月以来 65 万用户的 2000 万查询,已经做了匿名处理,因此从理论上讲,不存在任何可以用于辨识个人身份的信息。尽管是善意之举,但人们也很快就发现这些日志在实践中不会像 AOL 想象的那样做到完全匿名。每个用户在查询时都会被赋予一个随机但唯一的标识符,有了这个标识符,就很容易知道同一个人都查询过什么内
    容。进而,确定一些人的身份也就成为可能。因为不少人都搜索过自己名字、地址、社会保险号以及其他个人信息,通过搜索相关性分析暴露出来的信息比 AOL 认为的多,也肯定比原始用户自己想到的多得多。 AOL 很快从自己网站上删除了这些日志,当然为时已晚。这些数据早已被传播得满世界都是了,而且至今仍可以找到,甚至还附有帮你分析它们的一些工具。
    Brian W. Kernighan 《世界是数字的》
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2664 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 15:13 PVG 23:13 LAX 08:13 JFK 11:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86