数据挖掘方向的有什么好的建议吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ling0322
V2EX    问与答

数据挖掘方向的有什么好的建议吗?

  •  
  •   ling0322 2013-06-02 19:15:48 +08:00 via Android 4462 次点击
    这是一个创建于 4522 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我是研一的,搜索和数据挖掘方向,目前在实验室也没有做过什么靠谱的项目,最近招聘会去转了一下,感觉几乎没有要这个方向的企业啊。
    感觉很迷茫,不知道现在学的跟实际到底有多大的脱节。有没有这方向的大神可以指导一下,感激不尽。
    8 条回复    2016-11-29 11:47:48 +08:00
    ahxxm
        1
    ahxxm  
       2013-06-02 19:50:20 +08:00
    科研应该也算是实际应用吧,我这正好有个问题不知道怎么解决,贴出来给lz看看……
    图1 :
    pig_sus.blast是用blat处理原始数据后得到的输出文件,C090_1.blast(以及其他blast文件)是用于对比的数据。
    pig_sus.blast中,第一列是query,有重复项,取evalue最小的、identity最大的(格式见http://edwards.sdsu.edu/labsite/index.php/ramys/238-blast-output-8),已经处理完了,R代码如下:
    /*
    x = read.csv("pig_sus.blast", sep = "", header = FALSE)
    x = subset(x, subset = !duplicated(x[c("V1")]))
    */
    然后合并两组数据发现没对齐,图2:
    合并代码如下:
    /*
    x = x[1:239,]
    c = c("XV2", "XV9", "XV10", "YV2", "YV9", "YV10")
    comp = data.frame(x[,2], x[,9], x[,10], y[,2], y[,9], y[,10])
    colnames(comp) = c
    */
    line 125时,x的V2出现了新项chr11,原本与y[125, ]对应的chr1变成了126。
    图3:
    所以想根据V1来进行合并,把类似POR_C090_I10_I10的新项单列成之后,剩余项对齐合并,再进行对比。
    对比原则是:两组数据的V2 V9 V10都一致则判定为一致,最后需要得到 一致项/总项数 这个比例。
    --------
    ps1:看id我们好像在twitter上互fo了哟~
    ps2:为了处理数据还重新编译了一遍blat...
    ahxxm
        2
    ahxxm  
       2013-06-02 20:07:19 +08:00
    我好像自己搞定了 = = V1一样,V2就都一样的,所以:
    merge = merge(x,y, by = "V1")
    merge = subset(merge, V9.x = V9.y)
    再把行数相除就行了……
    其实我都不知道自己在做什么,帮人做作业,抽象成这个过程。这些大概就是实际中需要的技能吧……
    求大牛指导
    ling0322
        3
    ling0322  
    OP
       2013-06-02 23:54:35 +08:00
    @ahxxm R语言,好高深(
    likuku
        4
    likuku  
       2013-06-03 04:10:31 +08:00
    多年前也作一个半个人的项目,只是统计画图什么,本来也想搞R,后来看麻烦,最终就Python+Gnuplot了事。
    quake0day
        5
    quake0day  
       2013-06-03 06:24:43 +08:00
    新成立的IDL百度研究院专门招你们这个方向的。
    haooyi
        6
    haooyi  
       2013-06-03 10:31:38 +08:00
    数据挖掘不太了解,转给你一条豆瓣工程师的微博。
    了解豆瓣技术团队必看 http://www.douban.com/note/65095757/
    Data Scientist的需求 http://www.douban.com/note/247983915/
    ahxxm
        7
    ahxxm  
       2013-06-03 10:43:20 +08:00
    @ling0322 因为不知道怎么用python写这些...
    busyluo
        8
    busyluo  
       2016-11-29 11:47:48 +08:00
    不知道楼主有没有坚持下去。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2032 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 16:11 PVG 00:11 LAX 09:11 JFK 12:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86