「数据处理求助」两个基因检测公司得到的两份碱基序列报告不一致 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
yorkyoung
V2EX    云计算

「数据处理求助」两个基因检测公司得到的两份碱基序列报告不一

  •  
  •   yorkyoung 2018-08-30 09:46:12 +08:00 4213 次点击
    这是一个创建于 2687 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位工程师好,我个人在两家基因检测公司做了检测,得到两份“位点-序列”( rsid-genotype )测序结果,理论上这两份序列结果应该是一样的,但我发现有一定比例的不一致,我想知道不一致的准确比例是多少,由于有超过 59 万条对应关系,我无法在个人电脑上处理,且没有数据处理软件使用能力,希望可以得到帮助。恳请有兴趣的工程师与我联系。子弹短信:ggyy https://s1.ax1x.com/2018/08/30/PXfHl8.png

    第 1 条附言    2018-08-30 13:06:03 +08:00
    已经解决 用 Excel 硬做的
    TheWalkingDead
        1
    TheWalkingDead  
       2018-08-30 09:51:06 +08:00
    流行子弹短信吗 哈哈
    RangerWolf
        2
    RangerWolf  
       2018-08-30 10:18:32 +08:00
    数据可以传到公司外面?
    59W 条数据应该还好, 用 Pandas 感觉普通电脑应该能搞定
    marcong95
        3
    marcong95  
       2018-08-30 10:52:28 +08:00
    理论上这两份序列结果应该是不完全一样的把,DNA 复制的时候有一定概率会产生变异,这个概率放大到全基因组的话,“不完全一样”的概率是很高的。

    提供一个不知道可不可行的办法:把注释删掉,然后行排序,然后 diff 之,应该是不需要上什么专业软件,找个编辑器之类的。59w 行可能要跑一段时间,不过应该还好?
    yorkyoung
        4
    yorkyoung  
    OP
       2018-08-30 10:56:46 +08:00
    @marcong95 已经尝试过了,在 Excel 中运行了 vlookup 就跑了 15 个小时还是 17 款 256G MPB
    krixaar
        5
    krixaar  
       2018-08-30 11:25:08 +08:00
    导数据库里两张表,然后(select * from A minus select * from B) union all (select * from B minus select * from A)这样?
    LadyChunsKite
        6
    LadyChunsKite  
       2018-08-30 11:55:18 +08:00
    题外话:
    其实我时候就在想,自己的基因可是一个很重要的个人信息呀,比什么手机号,年龄重要多了。
    就不怕被公司拿走干坏事?
    jccg90
        7
    jccg90  
       2018-08-30 12:01:26 +08:00
    @LadyChunsKite 基因信息虽然很重要,但是完全无法保护。。。比如上个厕所,吐个痰,去饭店吃个饭。。。到处都是完整的基因信息吧
    dacer250
        8
    dacer250  
       2018-08-30 12:29:54 +08:00
    子弹短信无法在 8.0 的 ios 上运行,可以联系我 qq:OTgzMTM5MDk3
    Wolther47
        9
    Wolther47  
       2018-08-30 12:34:04 +08:00 via iPad
    碱基对比对? Smith waterman 了解一下?
    HankAviator
        10
    HankAviator  
       2018-08-30 13:13:46 +08:00
    @LadyChunsKite 不在居住国家做问题不大,倒是保险送的基因检测万万做不得
    zhouquan03
        11
    zhouquan03  
       2018-08-30 13:30:34 +08:00
    BWA SOAP 软件了解一下
    wqzjk393
        12
    wqzjk393  
       2018-08-30 16:20:50 +08:00
    哪有用 vlookup 做大数据匹配的,vlookup 感觉就是完全的挨个遍历,慢的厉害还特别占资源
    wqzjk393
        13
    wqzjk393  
       2018-08-30 16:32:38 +08:00
    pd.read_csv/excel 把两个数据读进来,df1.merge(df2,how=left)左关联第二份数据,然后比较呗。但是如果你位点数据都一样的话为什么不先排序然后直接用 excel 的'='做对比呢
    yorkyoung
        14
    yorkyoung  
    OP
       2018-08-30 19:51:23 +08:00
    @wqzjk393 别的不懂 只会 vlookup
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5428 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 03:14 PVG 11:14 LAX 19:14 JFK 22:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86