[分享]基于 GO 语言写的 DHT 爬虫实现的种子搜索引擎,小清新流派的。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaojiong1991
V2EX    问与答

[分享]基于 GO 语言写的 DHT 爬虫实现的种子搜索引擎,小清新流派的。

  •  2
     
  •   xiaojiong1991 2015-04-01 02:24:34 +08:00 11048 次点击
    这是一个创建于 3853 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做这个呢
    主要是想好好的学习go。然后自己也想折腾折腾玩玩。
    目前收录了1000w+资源了,目前资源数以每天5w左右的速度增加的。

    http://btku.org

    实现的自动入库,自动重建索引,基本上不用维护,然后自动就把资源抓取下来了。
    这个可以看见最新收录的资源。。1分钟更新一次。
    http://btku.org/new

    爬虫实现的核心代码:
    github:https://github.com/xiaojiong/DhtCrawler">https://github.com/xiaojiong/DhtCrawler

    后续想继续开发,做点电影推介啊什么的。
    求指导哈。。

    42 条回复    2016-10-25 09:44:33 +08:00
    sallowdish
        1
    sallowdish  
       2015-04-01 05:51:38 +08:00
    搜索了下‘Voice Lover’, 果然货不少,赞一个
    bugeye
        2
    bugeye  
       2015-04-01 08:06:17 +08:00
    然后我看了一下大家都在搜什么。。。。
    Mashiro
        3
    Mashiro  
       2015-04-01 08:47:50 +08:00
    大家在搜
    yuewolf
        4
    yuewolf  
       2015-04-01 08:59:19 +08:00
    很强悍!!!
    NewYear
        5
    NewYear  
       2015-04-01 09:16:41 +08:00   1
    没有图片预览 差评
    MartinSong
        6
    MartinSong  
       2015-04-01 09:18:16 +08:00   1
    这些种子都是从哪里爬过来的?
    xiaojiong1991
        7
    xiaojiong1991  
    OP
       2015-04-01 09:30:19 +08:00
    @MartinSong 就是DHT网络里面抓取的。 就是 我们使用bt 下载的时候 那个网络里哈
    MartinSong
        8
    MartinSong  
       2015-04-01 10:17:02 +08:00
    @xiaojiong1991 手撕包菜网络那里爬的么?我试了几个用迅雷,打开磁力下载,种子下载不下来呀?
    benjiam
        9
    benjiam  
       2015-04-01 10:19:52 +08:00
    不错,我也曾想做一个来着。关键就是DHT协议
    xiaojiong1991
        10
    xiaojiong1991  
    OP
       2015-04-01 10:26:52 +08:00
    @MartinSong 自己去抓取的哈, 没在手撕包菜那爬。 你举例下哪些打不开呢。
    xiaojiong1991
        11
    xiaojiong1991  
    OP
       2015-04-01 10:27:09 +08:00
    @benjiam 对的哈 就是关键是 协议
    ikaros
        12
    ikaros  
       2015-04-01 10:36:28 +08:00
    热门搜索简直赞
    wind3110991
        13
    wind3110991  
       2015-04-01 10:45:23 +08:00
    github链接挂了404
    xiaojiong1991
        14
    xiajiong1991  
    OP
       2015-04-01 10:51:11 +08:00
    xiaojiong1991
        15
    xiaojiong1991  
    OP
       2015-04-01 10:51:50 +08:00
    @ikaros 哈哈。。教你用词呢。 算了 我看什么时候还是把这个词语给去掉算了。
    Anybfans
        16
    Anybfans  
       2015-04-01 12:47:31 +08:00
    请问有没有Python版的。。谢谢了。。学生想学习 顺便建一个这样的站
    mhycy
        17
    mhycy  
       2015-04-01 12:52:41 +08:00
    @Anybfans
    已经说明是Go编写的了,就别做伸手党了...
    自己写个也不难,关键搞定了DHT算法就行
    Anybfans
        18
    Anybfans  
       2015-04-01 12:58:24 +08:00   1
    @mhycy 。。新手。真心不太懂DHT什么什么的第一次听说
    > < 想搞一份Python版本的 当毕业设计。。
    mhycy
        19
    mhycy  
       2015-04-01 13:02:03 +08:00
    @Anybfans
    搜索一下就好了,做伸手党可不好啊...
    说回来,毕业设计做这个没问题么?
    xiaojiong1991
        20
    xiaojiong1991  
    OP
       2015-04-01 13:12:15 +08:00
    @Anybfans 我也是在网上看别人做了, 然后自己觉得好玩 所以就搜索协议什么的 做了一个。
    Anybfans
        21
    Anybfans  
       2015-04-01 13:14:52 +08:00
    @mhycy 。。有问题么。毕业设计不让做这个么。。。

    @xiaojiong1991 行。。我研究研究。 不难吧?
    rrfeng
        22
    rrfeng  
       2015-04-01 13:27:55 +08:00
    都不能下载。。。
    xiaojiong1991
        23
    xiaojiong1991  
    OP
       2015-04-01 14:13:53 +08:00
    @Anybfans 不难哈
    xiaojiong1991
        24
    xiaojiong1991  
    OP
       2015-04-01 14:14:21 +08:00
    @Anybfans 不难哈
    @rrfeng 什么问题哟? 发下 具体链接 , 你指的是 什么不能下载哟?
    hahasong
        25
    hahasong  
       2015-04-01 14:15:37 +08:00
    爬dht和爬magnet是一样的源码么
    mhycy
        26
    mhycy  
       2015-04-01 14:24:48 +08:00
    @hahasong 是的,目的都只是为了获得种子的hash而已,不同点在于magnet获取到hash就完了,这个工具似乎还会把种子下回来...
    leemw
        27
    leemw  
       2015-04-01 14:28:09 +08:00
    只知道这种网站流量会蹭蹭蹭的上去。。。
    xiaojiong1991
        28
    xiaojiong1991  
    OP
       2015-04-01 14:42:10 +08:00
    @mhycy 对哈,主要是要解析种子内的信息
    rrfeng
        29
    rrfeng  
       2015-04-01 14:54:42 +08:00
    @xiaojiong1991
    比如随便搜一个,thunder:// 链接全不能下载,都显示 Index.html
    磁力链没试。

    种子文件要么不能下载,要么下回来打不开……
    holmesabc
        30
    holmesabc  
       2015-04-01 15:00:42 +08:00
    大家都在搜!!!!!
    fising
        31
    fising  
       2015-04-01 15:53:07 +08:00
    我之前也做了一个,上线几天就主动关闭了。小心有人举报送你进去。

    btbook.net 也是此类网站
    des
        32
    des  
       2015-04-01 17:50:54 +08:00
    Anybfans
        33
    Anybfans  
       2015-04-01 19:18:28 +08:00
    @des 先谢谢。。回去研究一下
    lirau
        34
    lirau  
       2015-04-02 00:05:08 +08:00 via Android
    @fising 这种也能进去啊
    fising
        35
    fising  
       2015-04-02 09:26:07 +08:00
    @lirau 涉嫌传播淫秽色情信息、传播盗版内容。哪个都够喝一壶的。认真起来,是要坐牢的。
    chenzhe007
        36
    chenzhe007  
       2015-04-04 01:13:33 +08:00 via iPhone
    @fising btbook是我师兄做的~~确实经常被投诉。
    YouXia
        37
    YouXia  
       2015-04-04 19:42:17 +08:00
    自动构建索引这块怎么做的?
    xiaojiong1991
        38
    xiaojiong1991  
    OP
       2015-04-07 15:32:57 +08:00
    @YouXia 增量更新 ,然后 重建索引
    jeanim
        39
    jeanim  
       2015-05-03 19:40:21 +08:00
    可以加下lz的Q?
    jeanim
        40
    jeanim  
       2015-05-03 19:41:07 +08:00
    http://www.v2ex.com/t/184116
    我想做一个这样的网站,但web还不太熟悉,想加Q请教下。
    la0wei
        41
    la0wei  
       2015-09-07 06:41:36 +08:00 via Android
    btku.org 的地址是国内的,还以为国外的,想请教 vps 选择的
    a308057848
        42
    a308057848  
       2016-10-25 09:44:33 +08:00
    厉害啊,非常有兴趣
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2680 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 14:10 PVG 22:10 LAX 07:10 JFK 10:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86