[招募] 萌否业余项目寻求负责人及技术合作伙伴,欢迎有余力的朋友来挑战 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Ariagle
V2EX    程序员

[招募] 萌否业余项目寻求负责人及技术合作伙伴,欢迎有余力的朋友来挑战

  •  
  •   Ariagle 2013-03-11 20:14:29 +08:00 7246 次点击
    这是一个创建于 4601 天前的主题,其中的信息可能已经有所发展或是发生改变。
    萌否是一个动漫 ACG 垂直领域的业余项目,我们团队一直在用业余时间做这个项目,并不以盈利为目的。我们正在为主站开发新版程序(beta4),但人手不足,我们希望能有同好加入进来,负责独立的模块。

    这是业余项目,并不能给你带来薪水,但它可以给你一个自由展示才华的机会。我们不会逼你赶工,没有强制的 Deadline 。同时,我们也希望你具有独当一面的技术水平,能够 hold 得住一个独立的模块甚至是作为其中一个项目的负责人。


    1、
    项目:图片存储及处理系统
    人数:1
    语言:NodeJS,当然你也可以用 Python 或 PHP
    描述:
    一个类似于又拍云存储或 Picasa 的图片处理系统,其基本功能是,能够根据 URL 参数来自由裁剪图片。 V2EX 上已有童鞋做出了类似的 PHP 版本: /t/61924 ,但我们希望你最好能够用我们熟悉的 NodeJS 来做。它将成为一个通用平台为大家所用,但同时也需要制定一些专用接口来为萌否系列站点更好地服务。我们将会有独立的域名和专门的服务器来运行这个项目,所以我们希望你最好能够独当一面,最理想的情况是在拿到服务器权限后,你能将剩下的技术问题都做好。
    (PS1 当然不会说扔给你后就不管了,我们也会团队互助,但若能独立负责好自己的领域就最好了)
    (PS2 该平台暂时不会有面向普通用户的交互,所以不必担心网站界面等问题)


    2、
    模块:定向爬虫
    人数:1
    语言:NodeJS
    描述:
    并不是要做一个通用的爬虫系统,而是针对指定的网站,定时抓取指定的内容。要抓的内容将随网站类型的不同而不同,有的可通过 API ,有的得分析 HTML ,所以你可能要为每一种网站写一个匹配模版,但我相信通过 NodeJS 和 jQuery 可以轻松实现。有些网站可能会有反爬处理,你需要对此有所准备。之所以限定用 NodeJS ,是因为我们对它更加熟悉,新版萌否主站的部分后端也是用它。


    3、
    模块:不定向爬虫
    人数:1
    语言:NodeJS
    描述:
    我们希望这个爬虫,能够尽可能地获取到一些新的实体内容。这个实体的标准是,它可以拿来用作百科词条。例如,一部新的作品,以及该作品下的虚拟角色、工作人员。由于目前并没有哪个网站拥有非常系统的数据(即便是维基百科也没有很好的索引,难以着手),所以你可能需要从多个网站中寻找数据并整合。最基础地,你需要获取到实体的名字;更进一步,最好能拿到它的描述信息;如果你更牛逼,最好能获取到实体之间的关系。由于内容将涉及到中、日、英等语言,所以你需要有一定的数据清理及整理能力。我们希望你最好本身就是一个 ACG fan ,这样才能保证你能找到有效的数据来源。


    4、
    模块:实体识别
    人数:1~2
    语言:NodeJS 或 不限
    描述:
    对于爬虫收录回来的海量数据,分析出每条资源所对应的实体,并将其对应到我们维基系统中的对应条目。比如说,你需要分析出一条 BT 资源是关于哪部作品的,然后将它跟我们维基系统中已有的作品条目进行关联。同时,你最好也要能够识别出系统中不存在的实体,并将其添加到新条目中去。所以,你最起码得熟练掌握正则表达式的运用。此外,由于文本情况复杂,比如一部作品可能拥有中、日、英译名以及额外的数个别名,因此如果你有文本处理、机器学习等相关经验,就最好不过了。



    现阶段基本就是这么多。如果你有兴趣、有疑问,或者想讨论需求细节,欢迎通过任何能找到我的方法与我联系,比如:
    推特及微博: @Ariagle
    邮箱: ariagle [at] moefou.org
    扣扣: 910437475


    顺便附一下萌否的各站点:
    萌否 http://moefou.org/ (主站,即将升级,上述2~4点将用于新版之中)
    萌否电台 http://moe.fm/
    MoeApps http://app.moefou.org/
    萌否开放平台 http://open.moefou.org/
    (上述第1点将启用新的域名)
    24 条回复    1970-01-01 08:00:00 +08:00
    ipconfiger
        1
    ipconfiger  
       2013-03-11 20:39:21 +08:00
    https://github.com/ipconfiger/pyImageServer 关于第一个需求我这里有一个项目貌似合拍,如果贵站愿意使用将不胜荣幸
    Ariagle
        2
    Ariagle  
    OP
       2013-03-11 20:48:27 +08:00
    @ipconfiger 感谢~如果使用这个的话,可能需要你再帮忙定制一些功能。不知该项目当前有无使用到某一具体的应用中去?
    chengyuhui
        3
    chengyuhui  
       2013-03-11 21:13:21 +08:00
    咱似乎可以承担定向爬虫喵~
    ipconfiger
        4
    ipconfiger  
       2013-03-11 21:45:16 +08:00
    @Ariagle 定制啥?能具体说说么?这个项目是从咕咚网的图片服务剥离出来的,当然代码肯定是重头写过了的。
    Ariagle
        5
    Ariagle  
    OP
       2013-03-11 21:50:46 +08:00
    @chengyuhui 如何联系你呢?


    @ipconfiger 比如,直接根据 URL 来获取网络上的图片并处理。具体可以私下谈~
    ipconfiger
        6
    ipconfiger  
       2013-03-11 22:03:55 +08:00
    @Ariagle easy,基本上就两个部分,获取图片,根据参数处理。可以弄成可扩展的系统,从url获取图片对Python来说就一句话的事情。github上有我联系方式
    chengyuhui
        7
    chengyuhui  
       2013-03-11 22:11:07 +08:00
    @Ariagle [email protected] (E-mail/Google Talk)
    Ariagle
        8
    Ariagle  
    OP
       2013-03-11 22:21:57 +08:00   1
    @ipconfiger
    @chengyuhui
    已通过邮件联系两位。
    Tianpu
        9
    Tianpu  
       2013-03-12 00:23:57 +08:00
    纯技术讨论 图片的话 可以用nginx的image_filter 后端是gd 只要不是超大图 gd还是比imagik有优势的
    Ariagle
        10
    Ariagle  
    OP
       2013-03-12 00:59:37 +08:00 via iPhone
    @Tianpu 主要是会涉及到不少逻辑处理,开发层面还是用团队更熟悉的语言为好
    rorvn
        11
    rorvn  
       2013-03-12 03:53:34 +08:00
    我或许可以试一试第一个。我虽然写过nodejs,但不是很熟练。
    Ariagle
        12
    Ariagle  
    OP
       2013-03-12 09:36:25 +08:00
    @rorvn 那你更熟悉哪种语言呢?也许也可以试试,如何联系你?
    CoderGeek
        13
    CoderGeek  
       2013-03-12 16:21:23 +08:00
    我只能支持你们了 不是nodejs的 我是一枚java coder 加油
    rorvn
        14
    rorvn  
       2013-03-12 16:53:08 +08:00
    rorvn
        15
    rorvn  
       2013-03-12 16:58:34 +08:00
    @Ariagle 用来写后端的语言我只会nodejs(除非算进C)…… 而且我还不是很熟练……
    mercurylanded
        16
    mercurylanded  
       2013-03-12 17:24:01 +08:00
    3,4感觉很难的样子
    akinoniku
        17
    akinoniku  
       2013-03-12 18:02:56 +08:00
    最近在重写星祈娘,虽然是先做星祈娘再做萌否的,不过如果萌否可以集成星祈娘的功能就好了。
    Ariagle
        18
    Ariagle  
    OP
       2013-03-12 18:11:24 +08:00
    @rorvn 提交后白屏了……有什么通信方式可以私下聊聊么?


    @mercurylanded 点头。3、4我目前还没有特别好的解决方案,1和2属于我没时间做。


    @akinoniku 对于集成你有什么点子吗?
    rorvn
        19
    rorvn  
       2013-03-12 18:41:21 +08:00
    @Ariagle 你没把框填满吧…… 因为是demo,错误处理基本就没管。

    联系方式:gmail/gtalk: [email protected]
    ncwhale
        20
    ncwhale  
       2013-03-13 10:50:41 +08:00
    @akinoniku 星祈娘这和咱之前在自己的nfs上写的cron+mldonkey自动下片功能非常相像啊喵~233~获取RSS推送后正则一下⑨能给mldonkey推送种子了喵~233~
    akinoniku
        21
    akinoniku  
       2013-03-13 13:56:25 +08:00
    @Ariagle 等我再思考一下,毕竟在我看来萌否是靠人工维护feed的,星祈娘是一套自动分析工具。所以你也知道要解决容错问题。。等我下个版本写好看一下有什么能直接用的就好。。

    @ncwhale 谢谢,其实我也是做了类似的东西才有这样的IDEA的,不过现在整个项目正在重写。。现有的网站就先丢一边了,等我做好新的再通知ncwhale看一下有什么能改进的地方。(还打算加个添加迅雷离线的功能)
    Ariagle
        22
    Ariagle  
    OP
       2013-03-13 15:56:46 +08:00
    @akinoniku 嗯,我对自动分析很感兴趣,若是能在BT资源这块解决跟新番作品的对应问题,就帮大忙了。
    jiangplus
        23
    jiangplus  
       2013-04-18 19:08:40 +08:00
    想问问项目现在怎样了
    Ariagle
        24
    Ariagle  
    OP
       2013-04-19 00:22:16 +08:00 via iPhone
    @jiangplus 有序进行中,不过比较缓慢就是了,大家都是业余在做
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5428 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 08:45 PVG 16:45 LAX 01:45 JFK 04:45
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86