关于 elasticsearch 的两个中文分词插件 ik 和 mmseg - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
183.99D
584.12D
V2EX    Elasticsearch

关于 elasticsearch 的两个中文分词插件 ik 和 mmseg

  •  
  •   Livid
    PRO
    2014-07-06 19:46:43 +08:00 14694 次点击
    这是一个创建于 4181 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在研究 elasticsearch 和 V2EX 结合的可能性。发现在中文分词方面已经有 medcl 大神写好的两个插件 ik 和 mmseg。有用过的同学可以分享一下这两个插件的异同么?有什么需要注意的坑么?

    从 GitHub 的 stars 来看,是 ik 的 stars 比较多。

    https://github.com/medcl/elasticsearch-analysis-ik

    https://github.com/medcl/elasticsearch-analysis-mmseg
    5 条回复    2014-07-11 15:50:36 +08:00
    cbsw
        1
    cbsw  
       2014-07-06 20:00:42 +08:00
    终于要把 google 换下去了么,支持一个
    Livid
        2
    Livid  
    MOD
    OP
    PRO
       2014-07-06 20:03:03 +08:00
    @cbsw es 本身是很好玩的东西。

    搜索这样的东西,自己做的话,一开始或许只能保证找到。但是要提供一个比较有意义的 ranking 是非常难的。
    cbsw
        3
    cbsw  
       2014-07-06 20:14:46 +08:00
    @Livid 对于 V2EX 目前来说,能找到应该就 OK 了,排序的话个人觉得还不是刚需。上 es 时建议保留 google 给有梯子的V友用,没有梯子就用 es,先解决那些经常叫嚷替换 google 的无梯用户对搜索的基本需求
    kingwkb
        4
    kingwkb  
       2014-07-06 23:43:18 +08:00 via iPad
    如果只是提供给没梯子的用户,给个Google的反代不就行了,默认全部加site:v2ex.com
    darkyoung
        5
    darkyoung  
       2014-07-11 15:50:36 +08:00
    ik的分词方式比mmseg多一点
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4983 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 48ms UTC 01:20 PVG 09:20 LAX 17:20 JFK 20:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86