中文分词有哪些技术难点?另外,性能(每秒 xxx MB 文本)会是大家考虑的实际问题么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gowl
V2EX    问与答

中文分词有哪些技术难点?另外,性能(每秒 xxx MB 文本)会是大家考虑的实际问题么?

  •  
  •   gowl 2018-02-25 04:42:44 +08:00 3651 次点击
    这是一个创建于 2792 天前的主题,其中的信息可能已经有所发展或是发生改变。

    或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?

    22 条回复    2018-02-26 12:01:38 +08:00
    nikoo
        1
    nikoo  
       2018-02-25 05:51:39 +08:00   12
    我买楼主要看心情
    lsvih
        2
    lsvih  
       2018-02-25 08:34:37 +08:00 via iPhone
    中文没分隔符,有消岐、oov 等一堆难点

    当然会考虑速度

    现在还没有无限接近 100% 的
    liuhaotian
        3
    liuhaotian  
       2018-02-25 08:45:19 +08:00 via iPhone
    @nikoo 你这句话我读了三遍才读明白
    schoolers
        4
    schoolers  
       2018-02-25 08:59:51 +08:00
    @nikoo 你这句话我读了两遍才读明白
    misaka19000
        5
    misaka19000  
       2018-02-25 09:19:43 +08:00 via Android
    你这句话我读了三遍也没读明白
    misaka19000
        6
    misaka19000  
       2018-02-25 09:20:31 +08:00 via Android
    @nikoo 你这句话我读了三遍也没读明白
    Baymaxbowen
        7
    Baymaxbowen  
       2018-02-25 09:37:11 +08:00 via Android   1
    北京大学你是分成一个词还是两个词?
    nfroot
        8
    nfroot  
       2018-02-25 09:54:19 +08:00 via Android   1
    南京市长江大桥
    murmur
        9
    murmur  
       2018-02-25 10:00:16 +08:00   1
    中文分词的最大难点还是网络用语 尤其是带反和谐部分的
    BingoXuan
        10
    BingoXuan  
       2018-02-25 11:36:55 +08:00 via Android
    @misaka19000
    正确:我 买楼 主要 看 心情
    错误:我 买 楼主 要 看 心情
    所以说中文分析很做到正确
    BingoXuan
        11
    BingoXuan  
       2018-02-25 11:37:29 +08:00 via Android
    @BingoXuan
    分析 -> 分词
    takato
        12
    takato  
       2018-02-25 15:12:47 +08:00   1
    为什么需要分词?
    takato
        13
    takato  
       2018-02-25 15:14:15 +08:00   2
    从我的理解来看,如果要清晰做到理解语义。
    则分词这个方法从架构上可能就是错误的。
    因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。
    gowl
        14
    gowl  
    OP
       2018-02-26 06:52:18 +08:00
    @takato 内行~
    gowl
        15
    gowl  
    OP
       2018-02-26 07:42:55 +08:00
    @takato 我能模模糊糊地感知你的意思,但是不能完全领会,能不能举两个例子啊~
    gowl
        16
    gowl  
    OP
       2018-02-26 07:45:52 +08:00
    @Baymaxbowen 我觉得应该分一个词~
    gowl
        17
    gowl  
    OP
       2018-02-26 07:48:19 +08:00
    @murmur 感谢点拨
    gowl
        18
    gowl  
    OP
       2018-02-26 07:49:49 +08:00
    今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构
    takato
        19
    takato  
       2018-02-26 09:50:22 +08:00   3
    @gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。
    这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。

    比如:

    鱼对于鱼子的意思,是有贡献的。
    而鱼子对于鱼子酱的意思,也是有贡献的。

    所有的字的组合构成了最完整的词的含义。

    所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。
    takato
        20
    takato  
       2018-02-26 09:51:37 +08:00   1
    @gowl 这也是为什么有人会弄出词向量这种东西。。
    gowl
        21
    gowl  
    OP
       2018-02-26 11:07:01 +08:00
    yybeta
        22
    yybeta  
       2018-02-26 12:01:38 +08:00
    自己试过好多,目前离线用 jieba,API 用 boson,https://bosonnlp.com/demo 可以试试,可能是中文做得最好的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     964 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 19:10 PVG 03:10 LAX 12:10 JFK 15:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86