![]() | 1 binux 2017-03-18 16:03:51 +08:00 via Android 公司名是全称还是简称 实体识别 |
![]() | 8 ijustdo 2017-03-18 16:51:37 +08:00 中文处理里面有个 实体识别 就是代词性的分词 然后找到那些 为 机构名词 |
![]() | 9 ijustdo 2017-03-18 16:59:42 +08:00 INFO 2017-03-18 16:58:52,236] intxt: 有一个叫一腿有限公司的是个好公司 INFO 2017-03-18 16:58:52,236] 1:有 /v[-1:HED] 2:一个 /m[7:SBV] 3:叫 /v[7:SBV] 4:一 /m[4:ATT] 5:腿 /n[5:ATT] 6:有限公司 /n[2:VOB] 7:的 /u[2:RAD] 8:是 /v[0:COO] 9:个 /q[10:ATT] 10:好 /a[10:ATT] 11:公司 /n[7:VOB] INFO 2017-03-18 16:58:52,236] A1(3, 5): 一 腿 有限公司 INFO 2017-03-18 16:58:52,236] A0(1, 1): 一个 INFO 2017-03-18 16:58:52,236] A0(6, 6): 的 INFO 2017-03-18 16:58:52,236] A1(8, 10): 个 好 公司 INFO 2017-03-18 16:58:52,236] ------------------------------------------------------------ 看到没有 一腿有限公司 成功识别 当然这个公司是不存在的 呵呵 |
![]() | 11 ijustdo 2017-03-18 17:32:03 +08:00 实体识别 找这个 相关的库 我用的哈工大的库 |
![]() | 12 ijustdo 2017-03-18 17:33:23 +08:00 百度的自然语言接口也提供 免费的文本相关的接口 每天有次数限制 |
![]() | 13 ijustdo 2017-03-18 17:38:48 +08:00 北大的中文有个撒实验室 也出类似的 其实 就是带 词性的分词 然后再处理 python jieba 分词也带词性分词 最简单的 你可以先用 jieba 试试 找名词 和机构名词 我要是没记错 jieba 也带新词发现 。。。 |
![]() | 16 bxb100 2017-03-18 19:56:25 +08:00 via Android 清华也有个分词的包 |
![]() | 17 ijustdo 2017-03-18 22:13:19 +08:00 哈工大 ltp |
18 kunjinkao 2017-09-30 23:25:14 +08:00 找些语料训练个 crf,抽取一下就 ok 了 |