V 友们,给一篇文章,里面会出现一些公司的名字,前提是我不知道有哪些公司,请问如何将这些公司的名字提取出来

1 binux Mar 18, 2017 via Android 公司名是全称还是简称 实体识别 |
8 ijustdo Mar 18, 2017 中文处理里面有个 实体识别 就是代词性的分词 然后找到那些 为 机构名词 |
9 ijustdo Mar 18, 2017 INFO 2017-03-18 16:58:52,236] intxt: 有一个叫一腿有限公司的是个好公司 INFO 2017-03-18 16:58:52,236] 1:有 /v[-1:HED] 2:一个 /m[7:SBV] 3:叫 /v[7:SBV] 4:一 /m[4:ATT] 5:腿 /n[5:ATT] 6:有限公司 /n[2:VOB] 7:的 /u[2:RAD] 8:是 /v[0:COO] 9:个 /q[10:ATT] 10:好 /a[10:ATT] 11:公司 /n[7:VOB] INFO 2017-03-18 16:58:52,236] A1(3, 5): 一 腿 有限公司 INFO 2017-03-18 16:58:52,236] A0(1, 1): 一个 INFO 2017-03-18 16:58:52,236] A0(6, 6): 的 INFO 2017-03-18 16:58:52,236] A1(8, 10): 个 好 公司 INFO 2017-03-18 16:58:52,236] ------------------------------------------------------------ 看到没有 一腿有限公司 成功识别 当然这个公司是不存在的 呵呵 |
11 ijustdo Mar 18, 2017 实体识别 找这个 相关的库 我用的哈工大的库 |
12 ijustdo Mar 18, 2017 百度的自然语言接口也提供 免费的文本相关的接口 每天有次数限制 |
13 ijustdo Mar 18, 2017 北大的中文有个撒实验室 也出类似的 其实 就是带 词性的分词 然后再处理 python jieba 分词也带词性分词 最简单的 你可以先用 jieba 试试 找名词 和机构名词 我要是没记错 jieba 也带新词发现 。。。 |
16 bxb100 Mar 18, 2017 via Android 清华也有个分词的包 |
17 ijustdo Mar 18, 2017 哈工大 ltp |
18 kunjinkao Sep 30, 2017 找些语料训练个 crf,抽取一下就 ok 了 |