
1 Livid MOD PRO 我们曾经确实在用结巴分词,不过目前已经换到另外一个分词服务了。 改天会向大家介绍,目前看起来效果还不错。 |
2 kier 2014-05-28 17:07:53 +08:00 不会呀,我印象中就程序load的时候比较慢,后面就很快呀 |
3 a591826944 OP @kier 是因为我配置低的缘故么? 但是 看上面的信息。。确实用的时 cache的词库 cache /tmp/jieba.cache |
4 a591826944 OP @Livid 我是自己做着玩的东西。。所以都行吧。。我想先把这个搞起来看看,,等不到改天了 -_-|||..了解这个 比较慢的情况么? |
5 a591826944 OP 关于php 和 jieba 的 python http服务交互。。大家还有什么其他的建议吗 |
6 Livid MOD PRO @a591826944 V2EX 的办法是单独启动了一个 web service 来提供标签提取。 |
7 kier 2014-05-28 17:16:16 +08:00 @a591826944, 刚仔细看了你的帖子,这个使用是没问题的,你是直接运行那个demo程序,它会完成load词库到内存中,然后再分词等等,当然慢了,但是你做http服务,load词库到内存中只会在启动的时候做一次,后面不会再做了,所以速度不会有影响的 |
8 a591826944 OP @Livid 是的我也想这么做。。所以我会启动一个python的http服务。。但是目前在命令行下运行demo的时间来看。。有点长啊。。这样即使上了服务。。也不会快的呀 |
9 a591826944 OP @kier 有道理。。我先做做看。。感谢 |
10 ultimate010 2014-05-28 19:19:29 +08:00 干嘛不用c++版本? |
12 Livid MOD PRO |
13 XDA 2014-05-28 20:19:51 +08:00 项目里用的IK |
14 a591826944 OP @ultimate010 我也看了C++版本。而且我发微博咨询了作者。。c++版本确实直接就可以提供分词服务。。但是 我没有看到提供提取关键词服务的说明。。所以我问了他。。还没回复 |
15 aszxqw 2014-05-28 20:34:25 +08:00 @a591826944 不好意思下午6点才看到你的私信。不过已经回复你了,你不能收到吗? |
16 a591826944 OP @aszxqw 哎呦我去。。碰上了。。。恢复了。。刚到家,一直在路上。。。 |
17 dreampuf 2014-05-28 20:55:59 +08:00 |
18 ultimate010 2014-05-28 21:10:46 +08:00 @dreampuf 哈工大的自然语言处理很牛逼。 |
19 halfcrazy 2014-05-28 21:20:04 +08:00 |
20 dreampuf 2014-05-28 22:45:11 +08:00 @ultimate010 除了哈工大,stanford,中科院 还推荐一个海量分词 http://home.hylanda.com/show_5_19.html 除了结巴分词之外,更推荐楼上的 snownlp 。作者是个苦苦修行技术的单身。 @a591826944 词典文件一般序列化为特定格式或者经过压缩,反序列化到内存中时大小一般会翻几番(视倒插表结构)。HTTP服务一般会启动多个实例,以类库的形式调用会产生不必要的内存开销。最好的方法是独立为一个外部服务,独立处理。 |
21 alexapollo 2014-05-28 23:49:55 +08:00 结巴是使用时加载,说实话我不觉得很好 |
24 fxsjy 2014-10-27 12:46:22 +08:00 试用下jieba最新版0.34吧,内存占用已经下降到原来的1/3,加载速度0.6秒左右。 |
25 sangxiaolong 2014-11-18 23:49:27 +08:00 @Livid 现在v2ex的自动tag功能比以前好很多了,请问现在用的什么工具呢,能分享一下么?谢谢 |