
实现评论内容的关键词匹配,当评论里面的短语或者单词次数出现超过两次,要匹配这种词或者词语
因为没办法从代码层面去区分这个单词是单独的词还是组合的词,普通正则就只能匹配出单个单词的,导致匹配的词完全是乱七八糟的
有没有大佬做过,给小弟分享一下思路!!!
1 leejinhong OP 例子:Great style and very comfortable! Great value for money and very comfortable. 这段 Great 、very comfortable 是关键词 |
2 zsc8917zsc 2024-11-04 15:53:07 +08:00 jieba 分词? |
3 b821025551b 2024-11-04 15:53:57 +08:00 首先,内容是纯英文还是中英文; 其次,关键词内容是自己有个库,还是根据当前文本内容去拆分; 最后,“普通正则”是如何匹配的,preg_match_all 么? |
4 leejinhong OP @b821025551b 第一想到的就是它 |
5 leejinhong OP @b821025551b 内容是多语种的。确实要维护一个关键词内容库才行,不的话肯定就是反人类的东西 |