
需求是从句子中提取指定关键词或者关键词近似的词语;目前用 jieba 提取效果不是很理想.可能我用法不对;有人做过类似的关键词提取吗
1 miaoblyat OP # 提取句子中的关键词及其近似词 def extract_keywords_and_similars(sentence, custom_keywords, similarity_threshold=0.5): words = jieba.lcut(sentence) result = {} for keyword in custom_keywords: extracted_words = [word for word in words if is_similar(keyword, word, similarity_threshold) or keyword == word] if extracted_words: result[keyword] = extracted_words return result |
2 MelodYi 2024-06-03 15:52:38 +08:00 先用大模型试试? |
3 murmur 2024-06-03 16:00:23 +08:00 少量的句子连人都看不懂怎么提取关键字 |
4 BiChengfei 2024-06-03 16:19:11 +08:00 前提:你要有一个关键字字典 指定关键词:使用上面的字典,构建字典树,进行语句提取,或者循环比较 相似关键字:循环字典,求相似度 |
5 miaoblyat OP 现在用了 Chinese-word- vector 作关键词字典 |
6 miaoblyat OP @BiChengfei sentence: 这里发生车辆碰撞,有人受伤 keyword: {'车祸': ['受伤']}--0.5 sentence: 这里有条狗被撞了,无人受伤 keyword: {'车祸': ['撞', '受伤']}--0.5 sentence: 高速上塞车了,不知道什么原因 keyword: {}--0.5 |
8 BiChengfei 2024-06-03 17:01:54 +08:00 {'车祸': ['受伤']}--0.5 {'车祸': ['撞', '受伤']}--0.5 你这不能使用相似度算法了,需要根据语义,进行文本分类吧(这个我不懂,等有缘人解惑吧) |
9 BiChengfei 2024-06-03 17:03:06 +08:00 |
10 miaoblyat OP 好的感谢 |
11 meshell 2024-06-03 20:39:42 +08:00 @miaoblyat Op 要不试下我这个 https://github.com/TianLiangZhou/ffi-lac |
12 jr55475f112iz2tu 2024-06-03 21:30:51 +08:00 你应该把最原始的需求/最终的目的说出来,而不是这个经过解读后的需求 中文 NLP 过去绝大部分的做法,在大语言模型出来之后基本上都失去了意义,还用老套路来做只是缘木求鱼 |
13 rabbbit 2024-06-03 22:03:56 +08:00 同有这个需求,也许可以解决模型知识库命中率低的问题。 |
14 macaodoll 2024-06-04 08:26:34 +08:00 via Android 我们也有文本提取的需求,之前 NLP 错的太多了,这些文本提取类的交给大模型很舒服的 |