如何从句子提取关键词 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
miaoblyat
V2EX    程序员

如何从句子提取关键词

  •  
  •   miaoblyat 2024-06-03 14:16:18 +08:00 via iPhone 2129 次点击
    这是一个创建于 578 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求是从句子中提取指定关键词或者关键词近似的词语;目前用 jieba 提取效果不是很理想.可能我用法不对;有人做过类似的关键词提取吗

    15 条回复    2024-06-05 00:26:10 +08:00
    miaoblyat
        1
    miaoblyat  
    OP
       2024-06-03 14:19:23 +08:00
    # 提取句子中的关键词及其近似词
    def extract_keywords_and_similars(sentence, custom_keywords, similarity_threshold=0.5):
    words = jieba.lcut(sentence)
    result = {}

    for keyword in custom_keywords:
    extracted_words = [word for word in words if is_similar(keyword, word, similarity_threshold) or keyword == word]
    if extracted_words:
    result[keyword] = extracted_words

    return result
    MelodYi
        2
    MelodYi  
       2024-06-03 15:52:38 +08:00
    先用大模型试试?
    murmur
        3
    murmur  
       2024-06-03 16:00:23 +08:00
    少量的句子连人都看不懂怎么提取关键字
    BiChengfei
        4
    BiChengfei  
       2024-06-03 16:19:11 +08:00
    前提:你要有一个关键字字典
    指定关键词:使用上面的字典,构建字典树,进行语句提取,或者循环比较
    相似关键字:循环字典,求相似度
    miaoblyat
        5
    miaoblyat  
    OP
       2024-06-03 16:24:16 +08:00 via iPhone
    现在用了 Chinese-word- vector 作关键词字典
    miaoblyat
        6
    miaoblyat  
    OP
       2024-06-03 16:26:46 +08:00
    @BiChengfei sentence: 这里发生车辆碰撞,有人受伤
    keyword: {'车祸': ['受伤']}--0.5
    sentence: 这里有条狗被撞了,无人受伤
    keyword: {'车祸': ['撞', '受伤']}--0.5
    sentence: 高速上塞车了,不知道什么原因
    keyword: {}--0.5
    miaoblyat
        7
    miaoblyat  
    OP
       2024-06-03 16:27:22 +08:00
    @miaoblyat 感觉近似词不是很准,就想着怎么能更精准
    BiChengfei
        8
    BiChengfei  
       2024-06-03 17:01:54 +08:00
    {'车祸': ['受伤']}--0.5
    {'车祸': ['撞', '受伤']}--0.5
    你这不能使用相似度算法了,需要根据语义,进行文本分类吧(这个我不懂,等有缘人解惑吧)
    BiChengfei
        9
    BiChengfei  
       2024-06-03 17:03:06 +08:00
    miaoblyat
        10
    miaoblyat  
    OP
       2024-06-03 18:19:20 +08:00 via iPhone
    好的感谢
    meshell
        11
    meshell  
       2024-06-03 20:39:42 +08:00
    jr55475f112iz2tu
        12
    jr55475f112iz2tu  
       2024-06-03 21:30:51 +08:00   1
    你应该把最原始的需求/最终的目的说出来,而不是这个经过解读后的需求

    中文 NLP 过去绝大部分的做法,在大语言模型出来之后基本上都失去了意义,还用老套路来做只是缘木求鱼
    rabbbit
        13
    rabbbit  
       2024-06-03 22:03:56 +08:00
    同有这个需求,也许可以解决模型知识库命中率低的问题。
    macaodoll
        14
    macaodoll  
       2024-06-04 08:26:34 +08:00 via Android
    我们也有文本提取的需求,之前 NLP 错的太多了,这些文本提取类的交给大模型很舒服的
    miaoblyat
        15
    miaoblyat  
    OP
       2024-06-05 00:26:10 +08:00 via iPhone
    @macadoll 用了哪个大模型,方便说吗;目前我用了 bert-Chinese 感觉还是差点意思
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2373 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 10:23 PVG 18:23 LAX 02:23 JFK 05:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86