请教一下此类场景在 NLP 中属于哪个功能分支,可否通过 NLP 相关模型实现 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
s609926202
V2EX    自然语言处理

请教一下此类场景在 NLP 中属于哪个功能分支,可否通过 NLP 相关模型实现

  •  
  •   s609926202 2023-02-09 14:13:35 +08:00 3616 次点击
    这是一个创建于 1040 天前的主题,其中的信息可能已经有所发展或是发生改变。

    简单点说,就是从微信群聊记录中摘取关于工序流转的文本,并从中提取关键信息,录入到数据库中。

    其中关键信息有:工序名称,产品型号,数量,批次,接收人等。规定的流转格式是:

    封装转测试 HP-10010 10 只 2301 批 @张三 

    但是具体到操作员发到群聊的时候,就变味了,各种五花八门的表达都有,这也就导致原本可以使用正则来提取信息变得困难,比如:

    转测试 HP-10010 10 只 2306 周 @张三 HP-10010 转高低温测试 10 只 2306 周 @张三 

    如果用 NLP 来处理,如分词、词法分析、自动摘要,都不符合上述场景。

    所以请教大家,有没有一个 NLP 功能,我可以自定义词库,如产品型号、工序名称,使得它能正确的识别到这是 1 段关于工序流转的语言,从而提取出关键信息。

    5 条回复    2024-04-02 20:31:28 +08:00
    F281M6Dh8DXpD1g2
        1
    F281M6Dh8DXpD1g2  
       2023-02-09 14:20:34 +08:00
    三元组提取呗
    都不用 chatgpt,一般的 gpt2 模型都能做
    看看清华搞出来的那个 ,可以直接 few shot 训练
    vsitebon
        2
    vsitebon  
       2023-02-09 14:41:23 +08:00
    如果你产品型号长度固定而且搭配类似,然后只前边一定有数字,且周前边有数字,我觉得这个问题用个正则,或者两三个正则就能解决了。。。
    s609926202
        3
    s609926202  
    OP
       2023-02-09 14:44:43 +08:00
    @vsitebon 目前用的正则,不理想,主要是各种表达都有
    TimePPT
        4
    TimePPT  
    PRO
       2023-02-09 14:48:24 +08:00
    实体提取,常规任务,最简单就是政策,追求泛化,需要一些数据做训练语料。
    VincentLee9527
        5
    VincentLee9527  
       2024-04-02 20:31:28 +08:00
    NER ,中文叫命名实体识别。任务就是从非结构化的文本中抽取出结构化的信息,然后保存到数据库中。
    关键信息--即实体类型。
    三种方案可以做:
    1. 规则匹配的方式,这个复杂度最高,需要算法分析各种情况,然后写正则进行拟合。
    2. NLU 模型,自然语言理解模型。先标注 NER 的数据,然后训练一个 NER 的模型,常见的模型架构如: BERT + CRF 、BERT-MRC 等。
    3. NLG 模型,自然语言生成模型。现在最火的 chatGPT 等 LLM 。设计 prompt ,让 LLM 生成你要的数据格式。最好让 LLM 生成 json 格式的文本,这样好用规则进行提取。
    最后,可以私聊我,有偿进行指导。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     909 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 19:30 PVG 03:30 LAX 11:30 JFK 14:30
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86