AI 中的 Question-Answering 任务,如何将大段文本制作成训练数据呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KevinQi
V2EX    问与答

AI 中的 Question-Answering 任务,如何将大段文本制作成训练数据呢?

  •  
  •   KevinQi 2023-05-26 09:30:29 +08:00 1384 次点击
    这是一个创建于 868 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 Question-Answering 的训练任务中,训练任务通常是结构化的数据,大概是下文这种。

    Context Question Answer Answer-start
    上下文 问题 回答 回答的开始字符位置

    现在我有一大段或者很多纯文字数据,如何将这些制作成训练数据集呢?

    12 条回复    2023-05-26 17:57:40 +08:00
    TimePPT
        1
    TimePPT  
    PRO
       2023-05-26 09:38:54 +08:00 via Android
    纯文本是指原始对话内容还是指纯的知识文档?
    前者有角色就能分,后者要做文档 QA 抽取
    KevinQi
        2
    KevinQi  
    OP
       2023-05-26 09:49:42 +08:00
    @TimePPT 谢谢,纯的知识文档,大多是 excel ,还有 pdf 。
    DigitalG
        3
    DigitalG  
       2023-05-26 10:28:10 +08:00
    可以自己生成吗:Training Question Answering Models From Synthetic Data ,https://arxiv.org/abs/2002.09599
    但我觉得这种用途有限。

    另外想了解下,如果数据集是这样的话,为什么还要用 QA 任务模型呢?
    kingddc314
        4
    kingddc314  
       2023-05-26 10:40:24 +08:00
    可以调用 ChatGPT 生成
    TimePPT
        5
    TimePPT  
    PRO
       2023-05-26 10:41:31 +08:00
    @KevinQi 不想处理的话,试试用检索增强( ES 搜索、向量检索)大模型端到端的直接问答,可以参考下 Langchain
    如果想有监督,可以调取 GPT-4 让列出可能的 QA 对,然后人工筛选入库
    KevinQi
        6
    KevinQi  
    OP
       2023-05-26 10:50:20 +08:00
    @DigitalG 未必是 QA 模型,目前想采用的 3 个,一个是 QA 模型,一个是 Document Question Answer 模型,还有一个是 Table Question Answering ,但是后面两个在 Huggingface 上都没有找到中文的相关模型,以想着先试试 QA 模型,利用现有数据对某个中文模型进行微调训练。
    KevinQi
        7
    KevinQi  
    OP
       2023-05-26 11:08:22 +08:00
    @TimePPT 我觉得从纯文本 /文件 /图片抽取信息做 QA 或者 Document QA 的训练数据集,或者更普遍的,“如何从无结资料构建 QA 数据?”,应该是训练 AI 的一个很普遍的步骤,为什么检索不到什么通用工具呢?是不是我检索的关键字不对啊,学术领域这个称呼是什么呢?
    TimePPT
        8
    TimePPT  
    PRO
       2023-05-26 11:14:58 +08:00
    TimePPT
        9
    TimePPT  
    PRO
       2023-05-26 11:15:17 +08:00
    搜「文档 QA 抽取」
    KevinQi
        10
    KevinQi  
    OP
       2023-05-26 11:27:16 +08:00
    @TimePPT 这篇检索到了,但是只有论文。
    DigitalG
        11
    DigitalG  
       2023-05-26 11:38:49 +08:00 via iPhone
    @KevinQi nlp 的思路的话,可以先大规模数据上做无监督的 lm 模型,然后小规模数据上微调面向任务的 head 。如果这么操做呢?
    KevinQi
        12
    KevinQi  
    OP
       2023-05-26 17:57:40 +08:00
    @DigitalG 不太明白,AI 小白,现在只过了一遍 Huggingface 上的 Question Answering 任务的 colab 笔记。
    我现在的想法是使用 HuggingFace 上的中文 QA 预训练模型,然后使用手里的文档资料数据进行微调,微调的步骤 Huggingface 上教程很清楚,但是如何使用纯文本 /pdf/exce 文档生成格式化的训练数据({question, context, answer: {answer_start, answer_text}}),一直没有找到工具和普遍的方法。目前就卡在了“无结构化文档 to Dateset”这一步了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5349 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 08:56 PVG 16:56 LAX 01:56 JFK 04:56
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86