构建适用于大模型微调的对话数据集 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nakroy
V2EX    Local LLM

构建适用于大模型微调的对话数据集

  •  
  •   nakroy 1 天前 302 次点击

    大模型微调一般使用的是 json ,jsonl 或 parquet 格式存储的对话数据集,我看了一些公开的数据集,都是问答对形式的对话数据集,结构化的文本数据。

    我的疑问是,构建上千条甚至上万条这种对话数据,一般使用的工具是什么?传统的数据标注,是用一些数据标注工具为每一条数据添加标记(这里面一般不能修改原始数据),这些对话数据,显然是需要能自己构建和修改的(或者让模型生成回答,人工审核和编辑),直接编辑 json 或 jsonl 文件看起来不太现实,因为它们不会对"\n"这种转义符进行转义,所以如果文本很长,看起来就是一行很长很长的文本,直接在 VSCoe 里查看和编辑很吃力也不够直观(你们可以尝试下载一些公开的数据集然后在 VSCode 或其他文本编辑器打开就知道了)

    我看到很多说明如何使用这些数据集进行训练的文章或教程,但很少有讨论关于如何从零开始构建这些数据集的方法,甚至似乎没有一个很好的编辑工具可以随时查看和修改对话数据。还可以延伸到多人协作的问题,仅靠一个人完全审核和修改上千至上万条对话数据,这工作量也是很大的,一般需要多人协作,那这个工具还得能支持多人协作才可以。

    我之前尝试了 Doccano 和 Label Studio ,不知道是我设置有问题还是操作有问题,我发现这些标注工具都是为 NLP 任务设计的,而不是为 LLM 对话数据设计的,并不能很好满足这种场景。

    4 条回复    2025-12-13 08:32:58 +08:00
    suckinbottle
        1
    suckinbottle  
       1 天前
    https://github.com/ConardLi/easy-dataset, 这两天在疯狂学习模型微调, 这个是可以根据自己要求生成数据集的工具.
    TimePPT
        2
    TimePPT  
    PRO
       1 天前
    几万量级的 QA Pair ,本地导入 sqlite 数据库不就得了,批量查找修改很方便。或者本地 juypter lab 配合 pandans 、duckdb 、Polars 都很好处理。
    这是从做机器学习时期就开始的基操了
    rogerer
        3
    rogerer  
       1 天前
    其实也还好吧,上万条数据其实 Excel Online 就可以 hold 住
    MIUIOS
        4
    MIUIOS  
       1 天前
    拿 excel 错错有余了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2571 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 03:11 PVG 11:11 LAX 19:11 JFK 22:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86