如题所示,导出了大概 12 万条聊天记录,请问各位佬有什么好的办法训练让 ai 模仿吗

1 rateltalk Jan 2 via iPhone 同问,我想把聊天记录做成知识库,做成什么格式的( excel ,txt 等)最好 |
2 liuzimin Jan 2 via Android 准备做秽土转生? |
3 qixinwuchen Jan 2 via iPhone 感兴趣,关注一下 |
4 vovov Jan 2 via iPhone 我准备把聊天记录向量化,然后把匹配的数据用大模型来回答看看效果 |
5 dji38838c Jan 2 这思路.. 你直接拿这个问题用 AI 不就行了 |
6 lloovve Jan 2 via iPhone 找到方案踢我一下,我也想转生一个 |
7 okoklll Jan 2 试试 Weclone https://docs.llamafactory.online/docs/documents/best-practice/weclone |
8 zisen Jan 2 @s609926202 json |
9 euph Jan 2 via Android 刚问了哈基米,感觉瓶颈还是在 gpu |
10 might1 Jan 2 via Android 更好奇是怎么导出来的微信聊天记录 |
11 cxsz Jan 2 同好奇怎么导出数据 |
12 hafuhafu Jan 2 需要自己清洗一下对话,去掉没用的信息,然后多次连续的消息拼成一个长句,最终应该变成 QA 形式的,你的对话是 Q ,对方的是 A 。 然后用 LlamaFactory 之类的微调。 之前稍微玩了一下,太久了忘了,反正看文档完事。 |
14 jiandandkl Jan 3 @okoklll 试过 weclone ,效果很不好 |
17 okoklll Jan 3 @jiandandkl 这个和数据质量关系还是挺大的,当时用的哪个模型呢 |
18 kingmiao Feb 10 12 万条数据 数量不错了。 这个需求大致是个微调个人风格,这个数据量完全够了,数据清洗多做做。数据洗不干净模型会瞎整的,可以 vibe coding 一个 python 脚本,注意只保留文本对话,数据格式处理成 ShareGPT ,因为是多轮对话,不要用 Alpaca ,那个是单轮的,学不会上下文的联系。 然后就是看有没有显卡了,整个 8B 模型,效果就不错了,没有显卡可以整 colab 或者 kaggle 都有免费的算力。 微调库可以用 unsloth ,这种任务跑起来快,方便导出 |
19 cgsgeduo Mar 16 直接用 rag 做成一个聊天 agent? 如果直接训练那么最好就是 SFT |