求助微信聊天记录训练 ai

This topic created in 131 days ago, the information mentioned may be changed or developed.

如题所示，导出了大概 12 万条聊天记录，请问各位佬有什么好的办法训练让 ai 模仿吗

微信聊天记录

AI训练

模仿

19 replies 2026-03-16 01:19:23 +08:00

rateltalk

Jan 2 via iPhone

同问，我想把聊天记录做成知识库，做成什么格式的（ excel ，txt 等）最好

liuzimin

Jan 2 via Android

准备做秽土转生？

qixinwuchen

Jan 2 via iPhone

感兴趣，关注一下

vovov

Jan 2 via iPhone

我准备把聊天记录向量化，然后把匹配的数据用大模型来回答看看效果

dji38838c

Jan 2

这思路..
你直接拿这个问题用 AI 不就行了

lloovve

Jan 2 via iPhone

找到方案踢我一下，我也想转生一个

okoklll

Jan 2

试试 Weclone
https://docs.llamafactory.online/docs/documents/best-practice/weclone

zisen

Jan 2

@s609926202 json

euph

Jan 2 via Android

刚问了哈基米，感觉瓶颈还是在 gpu

might1

Jan 2 via Android

更好奇是怎么导出来的微信聊天记录

cxsz

Jan 2

同好奇怎么导出数据

hafuhafu

Jan 2

需要自己清洗一下对话，去掉没用的信息，然后多次连续的消息拼成一个长句，最终应该变成 QA 形式的，你的对话是 Q ，对方的是 A 。
然后用 LlamaFactory 之类的微调。
之前稍微玩了一下，太久了忘了，反正看文档完事。

viking000

Jan 2

https://github.com/hellodigua/ChatLab,这个你改改，估计能满足

jiandandkl

Jan 3

@okoklll 试过 weclone ，效果很不好

MuskZhou

Jan 3

@might1 我的是 macOS ，微信回退到 3.8.0 然后用 wxdump

MuskZhou

Jan 3

@cxsz 我的是 macOS ，微信回退到 3.8.0 然后用 wxdump

okoklll

Jan 3

@jiandandkl 这个和数据质量关系还是挺大的，当时用的哪个模型呢

kingmiao

Feb 10

12 万条数据数量不错了。
这个需求大致是个微调个人风格，这个数据量完全够了，数据清洗多做做。数据洗不干净模型会瞎整的，可以 vibe coding 一个 python 脚本，注意只保留文本对话，数据格式处理成 ShareGPT ，因为是多轮对话，不要用 Alpaca ，那个是单轮的，学不会上下文的联系。
然后就是看有没有显卡了，整个 8B 模型，效果就不错了，没有显卡可以整 colab 或者 kaggle 都有免费的算力。
微调库可以用 unsloth ，这种任务跑起来快，方便导出

cgsgeduo

Mar 16

直接用 rag 做成一个聊天 agent? 如果直接训练那么最好就是 SFT