求教: 如何基于 LLM 构建一个代码协助助手? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ljx626
V2EX    程序员

求教: 如何基于 LLM 构建一个代码协助助手?

  • &nbs;
  •   ljx626 2023-12-19 20:26:49 +08:00 1700 次点击
    这是一个创建于 688 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,需要一个训练好的大模型,比如 Code Llama ,然后把我的代码项目导进去,比如一个 c++工程 2w 行代码, 然后我就能通过一定的方式问他了:比如这个类是干啥的, 如何初始化一个 xxxAgent(代码里的) 这样类似的问题。 构建这样的工具可行的方式是什么?

    4 条回复    2023-12-19 21:34:02 +08:00
    cmos
        1
    cmos  
       2023-12-19 20:41:28 +08:00
    导入整个项目进行提问(单个文件有现成的 copilot chat 和 codium chat ),需要使用基座模型进行训练和精调。无论是全量预训练或者使用 LoRA ,对于个人而言,都是不现实的:
    1. 没有那么多的数据;
    2. 硬件要求很高。
    比如,llama2-13b 只训练 LoRA 参数,单卡显存要求大于 20G ;全量预训练没有四张 V100 以上的卡基本没法高效开展。实在想尝试,可以看看 Chinese-LLaMA-Alpaca-2 我记得有现成的脚本可以上手微调,光加个中文就用了 50K 词表和 100G 纯文本。
    ljx626
        2
    ljx626  
    OP
       2023-12-19 20:50:24 +08:00
    @imes 感谢大佬~ 使用基座模型的基础上,用自己的代码项目做一下增训,会有效果不
    cmos
        3
    cmos  
       2023-12-19 21:21:30 +08:00
    @ljx626 2#
    肯定是有效果的,但是最终质量极其依赖训练的数据量。粗略估计,即使精馏,也得有个 20G 数据才行得通。
    R4rvZ6agNVWr56V0
        4
    R4rvZ6agNVWr56V0  
       2023-12-19 21:34:02 +08:00
    fine tune 么。看你微调样本数量。使用云服务预算要拉到 300 美金以上。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5746 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 01:51 PVG 09:51 LAX 17:51 JFK 20:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86