请问做 LLM 背景的人应该长什么样? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
dayeye2006199
V2EX    程序员

请问做 LLM 背景的人应该长什么样?

  •  
  •   dayeye2006199 2023-06-03 08:15:59 +08:00 4274 次点击
    这是一个创建于 878 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在市场上有好多找做 LLM 背景人的坑。 我好奇这样背景的人和普通做 NLP 的人有什么主要的差异吗?

    例如我这样的水货背景

    • 3 年前搞过一点 NLP ,会做常见的一些 task (分类、问答、翻译什么的)。最近几年的进展都没怎么跟了。
    • 明白古早版本的 bert ,transformer ,gpt 都是怎么工作的。
    • 知道 language model 是怎么弄出来的( large 的没碰过)
    • 知道多机多卡的训练怎么写
    • 会用一些已有推理框架 onnx ,tensorrt 什么的捣鼓捣鼓模型上线

    我可以大言不惭的说自己也是 LLM 背景的人吗?还是会被打回原型?

    12 条回复    2023-06-04 09:08:51 +08:00
    glfpes
        1
    glfpes  
       2023-06-03 09:44:49 +08:00
    LLM 出来才多久?市面上现在做这个方向的正是这个行业的第一批人。各种背景的都有,NLP 的居多。

    只有做过 LLM 的,才可以说自己有相关背景
    Cynicsss
        2
    Cynicsss  
       2023-06-03 09:53:03 +08:00 via iPhone
    这个是不是只能说有 nlp 背景,不能说有 llm 背景吧(
    Ocean810975
        3
    Ocean810975  
       2023-06-03 09:55:30 +08:00 via Android
    我怀疑绝大多数说自己有 LLM 背景的人大概率也就是这半年才上手的
    LaurelHarmon
        4
    LaurelHarmon  
       2023-06-03 10:04:08 +08:00
    train 过?
    dayeye2006199
        5
    dayeye2006199  
    OP
       2023-06-03 12:08:10 +08:00
    @LaurelHarmon 只 train 过 lm ,没弄过 llm
    kenvix
        6
    kenvix  
       2023-06-03 12:28:36 +08:00   1
    @LaurelHarmon train LLM 有点要求高了,大多数我们这种小作坊实验室都没可能搞
    vToExer
        7
    vToExer  
       2023-06-03 13:35:30 +08:00 via Android
    也想问这个问题,失业求职后感觉此类岗位要求和普通 nlp 不太匹配,不知自学填坑是否可行
    MrGba2z
        8
    MrGba2z  
       2023-06-03 13:54:34 +08:00   1
    虽然到处说的都是 LLM
    但是很多时候大部分人 /企业在做的是 prompt engineering (非贬义)或者是 LLM 周边项目
    prompt engineering 见效快回报率高, 周边项目走不同赛道但依旧搭 LLM 的顺风车。huggingface 上就有很多案例
    这些人的背景差别还是挺大的

    我认识的研究主力研究 LLM 的人,基本上每个礼拜都会看一篇最近的论文,然后每个月分享 10~30 件最近业界的进展和知识。

    现在这个赛道发展太快,能看懂别人的研究然后来应用到自己的场景,我觉得就是一个合格的 LLM 人了。 (比如看了 https://arxiv.org/pdf/2305.15717.pdf 可能就直接放弃用 imitation 去做 distillation 的想法,避免浪费时间等)

    ---
    当然如果你是指创造 transformer 这种级别的背景人的话,那当我上面没说。
    OysterQAQ
        9
    OysterQAQ  
       2023-06-03 14:38:56 +08:00
    感觉 LLM 不管是数据集构建还是训练流程都是需要一些特定经验的 但是很明显一般的公司没有能力提供这个场景
    WuSiYu
        10
    WuSiYu  
       2023-06-03 17:16:11 +08:00 via iPhone
    可能需要对大规模(分布式)训练 /推理有了解吧
    wqzjk393
        11
    wqzjk393  
       2023-06-03 19:12:56 +08:00 via iPhone
    先掌握工程思维,再去纠结算法背景,大模型往往对工程化的要求比算法功底要强的多
    jetyang
        12
    jetyang  
       2023-06-04 09:08:51 +08:00
    如果真会分布式训练,就可以说自己搞过 LLM ,可以当面给别人复现大参数量羊驼的分布式训练
    关于     帮助文档     自助推广系统         API     FAQ     Solana     5082 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 03:51 PVG 11:51 LAX 20:51 JFK 23:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86