请教知识库搭建 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
blackbookbj277
V2EX    问与答

请教知识库搭建

  • &nbp;
  •   blackbookbj277 233 天前 2586 次点击
    这是一个创建于 233 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近 DS 火了,领导说本地化部署一个,把单位的相关文档、材料、制度、规则等各类乱七八糟的材料吧,都放上去,然后让大模型学习,通过问答来应用。 我大概了解了下,这种应该训练大模型的方式,只是应用大模型吧。 我下载的 DS 部署的离线版本,搭建的知识库也只是对上传文档内容的分析,大模型无法通过我提供的数据分析给适合我们的答案吧。 语言组织有点混乱,见谅。

    11 条回复    2025-02-24 17:21:10 +08:00
    lzoje
        1
    lzoje  
       233 天前
    RAG 知识库
    murmur
        2
    murmur  
       233 天前
    正规的知识库要拆段的,拆的越细越好,问题 答案 问题 答案这样,如果让 AI 去理解效果不好
    lthon
        3
    lthon  
       233 天前
    搜索一下 RAG 了解下
    ihainan
        4
    ihainan  
       233 天前
    你可以拿一个现成的 RAG 框架,比如 Dify 、RAGFlow 搭建一套 RAG 系统,把你的数据传上去建立知识库,设置 LLM 、Embedding 和 Rerank 模型的地址,用提供的 RAG 工作流模板快速搭建,试试看效果如何,有更高的要求再考虑修改工作流或者自己开发。
    mumbler
        5
    mumbler  
       233 天前   1
    deepseek.flashai.com.cn
    在这里直接下载一个包,解压,运行就可以在本地自动部署大模型+知识库,不需要任何配置

    mark.flashai.com.cn
    测测一下你的电脑能跑什么大模型
    uprit
        6
    uprit  
       233 天前   1
    大多数领导想要的:资料扔给大模型让他学,然后多了个内部专家给你们用。
    一般人实际能实现的:检索资料库,检索结果追加到提示词里,一起扔给大模型。
    前者实际操作需要微调训练,成本巨高,技术难度也大,最终效果不一定好。对的数据集要求很高。
    后者实际是个退而求其次的思路,搞 RAG ,成本低,容易操作,但实际并没改变大模型原本的性能,每次都得引用,而且没“记忆”,同时搞这个事情对资料库的整理要求极高,实际性能也不咋地,大概率搞了之后效果稀烂。
    结论:别对 AI 期望过高。
    lyping
        7
    lyping  
       233 天前
    @uprit 如果是一些标准文件,国家标准,里面有各种条款。。这种用什么方案比较好呢
    halobugTurbo
        8
    halobugTurbo  
       232 天前
    别期望太高了。前段时间有个类似需求,数据比较杂有文本,图片,PDF ,视频等。数据清洗后,永远达不到领导预期的,说的最多的问题:回答的内容为什么不准?为什么不全?这个问题回答应该包含某个内容!
    uprit
        9
    uprit  
       232 天前
    @lyping 如 2L 所说,拆成问答对,越细越好。这个工作量很庞大。
    RAG 的效果依赖于检索,如果每次都能检索出少量且精准的内容,一起提供给模型参考,效果会好一些。
    supuwoerc
        10
    supuwoerc  
       232 天前
    dify 差不多就满足了
    registerrr
        11
    registerrr  
       227 天前
    @uprit #9 这不就真成“人工”智能了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3715 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 00:51 PVG 08:51 LAX 17:51 JFK 20:51
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86