一个想法,使用大模型作为数据库的极简服务模型 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
meeop
V2EX    奇思妙想

一个想法,使用大模型作为数据库的极简服务模型

  •  
  •   meeop 326 天前 3869 次点击
    这是一个创建于 326 天前的主题,其中的信息可能已经有所发展或是发生改变。

    使用大模型替代数据库,推荐算法,内容检索,等全部后端数据服务。

    只有前端+支持各种业务接口数据查询的 promot

    数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

    目前技术条件下都能实现,目前瓶颈是数据写入延迟高

    感觉这个方案可以使用极简的服务架构支持海量以及通用互联网应用,好像很有意思

    26 条回复    2025-02-18 11:43:13 +08:00
    jejwe
        1
    jejwe  
       326 天前
    用 Gemini 200 万上下文?
    看到这个我又想之想有人开发的项目,postgres 直接开发 web 程序,postgres 某个字段是 sqlite
    cheng6563
        2
    cheng6563  
       326 天前
    “增量训练数据更新大模型”,你猜训练一次要花多少钱
    meeop
        3
    meeop  
    OP
       326 天前
    和上下文无关,直接将增量用户数据作为训练内容,训练入大模型。

    比如说各大模型模型训练数据都包含 github ,那么在这个架构下的 ai-githug 可能这么运作:
    1 张三发布了一个代码库
    2 大模型每天增量训练,收纳张三的代码库
    3 用户搜索/查看/下载张三的代码库,提交 promot 类似(查询张三的代码库最新内容/检索关于张三的代码库),获取和查看代码库数据
    meeop
        4
    meeop  
    OP
       326 天前
    @cheng6563 这确实是个问题,但是看 deepseek 这趋势,成本和耗时降低到可以接受程度只是时间问题,而且可以打包多个应用训练啊,无所谓多少应用,成本都是一样的,大模型本来也要定期训练
    paopjian
        5
    paopjian  
       326 天前
    大模型增量训练? 要能增量训练大模型不就成 超忆症 万能搜索工具了
    sillydaddy
        6
    sillydaddy  
       326 天前
    “大模型替代数据库”,“目前技术条件下都能实现”
    没有这回事吧。大模型跟数据库是两回事:大模型是不精确的,不能用来作为数据库。很简单就可以证明。假设大语言模型的参数是 6B 的,那么它所能存储的信息容量,最大也就是 6B ,超过了 6B 的信息肯定是无法存储到里面的。况且大模型也不像数据库一样能精确记住每个字段。

    说到这儿,聊点有意思的。人脑的进化很能说明这个问题。人脑没有进化出像照相机那样的精确还原细节的能力,这应该是有理由的。能耗、存储量、性价比都决定了这一点。倒不是说神经网络做不到,我们偶尔能听到谁谁过目不忘,拥有闪存记忆的奇人异事,这说明神经网络其实是可以做到的,但是进化决定了不要它变成这样。
    meeop
        7
    meeop  
    OP
       326 天前
    @paopjian 现在的大模型就是万能搜索工具,各种知识库都是这么用的
    meeop
        8
    meeop  
    OP
       326 天前
    @sillydaddy 你说的没错,大模型有局限性
    但是在大模型背景下的 app 会有新的定义和要求,也没必要和现有 app 能力对齐

    比如你问大模型 xx 是什么,它回答虽然没有词典,专业教材定义精准,但是绝大多数场景也够用
    比如我发了当前这篇帖子,然后使用模型查询回来,就算有误差,只要意思和内容大体正确,也不影响信息分发和别人阅读效果
    marquina
        9
    marquina  
       326 天前
    你把数据作为大模型的训练预料,只会模型的输出风格越来越接近数据。
    而且你不可能生产一条数据就训练一次模型,总是要攒一批数据再训练。而这攒出来的数据放哪呢?还是得用数据库。有点脱裤子放屁的感觉了。
    marquina
        10
    marquina  
       326 天前
    @marquina #9 说得不够准确,我举个例子。
    现有的数据库,存放的都是结构化的数据,比如{"name": "xxx", "age": 25},而大模型的输出是人类对齐的自然语言,将这种结构化的数据作为大模型的训练语,就会极大干扰大模型的输出:比如日常聊天场景突然给你蹦出来半段 json 。

    当然你也可以说,将所有的数据都按照非结构化的自然语言处理,直接扔给大模型。如果是这样的话,就算不考虑大模型的幻觉问题,光自然语言和结构化数据之间的信息差就足够头疼了。
    zjsxwc
        11
    zjsxwc  
       326 天前
    只有几百万字的窗口,你怎么做数据库啊
    meeop
        13
    meeop  
    OP
       326 天前
    @marquina 按照模型的说法其实这些瓶颈完全能接受,比如咱现在的 v 站,一天的数据都不会有 1gb ,发帖后更新掩饰 1 分钟,页面加载时间 1000ms ,一天的模型成本小于$50,完全够用了

    不过实践层面我还没试,阿里云千问是支持增量训练的,其他模型比如 deepseek 好像还没有封装好的服务
    neteroster
        14
    neteroster  
       326 天前 via Android
    > 数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

    持续学习某种程度上是机器学习和 LLM 领域的“圣杯”,目前研究距离这个目标还远的很。除去成本因素还有一些更本质的问题,例如[灾难性遗忘]( https://arxiv.org/abs/2308.08747)。

    另外,目前的大模型没法直接从预训练文本泛化到各种任务,例如通用 QA 。例如你预训练代码库,不做其他处理的情况下模型根本没法回答/检索关于这个代码库的问题。这些都是要靠数据管线做的,甚至还需要很多“智能工人”。
    shadowyue
        15
    shadowyue  
       326 天前   1
    应该是你让大模型学习你业务的表结构,然后每次查询和更新,都让大模型按需求来生成 sql 语句。
    这样你就有一个万能数据库层了。
    8355
        16
    8355  
       326 天前
    按照你说的这样如果能实现,相当于解决了幻觉问题,对机器学习领域的影响力跟拿诺贝尔奖差不多吧。
    毕竟数据本身是不能有错误的
    givenge
        17
    givenge  
       325 天前
    前端->大模型->数据库,去掉数据库还是不太现实
    sampeng
        18
    sampeng  
       325 天前
    做不到同一个提示词返回结果是 100%一样,哪怕是 99.99999999999999999999999999999%都不行。。除非 100%。那倒是可能去掉数据库
    meeop
        19
    meeop  
    OP
       325 天前
    @sampeng 为啥不行啊,很多场景应该都可以吧

    比如信息分发类网站,帖子内容只要意思对,有一些错别字和增删不影响阅读吧
    搜索引擎类网站,只要查全率和查准率达标就行

    规避掉涉及法律责任,金融的场景就行了
    sampeng
        20
    sampeng  
       325 天前
    @meeop 你说的是替代亲,不要自己给自己叠甲,这没法聊了。我说的是不能接受的点,这是在产品里面几乎不可接受的,(研发:所以出 bug 了锅我背?)。所以就没人敢这样落地。全文搜索、数据库成本是一次性成本。真的,很多领导都是拍脑袋上 AI 。。。不是说没有,是成本和收益比其实非常非常差,刷 kpi 还行。做正常 to C 业务。原先的成熟技术成本已经非常低。

    当然,自己做玩具没问题。比如做个记账系统。反正不影响别人,也不涉及钱。
    sampeng
        21
    sampeng  
       325 天前
    @shadowyue 对,然后 ai 幻觉,删除一条记录忘加 where 了。。啊哈哈哈哈
    huiwancode
        22
    huiwancode  
       325 天前
    @meeop 现在的知识库都是 rag 这种模式吧
    qiuhang
        23
    qiuhang  
       325 天前
    那你不如老老实实存数据库,然后用大模型给数据库做个 shell 。你用 promot 和 shell 交互,shell 负责把你的自然语言转换为对应的 sql 语句。
    meeop
        24
    meeop  
    OP
       325 天前
    @huiwancode rag 不行,受限于 rag 检索准确率以及模型上下文,这个方案能提交给 ai 的数据非常有限,没法实现大数据集合的检索和查看
    i4color
        25
    i4color  
       325 天前
    思路很好,但目前技术达不到。
    按你这个思路,以后的大模型就是一个 “HER” 了
    Him
        26
    Him  
       321 天前
    本质上是一个自然语言数据库,这些数据以知识库的形式存在,使用 RAG 技术进行搜索查询,而不用重新训练模型
    对数据的增删改查本质上是对知识库中知识的修改
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5440 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 07:21 PVG 15:21 LAX 23:21 JFK 02:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86