实时对话场景下怎么做 rag 不影响响应速度(最佳实践) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
rizon
V2EX    程序员

实时对话场景下怎么做 rag 不影响响应速度(最佳实践)

  •  
  •   rizon
    othorizon 1 天前 via Android 1552 次点击
    #背景

    如果是一个不在意响应速度的场景,不在意成本的情况下。每句回复之前都可以做一次记忆召回,不过实际这样召回也不对,因为可能会导致重复召回的问题,所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。

    不过我想问的是,在实时对话,也就是期望保持低延迟的语音对话中,该如何触发记忆召回呢。

    我能想到的就是 2 个方法:
    1 ,前置一个小模型做意图判断是否需要召回记忆。
    2 ,模型里加入一个召回记忆的 tool ,靠模型自己判断。
    不过这个只解决了召回时机的问题,还需要解决召回速度,比如混合关键词检索等。

    #问题

    所以我的问题就是,

    1 ,关于召回时机这里有什么好的最佳实践吗?
    2 ,关于召回速度提升有什么好的方案吗?
    3 ,目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗
    9 条回复    2025-11-05 13:53:56 +08:00
    maolon
        1
    maolon  
       1 天前
    我觉得大部分目前的系统都是采用你说的 2.这个方案,也就是模型自己判断要不要召回。

    至于速度问题,其实可以用一些 trick 解决,比如开始召回就会固定/非固定的输出语音,比如“让我想想”,“我回想一下我们聊过的内容”这样的语音来拖时间,一般再怎么搞 300ms 也能召回完成了,而你拖时间的这句话应该会比这个时间长。

    我之前产品用的 livekit 他们的服务,你可以去看看。
    rizon
        2
    rizon  
    OP
       1 天前 via Android
    @maolon 嗯嗯,感谢。我看看
    galileo1214
        3
    galileo1214  
       1 天前
    不是有 memery saver 吗?
    xvan
        4
    xvan  
       1 天前
    现在的召回速度大概多少,如果 1s 不到还凑合
    记忆体有专用的组件,比如 mem0 ,但是速度就不太好保证了,用的 LLM
    cryptovae
        5
    cryptovae  
       1 天前
    UX 设计, 在召回阶段让用户觉得是模型在思考
    rizon
        6
    rizon  
    OP
       1 天前
    感觉收藏这个帖子的人很多,但是回帖很少,可能大家都有这方面问题,但是都没有很成熟的落地经验 吧
    rizon
        7
    rizon  
    OP
       1 天前
    @xvan 这就是平衡问题了,用云服务而不是本地服务的话,延迟我感觉下不来
    rizon
        8
    rizon  
    OP
       1 天前
    @cryptovae 是,这是兜底设计。
    rizon
        9
    rizon  
    OP
       7 小时 37 分钟前
    有大佬分享一下嘛
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2988 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 13:31 PVG 21:31 LAX 05:31 JFK 08:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86