快速测评 AI 模型,同时得到 4 个回答结果--模型判官帮你做出选择 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
laughing888
V2EX    分享创造

快速测评 AI 模型,同时得到 4 个回答结果--模型判官帮你做出选择

  •  
  •   laughing888 2024-10-16 13:22:10 +08:00 1452 次点击
    这是一个创建于 424 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在各种开源的大模型太多了,选择多了往往选择困难症,并且每个模型的特点和效果大家也不好对比,所以我开发了这个项目:模型判官

    首先在得到用户输入的内容并且选择好模型后,模型判官直接同时请求 3 个模型并且同时返回结果。颇有一种骇客帝国中从屏幕上落下各种字符的感觉。有些模型返回的内容长并且返回的速度慢,有些模型返回的速度快(后续也将增加此类统计)。当 3 个模型完全返回所有结果后,第四个模型便开始启动。首先它将评估前三个模型的回答效果,指出他们回答的优缺点,然后给出一个综合结果。如此看来这对于前三个模型来说可能是闭卷考试,对于第四个模型来说这有点像开卷考试。

    image

    在使用的过程中增加了一定的趣味性:打分系统,以满分 100 分为标准给其他模型的答案打分。之所以当他为趣味性是因为当前还没有一个明确的评分标准,全凭判官的喜好,后续可能会增加例如 A B C 或者星级评分,然后做个统计:某个判官给其他模型的评分偏好,说不定会更有趣味性。

    目前支持向千问,Deepseek ,智浦等模型选择。所有模型都来自硅基流动,通过链接邀请注册即送 2000 万 token ,做 MVP 验证产品完全够用了。

    image

    开发思路

    在实际的开发中,我在脑中思考了很久。确定需求和大概产品形态后,从用户交互角度出发,到完成评分返回最终结果为止。全部逻辑在几天内完成开发和调试。其实有了之前的很多项目积累,基础框架搭建起来非常快。例如:技术栈选择,回答的流式传输,多语言,页面 UI 框架选择,API 设计,数据库存储设计等都很快解决。重点在于如何通过产品呈现你的想法。好的产品可以向用户传递开发者的想法,让人一下就知道:哦它是干这个的,它是怎么用的。多从用户的角度出发,把复杂问题留给开发者,把简单交互留给用户。

    开源

    现在我讲它开源了,这可以让项目与开发者产生更多连接。欢迎大家提交 pr 和 star 。

    开源地址: https://github.com/flashclub/ModelJudge

    立即使用: https://modeljudge.awesomeprompt.net/zh

    注册硅基流动 API: https://cloud.siliconflow.cn/i/h5JiyFm0

    新功能预告

    又经过大量的开发和准备,模型辩论也即将登场,或者叫他 AI 杠精?这又是你没有用过的全新版本,准备好啤酒饮料矿泉水,花生瓜子火腿肠,看两个 AI 抬杠。目前主要逻辑开发完毕,敬请关注网站和仓库更新。

    image

    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4128 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 01:04 PVG 09:04 LAX 17:04 JFK 20:04
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86