C-Eval, GPT4 节节败退,跌出前十。。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
luchenwei9266
V2EX    OpenAI

C-Eval, GPT4 节节败退,跌出前十。。。。

  •  
  •   luchenwei9266
    luchenwei9266 2023-09-06 10:36:10 +08:00 6313 次点击
    这是个创建于 766 天前的主题,其中的信息可能已经有所发展或是发生改变。

    讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。

    可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。

    附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html

    34 条回复    2023-09-07 17:09:08 +08:00
    x86
        1
    x86  
       2023-09-06 10:37:20 +08:00
    0 是 foreach 循环的时候从 0 开始了填的呗
    luchenwei9266
        2
    luchenwei9266  
    OP
       2023-09-06 10:40:08 +08:00
    @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
    ktqFDx9m2Bvfq3y4
        3
    ktqFDx9m2Bvfq3y4  
       2023-09-06 10:45:58 +08:00 via iPhone   13
    甭管他们怎么评,目前我只为 ChatGPT 付费。
    leonhao
        4
    leonhao  
       2023-09-06 10:48:20 +08:00   1
    赢麻了
    BingoXuan
        5
    BingoXuan  
       2023-09-06 10:49:41 +08:00
    看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
    jolanyu
        6
    jolanyu  
       2023-09-06 10:50:27 +08:00   8
    (注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
    zapper
        7
    zapper  
       2023-09-06 10:53:20 +08:00
    考霸?要来干嘛
    TimePPT
        8
    TimePPT  
    PRO
       2023-09-06 10:54:18 +08:00
    @jolanyu 哈哈哈正想吐槽来着
    xlsepiphone
        9
    xlsepiphone  
       2023-09-06 10:55:10 +08:00
    榜单里面的,我只可能为 ChatGPT 付费。
    SomeBodsy
        10
    SomeBodsy  
       2023-09-06 10:56:21 +08:00   1
    文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
    yigecaiji
        11
    yigecaiji  
       2023-09-06 11:11:31 +08:00 via Android
    idealhs
        12
    idealhs  
       2023-09-06 11:16:26 +08:00
    我们中国真是太厉害辣
    Eissen
        13
    Eissen  
       2023-09-06 11:22:21 +08:00   4
    遥遥领先
    BwNVlwSq
        14
    BwNVlwSq  
       2023-09-06 11:25:21 +08:00 via iPhone   1
    太酷辣
    bt7vip
        15
    bt7vip  
       2023-09-06 11:32:02 +08:00 via Android
    我也好奇,GPT4 的模型放出来了??他们可以调试??
    excitedXXX
        16
    excitedXXX  
       2023-09-06 11:39:42 +08:00
    遥遥领先!!!
    Navee
        17
    Navee  
       2023-09-06 11:44:42 +08:00
    单走一个 6
    momo31
        18
    momo31  
       2023-09-06 11:50:04 +08:00
    遥遥领先
    chendl111
        19
    chendl111  
       2023-09-06 12:07:49 +08:00   1
    前面都是国内的,我严重怀疑测试的可靠性
    yvescheung
        20
    yvescheung  
       2023-09-06 12:15:53 +08:00   14
    在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多
    0m9ionbP8wuvs8S3
        21
    0m9ionbP8wuvs8S3  
       2023-09-06 12:20:50 +08:00
    国产,自研,弯道超车,遥遥领先
    akira
        22
    akira  
       2023-09-06 12:27:48 +08:00   2
    想吐槽点啥,但是槽点太多了,以至于不知道怎么说好
    yiencho
        23
    yiencho  
       2023-09-06 13:14:47 +08:00
    遥遥领先,遥遥领先!~~~
    234ygg
        24
    234ygg  
       2023-09-06 13:17:05 +08:00   1
    小镇做题家从人变模型了是吧
    gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。
    而且,最少也请做个网页版,并提供 API 。
    weilongs
        25
    weilongs  
       2023-09-06 13:22:09 +08:00
    这有点 不厚道吧?
    h272377502
        26
    h272377502  
       2023-09-06 13:50:04 +08:00
    @bt7vip 不是有 api 吗。。。
    cherryas
        27
    cherryas  
       2023-09-06 14:17:57 +08:00
    chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。
    george2077
        28
    george2077  
       2023-09-06 14:46:37 +08:00
    野榜不看也罢
    geomancy
        29
    geomancy  
       2023-09-06 15:02:15 +08:00
    我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。
    windyboy
        30
    windyboy  
       2023-09-06 16:23:58 +08:00
    又一个安兔兔吗?
    cheese
        31
    cheese  
       2023-09-06 17:48:16 +08:00
    这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容
    XnEnokq9vkvVq4
        32
    XnEnokq9vkvVq4  
       2023-09-06 22:10:52 +08:00
    要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark
    timestamp24
        33
    timestamp24  
       2023-09-07 02:41:11 +08:00
    姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。
    chancat
        34
    chancat  
       2023-09-07 17:09:08 +08:00 via Android
    一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5498 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 08:39 PVG 16:39 LAX 01:39 JFK 04:39
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86