C-Eval， GPT4 节节败退，跌出前十。。。。 - V2EX

C-Eval， GPT4 节节败退，跌出前十。。。。 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是个创建于 766 天前的主题，其中的信息可能已经有所发展或是发生改变。

讲道理，虽然 C-Eval 是中文的评估套件，GPT4 跌出前十，前面的都是国产大模型，这些勉强都能理解接受。

可是排名这一块，居然还有排名第 0 位的，这是几个意思。。。

附个网页链接： https://cevalbenchmark.com/static/leaderboard_zh.html

34 条回复 2023-09-07 17:09:08 +08:00

1

x86

2023-09-06 10:37:20 +08:00

0 是 foreach 循环的时候从 0 开始了填的呗

2

luchenwei9266

OP

2023-09-06 10:40:08 +08:00

@x86 那大概率又是招的临时工没经验，前端显示排名的时候忘了+1

3

ktqFDx9m2Bvfq3y4

2023-09-06 10:45:58 +08:00 via iPhone

13

甭管他们怎么评，目前我只为 ChatGPT 付费。

4

leonhao

2023-09-06 10:48:20 +08:00

1

赢麻了

5

BingoXuan

2023-09-06 10:49:41 +08:00

看了一下测试内容，唯一想法是为何让大模型成为做题家呢？

6

jolanyu

2023-09-06 10:50:27 +08:00

8

（注：* 表示该模型结果由 C-Eval 团队测试得到，而其他结果是通过用户提交获得。）

7

zapper

2023-09-06 10:53:20 +08:00

考霸？要来干嘛

8

TimePPT

PRO

2023-09-06 10:54:18 +08:00

@jolanyu 哈哈哈正想吐槽来着

9

xlsepiphone

2023-09-06 10:55:10 +08:00

榜单里面的，我只可能为 ChatGPT 付费。

10

SomeBodsy

2023-09-06 10:56:21 +08:00

1

文心一言就是个人工智障，问啥都不知道，跟 chatGPT 最起码差 20 代

11

yigecaiji

2023-09-06 11:11:31 +08:00 via Android

乐

12

idealhs

2023-09-06 11:16:26 +08:00

我们中国真是太厉害辣

13

Eissen

2023-09-06 11:22:21 +08:00

4

遥遥领先

14

BwNVlwSq

2023-09-06 11:25:21 +08:00 via iPhone

1

太酷辣

15

bt7vip

2023-09-06 11:32:02 +08:00 via Android

我也好奇，GPT4 的模型放出来了？？他们可以调试？？

16

excitedXXX

2023-09-06 11:39:42 +08:00

遥遥领先！！！

17

Navee

2023-09-06 11:44:42 +08:00

单走一个 6

18

momo31

2023-09-06 11:50:04 +08:00

遥遥领先

19

chendl111

2023-09-06 12:07:49 +08:00

1

前面都是国内的，我严重怀疑测试的可靠性

20

yvescheung

2023-09-06 12:15:53 +08:00

14

在朝鲜最幸福国家的排名中，前五分别是中国，朝鲜，古巴，伊朗和委内瑞拉，邪恶的美帝国主义排 200 多

21

0m9ionbP8wuvs8S3

2023-09-06 12:20:50 +08:00

国产，自研，弯道超车，遥遥领先

22

akira

2023-09-06 12:27:48 +08:00

2

想吐槽点啥，但是槽点太多了，以至于不知道怎么说好

23

yiencho

2023-09-06 13:14:47 +08:00

遥遥领先，遥遥领先！~~~

24

234ygg

2023-09-06 13:17:05 +08:00

1

小镇做题家从人变模型了是吧
gpt4 是在规模部署的前提下实现当前性能的，不能以低于 20 刀/月的价格规模推广的就别来比了，田忌赛马也要让人见到马吧。
而且，最少也请做个网页版，并提供 API 。

25

weilongs

2023-09-06 13:22:09 +08:00

这有点不厚道吧？

26

h272377502

2023-09-06 13:50:04 +08:00

@bt7vip 不是有 api 吗。。。

27

cherryas

2023-09-06 14:17:57 +08:00

chatgpt 本来就对中国的人文历史社科胡编乱造，中国的测试打不过其他新模型很正常。

28

george2077

2023-09-06 14:46:37 +08:00

野榜不看也罢

29

geomancy

2023-09-06 15:02:15 +08:00

我自己训练的模型最牛 x ，它居然知道我的生活习惯，和别人的聊天记录什么的，其他商业大模型则不可以，甚至不知道我叫什么，我觉得我自己的模型理所当然的排名最前。

30

windyboy

2023-09-06 16:23:58 +08:00

又一个安兔兔吗？

31

cheese

2023-09-06 17:48:16 +08:00

这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容

32

XnEnokq9vkvVq4

2023-09-06 22:10:52 +08:00

要不是我真用过好多开源模型我就真信了，完全无视这些所谓 benchmark

33

timestamp24

2023-09-07 02:41:11 +08:00

姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠)，这是在挑选中文做题家/背题家吗？全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。

34

chancat

2023-09-07 17:09:08 +08:00 via Android

一方面判定别人家的东西违法，有害。自己又干不出来不是抄袭套皮就是自封第一，真的。很难进步。

关于帮助文档自助推广系统博客 API FAQ Solana 5498 人在线 最高记录 6679

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 31ms UTC 08:39 PVG 16:39 LAX 01:39 JFK 04:39
Do have faith in what you're doing.

ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86