讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。
可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。
附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html
![]() | 1 x86 2023-09-06 10:37:20 +08:00 0 是 foreach 循环的时候从 0 开始了填的呗 |
![]() | 2 luchenwei9266 OP @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1 |
![]() | 3 ktqFDx9m2Bvfq3y4 2023-09-06 10:45:58 +08:00 via iPhone ![]() 甭管他们怎么评,目前我只为 ChatGPT 付费。 |
4 leonhao 2023-09-06 10:48:20 +08:00 ![]() 赢麻了 |
![]() | 5 BingoXuan 2023-09-06 10:49:41 +08:00 看了一下测试内容,唯一想法是为何让大模型成为做题家呢? |
![]() | 6 jolanyu 2023-09-06 10:50:27 +08:00 ![]() (注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。) |
![]() | 7 zapper 2023-09-06 10:53:20 +08:00 考霸?要来干嘛 |
![]() | 9 xlsepiphone 2023-09-06 10:55:10 +08:00 榜单里面的,我只可能为 ChatGPT 付费。 |
![]() | 10 SomeBodsy 2023-09-06 10:56:21 +08:00 ![]() 文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代 |
11 yigecaiji 2023-09-06 11:11:31 +08:00 via Android 乐 |
12 idealhs 2023-09-06 11:16:26 +08:00 我们中国真是太厉害辣 |
![]() | 13 Eissen 2023-09-06 11:22:21 +08:00 ![]() 遥遥领先 |
![]() | 14 BwNVlwSq 2023-09-06 11:25:21 +08:00 via iPhone ![]() 太酷辣 |
15 bt7vip 2023-09-06 11:32:02 +08:00 via Android 我也好奇,GPT4 的模型放出来了??他们可以调试?? |
![]() | 16 excitedXXX 2023-09-06 11:39:42 +08:00 遥遥领先!!! |
17 Navee 2023-09-06 11:44:42 +08:00 单走一个 6 |
![]() | 18 momo31 2023-09-06 11:50:04 +08:00 遥遥领先 |
![]() | 19 chendl111 2023-09-06 12:07:49 +08:00 ![]() 前面都是国内的,我严重怀疑测试的可靠性 |
20 yvescheung 2023-09-06 12:15:53 +08:00 ![]() 在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多 |
21 0m9ionbP8wuvs8S3 2023-09-06 12:20:50 +08:00 国产,自研,弯道超车,遥遥领先 |
![]() | 22 akira 2023-09-06 12:27:48 +08:00 ![]() 想吐槽点啥,但是槽点太多了,以至于不知道怎么说好 |
![]() | 23 yiencho 2023-09-06 13:14:47 +08:00 遥遥领先,遥遥领先!~~~ |
24 234ygg 2023-09-06 13:17:05 +08:00 ![]() 小镇做题家从人变模型了是吧 gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。 而且,最少也请做个网页版,并提供 API 。 |
![]() | 25 weilongs 2023-09-06 13:22:09 +08:00 这有点 不厚道吧? |
![]() | 26 h272377502 2023-09-06 13:50:04 +08:00 @bt7vip 不是有 api 吗。。。 |
![]() | 27 cherryas 2023-09-06 14:17:57 +08:00 chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。 |
28 george2077 2023-09-06 14:46:37 +08:00 野榜不看也罢 |
![]() | 29 geomancy 2023-09-06 15:02:15 +08:00 我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。 |
![]() | 30 windyboy 2023-09-06 16:23:58 +08:00 又一个安兔兔吗? |
![]() | 31 cheese 2023-09-06 17:48:16 +08:00 这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容 |
![]() | 32 XnEnokq9vkvVq4 2023-09-06 22:10:52 +08:00 要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark |
33 timestamp24 2023-09-07 02:41:11 +08:00 姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。 |
![]() | 34 chancat 2023-09-07 17:09:08 +08:00 via Android 一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。 |