大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

2023-06-01 星期四

       琅琊榜首,众雄争王;

       谁是英雄,决琅琊榜。


对战发起团队|CLUE

最近,来自中文语言理解测评基准开源社区CLUE的成员发起了中文大模型匿名对战平台SuperCLUE-琅琊榜,受到社会各界的广泛热议和积极参与,目前已经获得有效投票5.8K

以下是截至2023年5月29日18点22分的SuperCLUE琅琊榜初始排名。

SuperCLUE-琅琊榜官方唯一地址www.SuperCLUEAI.com

在初始排名中,由Anthropic公司开发的Claude模型以1215分暂居第一。在国内模型中,MiniMax模型以1188的高分力压众多国产大模型登顶SuperCLUE琅琊榜,暂居国服第一,也是国内大模型首次在公开测评中超过GPT3.5。
其中,GPT3.5以1171分排名第三。由清华大学和智谱AI开发的ChatGLM-130B则以8分微弱差距排名第四,ChatGLM-6B以仅60亿参数量的模型跻身前五,表现不俗。香港中文大学和复旦大学同样表现优异分列6、7名,IDEA研究院的姜子牙大模型同样也超过了1000分,排名第9名。
相比之下在英文上表现强劲的vicuna-13b模型,仅仅排名第10,在中文能力上是明显弱于国内中文大模型的。
值得提及的是,在英文对战排名中表现优异的RWKV,在中文对战表现上稍显不足,RWKV团队表示正在训练中文基底模型,后续会以中文身份加入对战,非常期待。
CLUE团队表示,之后会定期更新SuperCLUE琅琊榜排名,同时加入更多具有代表性的大模型。

对战胜率

此外,SuperCLUE琅琊榜还展示了排位赛中每个模型的对战胜率。

模型A在所有非平局对战中获胜的比例


每个模型组合的对战次数(不含平局)


对所有其他模型的平均胜率(假设均匀抽样且无平局)


Elo机制的Bootstrap抽样(1000轮随机抽样)


为什么做「SuperCLUE琅琊榜」?

在ChatGPT的巨大成功之后,国内外大量的通用大模型被微调用于遵循指令。这些模型能够在回答用户的问题/提示时提供有价值的帮助。

典型的模型包括ChatGLM、MOSS、RWKV、基于LLaMA的Vicua、BELLE等。尽管每周都会不断发布新的模型,但社区对于这些模型的基准测评面临着挑战,特别是开放式问题的测试。好的基准系统,需要有可扩展性,即可以支持大量的模型;并且可以对新增的模型进行快速的测试。

当前的一些中文通用大基准测试,多基于学术与专业能力测试,虽然可以考察模型的专业能力,但并没有直接针对开放式问题的测试;也可能不是针对生成式问题效果的直接测试,如考察模型在这个能力上理解层面的测试。

基于此,CLUE团队发起了SuperCLUE琅琊榜对战平台,这是一个中文通用模型基准平台,以“用户众包”方式提供匿名随机对战。大模型对战平台采用Elo评级系统,这是国际象棋和其他竞技游戏中广泛使用的评级系统。为了收集有效投票,我们在5月19日推出了一些有代表性的可用的中文通用大模型。


SuperCLUE琅琊榜规则
用户通过登录www.SuperCLUEAI.com 进入对战平台。可以并排与两个匿名模型聊天。

需要用户对答案做出评判,从4个评判选项中选择一个,分别为模型A更好、模型B更好、平手、都很差。用户提交选项之后,计为一次有效投票。系统会根据Elo评分系统对参与对战的大模型进行打分和排名。

关于SuperCLUE琅琊榜对战平台的详细规则可以查看:

中文大模型对战平台「SuperCLUE-琅琊榜」开启,首期入围近20个模型


Elo评分系统
Elo等级分制度(Elo rating system)是一种用于评估和排名竞技游戏或体育竞赛中参与者技能水平的系统。系统根据参与者之间的比赛结果来调整其等级分数。如果一名玩家击败了比自己等级高的对手,他的等级分数将增加,而对手的等级分数则会下降。相反,如果一名玩家输给了比自己等级低的对手,他的等级分数将下降,而对手的等级分数则会上升。
通过Elo等级分制度,参与者的技能水平可以随着时间和比赛结果的变化而动态调整,以反映他们当前的竞技能力。这样可以帮助确保公平的比赛匹配,并为参与者提供一种参考,以了解他们在整个竞技群体中的排名。以下是Elo算法的基本原理:
1. 每个大模型都有一个初始等级分数(琅琊榜设置为1000),表示他们的初始技能水平。
2. 当两个匿名模型进行比赛时,他们的等级分数将根据比赛结果进行调整。
3. 参与者的预期胜率是根据他们之间的等级差异计算的。具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:
                      
4. 根据比赛结果,参与者的实际得分将根据他们的预期胜率进行调整。假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:
5. 如果参与者获胜,他们的等级分数将增加的量取决于预期胜率和实际比赛结果。增加的分数越多,如果他们输掉比赛,他们的等级分数将减少的量也取决于预期胜率和实际比赛结果。这样做是为了保持整个系统的平衡。
6. 调整后的等级分数将作为参与者的新等级分数,并在下一场比赛中用于匹配对手。

后续计划

后续我们将计划推进下一步的工作: 

1)新增一些有代表性的模型,扩大国内外模型的覆盖广度。

2)在限定范围内公布投票数据,以及进一步的数据分析情况。

2)定期更新(如每月的频率更新)。

4)提供不同任务类型的细粒度排名。


加入我们
SuperCLUE-琅琊榜排名会定期更新,并会纳入更多有代表性的中文大模型,欢迎大模型研发机构加入对战,欢迎感兴趣的朋友加入SuperCLUE琅琊榜社群,共建大模型评测基准。
SuperCLUE琅琊榜模型对战申请:

https://wj.qq.com/s2/12465979/97a5/

Github地址:

https://github.com/CLUEbenchmark/SuperCLUELYB



点击阅读原文,查看SuperCLUE琅琊榜详情

原文地址:点击