帖文详情
avatar
@9hills@x.good.news
最近完善了下自己的中文模型能力评测集,包含如下部分: 指令遵循:参考ifeval 设计,考察模型遵守指令的能力,如结构化输出。 阅读理解:关注长上下文的阅读理解和回答能力。 长文本检索:将LLM作为rerank 代码生成:参考HumanEval 设计。 工具调用:目前只设计了单轮调用,不涉及plan和reflect。 Text2SQL,参考了sql-eval。 数学计算:参考gsm8k,考验cot能力。 行测:公务员行测最新考题,包含常识、逻辑、语言理解。 限于精力,每个子集只有30-100道不等。所有的Prompt 和数据都是中文,大量利用GPT-4辅助合成,抓取最新数据避免污染。 评估数据应该不会开放,但是评估代码在重构,重构后应该会放出。 有兴趣建设自己的模型评测数据集的可以参考。
查看详情
0
0
0
@9hills@x.good.news
0/480
加载中