最近完善了下自己的中文模型能力评测集，包含如下部分：指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。阅读理解：关注长上下文的阅读理解和回答能力。长文本检索：将LLM作为rerank 代码生成：参考HumanEval 设计。工具调用：目前只设计了单轮调用，不涉及plan和reflect。 Text2SQL，参考了sql-eval。数学计算：参考gsm8k，考验co

@9hills@x.good.news

最近完善了下自己的中文模型能力评测集，包含如下部分：指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。阅读理解：关注长上下文的阅读理解和回答能力。长文本检索：将LLM作为rerank 代码生成：参考HumanEval 设计。工具调用：目前只设计了单轮调用，不涉及plan和reflect。 Text2SQL，参考了sql-eval。数学计算：参考gsm8k，考验cot能力。行测：公务员行测最新考题，包含常识、逻辑、语言理解。限于精力，每个子集只有30-100道不等。所有的Prompt 和数据都是中文，大量利用GPT-4辅助合成，抓取最新数据避免污染。评估数据应该不会开放，但是评估代码在重构，重构后应该会放出。有兴趣建设自己的模型评测数据集的可以参考。

查看详情

@9hills@x.good.news

0/480