当前科学的快速发展,伴随着大模型带来的技术阶跃和快速进化,人工智能在全球掀起全新浪潮,吉利星睿数据智能产业学院系列横向课题正式发布,系列横向课题涉及数据治理、大模型测评、数据集建设等多个领域。
此合作课题方向为通用大模型测评数据集构建,基于信通院大模型评分标准构建大模型测试数据集构建通用任务的分类维度,并完成通用任务测试数据集,以及构建基于GPT4和多系统对比的自动化测评系统和人工测评系统等来完成大模型测评维度,测评数据集、自动化测评系统建设等任务。
基于吉利星睿数据智能产业学院的验收标准,此课题将达到以下四点:
1,测评数据集考察维度需包括但不限于语义理解与抽取,闲聊,上下文对话,角色扮演,知识与百科,生成与创作,代码,逻辑与推理,计算,安全等大类任务;
2,设计通用任务评测维度,将LLM的日常通用任务进行大类任务维度设计,并将各个大类分解为小任务,不同小任务总数量不少于1000个,覆盖不同职业,任务通用性不低于95%;
3,针对信通院测评数据集不少于2400条,通用任务测评数据集需要包含5000个以上的高质量测试数据,能覆盖(参考Super CLUE 1200个测试问题);
4,自动化测评结果与人类测评的一致性需超过90%以上;
根据通用认知智能大模型的能力进行分析,从而制定生成类通用认知智能大模型的评测标准与评测方法,不仅推动了各行业评测方案的落实,还促进了技术和产业健康发展,相信在不久的将来,人工智能大模型测评将会成为不可缺少的一项科学技术。