首页 / 合作交流 / 产教融合
产教融合

吉利星睿数据智能产业学院系列横向课题|人工智能大模型数据集建设

发布时间:2023-07-24 00:00:00 阅读量: 353

编者:代书赫 审核:董馨萍、蒋田田

        随着人工智能的迅速发展,大模型成为了推动人工智能技术进步的重要驱动力。然而,构建高质量的人工智能大模型所需的数据集却面临着巨大的挑战。吉利星睿数据智能产业学院系列横向课题正式发布,系列横向课题涉及数据治理、大模型测评、数据集建设等多个领域。

微信图片_20230728001543.jpg

 

        此合作课题方向为开放数据集中英文数据集涉政、安全检测(黄赌毒等)过滤和高质量PDF书籍数据集构建,任务目标包括完成中英文政治敏感检测算法开发以及完成PDF书籍数据集清洗算法开发及数据集制作。

微信图片_20230728001550.jpg

微信图片_20230728001556.jpg

        基于吉利星睿数据智能产业学院系列横向课题的验收标准,此课题将达到以下七点:

        1、验收抽查数据不少于1万条;

        2、误删除率低于5%,漏删除率低于万分之一;

        3、清洗后书籍总数高于100万册;

        4、验收随机抽查样本不低于1000个;

        5、过滤后数据合格率需高于99.9%;

        6、对书籍中的表格,公式,列表项等特定格式内容进行识别,并转换为markdown格式;

        7、数据合格率:包含但不限于删除无意义文本(页眉页脚,图注,书本出版信息,目录,参考文献等),语句前后通顺,开头和结尾符合逻辑,标点符号和语句内容完整,不出现重复语句和标点,无错误符号。

微信图片_20230728001602.png

微信图片_20230728001606.png

        人工智能大模型数据集建设对未来影响深远,为研究和应用领域提供更广泛的数据基础,促进了技术进步和创新,它对研究者、工程师和决策者等不同人群提供了更准确、高效的分析和决策依据,推动了社会发展。

 

上一篇:  产教融合促发展 | 智能工程系教师假期赴吉利研究院参与AI数据柔性存储项目学习与实践 下一篇:  吉利星睿数据智能产业学院课题推进见面会