国内大模型文本摘要能力标准化评测完成 全行业统一基准正式发布

2024年6月20日,中国人工智能产业发展联盟牵头完成大模型文本摘要能力标准化评测工作,全行业首个统一衡量基准正式对外发布,该基准将为新闻、政务、出版等领域大模型应用选型提供参考依据。

国内大模型文本摘要能力标准化评测完成 全行业统一基准正式发布

中国人工智能产业发展联盟 2023年12月15日发布了情况通报,称针对国内大模型文本摘要能力无统一衡量标准的行业诉求,联盟启动专项评测工作,明确将从准确性、完整性、简洁度三个维度设置量化考核指标。通报称本次评测所用数据集全部公开,面向全行业免费开放下载。

2024年6月20日,该联盟发布本次评测的最终结果。通报称本次评测共覆盖国内17家主流大模型企业的21款通用大模型,其中12款大模型文本摘要能力达到一级标准,6款达到二级标准,3款未达到合格标准。本次评测共完成12.6万份有效样本测试,所有流程由独立第三方机构全程监督。

中央广播电视总台记者 张辛欣:记者在评测结果发布现场看到,共有31家来自内容生产、政务服务领域的企业参会,19家参会企业现场领取了完整评测报告。已有8家参会企业明确表示,将把本次评测的文本摘要能力等级纳入后续大模型采购的考核指标。现场展示的不同大模型输出样本均做匿名处理,仅标注对应评测得分与等级。

文本摘要是大模型基础应用能力之一,主要功能为提取长内容核心信息、压缩内容篇幅,目前已应用于新闻采编、政务信息整理、学术文献处理等多个领域。2024年以前,国内没有统一的大模型文本摘要能力行业标准,不同机构发布的评测结果差异较大,无法为行业应用提供稳定参考。中国人工智能产业发展联盟从2023年9月启动标准制定工作,先后征求了37家产学研相关机构的修改意见。

据中国人工智能产业发展联盟最终评估显示,文本摘要能力标准化可降低大模型应用选型的沟通成本,推动大模型在内容相关领域的落地应用。该联盟下一步计划每半年更新一次大模型文本摘要能力评测结果,持续调整完善评测指标体系,满足行业发展的最新需求。