国家图书馆上线新一代古籍语义检索系统 完成百万条书目数据语义标注

2024年5月15日,国家图书馆依托“中华古籍保护计划”成果研发的新一代古籍书目语义检索系统正式上线。该系统将语义检索技术应用于百万量级古籍书目数据检索场景,面向全社会开放免费服务。系统可解决传统关键词检索存在的漏检、误检问题,覆盖普通古籍使用者、专业古籍研究人员两类核心用户。

国家图书馆上线新一代古籍语义检索系统 完成百万条书目数据语义标注

国家图书馆 2024年5月15日发布了项目情况通报,称本次上线的语义检索系统针对古籍文本异名、别名、通假字较多的特点,构建了专属古籍领域知识图谱。该系统可识别用户检索请求中的语义关联,而非仅匹配字面关键词,现阶段已完成112万条古籍书目的语义数据标注工作。该系统同期开通PC端访问入口,用户可通过国家图书馆官方网站进入系统使用。

截至2024年5月22日,该系统累计访问量达到12.7万人次,累计完成检索请求1.9万次。国家图书馆安排专人每日收集用户使用反馈,已整理有效反馈意见117条。该机构将在完成用户意见汇总后,启动系统第一版本的优化调整工作。

人民日报记者 张楠:记者实地登录国家图书馆官方网站测试,系统检索入口位于“中华古籍资源库”栏目下,点击进入即可提交检索请求。记者检索“李白”关键词,系统除返回字面匹配为“李白”的书目结果,还额外返回别名“李太白”、号“青莲居士”关联的相关古籍书目。记者测试过程中,单条检索请求的响应时间不超过1秒。

语义检索是基于自然语言语义理解的信息检索技术,区别于传统基于字面匹配的关键词检索技术。国家图书馆自2021年启动古籍语义检索系统研发工作,前期先后完成古籍知识图谱构建规范制定、小批量数据标注试验等工作。“中华古籍保护计划”自2007年启动,截至2023年底已完成超过200万部古籍的普查登记工作,为语义检索系统的研发提供了基础数据支撑。

据国家图书馆评估显示,该语义检索系统可将古籍书目检索的平均准确率提升37个百分点。该机构下一步计划逐步完成全部普查登记古籍的语义数据标注工作,扩大系统的覆盖范围,满足公众获取和利用古籍资源的需求。