古籍,即1912年之前经过刻印、抄写等方式所生产出版的图书和文献,用来传承文明、普及教育以及记载历史,承载厚重的历史和文化。相关统计数据显示,我们已完成普查的270多万部古籍中,仅有7万多部可供线上阅读,更多海量古籍文化资源亟待数字化,这也是当下古籍保护、传承与开放的重要课题之一。目前上海古籍出版社推出的“汇典·古籍数字服务平台”引起业界关注,该平台聚合上海、长三角乃至更广泛地区出版社的优质古籍资源,利用最新光学文字识别(OCR)、自然语言处理、大规模语料库和机器学习标点等古籍智能算法技术,建设面向传统文化与古籍行业的知识服务平台。
“北方有中华书局‘籍合网’,南方有上海古籍出版社‘汇典’。”复旦大学图书馆副馆长、中华古籍保护研究院常务副院长杨光辉表示,古籍数字化对于中华古代文明的传承、保护和利用有着积极的促进作用,这一平台一方面可以把上海古籍出版社多年积累起来的古籍文化资源通过数字化的方式向大众普及,另一方面也可以加速古籍数字转化和出版的流程,推动相应出版产业领域的数字化发展。
经历数十年发展的古籍数字化之路任重道远
《上海市全面推进城市数字化转型“十四五”规划》指出,要“深化文化大数据体系建设,推进文化资源数字化”,在媒介大融合、知识大融通的时代背景下,实现以数字技术推动优秀传统文化的传承创新。古籍数字化,是保护和合理利用古籍的方向。复旦大学古籍整理研究所研究员石祥在接受记者采访时说,“古籍的‘用’和‘藏’之间是矛盾的,谁都想来翻一翻,时间久了必然影响古籍的保护”,而数字化之后,古籍“母本”就不用冒着各种风险“抛头露脸”了。同时,“养在深闺人未识”的古籍可以在数字化之后走出“深闺”,可不受时间、地域限制满足更多读者的阅读需求,实现一对多、点对面、虚对实的变化。
从“将纸质书变为电子扫描版”的“采集侧”到“将电子扫描版变为文字版”的“生产侧”,再到“将文字版变为古籍研学系统”的“应用侧”,古籍数字化流程并不复杂。在数十年历史发展中,有两个分水岭。其一是上世纪80年代,美国华裔学者陈炳藻提出用计算机统计《红楼梦》的字词,计算机技术和人文研究逐渐开始结合。其二是1999年,被誉为“大型中文电子出版工程的典范书”文渊阁《四库全书》电子版问世。
在数十年的发展中,我国的古籍数字化取得一定成效——国家图书馆的“中华古籍资源库”已在线发布超过3.3万部古籍影像;中华书局的“中华经典古籍库”已发布3000多种、15亿字的点校本古籍;爱如生公司的“中国基本古籍库”收书1万种,既有可供检索的全文,又有古籍原版图像。但与此同时,古籍数字化推进之路也铺满荆棘。究其原因,一方面源于古籍成本,据上海古籍出版社数字出版中心负责人侯君明透露:“大多古籍获取成本不菲,此外制作、版权、平台开发以及版权保护技术研发等方面费用高昂。相对而言古籍数字化回报周期却又比较漫长。”另一方面,根据全国古籍普查工作要求,要对全部古籍鉴定编目,具体包括书名、卷数、作者、版本、存卷、册次、藏印等项目,须逐一厘清,工作量巨大,对编目鉴定者的业务水平要求颇高。
事实上,我国目前尚存在大量现有的古籍数字化资源呈黑白影像,分辨率较低,难以满足读者和研究人员的需要。
加速古籍数字转化,利用新技术整合海量古籍知识体系
上海古籍出版社总编辑吕健表示,古籍整理是一项古老的事业,而数字化则属于当下,数字化转型代表着产业的前沿。在古籍亟待数字化的当下,“汇典·古籍数字服务平台”的出现犹如一道曙光。这一平台的OCR系统、自动标点与自动标引技术开发都已初见成效。其中OCR技术可以迅速识别一本书,准确率达93%。达到理想准确率的机器标点后,剩下的疑难问题通过专家学者可以较快完成,把学者从大量简单重复的劳动中解放出来。
有着OCR的文本生成技术、自然语言处理的文本整理与标引等先进技术的加持,大量优秀古籍可以在准确权威的平台上与公众、专业研究人员面对面,使用效率大幅提高,有力促进海量优秀传统文化信息便利快捷有效利用。这一平台还通过解析上海古籍出版社海量古籍资源内容,对其进行知识结构化揭示,重构原有的古籍内容组织形式,并创建全新的知识模块,实现古籍资源的知识化、专业化服务。
通过技术的加持,从内容可利用的深度和广度上使古籍里的文字快速“活”起来。侯君明表示:“利用新技术整合海量古籍的知识体系,深入阐释中华文化的历史渊源、发展脉络、基本走向,有助于推动有中国底蕴、中国特色的思想体系、学术体系和话语体系的构建。从再生性保护的角度,古籍数字化技术对中国优秀传统文化的普及、研究与传承具有重大意义。”
推动古籍的数字化进程,不仅是内容的数字化,更是思维的数字化。编、印、发是传统出版的基本流程,在数字化项目实践过程中,这些传统的工作流程也在逐渐接受来自数字化思维的积极影响。在杨光辉眼中,普通扫描技术向三维高清扫描的迭代发展,互联网向物联网的转变,古籍数字化向数字人文进化,藏在图书馆的书可以通过数字出版技术,打通虚拟和现实之间鸿沟,传统馆藏资源通过新媒介形成“元宇宙”,也并非遥不可及。