华夏五千年的历史长河留下了浩如烟海的古籍。作为中华民族历史记忆、思想智慧和知识体系的载体,古籍见证着中华优秀传统文化的传承发展。当下,在人工智能(AI)等技术的助力下,越来越多书写在古籍里的文字正从泛黄的纸页里走出来、活起来……
《西南彝志》是创作于清代的历史文献,较全面系统地呈现了彝族古代社会的经济、政治、文化生活。因此,《西南彝志》也被称为“彝族古代社会的百科全书”,对研究彝族历史具有重要意义。
近日,合合信息与上海大学社会学院签署校企合作协议,宣布双方将合力完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”,共同探索用智能文字识别技术赋能海量古彝文原籍数字化的道路。
(资料图)
如今在古籍资源的数字化建设历程中,AI为古文研究打开了广阔的想象空间。对于一些出土的拓片、竹简等一手材料,通过引入智能文字识别技术,经过快速训练,可以让机器识别出材料上的文字内容,省去了许多文献查找的核对步骤,从而提升考古学家的研究效率。
此外,通过自然语言处理等技术的应用,AI可以“读懂”古文,像一位资深学者那样给古文加“句读”。在2022年的世界人工智能大会上,合合信息就展示了AI对西周钟鼎文的识别断句效果。比如像“克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”这句话,即便从金文被翻译成简体字,还是晦涩难懂,但对于AI而言却是一道可以“秒解”的题。
然而,不可否认的是,古籍数字化并非一蹴而就,一项项研究成果的背后往往伴随着一系列的困难与挑战。以古彝文研究为例,合合信息智能技术平台事业部副总经理郭丰俊表示,“从技术层面讲,在合合信息与上海大学的古彝文识别项目中,汉文古籍所面对的挑战彝文古籍数字化项目中全部存在,且彝文古籍还具备几项汉文古籍所没有的挑战,其识别难度是汉文古籍的许多倍。”
比如在版式方面,汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象,这样会给文字定位造成挑战。
郭丰俊坦言,彝文古籍研究还面临着手写识别困难,图像质量退化,笔画相近、识别难度大,异体字众多等瓶颈。基于此,合合信息与上海大学各自发挥优势,共同克服挑战。
“上海大学古彝文研究专家及其所在院系深厚的人文社科学术底蕴,以及前期积累的编码工作成果,有助于合合信息技术研发团队准确掌握文字研究方面的痛点,细化目标拆解,建立更精准、更符合研究需求的彝文古籍电子数据库。”郭丰俊说。
同时,在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,学术成果在CVPR、AAAI、ACL等顶会上发表,并取得优秀的应用效果,这为上海大学的研究提供了技术支持。
此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破,而上海大学携手合合信息推进的古彝文数字化项目,更侧重于对原生态彝文识别的攻坚克难。
据悉,此次项目的开展基于上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字等进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。
事实上,由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程相对繁琐。
据古彝文数字化项目发起人、上海大学人类学民俗学研究所的邵文苑博士介绍,《滇川黔桂彝文字集》中所列的彝文由各地专家集中誊写,每个义项下面没有使用案例,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天。而此次“原生态古彝文”项目不仅能够提高研究人员阅读、理解原典的速度,而且可以原汁原味保留古籍传承的用字规律和缮写员的审美意识。
邵文苑告诉记者,“上海大学彝文研究员正在研制的四字节编码,理论上可描述四省区所有异体字、变体字之间的细微差异,为每一个彝文字分配一个编码,好像每个人都有独一无二的身份证号那样。在此基础上建立的数据库,能较容易地找出误用字和混用字;输出平台将保留原稿与编码的联系,可以方便地定位某位缮写员的书法,为将来开发多样化的字体做准备。”
对珍贵古籍的保护、修复和活用,关乎中华文脉的延续与传承。从“加强文物古籍保护利用”写入2022年《政府工作报告》,到《关于推进新时代古籍工作的意见》印发,古籍保护工作越来越受重视。作为古籍再生性保护的一种,数字化让许多古籍面向更多人展露“真颜”,使读者从中华优秀传统典籍中汲取精神力量,并促进了学术研究和古籍知识推广。
“传统也和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”邵文苑表示,智能文字识别技术“牵手”传统典籍研究,会是古彝文“传统的新生命周期”的开始。希望能通过现代化的手段降低古彝文的准入门槛,让更多人领略到这其中的无限精彩。
郭丰俊也告诉记者,古文的研究,是合合信息用智能文字识别技术促进中华文化传承、文化保护的社会责任体现,这也对提高技术整体识别率,赋能更广泛的大众应用非常有价值。事实上,此前合合信息便在甲骨文、金文领域进行研究,并基于“AI+OCR”融合下的智能文字识别技术,在解决古籍版式检测、图像处理和文字识别难题上取得了亮眼成果。
“合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件水到渠成的事情。”郭丰俊表示,古汉文和古彝文追溯源头都属于以图形表意的文字,文字间的识别有相通之处,一定程度上降低了古彝文识别模型建立及训练的时间成本。
面向未来,郭丰俊透露,合合信息还将重点关注自然语言处理领域,不断精进AI“读懂”古文的能力,去实现更多理解层面的事情,以此更好地促进学术研究效率提升,并通过降低古文理解门槛,在文旅、文创领域触达更广泛的社会群体,让传统文化焕发新的生机。
关键词: 上海大学