2023年4月25日下午2点30分,人文讲坛第410期在逸夫人文楼A5017会议室顺利举行。中华书局古联(北京)数字传媒科技有限公司副总经理、主任编辑,中国人民大学文学博士,北京师范大学文字学博士后,《数字人文》副主编朱翠萍教授应邀作了题为《古籍文献数字化整理与编纂》的学术讲座。讲座由永利yl23411古籍研究所温显贵老师主持,部分师生参加。
朱翠萍教授的讲座内容主要围绕数字化出版流程展开,包括OCR录文、自动校勘、自动标点、繁简转换、校对、自动排版六个部分。
首先,朱翠萍教授着重介绍了文本采集——OCR这一古籍文献数字化整理技术,OCR这一整理技术不仅速度快,其正确率也很高,中文古籍板式复杂,但OCR可以模拟真实古籍样态,残缺、透字等都能够准确识别。此外,朱教授还提到了OCR识别录入中的难点,即在过程中需要辨别形近字,字符类型多种多样,有古有今、有中有外、有字有符,所以在数字化的背后,实际上有着大量的复杂工作。
随后,朱翠萍教授提到了数字化整理和编撰的第二个步骤——自动校勘。朱教授说“字相当于物质基础”,有了这个基础才能继续校勘的工作,数字化校对后效率大大提升,但我们需要在学术、规范与习惯中平衡处理校对的问题,在校对的时候还需要考虑到终端需求来选取不同的排版、校对软件、显示和智能工具训练,合适的稿子用合适的手段,就可以大大提高效率,减轻人工任务。
此外,关于古籍文献数字化整理的校对步骤,朱翠萍教授强调,尽管经过了前面那么多步骤的数字化校对后,依然会留下很多问题需要人工校对,对比传统纸样上校对和系统上校对后可以发现,在实际操作的过程中会出现很多意想不到的问题,作为编辑,每一遍的校对都需要仔细观察,每一遍的校对都需要有不同目标,如错字、标点错误、字形规范、整库校对等。
最后,朱翠萍教授总结了在使用数字化处理之后我们的阅读方式和呈现方式的变化,并且提供了很多资源和数据库以供在场师生深入探究使用。
讲座结束后,朱翠萍教授与参会师生进行了热烈的交流互动,在场师生都表示深受启发,本次讲座圆满结束。
(审核人:刘继林)