古籍数码化的工作必然会经历从无到有、从有到精的过程,在规模初备以后,应该在提高准确性和学术性方面作进一步的努力。
《中国基本古籍库》
刘俊文总编纂
北京爱如生数字化技术研究中心开发制作
2005年10 月
《中国基本古籍库》(以下简称《古籍库》)无疑是中国近年古籍数码化方面最值得关注的成就。我所服务的学校图书馆最近花巨资购进可置于局域网的五机版,让我有机会通过校园网较便捷地利用,确实感觉到方便,也发现一些遗憾。谨此写出初步的感受,与学友分享,也提供主持制作者参酌。
据北京爱如生数字化技术研究中心网站(http://www.er07.com/article/notice.jsp?typeId=118)的介绍,《中国基本古籍库》先后列为 “全国高等院校古籍整理研究工作委员会重点项目”和 “国家重点电子出版物十五规划项目”,“由北京大学教授刘俊文总策划、总编纂、总监制,北京爱如生数字化技术研究中心开发制作,于2001年3月正式启动,2005年10月全部完成。共收录自先秦至民国(公元前十一世纪至公元二十世纪初)历代典籍一万种,选用版本一万两千八百个,每种典籍均制成数码全文,并附所据版本及其他重要版本之原版影像,合计全文十七亿字,影像一千万页,数据总量约320G。其收录范围涵盖全部中国历史与文化,其内容含量相当于三部《四库全书》,不但是世界目前最大的中文数字出版物,也是中国有史以来最大的历代典籍总汇。”我在最近两三个月内,较频繁地利用《古籍库》,除上述如各大数字无法一一核实,基本情况感觉是属实的叙述。《四库全书》各库收书稍有出入,一般来说是三千五百种稍弱。收书到一万种,接近三倍于四库,清末民初以前最重要的基本典籍,可以大致周备,对学者当然是很鼓舞的消息。我特别欣喜地看到,地方志部分收录两百多种,存世的宋元方志以及天一阁明方志的主体部分,都有了电子文本。其他许多清中期以后的著作、四库没有收录的著作可以得到数码全文,也很方便学者。
除了收书数量多,《古籍库》在技术层面为读者考虑上尽了很大努力:阅读界面每页大约八百字,字体选用清晰的仿宋体,页面可以横读也可以竖读;所有的古籍都配有原版影像,以便对照;文本可以直接打印;读者可以标点批注,可以分类收集,也可以下载编辑;文本旁边可以显示该书目录,以便读者前后翻检,了解所见文本的位置。稍微不便的是文本的复制,限定每次只能复制两百字,即一个页面的文字要分四次才能复制完成。制作者认为这样可以减少大批量复制的可能,尽可能地保护制作者的所有权,用意是可以理解的。另外,似乎在阅读文本时,如果要对阅原版影像,要立即到达该页位置,好像不太方便,当然这也可能是我操作能力不够所造成的。
《古籍库》的检索,利用了新开发的ASE检索系统,可以进行分类检索、条目检索、全文检索和高级检索,速度都可以在两秒内完成。实际操作后,可以发现全文检索的结果,每一则都有检索词汇前后文内容的摘录,而且所有检索出来的条目,大体可以按照各书时代前后排列,这对于古籍阅读者在海量检得文献中迅速作出判断,无疑是很必要的。
《古籍库》没有采用传统古籍的四部分类法,而是重新设计为哲科、史地、艺文、综合四库,其中哲科库包括思想、宗教、政治、经济、法制、军事、科技、农业、医学等部,史地库包括历史、地理、外国三部,艺文库包括语文、文学、艺术三部,综合库包括教育、体育、生活、术数、其他五部(类书杂纂、金石目录、西学译著),各部下再分三级类目,总约一百目。这样分类,大约主要是考虑现代学者特别是不熟悉古籍四部分类法的读者查阅的方便。就如同四部分类法也有不够科学的地方,新分类法当然也有一些可以再斟酌的地方。如历史库的杂录琐闻目下,收录历代笔记野史八百多种,大约将四部分类中的史部杂史类、子部中的小说家类、杂家类很多著作都包括进去了。文学类的诗文别集目下收书超过两千七百种,即全库的四分之一多,就太嫌拥挤了。演艺杂技目、回教经籍目仅含六种书,启蒙思想目仅含八种,耶教经籍目含十种,收书都很少,显得不够匀称。农学类下有时令节气目,生活类下又有节序礼俗目,本来都归史部岁时类。清玩鉴藏目和书法绘画目下都收了大量书画类书,区分界限也不太清楚。归类方面大体妥当,细节偶有出入,如《祖堂集》应归入佛教而收入五代别集,《杜诗言志》、《李义山诗解》都应归入别集而收入文学理论。