实用文档>简说战国楚文字数字化处理系统论文

简说战国楚文字数字化处理系统论文

时间:2022-07-27 14:09:23

简说战国楚文字数字化处理系统论文

简说战国楚文字数字化处理系统论文

简说战国楚文字数字化处理系统论文

  首个关于出土战国楚文字资料的数字化成果《战国楚文字数字化处理系统》(光盘)经华东师范大学中国文字研究与应用中心古文字数字化开发组多年开发研制,日前由上海教育出版社出版。

  该成果是一个多功能的战国楚系汉字及其所传载的出土文献的数字化处理平台,包括“战国楚文献检索系统”、“战国楚文字字库”、“楚文字输入法”、“楚楷对应转换程序”四大部分。“战国楚文献检索系统”收录了迄今已发表的战国楚系简帛文、铜器铭文、玺印文、货币文文献,相关实物材料2267件。其中以简帛文为主体,以著录材料计,有《曾侯乙墓》(文物出版社1989年7月版)竹简及竹签文字218条;《包山楚简》(文物出版社1991年10月版)竹简、木牍文字306条;《九店楚简》(中华书局2000年5月版)竹简文字196条;《郭店楚墓竹简》(文物出版社1998年5月版)竹简文字711条;《战国楚竹简汇编》(齐鲁书社1995年11月版)竹简文字417条;《上海博物馆藏战国竹书》(一)(上海古籍出版社2001年版)竹简文字98条;《上海博物馆藏战国竹书》(二)(上海古籍出版社2002年版)竹简文字116条;《长沙子弹库战国楚帛研究》(中华书局1985年7月版)帛书3篇。铜器铭文则以《殷周金文集成》、《考古》、《文物》、《考古与文物》的著录为主要材料来源,计收铭文61篇。玺印文以《古玺汇编》为主要材料来源,计收印文92篇。货币文以《中国钱币大词典·先秦编》为主要材料来源,计收货币文32篇。总字数达56689字,删除添加的对应通用字、合文释字及各种符号等,文献本体字数为50538,其中简帛文48724字,金文1437字,玺印文317字,货币文60字。该系统不但具有任意字、句的全文检索,任意字的频率数据检索,文献附着材料的各种属性检索,着录检索等必要的数字化处理功能,并且还具备逐字显示对应原始实物文字影象的功能。

  “战国楚文字字库”的收字包括了“战国楚文献多路径全文检索系统”中所收录的文献实际用字,并按数字化处理要求进行了严格整理。包括楷体字和原形字。楷体字形端正,原形字据铭文拓本扫描制作,逼真美观。

  “楚文字输入法”采用了针对古文字输入特殊需要的新近开发的“三级字符全拼输入检索系统”的编码原则进行编码,是一种非常简单易学(只要掌握全拼输入者无需专门学习)的古文字输入法,同时也具有大字符集中生僻字简易输入(即不知读音也可成功输入)的功能。

  “楚楷对应转换程序”可以在Word上实现现代通用繁体字和楚文字原形字的双向对应转换,为楚文字原形字的使用创造了极大方便。

  光盘中还附有“说明文档”,含各种程序使用的详细说明以及有关系统开发研究的介绍阐释,如《“战国楚文献检索系统”使用指南》、《“楚文字输入法”使用手册》、《“楚楷对应转换程序”使用说明》及立足数字化平台的楚文字文字系统的论著《基于“战国楚文字数字化处理系统”的楚文字系统概述》。

  这个系统,实现了出土战国楚文献的多路径全文检索,及楚文字的计算机输入,使学界所期盼的出土楚文字材料的计算机数字化处理变成了现实。然而,保证这个目标得以实现的根基,还在于对该系统的数据本身——楚文献文本的收录、整理和加工。

  古文字数字化对数据(古文献文本)是有自己特定要求的,这种要求大致涉及收集、整理、保真三个方面。

  1.数据的收集,以真实、系统、穷尽为目标。

  古文字数字化具体目标涉及多方面多层次:古文字研究,汉字教学,数字化图书馆建设,互联网上的古文字传输平台建设,乃至涉及古文字的排版印刷等等。要真正完成这多方面多层次的任务,在古文字的数字化处理平台中的数据就应该是真实、系统、穷尽的。另一方面,数据统计乃是“数字化”一大独特功能,从这一功能的要求来看,古文字数字化开发中的数据更必须要在真实的基础上达到系统、穷尽的,因为不穷尽(至少是一定范围、层次的穷尽),统计所得数据就没有多大意义。然而具体落实这种要求,势必需要首先在材料收集方面付出艰苦的努力:穷尽是指在所划定范围内的没有遗漏;系统是指对应有的方面、层次合理包蕴及必要的强调;真实是指对资料原始面貌的客观保持。应该说,各种不同类型的古文字数字化项目为实现以上目标可能会有不尽相同的操作方式,但在“字”的处理这个基础层面上则会面临同样的选择。比如在目前古文字尚未在国际标准字符集中编码的条件下,任何一种古文字数字化产品都必须另建古文字字库来支持电子文本,字库中的字形是取自二手材料还是取一手材料?二手材料,是指已有的古文字字汇字典类工具书;一手材料,则是实物文字材料的拓片影象。毫无疑问,利用二手资料,工作会省力方便得多,而利用第一手资料,则必须投入巨大的归纳、整理、认同之类工作量。面对两种选择,开发组选择了后者。这是因为,事实证明,如果作前一种选择,无法真正实现数字化的目标。比如说,开发组曾经利用有关的古文字字汇建成的古文字字库,但这样的字库仅在古文字书籍排印中就存在大量缺口。当然,不能把问题仅仅归咎于传统二手资料本身,因为传统字汇等二手资料的编纂目标,一般与数字化的目标并不一致,而它们只收录摹写古文字,它们收录的古文字资料在数量上相对现有古文字材料总量有所缺漏,又每每是由历史原因造成的。所以不能用今天的数字化的要求来苛求它们。但我们今天要开发古文字数字化产品,还去选择二手材料作为数据来源则是完全不合适的。

  要实现资料的真实、系统、穷尽,还有一个实现手段问题,客观地讲,做卡片之类纸笔操作辅助人脑记忆的传统方法难以应付数字化所提出的庞杂资料高精密储存关联的要求,而真正合乎这种要求的手段也应该是数字化的。我们的具体做法是,古文字语料库建设与古文字字库建设同步进行,互为支撑,以达到所需数据的真实穷尽。具体来说,就是以原始文字资料图片为处理对象,一方面逐字录入以建设文献语料库,一方面逐字对应造字建设字库,这样就在操作程序上首先保证了语料与其载体字的严密对应,再立足这样的严密对应的基础平台,运用查询,关联等数字化手段来保证整个系统资料的完整性。

  当然,古文字资料(包括字形、文献语料等)的穷尽,只能是相对的,这种相对性表现在这样几个层次上:一是相对于实际存在的资料而言,穷尽是相对的,因为可能还有大量客观存在的古文字资料尚有待我们今后去发现;二是相对于已经出土的资料而言,穷尽是相对的,因为有相当一部分已经出土的资料至今并未正式发表;三是相对古文字资料内涵的实际信息而言穷尽也是相对的,因为迄今我们对古文字的认识还存在一些盲点。

  如何面对这种相对性? 首先,这种客观的障碍,并不能成为我们在资料收集工作上敷衍了事的借口,立足现实,尽可能地实现资料的穷尽系统是必须努力达到的目标。同时,由于数字化工具书是可以不断进行版本升级并通过网络等渠道提供给用户的,因此在首次开发的版本中预留了各类资料增补路径是必要的,这样开发者就可以很方便地跟踪古文字资料不断出土,相关研究不断推进的发展,与时俱进,随时把新的文本数据填加进老版本中去。

  2.数据的整理,以标准、统一为目标。

  要实现数字化处理,必须贯彻标准化原则,也就是说,所有应该统一的数据,都不能存在歧异。具体来说,在任何一种古文字工具书所必需的古文字字库和古文献语料库建设中,都必须实现字的唯一性,只有唯一,相关的字才能够在字库中占据一个唯一的内码码位,在计算机的查询、统计、筛选等过程中才能成为唯一的处理对象,从而保证数据的准确可靠。而在语料库中,同一个字也绝不能使用多个字形,而在某些层次上有对应关系的不同文字又有必要加以认同,只有这样才能实现数字化处理的效果。为达到这样的目标,我们又不得不面对楚文字资料(包括实物资料和研究资料)的重新整理问题。

  从数字化的角度来看,现有古文字资料中存在不少难以容忍的歧异。举例来说,在最近出版的《上海博物馆藏战国楚竹书(二)》中的“舜”字,共21见,原形均为 ,而由于不同考释者的不同隶定,此字在该书中就出现了两种写法: (见于“容成氏”篇11次)和 (见于“子羔”篇10次)。

  毫无疑问,如果保留了这种歧异,数字化处理就成了一句空话。因此,在《战国楚文字数字化处理系统》中,我们对类似歧异都作了统一。需要说明的是,我们在对此种歧异的统一中,一般是选择相对能够体现造字理据的字形,但这并不意味着我们对被淘汰的字形持完全否定的态度,因为它们往往从某些角度来看有着存在的合理性。只是因为数字化的处理无法容许歧异的存在,我们才进行了统一工作。

  3.数据的保真,以兼顾不同层次需要为目标

  整理、统一,无疑是数字化所必须的,但另一方面,经过整理、统一,我们的成果最终所呈现的字形就有可能与所依据的实物材料或研究材料不尽一致。这样我们又不得不面对一个古文字资料的保真问题。

  数字化处理的标准化,与古文字资料的保真要求之间存在一定的矛盾,但我们必须看到,保真只能是相对的,也应该具有相对性,这是因为从不同目标出发,保真有着不同的要求,而超越需要的保真,则不免成为一种干扰。比如记录文献的用字,如果仅从保真的角度看,似乎应该使用原形字,但如果真的使用原形字,势必遭遇这样的麻烦:古文字原形实际是一种手写字,一个字在文献中出现多少次就会有多少个特定的原形字形,难道在它出现的每一处都用一个不同的字形吗?显然,从一般文献阅读的角度来看,这并非是必要的;而对一个本可以用数字化手段来处理的电子文本来说,这样的处理只能带来灾难性的后果。相反,用似乎很不保真的楷体字则是合适的,因为对于同样结构的古文字原形字而言,它具有最大的概括性,因而也就可以成为最合宜的认同基点,这正是以一般文献阅读为目标这个层次的数字化处理所最需要的。

  当然,标准化与保真性的矛盾也并非完全无法调和,而兼顾各个层次的保真和数字化两方面的要求的手段,依然只能是数字化。我们在《战国楚文字数字化处理系统》的开发中,采用了三种方式来实现这种目标:一是开发专门程序来实现文献所用楷体字与古文字原形字的对应转换,如“楚楷对应转换程序”,可以保证人们方便的查检记录楚文献的各个楷体字所分别对应诸多原形字(包括异体原形字)。

  二是开发文献阅读主界面的逐字原始图影显示功能。这一功能,可以让人们在检索、阅读楚文献时随心所欲地调阅任意字的原始影象,因而更加贴近文献实际阅读的需要。

  第三,在文献用字的直接呈现上,给予必要的认同。具体方式有两种:隶古定与通用字同出、原形字与隶定字同出。

  隶古定反映了众多同结构原形字与其所对应的现代通用字构形上的基本差异,而对这种差异的保真,对古文字研究来说,意义重大——由于古文字的考释研究目前还存在一些盲点,同时又有一定数量的文字存在歧释,因此,释文用字采用比较接近原始形态的隶古定方式有助于明确对象、避免误解,也有助于进一步深入研究。然而,如果仅仅给出隶古定,既无法反映相应的研究成果,又取消了相应层次的数字化处理的可能。因此,我们采用了在隶古定字形后加括号标注通用字的方法,以兼顾两种需要。

  原形字与隶定字同出的方法一般适用于考释研究尚存某种局限的文字。对一般歧释字则在原形字后加括号标注楷体字,以前者明确所指对象,以后者反映某种考释意见。另外,对有些用法已有共识,而文字隶定尚有疑问者同样用在原形字后加括号标注楷体字的方法来反映现有的认识水平。

【简说战国楚文字数字化处理系统论文】相关文章:

如何运用翻转课堂教学模式进行说课设计论文(精选15篇)09-14

晏子使楚导学案设计(精选12篇)07-28

文字的求职信范文04-28

文字的求职信范文04-28

文字的求职信范文04-28

文字的求职信范文04-28

文字的求职信范文04-28

文字的求职信范文04-28

文字的求职信范文04-28

文字的求职信范文04-28

用户协议