方志,又称地方志,是按照一定体例全面记载特定时空内的自然、社会、政治、经济、文化等各个方面情况的文献,被誉为“一方之全史”。《方志物产》全文约3000万字,是从全国40多个大中型城市、100多个文史单位、8000多部地方志中摘抄出来的专题性资料,是目前世界上唯一一套明清方志农业资料。相对于地方志的“全”,《方志物产》更突出“专”,其内容以农业为中心,涉及农业生产的各个方面,尤以动植物品种资源和相关的种植饲养技术为主,具有极高的农业科技、经济史料价值,受到国内外学者的高度重视。
前人关于《方志物产》的研究可以总结为三个方面:一是内容应用研究,即引用其内容为自己的研究提供资料佐证,例如,李昕升以《方志物产》作为资料,整理其中记载的南瓜信息,为南瓜在中国的传播提供佐证;二是数字化技术应用研究,例如,衡中青使用命名实体识别技术挖掘物产与引书之间的关系,朱锁玲应用命名实体识别技术挖掘物产与地名之间的关系,并借助GIS进行物产分布及传播路径的可视化展示;三是物产分类信息的梳理,例如,衡中青以广东分卷为例,总结了方志物产的分类特征和分类方法,建立了物产分类体系表,芦笛以上海方志为例,梳理了上海官修方志中的物产分类体系以及文本书写格式。
关于《方志物产》中物产分类信息的研究,总体较少,且停留在梳理文中分类信息的阶段,极少涉及到分类体系的规范、智能辅助设计以及较大范围的普遍适用等方面。
由于编写制度的欠缺以及人工摘抄和录入的谬误等原因,《方志物产》物产类目信息在很大程度上呈现不完整和不完善,但仍有一定规律可循。为了规范物产类目信息,本文拟以《方志物产》山西分卷为例,结合计算机相关技术,梳理所载物产的分类体系特征,结合中国传统物产分类体系以及现代西方分类体系,尝试设计一套适合方志特点的物产分类系统,并实现物产类目信息的智能完善,旨在给《方志物产》的数据化挖掘和可视化展示奠定数据基础。
一、《方志物产》中物产分类特征分析
《方志物产》山西分卷共13本,约43万字,记载了从明成化二十一年(1485)至民国二十九年(1940)间山西境内的物产及相关信息,共记载了51545条物产信息,涉及到植物、动物和货物三个类别。
为了方便搭建数据库,首先要处理该资料的不规范之处。在通读原始文献的基础上,借鉴前人的成果和经验,对《方志物产》山西分卷资料进行格式化,实现文本格式的统一、物产名称的粗分以及复合分类信息的分离,为批量处理打下基础。
(一)《方志物产》中物产类目特征分析
经计算机词频统计,共得到5133个物产分类的类目名称,根据文中上下级逻辑关系和类目名称的相关性,将物产类目分成以下三种情况:
(1)一级类目:没有上级类目,只有下级类目。如表1所示,一级类目表达方式有物产、土产、食货、方产等相关名称,以物产相关名称为主。
(2)二级类目:既有上级类目,又有下级类目,且上级类目为一级类目。如表2所示,二级类目大致分为植物、动物、货物三个类别。
(3)三级类目:只有上级类目,没有下级类目,且上级类目为二级类目,其下为物产信息。如表3所示,是按照类目名称相关性进行分类后的结果。
从表1、2、3中可以看出,一级类目和二级类目的表达方式相对统一,三级类目的表达方式最为繁冗复杂。
物产分类信息的不统一,主要表现在以下几个方面:一是分类标准不统一,例如“水产类、鳞介类、鱼类”,“水产类”的范围最大,“鳞介类”次之,“鱼类”最小,前者包含后者;二是表达方式不统一,例如“百穀類、谷屬、榖類、穀品、穀物、穀之類、穀之属”等都是“谷”的意思;三是书写方式不统一,即采用异体字或者繁简体,例如“屬与属、谷与榖、药与藥、貨与货”等。
造成物产分类信息多样化的原因,主要有以下几个方面:一是时间长,《方志物产》涉及的时间从明代开始一直到民国时期,仅山西分卷而言,时间跨度就达455年之久,志书的编纂要求随着时代的变迁而有所不同;二是范围广,《方志物产》的来源以县志为主,地理范围上几乎涉及了全国各个地区,地理位置的不同造成了不同的文化习俗;三是作者多,基本上每本志书的编纂都是由不同的人完成的,在一定程度上与个人的书写习惯及文化背景相关性较大。总之,由于多个方面的原因,导致《方志物产》在行文结构和表达方式上存在着诸多不一致、不规范之处。
(二)物产分类方法分析
由于一级类目和二级类目的划分比较简单且明确,因此,物产分类方法的探讨主要是针对三级类目而言的。
如上文所述,虽然有些类目名称不同,但表达意思相同,我们称之为“同物异名”现象,例如榖、榖類、榖屬、榖之屬、榖品都表示榖,羽、羽品、羽屬、羽族、羽類、羽之屬都代表羽。把符合同物异名现象的类目名称进行合并,共得到296种不同的分类名称,其中,植物有146种类别,动物有89种类别,货物及其他类有61种类别。结合中国传统分类体系及现代生物学分类体系,《方志物产》中物产分类方法可以归纳为六个方面:
(1)根据物产的自然属性分类,其中,植物如榖、禾、蔬、菜、豆、竹等,动物如虫、鸟、鱼、禽、鼠等,货物如帛、布帛、器等。
(2)根据物产的功能属性分类,其中,货物如食货、用属、食属等。
(3)根据物产的生长环境分类,其中,植物如囿蔬、山蔬、田蔬、野菜等,动物如水产、水族等,货物如山产、山泽之利等。
(4)根据物产是否驯化分类,其中,动物如家畜、豢禽、野禽、野兽、兽、畜等。
(5)根据物产的制作方式分类,其中货物如醸之属等。
(6)根据现代生物分类体系分类,其中,植物如顯花植物、隱花植物、被子類、單子葉門、禾本科等,动物如脊椎動物、節足動物、哺乳類、厚皮科等。
为了深入了解方志类文献中物产的分类体系和分类方法,笔者查阅了宋代的地方志,系统梳理了其中的物产信息,结合明清至民国时期方志中的物产部分,可以发现,宋、元、明三代全部方志物产以及清代和民国时期的大多数方志物产均是采用了我国传统分类方法,山西分卷中,仅有清代光绪元年(1909年)文水县乡土志和民国二十八年(1939年)山西分省地志中出现了现代西方分类学的信息,譬如,植物有被子类,被子类又分为单子叶门和双子叶门,单子叶门包含“禾本科、薑科、百合科、鳶尾科”,双子叶门包含“鳳仙花科、芍藥科、葡萄科、玉蘭科、石竹科、罌粟科、豆科、安石榴科、薔薇科、繖形科、壺盧科、菊科、旋花科、胡麻科、脣形科、梧桐科、桑科、楊柳科”等,说明从清末开始,西方现代分类学开始在中国传播和应用。
二、《方志物产》中物产分类体系设计
在重新设计物产分类体系时,参照原始分类方式,进一步明确分类方法,统一类目名称。结构上遵循三级分类模式,方法上以我国传统分类体系为依据,结合《方志物产》自身特点,设计一套合理的分类体系。
首先,设置一级类目,从表1中可以看出,一级类目名称大多是“物产”的变形体,因此,将“物产”作为一级类目的名称,不仅符合原文的特点,也突出了《方志物产》的主题。
其次,在一级类目下设二级类目“植物”、“动物”和“货物”三个类别,将表2中植物类统一成植物、动物类统一成动物、货物类统一成货物,出现两次的“食属”,其中一次的下级类目为“穀菽”,包含的物产为“糯稻、大麥、小麥、蕎麥”等,归入植物类,另外一次的下级类目为“牲畜”,包含的物产为“牛、猪、羊、雞”等,归入动物类。
再次,在二级类目下设三级类目,其中,“植物”下设“谷属”、“菜属”、“果属”、“瓜属”、“木属”、“花属”、“药属”、“草属”八个三级类目,“动物”下设“羽属”、“毛属”、“虫属”、“水产属”四个三级类目,“货物”下设“货属”一个三级类目,如图1所示。
在设置“植物”下属的三级类目时,分析发现,原始三级类目名称“谷、禾、麦、菽、粟、蔬菜、草、瓜、果、花、木、药”等12大类中,“菜、药、果、瓜、花、草”这6类,不管是类目名称的相关性还是物产属性的相关性,都比较统一,因此,可以保持原状,分别以“菜属、果属、瓜属、花属、药属、草属”为类目名称,对相关性类目名称进行统一即可;另外,“谷”通“榖”,为谷物类粮食作物的总称,包含了“榖、禾、麦、菽、粟、豆”等几类,因此,设置“谷属”,将“谷、禾、麦、菽、粟”归入其中,由于其它类中“物产类”包含的物产为“穀、黍、稷、梁、大麥、小麥、蔴、蕎麥、匾豆、黑豆、豇豆、豌豆、菉豆、小豆、黃豆”,也一并归入“谷属”中;竹类和茶类在山西境内记载较少,偶尔出现且大多并入木属中,因此,“竹、木、茶”统一归入“木属”中。
在设置“动物”下属的三级分类时,在原始分类信息的基础上,参照《尔雅》采用的“虫鱼兽鸟畜”分类标准,根据“二足而羽谓之禽,四足而毛谓之兽”的原则,将“兽鸟畜”划分为“禽”和“兽”两类,为了避免与现代汉语概念混淆,依据物产的特征,将“羽属”、“毛属”作为类目名称,另外,将水中出产的物产类目命名为“水产属”,“虫属”维持原状。由此,将原始类目名称“禽、兽、鸟、羽、虫、畜、毛、水产、麟介、鱼”分类时,首先,将“畜”进行分离,其包含的物产有“牛、馬、騾、驢、羊、豕、狗、猫、鵝、鴨、雞”,其中,“牛、馬、騾、驢、羊、豕、狗、猫”符合“四足而毛”的特征,归入“兽”,“鵝、鴨、雞”符合“二足而羽”的特征,归入“禽”。其次,“□類”中包含的物产为“牛、馬、騾、驢、羊、豕、兔、狐、狸、獾、犬、貓、虎、狼、鹿、豹、田鼠、黃鼠”,以及其它类中的“鼠属”,均是“四足而毛”类型,归入“兽属”,“□属”中共包含“鶡雞、半翅、天鵝、□鵝”,均是“二足而羽”类型,归入“禽属”。最后,将“禽”、“鸟”、“羽”归入“羽属”,“兽”、“毛”归入“毛属”,“虫”归入“虫属”,“水产”、“麟介”、“鱼”归入“水产属”。
“货物”下属的三级分类“货属”是指具有经济用途或者能满足经济上的某种需要的东西,是动植物和矿物的产出物,不仅包含原始的“货”相关类别,还将其它类中的器用、金、色、石、土、酒、杂产以及帛类包括在内。
三、《方志物产》中物产类目信息的智能化处理
《方志物产》山西分卷共记载51545条物产,除去年代不明确的35条,明代有6440条,清代有38914条,民国时期有6156条。类目信息缺失的物产有16970条,缺失率达到了32.92%,除去年代不明确的6条,明代有297条,缺失率为4.62%,清代有12527条,缺失率为32.19%,民国时期有4140条,缺失率为66.87%,如图2所示。
以物产分类体系为依据,借助计算机技术,自动化完善物产的类目信息,是数字化整理的重要组成部分。自动完善的过程中,将有原始分类信息的物产,作为训练语料,将无原始分类信息的物产,作为测试语料,采用比较类推法和聚类法进行自动归类,按照图3所示的技术路线进行类目名称的规范。
首先,统一训练语料的类目信息。根据前文的论述,使用类比法,将对物产的已有类目名称进行规范化,先将原类目名称(训练语料中的类目名称)与现类目名称(我们设计的物产分类体系中的类目名称,去掉“属”字)进行模糊比较,若前者含有后者(包括正字、异体字、发音),则用后者替换前者,例如,与“谷属”中“谷”类比成功的有“百穀類、谷、谷屬、榖、榖類、榖属、榖屬、榖之屬、穀、穀類、穀品、穀菽、穀属、穀屬、穀粟、穀物、穀之類、穀之属、穀之屬、糓、糓類、糓属、糓屬、糓之屬、五榖、五穀、五穀類、五穀之屬”,再将原类目名称表达的意思或者包含的物产与现类目名称进行比较,若一致,则用后者替换前者,例如,与“谷属”在表达意思或者包含物产上一致的有“禾類、禾屬、麥、麥屬、菽、菽屬、粟屬、粟之屬、物產、豆、豆子”。
其次,补全测试语料的类目信息。此过程是使用比较法,用物产名称为索引,将测试语料中的物产名称与训练语料中的物产名称作比较,若是名称一致,则将训练语料中物产的规范后的类目名称赋予测试语料中物产。例如,清乾隆二十八年《稷山县志》中“鹌鹑”的类目名称为“羽属”,而清雍正13年《泽州府志》中鹌鹑的类目名称为空缺,在比较的过程中,两个物产名称匹配成功,于是将前者“鹌鹑”的类目名称赋予后者“鹌鹑”,于是,后者“鹌鹑”也就归入了“羽属”。
再次,使用聚类法进一步补全物产信息,对仍剩余的1064条没有分类信息的物产名称进行逐个分析,取出物产名称的最后一个字和现类目名称的第一个字,进行比较(包含正字、异体字等),若是相同,则将现类目名称赋予该物产,例如,物产“丁香花”的原类目信息为空,其最后一个字为“花”,与“花属”的第一个字的比较结果一致,则将“丁香花”归入“花属”。
《方志物产》山西分卷中训练语料共有34578条,测试语料共有16968条,经过计算机智能化完善处理,测试语料中有16187条物产被自动赋予了类目名称,仅余781条物产没有分类信息,缺失率由32.9%降到1.5%,召回率为95.4%。
综上,经过对《方志物产》山西分卷中51545条物产进行词频统计,除去产地不明的673条物产外,其余物产的分布情况为:晋南为21406条、晋中11465条、晋东南10356条、晋北7645条,物产的分布自南向北递减,与山西的自然生态环境相一致。另外,除了781条没有分类信息的物产外,从物产种类来看,以植物为主,约35760条,动物次之,约13093条,货物最少,约1911条,其中,植物中谷、菜、果、瓜等食用植物为最多,共出现14596条,药物次之,共出现9197条,花的记载较之草木要多;动物中以羽、毛类为最多,包括鸡鸭鹅牛马猪等家养的和飞鸟类及野兽类等野生的,虫类次之,水产类最少,反应了山西干旱缺水的自然环境;货物是动植物和矿物的产出物,如绢、布、羊绒、油、酒、盐、炭等,大都是与人们生活息息相关的物产。
研究采用计算机技术作为辅助,一方面可以提高工作效率,一方面由于结合了人工操作,难免存在一些偏差,例如,在数据格式化环节,格式化处理以及物产名的粗分都有可能会出现不准确的地方,从而影响到分类信息完善的准确性,相关智能处理技术的应用有待于进一步完善。
物产的类目信息缺失率仍有1.5%的原因。一方面是因为该物产只出现一次,无法参照其它物产进行分类,另一方面是因为该物产使用了异体字,与其它同名物产无法匹配。随着数据的不断增加和完善,这些剩余的物产信息也将被一一处理,例如“娑羅樹”在山西分卷中只出现了一次,说明它在山西境内属于不常见物产,但是在广东广西等分卷中却十分常见,属于大宗物产,因此,这类物产在全国范围的物产信息数据库建成之后,分类地位就相对清楚了。
山西地处中原,位于黄河之畔,物产相对丰富,自古以来就是农业大省,能够代表黄河流域甚至中北部地区的情况,因此,以其为代表设计的分类体系有一定的通用性,然而,不同地区的特殊性也客观存在,在进行更广区域范围的使用时,可以根据实际情况进行适当调整。该物产分类体系的研究成果,可以为其它省份乃至全国范围的物产分类体系构建与应用提供借鉴。