研究动态
刘莉:民国警察史料的数字化整理与开发研究
上传日期: 2018-04-18 作者:刘莉

  近年来, 国内对近代中国警察史研究取得了一定的进步, 关注和研究警察史的学者逐渐增多, 视角更为开阔和客观, 有关近代警察史论著频出, 但研究成果的不足也引起关注。具体表现在:理论介入不够, 往往孤立地看待近代警察发展和变化, 缺乏联系的观点, 未能触及其中深层次的本质原因;现有警察史料凌乱, 对近代警察各段历史的背景、人物、事件的基本脉络和近现代警察理论演变和实践进程不能客观地把握, 难以搜集充足的史料支撑观点, 经常作无据考证, 偏离历史本来面目。客观地说, 近代警察史的总体研究水平与民国史其他研究领域相比还处于较低层次, 研究成果在数量和质量上有待提高。近代警察史料散落, 未能完整地系统整理, 是其主要原因之一。

  1 民国警察史料整理与研究的现状
1.1 史料整理出版情况

  关于民国警察史料的整理与收录, 目前最权威的是《民国时期总书目》[1]和《中国公安图书总目》, [2]前者收录警察专业图书约700余种, 后者收录民国警察文献2000余种。这两种文献都是20世纪80-90年代的出版物, 由于各种原因的局限, 其收录范围仅为国家图书馆、上海图书馆和重庆图书馆的民国警察史料, 而南京图书馆、中国第二历史档案馆及中科院近代史所这样的在全国范围内民国文献较多的单位收藏的文献未能收录, 台湾、日本、美国等图书馆的近代中国警察书刊基本未涉及, 且出版至今没有修订再版。以上两种文献以公开发行图书资料为主, 涉及当时重要警察人物、警政事件、警察机关的档案资料以及收录于其他文献资料内的民国警察史料。

  1.2 史料数据库建设情况

  20世纪90年代, 各收藏单位开始建立自己的民国文献数据库。其中较有影响的有国家图书馆的《民国时期文献总库》、北京时代瀚堂科技有限公司和浙江大学图书馆联合推出的《民国文献大全》、上海图书馆的《民国时期期刊全文数据库》、尚品大成公司的《大成故纸堆数据库》、南京图书馆《中国近代文献图像数据库》和重庆图书馆的《民国书刊数据库》。

  由于以上数据库的建设计划均以本馆或少数单位的联合收藏为基础, 民国图书文献收录均不全, 关于民国警察文献收录的数量更是稀少。根据调查, 上述数据库中民国全文电子书 (民国文献大全项目) 收录的警察类电子文献最多, 也仅200余种 (全文) , 并且电子文献分别属于不同的检索系统, 查找和使用仍然不便。

  1.3 史料整理情况小结

  (1) 内容不全面。虽然对民国警察图书和期刊进行了整理, 但对档案、方志、图片、报纸中涉及民国警察的史料未能整理报道。资料挖掘深度不够, 整理的成果深埋于综合性报道中, 没有专题性成果报道。

  (2) 收集难度大。民国警察文献分布在国内外各公共图书馆、大学图书馆、档案馆以及私人收藏者手中。其中, 比较珍贵的书刊文档, 一般没有电子信息;即使有, 目录也十分简明, 且限在收藏馆小范围使用, 因此收集相关信息比较困难。

  (3) 校勘工作进展缓慢。现有的印刷本书目和各馆馆藏电子目录信息有错误和不完整的情况, 且由于校勘工作需要大量的人力和时间, 所以整理周期长、后续维护困难、内容更新缓慢。国家图书馆的民国联合书目数据库中, 同一种书有两个甚至三个著录书目的情况经常出现, 相互之间信息有出入而不能确定信息的准确性。

  (4) 没有专题数据库。国内民国数据库的开发建设, 通常为综合性的期刊或图书数据库, 除国家图书馆与南京图书馆的少数几种专题数据库外, 专题型数据库还比较少, 而且存在选题少、开发深度不够的问题。[3]已有的数据库在使用方面存在着检索点少、检索效率低、缺少用户互动机制、用户体验效果不理想、学术传播性差等方面的问题。

  目前, 无论是纸本还是数字资源, 均未对民国警察史料做专门整理, 存在着资料揭示不完整、查找困难等情况。因此, 需对这部分史料的内容进行整理和全面揭示, 发现和挖掘其深层蕴藏的信息, 为下一步开发研究打好基础。

  2 民国警察史料整理内容
2.1 范围界定

  民国警察史料是对1911年10月10日至1949年10月期间产生的各类与中国警察制度、警察管理、警察教育、警察法规, 以及与重要的警察人物、事件等相关的专著、报刊、档案、手稿、方志、实物、影像等资料的总称。就民国警察这个领域而言, 文献还有着自身的特别之处:经过多次战争、解放后的封存及人为的销毁, 史料散失现象比较严重。特别是建国以来, 作为国民党反动统治的工具, 民国警察相关资料和实物被大量销毁, 系统、完整、全面地搜集、整理和研究民国警察史料, 任务非常艰巨。

  2.2 整理内容

  (1) 深度挖掘已有检索工具。为节约成本, 史料整理工作首先可充分利用已有的资源。以现有的《民国时期总书目》《中国公安图书总目》《民国期刊篇名数据库》《民国时期文献联合目录》以及中国第二历史档案馆书刊资料为基础, 以国内及海外图书馆馆藏警察书刊为补充, 全面收集民国警察书刊。资料收集不能限于公开发行的单行本警察图书期刊资料, 还应包括民国其他史料中涉及民国警察史料的部分。相对于单行本的警察专业书刊, 分布在其他书刊资料里的警察史料的收集是工作的难点。根据当时警察工作的隶属关系, 在政府出版物中有相关的史料, 如《内政公报》《内务公报》《国民政府公报》《外交部公报》等政府机构出版物, 各地方政府的年度工作报告等。同时, 还应在与警察管理业务相关的法律、犯罪学学科中寻找相关史料。

  (2) 扩大史料整理范围。 (1) 对于研究历史而言, 除图书期刊外, 档案资料、报纸、政府出版物、地方志、图片、实物等资源作为第一手资料, 更能反映当时的状况, 史料价值更为突出, 这方面的专题整理工作更为重要。 (2) 重视档案资料的收集整理工作。系统搜集中国第一历史档案馆、中国第二历史档案馆、上海、重庆、江苏、南京、天津、广州等地区档案馆所收藏的档案;系统地搜集台湾省所藏有关民国警察的档案, 以及大陆、台湾、国外所藏汪伪政权档案中有关民国警察的史料。 (3) 注意从报刊中系统整理有关民国警察的史料。在民国时期的《大公报》《申报》《中央日报》中, 有关民国警察活动的历史事件、侦查案件、警察人物的报道数量很多, 但目前民国报纸没有被系统搜集、整理和使用过。

  此外, 要更加系统地从民国的地方志、现代编写的方志中收集史料, 还有中外相关人物文集、专著、书信、回忆录等。这些史料往往从侧面真实地反映了历史原貌, 可以说是厘清许多重大历史问题的关键, 不仅有利于我们还原历史, 更可帮助世人认识客观、真实的近代中国全貌, 所以可从这些历史文献中搜集、整理有关民国警察的史料。[4]

  图像是极其重要的历史资料。与文字相比, 图像更加具体生动, 对读者产生更强的视觉冲击力。[5]但民国时期条件有限, 国内保存下来的与警察题材相关的图像较少, 反而国外有些图书馆、档案馆和研究机构保存的资料较为丰富。如, 哈佛大学燕京图书馆藏有Hedda Morrison 1933-1946年在中国拍摄的逾5000张照片和1万多张底片, 杜克大学藏有逾5000张中国老照片, 美国地理学会图书馆收藏了814张1932-1937年甘南及各藏区的照片。[6]

  (3) 增加当代民国警察史研究成果的收集整理。在整理史料时, 对于研究民国警察史的学术论文和专著一并收集整理, 也会为进一步开展研究工作提供更加全面的研究基础。除了正式渠道出版的研究资料外, 有一些研究民国警察史的网络资源也应该注意收集。如, 一些研究警察史的网站, 经常更新研究文章及回忆文章, 可以作为补充资料, 进一步完整民国警察史资料体系。

  由于民国警察史料涉及范围广、时间跨度大、内容丰富, 在收集时要追求史料的基础性、原始性、真实性、完整性和全面性。因此, 除了在搜集、整理时要合理归类、条目清晰、取舍兼顾、多而不乱外, 还需要同时进行史料的保存、辨伪、校勘等方面的研究, 为民国警察历史的研究提供丰富而又真实可靠的史料。[7]

  3民国警察史料整理方案与研究前景展望
3.1 整理思路

  民国文献的整理和开发主要包括整理出版、编制书目和索引、数字化3种主要方式。[6]其中, 整理出版工作开展的较早, 经过多年的积累, 选题呈现系统化、规模化和多元化的特点, 出品总量日益丰富, 为史料保存和使用提供了保证。编制目录索引则由于人力消耗大, 相对进展缓慢。整理的成果中综合性目录较多, 按学科专题性编制的较少。笔者调查发现, 以上两种史料整理成果在系统性和专业性上均不能支撑某一专门学科研究的需要。而数据库建设作为史料整理的一种新形式, 在查找和获取文献方面有很大的便利性, 使用不受时间和地域的限制, 深受用户欢迎。用户亦更希望通过网络获得纸质图书无法实现的知识检索、类聚、链接以及知识提示等服务。所以, 数字化整理应该是今后史料整理的主要形式。

  但各单位的民国史料数据库全文多为图片格式, 没有实现真正意义上的全文数字化处理。[8]在文献检索方面难以实现深层次的检索和挖掘, 文献查全率依然很低, 数据挖掘分析功能无法施展。随着新的信息技术在理论和实践上的研究, 越来越多的学者不再满足于史料数字化工作仅停留在建数据库上。李明杰提出, 随着信息技术的发展, 将会衍生出一种新的古籍整理范式, 即古籍知识的数据化整理, 该范式要求不仅把数字化看作古籍整理的结果, 更应把它作为下一步古籍整理的数据和素材。[9]民国警察史料的整理工作正是基于这样的思路展开的一种新的尝试。

  3.2 构建史料智能整理系统平台

  为实现深度开发利用和研究的功能, 民国警察史料整理与开发要实现智能化处理, 重点在于开发智能史料整理平台, 运用信息技术该平台实现史料的全文检索、开展史料的数据分析和处理, 以满足实际整理工作需要。

  (1) 实现全文检索。本系统平台要在对民国警察史料的全方位挖掘、系统收集和整理基础上, 将实物、图片、文本等史料数字化, 而不是简单的书目或文本的数字化, 而且要保存史料信息源的影像资料;同时将其转化成能够被计算机网络处理的数字化符号, 实现全文检索。数据库能够将原文原版图片格式和文字识别后对照版本, 供用户查考。

  (2) 建立专题语料库。所谓语料库是指大量电子化的、原始或者添加了语言信息标记的文本集合。通过建立语料库, 使数据库基于字、词的相关统计与分析变得更加容易, 也使通过数字化过程完成史料整理成为可能。[10]语料库建立后, 校勘工作很大程度上可以通过语料库中的字、词汇、语法等计算机智能辅助比对完成, 节约人力, 提高效率。更为重要的是, 通过语料库的统计分析功能可以实现对民国史料数据库各类数据的分析研究, 从中了解和掌握民国警察史学科发展情况。

  (3) 实现自动断句和自动标引。断句与标点是掌握并且理解史料的基本要求, 智能断句与标点则是智能整理的基本任务。在构建智能整理系统平台中, 民国警察史料部分 (主要是1920年之前) 没有标点, 可在全文识别后自动断句和标点。在此基础上实现自动标引, 通过添加编制刊名、篇名、主题词、摘要、学科分类、出版时间、出版单位、作者等较为全面的检索点, 使史料实现数据化管理。

  (4) 实现自动编撰功能。计算机将从大量史料文本中判断、选择出与编纂主题相关的资料, 实现专题资料的自动编纂工作。[11]

  (5) 按史料类型分别建库, 关联检索。民国警察的史料类型多、数量大。为了提高数据整理质量, 实现全面收集的目标, 应按资源类型分别建立数据库。以图书、期刊论文、档案资料、报刊资料、实物、图片、人物、网络资源、现代研究资料等为依据建库, 同时数据库之间建立关联, 在一站式平台上实现全方位拓展检索。如查找某个人物, 可分别关联到该人的背景资料、图片、著作、论文及实物在本资料库的收集全貌。

  (6) 建立开放式的公共交流平台。智能整理系统平台应设计为一种开放式的公共交流平台, 具有多方面的服务功能: (1) 供相关研究者查阅史料; (2) 希望本学科研究者能够通过此平台开展学术交流; (3) 对系统平台提出问题或改进意见, 如提供尚未收集的某种史料, 对某专著做出评价, 对专题库收录史料不完整的部分 (如缺少著者、出版时间等) 进行补充推荐等, 为数据库建设做出反馈和回报, 从而以一种互惠的方式推动数据库的建设维护和发展;[12] (4) 平台利用收集的史料建设网上警察史博物馆, 为一般的警史爱好者和学生提供一个历史学习和教育的阵地, 普及历史知识。

  总之, 通过对民国警察史料进行系统收集和数字化智能整理, 建成一个融资料的采集整理、存储更新、查询检索、校核比勘以及数据统计分析、信息处理功能为一体的专题史料系统, 同时兼有学术研究、普及教育、读者互动的知识服务体系。

  3.3 数字化技术在整理中的具体应用

  通过信息技术的应用, 从知识元解析、智能检索、语义分析, 到关联挖掘、知识地图构建, 民国警察史料整理本身及其衍生的研究方式都将全面升级。

  (1) 语义关联技术的应用。民国警察史料数据库可通过建立基于本体的知识检索模型, 实现时间、地点、人物、事件的知识关联检索。如查找到某个人物, 可分别关联到该人的职业经历、图片、著作、论文及实物、相关联的人物、事件、研究资料等。

  (2) 利用文本可视化技术构建史料数字化知识体系。文本可视化技术是在分析文本资源的基础上, 利用计算机技术将发现的特定信息通过图形呈现出来, 不仅可以显示文本中的隐含内容及关系, 而且可在最大范围内概括海量的文本信息。在古籍整理工作中应用该技术, 可以将古籍文本信息生动地表达出来, 并且能够利用特定程序的算法将古籍文本资源的潜在语义联系展示出来, 从中发现新知识。[13]民国警察史料数据库可通过可视化的形式展示人物、时间、地点和事件之间的语义关系。

  (3) 利用文本挖掘技术实现史料的深度分析。文本挖掘是数字挖掘技术的一个新兴分支, 其从大量文本集合、语料库中抽取知识团, 这些知识团事先未知但可理解, 且有潜在实用价值, 即文本数据库中的知识发现。[13]如对于文献价值的判断以及作者价值判断, 当代文献有着分析引文等比较普遍采用的方法, 民国警察史料没有引文这个项目。为了完成评价工作, 必须设计新的评价体系。本系统采用统计和数据挖掘等方法对民国警察史料进行深入地挖掘和统计分析, 科学地解读, 得出相应的结论, 使研究者能够系统地了解相关领域的发展状况、主要的研究人物和研究成果、重要的事件等。

  3.4 史料开发研究工作

  民国警察史料的开发研究工作首先就是将已入库的材料及研究成果作为核心数据并加工、整理、发布、应用。

  (1) 资料型工具书。如利用史料智能整理系统自动编撰功能编写《民国警察史料专题索引》《民国警察人物志》《民国警察法规汇编》等资料型专著, 为研究者提供纵向的近代警察发展的历史轨迹和基本脉络。

  (2) 民国警察史料分类概要。对所收集的史料按文献类型分门别类进行整理, 同时对这一领域史料收集、整理的重点及研究思路、方法提出意见, 为研究者和爱好者提供入门指南, 缩短研究者查找资料的时间。

  (3) 民国警察史书目提要。以民国警察史料为专题, 运用数据挖掘等方法进行分析研究, 从中筛选出各学科代表性专著, 对学术专著的版本、学术渊源进行考订, 进行价值评判, 帮助读者了解其背景、内容、作者生平事迹及学术价值, 进而了解民国警察相关学科的学术发展史。

  参考文献

  [1]北京图书馆.民国时期总书目[M].北京:民国时期总书目, 1986.

  [2]戴文殿.中国公安图书总目[M].北京:中国公安大学出版社, 2007.

  [3]段晓林.从影印出版及数据库建设看民国期刊的整理与利用[J].图书馆, 2013 (3) :107-109.

  [4]张丁, 王兆会.浓墨重彩沧桑厚重——民国文献的价值及馆藏现状[J].图书与情报, 2011 (2) :139-144.

  [5]全勤.南京图书馆民国文献保护与开发研究[J].国家图书馆学刊, 2014 (2) :44-47.

  [6]陈晓莉, 严向东.民国文献的整理与开发问题研究[J].图书馆, 2013 (4) :94-97.

  [7]邱涛.七十年来新四军史料的整理与研究[J].史学史研究, 2012 (2) :67-77.

  [8]孙琴.民国文献数字化建设现状分析研究[J].山东图书馆季刊, 2008 (1) :71-73.

  [9]李明杰.数字环境下古籍整理范式的传承与拓新[J].中国图书馆学报, 2015 (9) :99-108.

  [10]范佳.“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究, 2013 (3) :29-32.

  [11]常娥, 等.古籍智能整理与开发系统构建研究[J].情报资料工作, 2009 (4) :43-47.

  [12]龙世彤, 关富英.高校图书馆馆藏民国文献专题库建设研究——以北京师范大学图书馆为例[J].图书馆学研究, 2011 (3) :34-36.

  [13]杨贤林.古籍整理中数字化技术的应用实践与展望[J].图书馆学刊, 2014 (3) :51-53.