欢迎来到个人简历网!永久域名:gerenjianli.cn (个人简历全拼+cn)
当前位置:首页 > 范文大全 > 心得体会>编制地方文献索引数据库的体会

编制地方文献索引数据库的体会

2023-11-10 08:31:21 收藏本文 下载本文

“langman520”通过精心收集,向本站投稿了4篇编制地方文献索引数据库的体会,下面是小编为大家整理后的编制地方文献索引数据库的体会,仅供大家参考借鉴,希望大家喜欢!

编制地方文献索引数据库的体会

篇1:编制地方文献索引数据库的体会

编制地方文献索引数据库的体会

[摘 要] 本文对地方文献索引的编制及索引数据库的建设进行了详细论述,对公共图书馆地方文献的开发

利用有一定的借鉴意义。

佳木斯市图书馆是一个中等城市公共图书馆,从2002年11月起应用索引学的原理,利用人工和计算机相结合的方法编制地方文献索引数据库。经过半年多的学习和探索,基本上解决了相关问题,现将我们的认识及做法整理成文。

1 地方文献特点和读者需求是编制索引的依据编制地方文献索引是一项复杂艰巨的工作,这是由地方文献的特点决定的。

首先,地方文献范围广、时间长、载体多。涉及历史学、社会学、地理学以及政治、经济、文化和自然科学的许多学科知识和资料。有照片、地图、光盘、录像带、剪报、单篇文件资料、手稿等多种文献形态,其中还有大量内部出版物和非出版物。

其次,地方文献面向社会公开使用,读者对象有工人、学生、教师、科研人员、机关干部、作家、宣传媒体等多层次、多成份人员。他们查阅地方文献的目的不同,需求也不同。

第三,地方文献作为图书馆具有一定价值的文化遗产留传后世,必须考虑到后代人的检索方便和个性需要。

面对这样复杂的情况,我们要尽可能地增多检索途径,索引系统、索引款目、索引语言一定要通俗易懂、使用方便,使各类型读者都容易掌握。

2 解决好编制地方文献索引的基本问题

编制地方文献索引数据库,既要符合传统索引理论的基本原则,又要适应利用计算机建立索引数据库的现状。在具体工作中要解决好以下几个基本问题:

2.1 收录范围的界定 将历史上反映佳木斯地区的文献纳入收录范围。侧重资料性、史料性强的文献,对技术方法、管理方法和一般理论研究的文献不收,但具有地方特点的技术方法和管理方法除外。

2.2标目的标引 即从文献的篇名和内容中编选各种类型的索引标目。根据设计,拟建立的地方文献索引数据库应具有题录索引、人物索引、地名索引、单位索引等几种

类型索引。现分别论述如下:

2.2.1 题录索引。编制题录索引首先要解决各种类型文献篇名标引统一的问题。我们规定,报刊均以原有自然篇名标引;整册图书如内容全部属于地方文献的以书名作为篇名标引,而图书中有些章节属于佳木斯地方文献的则以章节名称作为篇名标引;文集、汇编等有多篇文章的以各篇文章的篇名标引;重要的照片、地图、单篇文件及录像带、光盘均应著录篇名,以篇名标引。题录索引以篇名所包含的主题概念按类序法整序编列。每个篇名都要有一个作为归类、整序依据的主要主题概念,这一主题概念必须反映 : ①为什么将这篇文章收入地方文献; ②属于地方文献类目表的哪个类目。如《乌苏春秋》是纪实小说,被收入地方文献是因为其内容描述了1946年饶河县土地改革的情况,归入解放战争时期的土地改革史料类;又如《赫哲族渔村和我的绘画道路》收入地方文献是因其反映了三江地区赫哲民族的文化,因而取“赫哲族”为主要主题概念,归入赫哲族类。

标引篇名主要有3种方法:①原篇名照录。适用于篇名不长,且表达的地方文献主题概念清楚者。②原篇名删节。对原篇名较长、特别是报刊文章,一般删除其虚词或副标题,留下反映地方文献主题概念的主标题即可。③原篇名加注。篇名中地方文献主题概念不清者应当标出。此有两种形式,一是加副标题,如《舞台上下五十年》加副标题后标为:《舞台上下五十年--评剧表演艺术家李岱山生平事迹》 ; 二是加括号,如《黑瞎子与狐狸》加括号后注为:《黑瞎子与狐狸(赫哲族民间故事)》。

2.2.2 人物姓名索引。只标引收录范围内的重要人物。对人物的曾用名、别名等均加括号在常用名后标引,不必做像手工索引那样的轮排和参照。因为计算机会自动将任意一个人名检出。

2.2.3 地名索引。考古发掘、重要事件发生地均要标引出所在市、县名以及村、屯或山川名。凡涉及地名变迁的,要将原地名加括号标于现地名之后。

2.2.4 单位名称索引。 单位名必须标引全称,并连同市、县名一起标出。已变更的单位名加括号标于现单位名之后。

2.3 排序方法的应用 地方文献索引的编制以及数据库检索中款目的排序占有重要的地位。传统的索引理论使用类序法和字序法,我们认为更应重视时间排序法的应用。

2.3.1 编制类目表。题录索引是以篇名的主要主题概念按类序法排序的。我们要做的是编制一部实用的类目表,这是一项困难的工作。我们曾两次仿照《中图法》的22大类进行编制但均告失败,其原因是《中图法》是按学科分类的,而地方文献要按事物、事件和人物分类。后来我们又进行了第三次的大胆尝试,完全依照地方文献的内容自编了一部类目表。其主要特点:①将最常见、最重要的专题放在突出地位单独立类,如“行政区划和建置沿革”、“著名人物传记”、“重要单位事迹”、“赫哲族”等设为一级类目。②设置的21个类目均为独立的专题,它们之间没有逻辑关系,但其内部的上下级类目之间严格按照逻辑关系设置类号。③尽量减少类目级次,一般只设二级类目,少数文献量较大的类目设至三级。这样设置类目表十分简洁,方便了工作人员的归类和读者的检索利用,而且类目名称及其说明注释文字使用的大部分是规范主题词,为计算机检索创造了条件。

2.3.2 人物、地名、单位名的索引,均使用汉语拼音音序排序,由计算机自动生成,在应用中比较方便。

2.3.3 时间排序法的应用。在编制和使用地方文献索引数据库中时间排序法起到了重要作用。我们规定在输入的每条索引数据中要包含一个时间项,尽可能准确地标出地方文献中事件发生的时间。如历史人物和革命领导干部要标引其到达佳木斯或在佳木斯任职的时间 ; 劳动模范、先进人物要标引出被授予荣誉的时间;优秀运动员要标引其创造

纪录或夺取名次的时间;科学家要标引研究成果被评定的时间;革命英雄要标引其在佳木斯参加革命的时间;文章、讲话著作标引其出版、发表的时间等等。在索引数据库中时间成为一个检索点,并具有排序功能。它可使数据库中的数据按时间次序排列,形成一部大事记的资料线索。题录索引、人物索引、单位索引也有二次排序、三次排序的功能。对题录索引按类排序后再按时间排序,如抗日斗争史料,按时间排序后对研究抗日斗争历史有很大益处。

3 利用计算机建立索引数据库

我们设计制作的地方文献索引数据库应用软件共有4个界面。

3.1 输入界面 具有输入、储存、建库的功能。共有篇名、著者、出处、附加说明、人物、地名、单位和类号、时间等9栏,与手工索引格式完全相同。按照格式准确输入即可完成建库。其中除附加说明项内容不直接在界面反映外,其他8项均有检索、聚合、排序的功能。每输入一次即可完成分属于题录、人物、地名、单位等4个索引的`功能。在输入界面上还附加浏览、编辑修改和链接已输入数据的功能。

3.2 检索界面 检索界面是地方文献数据库最重要的界面,体现了数据库的主要功能。

滚动浏览检索功能。采取列表显示的办法将每个输入界面的1组数据列为1格,一个界面可同时浏览20多条数据,并可用鼠标拖动浏览,为检索提供了有利条件。

聚合、排序检索功能。对人物、地名、单位、类号、时间5项做了排序功能的限定,只须在界面上点击列在标头上的名称,便可实现数据的聚合排序,读者可轻松查到所需的大部分数据。

专指对象检索功能。已有明确的查找对象,可以通过键入专指的篇名、人名、地名、单位名查到所需要的数据。如地方文献索引数据库收录了佳木斯市各届党政领导人员、各界名人活动的资料,只要键入人名便可将他们每个人的重要讲话和一切活动资料检索出来。一人多名者,也可以通过其任意姓名检出其全部资料。

多层次逐级检索功能。第一层次可将以人名、地名、单位名标目的标引名称检出(同名称者全部聚合在一起显示出来),确定检索对象。第二层次可在界面上通过通用款目的篇名、著作、出处等检索到检索对象在文中的地位。第三层次检索可通过附加说明项的记载了解。通过3个层次不断加深对资料的探求,读者完全可以确定自己要检索的文献对象。

分解、重组、异排检索功能。通过逻辑操作,使用大于、小于、等于、包含等标识符号,对各种数据重新分解、组合和排序。

也可通过时间途径直接进行检索,如提供“3・15”这一数据,即可查到佳木斯市1938年日寇对地下党员和爱国人士的大搜捕事件的全部资料线索。如要查找历史上各年“8月”或“8月15日”发生的事件,亦可通过这一途径使有关数据单独聚合起来。

链接检索功能。附加说明项因文字较多,没有排入检索界面列表,只在列表格式项目中标注了“MEMO”代码,用鼠标点击即可显示为附加说明项单独设立的界面。附加说明项界面的文字量不受界面限制。

3.3 印刷界面 地方文献索引数据库具有自动生成题录、人物、地名、单位4部文本索引的功能,为此设计了印刷界面,预先将要印刷的文本索引(或其部分内容)调入,进行预览,确认无误后打印出文本索引。

3.4 图片界面 以链接方式浏览储存于计算机硬盘或光盘上的与地方文献相关的照片、地图、表格等。

通过以上多个界面和多种检索功能的设立和实现,建成了较为细密的地方文献索引网络。模拟读者的检索要求做了多次实验,并不断补充使之趋于完善。我们计划配合专家学者,进行历史学、社会学、地理学、民族学、人物传记等方面的研究,为其提供丰富的资料线索。地方文献索引数据库还可为网上宣传,举办地方历史展览,编写爱祖国、爱家乡的政治思想教育材料提供丰富的资料来源。

4 边学习、边工作取得双丰收

佳木斯市图书馆最近几年没有编制过任何索引,也没有人员研究索引学,更没有自行开发任何应用软件。这次建设地方文献索引数据库中我们大胆尝试,勇于创新,积极学习索引学,举行多次报告会,召开十多次研讨会,翻阅各种类型索引达几十部,对索引学和编制索引的办法有了初步理解,为开展工作打下了坚实基础。我们本着科学性、实用性和可操作性的原则,反复研究设计,先后修改6次,其中涉及的各个问题都是从模糊到清晰逐步解决的。我们深感地方文献索引在图书馆应用的意义及计算机软件用于索引开发的价值。

[作者简介]

王微 女,佳木斯市图书馆馆员,发表论文多篇。

〔出处〕 图书馆建设(3)

篇2:西北地方文献报刊索引数据库及主题标引

1.1 建设具有民族特色的数据库在推进信息化建设中,保护和弘扬民族优秀的文化传统,已引起世界各国的普遍重视。西北地区地域辽阔,民族众多,在我国几千年的历史长河中积淀了丰富的历史、科技、文化知识,形成了各具特色的民族文献资源。因此,建设具有民族特色的数据库,是时代赋予我们的责任。

1.2 西北地方文献报刊索引主题标引的重要性西北地方文献是以西北为中心的记载物,反映西北这个特定区域在政治、经济、历史、文化教育、科技诸方面的信息,是地区发展的缩影,为人们提供了研究西北地区丰富而又难解的历史、现代及未来的有关资料。

地方文献的类型多种多样,报刊文献是其中的一种。它具有信息量大、传递周期短、内容相对客观、翔实等特点。但由于它的总量太大,有关的地方文献信息分散在不同时期、不同品种的报刊之中,仅靠浏览原始文献,迅速查检到有关资料,几乎是不可能的。地方文献报刊索引就是为解决这一问题而编制成的一种检索工具。在传统的手工检索时代,地方文献报刊索引表现为篇目索引或题录索引的形式,即将报刊中所载地方文献篇目按一定顺序编排起来,以利读者查找文章的所在位置。这种索引不反映文章的具体内容,只具有指向作用。它除了作为一种综合性的检索工具外,还可以在此基础上编制各种情报报导刊物,或围绕特定学科及专业进行定向报导和检索,以服务于地方的各种事业。

鉴于地方文献报刊索引的重要作用,甘肃省图书馆自50年代起开始编制西北五省地方文献报刊索引,至,这套索引的回溯检索范围,包括陕、甘、宁、青、新五省的1752余种报刊,为西北地方文献报刊索引数据库的建设奠定了资源基础。由于西北地方文献报刊索引只是一种手工编排的分类篇目索引,索引项目包括篇名、著者、出版日期、卷期、版次和部分内容提要,限于当时的传统手工加工形式,对于涉及多学科、多主题的条目,只能着重考虑分类的第一需要,而其它相关主题则不能逐一得到表现。

进入计算机时代以来,以数据形式来处理地方文献信息已成为图书馆地方文献工作的必然趋势。计算机所具有的自动识别与排序功能,使地方文献信息的编排变得更加方便、更加快捷。通过全文扫描技术完成的报刊全文数据库,使得报刊上的地方文献信息得到更加充分的揭示和利用。由于计算机具有一次性输入、多途径输出的功能,因而在对地方文献信息进行存储与检索时,增加了篇目、著作、出版、文摘等多方面的途径,尤其是从主题途径检索地方文献信息的问题得到了很好地解决。

在西北地方文献报刊索引数据库中,分类标引与主题标引都是以揭示文献内在特征为目的的标引方法,只是揭示的角度有所不同。由于地方文献的史料特征极为明显,故地方文献的读者往往是从特定的事件、人物、时间、地域的角度入手进行检索。因而可以说主题检索是一种最直接反映地方文献内容特征的检索途径,也是建立检索工具和检索系统的基础和前提。由于地方文献中连续出版物本身所具有的特征,其主题标引的原则和方法与其它类型文献的标引有所不同。本文拟从西北地方文献报刊索引数据库的建设入手,探讨有关地方文献报刊信息主题标引的问题。

篇3:西北地方文献报刊索引数据库及主题标引

2.1 词表的编制

报刊数据库与其它类型数据库相比,最突出的特点是要反映西北地方文献本身所具有的特征,同时还要满足适合地方文献用户特殊的检索需求。加之在主题标引方面,比馆藏书目数据库的标引深度要高,难度也大。因此,选择一部适合西北地方文献特征的主题词表是开展标引工作的首要问题。

由于地方文献的内容表现的.地域性和专指性极强,用综合性的《汉语主题词表》来标引西北地方文献,则很难满足其主题标引的特殊需求,报刊索引的标引用词与时代发展同步,《汉语主题词表》作为阶段性产品,也很难满足对新事物的标引需求,所以西北地方文献主题词表需要在《汉语主题词表》的基础上自行编制。

由于编制先组式的主题词表需要一段相当长的时间,同时还要编制一系列的标引细则,这将会影响报刊索引数据库主题标引工作的迅速展开。因此,可以采取后控式编制词表的方式,即首先应确定一段时间为实验期,先进行地方文献的标引工作,由标引人员直接从报刊所载的地方文献信息内容中,选取有检索意义的关键词作为主题词,这种主题词是未经过规范的自然语言,也无词间关系可言,待积累了一定数量之后,再对其进行修改、充实,并参照《汉语主题词表》使之规范化,确定好词间关系和基本范畴,从而形成适用的词表。采用这种方式编制词表,比较适合于特殊类型文献主题词表的编制,并且选词更直观、专指性强,还能使标引工作与编制、修改词表同时进行,标引时不用考虑词间关系及查表抽词,所以对标引人员的要求也相对较低。目前,广东省中山图书馆的地方文献数据库系统主题标引就采用了这种方法。

地方文献主题词表中所收录的主题词来源主要有:

(1)《汉语主题词表》中已有的词汇。这是地方文献与非地方文献都使用的综合性词汇,它占将来的西北地方文献主题词表所收录词汇的绝大部分,由于是从《汉语主题词表》中选词,所以它们是相对规范的。

(2)《汉语主题词表》中没有的、带有地方文献特征的词汇、这部分词汇在未来的西北地方文献主题词表中所占比例不会很大,但它们在西北地方文献标引中出现频率相对较高,对于这部分词汇必须经过一段时间的数量积累,再加以规范。

(3)《汉语主题词表》作为阶段性产品,它的编制受时间的限制,对于编表以后新产生的一些词汇它不可能收录。在编制西北地方文献主题词表时要收录这部分词汇,并加以规范。

2.2 主题词字段的设置

无论是先有词表,还是先进行标引工作,在报刊数据库中,都需要设置若干个主题词字段,以便展开具体的标引工作。在设置主题词字段时,一定要反映地方文献的时空特征。地方文献的基本性质是地方史料,即所有的历史事件都离不开时间、地点和人物这几个因素,为了强调这几个因素,也为了使不同标引人员在不同时期内具有相同的工作标准,因此设计了“非控主题词”、“年代主题词”、“地域主题词”、“个人主题词”和“团体主题词”字段。

2.2.1 非控主题词

为了充分揭示文献内容和满足用户的使用需求,西北地方文献报刊索引数据库的主题标引,应根据主题法的一般原则,对所有的款目进行主题标引。此字段选词灵活性大,标引内容十分广泛,可控性弱,故称“非控主题词”。非控主题词对所有地方文献信息的内容范畴进行涵盖,也是以后编制地方文献主题词表时确定词表基本范畴的依据。

非控主题的标引方法与其它非地方文献资料的标引并无本质的不同。在标引非控主题词的过程中,标引人员除从文献题名中选取词汇外,还有必要从文章内容中选取标引词,所选的标引词是一些名词及词组。由于所选的词汇不是从固有的词表中抽出来的,标引词汇的逻辑概念和词间关系都不用事先确定,故称自由词。

尽管非控主题标引时选用的是自由词,但也有一些问题需要明确,在某些词汇不能准确表达文献的内容时,可选用词组来做主题词增强其专指性,能明显反应地方文献特征的词首选,同时,一些无实际检索意义的词不选。

2.2.2 可控主题词

由于“年代主题词”、“地域主题词”、“个人主题词”、“团体主题词”这四个字段相对规范,所以称为“可控主题词”。

地域主题所标引的不是整体地方文献的地域,而是文章内容涉及的某一具体区域的名称,或者给文章内容带来影响的区域名称。在标引中,如遇到旧有的行政区划名称或旧地名时,为反映某一地区名称的历史发展沿革,应将现行行政区划名称与旧有行政名称同时标引作为检索点,现有行政区划名称或新地名标在前面,旧行政区划名称或地名注于其后,可用括号括起。

年代主题标引的是文献内容所涉及的时间范围,而不是文献撰写或出版发行的时间。清以前的历朝历代均可使用“朝代/年号”的方法标引,中华民国时期(19前)可标引成“民国时期”,到了19以后可标引成“二十年代”、“八十年代”等。

个人主题和团体主题标引的是文章内容所涉及到某一具体机构、个人,或与某地方有关系的机构和个人。团体主题标引时,用机构和单位的标准全称。而个人主题的标引,是标具体人名,如果同一人物有本名与笔名时,要同时标引,清代人物或少数民族人物的名称较长时,一般应标引人物的全名。

总之,无论是非控主题词还是可控主题词,报刊标引人员都要站在用户的角度,即从索引的终极使用目的出发,给地方文献实际使用者提供报刊中有价值的地方文献信息。因此,在对报刊数据库进行主题标引过程中一定要确定好标引深度。西北地方文献报刊索引的标引深度,则取决于地方文献各类用户的检索需求,这些用户所从事研究的学科内容及其深入程度,就是文献标引人员确定标引文献内容及深度的依据。

〔出处〕 图书馆学研究 (7)

篇4:一种基于人机结合思想的书本式地方文献索引编制方法

一种基于人机结合思想的书本式地方文献索引编制方法

地方文献以其地名、人名、机构名等专有名词术语众多而一直是索引编制的难点。对于文字数量数百万乃至上千万的地方文献而言,若要达到满足读者检索要求的标引深度,则索引制作的工作量就会急剧增加。如果纯用手工制作,不仅在信息的处理过程中容易产生差错,且费时费力。为了解决这一矛盾,降低索引编制成本,需要引入计算机信息处理技术。以下我们以在《杭州市志・索引》编制过程中开发的计算机辅助索引软件(CAIC1.0Beta)为例,就详细说明这一基于人机结合思想的地方文献索引编制方法。

1 现 状

目前,运用计算机信息处理技术来进行汉语文献索引编制的方法一般分为两大类:一种为基本以自动标引、索引为主的方法,其中汉语自动标引法常见的有词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等;在汉语索引法上则多采用题名关键词抽词索引法、主题词表选词索引法、职能符号标引索引法等。这些方法都在一定程度上解决了汉语文献标引和索引的问题,但由于汉语语言现象的复杂性,此工作基本都在文献题名这一层次上展开,至于针对文献全文的智能标引和索引尚处于探索阶段。而且,这些方法需要具备相当专业的计算机、语言学、文献学知识,并且相关的专用软件获取成本极高。另一个常用方法是人机结合、以人为主的方法,主要为采用诸如Foxpro MicrosoftAccess据库软件来编制。这种方法具有技术要求低、使用方便的特性。但这仅是一个以人工为主、辅以计算机技术的方案,并且参照系统即关键词之间的相互关系(见、参见)不能直接在上述数据库软件中得到表达和转移,因此索引库的生成无法直接应用参照系统,编制者将不得不依靠手工来进行,这是一个非常繁琐而且极易导致差错的工作。

2 解决方案的系统设计

方志作为地方文献的一个重要门类,其数量庞大,包含了一个区域的自然、政治、经济、文化、社会、军事等信息,有地方百科全书之称,具有极高的使用价值。为此,我们在实践中以《杭州市志・索引》作为地方文献的样本,对此进行索引的编制。其编制目标是一部分析内容的书本式关键词索引,其标引范围为全志中的正文、附录、图、表格、照片,标引对象为人物、机构、地名以及其他一切具有检索价值的各类事物、事件和活动。

对于一个优秀的索引而言,确定适合的标引、索引方案和参照系统是至关重要的,也是本索引编制解决方案首先要解决的问题。因此,在系统设计过程中,我们考虑了地方文献的特点和客观实际,分析上述方法的`利弊,制订了以下的编制思路。

2.1 标引方案 以实现的手段划分,可分为人工标引和自动标引。自动标引又可分为自动 抽词标引和赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献的主题内容。如果在自动标引过程中,使用的标引词来自于预先编制好的词表,则称之为自动赋词标引。对于计算机而言,针对汉语的自动抽词主要困难在于自动分词以及选取标引词的标准,而自动抽词标引的标准很大程度上是建立在词频统计的基础上的。就方志这一类地方文献而言,如果一些人名、地名在文献中只出现数次乃至一次的话,就很有可能不被标引,这会导致大量有价值的信息不能被检索到。而如果放低词频标准,则相关的标引词数量会急剧增多,书本式索引的篇幅会相当庞大。而自动赋词标引又依赖于词表,由于方志的地域性,这样一个包含有大量地方独特的人名、机构名和地方特色事物的词表一般都没有建立,因此无从根据词表来进行自动标引。

由于地方文献的编纂者或研究者对于文献内容比较熟悉,可以准确地分析主题内容,并抽取相应的关键词予以标引。因此,采用由他们来进行人工标引的方法,应该是方便和切合实际操作情况的策略。

2.2 索引方案 索引款目的自动生成目前已经有很多实际应用的方案,如链式索引法(ChainIndexing)、选择组合排列索引法SLIC)、挂接主题索引法(ASI)、保留上下文索引法(PRECIS)等,这些基于计算机的索引法无一例外地运用了轮排或循环技术,对于计算机来说只要设定好索引法的原则后,工作是相当简单的。但是这种方法会导致索引款目急剧增多的后果,因此这种对于专业性文献检索工具而言是十分适合的方法,运用到地方文献上时,特别是如方志一类篇量较大的文献上时,就要承担索引篇幅大幅增加印刷成本提高所带来的危险。基于这个因素,我们认为在方志索引上应该采取对于绝大部分的索引词不进行轮排,只对极个别的主标目和副标目进行轮排的索引方案,以最小的代价来实现相对高的查全率。

2.3 参照系统生成 是否设置参照系统是衡量索引系统质量的重要指标之一。而为了提高查全率,也需要我们设置参照系统。参照系统由主标目词和见参照(seereference)、参见参照(seeaisoreference)组成,从而保证了索引的整体性和系统性。因此,我们认为在没有现成词表的前提下,运用计算机技术结合人工干预来生成参照系统应该是软件追求的目标。

2.4 编程语言的选择 由于直接运用Foxpro数据库技术在款目地址码归并和参照系统生成上的困难,因此采用通用编程语言是理想的选择。Delphi为一种面向对象的可视应用程序开发工具,与其他语言相比,它提供了一种快速的编译器,优化编译模式在很大程度上提高了代码质量和运行稳定性,所以这种语言一直受到专业人士的青睐。同时,Delphi特别对于数据库的体系结构提供了强大的支撑,Delphi还允许开发者将应用程序作为单一的.exe文件提供给终端用户,这样就减少了可执行文件在运行时对于其他文件或DLL(动态链接文件)的依赖。因此我们以Delphi为系统前台,以MicrosoftAccess为后台数据库存储原始信息,来编制索引计算机辅助编制系统。

3 本方案的技术实现

3.1 数据结构 本软件数据库包含三个主要的数据表:a 主表(标引词库)。该表用来储存从方志文献中抽取的关键词和诸如卷号、页码、体裁、参照关系等属性,以及一些用于操作管理的信息。其中的记录需要索引编制者人工输入。为了方便数据的录入工作,一般可按照文献的页码顺序依次输入。b 关键词表。该表依据主表表达的各标引词之间的参照关系,由程序自动生成。此表是软件下一步进行索引合成的依据。c 索引正文数据表。该表用来储存关键词及其地址码(卷号、页码),可用来最后输出索引正文格式的文本文件。

3.2 程序功能(主控界面见图1)

本软件具备信息采集;信息处理;信息输出三大功能。

3.2.1 信息采集功能。主要是由索引编制者将标引词(关键词)及其属性输入主表。标引词属性包括关键词所在卷号、页码、关键词代表内容的体裁(文、图、照片、表格)以及参照系统。

3.2.2 信息处理功能。包括人工干预(预处理)功能、关键词表生成功能、索引正文生成功能。

人工干预功能。由于标引者对索引编制规范和对志书原文的理解可能不一致,不同作者在处理相同事物所用的术语亦有不同,以及数据录入过程中都会导致相同内涵的关键词往往以不同的形式出现。具体表现形式有:a.一见多―――如A见B,A见C,A见D,……;b.连续见―――如A见B,B见C,C见D,……;c.循环见―――如A见B,B见C,C见A(A、B、C均指不同的关键词,下同);d.同页重复。

如果产生如上a、b、c三种情况,对于形式a而言,将在索引输出中丢失信息A见C和A见D(假设B的音序先于C、D,下同);对于情况b而言,将在索引输出中丢失信息A见B和B见C;对于情况c而言,将出现关键词A、B、C及其地址码等信息的丢失;对于情况d而言,则会在索引中出现某一关键词后跟有完全相同的地址码。

上述情况出现的数量并不少,这就可能导致生成信息的大量缺失而导致索引资料的不完整。由于人工检查极为烦琐且不完全甚至可能会引入新的错误,为此本软件特设预处理功能(见图2),将上述的“循环见处理”、“连续见处理”、“一见多处理”、“同页重复处理”,通过人工干预子功能,能够自动查找在索引主数据库中由于在标引、数据录入过程中产生的差错,生成错误提示(写入.TXT文件,格式见信息输出功能部分),以便编制者根据提示信息检查主数据库,对错误进行修改。同时本软件还可在一定程度上对上述错误在人工确认正确的关系后自动予以修复,保证了在后续处理过程中信息的正确。

此外,由于方志具有地域性,因此记述到的机构往往都为本地机构。这样就会存在大量具有同一地名或行政区划名开始的机构名。例如,《杭州市志》中就存在大量的以“浙江省”、“杭州市”等为首的机构名,如果一律以机构名首字音序排列的话,即,如将“浙江省人民政府”和“杭州市人民政府”分别排列在“浙”字和“杭”字中,如此就会出现大量以“浙江省”、“杭州市”开头的机构聚集在一起的情况,从而极大地增加检索难度,同时还会造成相关信息的离散。为此,在预处理时设置了前置词处理功能,程序自动将这些词作为前置词,进行倒置处理,关键词则按截去前置词后剩余部分为音序排列。在输出时,则自动将后置的前置词还原至头部(详见输出功能部分)。

关键词表生成功能。程序自动从主表(标引词库)中根据标引者设置的参照系统生成关键词表。此关键词表是索引正文生成阶段的依据,它与主数据库、索引正文保持相对独立性,以后索引编制者只要对关键词表中的关键词及其相互关系(参照系统)进行维护,即可获得正确结果,而无需对主表数据进行大量的修改工作,大大减少了工作量。

索引正文生成功能。软件自动根据关键词表中的关键词及其相互关系,对主表中的数据进行处理,按照索引要求,将相同关键词的卷号、页码、体裁代码按照卷数、页码先后排列,并根据关键词表中的参照系统,作出相应处理,将“所见”关键词的页码自动归并到“被见”关键词后,并作出“参见”说明。

3.2.3 信息输出功能。该功能可分两种情况:一种是以数据库的形式输出阶段性的查询操作结果,一种是文本文件形式输出结果。第一种情况的查询功能包括主表查询、关键词表查询,它支持精确和模糊查询。第二种情况的信息输出可分为三种输出格式,分别对应于索引编制的不同阶段。其中格式1是在对主表输入标引词及其属性等原始信息后输出的格式,它主要是用来和标引原始记录进行校对。格式1以页码为顺序排列关键词,其格式如下:

格式1:页码1―――关键词1(Keyword 1)[说明语(Description)][见关键词2][参见关键词3]……

格式2为利用本文中设计的人工干预算法所生成的计算机提示信息。格式如下:

情况“一见多(连续见、循环见)”―――请查看:

关键词n(Keyword n)―[地址码m(addressm)]m,n=1,2,……这里,地址码包含卷数和页码,均为出现错误的卷数、页码数。

这里,地址码包含卷数和页码,均为出现错误的卷数、页码数。

格式3 为索引正文输出格式,又分为A、B、C三种子格式:格式3A:关键词(Keyword)[说明语(Description)]地址码n(address n);

格式3B:关键词(Keyword)[说明语(Description)]见(See)关键词;

格式3C:关键词(Keyword)[说明语(Description)]地址码n(addressn)

[参见(Seealso)关键词];n=1,2,……这三种格式分别对应索引正文中的三种情况,见图3。

格式3为索引正文形式(见图4),款目标题按关键词的拼音顺序排列,将数据处理部分中索引正文生成的结果输出到文本文件,以便索引编制者在Microsoftword或方正等专业排版系统中再进行版式处理。

此外,CAIC1.0Beta在程序中间处理过程中将被倒置处理的前置词还原至关键词前面,并在这些前置词前后分别添加“(”、“)”。同时还可在页码和标目词之间添加一定的分隔符,以方便排版工作的进行。

4 实际应用效果

为了保证CAIC1.0Beta有良好的运行效果,建议电脑硬件配置为CPU586以上,内存32兆;软件环境为Windows95/98/2000,并有MicrosoftAccess数据库。以《杭州市志》索引为例,《杭州市志》正文共11卷780万字,经过标引处理共提取了105077条(次)关键词,经处理生成关键词表,共有关键词55692条。实际操作中,我们使用方正商祺6100电脑(CPU为PⅢ733,内存64M)进行处理,除去标引、校对阶段工作时间与投入的人力相关外,其中数据处理阶段,关键词表生成约15分钟,索引正文生成约60分钟,索引正文输出约15秒。如果改进算法,还可以进一步提高速度。

本软件系统具有索引生成准确、速度快、少用人工、使用简单、人机界面良好、运行稳定可靠等特点。其中数据处理阶段的效率比手工操作提高了数百倍,因此与整个索引制作所用时间相比,程序处理的时间几乎可以忽略不计。

5 结论及展望

通过此次《杭州市志》索引的计算机辅助编制实践证明,采用本文介绍的方法可以比较圆满地解决本文开始提出的问题,即由于地方文献的独特性及标引深度提高而导致的关键词急剧增多和人工编制速度慢、准确率低的矛盾,因此该方案具有一定的实用和推广价值。同时,由于方志索引内容的相似性,本次索引编制中生成的关键词表还为今后构造方志关键词表打下了良好的基础。

展望地方文献索引,特别是方志索引今后的发展趋势,可以预见,如果我们运用关键词索引法、链式索引法、选择组合排列索引法等现代索引法,引入包括语用学、语义学、语法学等语言学研究成果和计算机人工智能、专家系统等技术,研究适合地方文献特点的自动索引策略,就可逐步达到对于地方文献正文的内容自动分析,实现计算机自动抽词和标引,使地方文献索引的编制基本实现自动化,从而使地方文献索引的编制从现在的人机分量均等的结合模式逐步过渡到电脑占更多分量的阶段。

〔出处〕 情报杂志2003(2)

【编制地方文献索引数据库的体会】相关文章:

1.地方文献数据库建设的思考

2.建立地方文献计算机数据库为地方建设服务

3.北京地方文献报刊索引分类表研究与分析

4.地方文献工作计划

5.地方文献工作总结范文

6.积极开发馆藏地方文献

7.地方文献资源建设刍议

8.开发地方文献 服务西部大开发

9.开发利用地方文献工作经验浅谈

10.地方文献资源数字化思考

下载word文档
《编制地方文献索引数据库的体会.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度: 评级1星 评级2星 评级3星 评级4星 评级5星
点击下载文档

文档为doc格式

  • 返回顶部