古典命题演算的直觉主义语义分析
“三秒钟小葵”通过精心收集,向本站投稿了10篇古典命题演算的直觉主义语义分析,下面是小编为大家整理后的古典命题演算的直觉主义语义分析,仅供参考,大家一起来看看吧。
篇1:古典命题演算的直觉主义语义分析
古典命题演算的直觉主义语义分析
本文相对于直觉主义命题逻辑的克里普克关系语义给出古典命题演算的.内涵特征。节l把通常的直觉主义命题逻辑的克里普克关系语义推广为T―框架语义,为建立直觉主义命题演算的扩充系统的内涵特征提供一个一般性的构架。
作 者:熊明 作者单位:华南师范大学政法系,广东 广州 510631 刊 名:自然辩证法研究 PKU CSSCI英文刊名:STUDIES IN DIALECTICS OF NATURE 年,卷(期): 16(z1) 分类号:B81 关键词:篇2:基于语义识别分析论文
基于语义识别分析论文
[摘要]“我是回民,我不会吃你的”,这句话中蕴涵着深刻的隐喻意义。本文从隐喻意义的识别和推断,对隐喻理解过程中意义的模糊性和民族性进行分析。
[关键词]隐喻;语义推断;语义识别
一、隐喻的本质和发展
传统的观点认为隐喻是一种修辞格,是一种修饰话语的手段,是一种范畴错位。而认知语言学认为隐喻是“我们对抽象范畴进行概念化有力的认知工具”[1]。Lakoff和Johnson在合著《我们赖以生存的隐喻(TheMetaphorWeLiveby)》一书中指出:人类的思维分类并非映照自然的结果,在一定程度上是由想象的过程(诸如隐喻,形象思维)决定的。隐喻的实质是用一种事物理解和体验另一种事物。文化中最根本的价值观与表达文化中最根本概念的隐喻结构是相符的,因为文化的内在概念系统在本质上就是带有隐喻性质的。这种以经验主义的隐喻认知理论,把隐喻上升到人类的认知高度认识,以此来解释人类概念的形成、思维的过程、认知的发展、行为的依据。
在认知语言学中,隐喻不单纯是词或语言表达式的问题,而是一个概念问题,即用一个概念去思考另一个概念的问题,因此,隐喻在本质上是概念的,是有价值的认知工具。概念隐喻通常被解释为把一个源域的结构直接映射另一个目标域的隐喻。一个概念隐喻通常包含四个基本要素:始源域、目标域、经验基础和映射。源域中的某一概念在目标域映射的过程中,与从语言表达中想象的语义结合起来,并受隐喻概念的限制或影响成为有机的系统。因此,源域的隐喻映射实际上是从某个特定的基本层次范畴,或在该层次范畴之上或之下的范畴里挑选与目标域相匹配的属性。从认知的角度看,上述这种相匹配的属性是认知主体在不同事物之间建立的共同特征或关系。
二、隐喻语义推断
一般来说,隐喻的理解分两个阶段:一是隐喻的识别,二是对隐喻意义的推断。对隐喻的识别一方面可根据明确的隐喻信号,如一些信号词,另一方面可根据话语字面意义与语境冲突的性质。隐喻意义的推断主要根据喻体与本体的相似性。隐喻的理解不但受到语境信息数量的影响,而且还与语境信息的特征有密切的关系。根据会话理论,隐喻是违反会话原则的结果,需要按照下述程序来确定隐喻性会话的“会话含义”:确定话语的字面意义——对照语境评估字面意义的适切性和真实性——推断出符合语境和合作原则的非字面意义。因此,比喻性语言的`理解需要额外的认知力。由此可以推论:第一,字面意义的理解是首要的,可以在理解隐含意义的条件下得到。话语的字面意义是通过语义识别,而隐含意义则是通过语用知识来获得的。第二,发现字面意义有缺陷是隐喻理解的前提。第三,符合语境的比喻意义要经过额外的推理才能获得。在“我是回民,我不会吃你的”这句话中,就要求说话人和听话人具有共同的文化知识背景,进而通过对字面意义的推敲﹑加工,提炼出话语中暗含的语义信息。
此外,隐喻的理解过程实际上是将喻体的显著语义特征转移到本体上。但喻体本身具有多种意义特征,隐喻真正含义的确认不但取决于说话者的意图,同时还取决于听话者如何选择合适的喻体特征映射到本体上。由于隐喻的典型结构是“x是y”,而x和y是属于两个完全不同的范畴类别,因此隐喻的一个显著特征是将两种不应该等同的事物等同了起来,从而形成了语义上的不相容。所以在听到语义上异常的句子时,听话者往往并不放弃对其意义的理解,而是从其他角度来猜测其可能的意义,最通常的办法就是把它当作隐喻或其他的修辞手段来理解。如:(在汽车上)被挤者挖苦道:“猪年都过了,还一个劲地拱!”对方也不示弱:“敢情是狗年到了,汪汪叫。”这里,“拱”和“汪汪叫”分别是“猪”和“狗”的显著特征之一,说话者省略了本体,话语字面上好像与实际语境无关,但隐含的主语都是话语对方,因此构成了隐喻理解[2]。
由于话语理解中人们既可以采用自上而下的方法,也可以采用自下而上的方法,因此对话语的理解总可以在更大的语境中得到修正[3]。因此一个从经验和概念角度看来异常的话语意义,可能在语境范围扩大后获得与第一性意义相符的意义。而如果从第一性意义角度理解完全可以接受的句子在语境扩大后,反而可能需要作第二性意义的理解。譬如“我是回民,我不会吃你的”这句话在理解上就存在着很大的模糊性。但把它放在不同的语境中却有着截然不同的意义。若是在一般的情况下,当听到这句话时,明白其言外之意,就知道它是一句不带脏字的骂人的话语。然而现在猪在广大年轻人的心目中已经不再是龌龊,邋遢,肮脏的代名词了,而是可爱,傻乎乎的象征了。同学,好友之间,情侣之间的昵称,精品店里货架上的毛绒猪玩具,还有以猪为主题的歌曲,一时之间似乎给猪彻底正了名声。因此,从深层来理解,这句话只不过是用来博取大家开心一笑的玩笑话而已。在不同的语境中,由于每个人的生活阅历和认识水平不同,对事物概念的内涵和外延的理解是完全有可能不同的,因而对隐喻中抽象事物概念也可能会有不同理解。
另外,由于一个词不仅有它的本意还有别的意思,因此,如何识别说话人在具体语境所要表达的意思是值得进一步探讨的问题。塞尔提出,一旦确认应该从隐喻角度来理解某一句子,听话者有一套求解R值的可能值的原则,其中之一可以表述为:当你听到sisp时,要知道p的可能值,可以寻找s与p可能相似的方面;要确定s与p可能相似的方面,可以寻找p类事物明显的﹑众所周知的﹑不同于其他事物的特征,依此来筛选在语句中实际使用的词语的意思。在这种情况下,听话者可以调动和利用所有的经验知识,如在听到“我是回民,我不会吃你”时,听话者可能会立刻联想到回民不吃猪肉,肥胖﹑贪食﹑肮脏是猪的显著特征。这些联想就提供了R(relative)的可能值。
三、隐喻语义识别
卫柯、卢梭、尼采等人都说过:“整个语言都是隐喻性的(Alllanguageismetaphorical)。”在现实生活中,人们使用的语言具有模糊性的特点,由此类推,隐喻也应该是模糊性的。隐喻中的“相似”和“类似”也是模糊的概念。如某些民族认为是相似或类似的东西,在其他民族则不然,不同的民族色彩决定了隐喻表述的不同性。譬如在中国“龙”被认为是吉祥的图腾,是中华民族精神的象征,而在西方却把“龙”看做是邪恶力量的化身。可见,文化的差异会导致隐喻理解的差异。另外,在中国传统文化中“大红花是幸福﹑快乐”的象征,由此,在汉语中,还有“喜悦是心中的花”这样的隐喻。而在英语中却没有这种文化象征,因为在英语中红色被认为是“流血”和“死亡”的象征,因此英语中也就没有这样的隐喻表达。由以上讨论可见,民族文化特征对隐喻的产生、取向、发展及理解产生的影响是多面和多样的。不同民族由于生活环境、心理因素、宗教信仰、认知方式、思维定式和文化背景的不同,人们总是按照自己的思维定式和价值尺度去赋予概念隐喻以自己民族的文化内涵,由此产生的隐喻表达也就存在差异。可见,在人类交流活动中,对隐喻意义的模糊理解是由不同民族的不同文化背景知识来进行补全的,而只有在理解不同文化的背景前提下,才能对隐喻的模糊意义有所理解。这就是说,在理解模糊隐喻时应拨开表面字义,深入发掘一些文化潜在信息。
四、结束语
“我是回民,我不会吃你的”看似简单的一句话,却暗藏着弦外之义,在识别这一隐喻时,要考虑到以下特征:
(1)句子的表面意义;
(2)句子的深层意义。而要理解深层意义,不仅应该考虑民族之间的共性,也应该考虑不同民族的文化背景,把握其差异性,这样才能正确地识别和理解隐喻。
[参考文献]
[1]Ungerer,Friedrich,HansJorgSchmid.AnIntroductiontoCognitiveLinguistics.London[M].
Longman.:114
[2]束定芳.隐喻学研究[M].上海:上海外语教育出版社,2000:197
[3]Kittay,EF.Metaphor,itscognitiveforceandlinguisticstructure[M].Oxford:ClarendonPress1987:158
篇3:现代汉语语义场分析初探
现代汉语语义场分析初探
语言是音义结合的符号系统,在语言科学研究中,语义理应享有与语音同等重要的地位。但是,由于种种原因,只是在最近三十多年,特别是七十年代以来,语义研究才真正开始得到重视。由于语义研究涉及的内容
很广,本文不打算也不可能全面展开论述,我们只想就语义研究中比较突出的语义场分析问题,在现代汉语体
系中进行尝试性的探讨。
一 语义场的性质
语义场是由语义系统中的一组有关联的义位组成的、具有一定共同语义特征的聚合体。
现代语言学认为,语义现象尽管极为复杂,但它仍是成系统的,是一个与语音和语法相并列的同属于语言
系统的子系统。同其它系统一样,语义系统也是由若干成分之间相对稳定的联系性所构成的具有一定功能的整
体。
语义既是一个系统,包含着整体性原则和关联性原则,那么,它无疑是可以进行结构分析的。结构是系统
内成分间内在有机联系形式,或者说是构成系统的各个部分及层次间依照一定的共同性所形成的相互联系和作
用的总和以及其表现形式。在语义系统中,语义的众多成分之间既相互独立,又相互依存,既相互隶属,又相
互制约,从而成为一个有序的聚合体。这个聚合体具有层次化和网络化等特点,因而能从结构成分、结构关系
等方面进行考察。
要分析语义系统的结构关系,必须先确定结构成分。我们把组成语义系统的基本结构成分称为“义位”。
义位是语义系统中能独立存在的基本语义单位(相当于“义项”的概念)[(1)],它是以词义中的指称意
义为基础,辅之以附加意义而形成的。也就是说,考察一个词义是否为义位,关键在于看它的指称意义能不能
独立,能不能与其它指称意义相区别,如果能,则应算为义位;如果两个指称意义没有多大区别,那就应再分
析其附加意义有无不同,如不同之处特别明显,也应分别算为义位。比如,把“枯萎”“逝世”“归天”这三
个语义单位互相比较,可以看出,虽然它们均是指生物的发展过程,但前者和后两者的指称意义有明显不同,
前者是指草木干枯、萎缩,而后二者则是指人的死亡。后二者的指称意义虽然基本一致,但附加意义有差别,
分别带有庄重色彩和迷信色彩。因而,它们是三个不同的义位。
在语义系统中,各种各样的义位在总的方面均有共同点,服从共同语义原则的支配,各作为聚合体的有机
组成部分而存在。一个义位不仅自身独立,更为重要的是,它还通过多种关系与其他义位相关联,从而取得彼
此存在的价值。一般说来,这诸多联系不外是“同中之异”和“异中之同”的两种性质的联系,不外是纵的方
面逐级隶属,横的方面相互对立的两种形式的联系。义位之间在语义系统中正是从共时方面由这些联系形成了
大大小小、各种性质的组系化、层次化的聚合,即从结构的平面上构成了语义场。例如,具有共同语义特征“
说”的义位就有“说、扯、称、道、讲、唠、聊、嘀咕、唠叨”等等,这些义位聚合成组,构成一个语义场,
就是组系化,而义位“说”在这一组系中占据的地位,比其他义位高一个层级,就是层次化。
通过语义场的分析,有助于全面地观察义位,找出它们的共性和个性。意思不同的义位,必然处于不同的
语义场,如“走”和“落”即是。意思相近或相类的义位,则处于同一语义场中,如“轻捷”“麻利”“快速
”等即是。义位处于同一个语义场,是由它们之间的共性决定的,而个性又使它们相互区别开来。所以,在进
行语义结构分析时,不能脱离语义系统对任何一个义位作孤立的研究,而应该首先明确义位在语义场的结构中
所处的位置,并以此为出发点作进一步的比较分析。从这个意义上说,语义场是语义结构分析的基础。
二 语义场的结构模式
如前所述,语义场是由互相联系的义位组成的。义位之间相互联系的方式和状态,就是语义场的结构模式
。
迄今为止,对于义位之间的联系主要有两种不同的观点:一是词义制约的观点,一是词义联想的观点。就
语义场本身的性质来分析,我们认为,它主要是由义位间的共性联系联结起来的,这是语义场形成的前提,而
义位各自所具有的个性,则是语义场得以存在的基础。根据这一看法,从组成义位的义素的角度,我们把语义
场的结构描述为由“义素节”和“义素链”所组成的树状结构。在这一结构中,义素节是语义范畴的标志,是
语义特征的集中表现。通过义素链的传递,某一义素节从另一高层次的义素节那里接受了语义信息,进行聚合
形成义位,又以此为基点,通过义素链从不同的角度向低层次发出信息,继续形成其他义位。值得提出的是,
义位是义素节的'表现形态,但不是唯一的形态,因为有很少一部分义素节是没有或未用合适的义位来标示的,
它们在结构中只起承上启下的作用,这种未能显现出来的义素节我们称之为“零位”。[(2)]所以,语义
场所包含的语义结构单位是义位和零位,起联系作用的是义素链。
以“.”代表义位,“。”代表零位,语义场的结构模式可描述为:
(附图 [图])
以“交通工具”和“人的年龄”语义场为例,它们的结构可粗略地表现为:
(附图 [图])
由于“年龄”和“未成年”都不属于“人”的基本类别范畴,而只是一种语义特征,故为零位。
三 语义场的语义结构特性
语义结构是义位之间相互联系的中介,义位则按照一定的语义结构进行排列和聚合。分析语义场,不仅需
要描述其结构模式,并且要揭示其语义结构的一些重要特性。
(1)客观性和约定俗成性。
语义是对事物和现象的概括认识,没有客观外界对人脑意识的折射,就没有语义。在使用语义确定词语的
指称时,人们必须考虑事物和现象自身的
本质、相互的联系,并把它们纳入到语义系统中去,这样,语义结构
也就必然带有了客观性的性质。例如,如果现实生活中没有汽车、卡车、轿车和赛车等,语言中也就没有称谓
它们的词语的意义之间的相互内在联系;同样,没有上的存在,也就没有中和下的出现,没有远,也就无所谓
近,即绝对不会形成反映这些事物的语义结构。
当然,语义的作用不仅仅是确定语词,给客观事物和现象称名,而且也反映了人们对这些现象以及它们之
间关系的共同认识。这种认识必须符合社会习俗,为全社会成员所一致承认,即具有约定俗成性。例如对“儿
子”的语义认识,就不能解释成“外甥”,对“走”的语义认识就不能解释成“飞”,否则就会造成语义场语
义结构的混乱。语义结构的约定俗成性还表现在不同民族对同一事物联系的不同认识上。如汉语的“中表亲属
”和“堂房亲属”包括八个义位,而英语只用了“Cousin”一个义位。汉语的亲属词数以百计,能标义位的就
有50多个,而英语的亲属词只有13个,加上几个修饰词,就可以指称所有的亲属关系。一般说来,这些区
别并不是语义结构关系有多大的差异,而是在于语义认识概括范围的大小,即语义场大小的问题,根源在于不
同社会对语义的不同安排。
(2)稳定性和有序性
义位间的内在联系通常是紧密的和牢固的,它使语义系统总是趋于保持某一状态,不轻易发生变化,这就
是语义结构的稳定性。这种稳定性是语义场稳定的前提。稳定性寓于语义结构之中,它的实现取决于语义场的
有序性,而有序性又是由义位间的协同作用所决定的。语义结构的有序性和稳定性是相互作用的:一方面,义
位的有序关联构成了语义场的语义结构,保障了语义场的稳定性,另一方面,义位的稳定相联维持了语义场的
语义结构,保证了语义场的有序性。
在很多情况下,义位可以更新,但语义结构是稳定的,可以基本保持不变。如古汉语中的义位“人”不同
于现代汉语中的义位“人”。《说文・人部》:“人,天地之性最贵者”,《礼记・礼运》:“人者,天地之
德,阴阳之交,鬼神之会,五行之香气也”。这是从经学的角度来说明人,对于人的本质特征则无涉及。现代
汉语义位“人”的意义内容是“能制造并使用工具进行劳动的高等动物”。显而易见,义位的语义内容已经发
生了变化,但与“人”有关的语义结构却无大变化。当然,这也不排除语义结构作必要的调整、改动。索绪尔
曾经说:“系统从来不是直接改变的,它本身不变,改变的只是某些要素,不管它们跟整体的连带关系怎样。
情况有点像绕太阳运行的行星改变了体积的重量,这一孤立的事实将引起普遍的后果,而且会改变整个太阳系
的平衡”,[(3)]这段话使我们认识到:一方面,义位具有可变性,另一方面语义结构的变化也具有可能
性。应该说明的是,语义结构的变化多是在整体稳定性中所起的局部变异。进一步说,语义场的稳定不是靠义
位的一成不变,而是靠结构间的牢固联系,语义结构是维持语义场的不变量。
(3)层次性和相对性。
层次性是由整体与部分对立的相对性决定的。在语义结构中,层次性占有十分重要的地位。根据系统论的
观点,系统是按严格的等级组织起来的,它可以逐级分解为低层次的层级系统、直至分到不能继续分解的组成
元素为止。显然、作为语义系统组成成分的义位在语义结构中的存在绝非单纯的量的增加,而是处于等级之中
的,即具有层级性。
在语义系统中,任何一个语义场都和附近的语义场一起构成一个较大的语义结构。因此,任何一个语义场
都是较高一级语义场的一个组成部分,同时,任何一个语义场本身,通常又是一个由许多成分所构成的语义结
构。语义场既作为部分又作为整体存在,这使语义结构具有相对性。例如,“父亲”和“母亲”作为义位,构
成了语义场A,这个语义场又与同一层次上的另一个语义场B“孩子”、“儿子”和“女儿”一起构成了一个
比它们层次高的较大语义场C,而这个较大语义场C,又与“爱人”、“丈夫”、“妻子”所组成的语义场D
一起,构成了更高层次上的更大的语义场E。其中,A和B既分别作为独立的语义场存在,又作为语义场C的
部分存在。对于A和B来说,C构成了包括它们在内的语义场,而对于E来说,C又是语义场E的组成部分之
一,语义系统就这样层层相递,互为对照。
由于层次性和相对性,语义系统形成了一个纵横交错的立体网络模式,它既可以按垂直方向进行描写,以
区分它们内部的等级,又可以按水平方向进行分析,以掌握同类组成部分之间的联系。垂直方向的语义场之间
,具有包含与被包含的关系;水平方向的语义场之间,则具有一定质的差异,虽然它们处在同一平行层次上,
隶属于同一大语义场,但毕竟是不同的语义子场,相互之间有一定质的不同。
语义场的大小与语义结构的层次性是密切相关的。越是上行,语义场就越大,义位所概括的范围也逐渐加
大;相反,越是下行,语义场就越小,义位所概括的范围也更为具体。
(4)开放性与动态性。
语义结构不是封闭的和静态的,它总是在不断地向外界进行着语义信息的交换,并适当地调整、增减义位
,在交换中求稳定,在变化中求有序。稳定是相对的,开放是绝对的。
由于开放的特点,语义作为实现词语的指称功能的桥梁,其结构必然要适应客观外界变化的需要,在一定
情况下发生一定的变异。比如,现在独生子女增多,就会使一些亲属关系逐渐消失,如舅舅、伯父等,反映到
亲属语义场来,语义结构的联系范围就会逐渐缩小,直到与客观外界相适应为止。
语义结构可以分为基本结构和非基本结构。基本结构反映的是那些与人的日常生活密切相关的事物现象之
间的语义联系,一般不易发生变化,亲属语义结构就属此类。而非基本结构则恰恰相反,它们一般不常用,或
者只是短时间常用,使用范围不甚广,所反映的多属于一些带有行业性、科技性、方言性的东西。基本结构显
示了稳定性,非基本结构显示了开放性。也可以说,语义结构的开放性和动态性,主要是指非基本语义结构而
言的。当然这不是说基本语义结构就一成不变的,只是相比之下,它的变化是极其
缓慢的罢了。
以上就语义结构四个方面的特性进行了分析,而这四个特性是互为联系,互为作用的。其中,后三个特性
都是以第一个特性为基础的。因为,语义场的语义结构只有在具有了客观性和约定俗成性的前提下,才能随之
出现其他特性。稳定性和有序性是其静态存在的形式和标志,开放性和动态性是其发展变化的表现,而层次性
和相对性则是对语义结构本质特征的概括反映。
四 语义场的举例分析
前面,我们分析了语义场的性质和结构特性,并拟定了一个结构模式。下面,我们以“亲属语义场”和“
下肢动作语义场”为例来进行语义场的分析。
分析语义场首先要确定语义场包含的义位。在排列义位时,我们是以下面几点作为取舍条件的。第一,考
察义位间的联系以其最主要的特征为依据。几个不同的义位也许在很多点上有共同之处,如果把它们纵横相连
,不仅混乱,也是不科学的。选择义位时应提纲挈领,脉胳清晰。第二,在众多同义义位中选取具有较强代表
性的义位。由于同义义位很多,有的差别十分细微,在分析时列出全部义位十分繁难,故只择其典型者列出,
余下的在必要时作出说明。第三,比较生僻的义位一般不列出。第四,多义性词语意义的义位按情况分入不同
的语义场。
(1)亲属语义场的分析。
亲属语义场是“人”这个语义场下的子场。因为“人”语义场还下分很多语义子场,亲属语义场只是从“
亲属”这个角度对“人”进行语义场的归类。比如“姐姐”“胖子”“石匠”和“英雄”等都是指人,属于“
人”语义场,但它们的具体范畴不一样,“姐姐”属于“亲属”范畴,“胖子”属于“体态”范畴,“石匠”
属于“职业”范畴,“英雄”属于“品性”范畴,这些不同的语义范畴使它们分属于不同的语义子场,并一起
组成了“人”语义场。
现代汉语的亲属词有几百个,但不是说亲属语义场就包含了几百个义位,因为有许多亲属词几乎是同义的
,进行语义场分析时,只能众里挑一。例如,与义位“父亲”同义的亲属词就有“爸爸”“翁”“爹”“老子
”“阿爸”“家父”等,与“岳父”同义的亲属词有“岳丈”“岳翁”“丈人”“外父”“泰山”“冰翁”等
,我们只选取典型义位“父亲”、“岳父”。另外,还有一些亲属词,或较少使用,或表示的亲属关系不密切
,也在分析时排除。这样经过多方筛选,最后剩下五十三个比较典型的亲属词,代表了五十三个典型义位。
把这五十三个义位纳入亲属语义场中进行分析,内部可分为两个较大的子场,这两个较大子场又各自分出
两个较小的子场,从总体上看,即:
(附图 [图])
亲属语义场的特点是界限清楚,没有中间状况。另外一个特征是,很多义位都呈二元对立状态,即两个义
位互为对待,并且多为性别方面的,如“父亲”与“母亲”,“哥哥”与“姐姐”,“孙儿”与“孙女”等。
二元对立可以在同一个语义子场内形成,也可以跨场,即两个对立的义位可分别处在两个不同的语义场中,如
“哥哥”还可与“嫂子”相对,“伯父”与“伯母”相对等等,但这两个语义场必属于同一个较大的语义场。
(2)下肢动作语义场的分析。
下肢动作语义场是“动作”语义场的子场,是与头部动作语义场、上肢动作语义场和全身动作语义场相并
列的。通过归纳分析,此语义场下面包括十一个子场,它们是:走、跑、跳、坐、蹲、站、骑、跪、踢、踩、
踮,分别列出:
(附图 [图])
(附图 [图])
下肢动作语义场最多可分出四级来。同亲属语义场相比,其义位间的关系没有明显的对应性,而是从不同
方面指称同一现象,呈互助状态,而且有的义位之间,界限也不十分清楚、甚至交叉。如语义场“跑”所包含
的三个义位,“腾”是边跳边跑,“颠”是一摆一摆地跑,“奔”则是很快地跑,它们是从三个方面说明跑的
动作的。多义性的语词在这里是分属不同子场的。例如,“覆”有两个意义,一是“小心翼翼地走”;二是“
轻轻地踩”,故算为两个义位,各归入不同的子场,其他如“登、腾”等也是这样。
通过以上两个语义场的举例分析,我们可以看到,语义场的状况并不是整齐划一的,而是各具特色的,其
内部义位间的联系也不是完全一致的,因而,如何进一步全面分析、描述现代汉语语义场的状貌,确是一项高
难度的课题。本文虽然在借鉴语义学先进理论与具体分析汉语语义场方面,作了一点探索,但由于水平有限,
文中定有许多不足之处,祈盼专家学者指正。
注:
①义位和义项实指同一对象,但观察的角度不同。在语义学中我们称作义位,在传统词汇学中仍称义项。
②“零位”是语义场中的一种客观情况,限于篇幅,本文不作讨论。
③索绪尔《普通语言学教程》124页,商务印书馆。
篇4:语义与语篇分析
语义与语篇分析 --关于表示并列意义的「テモ文」
本文从语篇分析的角度出发,以文章段落中的接续助词「ても」为主要考察对象,进行了具体深入的探讨.由于以往的相关研究只限于句子层面,因而对本文考察的对象难以做出客观、确切的`解释.本文经过分析后指出,在表示并列意义的「テモ文」中存在“显现”和“隐现”两种现象,而后者尚未引起人们的重视.本文的观点对以往的结论做了完善和补充.
作 者:俞晓明 张建华 Yu Xiaoming Zhang Jianhua 作者单位:大连外国语学院日本语学院,辽宁大连,116002 刊 名:外语与外语教学 PKU CSSCI英文刊名:FOREIGN LANGUAGES AND THEIR TEACHING 年,卷(期): “”(3) 分类号:H0 关键词:「テモ文」 语义解释 语篇分析 并列条件 显现与隐现篇5:基于潜在语义分析的研究
基于潜在语义分析的文本研究
潜在语义分析采用自动的电脑方式来构建以高层次语义空间为形式的'知识表征,是一种基于文本研究的有效方法.文章从三个方面描述了潜在语义分析在文本中的使用:原文和概要、对文本进行分类以及测量文本的连贯程度.侧重点是第三个方面的使用.潜在语义分析能够在语篇理解的过程中衡量文本的连贯程度,并已经被证实是一种自动、快速、准确的计算方法.
作 者:王慧莉 隋丹妮 WANG Hui-li SUI Dan-ni 作者单位:大连理工大学,外国语学院,辽宁,大连,116024 刊 名:重庆大学学报(社会科学版) PKU CSSCI英文刊名:JOURNAL OF CHONGQING UNIVERSITY(SOCIAL SCIENCE EDITION) 年,卷(期):2005 11(5) 分类号:H313 关键词:潜在语义分析 文本 命题化 连贯篇6:基于语义分析的自动文摘研究
基于语义分析的文本自动文摘研究
基于文本语义分析的自动文摘研究对于提高自动文摘的.质量具有重要意义.利用语义信息进行文本机器处理的重要步骤就是建立详尽的语义词典,而建立语义词典首先必须使用逻辑语言对文本的语义信息加以形式化表示.借用逻辑人工语言的概念层次结构,可以对词典中的概念进行分类,并将概念分解为义子.通过计算文本中句子之间的语义相关度,就可以自动生成组成文本文摘的句子.
作 者:姚爱钢 易绵竹 作者单位:解放军外国语学院 刊 名:中国俄语教学 PKU CSSCI英文刊名:CHINESE RUSSIAN TEACHING 年,卷(期): 24(3) 分类号:H35 关键词:自动文摘 语义词典 语义空间篇7:潜伏语义分析的理论及其应用
潜伏语义分析的理论及其应用
1.柏拉图问题谈起从古希腊哲人柏拉图(Plato)开始,人们就为一个关于认知的神秘问题所困惑:人们为什么能够在他们所得到的稀少信息基础上获得那么多的知识?这个问题有时被称为柏拉图问题(注:在柏拉图对话录里,有几处接触到知识来源问题。他在Meno里指出,灵魂是不灭的,已经学习了所有的事物,所以真正的学习无非是回忆内在的、忘记了的事物;在Phaedo里,他又把内在论和形式理论联系起来,例如“平等”的形式不可能来自实际的观察,而是与生俱来的;在Cratylus里则认为,词语是天生(physis),不是约定俗成(nomos)的。),有时被称为“刺激的贫乏”、“缺乏负面证据”或语言习得的逻辑问题。这个问题引起了哲学家、心理学家、语言学家、计算机科学家的广泛兴趣,各自提出不同的解释。Chomsky派(注:Chomsky(1965,1986,)在不同场合都以儿童词汇习得为例反复说明这个问题,因为“负面的证据”已成为他的语言共项论的主要支柱:Pinker(1994)从进化、历史、解剖、生理和儿童发育的不同角度观察了语言的起源,认为语言习得一定是建筑在一个强有力的和特殊的内在机制,并称之为“语言天性”。)秉承了柏拉图和笛卡儿的观点提出了“天赋论”或“内在论”,对这个问题作出了一种回答。但是心理语言学家MacWhinney(注:Brian Mac Whinney最近在广东外语外贸大学召开的心理语言学与外语教学讨论会上谈到,在他所提出的竞争模型里没有负面的证据,只有正面的证据。)、自然语言处理家Sampson(注:Geoffrer Sampson写了一本关于语言天性争论的专著Educating Eve,认为负面证据之说是自我矛盾的。在Empirical Linguistics()里,更进一步指出,负面证据是内省法臆想出来的。我们没有负面证据也能归纳出万有引力定律,为什么要编一本故意把of of the of(负面证据)排除在外的语法?)却对此提出质疑。哲学家Quine对这个问题做出另一种回答,他举了一个所谓“Gavagai”的有趣的例子:一个到外国访问的人看到一只兔子,偶然听到他的资料提供人说gavagai。在这种证据贫乏的情况下,gavagai可以指“兔子”(一个完整的事物),“有皮毛的”(事物的未分离部分),或“天气不错,是吗?”(事物发生的时间段),他认为纯粹以经验为基础的客观真理和意义根本不存在,这简直是“归纳法的耻辱”(scandal of induction)。对田野作业的语言学家来说,分析和综合的区别并不存在。进化心理学家Shepard(1987)却认为柏拉图问题是心理学的核心问题,关于概括和相似性的普遍理论对心理学就等于牛顿定律对物理学那样重要。
尽管大多数人都承认语言能力的遗传性,但是这种生物机制的存在并没有解决Shepard所提出的概括(在母语习得里,更成为“过度概括”)和相似性的问题。这个归纳性难题经常被看成是范畴化的问题,那就是说我们必须找出的这样一个机制,足以把一系列刺激、语词或概念(例如猎豹和老虎)看成是一类的(相似的)事物。但是相似性以什么为基础却众说纷纭,有特征论、原型论,范式论、心理本质论、心理语境论,等等,不一而足(桂诗春2000)。这些理论模型都旨在提出一些制约,以缩小归纳(也就是说学习)所要解决的问题空间。就儿童词汇习得而言,一些心理语言学家假设存在一些对词语赋予意义的制约,儿童在早期习得词汇时都假定:多数词语在感知上都是对应物体的名称;两个词通常都有两个不同的意义;享有共同声音的词语通常都是意义上相关的;一个不熟悉的言语声音可能指一些儿童还未能掌握其对应词的东西。但是这也不是没有问题,Landauer与Dumais(1997)指出,一个问题是我们不知道某一个制约是否真正存在;少年儿童虽然假定相同的物体只有一个名称,但是他们所接触的语言是否也是这样呢?又如某一种制约的产生是逐步进化的,还是通过认知而起作用的一种普遍性制约?还有一个问题是,某些制约的存在和产生出于逻辑的需要,但这又是不够的,可以从3方面看:1)某一套制约是否逻辑上和语用上充分,也就是说使用了它们以后是否就能解决问题?例如儿童认为没有同义词,这在多大程度上能帮助他们学习词汇?2)和方法论有关,怎样才能获得前一个问题的答案?怎样知道某一些特定制约的组合应用到自然环境的输入时才能解决问题?3)怎样决定一个提出来的模型是否具有心理现实性?Landauer认为要解决这些问题必须使用模拟的模型。而他和其他几个研究人员Foltz、Dumais、Deerwester、Furnas等人(Deerwester et.al.1990)所提出的,而又得到著名语篇研究者Kintsch支持的模型就是潜伏语义分析(Latent Semantic Analysis,LSA)。这是一个多维数的线性组合模型,“这个模型只是一个普遍的学习机制,本身并不体现人类知识,但是它通过分析一个很大的自然语言文本语料库来生成一个足以体现词语和文本片段的相似性的表征。”
2.LSA的理据
从潜伏性语义分析的角度看来,归纳就是减少维数(reduction of dimensionality)。Landauer举了一个形象的例子,一个人站在高原上打电话告诉他的朋友三间房子的位置,A和B、A和C的距离都是5个单位,而B和C的距离则是8个单位。在他的朋友脑海里就形成一个两个维数的三角形。如果他继续补充说,这三间房子是在一条直线上,他的朋友就会说,他一定是看错了这三个房子的距离。A和B、C的距离应该是4.5个单位,而B和C的距离应该是9个单位。因为在一个两维数的三角形里,其底边应该是其他两个边的和。这说明,减少维数可改善估算。在研究工作中,研究人员往往通过减少维数来降低计算的复杂性,即把数据作平滑化处理:简化数据并填补所缺的节点。在东京召开的联合国大学主持的混沌对科学和社会的冲击学术会议上,两个著名的混沌学专家Feigenbaun和Aihara就一致认为,人脑由100亿个神经元组成,而我们要对它的相互作用进行观察只能选取一个极低的维数。(注:这次大会的文集我国已由杨立、刘巨彬等译,刘式达、杜先之等校,湖南科学技术出版社出版,题为《混沌:对科学和社会的冲击》,两人的对话见该书394-395页。)在统计学中,这种减少维数的方法,例如因子分析、多维数量表也经常被采用,Osgood(1971)在70年代所做的语义微分分析就用过因子分析。同样地,我们也可以把两个词的语义相似性表示为距离:距离越近,相似性就越强。假定两个词在一个语篇单位(短语、句子或段落)中出现的频率和它们的语义距离成反比例(频率越多,距离越近),那它们就和语义相似性直接相关。我们可以通过观察两个
词在同一单位中出现的相对频率来估算出其语义相似性。因为人们进行交际时,都会使用一些基本成分(如词),使两个词语中存在某种相对的相似性。发送者会选择同一语义空间彼此相近的词,它们就会有不同的语义距离;而接收者则会按照它们在同一上下文中的相对频率来估算这些距离。但是自然语言中的词语数量极为庞大,而接收到的词语却数量极少,例如两个词的频率都是百万分之一,它们虽然有相关的意义,也不大可能会一起发生。可是如果我们的接收机制按照统计知识把接受到的词语表示为相似的语义空间,即同一个维数的各个节点,情况就会大大改善。附图
基于上述的假设,潜伏性语义分析可以用来比较不同语篇的`语义相似性。研究语篇理解的首要目标是:了解有哪些足以影响读者从文本材料中抽取和保存信息的能力的因素,例如让受试写一篇文本材料的摘要,然后再看他们从文本中获取了什么信息。这意味着把读者的文本表征(认知模型)和原来的文本表征加以比较,即把摘要中每一个句子的信息和文本中的句子信息加以比较。但是要对信息进行比较并非易事,它要求扫描原文,找出信息的所在。而且受试所写的摘要往往并不全都采用原文中的词语。所以光比较词语也不成。研究人员要比较的是摘要和原来文本的语义内容。Kintsch(1988,)所提出的构建整合模型(construction-integration model)就是一个观察读者对文本表征的认知模型,它把读者摘要的语义信息表示为一些语义成分组合,称之为命题(prepositions)。文本中的每一个子句是一个命题(如the red rose和the rose is red,都属于一个命题)。这些命题根据各种范畴连接起来,例如看它们是否共享中项(arguments)和指称(referents)。一个文本的所有命题组合起来就成为文本结构。不少实验都证明命题是人们的心理处理单位(如Graesser1981)。对文本和受试对它回述进行命题分析可以对一系列语义基本元素加以比较,其好处是这种比较并非表层结构的比较。但问题是,目前还没有生成命题的自动化程序,因为计算机必须对文本进行正确的语法分析,并且了解词语的正确意义。于是可以利用计算机来对语义相似性进行比较的潜伏性语义分析就应运而生了。
LSA原来是建筑在以语义内容的基础上以改善信息提取的一种设计,称为潜伏性语义索引(Latent Semantic Indexing,LSI)。在现实生活里,往往同一个语义概念表示为不同的词语,如果以原词作为检索单位,就费时失事。例如“电子计算机”往往又可以简称为“计算机”或“电脑”,甚至“服务器”和“机器”。如果在检索中只键入任何一种说法就能查出“电子计算机”,不是方便得多吗?这种方法还可以避免同义性的问题。LSA的基本假设是不同文件(文件可大可小,可以是词语所出现的整个语境,也可以是某些文本、段落和句子)的词语使用型式存在着某种“潜伏的”结构,而使用一些统计的方法可以估量出这种潜伏性结构。这些方法通过分析词语和文件之间的联系,产生一个在相同语境中使用的词语将会在语义上更为密切联系的表征。例如:
(1)The U.S.S.Nashville arrived in Colon harbor with 42 marines
(2)With the warship in Colon harbor,the Colombian troops withdrew.
“warship”所出现的语境(LSA称之为“向量”,vector)和“Nashville”所出现的语境相似,两者的上下文都有“Colon”和“harbor”。LSA所使用的技巧可以自动找出这些更深层的联系的结构。
又如我们读到下面的句子:
(3)John is Bob's brother and Mary is Anne's mother.
(4)Mary is Bob's mother.
这两句话里并没有出现表示亲属关系的sister,daughter,father,son等词语,但第(4)句使我们意识到Bob和Ann是兄弟姐妹,Anne是John的女儿,John是Ann的父亲,Bob是Mary的儿子。当然LSA所推断出的词际关系往往并非完全符合逻辑,它所揭示的仅是相似性关系。这些关系相互牵连和制约,可以产生出一些模糊的间接推断,关系上可强可弱,逻辑上可对可错。
3.怎样做LSA?
LSA以大规模的语料库为基础,使用了一种完全自动化的数学/统计技巧来抽取和推断词际关系,这种技巧就是线性代数中的奇异值分解(Singular Value Decomposition,SVD)。从概念上说,LSA模型可以理解为一个具有三层的神经网络系统。在SVD里,一个m×n的长方形矩阵{A}(m是行,n是列,m>n),被分解为三个矩阵:一个是m×n的成分矩阵{U},把原来的列的实体表示为派生的正交因子值的向量;另一个矩阵{w}用同样的方法表示原来列N×N的实体;第三个矩阵{V}的转置(transpose)是一个包括有标度值的直角矩阵(N×N)。
{A}={U}{w}{V}[T]
这三个矩阵相乘就可以恢复原来矩阵。如果我们在恢复时减少维数,就可以取得压缩语义空间的效果。
附图
下面是一个常被引用的例子:现有9条技术备忘录的题目,其中5条是关于人和计算机交互作用的,4条是关于数学图论的。这些题目在概念上不大相关,它们构成一个9列12行的矩阵,每一行是在这些题目中出现起码两次的实义词(均标为斜体),整理为表1。
c1:Human machine interface for ABC computer applications
c2:A survey of user opinio
n of computer system response timec3:The EPS user interface management system
c4:System and human system engineering testing of EPS
c5:Relation of user perceived response time to error measurement
m1:The generation of random, binary,ordered trees
m2:The intersection graph of paths in trees
m3:Graph minors IV:Widths of trees and well-quasi-ordering
m4: Graph minors:A survey
表1
附图
使用SVD技术,就得到下列的3个矩阵,如表2:
表2
附图
然后我们取这三个矩阵的头两列(即取其两个维数)来加以还原,便得到下面的矩阵(表3):
表3
附图
我们可以首先看m4列的survey和trees。trees这个词在m4题目里并没有出现,但是m4里有Graph minors,而m3里也有Graph minors,且出现了trees,所以在原来矩阵里为0的值被变为0.66,它表示在有graph和minors的题目的无限样本中,trees可能出现0.66倍。相反地,survey在原来矩阵中的m4中为1,但是却变为0.42,反映了它在这样的上下文里并非人们所期望的,不足以表示这个题目的特征。我们还可以比较human和user,human和minors在原来矩阵和后来矩阵的相关系数:前者原为-.38,后者原为-.29,现分别提高到.94和-.83。而在原来的矩阵里,human并没有和user或minors一起出现。减少了维数后显示human和user是更为相似,而human和minors则相反,更为不相似。
LSA可以用来揭示一些隐含的内部关系。让我们再看另一个例子。中国学生英语语料库(桂诗春、杨惠中,)是一个有100万词的作文语料库,对5种不同水平——中学生(st2)、大学英语4级(st3)、大学英语6级(st4)、专业英语低年级(st5)、专业英语高年级(st6)——的写作失误进行了标注(共有61种)。最常见的失误有21种,占全部失误的87%。根据Landauer等人的意见,在进行SVD之前,必须对这些数据作预处理:1)把每个频数+1,然后转换成对数;2)把每一列的数值计算为-plog p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic et al.)为:
附图
这样做的目的是通过估算每一个词项在每一个语篇的重要性(即该词项与它所出现的语篇所提供的信息量的程度成反比例),对它的出现率加权。在信息提取中经常使用这种转换,可获显著效果。限于篇幅,我们略去了计算的中间数据和经SVD处理后(包括将维数减为2个)结果(注:我们使用的工具是Excel的“数据分析”和国际牲畜研究院Greg Hood所编制的,可在Excel上运转的Poptools2.4版。),只报告几个有意义的变化,这些变化说明,由于减少了维数,几种学习者的言语失误的关系都有所微调,趋于更为合理。例如第一种失误是拼写失误(Fml)。转换值并没有改变原来的次序,大学英语4级和6级学习者的拼写失误比中学学习者略多,因为它们的语源来自CET考试的命题写作,而中学生则是自由作文的居多。命题写作有特定的用词要求,往往成为拼写失误的来源(如要求学习者用pollution)。现在的分析并没有把特定用词要求考虑在里面,而仅就失误的频数和其他失误的关系而言,经过SVD处理后,这种失误的发生率呈现为逐步略有降低的趋势,较符合中国英语学习者的实际。和写作用词有很大联系的是用错了词(wd3),经过SVD处理后的变化如下:
Fm1 St2 St3 St4 St5 St6
原始频数 1929 2877 2113 1827 1687
转换值 3.30 3.47 3.34 3.27 3.24
处理后值 3.52 3.46 3.36 3.25 3.00
Wd3 St2 St3 St4 St5 St6
原始频数 1102 1635 1815 757 360
转换值 3.27 3.45 3.50 3.09 2.75
处理后值 3.30 3.49 3.44 2.99 2.84
经处理后,St3仍然是最高的,但St4的绝对频数虽然是最高的,处理后则比St3略低。St6的绝对频数比St5的少一半,但处理后的值为2.84并没有比2.99少一半,仅低0.15倍,这说明用错词在St6中仍然是一个常犯的失误。句法结构(Sn8)的失误也是中国学习者常见的失误,下面是另一个SVD处理后的变化:
Sn8 St2 St3 St4 St5 St6
原始频数 1104 446 862 493 232
转换值 3.27 2.85 3.16 2.90 2.55
处理后值 3.14 3.06 2.97 2.90 2.68
从绝对频数来看,St3似乎比St2和St4、St5都少,处理后则显得较为合理,趋于逐步降低。
一般来说,在SVD处理后还可以比较处理前后的余弦cosine(θ)(注:余弦Cosine(θ)为两个向量的夹角,比相关系数更能表示相似性的程度。其公式为:),有时亦用相关系数来表示。经过计算,相关系数从处理前的0.604增至0.728。拼写失误是中国学习者最容易犯的失误,和各种失误都有密切的关系。经处理后,它的平均相关系数从0.614提高到0.817。
4.LSA的应用
LSA以矩阵代数的SVD为依托,而SVD在信息处理,如图象压缩、噪音过滤、开发软件的源代码等方面都得到较广泛的使用。LSA在语篇处理和语义的分析和提取方面均有广阔应用前景。
第一、我们要看LSA模型是怎样回答我们柏拉图问题。需要证明的是通过大量接触自然文本,人们能否获得语义相似性的知识?Landauer等人先对一个有代表性的英语语料库(包括美联社的新闻、给学生看的Grolier's美国大百科词典和有代表性的儿童读物)做SVD分析,然后用这个模型来做一次TOEFL同义词测试(共80个项目)。为了模拟人的行为,他们把题目中的测试词和每个选项的余弦都计算出来,然后让LSA模型来选择意义最接近的词。LSA的答对率为65%,相当于在美国的来自非英语国家的考生的平均答对率。但是要进一步回答儿童怎样在“负面的证据”的情况下习得词汇,还要考虑效率问题。Landauer等人认为,归纳方法取决于重建一个处于高维数空间的多重相似性系统,这样出现在局部上下文的事件也就可以反映高层次语义空间的相似性。因为四分之三的词语知识都是来自间接归纳,即接触一些那些词语并不在其中出现的文本。他们进一步完善其语料库的选词办法,并对照Carroll等人的Word Frequency Book(1971)所提供的数据,推断出每一段文本后的词汇增长率为0.20。如果一般学生每天平均读50段文字,就可每天增长10个新词。
第二、在信息提取方面,出现了LSI技术,以取代一般的主题词检索。早在80年代,Dumais等人(1982)对一个包括有1033个医学文献的摘要和题目的数据库,自动检索到出现两次以上的词语5823个,经过SVD处理取得100个因子,然后对数据库提出30个问题,LSI比原来的主题词检索改善了13%。后来技术有所提高,据Berry等人(1994)对几个系统的检验,LSI的改善程度已达30%。Deerwester等人(1990)认为,LSI的优点是,它可以解决同义性、多义性和词语依赖性(term dependency)三方面的问题。LSI的研究还在发展,一些令人兴奋的进展是信息过滤、增加检索问题的长度(TREC系统可以提出长达50个词的问题来进行检索)和进行跨语种检索(Rosario 2000)。
第三、文本相似性研究。在语篇理解方面,Foltz,Kintsch和Landauer(1993)等人用LSA来自动化处理语篇连贯(以心脏科学文献为试验样本),把一个句子或片段和接着的句子或片段的连贯性来分析比较,其相关系数高达.90。在他们所建立的网站LSA.colorado.edu上面提供了一些已经根据心理学、百科全书、文学成语、心脏科学的语料库给读者进行网上比较文本相似性研究。例如我们随机从一本认知心理学教科书里找了两段在词语上没有多大联系的话:
“These findings indicate a considerable degree of functional equivalence of
perception
and imagery.However,it is possible that subjects in the imagery condition merely
made
plausible guesses about the fields of resolution,and did not actually rely on
imagery
at a11.”
“While it is very straightforward to see that previous learning can facilitate
problem
solving by supplying well-practiced skills and strategies,it is perhaps less obvious that knowledge acquired
in the past can sometimes disrupt,and interfere with,subsequent attempts to solve
problems.”
这两段话在用词方面没有太多相同之处,但是和心理学语料库的维数比较以后,它们的相关是.82。
第四、使用LSA来进
行写作质量评估。Landauer,Laham和Foltz(1998)试验使用5种不同的方法来应用LSA对作文题目的答案进行评分,如让评分员对一些作文样本进行评分,然后计算出评了分的作文和未评分的作文的余弦,再根据相似性权重把最相似的作文分数的平均分赋予未评分的作文,等等。这5种方法所评出的分数的相关程度接近于它们和专家评分的相关程度。在另一项研究中,他们还用这方法来评估8个考试,题目从心脏解剖和生理学到心理学概念,美国历史,当前社会问题和市场问题。通过元分析发现LSA和专业评分员(来自教育考试服务公司或其他专业机构或课程导师)的相关高于专业评分员之间的相关。LSA评分的可靠性说明一个 篇章的全面的语义表征主要决定于词的选择,而对句法使用则要求不高。第五、使用LSA来模拟心理语言学试验。语义启动是一种常用的试验,Landauer用LSA方法来模拟Till等人(1988)的判断多义词的试验,结果完全一致。这些结果显示在语篇理解中,忽略了词序、句子结构、非线性的词与词的相互作用的词义关系也能够预测人类的行为。Kintsch等人(1999)还通过LSA所获得的信息提出长时工作记忆(Long-term Working Memory,LTWM)的理论。他认为人类的记忆系统包括了感知特征、语言特征、命题结构、宏结构、语境模型、控制结构、目标、词汇知识、框架、一般知识、情节记忆等等成分。它们对理解语篇至为重要,远远超过短时记忆。LTWM认为在某些条件下工作记忆可以大大延伸,LSA在某种程度模拟了这种机制,实际上也模拟了人类的知识系统。大部分人类知识都体现为语言,而LSA通过减少维数来筛选它所处理的信息,从而保留了它所处理的文本的主要语义关系。例如在LSA处理的文件中,mountain和mountains的相关系数可能很低,但是通过减少维数后,它们的相关却是.81。它的推断是这两个词在语义上有密切联系。同样地,围绕mountain还可以找到peaks,rugged,ridges和climber,而围绕mountains又可以找到peaks,rugged,plateaus和foothills。我们所需要的正是这些信息,以认识人们在理解过程中是怎样通过LTWM来激活知识的。又如“The band played a waltz.”(乐队奏了一曲华尔兹)和“Mary loved to dance.” (玛丽喜欢跳舞)这两句话虽然无甚直接联系,但它们都分别激活了一些第三方的互有联系的语词,故其余弦为.45。
第六、在LSA的基础上,Kintsch等(2000)及Steinhart(2001)又开发了训练学生写作的软件。这个软件是一个在线的辅导学生写摘要的软件,叫做Summary Street。Steinhart认为,写摘要是一种比较难的技能,低年级学生(如初中生)往往依靠“抄和减”的策略来写摘要,而高年级的学生(如高中生)则使用较复杂的压缩规则,如重建和归纳。写摘要训练不仅仅是一种写作技巧的训练,它可以提高学生的阅读理解、获取知识和思维能力。这个软件首先让学生看一些文章如能源科学、古代文明、血液循环系统等,然后提出写摘要的一些要求,如找出主题句、找出支持主题句的两三个重要思想和细节,把它们组成一句话,用一个概括性的词语来代替具体的项目和事件,避免烦琐的信息和细节,避免重复信息等等。学生根据这些要求把阅读的文章写成摘要,在网上输入到Summary Street系统里,系统就能分析摘要,告诉学生摘要在多大程度上反映原文,长度是否合乎要求,等等。学生可以通过系统提供的反馈信息(包括指出拼写错误和用词不当,信息覆盖面是否足够等),不断改写摘要。他在Boulder县中学试验的结果说明,运用Summary Street训练学生所写出的摘要比使用传统的文字处理器写出的摘要要好,特别是处理难度比较大的文章更是如此。
5.启发和问题
LSA直逼哲学上的认识论问题,却又开拓了广阔的应用前景,惹人深思。一是人们认识世界从意义开始,语篇里隐含着许多错综复杂的语义关系,是了解语义的钥匙。二是现代科学技术为建立、储存和提取包括了大量语篇的语料库创造了条件,也为人们认识这些错综复杂的语义关系创造了条件,使我们有可能解决许多与文本有关的问题。三是认识问题的一个有效途径是减少维数,提高概括力。和维数匹配的归纳可以大大改善知识的提取和表征。四是LSA要解决的语篇中的语义关系,它既依赖于计算机技术,又利用了奇异值分解的线性代数模型,充分体现了文理互相渗透的特点。
但是LSA也留下了一些有待我们继续探索的问题。最主要的是它只考虑语词,而不考虑句法信息,甚至不考虑词序的信息。而且它完全依赖于数学模型,所得到的结果有时不好解释。
【参考文献】
1 Berry,M.,S.Dumais,& G.O'Brien[M].1994.Using linear algebra for Intelligent Information Retrieval [M].Boston:
Houghton
Mifflin Company.
2 Carroll,J.,et al.1971.Word Frequency Book.Houghton Mifflin Company & American
Heritage
Publishing Co.,Inc.
3 Chomsky,N.1965.Aspects of the Theory of Syntax [M].Cambridge,MA:
MIT Press.
4 Chomsky,N.1986.Knowledge of language:Its nature,origin,and use [M].
Westport:
Greenwood
Publishing  
;Group.5 Chomsky,N.2000.New horizons in the study of language and mind[M].Cambridge:Cambridge University Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,& R.Harshman.1990.Indexing by latent
semantic analysis [J]
.Journal of the American Society for Information Science 41:391-407.
7 Dumais,S.et al.1982.Using semantic analysis to improve access to textual
information [J].Machine Studies 17:87-107.
8 Foltz,P.W.,W.Kintsch & T.K.Landauer.1993 (Jan). An analysis of textual coherence
using Latent Semantic Indexing [A].Paper presented at the meeting of the Society
for Text and Discourse,Jackson,WY.
9 Geoffrey sampson.2001.Empirical Linguistics [M].London:Continuum.
10 Graesser,A.1981.Prose Comprehension beyond the word [M].New York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl & LSA Research Group.2000. Developing summarization
skills through the use of LSA-Based Feedback [J].Interactive learning environments 8 (2):87-109.
12 Kintsch,W.1988.The role of knowledge in discourse comprehension:A construction-integration model [J].Psychological Review 95:163-182.
13 Kintsch,W.1998.Comprehension [M].Cambridge University Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel & A.Ericsson.1999.The role of long-term working memory in text comprehension [J].Psychologia 42:186-198.
15 Landauer,T.& S.Dumais.1997.A solution to Plato's problem:The Latent Semantic
Analysis theory of the acquisition,induction,and representation of knowledge
[J].Psychological Review &nbs
p;104:211-240.16 Landauer,T.K.,D.Laham & P.W.Foltz.1998.Computer-based grading of the conceptual content of essays.Unpublished manuscript.
17 Landauer,T.,P.W.Foltz & D.Lanham.1998 An introduction to latent semantic
analysis [J]. Discourse Processes 25:259-284.
18 Maletic,J.et al.1999.14[th]IEEE ASE'99 [A].Cocoa Beach FL.12-15[th][C].pp.251-254.
19 Osgood,C 1971.Exploration in semantic space:A personal diary [J].Journal of Social
Issues 27:5-64.
20 Pinker.1994.The Language Instinct.[M].New York:William
Morrow Company,Inc.
21 Rosario,B.2000.Latent Semantic Indexing:An overview
[A].INFOSYS
240 Spring 2000.
22 Shepard,R.1987.Towards a universal law of generalization
for psychological
science [J].Science 237:1317-1323.
23 Steinhart,D.2001.Summary Street:an intelligent tutoring system
for improving student writing through
the use of latent semantic analysis [D].Unpublished doctoral
dissertation,Institute of Cognitive
Science,University of Colorado,Boulder.
24 Till,R,E.Mross & W.Kintsch.1988.Time course of priming for
associate and inference
words in discourse
context [J].Memory and Cognition 16:283-299.
25 van Dijk,T.,& W.Kintsch.1983.Strategies of discourse
comprehension
[M].New York:Academic Press.
26 桂诗春,2000,《新编心理语言学》[M]。上海:上海外语教育出版社,308-329。
篇8:中医药术语语义类型分析论文
中医药术语语义类型分析论文
本文对所有主题词的语义类型进行统计,对未曾加工的新词,进行语义类型的人工添加。但是,由于文献是来自临床,主题词中有很多西医的术语,例如:理化检查、手术操作、抗生素等。为了保证“腧穴”文献报道真实的语义环境,本文适当增加了一些语义类型,保证主题词至少具有一个语义类型,并且对相应的实例进行语义类型的加工,实例如表1所示。
经过对主题词的语义类型加工,得到主题词的所有语义类型,一条记录是一个主题词集合,也是一个语义类型集合,结果如表2所示。同时,也统计了TCMLS系统中所有与“腧穴”相关联的概念词的语义类型,作为系统中与“腧穴”共现的语义类型集合,如表3所示。对这两个语义类型集合进行对比,发现临床文献的语义类型集合与TCMLS加工的语义类型集合明显不同,前者注重临床,而后者则主要来源于术语词典,明显偏重在理论方面。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的`对象有很大的相似性,而不同簇间的对象有很大的相异性。本文使用SPSS18.0的层次聚类法,通过对语义类型集合的聚类,获得了与“腧穴”共现的几类语境。并且通过层次聚类,得到“腧穴”的共现语义类型,从而得到常见的共现语义关系。聚类得到的层次图如图1所示。
从上面图1可以看出,“腧穴”主题词集的语义类型大致聚成了4类,分别体现为:“治法语境”、“处方语境”、“辨证语境”、“空间语境”。例如,“疗法”和“针灸疗法”最先聚在了一起,这个结果说明在“腧穴”这个语境下,“疗法”和“针灸疗法”经常和“腧穴”一起共现,可以说“疗法”、“针灸疗法”、“腧穴”构成了一个语义类型的“治法语境”。同理,推理得到“腧穴”的“处方语境”、“辨证语境”、“空间语境”,从而,可以得到“腧穴”临床报道文献的一个大语境模板。
通过对语义类型共现的分析,可以得到新的语义关系,例如目前TCMLS中尚未有“腧穴”和“证候”的语义关系,通过聚类分析,得出了“腧穴”发生于“证候”情况下这一语义关系。此外,根据聚类结果,可以新增加一些语义关系,例如“共现”、“操作部位”等。
这些语义关系并非来自于术语词典,而来自于临床文献,可以说具有一定的实用价值。这个实验结果对语义类型的加工也具有提示意义。因此,从主题词集来进行语义类型的挖掘,是一个值得尝试的研究方向,有利于TCMLS的发展和应用。
篇9:中西古典情诗的分析
中西古典情诗的分析
莎士比亚在著名的爱情哲理诗《真正的爱》里精辟地讲道:“爱不随光阴荏”那么关于爱情,中西方又有哪些不一样的地方呢?
爱情是人类最本质的情感, 伴随随着人类的繁衍生息, 而爱情诗也因此历久弥新,直至永恒!爱情是什么?是情窦初开时的懵懂,是惊鸿一瞥的心动,是失之交臂的怅然,是相依相偎的激情,是长相厮守的满足,是天各一方的思念, 是生死永隔的哀伤,是心灵滴血的凄婉??爱情诗由于捕捉这些万花筒似的纷繁复杂的情感而摇曳生姿,风情万种,古今中外的爱情诗概莫能外。因此,爱情被普遍叫做“生命的皇冠”,是人类至圣至上的情感。
爱情是文学创作的永恒主题。爱情诗,这一为中外诗人所垂青的文学体裁,因其独具特色的文字魅力和音乐美感在中外文坛上熠熠生辉。长期以来,人们总持有一种偏见,认为中国爱情诗不能与西方爱情诗相媲美。事实上,中西爱情诗各具特色,各领风骚,都在世界文坛上散发出其独特的魅力和迷人的芳香。
本文以李商隐的《无题·相见时难别亦难》和拜伦的《雅典少女》为例,从诗歌创作内容,抒情方式和诗歌意象三个方面来对比探究中西方爱情诗的不同。
简述中西方爱情诗的不同
尽管人类两性之爱情心理是共同的, 但是由于中西方在文化、 历史、 礼义、 宗教信仰等方面的不同, 中西方对爱情的态度及表达方式也不同。 因此, 在文学作品特别是诗歌中,人们表达爱情的方式也相应地表现出种种差异,即中西爱情诗学是有所不同的。 朱光潜先生在其《中西诗在情趣上的比较》一文中曾这样总结中西诗歌之区别:“ 西诗以直率胜, 中诗以委婉胜; 西诗以深刻胜,中诗以微妙胜;西诗以铺陈胜, 中诗以简隽胜。” 下面我们将从表达方式、审美形态和社会文化三个方面来简单的分析中西方爱情诗的不同。
1. 表达方式:“含蓄”对“直接”
含蓄是中国文学的本色, 是其不同于西方文学的一个显著特征。辜正坤先
篇10:古典文献学就业前景分析
古典文献学专业是一门古老的学科。它以中国古代留存下来的古代典籍为研究对象,通过对古籍的整理和运用,达到为现实生活服务的目的。古籍整理的内容一般包括以下几个方面:校勘、注释和研究。古典文献学的特点是:人才需求量少,扎实的专业基础,广博的知识和开阔的思路。
古典文献学专业主干学科:中国语言文学。
古典文献学专业主要课程:中国古典文献学、目录学、版本学、校勘学、文字学、音韵学、训诂学、文科工具书使用、古代要籍解题、出土文献概论、古代文化概论、古文献学史、古代汉语、中国古代文学史等。 考研 教育网
古典文献学专业培养目标:
古典文献学专业学生主要学习古籍整理和中国古典文献学方面的基本知识,受到有关理论、发展历史、研究现状等方面的系统教育和业务能力的基本训练。
【古典命题演算的直觉主义语义分析】相关文章:
2.方位词语义辨析
4.古典诗词
6.古典诗词朗诵
7.文艺古典句子
8.古典格言解读
9.古典诗词名句
10.爱国古典诗词






文档为doc格式