首页 >> 语言学
词汇分布语义的语言学基础探微
2020年03月25日 16:41 来源:《浙江社会科学》 作者:潘俊 吴宗大 字号

内容摘要:

关键词:

作者简介:

  摘    要:词汇分布表示是当前人工智能领域语义表示的主要方法。通过对大规模语料中词汇分布规律的学习,可以得到以数学向量形式表示的词汇,并具有语义可计算和可推导的重要性质。词汇分布语义表示的语言哲学基础是维特根斯坦的词义使用论,主张词的意义就在于使用。维特根斯坦和索绪尔的语言观有着某种联系,索绪尔认为,语言中一切要素都按照句段关系和联想关系运行,词汇分布语义模型的输入上下文事实上可以归为这两类关系。布龙菲尔德的结构语言学深受索绪尔的影响,最终发展成为海里斯的分布方法论,构成了词汇分布语义的语言学基础。当前以神经语言模型为代表的词汇分布语义,根植于词义使用论学说,并以描写语言学为理论支撑,其本质是对语料中词汇使用模式和偏好的反映,因此可以客观折射社会文化生活的某些特征,同时也不可避免地存在其固有的局限性。

  关键词:词义;分布语义;自然语言理解;结构主义;描写语言学

  基金:教育部人文社会科学研究青年基金项目“基于知识库和大规模文本的词汇语义表示研究”18YJCZH137);浙江省自然科学基金重点项目(LZ18F020001)的研究成果之一。

  一、引言 

  自然语言处理是人工智能领域极其重要也极具挑战的研究方向,属于计算机科学与语言学的交叉学科。它将抽象的人类语言转换成适合计算机处理的形式,从而建立语言、知识与客观世界之间的可计算关系。自然语言处理的核心,是让机器具备理解各种语言形式(词汇、短语、句子、篇章等)内在含义的能力。词汇是自然语言的基本单位,词汇的语义表示因此也成为自然语言理解的基本问题之一。传统上,人们采用人工构建语义词典和语义知识库的方式来表达词汇语义1。但人工标注的方式成本高昂,覆盖面亦有限,难以获得大规模高质量的标注数据。随着深度学习技术的发展和文本数据的爆炸式增长,利用机器学习算法在大规模语料上对词汇表示进行抽象和学习,成为当前词汇语义表示的主流方法。这种表示方法又称分布语义,它通过对语料的学习,将符号表示的词汇转化为数学表示的向量,使得词汇具有语义可计算的能力,已经在智能搜索、语音识别、机器翻译、诗歌创作、古文断句、信息过滤、意图理解等领域得到了广泛使用2。

  尽管词汇分布语义在应用上取得了很大的成功,然而也应当看到,对其背后的语言学机理,我们还缺乏全面的认识。我们要问,这种通过对语料的学习而自动获得的分布语义,本质上是一种什么样的语义?它能否涵盖词汇的完整意义?这种语义表示的潜力和局限又是什么?我们认为,要回答这些问题,需要结合相关的语言学理论来深入思考。

  本文试图从语言学学说史的角度审视词汇分布语义的理论基础,并以在海量《人民日报》语料库上训练得到的词汇分布语义作为实证分析的依据3,以厘清词汇分布语义在自然语言处理领域的潜力和边界,并为自然语言理解模型的构建和应用提供新的思路。

  二、意义即使用:词汇分布语义的语言哲学基础 

  词汇的意义理论是语言哲学的两个基本问题之一4。什么是词义?对这个问题的讨论,最早可追溯至古希腊时期对“词”与“物”的关系之辩,即名实之争。“逻各斯(logs)”学说的提出者,古希腊哲学家赫拉克里特(Heraclitus)主张“本质说”,认为名称与它所代表的事物之间的联系是不可分割的,名称包含了事物的本质5。与此相反,德谟克里特(Democletus)主张“约定说”,认为名称与事物之间的联系并非由事物的本质决定,而是约定俗成的6。后来柏拉图(Plato)在他的《对话录》中提出了“语词是命名(namin)”的折中观点,认为事物的意义在于名称和事物之间的自然联系,但这种内在联系会随着时间推移而减弱。柏拉图的学生亚里斯多德则坚决主张名实分离,认为名称不是自然赋予的,而是约定俗成的具有意义的声音,在成为一种符号时才成为名称7。公元二世纪语言学的亚历山大里亚学派(the Alexandrians)也传承了这一观点8。

  古希腊哲学家关于名实关系的争辩,对中世纪以后的语言哲学学说,产生了极其深远的影响。意义的指称论(referential theory of meaning)即秉持“约定说”的名实分离观点,认为词的意义就是词所指的对象。近代英国哲学家、逻辑学家密尔(J.S.Mill)把名称分为专名和通名,其中通名既有外延又有内涵,外延表示所指称的事物,而内涵表示所指事物的特性,即意义9。德国哲学家弗雷格(G.Frege)进一步发展了指称论,在1892年发表的《论意义和所指》一文中,弗雷格对符号的意义和所指(一译“意谓”)做了明确区分。他以望远镜观察月亮来比喻:月亮是所指,望远镜物镜中的影像是意义,视网膜上的图像是意象,意义介于所指和意象之间,既不是所指对象本身,也不像意象那样主观,而是一种客观的存在10。指称论的另一位代表人物罗素(B.A.W.Russell)则提出,应将语词分为专名和摹状词,专名的意义就是所指称的对象,摹状词的意义由所组成的语词的意义确定11,罗素的意义理论被称为“逻辑指称论”,并深刻影响了他的学生维特根斯坦,早期维特根斯坦就认为,名称和对象之间存在直接的对应关系,名称所指的对象就是名称的意义12。

  由上可知,指称论者虽然在具体观点上有所差异,但都主张语言是对世界的反映,词汇的意义在于所指称的世界中的事物。但是,指称论是以名称为范例来看待词汇的,而词汇并不都是名称,许多词汇的意义,要根据上下文甚至社会语境才能确定。后期维特根斯坦就否定了自己早期的指称论观点,在后期著作《哲学研究》中,他提出“意义即用法”的观点,他说:“一个字词的意义是它在语言中的用法。”13例如,作为路标的箭头符号之所以能够指路,是因为人们使用它,按照它的指向行走,正是使用赋予箭头符号以意义。根据维特根斯坦的观点,词汇的意义受到语言使用规则的制约,因此必须研究语言游戏的规则,这种思路被称作意义的使用论(use theory of meaning),并直接促使人们对词的用法进行经验性研究。

  意义的使用论被多个语言学派所吸收和采纳,但“使用”这一概念过于空泛,不少语言学家给出了更为明确的关于“词义”的阐述。语言学伦敦学派的创始人弗斯(J.R.Firth)说:“词汇的意义取决于搭配”,认为意义存在于词汇出现的上下文之中,上下文可以帮助理解词义。14英国语言学家克鲁斯认为:“一个词项在各种语境中遇到的全部正常关系称为它的语境关系(contextual relations),…,词的意义是由它的语境关系构成的。”15

  用词的上下文信息来表达词的意义,与传统语义学和乔姆斯基(A.N.Chomsky)的生成语法理论形成了鲜明对比,但在实践中却有很强的可操作性。我们以汉字“埙”为例,假设一个人并不清楚这个字的含义,但告诉他这个字在如下的文本中出现16:

  (1)正是周敏在城墙头上吹动了埙,声音沉缓悠长,呜呜如夜风临窗。(贾平凹《废都》)

  (2)它的外形有椭圆形、圆形、橄榄形不等,大多由陶土烧制而成,所以又叫陶埙。(新华社新闻文本)

  (3)若不会吹笛,埙和箫都成,曲风应是悠扬轻远的。(剧本《武林外传》)

  那么,根据“埙”这个词在上下文中的分布,不难推断出它的意义:“一种陶制的吹奏乐器”。由此可见,如果给定足够多的上下文,就能够利用分布统计方法来刻画每个词的含义。词汇分布语义各种模型的基本思想,正是通过机器学习算法来学习词汇在大规模文本语料中的分布模式,从而获得词汇的语义表示。

  在各具特色的词汇分布语义学习模型中,Word2Vec神经网络模型是较有影响力的一种17。本文采用Word2Vec的Skip-Gram算法对《人民日报》语料进行训练,然后将得到的词向量降到3维(原参数设为256维),再检索“埙”的语义近邻分布,结果如下图1所示。

 

  图1“埙”的三维语义近邻

  由图1中词汇的空间分布,可以得到更多关于“埙”的语义知识,例如,由“编钟”、“篪”、“古琴”、“青铜器”等近邻词可以推断,“埙”应是一种远古乐器。可见,词汇分布语义实质上是通过词汇在空间中的位置来表达语义的。自然语言本质上是符号化的,而在分布表示框架下,符号表示的词汇最终被转换成了数学表示的向量,这种转换具有非常重要的意义,因为在转为数学向量之后,词汇语义变得可计算甚至可推理了。例如,通过向量计算,可以发现“埙”与“箫”的距离要明显小于它与“架子鼓”的距离,也就是说,“埙”在语义上要更接近“箫”。同时,这种语义距离还具有可推理的性质,例如,通过计算,我们可以得到类似于“吹奏乐器-埙=打击乐器-架子鼓”这样的语义推理结果。

  那么,通过空间距离来表达词汇语义,是否符合人类对概念的认知规律呢?我们可以从认知语言学的角度看待这个问题。温格乐(F.Ungereer)认为,概念结构是体验性的(embodied,一译“具身”),语义的形成,很大程度上源于我们的身体体验18。认知语言学的代表人物莱考夫(G.Lakoff)指出,隐喻是人类语言的普遍现象,是人类认知和思维的本质19。格雷迪(E.J.Grady)的基本隐喻理论认为,儿童在概念认知的早期,能学会数百个可被辨识的基本隐喻,基本隐喻又进一步构成了复杂隐喻20。莱考夫总结分析了约50条基本隐喻,其中非常重要的一条就是“相似是近(similarity is closeness)”,该隐喻是人类对挨近的相似对象进行观察而获得的基本经验,表明人类的思维会将实体概念映射到空间,而相似的概念在空间中的距离也相近21。莱考夫认为,人类正是通过“相似是近”这一基本隐喻来进行概念层面的抽象思维。由此可见,用词汇在向量空间中的位置来表示词汇,用词汇间的空间距离来表示词汇的语义相似度,可以从认知语义学中找到理论依据。

  三、句段与联想:词汇分布语义的两类上下文 

  词汇分布语义通过空间距离表达语义相似程度,而这种距离正是通过对词汇在语料中的“使用”模式进行统计,由学习模型自动习得的。因此,有必要审视词汇的“使用”指的是什么?以及对“使用”的不同定义得到的词汇语义有何区别?

  瑞士语言学家索绪尔(F.D.Saussure)是现代语言学的奠基者22。索绪尔认为,语言是一套具有价值的符号系统,符号的价值在于对不同功能的区分,而这种区分是不能脱离系统而存在的。按照索绪尔的观点,作为语言符号系统的一部分,词汇不仅具有意义,而且具有价值,词汇的价值由它与其他词的关系决定,索绪尔将这种关系分为两类:句段关系和联想关系23。句段关系是指话语中各个要素挨序排列结成的线条性关系,其特征是有序的,在现场的(法语in praesentia)24,例如,语词中构字成词,连词成句,集句成段等都属于句段关系;联想关系的特征是无序的,非现场的(法语in absentia),可替换的24。下面以一个简单例子来说明句段关系和联想关系,如下图2所示。

 

  图2 句段和联想关系示例

  在这个例子中,“李白”和“诗人”属于句段关系,“李白”和“杜甫”则属于联想关系。索绪尔指出,整个语言机构都无外乎对这两种关系的运用。从这个角度来看,词汇分布语义模型对语义的学习,最终可以归结为对这两种关系的学习。

  句段关系是词汇的横向组合,通过对固定的语言单元内(如句子、段落、篇章)词汇的共现关系(co-occurrence)的建模,可以刻画词汇的分布语义。例如,我们统计词汇在上述3个句子中的共现次数,如下表1所示。不难看出,“李白”和“诗人”的共现频率最高,因此语义上更为接近。

  表1 对句段关系的词汇共现建模

 

  具有联想关系的词汇不在同一现场共现,但具有相似的上下文语境,且一般能够互相替换。例如,我们依据上述语料可以构建一个词词共现矩阵,如下表2所示。可以看出,“李白”和“杜甫”虽然不在同一个句子中出现,但拥有相似的上下文(即“唐代、诗人”),因此语义相似度较高。

  表2 对联想关系的词汇共现建模

 

  当然,上述例子仅是一个简单示例,但如果依据海量的语料来构建词汇的共现矩阵,无疑可以表达更为丰富全面的语义。这个共现矩阵的规模通常会很大,潜语义分析、非负矩阵分解、典型相关分析等自然语言处理领域的分布语义技术,通过不同的途径对共现矩阵进行降维,从而得到词汇的潜在分布语义。但这些方法对词汇上下文的使用,仍可以归结到索绪尔关于句段关系和联想关系的论述。

  由此可见,词汇在语料中的“使用”,最终可以用索绪尔的句段关系和联想关系来概括,那么这两类关系得到的词汇语义又有何不同?我们在《人民日报》语料上的实证结果表明,句段关系得到的词汇语义,更偏向于语法搭配的相似性,较易得到主题相关性的词汇语义(例如“杭州”与“西湖”,“李白”与“诗人”等);联想关系得到的词汇语义,更偏向于功能相似性的词汇语义(例如“杭州”与“苏州”,“李白”与“杜甫”等)。

  四、描写语言学:词汇分布语义的理论依据 

  布龙菲尔德(L.Bloomfield)的结构主义语言学是对索绪尔语言观的继承和发展,其1933年出版的代表作《语言论》,奠定了描写语言学的理论基础,标志着语言学一个新时期的诞生。作为结构语言学的一个重要流派,描写语言学建立了一整套描写语言的严格技术,包括替换分析、对比分析、分布分析、直接成分分析等语言分析方法25。布龙菲尔德之后,在海里斯(Z.S.Harris)等人的努力下,美国描写语言学呈现出精密的分析手续和高度的形式化,其中分布分析技术成为最重要的方法论。在《结构语言学》中,海里斯给出了分布的定义:“一个语言成分(element)的分布就是它所出现的全部环境(environments)的总和,也就是这个成分的所有的(不同的)位置(positions)或出现的场合(occurrences)的总和,这个成分出现的这些位置是和其它成分的出现有关系的。”26海里斯认为,分布是语言结构分析的主要依据,分布可以确定语言的成分以及各个成分之间的关系。他又认为依据分布能够得到意义,分布的不同,也就是意义上的不同27。海里斯的“分布区别意义”的思想后来不断被其他学者的实验所证实,并成为词汇分布语义的理论基础。基于“相似词的上下文也相似”的分布假设,研究者提出了各种词汇分布语义学习模型。除了词汇的上下文外,还可以通过其他语言要素的分布来学习词汇语义,这些语言要素包括词汇的形态学特征,如前后缀、词元、词干、偏旁部首等,以及词汇的语言学特征如词性、语法成分树、语义角色、句法依存树、回指等28。

  词汇分布语义模型是建立在对海量语料分析的基础上的,它天然符合美国描写语言学的主张,即通过客观和机械的方法来研究语言。因此,如果语料中词汇的语义发生变迁(词义扩大、缩小、产生新义或消亡),模型中的词汇分布语义也会随之改变。我们对《人民日报》语料进行历时分割,使用字+词+词性的分布,训练得到词汇分布表示后,发现某些词汇随社会发展而出现词义变迁现象。以词汇“革命”的为例,可以观察到其词义在20世纪70年代和80年代的有着显著变化。如下图3所示,70年代,“革命”一词与文化大革命紧密相关,语义近邻中包含大批与阶级斗争密切相关的词汇。80年代,邓小平“改革是中国的第二次革命”的著名论断赋予了“革命”一词新的科学内涵,其语义近邻词中出现了“拓荒牛”、“开拓创新”、“奋力拼搏”等反映社会变革的具有鲜明时代特征的词汇。可见,通过历时语料的训练,词汇分布语义能够为观察社会变迁和文化演变提供新的视角。

 

 

  图3“革命”在70年代和80年代的语义近邻词

  五、结语 

  自然语言理解是人工智能的一种高级表现形式,词汇的语义表示属于自然语言理解的基础研究。通过对语言学学说史的梳理和对语料库的实证分析,可以认为,当前以神经语言模型为代表的词汇分布语义,其哲学渊源是意义的“使用论”;而词汇和语言要素之间的句段和联想关系,是词汇“使用”的具体表现,并可由此来刻画词汇的意义;以美国描写语言学为代表的结构语言学,构成了词汇分布语义的理论基础,分布的不同将导致意义的不同。

  至此我们可以回答引言中的三个问题。第一,词汇分布语义本质上是从语料中习得的语义,反映的是相应语料中词汇的使用模式和偏好,因此也会客观折射出社会文化生活的某些风貌特征。第二,词汇分布语义建立在描写语言学的结构主义之上,结构主义是由索绪尔关于语言是一个符号系统的理论发展而来的,主张语言分析要使用机械方法的立场。如果承认这一点,那么基于语料的词汇分布语义,理论上是能够完整覆盖语料范围内的所有词义的。需要指出的是,虽然词汇分布语义表达的是作为语言的基本单元的词汇的意义,但在深度学习领域发展起来的循环、卷积、递归等神经网络模型,目前已经能够对不同粒度的语言单元进行组合,从而获得更大粒度的语义表示,因此,词汇语义表示研究的进步,对意义“使用论”在语言哲学方向的发展,也提供了一种新的视角和途径。第三,词汇分布语义建立在分布假设基础上,不可避免存在固有的局限。首先,分布语义的假设是“相似的词具有相似的上下文”,然而此处的“相似”这个概念,实际上指的是语义上的关联,既包括同义,也包括反义、上下位等其他语义关系;其次,分布语义反映的是语料库中词汇的使用模式,而语料库又不可避免地带有社会文化和制度的烙印,包括现实世界中固有的偏见或歧视,例如性别歧视、种族差异等,因此,在基于词汇分布语义的人工智能决策应用中,需要充分考虑社会公平和基本伦理。

  注释 

  1汉语方面的语义词典主要有梅家驹等:《同义词词林》,上海辞书出版社1983年版;董氏父子的《知网》,参见董振东,董强《知网和汉语研究》,《当代语言学》2001年第1期;北京大学的中文概念词典,参见于江生,俞士汶《中文概念词典的结构》,《中文信息学报》2002年第4期;英文方语义词典主要有Word Net、Babel Net、Concept Net等。

  2潘俊、吴宗大:《词汇表示学习研究进展》,《情报学报》2019年第11期。

  3语料数据爬取自http://data.people.com.cn。

  4习惯上,把对意义的哲学研究称作意义理论(theory of meaning),而把对意义的语言学研究称作语义学(semantics);语言的意义,以及语言和世界的关系,是语言哲学的两个中心问题,参见陈嘉映:《语言哲学》,北京大学出版社2003年版,第17页。

  5《著作残篇D1》,载北京大学哲学系外国哲学史教研室编译:《古希腊罗马哲学》,第18页。

  6《留基波与德谟克里特著作残篇》,载北京大学哲学系外国哲学史教研室编译:《古希腊罗马哲学》,第106页。

  7亚里士多德:《工具论》,李匡武译,广东人民出版社1984年版,第56页。

  8这种名实分离的观点,与我国先秦思想家荀子在《正名篇》中所提出的“名固无实,约之以命实”的观点是一致的。参见李志强:《公元前6-前3世纪中西方语言学的萌芽---先秦和希腊语言观研究》,博士论文,第18页。

  9陈嘉映:《语言哲学》,北京大学出版社2003年版,第13页。

  10弗雷格:《弗雷格哲学论著选辑》,王路译,商务印书馆2006年版,第99~100页。

  11罗素:《数理逻辑导论》,晏成书译,商务印书馆1982年版,第157~169页。

  12维特根斯坦:《逻辑哲学论》,贺绍甲译,商务印书馆1996版,第34页。

  13维特根斯坦:《哲学研究》,范光棣、汤潮译,三联书店1992年版,第31页。

  14John R Firth.The technique of semantics.Transactions of the Philological Society,1935,34(1),pp.36~73.

  15D.A.克鲁斯,榕培(译):《用语境法研究词汇语义学》,《外语与外语教学》1987年第4期。

  16这三则语料均检索自“北京大学CCL现代汉语语料库”。

  17Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations.Proceedings of the Conference of the North American Chapter of the ACL,2013,pp.746~751.

  18F.Ungereer,H.J.Schmid,An introduction to cognitive linguistics,外语教学与研究出版社2001年版,第F36页。

  19Lakoff G.,Johnson M.Metaphors we live by,University of Chicago Press,1980.

  20Edward Joseph Grady.Foundations of meaning:primary metaphors and primary scenes,UMI,1998.

  21Lakoff G,Johnson M.Philosophy in the flesh:the embodied mind and its challenge to western thought.Basic Books,1999,pp.45~48.

  22索绪尔之前的语言学研究主要是历史比较语言学,索绪尔的语言观奠定了现代语言学研究的理论基础:首先他区分了言语(parole)和语言(langue),把语言而非具体的言语确立为研究对象;其次他区分了历时和共时,把语言的共时结构而非言语的历时变化作为研究对象;第三他区分了能指和所指,认为语言是一个具有任意性的符号系统,价值决定了符号的功能,也就是意义。

  23语言学各流派对索绪尔提出的句段关系和联想关系都多有阐发,例如伦敦学派代表人物弗斯就认为,语言有“结构”和“系统”两个方面,“结构”是语言成分的组合性排列(syntagmatic ordering of elements),而“系统”则是一组能够在结构里的位置上互相替换的类聚性单位(a set of paradigmatic units),结构是横向组合的,系统是纵向聚合的。参见冯志伟:《现代语言学流派》,商务印书馆2013年版,第226~227页。

  24(25)索绪尔:《普通语言学教程》,高名凯译,商务印书馆1980年版,第171、176页。

  25冯志伟:《现代语言学流派》,商务印书馆2013年版,第143-168页。

  26Z.Harris,Structural linguistics,The university of Chicago press,1963,p.15.

  27海里斯坚持语言分析要使用机械方法的立场,主张应当将意义从语言分析中排除出去,他同意布龙菲尔德关于意义由社会环境决定的观点,而目前还没有能力加以分析,因此只能依靠分布来分析意义。参见Harris Z.,Zellig S.Distributional structure[J].Word,1954,10(2-3):pp.146~162.

  28戈尔德贝格:《基于深度学习的自然语言处理》,车万翔等译,机械工业出版社2018年版,第62~65页。

作者简介

姓名:潘俊 吴宗大 工作单位:

转载请注明来源:中国社会科学网 (责编:马云飞)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们