语言学|多因素语境共选：语料库语言学新进展 |语料库|语言|语

_本文原题：多因素语境共选：语料库语言学新进展
本文转载自公众号：语言科学
摘要
概率性多因素语境共选是语料库语言学的新近热点。它致力于探讨语言形式和语义之间的对应关系，主要包括“一形多义”和“一义多形” 。词典学和社会语言学较早采用多因素方法，认知语言学则是近年多因素分析的主阵地。多因素分析广泛运用于词语义项区分、近义词辨析、近义构式选择、语法标记选择、语序选择等方面。多因素分析既是语言描写技术，也有很强的理论解释力。
关键词：多因素分析；语境共选；形义对应；多元统计；语料库语言学
1.引言
本文旨在重新探讨语料库语言学的学科属性。当前多数国内外学者都将语料库语言学视为方法论，认为语料库语言学是一堆语言材料、一组统计算法、一套分析工具。如此一来，语料库语言学仅是“器” ，无关“道” ，空有“语言学”之名。语料库语言学的发展史表明，事实并非如此（许家金， 2014）。 “概率性多因素语境共选”是本文对语料库语言学学科特性的初步概况。
Leech（2011：158）曾指出语料库语言学是有很强“方法论导向的语言学分支”（a methodologically -oriented branch of linguistics）。这一论断兼顾了方法和学科。然而，这一说法并未指明作为语言学分支，除了方法优势外，语料库语言学何以与社会语言学、心理语言学、认知语言学等相提并论?
以下本文将讨论语料库语言学对语言本体的认识，及其描写和阐释语言的方法和路径。一般认为语料库语言学重描写，轻阐释。这种观点将描写和阐释对立起来，显然有些过于简单化。我们认为深入的描写强过肤浅、附会的理论阐释，同时深入描写本身也有一定程度的阐释性（胡建华， 2018：476－477）。
语料库语言学内部也存在方法导向和理论导向两派，即所谓“基于语料库的范式”和“语料库驱动的范式” 。本文将综合各派理念的共核部分，从而勾勒语料库语言学的核心语言学价值。
2.语料库语言学的语言观
语料库语言学主张用法本位（usage-based）（参见Kemmer ＆ Barlow ， 2007）。用法观强调语言使用者的主体性和使用场景在语言形成中的作用。语法是言语社团经年累月交际活动的动态浮现特征（Hopper ， 1987）。因此学界早有“语法即用法”（Bybee ， 2006）的认识。从语言习得角度看，用法观认为掌握语言不是人的天性（nature）而是习性（nurture）。
自上世纪后半叶以来，除生成语言学外，其他诸多语言学流派大都可以归到基于用法的语言观（usage-based linguistics）之下。这一视角：（1）尊重语用；（2）强调功能；（3）依赖语境；（4）关注变异。据此，社会语言学、语用学、话语研究、（系统）功能语言学、历史语言学，乃至认知语言学，都是用法本位的。
尊重语用，从哲学上反映了用法语言观的经验主义基础，即作为抽象概念的“语言”以及人们语言知识的获得不是先天的，而是长期浸染于某种语言环境，不断与他人接触而形成的。语言是动态浮现语法现象。语言知识是认知固化的产物。
强调功能，指的是对语言形式和结构的探讨，都与意义和功能不可分割。形式和意义/功能是一币两面。甚至于说，意义和功能先于语言形式和结构。
依赖语境，指的是语用无不存在于特定语境。语境中的语言形式都反映一定的话语功能。充足的语境足可以消歧，足可以陈述事实，明示意图，还可以联结读者和作者，说话人和听话人。
关注变异，谈的是语境变化。比如英语变体研究、历时语言研究、中介语研究、翻译研究，都是某种形式的语言变异研究。
语境在语言使用行为上，体现为共选关系，这是一种依存式的关联。语境共选有广有狭。譬如社会语言学常常关注语言与社会语境的共选机制。语境化是分析语言使用的核心方法。语境是将用法语言观各语言学分支串联起来的重要线索。分页标题
在语用基础上浮现出的语法有其规约性，体现为“群言”（communal language）；同时，语言具有丰富的个体特色和语境依存性（contextual dependency）。语言学理论既要能解释群言的规律性，也要解释个人语言的创造性和特定群体语言的变异性。规律使人达成共识，创造和变异令交际饶有趣味。这可以用“性相近、习相远”来加以概括，即人类有共享的语言规律，同时语言又千差万别。语料库语言学揭示语言规律性和创造性的解决方案是：共选和概率。这两者合而为一，共同驱动着语言的运作。共选理论包括狭义的语言特征共选，以及语言特征和语境变量的共变关系。共选更多解释性相近，共变更多解释习相远。
在语料库语言学内部，共选研究先前主要体现为以搭配分析为主要手段的短语学研究，包括扩展意义单位分析框架、局部语法等；另一种则包括语言特征与语境特征的共选研究，例如，语料库话语研究、基于语料库的社会语言学研究、基于语料库的认知语言学研究。前者是所谓的语料库驱动的路径，后者是所谓基于语料库的路径。其实两者都是对语境变量的综合考察。从这个意义上说，两个具有竞争意味的流派，本是同根生，都是这里讲的概率性语境共选视角下的多因素分析。
概率性多因素分析，首先强调语言形式的选择受限于若干语境特征。这些特征的影响力有强有弱，且有可能共同作用。
受制于不同语境条件的语言形式选择，决定了语言形式会有不同的意义潜势。这种意义潜势的选择很大程度上是概率性的。语言研究中的概率并不完全具有随机性，而是具有条件概率性（conditional probability）。
3.概率性多因素语境共选研究的起源
多因素观念日常处处可见。例如人体健康由遗传、饮食、锻炼、环境、医疗等多方面因素决定。某种具体疾病也可能有多重诱发因素，因此在医学研究文献中经常采用多元统计方法便不足为奇。
在语言学相关领域，多因素理念也绝非新鲜事物。早在英语教学研究发轫之初， Fries就强调“语境取向”（contextual orientation）的必要性。他指出“若要全面掌握语言，需要系统观察和记录语句在确切语境中使用的多项特征”（1945：57）。全面掌握多项语境特征，正是多因素分析的核心思想。 Firth（1951）的“语境意义观”（contextual theory of meaning ）和Harris（1954）的“分布假说”（distributional hypothesis）反映的也都是这种取向。
从概率视角进行多因素语境分析，始于Hanks（1986；1996）、Atkins（1987）。 Hanks（1986：43）将词典词条描述为一个“方程式”（equation）。方程式左边是“条首词”（head-word ，又译作“词目”），右边则是用来解释条首词的语境特征。 Hanks主张应通过真实语料将典型的（typical、norm）和拓展的（exploited）构型识别出来，以便合理安排义项。 Hanks（1996）以动词语义刻画为例，分析了urge、indict、bother、abandon等动词的句法语义环境。例如，这些动词的上下文中一般会出现什么样的主语（名词还是代词，人还是物，具体还是抽象语义等）。 Hanks指出不同“意义潜势”的实现取决于不同词汇、句法、语义、语用的组合（1996：78 ， 94），他认为这一思想与Firth所倡导的“识词于其所友”（You shall know a word by the company it keeps）十分吻合。 Hanks（1996：79）把这种语境因素的“选择制约/倾向”（selectional restrictions / preferences）称为“行为概貌”（behavioral profile）。这一思路被命名为“语料库构型分析”（Corpus Pattern Analysis ，简称CPA）并进一步升级为“规范与拓展理论”（The Theory of Norms and Exploitations ，简称TNE）（Hanks ， 2013）。而“行为概貌”这一概念和分析思路被语料库语言学沿用。分页标题
Atkins（1987）是另一项重要的早期概率性多因素研究。作者基于COBUILD语料库，识别出数十个可以区别danger一词3个不同义项的词汇语法使用特征。 Atkins称其为“语义识别标记”（semantic ID tags）。例如，义项一“危险” ， danger用作不可数。其语义识别标记包括：后可接for/from/in/to/with ，而不接that；in+（冠词/量词/形容词）+danger；物主代词+danger；out of danger等。义项二“危害” ， danger用作可数名词。典型语义识别标记包括：danger（s）后接具体事物，例如dangers of smoking /pregnancy等。义项三“风险” ，其典型语义识别标记包括：限定词+danger+of；danger后接不期待发生的事，例如danger of collapse/disintegration等。
Sinclair（2004）的扩展意义单位分析和局部语法研究，在一定程度上采用的也是多因素语境共选理念。只是主张围绕意义单位的研究，建构一套原创的语言理论。
早期的概率性多因素分析聚焦于词典编纂，特别是义项的确立。它们关注的“一形多义”（polysemy/semasiology）现象，即同一词形有多个含义，需要借助多重词汇、句法、语义等局部语境加以解析。
另一类概率性多因素研究关注的是“一义多形”（synonymy/onomasiology）现象。这方面研究在Labov开创的变异社会语言学领域开展较早。人们在表达相同或相近语义时，因不同社会情境而会采用不同的语言形式。例如，汉语中“你”和“您”的使用，都是第二人称代词，但使用场合不同。这种研究的一大特点是因变量是两个或多个选项（比如，这里谈到的“你”和“您”）。 Labov（1966）的经典案例是分析纽约几家商场不同说话人在发/r/音是否卷舌的情况。他考察了r在词中间（fourth）或词尾（floor）、随口表达或强调表达、高中低档商场、说话人所在楼层、职业、种族、性别、年龄等多个语言因素和场景因素对r发音的影响。这是典型的多因素研究设计。 Labov当时只采用了描述性统计，没有使用多元统计方法。上世纪60年代David Sankoff开发了“变项规则程序”（variable rule program），即Varbrul ，用于对Labov（1966）类似的多因素研究进行多元统计分析，该软件后改名GoldVarb ，现可通过R软件包Rbrul加以实现。该软件的核心统计方法为逻辑斯蒂回归建模（logistic regression modelling）。类似的研究在社会语言学和二语习得领域已开展约半个多世纪。
近一二十年，认知语言学家重新引发了一波多因素研究热潮。其中两位代表性认知语言学家是Dirk Geeraerts和Stefan Gries 。前者更关注语言变异，后者注重研究结论的认知解释。 Geeraerts关注言内和言外变量的综合考察；Gries关注的主要是言内因素对词义或构式选择的制约程度（两者研究取向的异同，可参见Heylen et al. ， 2008）。
概括来看，言内语境共选的多因素探索从词典学开始；言外语境共选的多因素探索从社会语言学开始。相关研究关注的重点为语言形式和意义之间的对应关系。比如，一形多义（同一个词汇语法形式的不同含义）或一义多形（同一含义的不同词汇语法变体）。
4.多因素分析的主要选题
一义多形的多因素分析广泛运用于词汇和语法研究，少量用于话语语用研究。相关研究可归为以下几类：1）近义词辨析；2）近义构式选择；3）语法标记选择；4）语序选择。
（1）近义词辨析。所谓“辨析” ，从语言使用者角度看即是对近义词语加以区分，然后正确选用。类似研究常围绕近义形容词、副词、名词和动词展开。例如Gries（2010）就英语大小类形容词（big、large、great；little、small、tiny）做了多因素区分。 Desagulier（2014）对美国英语中rather、quite、fairly、pretty四个副词进行了区分。 Janda和Solovyev（2009）对俄语中近十个表示欢乐和悲伤的名词进行了多因素辨析。另有英俄跨语言开始类动词（英语begin、start；俄语na? inat’/ na? at na? inat’sja / na? at’sja、stat）的对比分析（ Divjak ＆ Gries ， 2009）。这里介绍的研究，看似关注点为单词，而在具体分析中落实的语言形式多半是短语（或构式）。在分析相关词语的搭配情况时，还时常会考虑到搭配成分的语义和概念含义。因而，上述这些研究被归为认知语义研究。分页标题
（2）近义构式选择。这类研究选题关注动词构式较多，这可能与构式语法中比较关注论元结构有关。相关构式的选择一般称作构式交替（alternation），即某一具有共同概念义的上位构式通常有两种或更多构式变体。在实际语用中，选用某种变体由多个因素综合决定。
较常见的研究包括对（1）与格构式（如Mary gave John a book与Mary gave a book to John之间的选择）的研究。因为是动词相关的构式，这方面的研究通常涉及的因素包括主语、宾语、介词宾语的名词/代词属性、名词短语的长度、生命度、具体/抽象等指标。除了关于英国英语和美国英语（Bresnan ＆ Ford ， 2010）的研究外，还有南亚英语（Gries＆Ber-naisch ， 2016）中的与格构式选择倾向研究。英语之外的其他语言（如德语， Geleyn ， 2017）以及跨语言（张懂许家金， 2019）与格交替对比研究也不在少数。
其他动词构式交替研究，包括：（2）动补构式。例如Gries（1999；2003）关于动词加小品词构式交替选择（pick up the book与pick the book up）的制约因素研究。 Deshors（2015）关于动词后接to do还是ing的选择问题；（3）致使构式。比如Speelman和Geeraerts（2010）关于荷兰语doen（类似英语中的do或make）以及laten（类似英语中的let或make）等致使构式的研究。
名词性构式交替中，探讨最多的是属格构式（名词加’s及of结构的选择问题）。例如， Rosenbach（2003）关于英语属格选择问题。 Gries和Wulff（2013）还分析了中国和德国英语学习者的属格交替问题。其他的语言现象还有more加形容词/副词和形容词/副词词尾加er的比较结构研究（Hilpert ， 2008）等。
（3）语法标记选择。此外一大类多因素研究关注的是语法标记的选用。此类研究中数量最多的是有关于宾语从句引导关系代词that/零形式的选择倾向。 Shank等（2016）分析了think等动词后接that或省略that的各因素单独影响及其交互作用。
Deshors（2015）对比了中国和法国英语学习者在使用can和may这两个极高频情态动词的选择困难。类似的现象，比如be going to与will/shall的选择问题，也有不少研究（如Szmrecsanyi ， 2003）。
（ 4）语序选择。这类研究涉及论元先后顺序、从句和主句先后顺序等，例如Diessel（2008）谈及时间状语从句出现在主句前后的影响因素。 Wiechmann和Kertz（2013）关注的是although和whereas引导的让步状语从句在主句前后的制约条件。 Wulff（2003）专门考察了英语中多个形容词排序的多个制约因素的影响程度。
除此之外，还有少量多因素研究涉及话语和社会语用层面的现象。例如， Han等（2013）关于上海话话题标记的选择问题。 Gries和Adelman（2014）研究了日语话题主语出现和不出现的制约因素。 Levshina（2017）比较了欧洲多国语言中敬语标记（例如法语中的tu和vous、德语中的du和Sie ，俄语中的ty和vy）的选择问题。
总体来说，相关研究涉及词汇和语法现象选择的情况较多，只有极少量研究关注话语语用现象。多数研究着重考察的是言内多因素，有一部分研究加入了语域、变体和历史时期等话语和社会语言学变量。
5.多因素分析主要统计方法
从上面有关多因素研究选题的概述可知，所谈现象并非全新。多因素分析可以促成旧题新做和旧题深做。在目前技术条件下，多元统计分析所用的基础数据，很大程度上依赖研究人员自行标注。语料的手工标注极为耗时，当然也最能体现研究的语言学价值。语言属性的精细标注加上多元统计，使得多因素研究可以兼顾理论深度和方法优势。
多元统计在多因素分析中的价值，是要协助研究者回答语言特征选择的概率性理据，即在多大程度上，人们在何种语境下，会更倾向选择语言特征A而非B 。用于多因素分析的常见多元统计方法有线性分类器、聚类分析、对应分析、逻辑斯蒂回归、多维尺度、条件推断树、随机森林等（这些方法还存在相应的变体）。简而言之，这些方法解决的都是语言特征选择的制约条件，我们称为“形义聚分”问题。以下将从用于多因素分析的数据格式、常见统计方法做一介绍。分页标题
数据格式。以往语料库语言学的典型数据格式主要为词表、多词词表、搭配词表、主题词表和索引行等。多因素分析所采用的典型数据格式为“表格型数据”（tabular data），这种数据在R语言中被称为“数据框”（data frame），见表1 。

本文插图
其中第一列Instance是关系代词使用that或采用零形式的情况。后面Subject、MatPolar、VerbSema、MatLengt几列数据体现的是主语、主句极性、动词语义、主句长度属性等多个因素。若有更多因素，则依次添加列即可。每一横行代表一个具体的语言使用实例。表1中为五句话中关系代词使用that或采用零形式的情况。根据研究实际，往往需要如此标注数千行。语料标注通常在Excel中进行，常存储为csv格式，也可以把Excel工作表中的数据复制粘贴到*. txt格式纯文本文件中。在R程序中可通过read. table（ file =file．choose（））命令读取该标注文件，进行多元统计。 Glynn（2014：325－327）给出的多因素统计方法一览表是个有效的导引。
常见多元统计方法。多元统计方法可分为探索性和验证性两种。聚类分析、对应分析等更具探索性，即研究者不预设语言属性（如时态、抽象/具体、语域）与语言特征（如that的使用与否）的关联性，而由数据根据语言特征使用概率自行计算出其互相吸引的程度。以英语程度副词辨析为例，根据与之搭配的形容词情况，聚类分析可以用pvclust函数及软件包将fairly和quite、a bit和somewhat、completely和totally聚到一起（Desagulier 2014：163）。再比如，我们可以利用ca函数及软件包以对应分析方法将动词talk和具体话题、suppose和抽象事件等在二维图形上对应到一起，从而直观看出这些动词使用的语义倾向（Glynn ， 2014：458）。而逻辑斯蒂回归则是典型的验证性多元统计。它是基于前人文献，将可能有关的语言属性，都尽可能囊括到分析之中。统计运算会赋予每个属性/变量一定的权重，并剔除权重较低的变量。例如，我们可以利用MASS软件包中的glm函数，对制约动词后接to do还是ing的句法、语义、语用等7多个因素的影响程度及其相关变量之间的交互影响进行量化（许家金陈哲， 2018）。
多因素分析的结果解读起来并不容易，常常需要进行可视化。典型的可视化方法有聚类分析树形图（dendrogram）、对应分析二维图、多维尺度图、条件推断树图和动态图（motion chart）等。
需要指出，多元统计方法是基于概率性语境共选的语言观，并非刻意要将研究方法变得如此复杂。以往基于简单频数的统计，将语言视作随机性现象。目前看来，这种认识有必要更新。语言使用中体现出的概率属于条件概率。例如，主语位置如果是第一人称单数，那么其后的谓语动词的选择就不那么随意了，而必须考虑到相应的性、数、格的一致问题。这一定意义上说明了为何先前基于均值比较和正态分布的一些统计方法并不完全有效。
再有，多因素分析中经常采用的逻辑斯蒂回归建模，而不是通常的线性回归，就是考虑到我们将语言特征选择作为反应变量，这种选择往往有两种或两种以上的可能。通常的线性回归因变量只能是一个变量，且必须是数值型变量，如词汇判断任务中的反应时。另外，逻辑斯蒂回归模型中还可加入随机效应变量（其他自变量为固定效应变量，此类模型称“混合效应逻辑斯蒂回归”）。具体到某个语法范畴变量，可能会包含多个具体形式，例如认知动词会包含think、assume、suppose等等，这些必须要作为随机效应变量来处理。如果语料中将具体的作者或说话人作为变量，则也要作为随机效应变量来处理（参见Baayen et al. ， 2008）。分页标题
总之，采用多因素分析法，就是为了反映真实的复杂语境互动，从而更好地表述、呈现语言选择的机制。一定程度上，这克服了之前语料库语言学分析中过于依赖“多用”和“少用”的浅层描写问题，在描写、解释和预测语言选择机制方面都有所建树。
6.我国多因素分析的前景与现状
社会语言学传统的多因素分析在我国起步较早。例如，徐大明（1999）曾介绍新加坡华社双语调查中采用的变项规则分析法，即逻辑斯蒂回归。在词典编纂传统的多因素研究方面，方子纯和陈坚林（2014）对表示“巨大”的六个词（immense、enormous、huge、massive、tre- mendous和vast）的行为概貌进行了多因素分析，考察的语言属性包括它们的名词搭配词、表语用法和语域分布模式，采用的多因素统计方法是“层级配置频次分析” 。
认知语言学传统的多因素分析，由张炜炜和Liu（2015）、张炜炜和刘念（2016）、房印杰（2016）等撰文介绍多因素分析的理念及方法。我国学者关于此类多因素实证研究也逐步兴起，包括邵健和张建理（2017）、张炜炜和王芳（2017）、许家金和陈哲（2018）、张懂和许家金（2019）、房印杰和梁茂成（2019）、徐晶凝和郝雪（2019）等人以中文完成的研究成果以及Guo和Chow（2014）、Zhang（2016）、Yao和Collins（2019）、Shao等（2019）等人以英文发表的成果。
概率性语境共选视角下的多因素语言研究，以用法本位为语言观，可以更好地整合语言学内部的不同研究范式。它所希望解决的核心语言学问题是形义映射，具体包括“一形多义”和“一义多形” 。多因素分析既关涉语言构型的原型性和规约性，也十分关注变异性和创造性。
语境共选视角下的多因素分析实际上是对用法观的实证化和操作化。同时，多因素研究较好地处理了以往学界对语料库语言学“计算复杂”（computationally sophisticated），但“语言理论方面幼稚”（linguistically na?ve）的问题（ Murakami et al. ， 2017）。与单因素研究不同，多因素研究的核心是语境特征的概率性共选，可以说是对Firth语境论的新发展。多因素分析既是描写，其语言属性的共选机制也具有很强的阐释力，是有依据可验证的阐释。同时，相关结论还可以预测今后出现的语言现象。
综合来看，我国学者开展的多因素研究，相当数量是对国外成果的复制。我们应更多关注本土化的研究选题，例如汉语研究、中国英语学习者中介语研究、外国留学生汉语中介语研究、英汉对比与翻译研究等等。同时在研究方法上，可尝试将多因素语料分析和心理语言学实验结合，对研究结果进行交叉验证。
作者简介：
许家金，教授，博士，博士生导师，研究方向为话语研究，二语习得，语言对比与翻译，语料库语言学。
【语言学|多因素语境共选：语料库语言学新进展】延伸阅读