英语口语中有哪些高频词串(Lexical Bundles)( 二 )


本来idiom,phrasal verb的数量已经很庞大了,再加上我上面说的这些非习语、非短语动词的固定组合,就数量非常多了,一两千肯定是远远不够的,当然如果只是基本口语应用的话,则用不了那么多。
我想我见过的唯一按照这个理念的一个phrase集合,就是longman language activator(某个版本把它叫做写作词典,真是不懂,这就是一个表达词典,不管是口语表达还是书面表达),貌似还有几个类似的,暂时还没时间细看。LLA的理念其实我觉得相当好,很值得借鉴,当然LLA并不是最理想的一种编排方式我觉得,但是最有可操作性的一种。我只是觉得对英语表达感兴趣的学习者来说,一般的词典包括英汉或汉英都帮助不大了,LLA这种有帮助,但这种很少,不明白为什么,暂时想到这么多,后面继续探讨吧。
对了,题主还提到语料库,有些词典或其他工具书,里面例句号称从真实语料库中得来,但看了和以前字典中编写的例句没什么太大不同啊,很多都是没什么养分的例句,当然有养分的例句确实不好搞:)

■网友的回复
几天前就看到邀请了,虽然研究生论文开题是关于语块(词块),但是是开题前三天定的题目,只看过几十篇相关论文,没有像样的综述。看到竟然有这么多人关注,所以觉得有必要借着语料库期末论文也写了语块的热乎劲,先来简要科普下,以后再补充:10.8更:大论文不做语块了,改做偏语篇评价的一个结构。------------------------①从楼主描述来看,楼主可能更关注的那个概念要小于语块,叫做“话语标记语”(discourse markers),属于语篇分析(DA)方向。因为我们语篇分析老师是做话语标记语,所以写过这方面期末课程论文。典型的话语标记语比如you know, I mean等,我们有学长毕业论文做过语用惯用语,比如楼主说的have a nice day, Thank you very much等。当然话语标记语还包括词,比如连词and, because,副词actually,感叹词well, oh等。研究者对话语标记语称谓包括sentence connectives, clue words, discourse dexis, pragmatic devices, discourse particles, discourse operators, conversational routines等,主要研究者包括Schiffrin, Aijmer,国内冉永平,何自然等。感兴趣的可以去搜相关论文,不再展开。②我们说的语块与语料库语言学,认知语言学,语篇分析,心理语言学方向研究都有关系,心理语言学讲语块也像词一样是我们心理词库(mental lexicon)的一个单位,是作为整体来存储加工的,这是语块的心理现实性。一个人语言流利程度不仅取决于所掌握的词汇和语法规则,也取决于程式化的短语成份的多少。语块的定义我就不说了,不同的术语包括chunk, phraselogy, lexical phrase, formulaic sequence, cluster, lexical item, lexical routin, prefab, multi-word unit/expression, recurrent word combination,以及语料库里讲的N-gram N元组等。不同学者对语块分类也不同,楼主说的Nattinger \u0026amp; DeCarrico是一种,Biber等人对lexical bundles的分类也是影响比较大的,分为四种(也有说三种):指示语块referential bundles(如at the end of),立场语块stance bundles(It is possible to),组篇语块discourse organizing bundles(in addition to),以及特殊话语功能语块special conversation function bundles(Thank you ),我毕业论文研究的就是其中一种语块。③为什么我说楼主关注的概念小于语块,因为语块的数量是比词要多的,而且不一定具有完整的句法结构,楼主想要的列表是我们惯用的词组或结构的列表。学者一般将标准化之后,20次/百万词的语块作为研究对象。对语块的提取方法一般采用语料库方法,常用的语料库工具有wordsmith tools, AntConc, PowerGREP, 还有TextSmith tools一般用来分析文本部分之间的语言特征,忘了能不能提取语块(详细操作步骤可参见詹宏伟“语料库中语块提取的工具与方法”一文)。可以提取语料库中的2词,3词,4词,5词等多词序列,也就是词块。我们可以举个栗子,I have a dream that my four little children will one day live in a nation...这样一个句子,提取3词语块是这样的:I have a, have a dream, a dream that, dream that my...以此类推,再根据复现频次排序,就会得到一个三词语块列表。2词序列数量最多,其他多词序列依次减少,语块越大,数量越少。所以可以看到,如果你提取2词序列,数量是相当庞大的,并不是楼主说的数量有限。列表不是没有,但是根据你提取的序列数和语料库不同有所差异,比如Biber学术英语语料得出的部分4词语块列表,指示语块are a lot of, there are a lot等,立场语块列表agree with the statement, I agree with the, I am interested in, I would like to等,组篇语块列表according to the lecture/professor/reading, at the same time, first of all the等,当然这只是小型学术英语书面语得出的4词序列,你如果用其他语料库比如BNC得出的列表也会不同(可参考Biber等人“formulaic sequences and EAP writing development: lexical bundles in the TOEFL Ibt writing section”,以及另一篇其他学者的“an academic formulaic list: new methods in phraselogy research”等)。④只从研究角度讲,目前多数人的研究我觉得都是不全面的,因为词块不仅可以是连续的,还可以是非连续性的半固定结构,比如题主说的not only...but also可能没法提取,还有像特定语块It is ×××(likely/impossible) to 这样表达立场的语块的提取则需要用到正则表达式和PowerGERP这样的专业工具。⑤所以,像楼主要求的那样一个英语口语高频语块列表是可以有的,但是代表性就不好说,因为即使像COCA和BNC这样的大型语料库,规模是最大,但不仅包括口语还有书面语,其中口语语料的代表性也不好讲,况且口语语料的收集转写就比较复杂,很难收集大量自然发生,真实场景的口语语料。还有,不同区域,不同个体也有自己的语言使用习惯。还是建议更多关注话语标记语的相关研究吧,对you know,Well, I mean, I think 这样的话语连接语的掌握确实会对语言流利程度有帮助。对语块也好,话语标记语的研究还是对语言学习,教学和教材编写有所帮助的,比如你可以回想下中学的英语课本里应该没有you know这样一个短语,而英语母语者使用这个短语的频率是非常高的。