普通高中毕业的中国人的汉语词汇量(识字量)有多少( 四 )


初看这个问题,确实感觉中文陷阱很多,但仔细想想却不尽然。比如说egg是鸡蛋,duckegg不是鸭蛋吗?或者这种说法对于说英语的人是不会产生歧义的。再比如牛肉是beef,猪肉是pork,但是说cowmeat,pigmeat也没有人会觉得“听不懂”了,当然也有一些喜欢卖弄的人坚决抵制这种做法。我是学计算机的,计算机领域可是非常喜欢词组的,比如中央处理器CPU,centralprocessingunit,这三个单词都是非常常用的简单词汇,而组成这个词组后基本也是原本的意思,英语使用者看到这个词(不是缩写的话)也是能大概猜出它是干什么用的
我们可以看出,这种用简单词组成复杂词的现象,在其他语言中也并不少见,可以说,越到概念复杂的领域,不同语言的区别就越小,越容易造词
但是问题来了,如果真的如我所说,汉语在造词方面并非一枝独秀,那为什么我们感觉还是那么不同呢?

关键有两点:虚词实体化、“词缀化”
(后面一个概念是我自己的,所以加上了双引号)

首先我们学外语时往往最开始接触的陌生概念就是“变形”。比如说英语的gogoeswentgonegoing等。都是go,为什么要变形?因为要靠变形表示时态。比如今天做的和明天要做的,昨天做完的,用不同单词表示,才能符合语法要求。但仅仅理解到这里是不够的--为什么要有这样的语法?说到底语法是人创造出来的,总结出来的,是总结大家都说的话再进行编纂的--那为什么要这么说话?
为了方便
实际上自然语言的传达速度是非常之慢的,文字化可以加速很多,但依然很慢。为此必不可少的就是删去一切冗余的东西,让那些你已经知道的东西不再显示出来就好了(可以理解为某种意义上的压缩算法)。因此,如果我们用不同词汇表达不同内容,就能节省很多时间。一些语言分阴阳性估计也有这方面考虑。(比如“男性俘虏”和“女性俘虏”,那待遇肯定是不同的......)实际上中文某正程度来说也存在这个现象,比如凤凰这个词就是一公一母,古代很多动物雌雄都是不同词汇,而这英语里和很常见
说了那么多,这和中文什么关系?关系是,中文把这些变形所包含的含义,抽象出来构成了词。比如说“我吃饭了”,“我正在吃饭”,“我吃过饭了”,其中的“我吃饭”三个字完全没变,只是加了几个字就改变了时态。换句话说这几个字就担负起了“改变时态”这个功能。(文言文自然是不一样,但本身那就是慢慢读的高压版本,看白话文小说(比如水浒传)的话就能感觉和现代汉语相似度很高)
而这种情况其实在英语里也存在,比如我们特别喜欢的-ed,-ing。没错,这就是词缀!汉语的字(这里是我的理论)其实可以充当词缀的作用!
比如说鸡蛋,我们可以理解为是“鸡”的“蛋”这样的两个名词从属关系的组合,也可以理解为“鸡生的”修饰“蛋”这个词。再比如“蛋花汤”,也可以理解为“蛋花”修饰“汤”,意思是“有蛋花的”“汤”,而“蛋花”可以再拆解为“蛋”“的形状起来像花”(这还是个定义后置)
也就是说汉字的每一个字,都可以成为词缀!
这是汉语最大的武器和美丽,也是它灵活的关键。有的人喜欢说中文意和,英语形和,我倒认为这是不求甚解。中文是把词语的修饰功能下放到每一个基本单元,由此产生了无数种词性与语用不相同的诡异局面。如果按照英语那种固定词性决定固定用法的方式来分析中文,那必定是要吃苦头的

所以最后回到这个问题--实际上这个问题没有什么意义,因为一个汉字与一个单词的价值不同,一个汉语词组与一个英语词组的价值倒可能相当--但如果只是讨论复杂概念的理解认知,那其实就等于考学历了......

■按照九年制义务教育的要求,国家教委颁布的基础教育教学大纲规定基础教育阶段的识字量为3500字。小学识字量为2400,中学识字量为3800,而整个中学的识字量为6600。

附带一提:毛喻原先生曾经说过与英语相比,汉语的词汇量是非常小。即使一部欧美普通学生所用的字典所收单词也至少在十六至十七万个以上。这种类比的说法是不正确的。江苏大学何南林教授跟北大外语学院世界文学研究所辜正坤教授都指出:中国儿童记住2000---3000个汉字,就可以阅读《人民日报》而不会有多少生词。印欧语系的儿童即使记住了8000左右的单词,在阅读《华盛顿邮报》时仍然会有很多生词。

而国务院通过的教育部、国家语言文字工作委员会组织制定《通用规范汉字表》收字8300个。根据字的通用程度,字表划分为三级:
一级字表收字3500个,是使用频度最规范汉字规范汉字高的常用字,主要满足基础教育和文化普及层面的用字需要。
二级字表收字3000个,使用频度低于一级字。一级、二级字合起来共6500字,主要满足现代汉语文本印刷出版用字需要。
三级字表则是一些专门领域,包括姓氏人名、地名、科学技术术语、中小学语文教材文言文使用的未进入一、二级字表的较通用的字,共收字1800个,主要满足与大众生活和文化普及密切相关的专门领域的用字需要。

汉字的每一个字本身就具有意义自我阐释的作用。因为它的根底来源于图画文字。图画就是外部世界事物的缩影。一个字就是表达的含义从它的书写本身就已经显示出来了。这等于说每个汉字就是自身的含义小词典。如果有两个、三个、四个字组成的汉字词组,则各个单字便等于可以相互阐释,互证互释互彰。
参考资料
《课程·教材·教法》1992年第6期文摘《九年义务教育全日制小学语文教学大纲》
署名陈国雄、崔峦
华东师范大学2012年硕士论文文摘《小学语文识字量调查研究》署名何玉婷
语言文字论辩集
国务院关于公布《通用规范汉字表》的通知
《通用规范汉字表》(征求意见稿)背景知识词条-中华人民共和国教育部政府门户网站

■我整理过词汇,所以我来说一下吧。
首先,汉字分成一二三级,一二级字有7000不到,是识字的普通人应该都会认识的。三级字大部分人几乎都不认识,所以对于汉语来说,识字是很简单的。大概是7000左右吧。
其次,词汇这玩意定义很麻烦,比如中国、制造、中国制造可能算3个词汇,也可能中国制造不算词汇。所以如果粒度足够大的话,可能我们平常用的词汇可以达到几百万(腾讯有个词向量就这么多)。但是在粒度小的情况下,识字的人的词汇应该是在5万到10万。超过十万的时候你会觉得那些词你熟悉,但是不确定是否是词,实际上它本身能否定义成词很难说的清。

■目前已知47000种动物,每个后边加个“肉”,很好,我的词汇量已经47000了(#?Д?);再加个“血”,词汇量94000;再加个…………?(????????????)?

■驳某人说汉语量词复杂:
“要你这么杠的话,那我也问你:中文词汇里一“匹”马、一“头”牛、一“只”猪、一“条”鱼这些量词除了死记硬背还能怎么办?英文一个“a”加可数名词不就搞定了?这不证明中文比英文更晦涩?不要这么杠了。”

反驳1:
一张纸、一摞纸、一卷纸、一包纸、一捆纸……
每一种“一x纸”都有不同的含义,而且都是三个字,用英文表述这么多的“一x纸”你不会全部都说“axxxxxx”吧?

反驳2:
一瓶水、一杯水、一碗水、一壶水、一瓢水、一桶水、一缸水……
你把这些全翻译成英文试试?真以为中间那个字是死记硬背的专属词汇呀?这个字是有含义的。

同样的,“头”、“匹”、“只”等字也是有各自的含义的,你以为这是简单地表示数量呀?


■词汇量和识字量是两个概念,普通中国人词汇量应该有2-3w,识字量4k左右

■高三毕业没测过。
前两年回答一个类似问题测了一下。
方法是从《现代汉语词典》随机挑了十页左右,计算每页认识单词的百分比,最后乘以这本词典的总收词就得到了我的词汇量。因为毕竟是自己随便测得,所以什么置信区间等统计问题都没有考虑。
这十页我统计下来有90%-95%的单词认识。《现代汉语词典》收词69000,那么我的词汇量应该在62000-65000之间。
从我个人的实际感知看来,我基本认为是合理的,平时难得遇见一个完全不知道意思的单词。
我就一普通人,不是什么作家、编辑…
那么我的词汇量夸张吗?夸张!
你们试试也一样夸张!

识字量?
估计大众平均水平。
反正什么蒟蒻我是念不出来的。
■记得一段时间之前,我看过这个问题。不过由于没有一个可以在线测试的汉字识字量的网站(应用),于是身为程序员的我,就自己做了一个判断汉字识字量的应用。

测汉字:http://hanzi.sjz.io

网站里的汉字的总量大概是1W多一点,每次抽取60个汉字。每个汉字对应一个识字量,选择相应的汉字,会计算总的识字量,对照出来,就是你会的识字量了。

不过为何我一个大学毕业的,每次测试的都是4000多一点的识字量呢?难道我的应用不准确?我很好奇。

截图如下:













欢迎大家提意见!

■(多图)
一个普通高中毕业的中国人,识字量大约是4000-5000个。
在《通用规范汉字表》里,一级字表(常用字)有3500个。
我从中抽取几页,大家看一下:









可以看到,都是生活中很常见的字,高中毕业生认识这些字毫无问题。

然后二级字表有3000个,抽几页大家看一下:









可见出现了一些生僻字,不过高中毕业生(语文不太差的话)保守估计也该认识其中三四成。

三级字表还有1000+个字,不过我觉得一般人认不出几个:



反正这一页我认识的字不多,还都是从历史、文学类书籍上认识的,比如瑷珲条约的瑷、王翦的翦、涅槃的槃、钱锺书的锺、“项王按剑而跽”的跽,诸此等等。在日常生活中几乎不可能用到这些字。

所以估计一般高中毕业生认识的字大约4000-5000字。

特别说明:这里的“高中毕业生”指的不是高三刚毕业的学生。