||
以前讲数据库课时,为学生演示分组查询统计,总觉用几行记录做示例,学生体会不到关系数据库的强大, 我曾从网上下载了07年某省高考录取名单作示例,分组查询后发现一些有意思的数据。2007年上大学的人多数是88年左右出生的,统计的样本为20.4万人,基本覆盖了全省。
统计全省这年考上大学学生姓名,姓氏大约有728个。在这728个姓氏中,前十五大姓就占了总人数的58%,其中姓氏及人数为王21180、张20276、李18859、刘15021、赵7897、杨6562、陈4584,这七大姓就占近一半,达46.3%,孙马高郭韩吴周宋,占也总数的11.7%。复姓及人数有:欧阳20、宇文9、皇甫5、澹台4、赫连3、尉迟3、轩辕1、上官1、端木1人,这些姓有的是我们常见的汉字,如乙、广、干、主、买、四、老、山、水、木、好、丑等,有的恐怕是多数人不认识也从未见过,如肜、貟、庹、璩、隰、杲等,以上这些姓氏看起来多,其实还不及我国姓氏数的一个零头。
这20.4万人共用了13.1万个姓名,11万人不重名,45.7%的人是重名的。据说中国有30万人叫张伟,在这批数据中李娜最多,195人,李静、张静、王磊、王静、王伟、王超、张倩、张磊、张伟都排名进入前10,刘姓中叫刘洋的位居第一。
对于姓名的字数,68.5%的人用三个字,31.4%的人用两字,除复姓四字姓名外,28人用了4个字作姓名,可能现在姓名用四个字的小孩比二十多年前更多。统计名的字数之和34万多,用到的汉字仅有2500多个,不过也有不少是生僻字,用的最多的是晓字共8767次,其他前十位的字是丽、龙、伟、静、超、海、文、艳、志等。统计这20万人姓名的最后一个字用的最多的是龙、伟、超、飞、静、杰、娜、丽、娟、华。姓名三个字的人中,用晶晶取名的最多,有546人,丽丽、丹丹、丽娜、鹏飞也有400多,不过叫亚楠及亚男的分别有343和246人,合起来超过了晶晶。 若加上娅楠11娅男5亚南154雅南13雅楠123雅男20 共915人,可见当时人们的心情,相对五六十年代生的人来说叫招娣2人招弟1人,就少多了,因为政策不让再招一个弟.
从这些用字中我们可以看出八十年代人们的思想观念,对孩子甚至对国家的期望,也可看出改革开放的影响。如统计六、七十年代出生人的姓名,军、红、兵等字肯定是排在前的,当然五十年代或解放前的常用字富、花、贵现在是大大减少了。当然九十年代求新求洋的姓名肯定不少,不过现在有传统文化意味的名字如轩、涵、浩然等字也在增加。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 05:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社