征友资料挖掘:初步结果
2015-12-25
虽然并没有完成,但先放出一些结果:性别、年龄、身高、城市的分布图。
这个项目其实搁置挺久了,只是一直在添加新的资料而已。在圣诞这个特殊的日子里,我决定把现有的很粗略的结果放出来吧。
文本挖掘
从原始文本中整理出规范的变量,是这个项目最大的难处。每个变量都会有几十种名称的写法,也会有十几种不同的格式。目前提取出了年龄、身高和所在城市。其中由于所在城市可能的值很多,所以一直处于未完成的状态。其余变量属于文字段落,需要进行中文分词处理,暂时还没有计划实施。
性别分布
每周两期女士一期男士,而且还常常有投稿男士数量不足的时候,就足以说明了在征友的性别比例和人口实际性别比例完全相反。在所有2509份资料中,男找女有598份,女找男有1901份,同性有10份。
年龄
公众号从2014年开始发布征友资料,最新一期是2015年底。按发布资料的年份统计年龄,基本统计如下表:
最小值 25% 中位数 均值 75% 最大值
男 20.00 25.00 26.00 26.55 28.00 37.00
女 20.00 24.00 26.00 25.84 27.00 39.00
男性年龄分布图(下左)和女性年龄分布图(下右):
男女年龄的中位数均为26岁,分布形状也基本相同。但男性年龄分布的右侧尾部要比女性的多。
身高
身高的基本统计和分布图如下(下左为男性,下右为女性):
最小值 25% 中位数 均值 75% 最大值
男 165.0 174.0 178.0 177.6 181.0 195.0
女 152.0 160.0 163.0 163.7 167.0 178.0
统计上看并没有什么出奇的地方,男女的中位数也符合直观的感受。
分布图却出现了很多奇怪的峰值,比如男性的175、178、180、183,和女性的158、160、165、168。大概是“取整”和对“8”的偏好影响。如果磨平这些峰值,身高大致呈现正态分布。
城市
由于城市众多,而且一座城市还有很多种称呼,所以目前还没有完全清理。出现次数最多的前20座城市的饼状图如下: