Java+Redis+ES+Kibana对百万用户数据分析( 四 )


  1. 模糊搜索
全字段匹配 , “模糊”搜索含有“知乎”的数据 , 搜索结果图如下:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
4.4 echarts作图从上面的kibana画图效果来看 , 真的一般般 。 这里更推荐使用kibana收集数据 , 利用百度开源的数据可视化工具echarts来作图 。
最终的数据汇总以及echarts绘图效果图如下:
  1. 关注数层级统计

Java+Redis+ES+Kibana对百万用户数据分析文章插图
很明显地 , 绝大部分知乎用户都是“知乎小白”或者“知乎路人” 。 这里的“知乎超大V(1000000+)”的用户只有3个:“丁香医生”、“知乎日报”、“张佳玮” 。
  1. 行业信息统计
手动整理后的行业信息图如下:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
很明显地能够看出 , 大部分知乎用户所处的行业都与计算机或者互联网相关 。
  1. 公司信息统计
统计了出现频率最多的前15名所属公司统计图如下:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
可以看到 , “腾讯”、“阿里”的员工数量遥遥领先 。 虽然“百度”还是排名第三 , 但已经不在一个数量级 。 (“BAT”的时代真的一去不复返了吗?)
  1. 职位信息统计
基于职位信息统计图 , 利用中文在线词云生成器优词云 , 生成出现频率最多的前100名的职位词云图:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
可以看出 , 除了学生以外 , 很多知乎用户都从事计算机或者软件编程相关的工作 , 也就是说 , 知乎用户中“程序猿/媛”所占的比重极其的大 。
  1. 大学信息统计
统计了出现频率最多的前20名毕业院校统计图如下:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
可以看到 , 填写了毕业院校的知乎用户(其实还有绝大部分人没有完善该信息) , 这些毕业院校的实力和名气那是杠杠的 。
  1. 专业信息统计
统计了出现频率最多的前20名专业统计图如下:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
可以看到 , “计算机科学与技术”和“软件工程”这两个专业的人数遥遥领先 。
  1. 居住城市信息统计
统计了出现频率最多的前20名居住城市统计图如下:
Java+Redis+ES+Kibana对百万用户数据分析文章插图
很明显地 , “帝都”和“魔都”的人数遥遥领先 。 (这里可以做一个相关性不大、准确度不高的推论:杭州将是下一个“新一线城市”最有力的竞争者 。 )
5. 总结从最终的信息统计结果来看 , 大部分的知乎用户信息不算完善(信息比例) 。 但这些统计结果图 , 都是基于知乎用户已经完善的信息进行整理并分析的 。 很明显地可以看出 , 已完善信息的知乎用户 , 基本都在发达城市大公司任职 , 而且其中的很大一部分是“程序猿/媛” 。
也就是说 , 如果我(码农一枚)在工作中遇到什么专业难题时 , 在知乎中寻求到的答案是专业可信的 。