大数据入门—读取12.5亿行数据的简单代码( 二 )
> 1D plot (histogram) in Vaex (Image by author)
要应用2D分箱和可视化 , 可以使用以下代码
df.plot(x-axis, y-axis, shape(shape_x, shape_y))
这是要在我们的数据中应用的示例
文章插图
> 2D binning with Vaex (Image by author)
可视化2D图大约需要4分钟 。这是非常可以接受的 。您想象另一个模块以2D图的密度可视化12亿行需要多长时间 。它会给你这样的数字 。
文章插图
> 2D density plot in Vaex (Image by author)
结论未来就在这里 , 大数据时代已经来临 。我们必须准备所需的所有技术 。准备工作之一是建立一个Python库 , 该库可以有效地读取和可视化大数据 。Vaex即将为此提供解决方案 。它声称Vaex可以在一秒钟内读取10亿行 。
我希望您可以学习本故事中提到的示例并将其详细说明给您的数据 。就这样 。谢谢 。
参考文献:
[1] Schwartz , E 。 I. , 《数字达尔文主义》(1999) , 百老汇书刊
[2]张瑜和赵瑜 , 《大数据时代的天文学》(2015年) , 《数据科学》杂志
[3] Skrutskie , M. F.等人 , 《两微米全天候测量》(2MASS)(2006) , 《天文学报》 , 131:1163–1183
[4] Gaia Collaboration , T 。 Prusti等人 , 《 Gaia Mission(2016)天文学与天体物理学595》 , A1
[5] Robin , A. C.等人 , Gaia Universe模型快照(2012)天文学和天体物理学543 , A100
(本文翻译自Rizky Maulana Nurhidayat的文章《Introduction to Big Data — A Simple Code to Read 1.25 Billion Rows》 , 参考:)
- 苹果两款新iPad齐曝光:性能提高、入门款更轻薄、售价便宜
- 未来想进入AI领域,该学习Python还是Java大数据开发
- RHEL 9提升了x86_64处理器的入门要求
- 黑客窃取250万个人数据 意大利运营商提醒用户尽快更换SIM卡
- 阳狮报告:4成受访者认为自己的数据比免费服务更有价值
- 中消协点名大数据网络杀熟 反对利用消费者个人数据画像
- 学习大数据是否需要学习JavaEE
- 意大利运营商Ho Mobile被曝数据泄露
- 微软官方数据恢复工具即将更新:更易于上手 优化恢复性能
- HDMI 2.1诞生三年:超高速数据线落地 8K电视圆满了