大数据入门—读取12.5亿行数据的简单代码( 二 )


> 1D plot (histogram) in Vaex (Image by author)
要应用2D分箱和可视化 , 可以使用以下代码
df.plot(x-axis, y-axis, shape(shape_x, shape_y))
这是要在我们的数据中应用的示例
大数据入门—读取12.5亿行数据的简单代码文章插图
> 2D binning with Vaex (Image by author)
可视化2D图大约需要4分钟 。这是非常可以接受的 。您想象另一个模块以2D图的密度可视化12亿行需要多长时间 。它会给你这样的数字 。
大数据入门—读取12.5亿行数据的简单代码文章插图
> 2D density plot in Vaex (Image by author)
结论未来就在这里 , 大数据时代已经来临 。我们必须准备所需的所有技术 。准备工作之一是建立一个Python库 , 该库可以有效地读取和可视化大数据 。Vaex即将为此提供解决方案 。它声称Vaex可以在一秒钟内读取10亿行 。
我希望您可以学习本故事中提到的示例并将其详细说明给您的数据 。就这样 。谢谢 。
参考文献:
[1] Schwartz , E 。 I. , 《数字达尔文主义》(1999) , 百老汇书刊
[2]张瑜和赵瑜 , 《大数据时代的天文学》(2015年) , 《数据科学》杂志
[3] Skrutskie , M. F.等人 , 《两微米全天候测量》(2MASS)(2006) , 《天文学报》 , 131:1163–1183
[4] Gaia Collaboration , T 。 Prusti等人 , 《 Gaia Mission(2016)天文学与天体物理学595》 , A1
[5] Robin , A. C.等人 , Gaia Universe模型快照(2012)天文学和天体物理学543 , A100
(本文翻译自Rizky Maulana Nurhidayat的文章《Introduction to Big Data — A Simple Code to Read 1.25 Billion Rows》 , 参考:)