按关键词阅读:
文章插图
出租车平均速度分布
根据分布趋平的位置 , 我们可以推断出在每小时1到60英里之间合理的平均滑行速度 , 因此可以更新筛选后的DataFrame:
文章插图
将重点转移到出租车费用上 。 从describe方法的输出中 , 我们可以看到在fare_amount , total_amount和tip_amount列中有一些疯狂的异常值 。 对于初学者 , 任何这些列中的任何值都不应为负 。 同时数字表明 , 一些幸运的司机仅凭开一次出租车便几乎成为了百万富翁 。 让我们看一下在相对合理的范围内这些数量的分布:
文章插图
纽约超过 10 亿次出租车行程的车费、总额和小费的分布 。 在笔记本上绘制这些图表只用了 31 秒!
我们看到上述所有三个分布都有相当长的尾部 。 尾部的某些值可能是合法的 , 而其他值可能是错误的数据输入 。 无论如何 , 让我们先保守下 , 只考虑fare_amount , total_amount和tip_amount少于$200的行程 。 我们还要求fare_amount , total_amount值大于$0 。
文章插图
最后 , 在初步清理完所有数据之后 , 让我们看看有多少出租车数据需要进行分析:
文章插图
还有超过11亿次旅行!大量的数据可以使你深入了解出租车行程背后的信息 。
后记
此外 , 作者还从出租车司机最大化利润等角度利用Vaex进行分析数据 。 总之 , Vaex会帮你缓解可能面临的一些数据挑战的问题 。
有了 Vaex , 你可以在短短几秒内遍历超过 10 亿行数据 , 计算各种统计、聚合并产出信息图表 , 这一切都能在你的笔记本电脑上完成 。 它免费且开源 。
如果你对探索本文中用到的数据集感兴趣 , 可以直接在 S3 中配合 Vaex 使用它 , 请参阅完整的 Jupyter notebook 了解如何实现 。
Vaex 官方网站:
文档:https://docs.vaex.io/
GitHub:https : //github.com/vaexio/vaex
PyPi:https://pypi.python.org/pypi/vaex/
微软于年初推出了自己的Python教程 , 我们将其汉化提供给大家 , 欢迎大家收藏关注哦~(已经汉化完成的20集 , 我们日更1集 , 未完成部分我们尽快更新)
稿源:(未知)
【傻大方】网址:http://www.shadafang.com/c/111J2J592020.html
标题:爱了爱了!0.052秒打开100GB数据,这个Python开源库火爆了( 三 )