不常见的Pandas小窍门:我打赌一定有你不知道的( 二 )


可以看到 , 压缩文件小于正常CSV文件的一半 。
这可能不是一个好例子 , 因为该随机数据帧中没有任何重复值 。 在实践中 , 如果存在分类值 , 压缩率会非常高!顺便一提 , 如你所想 , Pandas可以直接将压缩文件读入数据帧 , 无须在文件系统中解压它 。
df = pd.read_csv('sample.csv.gz', compression='gzip', index_col=0)
不常见的Pandas小窍门:我打赌一定有你不知道的文章插图
gzip是优先选择 , 因为它默认存在于大多数Linux系统中 。 Pandas还支持其它压缩格式 , 比如“zip”和“bz2” 。
不常见的Pandas小窍门:我打赌一定有你不知道的文章插图
多列获取DateTime(时间日期)
不常见的Pandas小窍门:我打赌一定有你不知道的文章插图
图源:unsplash
在Pandas中 , 你一定用过pd.to_datetime()方法将某种字符串转换为DateTime格式 , 这通常用于处理诸如%Y%m%d的格式字符串 。 然而 , 也有时可能会使用下方所示的数据框架作为原始数据 。
df = pd.DataFrame({'year': np.arange(2000, 2012),'month': np.arange(1, 13),'day': np.arange(1, 13),'value': np.random.randn(12)})
不常见的Pandas小窍门:我打赌一定有你不知道的文章插图
在数据框架中 , 将年、月、日作为单独列分隔开来屡见不鲜 , 可以使用pd.to_dateframe()将其一步转换为DateTime列 。
df['date'] = pd.to_datetime(df[['year', 'month', 'day']])
不常见的Pandas小窍门:我打赌一定有你不知道的文章插图
本文分享了一些关于Pandas Python库的省时小窍门 。 简而言之 , 人生苦短 , Python值得 。
不常见的Pandas小窍门:我打赌一定有你不知道的文章插图
留言点赞关注
我们一起分享AI学习与发展的干货
【不常见的Pandas小窍门:我打赌一定有你不知道的】如转载 , 请后台留言 , 遵守转载规范