空枝|使用Pandas数据处理与分析
前言:这是关于个人关于对pandas可以进行的数据处理和数据分析的见解的初版 , 其中肯定不乏一些错误之处 , 希望大家能多多指正 。
首先导入本文所需要的库:
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt
这里主要利用pandas从六个方面来对数据进行操作:
1.导入数据自我生成数据pandas 有两个常用的数据结构:Series 和 DataFrame , 可以用来生成你想要的数组型对象 。
pd.Series(data=http://kandian.youth.cn/index/None, index=None, dtype=None, name=None, copy=False, fastpath=False)pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
外部加载数据但是 , 在一般的数据处理分析中 , 往往自我生成数据情况较少 , 更多的是导入数据 。 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数 。
这里导入本次需要的用到的数据(该数据来自天猫爬取的网页数据 , 有兴趣的可以自己去爬取,这里只是暂做示例):
data = http://kandian.youth.cn/index/pd.read_excel('F:/tianmao data/computer data.xlsx')
表1对我们常用的文件格式进行了总结 , 其中pd.read_csv()和pd.read_excel()可能会是你今后用得最多的 。
这些pandas的解析函数参数较为复杂 , 具体了解可以在pandas官网上自行查阅 , 或者可以再Jupyter Notebook 中采用help(pd.read_excel)命令查阅 。
2.审阅数据在成功导入数据以后 , 需要对数据进行审阅 , 目的是 , 了解数据结构、类型、大小等情况 。 方便理解数据和为后续处理分析打下基础 。
(1).查看前5行(默认前5行 , 你也可以在括号里输入你想要的行数):
data.head()
(2).查看倒数5行:
data.tail()
(3).查看维度信息:
data.shape
(4).查看每一列的数据格式:
data.dtypes
(5).查看数据表基本信息(维度、列名称、数据格式、所占空间等):
data.info()
(6).查看某一列具体信息:
#两种处理效果一样data['月销量']data.月销量
(7).也可以按索引提取单行或多行数值:
#提取第4行data.iloc[4]#提取到第4行data.iloc[0:4]#提取所有行 , 0到4列(也可以反过来)data.iloc[:,0:4]#提取第0、2、4行 , 第3、4列data.iloc[[0,2,4].[3,4]]
注:数据的选取较为灵活 , 方法也较多 , 诸如:data["你要选取的列名称"] , data.loc[] , data.iloc[] , data.ix[]等等 。 具体可以上官网了解一下他们的区别和作用 , 这里就不再继续详述了 。
(8).将数据进行排序
#按销量的大小进行排序data=http://kandian.youth.cn/index/data.sort_values(by=['月销量'],ascending=False)
(9).查看基本的统计信息(最大值、最小值、平均值、中位值、四分位值、标准差等):
data.describe()
3.数据预处理说完对表中的数据进行简单的查看 , 下面进行对数据进行的最关键操作:数据预处理
(1) 数据集成由于我的数据较为规整 , 不需要合并和拼接 , 这里只是简单介绍一下原理 。
1.pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来 。 SQL或其他关系型数据库的用户对此应该会比较熟悉 , 因为它实现的就是数据库的join操作 。
pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
- 美食工坊|而有一个很唯美的名字,日本仍保留使用,古代的苹果不叫“苹果”
- 皮肤|CSGO:最贵皮肤无一入选?这几款手感满分,更适合USP使用
- 军事|外媒关注中国发射“可重复使用试验航天器”:保密程度高于常规
- 医保基金|山东通报16起医保基金违规使用或欺诈骗保典型案例 涉违规收费等问题
- 央视新闻客户端|支持世界田联反兴奋剂新计划 肯尼亚拟定使用兴奋剂违法
- 客货运输|中国民航局拟批准东方航空独资筹建一二三航空 使用ARJ21-700飞机
- 经营|中国民航局拟批准东方航空独资筹建一二三航空 使用ARJ21-700飞机
- 幼儿园不得教授小学教育内容|学前教育法草案:幼儿园不得使用教科书 不得教授小学教育内容
- 「幼儿园不得教授小学教育内容」学前教育法草案:幼儿园不得使用教科书 不得教授小学教育内容
- 幼儿园|学前教育法草案:幼儿园不得使用教科书,不得教授小学教育内容