使用PandasGUI进行探索性数据分析


使用PandasGUI进行探索性数据分析文章插图
Pandasgui是一个开源的python模块 , 它为pandas创建了一个GUI界面 , 我们可以在其中使用pandas的功能分析数据和使用不同的功能 , 以便可视化和分析数据 , 并执行探索性数据分析 。
探索性数据分析是最关键的部分 , 无论何时我们使用数据集时都要首先进行分析 。 它允许我们分析数据 , 探索数据的初始结果 , 比如有多少行和列 , 不同的列是什么 , 等等 。 EDA是一种方法 , 我们使用不同的方法 , 主要是可视化来总结数据的主要特征 。
如果您正在处理数据 , EDA是一个重要且最关键的步骤 。 在整个项目中 , 几乎有30%的时间是用来探索数据并找出它到底是关于什么的 。 EDA允许我们并告诉我们如何在建模之前对数据进行预处理 。 这就是为什么EDA是最重要的 , 但是我们可以通过自动化所有的EDA工作来节省时间 , 并且可以在建模中使用节省的时间 。
在本文中 , 我们将探索Pandasgui , 并了解如何使用它来自动化探索性数据分析过程 , 并节省我们的时间和精力 。
安装Pandasgui和其他库一样 , 我们可以使用pip安装pandasgui 。
pip install pandasgui
加载数据集pandasgui中预定义了大量的数据集 , 我们将使用pandasgui加载一个名为"IRIS"的数据集 , 这是一个非常著名的数据集 , 并将使用pandasgui的GUI界面来探索它 。 我们还将导入"show"函数 , 该函数将数据集加载到GUI中 。
from pandasgui.datasets import iris #importing the show function from pandasgui import show功能介绍现在我们只需要通过传递数据集名称作为参数来调用show函数 , 它将启动一个GUI , 在这里我们可以探索它的不同部分 , 并尝试探索数据集的不同属性 。
show(iris)
使用PandasGUI进行探索性数据分析文章插图
在这里 , 您可以看到show函数启动GUI , 我们可以清楚地看到包含不同功能的不同选项卡 。
让我们分析一下这个接口的不同部分 。
Dataframe
使用PandasGUI进行探索性数据分析文章插图
我们可以清楚地分析哪些是不同的属性以及它们包含哪些值 。 我们可以清楚地分析所有的值和属性 。 在左边 , 我们还可以看到dataframe的形状 。
Filters
使用PandasGUI进行探索性数据分析文章插图
在本节中 , 我们可以应用不同的过滤器来分析数据 。 我们可以简单地输入想要运行的查询并应用过滤器 。
Statistics
使用PandasGUI进行探索性数据分析文章插图
类似于pandas dataframe的describe功能 。 它帮助我们分析数据集的统计属性 。
Grapher
使用PandasGUI进行探索性数据分析文章插图
这是最重要的部分 , 在这里我们可以清楚地看到不同类型的可视化 , 我们可以使用界面创建 , 并节省了为每个可视化编写代码的工作 。 在上面的图片中 , 我创建了sepallength和sepalwidth的散点图 。 类似地 , 您可以通过拖放x、y和其他参数中的列名来创建不同的可视化 。
Reshaper
使用PandasGUI进行探索性数据分析文章插图
我们可以通过应用不同的函数和改变数据集的形状来分析数据集 。 提供的两种形状格式是"pivot"和"melt" 。 我们可以在不同的函数中拖放列 , 并相应地分析数据集的不同形状 。
总结这是PandasGUI提供的5个部分 , 通过这些部分 , 我们可以分析熊猫数据并对任何给定数据集执行EDA 。 PandasGUI是一个有用的工具 , 因为它减少了一遍又一遍编写代码的工作量 , 也节省了时间 。
作者:Himanshu Sharma
【使用PandasGUI进行探索性数据分析】deephub翻译组