首页 > 科技 >

Python中的探索性数据分析

2018-10-27 06:26:51 网络整理 阅读:115 评论:0

什么是探索性数据分析(EDA)?

EDA是数据分析下的一种现象,用于更好地理解数据方面,如:

- 数据的主要特征

- 变量和它们之间的关系

- 确定哪些变量对我们的问题很重要

我们将看看各种探索性数据分析方法,如:

描述性统计,这是一种简要概述我们正在处理的数据集的方法,包括样本的一些度量和特征

分组数据[使用基本分组由基 ]

方差分析,方差分析,是一种将观察集中的变化划分为不同成分的计算方法。

相关和相关方法

我们将使用的数据集是智能投票数据集,您可以在python中导入:import pandas as pd

Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Chile.csv")

描述性统计

描述性统计信息是了解数据特征并快速汇总数据的有用方法。python中的pandas提供了一个有趣的方法describe()。describe函数对数据集应用基本统计计算,如极值,数据点标准偏差等。自动跳过任何缺失值或NaN值。describe()函数给出了数据分布的良好画面。DF.describe()

这是在代码上运行时输出的输出:

Python中的探索性数据分析

另一个有用的方法,如果value_counts()可以计算分类属性值系列中每个类别的计数。例如,假设您正在处理客户数据集,这些客户在列名称年龄下划分为年轻,中等和旧类别,而您的数据框架为“DF”。您可以运行此语句以了解有多少人属于各自的类别。在我们的数据集示例中,可以使用教育列DF["education"].value_counts()

上面代码的输出将是:

另一个有用的工具是boxplot,您可以通过matplotlib模块使用它。Boxplot是数据分布的图形表示,显示极值,中位数和四分位数。我们可以通过使用箱线图轻松找出异常值。现在考虑我们再次处理的数据集,并绘制属性总体的箱线图import pandas as pd

相关文章