Python中的探索性数据分析(2)

2018-10-27 06:26:51 网络整理阅读：115 评论：0

import matplotlib.pyplot as plt

DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")

y = list(DF.population)

plt.boxplot(y)

plt.show()

通过发现异常值，输出图看起来像这样：

Python中的探索性数据分析(2)

分组数据

分组是熊猫中可用的有趣措施，它可以帮助我们找出不同分类属性对其他数据变量的影响。让我们看一个关于同一数据集的例子，我们想要弄清楚人们年龄和教育对投票数据集的影响。DF.groupby(['education', 'vote']).mean()

输出有点像这样：

Python中的探索性数据分析(2)

如果输出表的这个组不太容易理解，那么分析人员可以使用数据透视表和热图来显示它们。方差分析

ANOVA代表方差分析。执行以确定不同分类数据组之间的关系。

在ANOVA下我们有两个测量结果：

- F-testscore：显示组的变量意味着变化--p

值：它显示结果的重要性

这可以使用python模块scipy方法名称f_oneway（）执行语法：

import scipy.stats as st

st.f_oneway(sample1, sample2, ..)

这些样品是每组的样品测量值。

作为结论，我们可以说，如果ANOVA检验给我们一个大的F检验值和一个小的p值，那么其他变量和分类变量之间存在很强的相关性。相关和相关计算

相关性是上下文中两个变量之间的简单关系，一个变量影响另一个变量。相关性与引起的行为不同。计算变量之间相关性的一种方法是找到Pearson相关性。在这里我们找到两个参数，即Pearson系数和p值。我们可以说，，当Pearson相关系数接近1或-1且p值小于0.0001时，两个变量之间存在强相关性。

Scipy模块还提供了一种执行pearson相关分析的方法，语法：import scipy.stats as st

st.pearsonr(sample1, sample2)

这里的样本是您要比较的属性。

这是python中EDA的简要概述，我们可以做更多！快乐挖！