首页 > 科技 >

Python中的探索性数据分析(2)

2018-10-27 06:26:51 网络整理 阅读:115 评论:0

import matplotlib.pyplot as plt

DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")

y = list(DF.population)

plt.boxplot(y)

plt.show()

通过发现异常值,输出图看起来像这样:

Python中的探索性数据分析(2)

分组数据

分组是熊猫中可用的有趣措施,它可以帮助我们找出不同分类属性对其他数据变量的影响。让我们看一个关于同一数据集的例子,我们想要弄清楚人们年龄和教育对投票数据集的影响。DF.groupby(['education', 'vote']).mean()

输出有点像这样:

Python中的探索性数据分析(2)

如果输出表的这个组不太容易理解,那么分析人员可以使用数据透视表和热图来显示它们。方差分析

ANOVA代表方差分析。执行以确定不同分类数据组之间的关系。

在ANOVA下我们有两个测量结果:

- F-testscore:显示组的变量意味着变化--p

值:它显示结果的重要性

这可以使用python模块scipy方法名称f_oneway()执行语法:

import scipy.stats as st

st.f_oneway(sample1, sample2, ..)

这些样品是每组的样品测量值。

作为结论,我们可以说,如果ANOVA检验给我们一个大的F检验值和一个小的p值,那么其他变量和分类变量之间存在很强的相关性。相关和相关计算

相关性是上下文中两个变量之间的简单关系,一个变量影响另一个变量。相关性与引起的行为不同。计算变量之间相关性的一种方法是找到Pearson相关性。在这里我们找到两个参数,即Pearson系数和p值。我们可以说,,当Pearson相关系数接近1或-1且p值小于0.0001时,两个变量之间存在强相关性。

Scipy模块还提供了一种执行pearson相关分析的方法,语法:import scipy.stats as st

st.pearsonr(sample1, sample2)

这里的样本是您要比较的属性。

这是python中EDA的简要概述,我们可以做更多!快乐挖!

相关文章