import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()
通过发现异常值,输出图看起来像这样:
分组数据
分组是熊猫中可用的有趣措施,它可以帮助我们找出不同分类属性对其他数据变量的影响。让我们看一个关于同一数据集的例子,我们想要弄清楚人们年龄和教育对投票数据集的影响。DF.groupby(['education', 'vote']).mean()
输出有点像这样:
如果输出表的这个组不太容易理解,那么分析人员可以使用数据透视表和热图来显示它们。方差分析
ANOVA代表方差分析。执行以确定不同分类数据组之间的关系。
在ANOVA下我们有两个测量结果:
- F-testscore:显示组的变量意味着变化--p
值:它显示结果的重要性
这可以使用python模块scipy方法名称f_oneway()执行语法:
import scipy.stats as st
st.f_oneway(sample1, sample2, ..)
这些样品是每组的样品测量值。
作为结论,我们可以说,如果ANOVA检验给我们一个大的F检验值和一个小的p值,那么其他变量和分类变量之间存在很强的相关性。相关和相关计算
相关性是上下文中两个变量之间的简单关系,一个变量影响另一个变量。相关性与引起的行为不同。计算变量之间相关性的一种方法是找到Pearson相关性。在这里我们找到两个参数,即Pearson系数和p值。我们可以说,,当Pearson相关系数接近1或-1且p值小于0.0001时,两个变量之间存在强相关性。
Scipy模块还提供了一种执行pearson相关分析的方法,语法:import scipy.stats as st
st.pearsonr(sample1, sample2)
这里的样本是您要比较的属性。
这是python中EDA的简要概述,我们可以做更多!快乐挖!