理论基石:

探讨数据集中趋势:均值、中位数、众数及分位数

均值适用于分析规律性连续数据。

中位数适合处理含有极端异常值的数据集。

众数主要用于衡量离散数据的集中趋势。

分位数则将数据从小到大排序后分组。

四分位数计算位置:

Q1位置 = (n+1) * 0.25

Q2位置 = (n+1) * 0.5

Q3位置 = (n+1) * 0.75

示例数据:

1 2 3 4 5 6 7

1 2 2.5 3 4 5 6 7 7.5 8 9

离中趋势分析:标准差与方差的应用。

数据分布特性:偏态与峰态,以及正态分布与其它三大分布。

平均值的偏态分布:

偏态系数:正值表示正偏,均值较大;负值表示负偏,均值较小。

峰态系数:衡量数据分布的集中程度,越集中峰值越高。

正态分布及其衍生分布:

正态分布公式:

卡方分布

T分布

F分布

抽样理论探讨:抽样误差与抽样精度。

计算抽样平均误差的公式:

有放回与无放回抽样的区别。

确定估计总体时的抽样数量:

举例说明:

从鱼塘不同部位进行有放回抽样。

计算区间:2-2*0.07 至 2+2*0.07

结果:1.86 至 2.14

这里的Z值为2。

数据分析之核心常用数据解析

代码实践:

引入pandas库。

读取数据。

数据类型检查。

计算均值。

计算中位数。

计算四分位数。

查看众数。

计算标准差与方差。

数据求和。

查看偏态系数。

查看峰态系数。

导入统计包,分析正态分布、卡方分布、T分布、F分布。

进行数据抽样。

课程学习资源:https://coding.imooc.com/class/185.html

数据文件:HR.csv 提取码:ys2t