数据分析之核心常用数据解析
理论基石:
探讨数据集中趋势:均值、中位数、众数及分位数
均值适用于分析规律性连续数据。
中位数适合处理含有极端异常值的数据集。
众数主要用于衡量离散数据的集中趋势。
分位数则将数据从小到大排序后分组。
四分位数计算位置:
Q1位置 = (n+1) * 0.25
Q2位置 = (n+1) * 0.5
Q3位置 = (n+1) * 0.75
示例数据:
1 2 3 4 5 6 7
1 2 2.5 3 4 5 6 7 7.5 8 9
离中趋势分析:标准差与方差的应用。
数据分布特性:偏态与峰态,以及正态分布与其它三大分布。
平均值的偏态分布:
偏态系数:正值表示正偏,均值较大;负值表示负偏,均值较小。
峰态系数:衡量数据分布的集中程度,越集中峰值越高。
正态分布及其衍生分布:
正态分布公式:
卡方分布
T分布
F分布
抽样理论探讨:抽样误差与抽样精度。
计算抽样平均误差的公式:
有放回与无放回抽样的区别。
确定估计总体时的抽样数量:
举例说明:
从鱼塘不同部位进行有放回抽样。
计算区间:2-2*0.07 至 2+2*0.07
结果:1.86 至 2.14
这里的Z值为2。
代码实践:
引入pandas库。
读取数据。
数据类型检查。
计算均值。
计算中位数。
计算四分位数。
查看众数。
计算标准差与方差。
数据求和。
查看偏态系数。
查看峰态系数。
导入统计包,分析正态分布、卡方分布、T分布、F分布。
进行数据抽样。
课程学习资源:https://coding.imooc.com/class/185.html
数据文件:HR.csv 提取码:ys2t
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至,我们将安排核实处理。