网站建设怎么建设学生个人网页设计模板
一、统计资料的基础概念与收集
(一)统计资料的定义与构成要素
-
定义:统计资料是指可用以推导出某项结论的一些事实或数字。
-
构成要素:
-
元素:研究对象的基本组成单位。
-
变量:关于元素的属性或特征,分为定量变量(结果可用数字表示)和定性变量(结果不可用数字表示)。
-
统计数据:统计变量的取值。
(二)变量的测量尺度
-
定类尺度:按现象性质差异区分,如性别、种族,各类别平等无顺序。
-
定序尺度:按现象顺序差异区分,如教育程度(小学、中学、大学),有高低之分但差异不可计量。
-
定距尺度:按现象绝对数量差异区分,如温度(℃),可加减运算但无绝对零点。
-
定比尺度:有绝对零点,如身高、体重,可进行加减乘除运算。
(三)统计资料的收集方法
- 直接收集:
-
实验式收集:如科学管理理论中的工作定额实验。
-
非实验式收集:通过调查、观测等方式,如问卷调查。
- 间接收集:引用二手数据,如国家统计局公报、年鉴、专业数据库。
(四)统计资料的误差来源
-
抽样误差:由样本推断总体时产生的误差,影响因素包括样本量、抽样方法、抽样组织形式。
-
非抽样误差:
-
测量误差:如调查中受访者回答错误。
-
数据处理误差:录入错误、计算错误等。
-
其他:如缺失数据、虚假数据(如 2016 年美国大选预测中特朗普支持者沉默或说假话)。
(五)典型案例:2016 年美国大选预测失败
- 原因分析:样本点分布不均匀、缺失数据、失真数据(部分支持者沉默或说谎)、未考虑关键变量(如 “黑客门” 影响)。
二、统计资料的整理
(一)整理目的与统计表类型
-
目的:将原始资料加工整理,便于发现数据规律性,为进一步分析做准备。
-
统计表类型:
-
序列表:按时间或地域排列,如历年国家公务员考试报名情况。
-
分类表:
-
定性分布表:按性质分类,如 2023 年分区域就业人员工资表。
-
频数分布表:按数值分类,记录各组频数,如学生成绩分布。
-
(二)频数分布表的制作
- 步骤:
-
确定组数 k(100 个数据以内分 5-10 组,超过 100 分 10-15 组)。
-
计算组距 h=(Xmax-Xmin)/k。
-
确定各组上下限(第一组下界 = Xmin-h/2)。
-
归并数据,统计频数。
- 案例:200 个学生高等数学成绩(组距 10):
40-49:1人,50-59:14人,60-69:55人,70-79:58人,80-89:52人,90-99:17人,100-109:3人
(三)统计图的类型与应用
-
线图:展示时间序列数据趋势,如国内生产总值与进出口总额变化。
-
条形图:比较不同类别数据,如 2011 年房企销售金额 TOP10。
-
圆饼图:展示部分与整体关系,如武汉市 2003 年工业企业单位数占比。
-
散点图:分析双变量关系,如国内生产总值与进出口总额的相关性。
-
面积图:展示数据随时间的累积变化,如音乐类型流行趋势。
-
两轴折线图:同时展示两组数据,如 2013 年全国城市平均工资与排名。
(四)双变量二元分布表
- 定义:记录两变量分类组合的频数,如飞行错误状态与原因的二元分布:
\| 错误原因 | R(规范) | M(仪表) | O(其它) | 合计 |\|----------|--------|--------|--------|------|\| T(起飞) | 4 | 8 | 8 | 20 |\| C(巡航) | 2 | 3 | 4 | 9 |\| L(着陆) | 7 | 3 | 6 | 16 |\| 合计 | 13 | 18 | 14 | 45 |
-
边际分布:表中最右列和最下行分别为两变量的单变量分布(如飞行状态的边际分布:T=20, C=9, L=16)。
-
关联分析:通过二元分布分析两变量关系,如起飞时易发生规范和仪表错误,着陆时规范错误较少。
三、统计资料的综合分析
(一)表示集中位置的特征数
- 算术平均数(x̄):
-
公式:未分组数据 x̄=ΣXi/n,分组数据 x̄=Σ(fiXi)/Σfi。
-
性质:离差之和为零,离差平方和最小。
-
案例:125 名新生体重平均 = 6949/125=55.592kg。
- 几何平均数(G):
-
适用:环比数据(增长率、发展速度)。
-
公式:G=ⁿ√(r1×r2×…×rn)。
-
案例:天津工业总产值年均增长率:
2001-2005年环比发展速度:114.0,119.6,124.1,131.0,120.8G=⁵√(114×119.6×124.1×131×120.8)=121.8,年均增长率=21.8%
- 调和平均数(H):
-
适用:相对变化率(速度、价格)。
-
公式:H=n/(1/R1+1/R2+…+1/Rn)。
-
案例:往返速度 20km/h 和 30km/h,平均速度 H=2/(1/20+1/30)=24km/h。
-
众数(Mode):频数最大的值,可能不唯一,如成绩分布中 70-79 分频数 58 为众数。
-
中位数(Me):排序后中间位置的值,n 奇数时 Me=X (n+1)/2,n 偶数时 Me=(Xn/2+Xn/2+1)/2。
- 案例:12 个月薪数据排序后,Me=(2390+2420)/2=2405。
- 百分位数(P):
-
计算:i=np%,i 非整数时向上取整,i 整数时取第 i 和 i+1 项平均值。
-
案例:12 个报价数据第 80 百分位数:i=12×80%=9.6→第 10 项 = 11。
(二)表示变异程度的特征数
-
极差(R):R=Xmax-Xmin,如报价数据 R=15.9-3=12.9。
-
四分位间距(IQR):IQR=Q3-Q1,如月薪数据 Q1=2365, Q3=2500, IQR=135。
-
平均差(MD):MD=Σ|Xi-x̄|/n,分组数据 MD=Σ(fi|Xi-x̄|)/n。
- 案例:职工工资平均差 = 3700/180≈20.6 元。
- 方差与标准差:
-
总体方差 σ²=Σ(Xi-μ)²/N,样本方差 s²=Σ(Xi-x̄)²/(n-1)。
-
总体标准差 σ=√σ²,样本标准差 s=√s²。
-
案例:14 个产品数据方差 = 0.002<0.005,机器无需关闭。
- 变异系数(CV):CV=s/x̄×100%,消除量纲影响。
- 案例:A 班成绩 x̄=80, s=10, CV=12.5%;B 班 x̄=40, s=8, CV=20%,A 班更整齐。
- 标准分数(z):z=(Xi-x̄)/s,表示数据相对位置。
- 案例:网购金额标准分数用于衡量个体偏离均值的程度。
(三)表示偏倚程度的特征数
- 偏度系数(SK):
-
公式:SK=Σ(Xi-x̄)³/[(n-1) s³]。
-
意义:SK=0 对称,SK>0 右偏,SK<0 左偏。
- 峰度系数(K):
-
公式:K=Σ(Xi-x̄)⁴/[(n-1) s⁴]-3。
-
意义:K=0 标准正态,K>0 尖峰,K<0 扁平。
(四)五数概括法与盒形图
- 五数概括:最小值、Q1、中位数、Q3、最大值。
- 案例:月薪数据五数概括:2210, 2365, 2405, 2500, 2825。
- 盒形图绘制:
-
画方盒(Q1-Q3),中间垂线为中位数。
-
计算界限:Q1-1.5IQR 和 Q3+1.5IQR,以外为异常值。
-
须线连接界限内的最值,异常值用 “*” 标出。
四、做题技巧与注意事项
(一)集中趋势特征数选择
-
数据对称:算术平均数最佳。
-
环比数据:几何平均数。
-
极端值影响大:中位数。
-
相对变化率:调和平均数。
(二)变异程度分析步骤
-
先算极差,快速了解数据范围。
-
计算四分位间距,排除极端值影响。
-
计算方差 / 标准差,衡量数据离散程度。
-
比较变异系数,用于不同数据集的相对变异比较。
(三)双变量分析要点
-
绘制散点图,初步判断相关性。
-
整理二元分布表,分析边际分布与关联关系。
-
结合实际背景,解释变量间的潜在联系。
(四)常见错误规避
-
误用算术平均数于环比数据(如直接平均增长率)。
-
忽略异常值对平均数的影响。
-
未检验数据分布假设(如使用正态分布统计量前未检查偏度峰度)。
五、公式速查表
统计量 | 公式 |
---|---|
算术平均数 | x̄=ΣXi/n(未分组),x̄=Σ(fiXi)/Σfi(分组) |
几何平均数 | G=ⁿ√(r1×r2×…×rn) |
调和平均数 | H=n/(1/R1+1/R2+…+1/Rn) |
中位数 | n 奇数:Me=X (n+1)/2,n 偶数:Me=(Xn/2+Xn/2+1)/2 |
方差 | 总体 σ²=Σ(Xi-μ)²/N,样本 s²=Σ(Xi-x̄)²/(n-1) |
标准差 | σ=√σ²,s=√s² |
变异系数 | CV=s/x̄×100% |
标准分数 | z=(Xi-x̄)/s |
四分位间距 | IQR=Q3-Q1 |
偏度系数 | SK=Σ(Xi-x̄)³/[(n-1)s³] |
峰度系数 | K=Σ(Xi-x̄)⁴/[(n-1)s⁴]-3 |
kmj | OuO |