一组数据中,出现次数最多的数,即一组数据中占比最多的数字
对一组有序数据,取中间的数字,若中间数字有两个,求其均值
平均数一般特指算术平均数,是一组数据中数据总和除以数据个数
每个数据都拥有一定的权重,加权平均数即指 (数据*权重) 的总和 除以数据个数 公式: x ‾ = x i ∗ f 1 + x 2 ∗ f 2 + . . . . + x n ∗ f n n \overline{x} = \frac{x_i*f_1+x_2*f_2+....+x_n*f_n } {n} x=nxi∗f1+x2∗f2+....+xn∗fn
算术平均数与加权平均数描述的都是数据之间的关系都是加减关系,当数据之间的关系为乘积关系时,需要用到几何平均数。 比如:食品加工的平均合格率,是指生产线上每一道工具合格率的乘积再开次方。 公式: x ‾ = x 1 ∗ x 2 ∗ . . . ∗ x n n \overline{x} = \sqrt[n]{ x_1*x_2*...*x_n} x=nx1∗x2∗...∗xn
分位数一般是指四分位数,是将数据从小到大排序后分成四段,位于三个分割点上的数据便是四分位数 第一四分位数(Q1):即第25%处的数据 第二四分位数(Q2):即第50%处的数据 第三四分位数(Q3):即第75%处的数据 Q1与Q3之间的差距又称为四分位距
极差是指最大数与最小数之间的差距,又称范围误差或全距
平均差是用数据与平均数做比较,判断其与平均数的偏离程度,但是由于各数据与平均数相减之后的总和等于0,所以引入绝对值,公式如下: R α = ∑ i = 1 n ∣ x i − x ‾ ∣ n R_\alpha = \frac {\sum_{i=1}^n | x_i-\overline{x} |}{n} Rα=n∑i=1n∣xi−x∣
方差和平均数有异曲同工之妙,用平方来消除平均数相减总和等于0的影响,但是正因为是平方,所以夸大了离散程度。 总体方差公式: σ 2 = ∑ i = 1 n ( x i − μ ) 2 N \sigma^2 = \frac{\sum_{i=1}^n(x_i-\mu)^2}{N} σ2=N∑i=1n(xi−μ)2 样本方差公式: s 2 = ∑ i = 1 n ( x i − x ‾ ) 2 N − 1 s^2 = \frac{\sum_{i=1}^n(x_i-\overline{x} )^2}{N-1} s2=N−1∑i=1n(xi−x)2 总体方差与样本方差区别: 总体方差是指针对总体所有的数据求取方差,但是在实际应用中,求取所有的数据方差的工作量比较大,一般会采用随机选取样本,对样本做方差计算,以代表整体的离散趋势。
所以重点是:随机选取,即选取的样本是互不相关,各自独立的。但是方差的计算引入了平均,所以势必造成会有一个数据不独立:
如果样本为{ x 1 , x 2 x_1,x_2 x1,x2},平均数是 x ‾ \overline{x} x,此时只要知道 x 1 x_1 x1和 x ‾ \overline{x} x即可以推出 x 2 x_2 x2,则样本 x 2 x_2 x2就失去了独立性,此时样本独立性为1。 同理: 样本为{ x 1 , x 2 , x 3 x_1,x_2,x_3 x1,x2,x3},若已知 x 1 , x 2 x_1,x_2 x1,x2 ,可以通过 x ‾ \overline{x} x计算出 x 3 x_3 x3,样本独立性为2 … 样本为{ x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn},若已知 x 1 , x 2 , . . . x n − 1 x_1,x_2,...x_{n-1} x1,x2,...xn−1,可以通过 x ‾ \overline{x} x计算出 x n x_n xn,样本独立性为n-1。 所以平均数导致样本独立性减少了1,导致方差出现了偏差,为了校正样本的独立性,样本方差的分母为n-1。
参考自:为什么样本方差(sample variance)的分母是 n-1?
由于方差夸大了数据的离散程度,因此还可以取标准差,即方差的开方 总体标准差公式: σ 2 = ∑ i = 1 n ( x i − μ ) 2 N \sigma^2 = \sqrt{\frac{\sum_{i=1}^n(x_i-\mu)^2}{N}} σ2=N∑i=1n(xi−μ)2 样本标准差公式: s 2 = ∑ i = 1 n ( x i − x ‾ ) 2 N − 1 s^2 = \sqrt{\frac{\sum_{i=1}^n(x_i-\overline{x} )^2}{N-1}} s2=N−1∑i=1n(xi−x)2
又称四分位距,指Q1与Q3之间的差距,主要用来测量中间50%数据的离散程度。四分位差越小,中间的数据约集中,反之越分散。
异众比率是指总体中非众数次数占总体全部次数的比例,异众比率越小,众数越具有代表性;反之越大,众数代表性就越差
当度量单位与平均数相同时,可用标准差来比较两个数据及的离散程度。当度量单位与平均数不同时,就需要用到离散系数,即标准差与均值的比值。 离散系数越小,平均数的代表性越好;离散系数越大,平均数的代表性越差
偏态系数是指平均数和中位数之差来衡量数据分布曲线的偏斜程度。偏斜系数小于0,则平均数在众数之左,图形呈左偏,又称负偏。偏态系数大于0,平均数在众数之右,图形呈右偏,又称正偏。
峰态系数是用来衡量分布曲线顶端的扁平尖稍程度,有时候两组数据的平均值,标准差,偏态系数都相同,但是峰态系数不同。 公式如下: k = ∑ i = 1 n ( x i − x ‾ ) 4 ( n − 1 ) S 4 k = \frac {\sum_{i=1}^n(x_i-\overline{x} )^4}{(n-1)S^4} k=(n−1)S4∑i=1n(xi−x)4 x ‾ \overline{x} x: 样本平均值 x i x_i xi:第i个样本 n: 总样本数 s: 标准偏差 k: 样本峰度