数据分析方法汇总(2)

it2022-05-05  201

数据分析方法汇总(2)

八、聚类分析

样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

1、性质分类:

Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

2、方法分类:

1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

2)逐步聚类法 :适用于大样本的样本聚类

3)其他聚类法 :两步聚类、K均值聚类等

九、判别分析

1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

2、与聚类分析区别

1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。数据分析师培训

3、进行分类 :

1)Fisher判别分析法 :

以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

适用于多类判别。

2)BAYES判别分析法 :

BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

十、主成分分析

将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

十一、因子分析

一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

与主成分分析比较:

相同:都能够起到済理多个原始变量内在结构关系的作用

不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

用途:

1)减少分析变量个数

2)通过对变量间相关关系探测,将原始变量进行分类

十二、时间序列分析

动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

十三、生存分析

用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

1、包含内容:

1)描述生存过程,即研究生存时间的分布规律

2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

3)分析危险因素,即研究危险因素对生存过程的影响

4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

2、方法:

1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

A 乘积极限法(PL法)

B 寿命表法(LT法)

3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

十四、典型相关分析

相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

十五、R0C分析

R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

用途:

1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

用途 ;

2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

十六、其他分析方法

多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

想要了解更多数据分析方面的知识,可以到CDA数据分析师官网,这里有数据分析方面的顶级人才交流与学习,让我们能够把更好的得到属于自己的成功。http://www.cda.cn/view/16344.html

转载于:https://www.cnblogs.com/amengduo/p/9587731.html


最新回复(0)