一.异常数据处理
1.拉以达准则(基于3-σ准则)
拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提(样本>10),当测量次数少的情形用准则剔除粗大误差是不够可靠的。
参考博文:https://blog.csdn.net/ChenVast/article/details/82790633
https://blog.csdn.net/pandacsu/article/details/71159463
二.数据离散化
数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。具体可以参照下面这篇博文:数据预处理之数据离散化
三.数据标准化(无量纲化)
1.极差法
参考博文:https://blog.csdn.net/qq_32925031/article/details/88562141
四.指标权重
1.主成分分析法:https://www.cnblogs.com/zhhda/p/4535476.html
2.层次分析法
3.嫡权法:https://blog.csdn.net/mycafe_/article/details/79285762
4.灰色关联度矩阵:https://blog.csdn.net/richeylee/article/details/52495787#comments
五.聚类分析
常见的六大聚类算法:https://blog.csdn.net/Katherine_hsr/article/details/79382249
六.优化算法
优化问题是数模中常见的问题,在这个问题中最重要的是找到目标表达式和约束条件。
1.lingo:使用lingo是一种较为简单的求解方式。
2.循环遍历的变步长枚举法
七.模型预测
建立仿真模型,根据给出数据预测模型结果。
八.数据拟合
最简单的是通过matlab工具箱进行拟合。
https://jingyan.baidu.com/article/1876c8525dfa21890a137640.html
九.时间序列
时间序列是一种关于预测的方法,这种预测是跟时间相关的。
参考博文:https://blog.csdn.net/qq_40006058/article/details/80191168
十.模型检验
1.稳定性分析(又叫鲁棒性分析)
改变模型参数,看模型结果的变化,固定输入看输出,看模型的情况。
2.灵敏度分析
在值不变的条件下,某个约束条件的变化范围有多大,固定输出看输入,看模型适用的条件。
3.精度分析
思想:
1.可以用一部分数据进行拟合,用另一部分数据进行检验。