关于我的建模之路

评价类模型

一.层次分析法(AHP)

1.分析系统中各因素之间的关系,建立系统的递阶层次结构,画出层次结构图
2.对于同一层次的各元素关于上一层次中某一准则的重要性进行两两比较,构造两两比较矩阵(判断矩阵)
3.由判断矩阵计算被比较元素对于该准则的相对权重,并进行一致性检验(检验通过权重才能用)
	1.计算一致性指标CI
	2.查找n对应的平均随机一致性指标RI
	3.计算一致性比例CR
		CR<0.1才认为一致性可以接受
4.根据权重计算得分

二.熵权法Topsis

权重

1.原始矩阵正向化
2.正向化矩阵标准化(如果存在负数,则使用另一种标准化)
3.熵权法确定指标之间的权重
4.计算与最大值的距离和最小值的距离,并算出得分

三.模糊综合评价

1.取因素集 U={u1,u···un}
2.取评语集 V={v1,v2···vm}
3.确定各因素的权重 A={w1,w2···wn}
4.确定模糊综合评判矩阵,对每个因素ui做出评价(隶属度)
	以Ri为第i行构成评价矩阵
5.模糊综合评判,进行矩阵的合成运算
B = A · R
取B中数值(隶属度)最大的评语作为综合评判的结果

步骤根据例14.2

四.灰色关联分析

1.画统计图
2.确定分析数列
	1.母序列:反映系统行为特征的数据序列,类似因变量
	2.子序列:影响系统行为的因素组成的数据序列,类似自变量
3.对变量进行预处理(去量纲,缩小变量范围):先求出每个指标的均值,再用该指标中的每个元素都除以其均值
4.计算子序列中每个指标与母序列的关联系数
5.定义4中每一列求出的均值为x0和xi的灰色关联系数

插值法

模拟产生新的但又比较靠谱的数据,插值函数曲线一定经过所有原来点

分段三次埃尔米特插值:pchip函数
*(推荐)三次样条插值:spline函数

拟合算法

拟合不需要曲线一点经过给定的点,拟合的目标是寻求一个函数,使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好(最小化损失函数)

匿名函数
最小二乘法
fplot函数:画出匿名函数在自变量范围内的图像
线性函数:线性于参数,这时可直接看R²
其他的就看SSE,SSE越小,拟合越好

相关系数

1.Pearson相关系数
	先画出散点图,观察是否线性相关,当两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱。 
	tcdf:累计密度函数,返回的是概率值
	tinv:累计密度函数的反函数,返回的是对应的x值
	tpdf:x的值对应的y值
	计算皮尔逊相关系数,并做出相关系数表。
	进行正态分布的假设检验:
		1.样本数n>30:JB检验
		2.样本数3<=n<=50:Shapiro-wilk检验
		3.数据量特别大:Q-Q图
	对皮尔逊相关系数进行假设检验
2.Spearman相关系数
	被定义为等级之间的皮尔逊相关系数
	计算斯皮尔曼相关系数
	斯皮尔曼相关系数的假设检验
		1.样本数n<=30,直接查临界表,相关系数必须大于等于表中的临界值,才能得出显著的结论
		2.样本数为大样本,计算检验值,使用normcdf计算的值与0.05比较
	注意:
		1.连续数据,正态分布,线性关系,用皮尔逊
		2.上面条件有个不满足,就用斯皮尔曼
		3.两个定序之间用斯皮尔曼,定序:仅仅反映观测对象等级,顺序关系的数据

多元线性回归

回归分析的任务:通过研究自变量x和因变量y的相关关系,尝试去解释y的形成机制,进而达到通过x去预测y的目的
回归分析的三个使命:
	1.识别重要变量,可使用逐步回归
	2.判断相关性的方向
	3.回归系数
无内生性,实际应用中,保证核心解释变量与u不相关

取对数:
	1.与市场价值相关:价格,营销额
	2.以年度量的变量
	3.比例变量:失业率,参与率
	4。变量取值必须非负数,如果包含0,则可以对y取对数ln(1+y)
创建虚拟变量
stata回归的语句:regress y x1 x2 ··· xk,默认使用OLS(最小二乘法)
联合显著性检验,判断回归系数是不是都等于0
判断回归系数是不是显著异于0
标准化回归系数
扰动项:u~N(0,σ²)
异方差这里出现的信息可以理解为对于模型的稳定程度所做的贡献,异方差是指各个扰动项的方差不相同,那么方差较大的扰动项破坏模型稳定性的程度就较大,我们就说它包含的信息量减少。
异方差检验:bp检验,怀特检验
解决异方差:OLS+稳健的标志误
多重共线性检验:说明计算得出的回归系数结果不可靠,不显著,可通过方差膨胀因子分析
注意检验异方差和多重共线性
逐步回归:
	1.向前逐步回归
	2.向后逐步回归
标准化回归系数比较绝对值

lasso回归

使用一般的OLS对数据进行回归,计算方差膨胀因子VIF,如果VIF>10说明存在多重共线性,可讲lasso回归视为进阶版的逐步回归,lasso回归可以帮我们筛选出不重要的变量,lasso回归只起到变量筛选的目的,将筛选出的变量进行正常的回归即可

分类模型

分类是已知类别的
数据预处理:生成虚拟变量
逻辑回归
出现过拟合现象时可把数据分为训练组和测试组,用训练组的数据估计出模型,再用测试组的数据进行测试
二分类:
	1.logistic回归:Sigmoid函数
	2.Fisher判别
多分类:
	1.logistic回归:Softmax函数
	2.Fisher判别

聚类模型

聚类算法的评估指标及实现 - 知乎 (zhihu.com)

聚类是未知类别的
样本和样本之间一般是基于欧式距离的:每个指标下两个样本间的距离平方和
类和类之间的常用距离:
	1.最短距离法
	2.最长距离法
	3.组间平均连接法
	4.组内平均连接法
	5.重心法
	
K-means聚类
量纲不一样的话要进行标准化

层次聚类
肘部图
聚合系数折线图

DBSCAN算法:基于密度的聚类方法

轮廓系数:结合了聚类的凝聚度和分离度,用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。计算方法如下:
	1.对于每个样本点i,计算点i与其同一个簇内的所有其他元素距离的平均值,记作a(i),用于量化簇内的凝聚度。
	2.选取i外的一个簇b,计算i与b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离,记作b(i),即为i的邻居类,用于量化簇之间分离度。
	3.对于样本点i,轮廓系数s(i)=(b(i)a(i))/(max(a(i),b(i)))计算所有i的轮廓系数,求出平均值即为当前聚类的整体轮廓系数,度量数据聚类的紧密程度。
	
轮廓系数可视化图:matlab中的silhouette函数
	clust = kmeans(X,k)				%返回k均值聚类后的序号
	[s,h] = silhouette(X,clust)		%默认使用平方欧式距离

时间序列分析

时间序列组成要素:
	1.时间要素
	2.数值要素
时期序列中,数值要素反映现象在一定时期内的发展的结果
时点序列中,数值要素反映现象在一定时点上的瞬间水平
时间序列数值变化规律:
	1.长期趋势:T
	2.季节趋势:S
	3.循环变动:C
	4.不规则变动:I
叠加模型和乘积模型:数据具有年内的周期性才能使用时间序列分解

具体步骤:
	1.做时间序列图
	2.判断时间序列包含的变动成分
	3.时间序列分解(有周期性且包含长期趋势、季节变动或循环变动)
	4.建立时间序列分析模型
	5.预测未来的指标数值
	
平稳时间序列:
	1.E(Xt) = E(Xt-s) = 0(均值为固定常数)
	2.Var(Xt) = Var(Xt-s) = σ² (方差存在且为常数)
	2.Cov(Xt,Xt-s) = γs (协方差只和间距s有关,与t无关)
白噪声序列:
	1.E(Xt) = E(Xt-s) = 0(均值为0)
	2.Var(Xt) = Var(Xt-s) = σ² (方差存在且为常数)
	2.Cov(Xt,Xt-s) = 0 (s != 0)

评价指标:平稳的R²越大越好,标准化BIC越小越好

白噪声进行残差检验:残差ACF和残差PACF,残差进行Q检验

滞后算子L

不同之间周期内的季节趋势S都是一样的,呈现规律性

ARCH和GARCH

一般应用于股票这种高频数据
predict residess, residuals  //保存残差,以变量residess接受最后的结果
hist residess,norm freq
norm freq 表示加上标准正态分布的概率密度函数

预测模型

注意GM(1,1)原理的介绍P4~P14
误差平方和SSE来进行比较模型好坏,SSE越小说明模型越好
灰色系统:系统的部分信息已知,部分信息未知
灰色预测:什么时候用
	1.数据周期较短的非负时间序列
	2.数据经过准指数规律的检验,除前两期外,后面至少90%的期数的光滑比低于0.5
	3.数据的期数较短且和其他的数据之间的关联性不强
	
题目的小套路:
	1.画出时间序列图并简单分析下趋势
	2.将数据分为训练组和测试组,并利用测试组的数据判断哪种模型的预测效果最好
	3.选择上一部中得到的预测误差最小的模型,并使用全部数据进行重新建模,并对未来数据进行预测
	4.画出预测后的数据和原来数据的时序图,看看预测的未来趋势是否合理
	
累加数据,紧邻均值生成序列是累加序列相邻累加数据求平均

灰色微分方程转化为白色方程

数据分析模型

数据分析八大模型:详解PEST模型-阿里云开发者社区

PEST模型:行业分析的业务模型
OGSM模型:企业管理方法论
人货场模型:销售分析的最常用模型,人货场指影响销售的三个重要因素(不是三个指标)
RFM模型:衡量客户 价值和客户创利能力的重要工具和手段
同期群模型:找出优势群体,用于商品分析(商品LTV模型),用户分析(用户留存率模型,用	 户LTV模型),渠道分析(渠道质量分析模型)
漏斗模型:当业务流程变长的时候,用户会流失。这样把整个流程串起来看,就好像一个“漏斗”一样。用数据描述这个流程,是为漏斗模型。

作图

1.饼图
2.柱形图
3.条形图(横过来的柱状图)
4.双向条形图:数字绝对值的代码#,##0.00_);#,##0.00
5.直方图
6.折线图
7.柱形图顶端的折线图
8.散点图
9.箱线图
10.小提琴图
11.具有分布拟合的直方图:matlab中的histfit函数,返回的是绘图的句柄,h(1)是直方图的句柄,h(2)是密度曲线的句柄

物价水平:CPI