媒体村网站建设,学校网站建设交流汇报,邢台做网站的,商城开源0. 概念和公式
请参考#xff1a;一、机器学习之线性回归#xff08;一#xff09;
1. 涉及公式
1.1 简单线性回归 y w x b y wx b ywxb
1.2 多元线性回归 y ^ w 1 X 1 w 2 X 2 . . . w n X n w 0 \hat y w_1X_1 w_2X_2 ... w_nX_n w_0 y^w1X1w2X2.…0. 概念和公式
请参考一、机器学习之线性回归一
1. 涉及公式
1.1 简单线性回归 y w x b y wx b ywxb
1.2 多元线性回归 y ^ w 1 X 1 w 2 X 2 . . . w n X n w 0 \hat y w_1X_1 w_2X_2 ... w_nX_n w_0 y^w1X1w2X2...wnXnw0
向量表示 y ^ W T X \hat y W^TX y^WTX
1.3 高斯密度函数 f ( x ; μ , σ 2 ) 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) \ f(x; \mu, \sigma^2) \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x;μ,σ2)2π σ1exp(−2σ2(x−μ)2)
1.4 最大似然估计
连乘 L ( θ ∣ data ) ∏ i 1 n P ( X i ; θ ) \ L(\theta | \text{data}) \prod_{i1}^{n} P(X_i; \theta) L(θ∣data)∏i1nP(Xi;θ) 对数 ℓ ( θ ∣ data ) ∑ i 1 n log P ( X i ; θ ) \ \ell(\theta | \text{data}) \sum_{i1}^{n} \log P(X_i; \theta) ℓ(θ∣data)∑i1nlogP(Xi;θ)
1.5 最小二乘法 J ( θ ) 1 2 ∑ i 1 n ( h θ ( x i ) − y i ) 2 J(\theta) \frac{1}{2} \sum_{i1}^{n} (h_\theta(x_i) - y_i)^2 J(θ)21∑i1n(hθ(xi)−yi)2
1.8 正规方程 θ ( X T X ) − 1 X T y \theta (X^T X)^{-1} X^T y θ(XTX)−1XTy
1.9 均方误差 MSE 1 n ∑ i 1 n ( h θ ( x i ) − y i ) 2 \text{MSE} \frac{1}{n} \sum_{i1}^{n} (h_\theta(x_i) - y_i)^2 MSEn1∑i1n(hθ(xi)−yi)2
2. 公式推导(不考虑多项式)
2.1 解决问题 建模问题 目标 描述变量之间的线性关系。 问题描述 给定一组观测数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1, y_1), (x_2, y_2), ..., (x_n, y_n) (x1,y1),(x2,y2),...,(xn,yn)其中 (x) 是自变量(y) 是因变量线性回归的目标是找到一条直线 y θ 0 θ 1 x y \theta_0 \theta_1 x yθ0θ1x使得这条直线最好地拟合给定的数据点。其中 θ 0 \theta_0 θ0 是截距 θ 1 \theta_1 θ1 是斜率。 解法 通过最小化均方误差MSE来找到最优的参数 θ \theta θ。这等价于解一个线性方程系统其中涉及到对参数的偏导数等于零或者使用正规方程Normal Equations。 ∂ J ( θ ) ∂ θ 0 0 \frac{\partial J(\theta)}{\partial \theta_0} 0 ∂θ0∂J(θ)0 ∂ J ( θ ) ∂ θ 1 0 \frac{\partial J(\theta)}{\partial \theta_1} 0 ∂θ1∂J(θ)0 预测问题 目标 使用模型进行未知变量的预测。 问题描述 在建立了线性回归模型后我们希望利用这个模型对未知数据进行预测。例如给定新的 x x x 值我们希望预测对应的 y y y 值。 解法 使用建立好的线性回归模型将未知 x x x 值代入模型得到预测的 y y y 值。 y ^ θ 0 θ 1 x \hat{y} \theta_0 \theta_1 x y^θ0θ1x
2.2 误差分析
误差计算 ε i ∣ y i − y ^ ∣ \varepsilon_i |y_i - \hat y | εi∣yi−y^∣ 向量写法 ε i ∣ y i − W T x i ∣ \varepsilon_i |y_i - W^T x_i | εi∣yi−WTxi∣ ε i \varepsilon_i εi为误差 y i y_i yi为样本实际值 y ^ \hat y y^为预测值
假定所有的样本的误差都是独立的上下的震荡叠加之后形成的分布它服从正态分布高斯分布服从均值为 0方差为某定值的高斯分布。
2.3 误差分析 到 高斯密度函数
高斯密度函数正态分布公式 f ( x ; μ , σ 2 ) 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) \ f(x; \mu, \sigma^2) \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x;μ,σ2)2π σ1exp(−2σ2(x−μ)2) μ \mu μ 均值为0 σ 2 \sigma^2 σ2 方差 x x x误差变量 ε i \varepsilon_i εi 公式简化 f ( ε i ∣ μ 0 , σ 2 ) 1 2 π σ exp ( − ( ε i − 0 ) 2 2 σ 2 ) \ f(\varepsilon_i|\mu0, \sigma^2) \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right) f(εi∣μ0,σ2)2π σ1exp(−2σ2(εi−0)2) f ( ε i ∣ 0 , σ 2 ) 1 2 π σ exp ( − ε i 2 2 σ 2 ) \ f(\varepsilon_i|0, \sigma^2) \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right) f(εi∣0,σ2)2π σ1exp(−2σ2εi2)
2.4 高斯密度函数 到 最大似然估计
有 f ( ε i ∣ 0 , σ 2 ) 1 2 π σ exp ( − ε i 2 2 σ 2 ) \ f(\varepsilon_i|0, \sigma^2) \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right) f(εi∣0,σ2)2π σ1exp(−2σ2εi2) P ∏ i 1 n f ( ε i ∣ 0 , σ 2 ) ∏ i 1 n 1 2 π σ exp ( − ε i 2 2 σ 2 ) P \prod_{i1}^{n}f(\varepsilon_i|0, \sigma^2)\prod_{i1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right) P∏i1nf(εi∣0,σ2)∏i1n2π σ1exp(−2σ2εi2)
有 ε i ∣ y i − W T x i ∣ \varepsilon_i |y_i - W^T x_i | εi∣yi−WTxi∣ P ∏ i 1 n 1 2 π σ exp ( − y i − W T x i ) 2 2 σ 2 ) P \prod_{i1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{y_i - W^T x_i )^2}{2\sigma^2}\right) P∏i1n2π σ1exp(−2σ2yi−WTxi)2)
2.5 最大似然估计 到 最小二乘法
有 P ∏ i 1 n 1 2 π σ exp ( − y i − W T x i ) 2 2 σ 2 ) P \prod_{i1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{y_i - W^T x_i )^2}{2\sigma^2}\right) P∏i1n2π σ1exp(−2σ2yi−WTxi)2) 对数运算 l o g e ( P ) l o g e [ ∏ i 1 n 1 2 π σ exp ( − y i − W T x i ) 2 2 σ 2 ) ] log_e(P) log_e\left[\prod_{i1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{y_i - W^T x_i )^2}{2\sigma^2}\right)\right] loge(P)loge[∏i1n2π σ1exp(−2σ2yi−WTxi)2)]
累乘变成累加 l o g e ( P ) l o g e [ ∏ i 1 n 1 2 π σ exp ( − y i − W T x i ) 2 2 σ 2 ) ] log_e(P) log_e\left[\prod_{i1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{y_i - W^T x_i )^2}{2\sigma^2}\right)\right] loge(P)loge[∏i1n2π σ1exp(−2σ2yi−WTxi)2)] ∑ i 1 n l o g e [ 1 2 π σ exp ( − y i − W T x i ) 2 2 σ 2 ) ] \sum_{i1}^{n}log_e\left[\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{y_i - W^T x_i )^2}{2\sigma^2}\right)\right] ∑i1nloge[2π σ1exp(−2σ2yi−WTxi)2)] ∑ i 1 n [ l o g e 1 2 π σ − y i − W T x i ) 2 2 σ 2 ] \sum_{i1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{y_i - W^T x_i )^2}{2\sigma^2}\right] ∑i1n[loge2π σ1−2σ2yi−WTxi)2] ∑ i 1 n [ l o g e 1 2 π σ − 1 2 . 1 σ 2 . ( y i − W T x i ) 2 ] \sum_{i1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2}. \frac{1}{\sigma^2}.(y_i - W^T x_i)^2\right] ∑i1n[loge2π σ1−21.σ21.(yi−WTxi)2]
最大似然求对数后 π 、 σ \pi 、\sigma π、σ都是常量 ( y i − W T x i ) 2 (y_i - W^T x_i)^2 (yi−WTxi)2肯定大于零。求最大值问题转变为求最小值问题 L ( θ ∣ data ) 1 2 . ∑ i 1 n ( y i − W T x i ) 2 \ L(\theta | \text{data}) \frac{1}{2}.\sum_{i1}^{n} (y_i - W^T x_i)^2 L(θ∣data)21.∑i1n(yi−WTxi)2
可写成 h θ ( x i ) W T x i h_\theta(x_i) W^T x_i hθ(xi)WTxi J ( θ ) 1 2 ∑ i 1 n ( h θ ( x i ) − y i ) 2 J(\theta) \frac{1}{2} \sum_{i1}^{n} (h_\theta(x_i) - y_i )^2 J(θ)21∑i1n(hθ(xi)−yi)2
2.6 最小二乘法 到 正规方程
有 J ( θ ) 1 2 ∑ i 1 n ( h θ ( x i ) − y i ) 2 J(\theta) \frac{1}{2} \sum_{i1}^{n} (h_\theta(x_i) - y_i )^2 J(θ)21∑i1n(hθ(xi)−yi)2
可写成 J ( θ ) 1 2 ( X θ − y i ) T ( X θ − y i ) J(\theta) \frac{1}{2}(X\theta - y_i)^T(X\theta - y_i) J(θ)21(Xθ−yi)T(Xθ−yi) J ( θ ) 1 2 ( θ T X T − y i T ) ( X θ − y i ) J(\theta) \frac{1}{2}(\theta^TX^T - y_i^T)(X\theta - y_i) J(θ)21(θTXT−yiT)(Xθ−yi) J ( θ ) 1 2 ( θ T X T X θ − θ T X T y i − y i T X θ y T y i ) J(\theta) \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i - y_i^TX\theta y^Ty_i) J(θ)21(θTXTXθ−θTXTyi−yiTXθyTyi)
进行求导注意X、y是已知量 θ \theta θ是未知数 J ′ ( θ ) X T ( X θ − y ) J(\theta) X^T(X\theta - y) J′(θ)XT(Xθ−y) 0 X T ( X θ − y ) 0 X^T(X\theta - y) 0XT(Xθ−y) X T X θ X T y X^TX\theta X^Ty XTXθXTy
使用逆矩阵进行转化 ( X T X ) − 1 X T X θ ( X T X ) − 1 X T y (X^TX)^{-1}X^TX\theta (X^TX)^{-1}X^Ty (XTX)−1XTXθ(XTX)−1XTy I θ ( X T X ) − 1 X T y I\theta (X^TX)^{-1}X^Ty Iθ(XTX)−1XTy θ ( X T X ) − 1 X T y \theta (X^TX)^{-1}X^Ty θ(XTX)−1XTy
2.7 最小二乘法 和 均方误差 J ( θ ) 1 2 ∑ i 1 n ( h θ ( x i ) − y i ) 2 J(\theta) \frac{1}{2} \sum_{i1}^{n} (h_\theta(x_i) - y_i)^2 J(θ)21∑i1n(hθ(xi)−yi)2 MSE 1 n ∑ i 1 n ( h θ ( x i ) − y i ) 2 \text{MSE} \frac{1}{n} \sum_{i1}^{n} (h_\theta(x_i) - y_i)^2 MSEn1∑i1n(hθ(xi)−yi)2
相似但用处不同 J ( θ ) J(θ) J(θ) : 模型训练的损失函数通过梯度下降等优化算法最小化代价函数 MSE \text{MSE} MSE: 评估模型的性能衡量模型的预测值与真实值之间的平均平方误差