谷歌网站提交,网站建设招标评分标准,制作微信的网站有哪些问题,分销商城网站开发价格有如下几种计算相似性方法#xff1a; 点积相似度 X ⋅ Y ∣ X ∣ ∣ Y ∣ c o s θ ∑ i 1 n x i ∗ y i \begin{aligned} X \cdot Y |X||Y|cos\theta \\ \sum_{i1}^n x_i * y_i \end{aligned} X⋅Y∣X∣∣Y∣cosθi1∑nxi∗yi
向量内积的结果是没…有如下几种计算相似性方法 点积相似度 X ⋅ Y ∣ X ∣ ∣ Y ∣ c o s θ ∑ i 1 n x i ∗ y i \begin{aligned} X \cdot Y |X||Y|cos\theta \\ \sum_{i1}^n x_i * y_i \end{aligned} X⋅Y∣X∣∣Y∣cosθi1∑nxi∗yi
向量内积的结果是没有界限的解决办法就是先归一化再相乘就是下面的余弦相似度了。
余弦相似度 X ⋅ Y ∑ i 1 n x i ∗ y i ∑ i 1 n ( x i ) 2 ∗ ∑ i 1 n ( x i ) 2 X \cdot Y \frac{\sum_{i1}^n x_i * y_i}{\sqrt{\sum_{i1}^n (x_i)^2} * {\sum_{i1}^n (x_i)^2}} X⋅Y∑i1n(xi)2 ∗∑i1n(xi)2∑i1nxi∗yi
余弦相似度衡量两个向量在方向上的相似性并不关注两个向量的实际长度即对绝对数据不敏感。
示例 用户对内容评分5分制。A和B两个用户对两个商品的评分分别为A(1,2)和B(4,5)。使用余弦相似度得出的结果是0.98看起来两者极为相似但从评分上看A不喜欢这两个东西而B比较喜欢。造成这个现象的原因就在于余弦相似度没法衡量每个维数值的差异对数值的不敏感导致了结果的误差。 需要修正这种不合理性就出现了调整余弦相似度即所有维度上的数值都减去一个均值。 比如A和B对两部电影评分的均值分别是(14)/22.5,(25)/23.5。那么调整后为A和B的评分分别是(-1.5,-1.5)和(1.5,2.5)再用余弦相似度计算得到-0.98相似度为负值显然更加符合现实。 注为什么是在所有用户对同一物品的打分上求均值每个人打分标准不一对所有用户求均值等于是所有用户的打分映射到了同一空间内。上述是在计算两个用户的相似度以此类推计算两个物品的相似度就要计算所有物品的均值了。
修正的余弦相似度可以说就是对余弦相似度进行归一化处理的算法公式如下 s ( A , B ) ∑ i ∈ I ( R A , i − R i ˉ ) ( R B , i − R i ˉ ) ∑ i ∈ I ( R A , i − R i ˉ ) 2 ∑ i ∈ I ( R B , i − R i ˉ ) 2 s(A, B)\frac{\sum_{i \in I}\left(R_{A, i}-\bar{R_i}\right)\left(R_{B, i}-\bar{R_i}\right)}{\sqrt{\sum_{i \in I}\left(R_{A, i}-\bar{R_i}\right)^2} \sqrt{\sum_{i \in I}\left(R_{B, i}-\bar{R_i}\right)^2}} s(A,B)∑i∈I(RA,i−Riˉ)2 ∑i∈I(RB,i−Riˉ)2 ∑i∈I(RA,i−Riˉ)(RB,i−Riˉ) R A , i R_{A,i} RA,i 表示用户A在商品i上的打分 R i ˉ \bar{R_i} Riˉ表示商品i在所有用户上的打分均值。
皮尔逊相关系数
Pearson 相关系数是用来检测两个连续型变量之间线性相关的程度它解决了余弦相似度会收到向量平移影响的问题。取值范围为 [−1,1]正值表示正相关负值表示负相关绝对值越大表示线性相关程度越高 ρ x , y cov ( x , y ) σ x σ y E [ ( x − μ x , y − μ y ) ] σ x σ y ∑ i ( x i − x ˉ ) ( y i − y ˉ ) ∑ i ( x i − x ˉ ) 2 ∑ i ( y i − y ˉ ) 2 \begin{aligned} \rho_{\boldsymbol{x}, \boldsymbol{y}} \frac{\operatorname{cov}(\boldsymbol{x}, \boldsymbol{y})}{\sigma_{\boldsymbol{x}} \sigma_{\boldsymbol{y}}} \\ \frac{E\left[\left(\boldsymbol{x}-\mu_{\boldsymbol{x}}, \boldsymbol{y}-\mu_{\boldsymbol{y}}\right)\right]}{\sigma_{\boldsymbol{x}} \sigma_{\boldsymbol{y}}} \\ \frac{\sum_i\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_i\left(x_i-\bar{x}\right)^2} \sqrt{\sum_i\left(y_i-\bar{y}\right)^2}} \end{aligned} ρx,yσxσycov(x,y)σxσyE[(x−μx,y−μy)]∑i(xi−xˉ)2 ∑i(yi−yˉ)2 ∑i(xi−xˉ)(yi−yˉ) 如果把 x ′ x − x ˉ , y ′ y − y ˉ xx-\bar{x}, yy-\bar{y} x′x−xˉ,y′y−yˉ 那么皮尔逊系数计算的就是 x ′ 和 y ′ x 和 y x′和y′ 的余弦相似度。 参考
点积相似度、余弦相似度、欧几里得相似度常用的特征选择方法之 Pearson 相关系数图片向量相似检索服务(2)——四种基本距离计算原理 这篇博客倒是很简洁适合速读 点积相似度、余弦相似度、欧几里得相似度相似性和距离度量 (Similarity Distance Measurement)