wordpress 商品 插件,网站seo运营,公司网站建设p开发,企业网站建设中在方案设计上向量空间模型VSM及余弦计算
向量空间模型的基本思想是把文档简化为以特征项#xff08;关键词#xff09;的权重为分量的N维向量表示。
这个模型假设词与词间不相关#xff08;这个前提造成这个模型无法进行语义相关的判断#xff0c;向量空间模型的缺点在于关键词之间的…向量空间模型VSM及余弦计算
向量空间模型的基本思想是把文档简化为以特征项关键词的权重为分量的N维向量表示。
这个模型假设词与词间不相关这个前提造成这个模型无法进行语义相关的判断向量空间模型的缺点在于关键词之间的线性无关的假说前提用向量来表示文本从而简化了文本中的关键词之间的复杂关系文档用十分简单的向量表示使得模型具备了可计算性。
在向量空间模型中文本泛指各种机器可读的记录。
用DDocument表示文本特征项Term用t表示指出现在文档D中且能够代表该文档内容的基本语言单位主要是由词或者短语构成文本可以用特征项集表示为DT1T2…Tn其中Tk是特征项要求满足1kN。
下面是向量空间模型特指权值向量空间的解释。
假设一篇文档中有a、b、c、d四个特征项那么这篇文档就可以表示为
Dabcd
对于其它要与之比较的文本也将遵从这个特征项顺序。对含有n个特征项的文本而言通常会给每个特征项赋予一定的权重表示其重要程度即
DDT1W1T2W2…TnWn
简记为
DDW1W2…Wn
我们把它叫做文本D的权值向量表示其中Wk是Tk的权重1kN。
在上面那个例子中假设a、b、c、d的权重分别为30202010那么该文本的向量表示为
D30202010
在向量空间模型中两个文本D1和D2之间的内容相关度SimD1D2常用向量之间夹角的余弦值表示公式为 其中W1k、W2k分别表示文本D1和D2第K个特征项的权值1kN。
下面是利用模型进行余弦计算的示例。
在自动归类中我们可以利用类似的方法来计算待归类文档和某类目的相关度。
假设文本D1的特征项为abcd权值分别为30202010类目C1的特征项为acde权值分别为40302010则D1的向量表示为
D1302020100
C1的向量表示为
C1400302010
则根据上式计算出来的文本D1与类目C1相关度是0.86。
那么0.86具体是怎么推导出来的呢
在数学当中n维向量是
V{v1v2v3...vn}
模为
|v|sqrtv1*v1v2*v2…vn*vn
两个向量的点积
m*nn1*m1n2*m2......nn*mn
相似度
simm*n/|m|*|n|
它的物理意义就是两个向量的空间夹角的余弦数值。
下面是代入公式的过程
d1*c130*4020*020*3010*200*102000
|d1|sqrt30*3020*2020*2010*100*0sqrt1800
|c1|sqrt40*400*030*3020*2010*10sqrt3000
simd1*c1/|d1|*|c1|2000/sqrt1800*30000.86066
完毕。