做网站花了三万块,宽带网络哪家好,如何建立一个网站详细步骤,高端建筑班CrossEntropy loss
交叉熵是用来衡量两个概率分布之间的差异性或不相似性的度量交叉熵定义为两个概率分布p和q之间的度量。其中#xff0c;p通常是真实分布#xff0c;而q是模型预测的分布 交叉熵还等于信息熵 相对熵 这里#xff0c;x遍历所有可能的事件#xff0c;p(x)…CrossEntropy loss
交叉熵是用来衡量两个概率分布之间的差异性或不相似性的度量交叉熵定义为两个概率分布p和q之间的度量。其中p通常是真实分布而q是模型预测的分布 交叉熵还等于信息熵 相对熵 这里x遍历所有可能的事件p(x)是真实分布中事件 发生的概率而q(x)是模型预测该事件发生的概率
Negative log Likelihodd loss
似然Likelihood
似然是在给定特定模型参数的情况下观察到当前数据的概率。如果模型参数用0表示观察
到的数据用X表示那么似然通常写作L(θ|X)或P(X|θ)。
最大似然估计MLE就是寻找能最大化观察到的数据似然的参数值公式
假设有一个统计模型其参数为0并且有一组观测数据XX1X2X3…Xn。似然函数L(θ|X)定义为给定参数θ下观测数据X出现的概率 L(θ|X) P(X|θ)对于独立同分布的数据点似然可以表示为各个数据点概率的乘积
对数似然Log-Likelihood
对数似然是似然的对数形式通常表示为1ogL(θ|X)对数变换是单调的不改变似然函数
的最优参数位置。
对数变换通常在数学处理上更方便。特别是当似然是多个概率的乘积时对数变换可以将乘法转化为加法简化计算。
在最大似然估计中通常最大化对数似然而不是似然因为这在数学上更容易处理。对数似然是似然函数的自然对数它在数学处理上更方便尤其是将乘法转换为加法。对数似然表示为
负对数似然Negative Log-Likelihood, NLL
负对数似然是对数似然的负值表示为—logL(θ|X)这种形式在优化问题中更为常见。
负对数似然常用作损失函数由于优化算法通常设计为最小化一个函数将对数似然取负值可以将似然最大化问题转化为最小化问题负对数似然是对数似然的负值常用作损失函数特别是在最大似然估计中。它的表达式是
交叉熵就是负对数似然
似然可以写为各个数据点的概率乘积 除以N取平均再log变成为加变为对数似然刚好变为负交叉熵定义式
KL(Kullback–Leibler) divergence也叫相对熵 带入均值和标准差
交叉熵等于信息熵KL散度
信息熵 它是衡量信息量的一个度量或者更精确地说是衡量随机变量不确定性的度量 熵高意味着随机变量的不确定性高熵低则意味着不确定性低。例如如果一个随机变量只能取一个值那么其熵为0因为这个事件发生的概率是1没有不确定性 当所有可能事件都具有相同概率时熵达到最大值表示最大的不确定性。 p是真实分布q是预测的分布 当在做一个机器学习目标函数时用交叉熵或KLD单独来看效果是一样的因为信息熵如果是一个delta(one-hot)分布那它的值就是0如果是一个非delta分布那它也是一个常数常数对于神经网络的参数更新是没有任何贡献的所以优化交叉熵loss和KLDloss效果是一样的只不过数值上不一样(如果目标是delta分布那数值也一样这个时候用KLD时把target转换为one-hot向量就可以了)
Binary Cross Entropy二分类交叉熵
NLLloss 是BCEloss 的一般形式所以可以用NLLloss代替BCEloss来算
调用cosine similarity loss 余弦相似度
余弦相似度是一种用于衡量两个非零向量在方向上的相似程度的度量可以用来做图片的相似比如拿一个图片想要在1百万张图片两找出前100个相似的图片可以先用resnet等方法得到它的向量表征然后拿这个图片的向量表征去和这1百万张做余弦相似度然后得出最相近的前一百个即可余弦值的范围在 -1 到 1 之间其中 1 表示两个向量方向完全相同-1 表示两个向量方向完全相反0 表示向量之间的角度是 90 度即它们正交或不相关余弦相似度衡量的是方向上的相似性而不是大小上的相似性。这意味着它会忽略两个向量的长度或大小只关注它们的方向
学习资料https://www.bilibili.com/video/BV1Sv4y1A7dz/