当前位置：首页 > news >正文

查询自己网站外链企业电话名单从哪里弄

news 2025/12/20 18:01:16

查询自己网站外链,企业电话名单从哪里弄,西宁平台网站建设,wordpress 加密功能引言本文主要摘抄自#xff1a;Understanding Variational Autoencoders (VAEs), Joseph Rocca, Sep 24, 2019#xff0c;同时会加一些自己的理解和对原文的解释。关于数据生成#xff0c;目前深度生成模型中主流的有#xff1a; 生成对抗网络——GANs#xff0c;这是…引言本文主要摘抄自Understanding Variational Autoencoders (VAEs), Joseph Rocca, Sep 24, 2019同时会加一些自己的理解和对原文的解释。关于数据生成目前深度生成模型中主流的有生成对抗网络——GANs这是老牌了研究的已经非常成熟。变分自编码器——VAEs主在图像生成的时候主要用于风格转换。Transformer主要用于自然语言处理。Diffusion Models扩散模型听说吊打GANs在图像生成领域。本文的重点主要是介绍VAE的思想和一些相关的基础概念在写这篇博客的时候同时也去加深自己的理解希望能够帮助到有需要的人。简而言之VAE是一种自动编码器其编码分布在训练过程中被正则化以确保其潜在空间具有良好的特性从而使我们能够生成一些新数据。此外“变分”一词来源于正则化与统计中的变分推断方法之间的密切关系。听不懂这些没关系我们慢慢来同时在阅读这篇文章的时候相信你是有一些深度学习基础的否则你也不可能浏览这个知识点所以默认你有一些基础知识那我们开始吧。什么是降维我们首先了解一下降维的概念。在机器学习中降维就是减少描述某些数据的特征数量。这个减少的过程要么就是selection——只有一部分已存在的特征被保留下来要么就是extraction——从原有的特征中生成数量较少的新特征。比如我们有一个包含许多狗狗的健康信息的数据集其中每个狗狗都有很多特征如年龄、体重、饮食习惯、运动量、心率、血压、毛色、单双眼皮等。每个狗狗的这些因素都可以看作是判断狗狗是否健康的一个特征。但是特征维度太多直接分析会需要很多的计算资源并且许多特征并不能反应狗狗的健康状态比如“毛色”这是狗狗生来具有的所以我们从中提取能够更直观或有效反应健康状态的特征这就是降维。首先我们将从旧特征”产生“新特征”的过程称作编码encoder解码decoder是这一过程的反过程。降维相当于是数据的压缩encoder 压缩数据是从原始特征空间到编码空间的过程也叫隐空间 latent spacedecoder 解压。而隐空间的维度是低于原始空间的这个压缩过程是有损的也就意味着一部分信息在 encoding 过程中会丢失过程无法还原这些特征。过程如图1所示Xd(e(x))是一种非常理想的数据编码解码过程怎么说呢有点像你平时给一些文件打成压缩包占用的存储空间变小了然后解压的时候也能够原原本本的还原数据。不过在VAE的应用场景中这种情况很难实现大多情况还是第二种x≠d(e(x))。图1.降维的过程其实降维的目的无非不是找到一组最佳的encoderdecoder即能够保留最多信息的 encoder 和能产生最少重建误差reconstruction error的 decoder。主成成分分析Principal components analysisPCA 一说到降维第一个想到的应该就是 PCA 了我们简要回顾下 PCA。PCA通过以线性组合的方式从 n d n_d nd个原始特征构建 n e n_e ne 个相互独立的新特征让原始数据在子空间上的映射与原始数据之间尽可能接近。可以通过图2来了解这个过程图2.PCA降维的过程首先原始数据集有A到E五个点在平面上表示这些点的位置需要一个坐标xy也就是每一个点都需要至少两个维度表示即2个数值5个点需要10个数值。如果我们将其映射到一条直线上图中的黑线即过点做黑线的垂线交点就是映射的位置。经过这样的映射表示这些点我只需要给出这些点到原点00的长度即可也就是图右侧表格中的Encoded列这样表示这5个点只需要5个数值即可相比原来的10个数值特征数量减少了一半。当然这个压缩过程是有损的在decoding的时候无法准确的还原图中黑色虚线长度就形象的表示了数据丢失的程度长度越短丢失的信息越少。吐槽这条线的划分看着有点像SVM 自编码器Autoencoders autoencoders就是神经网络降低维度的手段其整体思路非常简单将encoder和decoder设置为神经网络即可通过迭代优化来学习最佳的encoding-decoding组合。可以这么理解给定一个RGB图片形状为2552553通过encoder这个图片变成了25251通过decoder变成了2552553只需要计算最开始的图像矩阵和最终decoder生成的图像矩阵之间的loss随后反向传播即可这个过程就是网络学习图片本身的特征encoder的25251就是网络学习到的特征表示。图3. autoencoder 可知网络结构越复杂autoencoder 越可以降低更多的维度同时保持较低的重构损失。直观地讲如果我们的 encoder 和 decoder 具有足够的自由度则可以将任何初始维数减小为 1。也确实具有“无限能力”的 encoder 理论上可以将我们的 N 个初始数据编码为1、2、3……N 个并且对应的 decoder 也可以进行逆变换而在此过程中不会造成任何损失。但是在我们应该注意两点。首先没有重建损失的降维通常要付出代价隐空间中缺乏可解释和可利用的结构缺乏正则化其次在大多数情况下降维的最终目的不仅仅是减少数据的维数而且要在减少维数的同时将数据结构信息的主要部分保留在简化的表征中。由于这两个原因必须根据降维的最终目的来仔细控制和调整隐空间的尺寸和 autoencoder 的“深度”压缩的程度和质量。图3.不同降维程度损失的信息怎么理解没有重建损失的降维通常要付出代价隐空间中缺乏可解释和可利用的结构缺乏正则化观察图4如果我们将原始的数据压缩到只有一个维度是否有”生命“即左边的部分。但是这样我们会丢失很多信息比如是否有轮子是否会飞是否会发出声音。这样压缩过后的数据很难将其利用起来或者说利用价值不大。比如在图像生成领域如果压缩的过厉害像左边的部分一样我想生成风格不同的车可能给我生成了一个石头因为同样是没有生命的这当然是理想情况讨论了现实中压缩这么极端的模型生成的数据可能就跟你家电视收不到信号时满屏的噪声点一样。如果退而求其次压缩成右边的部分那么就可以保留更多的信息使得隐空间所表达的信息更有意义具有可解释性。 Autoencoders 在样本生成中的限制我们考虑一个极端的情况有一种强大的 autoencoders强大到可以将任何 N 个初始训练数据映射到实数轴上每个数据点都被编码为实数值并且可以没有任何重建损失地 decode。在这种情况下autoencoders 可以在没有信息损失的情况下进行 encode 和 decode尽管隐空间的维数较低这样会导致严重的过拟合意味着一旦 decode隐空间的某些点将给出无意义的内容。图4.不规则的潜空间阻止我们使用自动编码器来生成新内容。通过图4我们可以更直观的理解正方形、圆形、三角形被编码到了实数轴上可以无损的被decoder还原出来这很好。但是其它的点在被decoding后就变成了一些没有意义的点这样的数据对我们来说没有意义是我们不想看到的。我们要明确一点就是encoder是将原来的高纬度数据比如可能是x,y,z三维空间的数据映射到一个低纬度空间比如可能是实数轴一样的一个一维空间。这个一维空间有无数种表示实数轴上有无数个数值原来的高维数据是有限的只能映射到一部分的实数上面那么其它的数字对于decoder来说就是没有意义的在数据生成这个角度来说就是败笔因为没有办法生成新的数据你给什么数据我只能还原他相当于就是一个压缩功能。我们想要的是你能够压缩同时也能够生成的模型。 variational autoencoders 这时我们不妨换个思路把映射到某个具体的点改为映射成某个分布这样是不是就保证每个点都是有意义的一个分布中有无数的数值那么是不是就可以用有限的数据生成无限的数据并且生成的数据与原来的类似不会生成一些没有意义数据。把这句话的数据改为图像理解起来或许可以更形象一些这其实就是变分自编码器的思想。如何形象或者说更具体的理解这一过程呢——“将输入的数据 encode 为具有一定方差而不是单个点的分布”。在传统的神经网络中输入数据通常被映射到一个确定性的输出也就是说给定相同的输入神经网络总是产生相同的输出。而在变分自编码器中我们希望将输入数据映射到一个潜在空间中的分布而不是一个确定的点。因此编码器的输出并不是一个具体的值而是一个概率分布。假设潜在空间是一个二维的高斯分布具有均值向量 μ μ μ和方差向量 σ 2 σ^2 σ2。编码器的输出将是这两个向量表示了给定输入图像后潜在空间中高斯分布的参数。例如如果我们用 μ[-0.5, 0.3] 和 σ^2[0.1, 0.2] 来表示某个手写数字的编码器输出这意味着编码器认为给定的输入图像对应的潜在表示的均值大概位于 (-0.5, 0.3)并且具有一定的方差使得在这个位置周围有一定的分布。思路其实和之前的映射一样将每一个输入映射到不同的潜在分布。好多人在这个地方理解的时候搞混了人为输入图像都是映射到一个潜在分布里面的不同点这是不对的。如果还是映射成点的话和之前映射到实数轴上就是同一个道理了。注意每个输入图像的潜在分布通常都是不同的。这是因为每个输入图像在潜在空间中都有其自己的表示因此对应的潜在分布也会不同。换句话说不同的输入图像会被映射到潜在空间中不同的区域因此它们对应的概率分布会有所不同。在训练过程中VAE会尝试学习如何将输入数据映射到潜在空间中的合适位置也就是映射成某个分布以便在潜在空间中能够更好地捕捉到数据的分布。因此尽管每个输入图像的潜在分布都是不同的但我们希望这些分布能够相互重叠注意重叠不是重合从而使得潜在空间中的相似图像对应的概率分布也是相似的这有助于模型生成具有一定连续性的新样本。图5. autoencoder与VAE之间的差异可从图5观察到autoender与VAE之间的差异autoencoder是将输入数据映射成一个特定的点不同的是VAE将输入数据映射到潜在空间也就是低维空间这样好理解的一个分布随后在这个对应的分布里面采样将其decoding成重建数据。 VAE的主要过程主要分为一下四个步骤 1. 将输入 encode 为在隐空间上的分布 2. 从该分布中采样隐空间中的一个点 3. 对采样点进行 decode 并计算出重建误差 4. 重建误差通过网络反向传播在实际应用中我们会选择正态分布作为 encoder 的分布以便可以训练 encoder 返回描述这些高斯分布的均值和方差。为什么用高斯分布因为方便啊你也可以映射成其它的分布但是计算可能麻烦或者不便于表达现实中很多的事物都符合高斯分布这也是一个理由高斯分布在很多场景都得到应用值得关注的是VAE的loss是什么autoencoder的loss很好理解只要计算decoding后的数据与原始数据之间的差异即可。但是VAE不可以如果这样会造成过拟合无法生成新的数据所以要加入正则化也就是不要拟合的那么彻底需要有一些误差。图6. 在 VAE 中损失函数由两项组成第一项很明显就是希望重构后的数据和原始的数据尽可能的有一些相似称作“重构项”。第二项希望映射到潜在空间的分布尽可能的接近正态分布也就是将隐空间的正则化不要映射成一个点称作“正则化项”。第二项的是KL散度用于描述两个分布近似程度的指标取值为 [ 0 , ∞ ] [0,\infty] [0,∞],取值为0的时候两个分布相同。潜在空间是否正则化有哪些影响呢可以从下图直观的去感受这一不同。图7.潜在空间是否正则化的不同没有正则化的潜在空间距离相近的点代表的意思可能完全不同如左边部分红色代表三角形绿色代表正方形这样差异很大不说一些其他没有被编码到的点会被decoder解码成没有意义的数据。相反正则化之后在潜在空间距离相近的点或者说在潜在空间中相似的分布被解码之后也应该具有一定的相似性。这样的隐空间比较好所有的点我们都可以拿来生成数据这是一个具有良好性质的潜在空间。至此VAE大概就这些内容本文所说的都是形象的理解不涉及到复杂的数学公式另外我感觉原文写的数学推理也不是很好连贯性不够挖个坑到时候自己重新排版一下。以上内容主要还是以理解为主准备过段时间上推理。

查看全文

http://www.pierceye.com/news/731779/