手机网站建设需求,圆通速递我做网站,经营管理培训课程,深圳注册公司需要哪些材料和流程Categorical分布#xff1a;深度学习中的离散建模利器
引言
对于深度学习研究者来说#xff0c;概率分布是模型设计和优化的基石。在许多生成模型中#xff0c;如变分自编码器#xff08;VAE#xff09;及其变种VQ-VAE#xff08;Vector Quantized Variational Autoenc…Categorical分布深度学习中的离散建模利器
引言
对于深度学习研究者来说概率分布是模型设计和优化的基石。在许多生成模型中如变分自编码器VAE及其变种VQ-VAEVector Quantized Variational Autoencoder我们需要对离散的潜在变量进行建模。这时Categorical分布分类分布就成为一个自然而强大的工具。本文将深入探讨Categorical分布的数学定义、通俗解释以及它在深度学习中的应用场景特别是结合VQ-VAE的背景剖析其为何在此类模型中扮演关键角色。 Categorical分布的数学定义
Categorical分布是离散概率分布的一种用于描述一个随机变量在有限个互斥类别中取值的概率。假设我们有一个离散随机变量 ( z z z )它可以取 ( K K K ) 个可能的值类别记为 ( { 1 , 2 , … , K } \{1, 2, \dots, K\} {1,2,…,K} )。Categorical分布的参数是一个概率向量 ( p [ p 1 , p 2 , … , p K ] \mathbf{p} [p_1, p_2, \dots, p_K] p[p1,p2,…,pK] )其中 ( p k p_k pk ) 表示 ( z z z ) 取值为 ( k k k ) 的概率且满足以下约束 ∑ k 1 K p k 1 , p k ≥ 0 , ∀ k \sum_{k1}^K p_k 1, \quad p_k \geq 0, \quad \forall k k1∑Kpk1,pk≥0,∀k
其概率质量函数PMF定义为 p ( z k ) p k , k ∈ { 1 , 2 , … , K } p(z k) p_k, \quad k \in \{1, 2, \dots, K\} p(zk)pk,k∈{1,2,…,K}
例如若 ( K 3 K 3 K3 )( p [ 0.2 , 0.5 , 0.3 ] \mathbf{p} [0.2, 0.5, 0.3] p[0.2,0.5,0.3] )则 ( p ( z 1 ) 0.2 p(z1) 0.2 p(z1)0.2 )( p ( z 2 ) 0.5 p(z2) 0.5 p(z2)0.5 )( p ( z 3 ) 0.3 p(z3) 0.3 p(z3)0.3 )。
Categorical分布是更广为人知的伯努利分布( K 2 K2 K2 )的多类别推广。当 ( K 2 K2 K2 ) 时它退化为伯努利分布当 ( K 2 K2 K2 ) 时它描述了多于两种可能结果的情况。 通俗解释
想象你在一个有 ( K K K ) 个选项的抽奖活动中每个选项被抽中的概率由 ( p k p_k pk ) 决定。比如一个三色转盘红色占20%( p 1 0.2 p_1 0.2 p10.2 )蓝色占50%( p 2 0.5 p_2 0.5 p20.5 )绿色占30%( p 3 0.3 p_3 0.3 p30.3 )。转一次转盘结果只能是红、蓝、绿中的一种而Categorical分布就是用来描述这种“单次选择”的概率模型。
在深度学习中Categorical分布的“离散性”特别重要。当我们需要从一组离散的潜在表示比如VQ-VAE中的码本向量中挑选一个时Categorical分布提供了一种简洁的方式来分配概率。 Categorical分布的作用建模什么
Categorical分布主要用于离散随机变量的建模特别适合以下场景
分类任务的输出在分类问题中模型的最后一层如softmax通常输出一个Categorical分布表示样本属于各个类别的概率。离散潜在变量在生成模型中如VQ-VAE潜在空间被量化为离散的码本codebookCategorical分布用来描述从码本中选择某个向量的概率。序列建模中的决策在自回归模型如PixelCNN或WaveNet中每一步生成一个离散值时可以用Categorical分布来建模输出。
简单来说它是深度学习中处理“离散选择”的数学工具尤其在需要从有限选项中采样时非常有用。 VQ-VAE中的Categorical分布
在VQ-VAE中Categorical分布被用来建模离散潜在变量 ( z z z ) 的先验分布 ( p ( z ) p(z) p(z) )。让我们逐步分析它在此的应用
VQ-VAE简介
VQ-VAE是一种生成模型通过将编码器的输出量化为码本中的离散向量来构建离散潜在空间。具体来说
编码器将输入 ( x x x ) 映射到一个连续的特征图 ( e e e )通过最近邻搜索( e e e ) 被量化为码本中的某个向量 ( z q z_q zq )解码器从 ( z q z_q zq ) 重建输入 ( x x x )。
训练时潜在变量 ( z z z ) 是离散的取值范围是码本的大小 ( K K K )。因此( p ( z ) p(z) p(z) ) 需要一个离散分布来建模而Categorical分布是自然选择。
为什么用Categorical分布
离散性匹配VQ-VAE的核心创新是离散潜在空间Categorical分布完美适配这种离散选择的需求。每个 ( z z z ) 对应码本中的一个向量( p ( z k ) p(zk) p(zk) ) 表示选择第 ( k k k ) 个向量的概率。初始假设简单在训练VQ-VAE时先验 ( p ( z ) p(z) p(z) ) 被设为均匀的Categorical分布即 ( p k 1 / K p_k 1/K pk1/K )这简化了训练过程避免了先验设计的复杂性。生成时的灵活性训练完成后可以通过拟合一个自回归分布如PixelCNN或WaveNet来替换均匀先验使得 ( p ( z ) p(z) p(z) ) 捕捉潜在变量间的依赖关系。这时Categorical分布仍然是每一步采样的基础。
自回归扩展
文中提到训练后可以用PixelCNN对图像或WaveNet对音频拟合一个自回归的 ( p ( z ) p(z) p(z) )。这意味着 ( p ( z i ) p(z_i) p(zi) ) 不再是独立的而是依赖于之前的 ( z i z_{i} zi ) p ( z ) ∏ i p ( z i ∣ z i ) p(z) \prod_{i} p(z_i | z_{i}) p(z)i∏p(zi∣zi) 每一步的 ( p ( z i ∣ z i ) p(z_i | z_{i}) p(zi∣zi) ) 仍然是一个Categorical分布只是参数由自回归模型动态生成。这种方式通过祖先采样ancestral sampling生成 ( z z z )再由解码器生成 ( x x x )极大地提升了生成样本的质量。
为什么不联合训练
文中https://arxiv.org/pdf/1711.00937指出联合训练先验和VQ-VAE可能增强结果但被留作未来研究。这是因为联合优化需要平衡编码器、解码器和先验的损失计算复杂且容易不稳定。分开训练先VQ-VAE后先验是更稳健的策略。 总结
Categorical分布是深度学习中处理离散变量的利器其简单性参数仅为概率向量和普适性使其广泛应用于分类、生成模型等领域。在VQ-VAE中它为离散潜在变量 ( z z z ) 的先验 ( p ( z ) p(z) p(z) ) 提供了数学基础支持了从均匀分布到自回归分布的灵活建模最终助力高质量样本生成。对于研究者而言理解Categorical分布不仅有助于掌握VQ-VAE的原理还能启发更多离散潜在空间的设计。