深圳做网站报价,wordpress邮件,如何自己建一个网站,英国T4学生签证 可以做网站吗VIT (Vision Transformer) 模型论文代码(源码)从零详细解读#xff0c;看不懂来打我_哔哩哔哩_bilibili
VIT模型架构图 1.图片切分为patch
2. patch转化为embedding
1#xff09;将patch展平为一维长度
2#xff09;token embedding#xff1a;将拉平之后的序列映射…VIT (Vision Transformer) 模型论文代码(源码)从零详细解读看不懂来打我_哔哩哔哩_bilibili
VIT模型架构图 1.图片切分为patch
2. patch转化为embedding
1将patch展平为一维长度
2token embedding将拉平之后的序列映射到规定的向量长度transformer encoder 的embedding size
实现方法有两种一种是线性此处展示为线性一种是卷积操作
3.位置embedding和token embedding相加
1生成CLS 符号的token embedding图中粉色表示
2生成所有序列的位置编码。针对patch生成patch embedding对应CLS是初始化了CLS的token embedding位置编码图中紫色表示生成所有序列的位置编码
3粉色和紫色相加token embedding和位置embedding相加 位置信息 4.输入到TRM模型 原始TRM中Norm放在了多头自注意力机制Muti-Head Attention后面Norm放在了前馈神经网络Feed Forward后面在VIT中Norm放在了多头自注意力机制Muti-Head Attention前面Norm放在了前馈神经网络Feed Forward前面
VIT没有pad符号不做边缘补0
5. CLS输出做多分类任务 复习 图片切分为patch
每个pacth拉平为768映射为encode 中的embedding size768
生成CLS初始化token embedding
拉平映射的token embedding和位置embedding相加得到Input embedding
输入到encoder中*N对应多少层
最终每个token都会得到768输出将每个输出进行多分类任务。