简述电子商务网站建设的基本流程,有没有专门做二手的网站,浦东教育网站官网,贵阳app定制开发原理
gpt就是一个类似于成语接龙的游戏#xff0c;根据之前的n个字符#xff0c;预测下一个字符#xff0c;那么gpt的输入和输出是如何构造的呢#xff1f;比如给一个句子如下#xff1a; sentence#xff1a;如何理解gpt的原理。 构造gpt输入输入#xff1a; input根据之前的n个字符预测下一个字符那么gpt的输入和输出是如何构造的呢比如给一个句子如下 sentence如何理解gpt的原理。 构造gpt输入输入 input如何理解gpt的原 output何理解gpt的原理 是的你没有看错输入输出就是一个字符的错位。 那么输入时如何经过self-mask-attention来得到输出的呢 def forward(self, x):B, T, C x.size() # batch size, sequence length, embedding dimensionality (n_embd)# calculate query, key, values for all heads in batch and move head forward to be the batch dimxx self.c_attn(x)q, k, v xx.split(self.n_embd, dim2)k k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)q q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)v v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)# causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) - (B, nh, T, T)if self.flash:# efficient attention using Flash Attention CUDA kernelsy torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_maskNone, dropout_pself.dropout if self.training else 0, is_causalTrue)else:# manual implementation of attentionkt k.transpose(-2, -1)att (q kt) * (1.0 / math.sqrt(k.size(-1)))bais self.biasbais bais[:,:,:T,:T]att att.masked_fill(bais 0, float(-inf))att F.softmax(att, dim-1)att self.attn_dropout(att)y att v # (B, nh, T, T) x (B, nh, T, hs) - (B, nh, T, hs)y y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side# output projectiony self.resid_dropout(self.c_proj(y))return yinput经过矩阵计算得到权重att后经过masked_fill掩码处理得到了掩码的att权重然后经过softmax归一化处理最后的v乘积得到了每个output字符用前面input字符权重加权的表示最后经过矩阵变换成voc_size大小的输出就是我们要求的output输出最后把我们计算得到output和target进行交叉熵损失函数计算得到最终的loss从而进行梯度下降优化整个模型。