网站改版是什么竞争对手网站流量-Seo优化-葫芦岛市网站建设公司

网站改版是什么,竞争对手网站流量,小制作小发明做法,中国建筑集团有限公司是国企吗前文介绍#xff1a;前面我们以及介绍了自然语言序列输入到模型中进行的词嵌入和位置编码的数据变化过程#xff0c;编码器的结构和数据流动过程#xff0c;本文在前文的基础上继续接着介绍解码器中的数据流动过程和解码器结构#xff0c;阅读本文前最好参考前文#xff1…前文介绍前面我们以及介绍了自然语言序列输入到模型中进行的词嵌入和位置编码的数据变化过程编码器的结构和数据流动过程本文在前文的基础上继续接着介绍解码器中的数据流动过程和解码器结构阅读本文前最好参考前文词嵌入和位置编码超详细图解https://blog.csdn.net/Drise_/article/details/155502880?fromshareblogdetailsharetypeblogdetailsharerId155502880sharereferPCsharesourceDrise_sharefromfrom_link编码器详解超详细图解https://blog.csdn.net/Drise_/article/details/155556414?fromshareblogdetailsharetypeblogdetailsharerId155556414sharereferPCsharesourceDrise_sharefromfrom_link以下为《Attention Is All You Need》的transformer结构本文会对解码器部分进行介绍1.Decoder Stacks解码器堆栈我们首先来介绍一下解码器部分的总体结构也就是解码器堆栈。解码器堆栈也遵循解码器层间串行层内并行计算的原则首先是解码器层间并行与编码器堆栈相同第一个编码器输入接收词嵌入和位置编码的输出其他编码器的输入为上一个编码器的输出解码器堆栈也是如此。并且它的解码器解码器层个数也是6Nx6解码器堆栈总体结构如下2.输入数据的不同在前文我们介绍过token序列经过词嵌入和位置编码后作为编码器堆栈的输入数据在解码器堆栈它的输入数据同样要经过词嵌入和位置编码但是存在一点不同。编码器的输入数据在未进行词嵌入和位置编码时的文本处理如下训练过程中在解码器堆栈的输入数据的文本处理过程也就是在上图的添加特殊token步骤上与编码器堆栈的输入数据的文本处理不同添加特殊token步骤前编码器要对输入序列执行右移一位的操作由于训练过程的编码器堆栈和解码器堆栈的输入数据的原始文本是相同的这里沿用之前的例子if you也就导致if you被截断为 “if”有人可能会疑问这样不是导致信息残缺了吗其实这和训练过程解码器的训练逻辑有关下面会介绍Teacher Forcing。在右移后解码器堆栈的输入数据要在开头添加一个特殊的token, 即sos并且sequence_length仍然为6因此对于解码器堆栈的原始输入文本的文本处理的结果如下假设sos在词表中的索引为0[ 0 ,123 , 2 , 2 , 2 , 2 ]接下在词嵌入和位置编码的过程与前文相同我们现在就得到了解码器堆栈的输入向量它的维度大小同样是162这三个维度分别是(batch_size, sequence_length , d_model/embedding_dim)即为下面图片中图形的维度补充我们不禁产生一个疑问为什么在训练过程解码器堆栈也需要输入原始文本经过词嵌入和位置编码生成的输入数据讲到这里我们必须讲到Teacher ForcingTeacher Forcing是是序列生成模型如 RNN 等 Seq2Seq 架构中经典的训练策略核心是用真实目标序列规避训练初期的错误累积问题。该机制的核心思想是训练解码器时不使用模型上一时刻的预测输出作为当前时刻的输入而是强制用目标序列中对应的真实值作为输入。就像学生做题时老师直接给出上一步的正确答案引导学生做下一步而非让学生根据自己可能错的答案继续推导。而在解码器堆栈中我们输入的文本数据和编码器堆栈相同也就是说我们的编码器一开始就有一份“标准答案”我们如何让解码器只能知道上一步的结果而不偷看之后的正确答案呢这就涉及到了sequence mask掩码机制后文会详细介绍。Teacher Forcing的训练策略也就导致我们可以在右移过程让序列缺失最后一个token因为我们基于前面的所有token可以推断出最后一个token并且进行完这一步操作我们的训练过程就结束了所有我们不需要将最后一个token输入到解码器堆栈中。并且右移在开头添加sos也让我们在第一步训练只有第一个token的信息第二步训练只有第一二个token的信息添加开头sos让整个解码器训练流程统一。3.解码器结构我们先来介绍一下每个解码器解码器层的结构如下图每个解码器由两个多头注意力层和一个前馈层组成并且他们后都接了一个残差连接和归一化处理可以观察到解码器的多头注意力层和编码器有所不同接下来我们要详细介绍其中的细节。1Masked Multi-Head Attention首先我们看到编码器中的多头注意力层为Multi-Head Attention在解码器中则多了一个Masked这代表的是掩码机制掩码机制的主要作用是把序列的某些token“藏起来”让这些token不能够对此次的参数更新产生影响在transformer中主要有两种掩码机制如下1.padding mask这种掩码机制我们在前文讲过词嵌入和位置编码它的方法就是通过在序列对齐标准序列长度时填充padpad的位置在后续操作会变成一个极大的负数从而导致softmax分数接近0。2.sequence masksequence mask是解码器自注意力层的核心操作核心目标是强制模型在预测第i个 token 时只能关注前i−1个 token完全屏蔽 “未来” 位置的信息其实现逻辑如下首先生成一个大小为sequence_length*sequence_length大小的矩阵其元素的填充规则是可见位置设为 0不可见未来位置设为极小值具体步骤如下我们继续延用我们的例子sequence_length6先生成一个6*6的下三角矩阵再把下三角矩阵中0的部分换为负无穷1换为0过程如下得到了掩码矩阵之后我们就知道了每一时间步我们能够关注到的信息比如第一个时间步我们就看到第一行为[ 0,-∞,-∞,-∞,-∞,-∞]这就表示我们只能看到第一个token其实这里的原理和padding mask是相同的那就是极大的负数导致softmax分数接近0。在解码器的mask使用的步骤也是这张图片不过在解码器中mask为sequence mask详细过程可以看编码器详解除了额外添加一个掩码机制Masked Multi-Head Attention的其他方面比如注意力计算的步骤和编码器一模一样建议可以查看编码器部分来理解。2Multi-Head Attention在解码器的Multi-Head AttentionQ , K , V(它们分别代表查询向量键向量和值向量)的来源有所不同我们前面编码器堆栈的输出Q 来自解码器上一层即掩码多头自注意力层的输出K 和 V 则均来自编码器的最终输出如此得到的解码器的注意力分数用于预测下一位置的token4.Feed Forward前馈层和 Add Norm在解码器的前馈层和残差归一化操作和编码器中是相同的具体操作请看编码器详解超详细图解https://blog.csdn.net/Drise_/article/details/155556414?fromshareblogdetailsharetypeblogdetailsharerId155556414sharereferPCsharesourceDrise_sharefromfrom_link如此经过六个解码器我们得到了最终输出的是一个特征向量序列。这个向量序列里的每个向量都融合了三方面关键信息解码器生成序列的前文依赖、编码器输入的全局上下文、当前生成位置的语义特征且向量维度和模型设定的隐藏层维度。在通过线性层 Softmax 层形成可用于选择 token 的概率分布这样我们就可以在训练过程预测全部位置的token概率分布最终得到预测的token序列。

网站改版是什么竞争对手网站流量

学做电影网站网站建设公司前台

建设交通人才网站瑞安微信网站

网站建设html的好处浦口网站建设

excel怎么做超链接到网站html网页制作参考文献

注册国外网站用什么邮箱蓬莱做网站价格

微网站微信html5个人网页代码大全

网站改版是什么竞争对手 网站流量

学做电影网站网站建设公司前台

建设交通人才网站瑞安微信网站

网站建设html的好处浦口网站建设

excel怎么做超链接到网站html网页制作参考文献

注册国外网站用什么邮箱蓬莱做网站价格

微网站 微信html5个人网页代码大全

网站改版是什么竞争对手网站流量

微网站微信html5个人网页代码大全