湖南昌正建设有限公司网站,一个人做网站赚钱,广安广告公司,网站建设公司市场看了那么多还没有讲特别好的#xff0c;GPT老师讲的不错关于三角函数编码。
一、 手撕transformer常用三角位置编码 GPT说#xff1a;“低维度的编码#xff08;例如#xff0c;第一个维度#xff09;可以捕捉到大的位置差异#xff0c;而高维度的编码则可以捕捉到小的细…看了那么多还没有讲特别好的GPT老师讲的不错关于三角函数编码。
一、 手撕transformer常用三角位置编码 GPT说“低维度的编码例如第一个维度可以捕捉到大的位置差异而高维度的编码则可以捕捉到小的细节差异”好像是错的(说反了)我重新整理了下。 Query: 频率怎么看 如果sin(wx) 那么i越小代表低维是吧分母就越小 那么整体w就越大 w是不是频率 如果是 拿小维度频率更高呢 有可能我理解错了 Answer 13 【大模型面试 | 位置编码PE - 草莓师姐 | 小红书 - 你的生活指南】 mO58Egl5lGXSLX9 https://www.xiaohongshu.com/discovery/item/67ac12e4000000002802aa9e?sourcewebsharexhssharepc_webxsec_tokenABecXaiAShhTEnyF7pb2o-V49ONyIegFjiTjRo5qdXHUoxsec_sourcepc_share 是不是有这个说法 如果用这种三角编码不方便LLM外推 二、 手撕RoPE编码
无痛理解旋转位置编码RoPE
[通俗易读]无痛理解旋转位置编码RoPE数学基础理论(复数的指数表达矩阵几何意义)代码分析 - 知乎
RoPE旋转位置编码增强模型的输入长度外推能力 # 我艾神制作必属精品