网站制作安全防范方式,模板网站缺点,汕头汽车网站建设,ui交互设计课程培训根据模型的数据流程方向和自己的经验列出#xff1a;
一、模型输入
分词器#xff1a;BPE#xff0c;BBPE 位置编码#xff1a;绝对位置编码#xff0c;三角函数编码#xff0c;ROPE 词向量模型#xff1a;词袋#xff0c;监督学习模型#xff1b;BGE#xff0c;BC…根据模型的数据流程方向和自己的经验列出
一、模型输入
分词器BPEBBPE 位置编码绝对位置编码三角函数编码ROPE 词向量模型词袋监督学习模型BGEBCEBERT transformers手写数据集构造类、数据集加载函数colloctor
二、模型结构
transformers结构解码器only为啥比编码器好llama在原始解码器上的改进及原因 归一化层归一化RNSnorm批归一化Pre-LN和Post-LN的区别 激活函数tanhrelugelusilu FFN结构 注意力机制自注意力多头注意力分组查询注意力多查询注意力前两个要手写 softmax和sigmoid函数 llama结构GLM结构
三、模型推理
推理原理 解码策略温度等参数需要结合代码理解 KVcache 长度外推滑动窗口rope位置插值,yarn的原理 推理部署框架vllmfastapi 多轮对话实现原理 流式输出实现原理
四、模型训练
分布式数据并行模型并行流水线并行 deepseed经验 多机多卡经验 参数调优经验 数据配比经验 高效微调lora原理peft使用 混合精度 模型量化 ppo,KTO ,dpo原理 损失函数交叉熵的手动实现熵的定义最大似然函数MSE
五、数据工程
预训练、sft、dpo数据集格式 主流数据集
六、多模态大模型
模型架构BILP2、LLAVA1.5书生2 模态数据处理多图多视频图文交错 模型两阶段训练经验 数据集构造经验
六、产品应用
RAG作用流程性能调优经验 agent作用实现方法优化经验