手机网站营销的含义,刚做的网站在百度上搜不到,工业产品设计图片,wordpress视频网站采集器文章目录相同点不同点组合意义组合方式图片标注基本思路模型设计#xff0d;数据准备视频行为识别视频行为识别图片问答相同点
传统神经网络的扩展 前向计算产生结果#xff0c;反向计算模型更新 每层神经网络横向可以多个神经元共存#xff0c;纵向可以多层神经网络链接
…
文章目录相同点不同点组合意义组合方式图片标注基本思路模型设计数据准备视频行为识别视频行为识别图片问答相同点
传统神经网络的扩展 前向计算产生结果反向计算模型更新 每层神经网络横向可以多个神经元共存纵向可以多层神经网络链接
不同点
CNN空间扩展神经元与特征卷积RNN时间扩展神经元与多个时间输出计算 RNN可用于描述时间上的连续状态输出具有记忆功能CNN静态输出 CNN100深度 RNN深度有限
组合意义
大量信息同时具有时间空间特性视频图 文结合真实的场景对话带有图像的对话文本表达更具体视频相对图片描述的内容更完整
组合方式
CNN 特征提取用于RNN语句生成 图片标注RNN特征提取用于CNN内容分类 视频分类CNN特征提取用于对话问答 图片问答特征提取LSTM输出FC层输出特征合并Concatenate 层Attention 相乘结果输出连续语句输出 LSTM组合分 类回归 DNN
图片标注
问题描述 拥有大量图片及标注信息能否通过学习 建立一个能够自动图片标注的模型
基本思路
目标是产生标注的语句是一个语句生成 的任务LSTM 描述的对象大量图像信息图像信息表达 CNN CNN网络中全连接层特征描述图片特 征与LSTM输入结合 全连接层特征用来描述原图片 LSTM输入word图片特征输出下一word
模型设计数据准备
图片CNN特征提取图片标注生成Word2Vect 向量生成训练数据图片特征第n单词向量 第n1单词向量
视频行为识别
1. CNN 特征提取 2. LSTM融合 3. Linear regrSoftmax分类 4. 1. 并不是所有的视频图像包含确定分类信息 5. RNN用于确定哪些frame是有用的 6. 对有用的图像特征融合
视频行为识别
RNN用于目标检测
CNN直接产生目标候选区LSTM对产生候选区融合相邻时刻位置近 似确定最终的精确位置多种模型综合 竞赛应用中为了产生最好结果多采用 多模型ensemble形式
图片问答 方法流程 依旧按照语言问答流程解决 图片特征同语言 特征融合 训练数据问题图片答案 2. 模型设计纯文字问答系统
背景故事 特征生成 (word embedding)问题特征生成背景问题特征融合标准答案回归 用以训练的数据真值是什么 融合特征答案