建个网站做网络推广要花多少钱,模板王网站官网,三只松鼠网络营销方案,如何介绍设计的网站模板下载0. 起 最近没有更新。暑假之后学的东西也比较杂#xff0c;看了一下基于DL的智能美颜#xff0c;感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等#xff0c;调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思#xff0c;两个步骤#…0. 起 最近没有更新。暑假之后学的东西也比较杂看了一下基于DL的智能美颜感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思两个步骤1给图片打标题属于多媒体计算和NLP的结合 2由标题生成诗歌。感觉这里面可以学的东西也有很多。等项目结束论文写完一定好好的顺着学一遍看京都大学团队说近期会公布数据集不错不错。 最近是在看论文和弄实验室的项目。之前的短评预测预订明年的一个项目而今年的题目是新知识抽取与发现。主要是针对科技文章的也就是知网文章。我在想怎么做这个题目的时候也是百般思考因为这个题目是去年订的没有经过我的手如何体现新知识抽取与发现在NLP倒是老生常谈提取主题、摘要、关键字发现无非也就是分类或者打标签。 之前已经毕业的师兄是有一套完整的单标签代码的包含他的毕业论文一同给了我参考。这里也可以简单说一下打标签和分类的区别也方便捋清思路。好比你在淘票票上买电影票点进电影介绍它会告诉你这是一部18R/成人向/.../的电影这就是一个分类而电影的类型是Comedy/Tragedy/.../Family and Comedy这就是多标签即可以存在交叉项或是合并项。所以我合计着师兄的单标签其实也就是分类.... 为什么我不用师兄的呢可以省很多事情连答辩PPT都有改一改去糊弄一下甲方就完事。在我的理解里面交叉学科最容易产生新知识甚至是新科学。计算机智能形成了近年来很火的人工智能领域金融数学的结合成为了金融工程这都是新知识新领域的诞生。IG进入S赛决赛那提及一下传媒电竞主持等等你能想到什么呢不仅是新知识新岗位也出现了。所以从多标签的角度去阐述新知识更有意义。 1. 承 前面废话了很多其实也就是想说明白我这个伪逻辑。既然针对知网文章那么如何爬取一个文本--多标签对的数据集就尤为关键了。在这里我们也想了很多办法包括知网本身也有一些奇奇怪怪的反爬机制这一块我交给学弟去做了也是煞费时间。 知网本身没有明显的多标签痕迹它把文章的分类放在一个动态加载frame里面。我们按照高级检索栏的10来个大类*10来个子栏进行爬取选取每篇文章的标题、摘要、多标签。目前进展有10W数据数据还在更新中。用的学校的公网ip似乎没有被封为什么要按照这种方式爬取呢主要是为了各个类别标签下的文章数量分布均匀。不然训练出某些词向量会导致比重失衡。 图1 按知网的分类进行爬取 然后具体每篇文章的爬取内容如下多标签可以爬取一级、二级甚至三级标签。我们爬取了一级和二级。主要是防止三级标签太多导致稀疏问题训练时难以收敛测试时结果可以也会和预期相去甚远。当然具体的选择可以根据自己的项目来做决定。 图2 爬取内容 存放呢。所有数据先写入excel之后再进行整理。第一列设定一个ID第二列标题第三列摘要第四列一级标签第五列二级标签。然后将按文章将题目和摘要整理到一个txt标题一行摘要一行将label整理到一个txt。这两个文件按id命名只是后缀不同。最后再将所有的标签汇总到一个文件方便读写一个标签一行。目前为止我们总共收集了120标签。 2. 转 10.29写完上面的。直到现在还是没时间更新后面的。项目结项了然后施工论文ing。累。先贴几张图吧之后有时间再继续更大概过年的时候了吧。 2018.12.10 1653 更新 To be continue 转载于:https://www.cnblogs.com/catallen/p/9869321.html