当前位置: 首页 > news >正文

企业内部网站宣传方案制作网页可以用

企业内部网站宣传方案,制作网页可以用,英语培训网站建设需求分析报告,室内设计网站国外数据准备 AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集#xff0c;其涵盖比基准数据集更多的数据#xff0c;其中有 25,000 条电影评论用于训练#xff0c;25,000 条用于测试#xff0c;还有其他未经标记的数据可供使用。 数据预处理和数据装载 imp…数据准备 AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集其涵盖比基准数据集更多的数据其中有 25,000 条电影评论用于训练25,000 条用于测试还有其他未经标记的数据可供使用。 数据预处理和数据装载 import refrom torch.utils.data import DataLoader from torch.utils.data import Dataset import osdef tokenization(content):content re.sub(.*?, ,content)fileters [\t,\n,\x97,\x96,#,%,$,,\.,\?,!,\,]content re.sub(|.join(fileters), ,content)tokens [i.strip().lower() for i in content.split()]return tokensdef collate_fn(batch)::param batch:( [tokens, labels], [tokens, labels]):return:content, label list(zip(*batch))return content,labelclass ImdbDataset(Dataset):def __init__(self, trainTrue):self.train_data_path ..\\aclImdb\\train\\self.test_data_path ..\\aclImdb\\test\\data_path self.train_data_path if train else self.test_data_path#把所有文件名放入列表temp_data_path [os.path.join(data_path,pos), os.path.join(data_pathneg)]print(temp_data_path)self.total_file_path [] #所有评论文件路径for path in temp_data_path:file_name_list os.listdir(path)file_path_list [os.path.join(path, i) for i in file_name_list if i.endswith(.txt)]self.total_file_path.extend(file_path_list)def __len__(self):return len(self.total_file_path)def __getitem__(self, index):file_path self.total_file_path[index]# 获取labellabelstr file_path.split(\\)[-2]label 0 if labelstr neg else 1# 获取内容content open(file_path).read()tokens tokenization(content)return tokens, labeldef get_data(trainTrue):imbd_dataset ImdbDataset(train)data_loader DataLoader(imbd_dataset, batch_size2, shuffleTrue,collate_fncollate_fn)return data_loader文本序列化 把文本里每个词语和其对应数字使用字典保存 即句子—数字列表 思路 句子进行分词tokenization)词语存入字典统计出现次数根据出现次数对齐进行过滤把文本 转 数字序列把 数字序列 转 文本 遇到新出现的字符再词典里没有可以用特殊字符替代 预保持每个batch里的序列大小一致使用填充方法 构建词典 把句子转换成序列 再把序列转成句子 class Word2Sequence:UNK_TAG UNKPAD_TAG PADUNK 0PAD 1def __init__(self):self.dict {self.UNK_TAG: self.UNK,self.PAD_TAG: self.PAD}self.count {}def fit(self, sentence):# 把单个句子保存到dictfor word in sentence:self.count[word] self.count.get(word, 0)1def build_vocab(self, min5, maxNone, max_featuresNone)::param min::param max::param max_features: 一共保留多少个词语:return:# 删除count中词频小于min的词语self.count {word:value for word, value in self.count.items() if valuemin}# 删除count中词频大于max的词语if max is not None:self.count {word: value for word, value in self.count.items() if value max}# 限制保留的词语数if max_features is not None:temp sorted(self.cout.items(), keylambda x:x[-1], reverseTrue)[:max_features]self.count dict(temp)# 把 词语 ——数字for word in self.count:self.dict[word] len(self.dict)# 得到一个反转的dict字典self.inverse_dict dict(zip(self.dict.values(), self.dict.keys()))def transform(self, sentence, max_lenNone):把句子 转成 序列:param sentence: [word1, word2, ..]:param max_len: 对句子进行填充或者裁剪:return:if max_len is not None:if max_len len(sentence):sentence sentence [self.PAD_TAG] * (max_len - len(sentence)) # 填充if max_len len(sentence):sentence sentence[:max_len] # 裁剪return [self.dict.get(word, self.UNK) for word in sentence]def inverse_transform(self, indices):# 把 序列 ——句子return [self.inverse_dict.get(idx) for idx in indices]if __name__ __main__:ws Word2Sequence()ws.fit([我,是,你,的,爸爸])ws.fit([我,是,我,的,人])ws.build_vocab(min0)print(ws.dict)re ws.transform([我,爱,人],max_len10)print(re)ret ws.inverse_transform(re)print(ret) 模型构建简单全连接 注意 word_embedding的使用 定义模型import torch import torch.nn as nn import torch.nn.functional as F from lib import ws,max_len from dataset import get_data class MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()self.embedding nn.Embedding(len(ws), 100)self.fc nn.Linear(100*max_len, 2)def forward(self, input)::param input: [batch_size, max_len]:return:x self.embedding(input) # [batch_size, max_len, 100]x x.view([-1, 100*max_len])output self.fc(x)return F.log_softmax(output,dim-1)model MyModel() optimizer torch.optim.Adam(model.parameters(),lr0.001) def train(epoch):for idx,(input,target) in enumerate(get_data(trainTrue)):# 梯度清零optimizer.zero_grad()output model(input)loss F.nll_loss(output,target)loss.backward()optimizer.step()print(loss.item())if __name__ __main__:for i in range(1):train(epochi)
http://www.pierceye.com/news/266077/

相关文章:

  • 程序员做网站美工能过关吗深圳品牌折扣店
  • 地产网站设计怎么做网贷网站
  • 公司网站是如何搭建的跨境电商被骗血本无归
  • 品牌网站建设目标vps怎么做多个网站
  • 普陀区建设工程质检网站网站建设 工作方案
  • 三河做网站开发公司虚列成本
  • 网站公司建设网站首页注册资本可以随便填吗
  • 网站做链接的意义是什么意思网站设计与制作
  • 快速开发网站的应用程序网站高中建设工具
  • 备案期间网站可以做竞价吗网站开发四川
  • 盐城网站app建设竣工验收备案查询
  • 河南省建设厅八大员网站相城网页设计
  • 建设电子商务网站要多少钱怎么自己开公司
  • 网站设计分析怎么写5年的室内设计师收入
  • 珠海网站建设服务谷歌关键词排名查询工具
  • 三网站合一系统优化最好的安卓手机
  • 那几个网站可以做h5产品经理培训哪个机构好
  • 吉林市做网站阿里巴巴国际站怎么运营
  • 中国网站排名100网站建设属于销售费用
  • 最新seo网站优化教程温州微网站
  • 网站双线选择昆明网站制作代理
  • 网站推广优化招聘织梦网站图片设置多大
  • 四川德充建设集团有限公司网站台州seo免费诊断
  • 农庄网站模板网站 文件夹 上传
  • 做长图文网站企业网站开发服务合同
  • 长椿街网站建设九江网站推广徽hyhyk1
  • 贴吧做网站wordpress不兼容ie
  • 上海万网网站建设网络工程专业是什么
  • 到国外建网站自己做的视频发什么网站吗
  • 高校网站平台建设快速网站排名