当前位置: 首页 > news >正文

商城网站具体需求希腊网站 后缀

商城网站具体需求,希腊网站 后缀,wordpress数据库编码,您备案的网站名称没有关联性背景 1、在做大模型训练的时候#xff0c;我们需要进行数据集的处理#xff0c;而很多情况下我们收集到的数据集会存在重复数据#xff0c;针对去重#xff0c;有两种#xff0c;一种是完全重复#xff0c;也就是数据集里面有一个A#xff0c;还有存在了着另外一个A我们需要进行数据集的处理而很多情况下我们收集到的数据集会存在重复数据针对去重有两种一种是完全重复也就是数据集里面有一个A还有存在了着另外一个A还有一种重复是语义上面非常相似比如“天龙八部”当前热度1800W“天龙八部”当前热度1810W其实这两个数据对训练/测试来说并没有什么特别的地方所以作为这样的数据的处理需要进行语义级别的去重。 解决方案 利用SentenceTransformer框架来搭建一个语义搜索服务也就是将待去重的文本内容利用sentence embedding,然后根据向量计算余弦值得出句子的相似度然后利用util的semantic_search方法进行搜索 代码 import torch from sentence_transformers import SentenceTransformer, utildef semanticTextualDeduplication_loop(lines, threshold):embedder SentenceTransformer(/data/dh/model/LaBSE)corpus []corpus.append(lines[0])corpus_embeddings embedder.encode(corpus, convert_to_tensorTrue)lines.pop(0)for line in lines:queries [line]print(line: {0} and corpus.size: {1}.format(line, len(corpus)))query_embedding embedder.encode(queries, convert_to_tensorTrue)if not semantic_search_exist(query_embedding, corpus_embeddings, threshold, line):corpus.append(line)print(before corpus_embeddings size: {0}.format(len(corpus_embeddings)))# 沿着指定维度拼接张量corpus_embeddings torch.cat((query_embedding, corpus_embeddings), dim0)print(end corpus_embeddings size: {0}.format(len(corpus_embeddings)))return corpusdef semantic_search_exist(query_embedding, corpus_embeddings, threshold, query):hits util.semantic_search(query_embedding, corpus_embeddings, top_k1)hits hits[0]hits hits[0]score hits[score]print(input: {0} and output: {1}.format(query, hits[score]))if score threshold:return Truereturn Falsecorpus [A man is riding a horse.,A woman is playing violin.,Two men pushed carts through the woods.,A man is riding a white horse on an enclosed ground.,A monkey is playing drums.,A cheetah is running behind its prey., ]result semanticTextualDeduplication_loop(corpus, 0.9)print(result:, result)
http://www.pierceye.com/news/783238/

相关文章:

  • 网站的定义tomcat做公司网站
  • 小程序开发公司网站源码下载阿里云搭建公司网站
  • 网站营销方案设计公司凡科可以做视频网站吗
  • 网站seo优化费用wordpress 做商城
  • 宁波网站设计哪家公司好电子商务电商网站设计
  • 网站添加提醒租网站需要多少钱
  • 网站关键字优化地点如何用手机做网站吗
  • 中国建设银行网站签名通下载站长工具seo词语排名
  • 七牛云官网登录郑州优化网站收费标准
  • 三亚专业网站建设电商网站开发思路
  • app手机端电子商务网站功能提供网站建设课程
  • 福田皇岗社区做网站公司办公室布局效果图
  • 音乐播放网站怎么做北京终端区优化
  • 广州市建设工程交易中心网站上海畔游网络科技有限公司
  • wordpress网站好慢页面模板怎么用
  • 网站建设维护是啥意思wordpress 路径
  • 汕头网站建设报价个体工商户注册公司流程和费用
  • 网站开发学的啥36kr源码WordPress
  • 最好的免费网站空间沈阳营销型网站
  • 如何制作一个好网站网络设计报告范例
  • 邯郸做网站最好的公司彩票网站制作
  • 酒店团购的网站建设网站建设的一些原理
  • 做淘宝网站需要什么网站设置快捷键
  • 网站建设合同验收提供网站建设报
  • 湛江市建设规划局网站如何干电商
  • 东莞网站制作很好 乐云践新佛山网站建设解决方案
  • 哪个网站百度收录快海报模板网址
  • 绍兴高兴区建设网站怎么查网站制作空间有效期
  • 有没人做阿里巴巴网站维护的企业网站搭建 网络活动策划
  • 在线手机网站预览网站建设费归入长期待摊费用