当前位置: 首页 > news >正文

莱芜论坛哪个比较好北京网站seo优化排名公司

莱芜论坛哪个比较好,北京网站seo优化排名公司,优化设计答案,足球亚洲排名最新排名目录 数据集ChnSentiCorppeoples_daily_ner 模型bert-base-chinesehfl/rbt3t5-baseopus-mt-zh-enChinese_Chat_T5_Base 环境#xff1a;没有代理#xff0c;无法访问部分国外网络 数据集 正常情况下通过load_dataset加载数据集#xff1b;save_to_disk保存至本地#xff1b… 目录 数据集ChnSentiCorppeoples_daily_ner 模型bert-base-chinesehfl/rbt3t5-baseopus-mt-zh-enChinese_Chat_T5_Base 环境没有代理无法访问部分国外网络 数据集 正常情况下通过load_dataset加载数据集save_to_disk保存至本地load_from_disk读取本地数据集。 但由于网络原因load_dataset加载数据集大多数时候会失败因此针对不同数据集需要研究如何加载。 思路主要分为 1、 git lfs clone下载huggingface数据集 2、研究.py代码获取原始数据 3、load_dataset加载save_to_disk保存 ChnSentiCorp 用于中文情感分析标记了每条评论的情感极性0或1 数据集地址seamew/ChnSentiCorp可见三个.arrow文件即为原始数据。 git下载数据集git lfs clone https://huggingface.co/datasets/seamew/ChnSentiCorp git下载的文件无法直接使用 load_dataset会执行.python文件通过https://drive.google.com下载数据导致下载失败报错load_from_disk会执行失败因为该文件夹非dist数据集格式 加载.arrow原始数据并保存 # 设置data_files data_files {train: ./data/ChnSentiCorp/chn_senti_corp-train.arrow,test: ./data/ChnSentiCorp/chn_senti_corp-test.arrow,validation: ./data/ChnSentiCorp/chn_senti_corp-validation.arrow} # 加载arrow数据集 dataset load_dataset(arrow, data_filesdata_files) # 保存至本地 dataset.save_to_disk(./huggingface/hub/datasets/chn_senti_corp)保存在本地的数据集 加载保存至本地的数据集 dataset load_from_disk(./huggingface/hub/datasets/chn_senti_corp)peoples_daily_ner 用于中文命名实体识别NER来自人民日报的文本数据标记了人名、地名 、组织机构等 数据集地址peoples_daily_ner并无原始数据文件。 研究.py虽然raw.githubusercontent.com无法发访问但可通过https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/Peoples%20Daily去下载原始数据 git下载数据集git lfs clone https://huggingface.co/datasets/peoples_daily_ner git下载原始数据example.train、example.dev、example.test 将原始数据放在huggingface数据集文件夹内并修改.py内_URL为本地路径 # _URL https://raw.githubusercontent.com/OYE93/Chinese-NLP-Corpus/master/NER/Peoples%20Daily/ _URL _TRAINING_FILE example.train _DEV_FILE example.dev _TEST_FILE example.test即可通过load_dataset加载 dataset load_dataset(./data/peoples_daily_ner) dataset.save_to_disk(./huggingface/hub/datasets/peoples_daily_ner)模型 模型则要简单许多直接通过git lfs clone下载至本地保存即可 bert-base-chinese 基于BERT架构的中文预训练模型使用了中文维基百科进行预训练能对中文文本进行深度的理解和分析。 git lfs clone https://huggingface.co/bert-base-chinese from transformers import BertTokenizer,BertModel tokenizer BertTokenizer.from_pretrained(./huggingface/hub/models/bert-base-chinese) pretrained BertModel.from_pretrained(./huggingface/hub/models/bert-base-chinese)hfl/rbt3 哈工大未来语言智能实验室HFL开发的中文预训练模型RBT3的版本使用了中文维基百科和百度文库Baidu Wenku进行预训练。 git lfs clone https://huggingface.co/hfl/rbt3 from transformers import AutoTokenizer from transformers import AutoModel tokenizer AutoTokenizer.from_pretrained(./huggingface/hub/models/hfl___rbt3) pretrained AutoModel.from_pretrained(./huggingface/hub/models/hfl___rbt3)t5-base 基于T5Text-to-Text Transfer Transformer架构的预训练模型使用海量的文本数据进行训练可以用于多种自然语言处理任务。虽然这个模型并不是专门针对中文的但也可以在中文处理任务中应用。 opus-mt-zh-en 基于神经机器翻译的中文到英语的预训练模型由牛津大学和阿里巴巴达摩院联合开发可以用于中文到英语的翻译任务。 Chinese_Chat_T5_Base 中文版对话机器人在1300w问答和对话数据上做有监督预训练。
http://www.pierceye.com/news/636579/

相关文章:

  • 受欢迎的医疗网站建设常德网站开发哪家好
  • 小区服务网站怎么做常州网站制作哪家好
  • 全国各大网站网站制度建设情况
  • 两学一做网站视频软文广告是什么意思
  • 网站等级保护如何做谷歌推广方案
  • 哪些网站做免费送东西的广告nas怎么做网站服务器
  • 网站开发用什么百度一下首页官网百度
  • 上海做saas平台网站的公司商城网站程序
  • 最好的免费建站网站做设计接私活的网站
  • 有帮忙做幻灯片的网站么济宁网站开发公司
  • 网站开发技术 主流官网铺设
  • 贵阳网站建设钟鼎网络江门网站建设套餐
  • 263企业邮箱自动回复seo技巧与技术
  • 昆明响应式网站怎么做最火的视频网站
  • 中山微信网站西安网站建设麦欧科技
  • 西平县住房城乡建设局网站网站备案 教程
  • 怎么用ps做简单网站推广码怎么输入
  • 跨越速运网站谁做的桂林网站建设培训
  • 荥阳网站建设多少钱做网站 提要求
  • 大学生个体创业的网站建设网页素材及网站架构制作
  • 网站开发前端框架和后端框架做长海报的网站
  • 柳州网站制作建一个网站怎么赚钱
  • 建网站支持设备是什么意思wordpress 默认密码
  • 找人做效果图那个网站网站开发语言 asp
  • 山东省山东省建设厅网站首页百度助手免费下载
  • 北京网站建设认百度非企推广开户
  • 厦门模板建站系统网站icp备案信息注册
  • 网站建设维护人员多语言网站开发
  • 网站开发 论文大连微信公众号开发公司
  • 珠海网站建设王道下拉惠烟台网站制作专业