什么网站收录排名最高,海外做淘宝网站,黔东南网站建设,厦门专业网站营销第一种#xff1a;从huggingface官网加载#xff1a;
from datasets import load_dataset
dataset load_dataset(pathsquad, splittrain)path等于相关数据集的名字就能下载并加载相关数据集
第二种#xff1a;从本地加载数据集
用path参数指定数据集格式
json格式…第一种从huggingface官网加载
from datasets import load_dataset
dataset load_dataset(pathsquad, splittrain)path等于相关数据集的名字就能下载并加载相关数据集
第二种从本地加载数据集
用path参数指定数据集格式
json格式pathjson csv格式 pathcsv 纯文本格式, pathtext dataframe格式 pathpanda 图片pathimagefolder 然后用data_files指定文件名称data_files可以是字符串列表或者字典data_dir指定数据集目录。如下case
from datasets import load_dataset
dataset load_dataset(csv, data_filesmy_file.csv)
dataset load_dataset(csv, data_files[my_file_1.csv, my_file_2.csv, my_file_3.csv])
dataset load_dataset(csv, data_files{train:[my_train_file_1.csv,my_train_file_2.csv],test: my_test_file.csv})Tips:
huggingface的load_dataset()函数返回的数据是字典类型的dataset
形如
Dataset({features: [label, text],num_rows: 100
})
取数据用
dataset[input_ids]