玩具租赁网站开发与实现论文,布吉网站设计,阿里巴巴官网首页1688下载,diy定制软件MedicalGPT 训练医疗大模型#xff0c;实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。 MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型#xff0c;实现了包括增量预训练、有监督微…MedicalGPT 训练医疗大模型实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。 MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。 中文 | English | 文档/Docs | 模型/Models MedicalGPT: Training Medical GPT Model Introduction
MedicalGPT training medical GPT model with ChatGPT training pipeline, implemantation of Pretraining, Supervised Finetuning, RLHF(Reward Modeling and Reinforcement Learning) and DPO(Direct Preference Optimization).
MedicalGPT 训练医疗大模型实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。 RLHF training pipeline来自Andrej Karpathy的演讲PDF State of GPT视频 VideoDPO方法来自论文Direct Preference Optimization:Your Language Model is Secretly a Reward Model News
[2024/01/26] v1.8版本支持微调Mixtral混合专家MoE模型 Mixtral 8x7B。详见Release-v1.8
[2024/01/14] v1.7版本新增检索增强生成(RAG)的基于文件问答ChatPDF功能代码chatpdf.py可以基于微调后的LLM结合知识库文件问答提升行业问答准确率。详见Release-v1.7
[2023/10/23] v1.6版本新增RoPE插值来扩展GPT模型的上下文长度针对LLaMA模型支持了FlashAttention-2和LongLoRA 提出的 S 2 S^2 S2-Attn支持了NEFTune给embedding加噪训练方法。详见Release-v1.6
[2023/08/28] v1.5版本: 新增DPO(直接偏好优化)方法DPO通过直接优化语言模型来实现对其行为的精确控制可以有效学习到人类偏好。详见Release-v1.5
[2023/08/08] v1.4版本: 发布基于ShareGPT4数据集微调的中英文Vicuna-13B模型shibing624/vicuna-baichuan-13b-chat和对应的LoRA模型shibing624/vicuna-baichuan-13b-chat-lora详见Release-v1.4
[2023/08/02] v1.3版本: 新增LLaMA, LLaMA2, Bloom, ChatGLM, ChatGLM2, Baichuan模型的多轮对话微调训练新增领域词表扩充功能新增中文预训练数据集和中文ShareGPT微调训练集详见Release-v1.3
[2023/07/13] v1.1版本: 发布中文医疗LLaMA-13B模型shibing624/ziya-llama-13b-medical-merged基于Ziya-LLaMA-13B-v1模型SFT微调了一版医疗模型医疗问答效果有提升发布微调后的完整模型权重详见Release-v1.1
[2023/06/15] v1.0版本: 发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora基于Ziya-LLaMA-13B-v1模型SFT微调了一版医疗模型医疗问答效果有提升发布微调后的LoRA权重详见Release-v1.0
[2023/06/05] v0.2版本: 以医疗为例训练领域大模型实现了四阶段训练包括二次预训练、有监督微调、奖励建模、强化学习训练。详见Release-v0.2 Features
基于ChatGPT Training Pipeline本项目实现了领域模型–医疗行业语言大模型的训练
第一阶段PT(Continue PreTraining)增量预训练在海量领域文档数据上二次预训练GPT模型以适应领域数据分布可选第二阶段SFT(Supervised Fine-tuning)有监督微调构造指令微调数据集在预训练模型基础上做指令精调以对齐指令意图并注入领域知识第三阶段 RLHF(Reinforcement Learning from Human Feedback)基于人类反馈对语言模型进行强化学习分为两步 RM(Reward Model)奖励模型建模构造人类偏好排序数据集训练奖励模型用来建模人类偏好主要是HHH原则具体是helpful, honest, harmlessRL(Reinforcement Learning)强化学习用奖励模型来训练SFT模型生成模型使用奖励或惩罚来更新其策略以便生成更高质量、更符合人类偏好的文本 DPO(Direct Preference Optimization)直接偏好优化方法DPO通过直接优化语言模型来实现对其行为的精确控制而无需使用复杂的强化学习也可以有效学习到人类偏好DPO相较于RLHF更容易实现且易于训练效果更好
Release Models
ModelBase ModelIntroductionshibing624/ziya-llama-13b-medical-loraIDEA-CCNL/Ziya-LLaMA-13B-v1在240万条中英文医疗数据集shibing624/medical上SFT微调了一版Ziya-LLaMA-13B模型医疗问答效果有提升发布微调后的LoRA权重(单轮对话)shibing624/ziya-llama-13b-medical-mergedIDEA-CCNL/Ziya-LLaMA-13B-v1在240万条中英文医疗数据集shibing624/medical上SFT微调了一版Ziya-LLaMA-13B模型医疗问答效果有提升发布微调后的完整模型权重(单轮对话)shibing624/vicuna-baichuan-13b-chat-lorabaichuan-inc/Baichuan-13B-Chat在10万条多语言ShareGPT GPT4多轮对话数据集shibing624/sharegpt_gpt4上SFT微调了一版baichuan-13b-chat多轮问答模型日常问答和医疗问答效果有提升发布微调后的LoRA权重shibing624/vicuna-baichuan-13b-chatbaichuan-inc/Baichuan-13B-Chat在10万条多语言ShareGPT GPT4多轮对话数据集shibing624/sharegpt_gpt4上SFT微调了一版baichuan-13b-chat多轮问答模型日常问答和医疗问答效果有提升发布微调后的完整模型权重
演示shibing624/vicuna-baichuan-13b-chat模型效果
具体case见Inference Examples
▶️ Demo
我们提供了一个简洁的基于gradio的交互式web界面启动服务后可通过浏览器访问输入问题模型会返回答案。
启动服务命令如下
CUDA_VISIBLE_DEVICES0 python gradio_demo.py --model_type base_model_type --base_model path_to_llama_hf_dir --lora_model path_to_lora_dir参数说明
--model_type {base_model_type}预训练模型类型如llama、bloom、chatglm等--base_model {base_model}存放HF格式的LLaMA模型权重和配置文件的目录也可使用HF Model Hub模型调用名称--lora_model {lora_model}LoRA文件所在目录也可使用HF Model Hub模型调用名称。若lora权重已经合并到预训练模型则删除–lora_model参数--tokenizer_path {tokenizer_path}存放对应tokenizer的目录。若不提供此参数则其默认值与–base_model相同--template_name模板名称如vicuna、alpaca等。若不提供此参数则其默认值是vicuna--only_cpu: 仅使用CPU进行推理--resize_emb是否调整embedding大小若不调整则使用预训练模型的embedding大小默认不调整 Install
Updating the requirements
From time to time, the requirements.txt changes. To update, use this command:
git clone https://github.com/shibing624/MedicalGPT
cd MedicalGPT
pip install -r requirements.txt --upgradeHardware Requirement
训练方法精度7B13B30B65B8x7B全参数16160GB320GB600GB1200GB900GBLoRA1616GB32GB80GB160GB120GBQLoRA810GB16GB40GB80GB80GBQLoRA46GB12GB24GB48GB32GB Training Pipeline
Training Stage:
StageIntroductionPython scriptShell scriptContinue Pretraining增量预训练pretraining.pyrun_pt.shSupervised Fine-tuning有监督微调supervised_finetuning.pyrun_sft.shDirect Preference Optimization直接偏好优化dpo_training.pyrun_dpo.shReward Modeling奖励模型建模reward_modeling.pyrun_rm.shReinforcement Learning强化学习ppo_training.pyrun_ppo.sh
提供完整PTSFTDPO全阶段串起来训练的pipelinerun_training_dpo_pipeline.ipynb 其对应的colab(https://colab.research.google.com/github/shibing624/MedicalGPT/blob/main/run_training_dpo_pipeline.ipynb)运行完大概需要15分钟我运行成功后的副本colab(https://colab.research.google.com/drive/1kMIe3pTec2snQvLBA00Br8ND1_zwy3Gr?uspsharing)提供完整PTSFTRLHF全阶段串起来训练的pipelinerun_training_ppo_pipeline.ipynb 其对应的colab(https://colab.research.google.com/github/shibing624/MedicalGPT/blob/main/run_training_ppo_pipeline.ipynb) 运行完大概需要20分钟我运行成功后的副本colabhttps://colab.research.google.com/drive/1RGkbev8D85gR33HJYxqNdnEThODvGUsS?uspsharing)提供基于知识库文件的LLM问答功能RAGchatpdf.py训练参数说明 | 训练参数说明wiki数据集 | 数据集wiki扩充词表 | 扩充词表wikiFAQ | FAQ_wiki
Supported Models
Model NameModel SizeTemplateBLOOMZ560M/1.1B/1.7B/3B/7.1B/176BvicunaLLaMA7B/13B/33B/65BalpacaLLaMA27B/13B/70Bllama2Mistral7B/8x7BmistralBaichuan7B/13BbaichuanBaichuan27B/13Bbaichuan2InternLM7BinternQwen1.8B/7B/14B/72BchatmlXVERSE13BxverseChatGLM6BchatglmChatGLM26Bchatglm2ChatGLM36Bchatglm3Yi6B/34ByiDeepSeek7B/16B/67BdeepseekOrion14Borion
The following models are tested:
bloom:
bigscience/bloomz-560mbigscience/bloomz-1b7bigscience/bloomz-7b1
llama:
shibing624/chinese-alpaca-plus-7b-hfshibing624/chinese-alpaca-plus-13b-hfminlik/chinese-llama-plus-7b-mergedshibing624/chinese-llama-plus-13b-hfdecapoda-research/llama-7b-hfIDEA-CCNL/Ziya-LLaMA-13B-v1
llama2:
daryl149/llama-2-7b-chat-hfmeta-llama/Llama-2-7b-chat-hfziqingyang/chinese-alpaca-2-7b
mistral:
mistralai/Mistral-7B-v0.1HuggingFaceH4/zephyr-7b-beta
chatglm:
THUDM/chatglm-6bTHUDM/chatglm2-6bTHUDM/chatglm3-6b
baichuan:
baichuan-inc/baichuan-7Bbaichuan-inc/Baichuan-13B-Basebaichuan-inc/Baichuan-13B-Chat
xverse:
xverse/XVERSE-13B-Chat
qwen:
Qwen/Qwen-7B-Chat
yi:
01-ai/Yi-6B-200K01-ai/Yi-6B-Chat01-ai/Yi-34B Inference
训练完成后现在我们加载训练好的模型验证模型生成文本的效果。
CUDA_VISIBLE_DEVICES0 python inference.py \--model_type base_model_type \--base_model path_to_model_hf_dir \--tokenizer_path path_to_model_hf_dir \--lora_model path_to_lora \--interactive参数说明
--model_type {base_model_type}预训练模型类型如llama、bloom、chatglm等--base_model {base_model}存放HF格式的LLaMA模型权重和配置文件的目录--tokenizer_path {base_model}存放HF格式的LLaMA模型权重和配置文件的目录--lora_model {lora_model}LoRA解压后文件所在目录也可使用HF Model Hub模型调用名称。如果已经合并了LoRA权重到预训练模型则可以不提供此参数--tokenizer_path {tokenizer_path}存放对应tokenizer的目录。若不提供此参数则其默认值与–base_model相同--template_name模板名称如vicuna、alpaca等。若不提供此参数则其默认值是vicuna--interactive以交互方式启动多轮问答使用流式推理--data_file {file_name}非交互方式启动下读取file_name中的的内容进行batch预测--output_file {file_name}非交互式方式下将预测的结果以jsonl格式写入file_name--resize_emb是否调整embedding大小若不调整则使用预训练模型的embedding大小默认不调整--only_cpu仅使用CPU进行推理--gpus {gpu_ids}指定使用的GPU设备编号默认为0。如使用多张GPU以逗号分隔如0,1,2
多卡推理
多卡数据并行batch推理
CUDA_VISIBLE_DEVICES0,1 torchrun --nproc_per_node 2 inference_multigpu_demo.py --model_type baichuan --base_model shibing624/vicuna-baichuan-13b-chatInference Examples
shibing624/vicuna-baichuan-13b-chat inference examples: Model output case
HumanAssitant小孩发烧怎么办发烧是身体对感染或其他疾病的自然反应。以下是一些可以帮助缓解发烧症状的建议1. 保持身体水分充足发烧时身体会失去水分因此需要保持水分充足。2. 使用冰袋将冰袋放在额头或颈部可以帮助降低体温。3. 使用退烧药退烧药可以帮助降低体温。4. 保持身体温度保持身体温度可以帮助降低体温。5. 使用冷水或温水擦拭身体使用冷水或温水擦拭身体可以帮助降低体温。6. 使用退烧药退烧药可以帮助降低体温。7. 保持身体温度保持身体温度可以帮助降低体温。8. 使用冷水或温水擦拭身体使用冷水或温水擦拭身体可以帮助降低体温。9. 使用退烧药退烧药可以帮助降低体温。10. 保持身体温度保持身体温度可以帮助降低体温。一岁宝宝发烧能吃啥药1岁宝宝发烧时可以考虑以下几种药物1. 退烧药如布洛芬(Ibuprofen)或对乙酰氨基酚(Paracetamol)。这些药物可以帮助降低体温缓解发烧症状。2. 抗生素如果发烧是由细菌感染引起的可以考虑使用抗生素。但请务必在医生的建议下使用。3. 抗病毒药物如果发烧是由病毒感染引起的可以考虑使用抗病毒药物。但请务必在医生的建议下使用。4. 解热镇痛药如阿司匹林(Aspirin)或对乙酰氨基酚(Paracetamol)。这些药物可以帮助缓解发烧症状。5. 抗组胺药如苯海拉明(Diphenhydramine)或非索非那定(Naproxen)。这些药物可以帮助缓解发烧症状。请务必在医生的建议下使用这些药物并遵循药物说明书上的用量和用法。同时保持宝宝充足的水分摄入并确保宝宝有足够的休息。肛门病变可能是什么疾病的症状肛门病变可能由多种原因引起包括感染、炎症、肿瘤或其他疾病。一些常见的肛门病变包括1. 肛裂这是一种肛门皮肤撕裂通常由便秘或其他压力因素引起。2. 肛瘘这是一种肛门感染导致肛门皮肤和直肠之间形成瘘管。3. 肛门疣这是一种肛门皮肤上形成的疣状病变通常由人类乳头状瘤病毒(HPV)引起。4. 肛门脓肿这是一种肛门感染导致肛门皮肤下形成脓肿。5. 肛门肿瘤这是一种肛门皮肤或直肠内形成的肿瘤。6. 肛门溃疡这是一种肛门皮肤上形成的溃疡通常由感染或炎症引起。7. 肛门瘙痒这是一种肛门皮肤瘙痒的症状可能由感染、炎症或其他疾病引起。如果您有肛门病变的症状请咨询医疗保健专业人员以获得适当的诊断和治疗。医生您好白带增多泛黄怎么回事您好白带增多和发黄可能是由多种原因引起的包括感染、荷尔蒙变化、阴道干燥或其他妇科问题。以下是一些可能的原因1. 感染白带增多和发黄可能是由阴道或尿道感染引起的。感染可能由细菌、病毒或真菌引起。2. 荷尔蒙变化荷尔蒙变化如月经周期或更年期可能会导致白带增多和发黄。3. 阴道干燥阴道干燥可能会导致白带增多和发黄。4. 其他妇科问题其他妇科问题如子宫颈炎、子宫内膜炎或子宫内膜异位症也可能导致白带增多和发黄。如果您担心自己的白带建议您咨询妇科医生进行检查和诊断。医生可以根据您的症状和检查结果确定原因并提供适当的治疗。药流后有巧克力白带是没流干净吗药流后出现巧克力白带并不一定意味着没有流干净。巧克力白带是由于子宫内膜脱落和出血引起的通常在药流后的一段时间内会出现。药流后出现巧克力白带的原因可能包括1. 子宫内膜脱落药流后子宫内膜会脱落导致出血。这种出血可能表现为巧克力白带。2. 感染药流后子宫内膜和宫颈口可能存在创伤容易受到细菌感染。感染可能导致巧克力白带。3. 激素水平变化药流后激素水平可能发生变化导致巧克力白带。如果巧克力白带持续时间较长或者伴有其他症状如腹痛、发热、分泌物异味等建议及时就诊进行相关检查如妇科检查、B超等以确定是否存在感染或其他问题。在医生的指导下进行相应的治疗。维胺酯维E乳膏能治理什么疾病维胺酯维E乳膏是一种外用药物主要用于治疗痤疮、脂溢性皮炎等皮肤病。它可以帮助减少皮肤油脂分泌减轻炎症促进皮肤修复。需要注意的是维胺酯维E乳膏并非万能药对于某些皮肤病可能并不适用。在使用前建议咨询医生或药师了解药物的适应症、禁忌症、用法用量等信息。同时使用药物时应遵循医嘱避免自行滥用。痤疮是什么原因导致的?痤疮也称为粉刺是由皮肤毛孔堵塞引起的。堵塞毛孔的原因有很多包括1. 皮脂腺过度活跃皮脂腺产生过多油脂导致毛孔堵塞。2. 毛孔堵塞皮肤表面的死皮细胞、油脂和细菌堵塞毛孔。3. 炎症痤疮通常伴随着炎症这可能是由于皮肤感染或免疫系统对痤疮的反应引起的。4. 遗传因素某些人可能更容易患痤疮这可能是由于遗传因素引起的。5. 荷尔蒙变化痤疮在青春期和月经期间更为常见这可能是由于荷尔蒙变化引起的。6. 生活方式因素某些生活方式因素如压力、不良饮食和缺乏运动也可能导致痤疮。7. 化妆品和护肤品某些化妆品和护肤品可能导致痤疮特别是那些含有刺激性成分的产品。8. 药物某些药物如口服避孕药也可能导致痤疮。要预防痤疮可以采取一些措施如保持皮肤清洁、使用温和的护肤品、避免过度使用化妆品和护肤品、保持健康的生活方式和饮食习惯、避免压力和荷尔蒙变化。如果痤疮严重可能需要寻求皮肤科医生的帮助。脸上长青春痘怎么办,能吃啥药,需要注意啥青春痘又称痤疮是一种常见的皮肤病。青春痘的治疗需要综合考虑饮食、生活习惯、药物等多个方面。以下是一些建议1. 饮食* 避免高糖、高脂、高油的食物如快餐、甜点、油炸食品等。* 多吃新鲜蔬菜、水果、全谷类食物以增加纤维摄入促进肠道蠕动。* 避免摄入过多的咖啡因、酒精、辛辣食物等刺激性食物。2. 生活习惯* 保持良好的作息时间保证充足的睡眠。* 避免长时间使用电脑、手机等电子产品以免辐射对皮肤造成刺激。* 保持皮肤清洁每天早晚使用温和的洁面产品清洁皮肤。* 避免挤压青春痘以免感染和留下疤痕。3. 药物* 外用药物可以使用含有水杨酸、苯甲酸、壬二酸等成分的护肤品帮助去除皮肤表面的角质减少痘痘的形成。* 口服药物如果青春痘严重可以考虑口服抗生素、维生素B族、锌等药物但需在医生指导下使用。4. 注意* 不要随意使用化妆品、护肤品以免刺激皮肤。* 不要过度清洁皮肤以免破坏皮肤屏障。* 保持心情舒畅避免焦虑、抑郁等负面情绪。总之青春痘的治疗需要综合考虑饮食、生活习惯、药物等多个方面。在治疗过程中要保持耐心和信心遵循医生的建议逐步改善皮肤状况。由于输精管堵塞会不会导致男性不育医生您好我同事这几天不开心我问她怎么了她说她老公输精管堵塞所以一直没孩子不是不想要请问输精管堵塞会不会导致男性不育输精管堵塞可能会导致男性不育。输精管是连接睾丸和尿道的一条管道负责将精子从睾丸输送到尿道。如果输精管堵塞精子就无法通过输精管到达尿道从而导致不育。输精管堵塞的原因有很多包括先天性发育异常、炎症、肿瘤、外伤等。输精管堵塞的治疗方法包括手术疏通、药物治疗等。如果输精管堵塞严重可能需要进行手术疏通。需要注意的是输精管堵塞并不一定导致不育因为还有其他途径可以将精子输送到女性体内。例如精子可以通过附睾、前列腺等组织到达女性体内。因此如果输精管堵塞建议及时就医寻求专业医生的帮助。心肌梗塞能治疗吗心肌梗死是一种严重的疾病如果及时治疗可以挽救生命并防止长期残疾。治疗心肌梗死的关键是尽早识别和治疗。心肌梗死的治疗通常包括以下步骤1. 立即就医如果出现胸痛、呼吸急促或晕厥等症状立即就医。2. 药物治疗医生可能会开处方药物如硝酸甘油或阿司匹林以帮助缓解症状并防止进一步的损伤。3. 溶栓治疗如果患者在到达医院前出现心肌梗死医生可能会进行溶栓治疗通过注射溶解血栓的药物来帮助恢复血流。4. 手术治疗如果药物治疗或溶栓治疗无效医生可能会建议进行手术如冠状动脉搭桥手术或心脏支架植入术。5. 康复和预防心肌梗死的治疗通常包括康复计划以帮助患者恢复身体功能并预防未来的心脏事件。此外患者还应遵循医生的建议以降低患心脏病的风险。需要注意的是心肌梗死的治疗取决于患者的具体情况和症状。因此如果您或您认识的人出现心肌梗死症状请立即就医。怎么让自己精力充沛列5点建议1. 保持充足的睡眠睡眠对于保持精力充沛至关重要。确保每晚获得7-9小时的高质量睡眠。2. 均衡饮食均衡饮食对于保持能量水平至关重要。确保摄入足够的蛋白质、碳水化合物和健康脂肪。3. 定期锻炼定期锻炼可以帮助提高能量水平。尝试每天进行至少30分钟的有氧运动如散步、跑步或骑自行车。4. 管理压力压力会消耗能量因此管理压力对于保持精力充沛至关重要。尝试找到放松和减压的方法如冥想、瑜伽或深呼吸练习。5. 保持水分脱水会降低能量水平。确保每天喝足够的水并根据需要补充水分。写个春天的诗春天是大地苏醒的季节是万物复苏的季节是生命绽放的季节。春天是阳光明媚的季节是鸟语花香的季节是绿意盎然的季节是希望无限的季节。春天是人们欢笑的季节是孩子们嬉戏的季节是恋人们相拥的季节是人们追求梦想的季节。南极洲为啥没有北极熊?南极洲没有北极熊因为北极熊生活在北极地区而南极洲位于南半球气候和环境与北极地区有很大不同。南极洲的气候非常寒冷常年被冰雪覆盖而北极熊则生活在北极地区那里有丰富的海洋生物和陆地哺乳动物。此外南极洲的生态系统也与北极地区不同没有北极熊所需的生存条件。 Dataset
医疗数据集
240万条中文医疗数据集(包括预训练、指令微调和奖励数据集)shibing624/medical22万条中文医疗对话数据集(华佗项目)shibing624/huatuo_medical_qa_sharegpt [本项目支持格式]
通用数据集
Pretraining datasets
16GB中英文无监督、平行语料Linly-AI/Chinese-pretraining-dataset524MB中文维基百科语料wikipedia-cn-20230720-filtered
SFT datasets
10万条多语言ShareGPT GPT4多轮对话数据集shibing624/sharegpt_gpt4 [本项目支持格式]9万条英文ShareGPT多轮对话数集anon8231489123/ShareGPT_Vicuna_unfiltered [本项目支持格式]50万条中文ChatGPT指令Belle数据集BelleGroup/train_0.5M_CN100万条中文ChatGPT指令Belle数据集BelleGroup/train_1M_CN5万条英文ChatGPT指令Alpaca数据集50k English Stanford Alpaca dataset2万条中文ChatGPT指令Alpaca数据集shibing624/alpaca-zh69万条中文指令Guanaco数据集(Belle50万条Guanaco19万条)Chinese-Vicuna/guanaco_belle_merge_v1.05万条英文ChatGPT多轮对话数据集RyokoAI/ShareGPT52K80万条中文ChatGPT多轮对话数据集BelleGroup/multiturn_chat_0.8M116万条中文ChatGPT多轮对话数据集fnlp/moss-002-sft-data3.8万条中文ShareGPT多轮对话数据集FreedomIntelligence/ShareGPT-CN
Reward Model datasets
原版的oasst1数据集OpenAssistant/oasst12万条多语言oasst1的reward数据集tasksource/oasst1_pairwise_rlhf_reward[本项目支持格式]11万条英文hh-rlhf的reward数据集Dahoas/full-hh-rlhf9万条英文reward数据集(来自Anthropic’s Helpful Harmless dataset)Dahoas/static-hh7万条英文reward数据集来源同上Dahoas/rm-static7万条繁体中文的reward数据集翻译自rm-staticliswei/rm-static-m2m100-zh7万条英文Reward数据集yitingxie/rlhf-reward-datasets3千条中文知乎问答偏好数据集liyucheng/zhihu_rlhf_3k
⚠️ LICENSE
本项目仅可应用于研究目的项目开发者不承担任何因使用本项目包含但不限于数据、模型、代码等导致的危害或损失。详细请参考免责声明。
Medical项目代码的授权协议为 The Apache License 2.0代码可免费用做商业用途模型权重和数据只能用于研究目的。请在产品说明中附加MedicalGPT的链接和授权协议。 Citation
如果你在研究中使用了MedicalGPT请按如下格式引用
misc{MedicalGPT,title{MedicalGPT: Training Medical GPT Model},author{Ming Xu},year{2023},howpublished{\url{https://github.com/shibing624/MedicalGPT}},
}Contribute
项目代码还很粗糙如果大家对代码有所改进欢迎提交回本项目在提交之前注意以下两点
在tests添加相应的单元测试使用python -m pytest来运行所有单元测试确保所有单测都是通过的
之后即可提交PR。 Acknowledgements
Direct Preference Optimization:Your Language Model is Secretly a Reward Modeltloen/alpaca-loraymcui/Chinese-LLaMA-Alpacahiyouga/LLaMA-Factorydvlab-research/LongLoRA
Thanks for their great work!
关联项目推荐
shibing624/ChatPDF基于本地 LLM 做检索知识问答RAGshibing624/chatgpt-webui给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面