本草基于中文医学知识的LLaMA微调模型数据集处理脚本

本草[原名：华驼(HuaTuo)]: 基于中文医学知识的LLaMA微调模型项目开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。根据的数据集的训练要求

如果想用自己的数据集微调LLaMA，请按照./data/llama_data.json的格式构建自己的数据集

示例的格式

{"instruction": "一名年龄在70岁的女性，出现了晕厥、不自主颤抖、情绪不稳等症状，请详细说明其手术治疗和术前准备。", "input": "", "output": "该病需要进行电极导线、脉冲发生器和永久心脏起搏器置入术，并需要使用镇静药物和局麻对病人进行手术治疗。术前准备包括1-3天的时间进行术前检查和生活方式的调整。"}
{"instruction": "一个患者的卵巢小细胞癌转移至其它部位，是否有必要进行手术治疗？", "input": "", "output": "当卵巢小细胞癌转移至其它部位时，手术治疗的效果可能不理想，因此一般不推荐进行手术治疗。针对转移病灶，可以采用化疗、放疗等治疗手段进行综合治疗。"}

因为想偷懒，写了一个excel2json的python脚本。脚本如下：

虽然咱不是主力这个，但是能省不少时间。

本草基于中文医学知识的LLaMA微调模型数据集处理脚本

推荐阅读

解决NVIDIA 30/40系列显卡与tensorflow 1.15 不兼容的问题

评论