CN117786414B - 一种构建医学指令数据集的方法 - Google Patents
一种构建医学指令数据集的方法 Download PDFInfo
- Publication number
- CN117786414B CN117786414B CN202410200638.3A CN202410200638A CN117786414B CN 117786414 B CN117786414 B CN 117786414B CN 202410200638 A CN202410200638 A CN 202410200638A CN 117786414 B CN117786414 B CN 117786414B
- Authority
- CN
- China
- Prior art keywords
- data
- instruction data
- anesthesia
- instruction
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 206010002091 Anaesthesia Diseases 0.000 claims abstract description 85
- 230000037005 anaesthesia Effects 0.000 claims abstract description 85
- 238000004140 cleaning Methods 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000013461 design Methods 0.000 claims description 10
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 7
- 230000003444 anaesthetic effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 206010033645 Pancreatitis Diseases 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 239000012535 impurity Substances 0.000 description 3
- 230000000241 respiratory effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 206010016717 Fistula Diseases 0.000 description 2
- 206010040047 Sepsis Diseases 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000003890 fistula Effects 0.000 description 2
- 230000007794 irritation Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002685 pulmonary effect Effects 0.000 description 2
- 230000004202 respiratory function Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 208000000884 Airway Obstruction Diseases 0.000 description 1
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 206010003598 Atelectasis Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 206010021143 Hypoxia Diseases 0.000 description 1
- 206010021518 Impaired gastric emptying Diseases 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 208000007123 Pulmonary Atelectasis Diseases 0.000 description 1
- 206010037423 Pulmonary oedema Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000023555 blood coagulation Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 239000003792 electrolyte Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000030136 gastric emptying Effects 0.000 description 1
- 238000002695 general anesthesia Methods 0.000 description 1
- 239000003193 general anesthetic agent Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 230000007954 hypoxia Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000003158 myorelaxant agent Substances 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 208000005333 pulmonary edema Diseases 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种构建医学指令数据集的方法,属于数据处理技术领域。本发明包括步骤:麻醉指令数据的生成;包括:Step1.1、纯文本的获取;Step1.2、设计生成指令数据的prompt模板;Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据;Step2、指令数据初步的简单清理;Step3、模型评估指令数据;Step3.1、设计评估指令数据的prompt模板;Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据。本发明能去除低质量的数据,最终得到高质量的医学指令数据。
Description
技术领域
本发明涉及一种构建医学指令数据集的方法,属于数据处理技术领域。
背景技术
在医疗大模型领域,针对通用大模型的微调需要高质量的医疗指令数据;指令数据能够统一任务,赋予模型对话的能力,高质量的医疗指令数据微调的模型性能更强,但是人工标注医疗指令数据是一项昂贵和耗时的任务。为了获得大量医学相关的指令数据,相关研究已经提出了多种根据大模型生成指令数据的方式。这些方式主要有:通过selfinstruction的方式挖掘商业大模型内部的医疗数据、真实医疗问题与商业大模型的回复作为医疗指令数据、商业大模型将医疗文本转换为医疗指令数据集等。这些方法全部是使用像ChatGPT一样的商业大模型代替人工进行标注和转换,人工标注的数据质量尚且参差不齐,这些由模型生成的数据的质量也无法保证,需要对生成的数据采取一定的清洗和筛选来提高数据的质量;
且目前没有专门针对大模型生成数据的清理方式,当前现有模型生成的数据集中包含大量的噪声,这些包含噪声的数据将会给要微调的大模型带来巨大的影响,例如模型回答的质量和模型回答的正确率等。
发明内容
为了解决上述问题,本发明提供了一种构建医学指令数据集的方法,本发明能提供全面的、综合的高质量医学数据集。
本发明的技术方案是:一种构建医学指令数据集的方法,所述方法的具体步骤如下:
Step1、麻醉指令数据的生成;包括:
Step1.1、纯文本的获取;
Step1.2、设计生成指令数据的prompt模板;
Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据;
Step2、指令数据初步的简单清理;
Step3、模型评估指令数据;
Step3.1、设计评估指令数据的prompt模板;
Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据。
进一步地,所述Step1.1中包括:
首先从多方面获取与麻醉相关的文本数据,包括麻醉论文的结论和摘要、医疗网站的麻醉文章、麻醉相关的书籍、麻醉相关的病历;这些获取的文本包含网络公开的数据和从医院数据库提取的数据;将获得的文本提取成400字-600字之间的段落,文本当中也包含杂质,通过正则匹配剔除与麻醉无关的文本,获得最终的麻醉纯文本数据。
进一步地,所述Step1.2包括:
设计一个将麻醉纯文本转换为麻醉指令数据的模板,把获取到的麻醉纯文本数据转换为初步的麻醉指令数据;
同时建立一个由麻醉指令数据组成的集合作为种子池,每次生成数据从种子池中随机抽取一条指令数据作为生成数据的例子;
进一步地,所述Step1.3中包括:根据获取的纯文本和生成指令数据的prompt模板,选择了GPT-3.5-turbo和Claude两个商业大模型来生成最终的麻醉指令数据。
进一步地,所述Step2中,数据初步的简单清理具体包括:
Step2.1、清理掉问题和答案字数小于10的数据;
Step2.2、清理掉出现重复的数据;
Step2.3、清理掉部分问题在答案当中的数据;
Step2.4、计算每一条指令数据与前100条指令数据的Rouge得分,删除掉得分大于0.5的数据。
进一步地,所述Step3.1包括:
使用商业大模型评估生成的麻醉指令数据,为评估指令数据的prompt模板设计包括五个方面:连贯性、解决问题的程度、正确性、危害性、专业性;为模型设计考虑的角度不固定,按照需要去设计;
进一步地,所述Step3.2包括:
选择GPT-3.5-turbo和Claude之间相互评估生成的麻醉指令数据;将输入的麻醉指令数据填入上述的评估指令数据的prompt模板当中,然后送入商业模型当中得到输出,输出是模型针对输入的指令数据的评分。
本发明的有益效果是:
1、本发明获取相关医学领域的纯文本,这些文本来自于医学书籍、医学论文、病历、医学文章等;将准备好的文本分割为400字-600字的段落,设计好相应的prompt,由商业大模型将医学文本转换为医学指令数据,一方面为数据注入专业的医学知识,一方面由模型对欠缺的部分进行补充;
2、本发明针对生成数据中存在的空缺、重复、简短、相似等显而易见的错误进行初步的清理;最后,因为大模型自身便存在对数据评估的功能,使用大模型的评估功能从几个方面对模型生成的数据进行评估打分;大模型对于自身生成的数据可能会存在误解,所以让大模型之间相互评估生成的医学指令数据,剔除掉分数较低的医学指令数据获得最终的高质量数据;
3、本发明在商业大模型生成指令数据时,提供专业的医疗文本,促使模型生成的数据更加的专业,商业大模型自身也可以为文本缺少的内容进行补充,最终生成类似医生的专业医疗指令数据,包含更多的专业知识;
4、本发明由商业大模型生成的数据包含大量的杂质数据,这些有缺陷的数据是显而易见的,通过正则匹配去出字符较少的数据和不完整的数据,通过使用Rouge去除掉相似的数据,保证数据的多样性;
5、本发明使用商业大模型的评估功能,相较于使用价格昂贵的人工标注数据去训练专用于医疗数据分类的分类模型,经过足够数量数据训练的商业大模型明显具有更优的分类性能,为了避免模型评估自己生成的数据造成无法鉴别的现象,商业大模型与商业大模型之间互相评估生成的数据,去除低质量的数据,最终得到高质量的医学指令数据;
6、构建了针对麻醉学的全面的、综合的高质量数据集;
7、提出了使用商业大模型清理模型生成的指令数据提高数据质量的一种方式;
8、提出的模型之间互相清理生成数据的方法,适用于所有用于生成数据的任务,提高生成数据的专业性和质量;
9、针对麻醉学领域构建了高质量的麻醉指令数据集,用于对通用大模型进行微调获得麻醉专业大模型提供支撑。
附图说明
图1为本发明构建高质量指令数据集的整体框架;
图2为本发明输入文本和生成指令数据的样例一;
图3为本发明输入文本和生成指令数据的样例二;
图4为本发明对麻醉指令数据评估的样例。
具体实施方式
实施例1:如图1-图4所示,一种构建医学指令数据集的方法,所述方法的具体步骤如下:
Step1、麻醉指令数据的生成;包括:
Step1.1、纯文本的获取;所述Step1.1中包括:
首先从多方面获取与麻醉相关的文本数据,例如:麻醉论文的结论和摘要、医疗网站的麻醉文章、麻醉相关的书籍、麻醉相关的病历;这些获取的文本包含网络公开的数据和从医院数据库提取的数据;将获得的文本提取成400字-600字之间的段落,文本当中也包含杂质,通过正则匹配剔除与麻醉无关的文本,获得最终的麻醉纯文本数据。
Step1.2、设计生成指令数据的prompt模板;包括:
设计一个将麻醉纯文本转换为麻醉指令数据的模板,把获取到的麻醉纯文本数据转换为初步的麻醉指令数据;
同时建立一个由麻醉指令数据组成的集合作为种子池,每次生成数据从种子池中随机抽取一条指令数据作为生成数据的例子;
以下是将麻醉文本转换为麻醉指令数据的模板:
Prompt:
1、将文本转换为指令数据的形式:{"instruction": "", "input": "", "output": ""}。
2、"instruction":根据麻醉文本提出与麻醉学相关的问题;{Question_type};问题要具体,具有多样性,内容丰富。
3、"input":对情况的补充,可以为" input "。
4、"output":医生根据文本对instruction麻醉问题的回答;如果需要,给出具体的计算公式、具体 的药物剂量、具体的判定条件等;针对问题分条详细回答,解释回答关键点的原因;回答友善, 透露出对咨询者的关心。
5、整体的指令数据形式仿照例子:{seed}。
6、指令数据之间要完全独立,不要出现“从文本中得出”这样需要附加材料的内容。\n文本:
Question_type = [
"可以是学生对知识点定义的提问,包含单选题、判断题、简答题、病例分析等等",
"可以是病患关于麻醉相关问题的咨询,为问题设计丰富的背景和病患信息,如年龄、性别、症 状、发病时间等",
"医学生对麻醉相关定义的询问,可以包含药品的具体用量、某些判定条件、药物的计算方式、 病患案例的分析等",
"可以是医生对操作方法、病例分析、判定条件、药物使用剂量、计算方式、注意事项等的询 问" ]
上述模板中的seed是每次从种子池抽取的麻醉指令数据用来作为生成数据的例子,而Question_type是对生成指令数据的要求,包括题目的类型,问答的方式等。
Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据;所述Step1.3中包括:根据获取的纯文本和生成指令数据的prompt模板,最终,如图2所示,选择了GPT-3.5-turbo和Claude两个商业大模型来生成最终的麻醉指令数据。如图3所示,InputTexT是输入的麻醉相关的文本,包含大量麻醉相关的专业知识,将这些文本放入上述设计的prompt模板当中,生成多种多样的指令数据,在保证生成类人问答的同时注入专业的知识;图3中的Output是生成的指令数据样例,将文本知识融入到生成的数据。使用这种方式将所有的文本转换为指令数据构建初步的指令数据集。下述为一个具体的样例:
Claude:
不好例子:
{"instruction": "妊高症行剖宫产麻醉时应注意哪些问题?", "input": "", "output": "1.充分预防并发症发生\n2.谨慎行全身麻醉\n3.密切观察血压、凝血功能等指标。", "score":5分}
好例子:
{"instruction": "麻醉手术期间应如何保持患者的呼吸功能?", "input": "","output": "1.密切监测血气,预防CO2积累和缺氧降低呼吸功能。\n2.合理使用各类***物,控制麻醉深度不太轻不太深。\n3.减少躯干和颈部刺激,避免不必要的牵拉和刺激。\n4.积极预防肺部感染和肺水肿,避免气道堵塞和通气障碍。\n5.适当使用肌松药和激素,掌握使用合理的剂量。\n6.密切监测患者体温和电解质,预防呼吸功能紊乱。", "score":9分}
ChatGPT:
坏例子:
{ "instruction": "请问胰腺炎的治疗中是否需要麻醉?", "input": "", "output": "是的,胰腺炎的治疗中通常需要进行麻醉。具体的麻醉方法和机械可以参考第574页的相关内容与参考文献。", "score":1分}
好例子:
{"instruction": "胰腺炎的并发症有哪些?", "input": "", "output": "胰腺炎可能会导致多种并发症,包括瘘管形成、胃排空延迟、持续的脓毒血症、肺不张、呼吸状况恶化和出血。瘘管形成的发生率约为8%~30%,胃排空的延迟发生率约为50%,持续的脓毒血症发生率约为10%~30%,肺不张发生率约为5%~10%,呼吸状况恶化发生率约为5%,出血发生率尚未给出具体数据", "score":8分};
其中,Claude和ChatGPT都是OPENAI的商业大模型,本发明使用的均是Claude和ChatGPT的API接口,ChatGPT的API接口是GPT -3.5-turbo。在使用两个商业大模型生成数据后,两个大模型互相评估生成的数据。Claude不好的例子,是Claude生成,GPT -3.5-turbo评估,打了5分的一个例子。Claude比较好的例子,是Claude生成,GPT -3.5-turbo评估,打了9分的一个例子。GPT -3.5-turbo不好的例子,是GPT -3.5-turbo生成,Claude评估,打了5分的一个例子。GPT -3.5-turbo比较好的例子,是GPT -3.5-turbo生成,Claude评估,打了9分的一个例子。
Step2、指令数据初步的简单清理;生成的数据有很多显而易见的,有在问答中提问的、有重复问题的、有题目在答案中的等等,需要进行简单的清理,减少后续商业大模型评估数据的花费;所述Step2中,数据初步的简单清理具体包括:
Step2.1、清理掉问题和答案字数小于10的数据;
Step2.2、清理掉出现重复的数据;
Step2.3、清理掉部分问题在答案当中的数据;
Step2.4、计算每一条指令数据与前100条指令数据的Rouge得分,删除掉得分大于0.5的数据。
清理的方式并不固定,需要针对具体的情况进行清理,计算相似度的方式也并不唯一,这一步的主要目的是尽可能地筛选掉不需要的数据。
Step3、模型评估指令数据;
Step3.1、设计评估指令数据的prompt模板;所述Step3.1包括:
针对生成的麻醉指令数据,即使经过初步的简单的清理,麻醉指令数据集中仍然包含大量的杂质数据需要继续的清理;使用商业大模型评估生成的麻醉指令数据,为评估指令数据的prompt模板设计包括五个方面:连贯性、解决问题的程度、正确性、危害性、专业性;为模型设计考虑的角度不固定,按照需要去设计;对麻醉指令数据的评分,选择了0-10分的评分标准,这种评分标准并不固定,可以按照需求设计评分标准。以下是为商业大模型评估生成数据设计的Prompt:
Prompt:
1、"instruction"对应麻醉相关的问题,"input"为对问题详细情况的补充,"output"对应麻醉相关的回答。
2、1.连贯性:表达和组织上的一致性和流畅性,越流畅越好。2.解决问题的程度:对解决问题 的有用程度,越有用越好。3.正确性:回答的正确内容占比,比例越高越好。4.危害性:偏见, 错误等负面因素导致严重决策的程度,越低代表越好。5.专业性:包含麻醉专业领域术语的程 度,越多越好。从这五个方面综合打分,评分为0-10分。
3、严格按照{"id":"","得分":""}输出,不要回答其他任何内容。其中id对应字典的编号,与输入相同。
4、指令数据越好评分越高,0-3分:能回答,不保证内容,3-6分:能简单的解决问题,6-9分: 回答的基本明确,各方面都比较完善;问题不完整不得高于6分,例子{seed}。
5、指令数据:……;
Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据。所述Step3.2包括:
如图4所示,Input TexT是输入的麻醉指令数据,为了避免商业大模型评估自身生成的数据,选择GPT-3.5-turbo和Claude之间相互评估生成的麻醉指令数据;将输入的麻醉指令数据填入上述的评估指令数据的prompt模板当中,然后送入商业模型当中得到输出,输出是模型针对输入的指令数据的评分。
本发明在商业大模型生成指令数据时,提供专业的医疗文本,促使模型生成的数据更加的专业,商业大模型自身也可以为文本缺少的内容进行补充,最终生成类似医生的专业医疗指令数据,包含更多的专业知识;
本发明由商业大模型生成的数据包含大量的杂质数据,这些有缺陷的数据是显而易见的,通过正则匹配去出字符较少的数据和不完整的数据,通过使用Rouge去除掉相似的数据,保证数据的多样性;
本发明使用商业大模型的评估功能,相较于使用价格昂贵的人工标注数据去训练专用于医疗数据分类的分类模型,经过足够数量数据训练的商业大模型明显具有更优的分类性能,为了避免模型评估自己生成的数据造成无法鉴别的现象,商业大模型与商业大模型之间互相评估生成的数据,去除低质量的数据,最终得到高质量的医学指令数据;
本发明商业大模型为每一条麻醉指令数据评估了分数,为了验证不同分级数据的质量,我们将麻醉指令数据集分为原始指令数据集、删除5分及其以下数据的数据集、删除6分及其以下数据的数据集、删除7分及其以下数据的数据集。我们邀请专业的麻醉学医师评估未清理数据集和清理掉6分及其以下数据的数据集,随机从数据集中抽取数据匿名交由麻醉学医师进行评估;如表1所示,经过模型清理后数据集有效数据的比例明显提示,证明这种方式确实真实有效。
表1为对麻醉指令数据评估的样例
为了进行更详细的验证,我们由真实麻醉问答构建了测试集,并选择llama模型作为基础模型分别在4种级别的数据上进行了微调和推理,选择BLEU、GLEU、ROUGE和Distinct作为自动评估的指标,其中BLEU和ROUGE计算模型的推理与答案的相似度、GLEU计算模型推理的相似度、Distinct计算模型推理的多样性。如表2所示,经过模型清理的数据随着清理分数的增高,大部分自动评估的得分也在增高,但是多样性在下降,进一步证明了使用模型的评估功能来清理数据提高数据集质量的有效性。
表2为对麻醉指令数据评估的样例
注:第一列中(*)代表使用的训练数据集已经删除掉评分等于或者低于*分数的数据,*是按照评分筛选数据的截止线分数。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种构建医学指令数据集的方法,其特征在于:所述方法的具体步骤如下:
Step1、麻醉指令数据的生成;包括:
Step1.1、纯文本的获取;
Step1.2、设计生成指令数据的prompt模板;
Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据;
Step2、指令数据初步的简单清理;
Step3、模型评估指令数据;
Step3.1、设计评估指令数据的prompt模板;
Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据;
所述Step1.3中包括:根据获取的纯文本和生成指令数据的prompt模板,选择了GPT-3.5-turbo和Claude两个商业大模型来生成最终的麻醉指令数据;
所述Step2中,数据初步的简单清理具体包括:
Step2.1、清理掉问题和答案字数小于10的数据;
Step2.2、清理掉出现重复的数据;
Step2.3、清理掉部分问题在答案当中的数据;
Step2.4、计算每一条指令数据与前100条指令数据的Rouge得分,删除掉得分大于0.5的数据;
所述Step3.1包括:
使用商业大模型评估生成的麻醉指令数据,为评估指令数据的prompt模板设计包括五个方面:连贯性、解决问题的程度、正确性、危害性、专业性;
所述Step3.2包括:
选择GPT-3.5-turbo和Claude之间相互评估生成的麻醉指令数据;将输入的麻醉指令数据填入上述的评估指令数据的prompt模板当中,然后送入商业模型当中得到输出,输出是模型针对输入的指令数据的评分。
2.根据权利要求1所述的构建医学指令数据集的方法,其特征在于:所述Step1.1中包括:
首先从多方面获取与麻醉相关的文本数据,包括麻醉论文的结论和摘要、医疗网站的麻醉文章、麻醉相关的书籍、麻醉相关的病历;这些获取的文本包含网络公开的数据和从医院数据库提取的数据;将获得的文本提取成400字-600字之间的段落,文本当中也包含杂质,通过正则匹配剔除与麻醉无关的文本,获得最终的麻醉纯文本数据。
3.根据权利要求1所述的构建医学指令数据集的方法,其特征在于:所述Step1.2包括:
设计一个将麻醉纯文本转换为麻醉指令数据的模板,把获取到的麻醉纯文本数据转换为初步的麻醉指令数据;
同时建立一个由麻醉指令数据组成的集合作为种子池,每次生成数据从种子池中随机抽取一条指令数据作为生成数据的例子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410200638.3A CN117786414B (zh) | 2024-02-23 | 2024-02-23 | 一种构建医学指令数据集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410200638.3A CN117786414B (zh) | 2024-02-23 | 2024-02-23 | 一种构建医学指令数据集的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117786414A CN117786414A (zh) | 2024-03-29 |
CN117786414B true CN117786414B (zh) | 2024-05-10 |
Family
ID=90381965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410200638.3A Active CN117786414B (zh) | 2024-02-23 | 2024-02-23 | 一种构建医学指令数据集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117786414B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561542A (zh) * | 2023-07-04 | 2023-08-08 | 北京聆心智能科技有限公司 | 模型的优化训练***、方法以及相关装置 |
CN116737881A (zh) * | 2023-07-14 | 2023-09-12 | 上海墨百意信息科技有限公司 | 模型评测方法、装置、电子设备及存储介质 |
CN116775843A (zh) * | 2023-07-06 | 2023-09-19 | 平安科技(深圳)有限公司 | 问答对评测数据生成方法、装置、计算机设备及存储介质 |
CN116910201A (zh) * | 2023-06-16 | 2023-10-20 | 华为技术有限公司 | 一种对话数据生成方法及其相关设备 |
WO2023212804A1 (en) * | 2022-05-01 | 2023-11-09 | Zetane Systems Inc. | Producing an augmented dataset to improve performance of a machine learning model |
CN117033603A (zh) * | 2023-08-28 | 2023-11-10 | 北京易华录信息技术股份有限公司 | 一种垂直领域大模型的构建方法、装置、设备及存储介质 |
CN117056518A (zh) * | 2023-08-17 | 2023-11-14 | 天津大学 | 基于任务难度评估和级联优化的立法意见审查***及方法 |
CN117095827A (zh) * | 2023-08-15 | 2023-11-21 | 中国科学技术大学 | 麻醉大模型训练方法和设备 |
CN117113339A (zh) * | 2023-09-27 | 2023-11-24 | 北京奇虎科技有限公司 | 一种大模型风险评估方法、装置、存储介质及电子设备 |
CN117113043A (zh) * | 2023-08-31 | 2023-11-24 | 深圳前海微众银行股份有限公司 | 模型评估方法、装置、***及存储介质 |
CN117112582A (zh) * | 2023-08-24 | 2023-11-24 | 深圳市火火兔智慧科技有限公司 | 基于语言模型的早教内容批量生成***及质量控制方法 |
CN117151859A (zh) * | 2023-08-29 | 2023-12-01 | 重庆蚂蚁消费金融有限公司 | 模型训练及评估方法、相关装置、设备、介质及产品 |
US11855860B1 (en) * | 2023-03-31 | 2023-12-26 | Bmc Software, Inc. | Domain-specific generative machine learning models |
CN117407682A (zh) * | 2023-09-27 | 2024-01-16 | 清华大学 | 医学模型评估方法、装置、电子设备和存储介质 |
CN117494760A (zh) * | 2023-10-12 | 2024-02-02 | 中国科学院计算机网络信息中心 | 一种基于超大规模语言模型的富语义标签数据增广方法 |
CN117493830A (zh) * | 2023-11-16 | 2024-02-02 | 郑州阿帕斯数云信息科技有限公司 | 训练数据质量的评估、评估模型的生成方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230315856A1 (en) * | 2022-03-31 | 2023-10-05 | Sophos Limited | Methods and apparatus for augmenting training data using large language models |
-
2024
- 2024-02-23 CN CN202410200638.3A patent/CN117786414B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023212804A1 (en) * | 2022-05-01 | 2023-11-09 | Zetane Systems Inc. | Producing an augmented dataset to improve performance of a machine learning model |
US11855860B1 (en) * | 2023-03-31 | 2023-12-26 | Bmc Software, Inc. | Domain-specific generative machine learning models |
CN116910201A (zh) * | 2023-06-16 | 2023-10-20 | 华为技术有限公司 | 一种对话数据生成方法及其相关设备 |
CN116561542A (zh) * | 2023-07-04 | 2023-08-08 | 北京聆心智能科技有限公司 | 模型的优化训练***、方法以及相关装置 |
CN116775843A (zh) * | 2023-07-06 | 2023-09-19 | 平安科技(深圳)有限公司 | 问答对评测数据生成方法、装置、计算机设备及存储介质 |
CN116737881A (zh) * | 2023-07-14 | 2023-09-12 | 上海墨百意信息科技有限公司 | 模型评测方法、装置、电子设备及存储介质 |
CN117095827A (zh) * | 2023-08-15 | 2023-11-21 | 中国科学技术大学 | 麻醉大模型训练方法和设备 |
CN117056518A (zh) * | 2023-08-17 | 2023-11-14 | 天津大学 | 基于任务难度评估和级联优化的立法意见审查***及方法 |
CN117112582A (zh) * | 2023-08-24 | 2023-11-24 | 深圳市火火兔智慧科技有限公司 | 基于语言模型的早教内容批量生成***及质量控制方法 |
CN117033603A (zh) * | 2023-08-28 | 2023-11-10 | 北京易华录信息技术股份有限公司 | 一种垂直领域大模型的构建方法、装置、设备及存储介质 |
CN117151859A (zh) * | 2023-08-29 | 2023-12-01 | 重庆蚂蚁消费金融有限公司 | 模型训练及评估方法、相关装置、设备、介质及产品 |
CN117113043A (zh) * | 2023-08-31 | 2023-11-24 | 深圳前海微众银行股份有限公司 | 模型评估方法、装置、***及存储介质 |
CN117113339A (zh) * | 2023-09-27 | 2023-11-24 | 北京奇虎科技有限公司 | 一种大模型风险评估方法、装置、存储介质及电子设备 |
CN117407682A (zh) * | 2023-09-27 | 2024-01-16 | 清华大学 | 医学模型评估方法、装置、电子设备和存储介质 |
CN117494760A (zh) * | 2023-10-12 | 2024-02-02 | 中国科学院计算机网络信息中心 | 一种基于超大规模语言模型的富语义标签数据增广方法 |
CN117493830A (zh) * | 2023-11-16 | 2024-02-02 | 郑州阿帕斯数云信息科技有限公司 | 训练数据质量的评估、评估模型的生成方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
Large Language Models as an Indirect Reasoner:Contrapositive and Contradiction for Automated Reasoning;Yanfang Zhang等;《arXiv:2402.03667v1》;20240206;1-20 * |
PRE: A Peer Review Based Large Language Model Evaluator;Zhumin Chu等;《arXiv:2401.15641v1》;20240128;1-11 * |
基于大语言模型的电力***通用人工智能展望:理论与应用;赵俊华等;《电力***自动化》;20231127;第48卷(第06期);18-23 * |
基于知识增强的医学语言模型:现状、技术与应用;康砚澜等;《医学信息学杂志》;20230925;第44卷(第9期);12-22 * |
Also Published As
Publication number | Publication date |
---|---|
CN117786414A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Faggiano et al. | School‐based prevention for illicit drugs' use | |
Mansouri et al. | A meta-analysis of continuing medical education effectiveness | |
Bowness et al. | Identifying anatomical structures on ultrasound: assistive artificial intelligence in ultrasound‐guided regional anesthesia | |
Sher-Censor et al. | Preschoolers’ self-regulation moderates relations between mothers’ representations and children’s adjustment to school. | |
Joubert et al. | Impact of a serious videogame designed for flexible insulin therapy on the knowledge and behaviors of children with type 1 diabetes: the LUDIDIAB pilot study | |
Bamat et al. | Nasal continuous positive airway pressure levels for the prevention of morbidity and mortality in preterm infants | |
Englander et al. | A lack of continuity in education, training, and practice violates the “do no harm” principle | |
Campbell et al. | Evaluating ChatGPT responses on thyroid nodules for patient education | |
Grace | Pitfalls of the medical paradigm in chronic pelvic pain | |
Rudolph | Into the big muddy and out again: Error persistence and crisis management in the operating room | |
CN117786414B (zh) | 一种构建医学指令数据集的方法 | |
Mitchell et al. | Computer-based testing of medical knowledge | |
Murray et al. | Computer-assisted learning in undergraduate medical teaching | |
Ferrell et al. | Analysis of symptom assessment and management content in nursing textbooks | |
Hughes et al. | Brief intervention on nurses’ knowledge and behavior regarding smoking cessation | |
Miller | The place of research and the role of academic anaesthetists in anaesthetic departments | |
Gacono et al. | Some Comments on the Idiographic Interpretation of Rorschach Findings. | |
Brown et al. | Philosophical debates at Paris in the early fourteenth century | |
Milnes | Does a student midwife’s personal experience of childbirth affect their philosophy of care and the choices they offer to women | |
Heger et al. | What are we learning? An update on abortion education in medical schools [29G] | |
Saavedra et al. | Collateral effects of coping power on caregiver symptoms of depression and long-term changes in child behavior | |
Owen | An Exploration of Motivation, Relevance and Realism in Simulation Based Medical Education:" I Don't Want to Look Like an Idiot." | |
Rao | Psychiatric workforce: past legacies, current dilemmas, and future prospects | |
Brannick | Guidelines for forensic report writing: Helping trainees understand common pitfalls to improve reports | |
Noureddine et al. | Twitter and Obstetrics and Gynecology: Where Do the Chirps Stand? A Review of the Literature and Social Media [27G] |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |