CN117786414B

CN117786414B - 一种构建医学指令数据集的方法

Info

Publication number: CN117786414B
Application number: CN202410200638.3A
Authority: CN
Inventors: 王中海; 詹忆冰; 陶大鹏; 林旭; 刘伟锋; 刘宝弟; 李艳鸿; 周博豪
Original assignee: Yunnan United Visual Technology Co ltd
Current assignee: Yunnan United Visual Technology Co ltd
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-05-10
Anticipated expiration: 2044-02-23
Also published as: CN117786414A

Abstract

本发明涉及一种构建医学指令数据集的方法，属于数据处理技术领域。本发明包括步骤：麻醉指令数据的生成；包括：Step1.1、纯文本的获取；Step1.2、设计生成指令数据的prompt模板；Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据；Step2、指令数据初步的简单清理；Step3、模型评估指令数据；Step3.1、设计评估指令数据的prompt模板；Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据。本发明能去除低质量的数据，最终得到高质量的医学指令数据。

Description

一种构建医学指令数据集的方法

技术领域

本发明涉及一种构建医学指令数据集的方法，属于数据处理技术领域。

背景技术

在医疗大模型领域，针对通用大模型的微调需要高质量的医疗指令数据；指令数据能够统一任务，赋予模型对话的能力，高质量的医疗指令数据微调的模型性能更强，但是人工标注医疗指令数据是一项昂贵和耗时的任务。为了获得大量医学相关的指令数据，相关研究已经提出了多种根据大模型生成指令数据的方式。这些方式主要有：通过selfinstruction的方式挖掘商业大模型内部的医疗数据、真实医疗问题与商业大模型的回复作为医疗指令数据、商业大模型将医疗文本转换为医疗指令数据集等。这些方法全部是使用像ChatGPT一样的商业大模型代替人工进行标注和转换，人工标注的数据质量尚且参差不齐，这些由模型生成的数据的质量也无法保证，需要对生成的数据采取一定的清洗和筛选来提高数据的质量；

且目前没有专门针对大模型生成数据的清理方式，当前现有模型生成的数据集中包含大量的噪声，这些包含噪声的数据将会给要微调的大模型带来巨大的影响，例如模型回答的质量和模型回答的正确率等。

发明内容

为了解决上述问题，本发明提供了一种构建医学指令数据集的方法，本发明能提供全面的、综合的高质量医学数据集。

本发明的技术方案是：一种构建医学指令数据集的方法，所述方法的具体步骤如下：

Step1、麻醉指令数据的生成；包括：

Step1.1、纯文本的获取；

Step1.2、设计生成指令数据的prompt模板；

Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据；

Step2、指令数据初步的简单清理；

Step3、模型评估指令数据；

Step3.1、设计评估指令数据的prompt模板；

Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据。

进一步地，所述Step1.1中包括：

首先从多方面获取与麻醉相关的文本数据，包括麻醉论文的结论和摘要、医疗网站的麻醉文章、麻醉相关的书籍、麻醉相关的病历；这些获取的文本包含网络公开的数据和从医院数据库提取的数据；将获得的文本提取成400字-600字之间的段落，文本当中也包含杂质，通过正则匹配剔除与麻醉无关的文本，获得最终的麻醉纯文本数据。

进一步地，所述Step1.2包括：

设计一个将麻醉纯文本转换为麻醉指令数据的模板，把获取到的麻醉纯文本数据转换为初步的麻醉指令数据；

同时建立一个由麻醉指令数据组成的集合作为种子池，每次生成数据从种子池中随机抽取一条指令数据作为生成数据的例子；

进一步地，所述Step1.3中包括：根据获取的纯文本和生成指令数据的prompt模板，选择了GPT-3.5-turbo和Claude两个商业大模型来生成最终的麻醉指令数据。

进一步地，所述Step2中，数据初步的简单清理具体包括：

Step2.1、清理掉问题和答案字数小于10的数据；

Step2.2、清理掉出现重复的数据；

Step2.3、清理掉部分问题在答案当中的数据；

Step2.4、计算每一条指令数据与前100条指令数据的Rouge得分，删除掉得分大于0.5的数据。

进一步地，所述Step3.1包括：

使用商业大模型评估生成的麻醉指令数据，为评估指令数据的prompt模板设计包括五个方面：连贯性、解决问题的程度、正确性、危害性、专业性；为模型设计考虑的角度不固定，按照需要去设计；

进一步地，所述Step3.2包括：

选择GPT-3.5-turbo和Claude之间相互评估生成的麻醉指令数据；将输入的麻醉指令数据填入上述的评估指令数据的prompt模板当中，然后送入商业模型当中得到输出，输出是模型针对输入的指令数据的评分。

本发明的有益效果是：

1、本发明获取相关医学领域的纯文本，这些文本来自于医学书籍、医学论文、病历、医学文章等；将准备好的文本分割为400字-600字的段落，设计好相应的prompt，由商业大模型将医学文本转换为医学指令数据，一方面为数据注入专业的医学知识，一方面由模型对欠缺的部分进行补充；

2、本发明针对生成数据中存在的空缺、重复、简短、相似等显而易见的错误进行初步的清理；最后，因为大模型自身便存在对数据评估的功能，使用大模型的评估功能从几个方面对模型生成的数据进行评估打分；大模型对于自身生成的数据可能会存在误解，所以让大模型之间相互评估生成的医学指令数据，剔除掉分数较低的医学指令数据获得最终的高质量数据；

3、本发明在商业大模型生成指令数据时，提供专业的医疗文本，促使模型生成的数据更加的专业，商业大模型自身也可以为文本缺少的内容进行补充，最终生成类似医生的专业医疗指令数据，包含更多的专业知识；

4、本发明由商业大模型生成的数据包含大量的杂质数据，这些有缺陷的数据是显而易见的，通过正则匹配去出字符较少的数据和不完整的数据，通过使用Rouge去除掉相似的数据，保证数据的多样性；

5、本发明使用商业大模型的评估功能，相较于使用价格昂贵的人工标注数据去训练专用于医疗数据分类的分类模型，经过足够数量数据训练的商业大模型明显具有更优的分类性能，为了避免模型评估自己生成的数据造成无法鉴别的现象，商业大模型与商业大模型之间互相评估生成的数据，去除低质量的数据，最终得到高质量的医学指令数据；

6、构建了针对麻醉学的全面的、综合的高质量数据集；

7、提出了使用商业大模型清理模型生成的指令数据提高数据质量的一种方式；

8、提出的模型之间互相清理生成数据的方法，适用于所有用于生成数据的任务，提高生成数据的专业性和质量；

9、针对麻醉学领域构建了高质量的麻醉指令数据集，用于对通用大模型进行微调获得麻醉专业大模型提供支撑。

附图说明

图1为本发明构建高质量指令数据集的整体框架；

图2为本发明输入文本和生成指令数据的样例一；

图3为本发明输入文本和生成指令数据的样例二；

图4为本发明对麻醉指令数据评估的样例。

具体实施方式

实施例1：如图1-图4所示，一种构建医学指令数据集的方法，所述方法的具体步骤如下：

Step1、麻醉指令数据的生成；包括：

Step1.1、纯文本的获取；所述Step1.1中包括：

首先从多方面获取与麻醉相关的文本数据，例如：麻醉论文的结论和摘要、医疗网站的麻醉文章、麻醉相关的书籍、麻醉相关的病历；这些获取的文本包含网络公开的数据和从医院数据库提取的数据；将获得的文本提取成400字-600字之间的段落，文本当中也包含杂质，通过正则匹配剔除与麻醉无关的文本，获得最终的麻醉纯文本数据。

Step1.2、设计生成指令数据的prompt模板；包括：

以下是将麻醉文本转换为麻醉指令数据的模板：

Prompt：

1、将文本转换为指令数据的形式：{"instruction": "", "input": "", "output": ""}。

2、"instruction":根据麻醉文本提出与麻醉学相关的问题;{Question_type};问题要具体，具有多样性，内容丰富。

3、"input":对情况的补充，可以为" input "。

4、"output":医生根据文本对instruction麻醉问题的回答；如果需要，给出具体的计算公式、具体的药物剂量、具体的判定条件等；针对问题分条详细回答,解释回答关键点的原因；回答友善，透露出对咨询者的关心。

5、整体的指令数据形式仿照例子：{seed}。

6、指令数据之间要完全独立，不要出现“从文本中得出”这样需要附加材料的内容。\n文本：

Question_type = [

"可以是学生对知识点定义的提问，包含单选题、判断题、简答题、病例分析等等",

"可以是病患关于麻醉相关问题的咨询，为问题设计丰富的背景和病患信息，如年龄、性别、症状、发病时间等",

"医学生对麻醉相关定义的询问，可以包含药品的具体用量、某些判定条件、药物的计算方式、病患案例的分析等",

"可以是医生对操作方法、病例分析、判定条件、药物使用剂量、计算方式、注意事项等的询问" ]

上述模板中的seed是每次从种子池抽取的麻醉指令数据用来作为生成数据的例子，而Question_type是对生成指令数据的要求，包括题目的类型，问答的方式等。

Step1.3、根据获取的纯文本和生成指令数据的prompt模板生成指令数据；所述Step1.3中包括：根据获取的纯文本和生成指令数据的prompt模板，最终，如图2所示，选择了GPT-3.5-turbo和Claude两个商业大模型来生成最终的麻醉指令数据。如图3所示，InputTexT是输入的麻醉相关的文本，包含大量麻醉相关的专业知识，将这些文本放入上述设计的prompt模板当中，生成多种多样的指令数据，在保证生成类人问答的同时注入专业的知识；图3中的Output是生成的指令数据样例，将文本知识融入到生成的数据。使用这种方式将所有的文本转换为指令数据构建初步的指令数据集。下述为一个具体的样例：

Claude：

不好例子：

{"instruction": "妊高症行剖宫产麻醉时应注意哪些问题？", "input": "", "output": "1.充分预防并发症发生\n2.谨慎行全身麻醉\n3.密切观察血压、凝血功能等指标。", "score":5分}

好例子：

{"instruction": "麻醉手术期间应如何保持患者的呼吸功能？", "input": "","output": "1.密切监测血气，预防CO2积累和缺氧降低呼吸功能。\n2.合理使用各类***物，控制麻醉深度不太轻不太深。\n3.减少躯干和颈部刺激，避免不必要的牵拉和刺激。\n4.积极预防肺部感染和肺水肿，避免气道堵塞和通气障碍。\n5.适当使用肌松药和激素，掌握使用合理的剂量。\n6.密切监测患者体温和电解质，预防呼吸功能紊乱。", "score":9分}

ChatGPT：

坏例子：

{ "instruction": "请问胰腺炎的治疗中是否需要麻醉？", "input": "", "output": "是的，胰腺炎的治疗中通常需要进行麻醉。具体的麻醉方法和机械可以参考第574页的相关内容与参考文献。", "score":1分}

好例子：

{"instruction": "胰腺炎的并发症有哪些？", "input": "", "output": "胰腺炎可能会导致多种并发症，包括瘘管形成、胃排空延迟、持续的脓毒血症、肺不张、呼吸状况恶化和出血。瘘管形成的发生率约为8%~30%，胃排空的延迟发生率约为50%，持续的脓毒血症发生率约为10%~30%，肺不张发生率约为5%~10%，呼吸状况恶化发生率约为5%，出血发生率尚未给出具体数据", "score":8分}；

其中，Claude和ChatGPT都是OPENAI的商业大模型，本发明使用的均是Claude和ChatGPT的API接口，ChatGPT的API接口是GPT -3.5-turbo。在使用两个商业大模型生成数据后，两个大模型互相评估生成的数据。Claude不好的例子，是Claude生成，GPT -3.5-turbo评估，打了5分的一个例子。Claude比较好的例子，是Claude生成，GPT -3.5-turbo评估，打了9分的一个例子。GPT -3.5-turbo不好的例子，是GPT -3.5-turbo生成，Claude评估，打了5分的一个例子。GPT -3.5-turbo比较好的例子，是GPT -3.5-turbo生成，Claude评估，打了9分的一个例子。

Step2、指令数据初步的简单清理；生成的数据有很多显而易见的，有在问答中提问的、有重复问题的、有题目在答案中的等等，需要进行简单的清理，减少后续商业大模型评估数据的花费；所述Step2中，数据初步的简单清理具体包括：

Step2.1、清理掉问题和答案字数小于10的数据；

Step2.2、清理掉出现重复的数据；

Step2.3、清理掉部分问题在答案当中的数据；

清理的方式并不固定，需要针对具体的情况进行清理，计算相似度的方式也并不唯一，这一步的主要目的是尽可能地筛选掉不需要的数据。

Step3、模型评估指令数据；

Step3.1、设计评估指令数据的prompt模板；所述Step3.1包括：

针对生成的麻醉指令数据，即使经过初步的简单的清理，麻醉指令数据集中仍然包含大量的杂质数据需要继续的清理；使用商业大模型评估生成的麻醉指令数据，为评估指令数据的prompt模板设计包括五个方面：连贯性、解决问题的程度、正确性、危害性、专业性；为模型设计考虑的角度不固定，按照需要去设计；对麻醉指令数据的评分，选择了0-10分的评分标准，这种评分标准并不固定，可以按照需求设计评分标准。以下是为商业大模型评估生成数据设计的Prompt：

Prompt：

1、"instruction"对应麻醉相关的问题,"input"为对问题详细情况的补充,"output"对应麻醉相关的回答。

2、1.连贯性：表达和组织上的一致性和流畅性，越流畅越好。2.解决问题的程度：对解决问题的有用程度，越有用越好。3.正确性：回答的正确内容占比，比例越高越好。4.危害性：偏见，错误等负面因素导致严重决策的程度，越低代表越好。5.专业性：包含麻醉专业领域术语的程度，越多越好。从这五个方面综合打分，评分为0-10分。

3、严格按照{"id":"","得分":""}输出，不要回答其他任何内容。其中id对应字典的编号，与输入相同。

4、指令数据越好评分越高，0-3分：能回答，不保证内容，3-6分：能简单的解决问题，6-9分：回答的基本明确，各方面都比较完善；问题不完整不得高于6分，例子{seed}。

5、指令数据:……；

Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据。所述Step3.2包括：

如图4所示，Input TexT是输入的麻醉指令数据，为了避免商业大模型评估自身生成的数据，选择GPT-3.5-turbo和Claude之间相互评估生成的麻醉指令数据；将输入的麻醉指令数据填入上述的评估指令数据的prompt模板当中，然后送入商业模型当中得到输出，输出是模型针对输入的指令数据的评分。

本发明在商业大模型生成指令数据时，提供专业的医疗文本，促使模型生成的数据更加的专业，商业大模型自身也可以为文本缺少的内容进行补充，最终生成类似医生的专业医疗指令数据，包含更多的专业知识；

本发明由商业大模型生成的数据包含大量的杂质数据，这些有缺陷的数据是显而易见的，通过正则匹配去出字符较少的数据和不完整的数据，通过使用Rouge去除掉相似的数据，保证数据的多样性；

本发明使用商业大模型的评估功能，相较于使用价格昂贵的人工标注数据去训练专用于医疗数据分类的分类模型，经过足够数量数据训练的商业大模型明显具有更优的分类性能，为了避免模型评估自己生成的数据造成无法鉴别的现象，商业大模型与商业大模型之间互相评估生成的数据，去除低质量的数据，最终得到高质量的医学指令数据；

本发明商业大模型为每一条麻醉指令数据评估了分数，为了验证不同分级数据的质量，我们将麻醉指令数据集分为原始指令数据集、删除5分及其以下数据的数据集、删除6分及其以下数据的数据集、删除7分及其以下数据的数据集。我们邀请专业的麻醉学医师评估未清理数据集和清理掉6分及其以下数据的数据集，随机从数据集中抽取数据匿名交由麻醉学医师进行评估；如表1所示，经过模型清理后数据集有效数据的比例明显提示，证明这种方式确实真实有效。

表1为对麻醉指令数据评估的样例

为了进行更详细的验证，我们由真实麻醉问答构建了测试集，并选择llama模型作为基础模型分别在4种级别的数据上进行了微调和推理，选择BLEU、GLEU、ROUGE和Distinct作为自动评估的指标，其中BLEU和ROUGE计算模型的推理与答案的相似度、GLEU计算模型推理的相似度、Distinct计算模型推理的多样性。如表2所示，经过模型清理的数据随着清理分数的增高，大部分自动评估的得分也在增高，但是多样性在下降，进一步证明了使用模型的评估功能来清理数据提高数据集质量的有效性。

表2为对麻醉指令数据评估的样例

注：第一列中（*）代表使用的训练数据集已经删除掉评分等于或者低于*分数的数据，*是按照评分筛选数据的截止线分数。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种构建医学指令数据集的方法，其特征在于：所述方法的具体步骤如下：

Step1、麻醉指令数据的生成；包括：

Step1.1、纯文本的获取；

Step1.2、设计生成指令数据的prompt模板；

Step2、指令数据初步的简单清理；

Step3、模型评估指令数据；

Step3.1、设计评估指令数据的prompt模板；

Step3.2、根据清理的指令数据和评估指令数据的prompt模板评估生成的指令数据；

所述Step1.3中包括：根据获取的纯文本和生成指令数据的prompt模板，选择了GPT-3.5-turbo和Claude两个商业大模型来生成最终的麻醉指令数据；

所述Step2中，数据初步的简单清理具体包括：

Step2.1、清理掉问题和答案字数小于10的数据；

Step2.2、清理掉出现重复的数据；

Step2.3、清理掉部分问题在答案当中的数据；

Step2.4、计算每一条指令数据与前100条指令数据的Rouge得分，删除掉得分大于0.5的数据；

所述Step3.1包括：

使用商业大模型评估生成的麻醉指令数据，为评估指令数据的prompt模板设计包括五个方面：连贯性、解决问题的程度、正确性、危害性、专业性；

所述Step3.2包括：

2.根据权利要求1所述的构建医学指令数据集的方法，其特征在于：所述Step1.1中包括：

3.根据权利要求1所述的构建医学指令数据集的方法，其特征在于：所述Step1.2包括：

同时建立一个由麻醉指令数据组成的集合作为种子池，每次生成数据从种子池中随机抽取一条指令数据作为生成数据的例子。