CN109753564A

CN109753564A - 基于机器学习的中文rct智能分类器的构建方法

Info

Publication number: CN109753564A
Application number: CN201811525748.8A
Authority: CN
Inventors: 李春洁; 姚攀; 陈圣恺; 谢雨; 毛渤淳; 臧义; 曹钰彬; 于中华; 陈黎; 刘露; 徐杨
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-14

Abstract

本发明公开了一种基于机器学习的中文RCT智能分类器的构建方法，包括以下步骤：S1：对海量文献进行标注分类的步骤；S2：挑选出标注的文献构建训练集、验证集的步骤；S3：对训练集采用神经网络进行深度学习以构建分类器模型的步骤；S4：基于验证集对分类器模型进行参数调整的步骤。本发明所构建出的分类器模型，可大幅缩短中文文献在循证医学领域的分类时间，同时克服人工分类主观因素的影响，是分类结果更加准确和客观，具备快速、准确、客观、全自动、准确性高、自动学习的特点。

Description

基于机器学习的中文RCT智能分类器的构建方法

技术领域

本发明涉及循证医学领域，尤其是一种基于机器学习的中文RCT智能分类器的构建方法。

背景技术

随着医学理念的发展，当前的医疗模式已从过去的经验医学向循证医学(Evidence based medicine,EBM)转变。秉持“一切临床决策均应由临床证据出发”的循证医学能为医学临床工作提供最有力的证据支持和严谨的临床科研设计指导，对临床实践与科研有重要指导意义。

循证医学的主要证据载体为***评价，其撰写要求极其严格，研究者需要针对某一明确临床问题进行***性检索和文献筛选找出当前最佳临床证据，并对这些证据进行偏倚风险评价和结果整合。其步骤涉及***检索、文献筛选、信息提取、偏倚风险评价和数据合成等。

为了控制纳入文献本身的偏倚风险，***评价撰写者需要寻找的当前最佳临床证据一般为研究设计最为严谨的随机对照临床试验(Randomized Controlled ClinicalTrial,RCT)。且为保证检索的***性，评价者多采用查全率(灵敏度)极高但查准率(准确度)很低的检索策略，使得文献筛选环节常要面对上千条标题摘要构成的题录，且绝大多数题录并非RCT，这将花费研究者大量的时间和精力，同时导致***评价的撰写和更新速度远不能满足临床决策的需求。一项研究显示，评价一篇***评价平均需筛选1781篇文献，而无关文献平均筛除率达97.1％，发表一篇***评价平均需要64.3周。而可以说，***评价的撰写和更新速度一定程度上决定了临床决策的进步速度，决定了人类医学的发展速度。

尽管文献筛选工作本身要求严格、流程复杂、工作量大，但是目前尚没有专门为之开发的智能分类器。主流文献管理软件并非为循证医学专门开发，其用于文献标注、核对的过程仍有大量重复机械的劳动需要研究者手动完成。

近年来自然语言处理技术(Natural Language Processing，NLP)飞速发展，融合了深度学习算法后的自然语言处理技术也逐渐进入医学文献处理领域。针对英文RCT文献分类器的研究已有先例，但中文医学文献处理领域，目前还处于空白状态。而在自然语言处理领域，英文与中文存在着极大的不同。因此，开发一套能够通过文献内容自动判断该中文研究是否为RCT的智能识别算法用于辅助研究者进行文献筛，选将大大减少***评价的工作量，提高撰写效率，最终加快临床证据的总结与更新。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种利用机器学习的方法，构建出可快速、准确地对中文文献以循证医学的角度进行自动分类的分类器模型。

本发明采用的技术方案如下：

一种基于机器学习的中文RCT智能分类器的构建方法，包括以下步骤：

S1：对海量文献进行标注分类的步骤；

S2：挑选出标注的文献构建训练集、验证集的步骤；

S3：对训练集采用神经网络进行深度学习以构建分类器模型的步骤；

S4：基于验证集对分类器模型进行参数调整的步骤。

通过对海量文献的收集和标注，构建出训练用的文献库；进一步从文献库中(随机)挑选出文献以构建出训练集(用于训练模型)和验证集(用于验证以调整模型参数)；对训练集进行训练，得到分类器模型，采用验证集对构建的初步模型进行验证，在验证环节中调整参数以使模型收敛，最后保存模型参数得到可直接使用的分类器模型。通过该方式，构造出可快速、准确、客观评价地分类器，将文献输入到该分类器中，即可获得该文献的分类。对于循证医学领域，可大幅提升文献标记的效率，为循证医学文献库的构建和丰富提供了强有力的技术支持。

进一步的，上述S1具体为：

将每一篇文献导入到两个主体-第一主体和第二主体-进行标注；

针对于每一篇文献，判断两个主体对文献的标注结果是否一致，若是，则完成文献的标注分类，否则，将文献重新发送给两个主体进行二次标注；

若二次标注的结果一致，则完成文献的标注分类，否则，将文献发送给第三主体进行标注，并以第三主体的标注结果作为对文献的分类结果。

通过两个主体分别对文献进行标注，可以保证对文献评价的客观性。采用二次标注可以避免首次标注的误差影响，以提高对文献标注的准确性。对评价不一致的文献，交由第三者进行评价，可以基于第三者的角度客观评价该文献，而非在前两个主体间进行权衡，进一步增加了对文献评价的客观性。

进一步，上述步骤S3中，选用的神经网络为卷积神经网络。

卷积神经网络(CNN)应用到本发明中，具有如下优势，1.可以通过网络训练自己学习文本局部特征，避免了人为设置特征问题；2.在卷积神经网络中由于使用统一卷积核，使得卷积核中的权重参数能够共享，从而达到了减少网络参数数量的目的；3.在池化过程中可以降低数据的维度，起到压缩数据的效果，并且也能够减少参数数量，可以在一定程度上降低网络复杂度，减小过拟合。

进一步，上述S3针对每一篇文献，包括以下步骤：

S3-1：对文献进行分词处理，将一篇文献处理为含n个分词的词序列；

S3-2：根据预构建的词向量表，将词序列转换为对应的词向量矩阵；

S3-3：对词向量矩阵进行卷积和池化的过程；

S3-4：配置全连接层；

S3-5：定义交叉熵函数loss，采用Adam优化器，反向传播更新神经网络参数与词向量表。

交叉熵函数又叫损失函数。通过对文献(或文献中的局部-如摘要)进行分词，可以将文献向量化，以便于进行机器处理(如学习)；构建词向量表可以快速将分词向量化/矩阵化，同时防止白噪声的影响，进而快速完成对文献的深度学习。

进一步，上述S4包括以下步骤：

通过训练集和验证集上交叉熵函数loss的变化，调整和确定迭代次数，保证模型收敛；

设置初始的学习率，通过交叉熵函数loss基于该初始学习率的收敛情况，对学习率进行调整；

对batch_size大小的调整过程；

对卷积核filter个数以及每一个卷积核filter窗口的大小的调整过程；

对全连接层作dropout处理，取参数[0,1]。

上述方案可实现对于初步模型的参数调整，以得到准确性高的分类器模型。

进一步，S4还包括：

在定义交叉熵函数loss时，还对分类器模型作L2惩罚，惩罚项参数根据验证集的准确率作调整。

上述方案可以防止模型过拟合。

进一步，S2中，还包括挑选标注的文献构建测试集的步骤；方法还包括：

S5：利用测试集对S4调整参数后的分类器模型进行测试的步骤。

基于测试集对已训练的分类器模型进行测试，可以判断出模型的准确度、特异度、灵密度等，进而便于为进一步优化模型提供数据支撑。

进一步，上述过程中，对文献的分类结果包括：

a类：临床随机对照试验；

b类：随机不明的临床对照试验；

c类：信息不足无法判断；

d类：非随机对照临床研究；。

e类：其他；

或者，进一步将上述文献作二分类，即a、b、c类归为f类：考虑RCT类，d、e类归为g类：非RCT类。

本方案中对于文献的分类遵循循证医学的分类需求，对于本方案中的分类结果，可使得分类器的判断结果可直接应用到循证医学的文献库构建当中，进而提高本发明的应用价值。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明所构建出的分类器模型，可大幅缩短中文文献在循证医学领域的分类时间，同时克服人工分类主观因素的影响，是分类结果更加准确和客观，具备快速、准确、客观、全自动、准确性高、自动学习的特点。

2、本发明的训练方法计算量较小，网络复杂度较低，可实现对文本局部特征的自学习，自动化程度高，训练的效率、灵敏度和准确性好，可有效防止模型过拟合。

3、本发明的实现对中文RCT文献的向量化处理，在便于机器处理的同时，可有效滤除白噪声的影响，进而提高文献表达的准确性，保证训练结果的准确率。

4、本发明对于中文RCT文献的分类结果，可直接应用到循证医学(的文献库构建)当中，实现领域中的高效衔接，可以防止中转处理对判断结果的影响。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是分类器构建过程流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

如图1

基于机器学习的中文RCT智能分类器的构建方法，包括以下步骤：

S1：对海量文献进行标注分类的步骤。

根据关键词，从文献数据库(如中国知网、万方等文献数据库)中检索出待标注文献，并以endnote export格式将文献题录(含标题、摘要)导出作为标注和学习依据，文献作者、发表日期、刊号信息等作为文献回溯依据。将文献题录分别导入到两个主体进行标注，以对文献进行分类。具体而言，包括以下步骤：

将每一篇文献(的名称和摘要)导入到两个主体-第一主体和第二主体-以分别进行标注；

若二次标注的结果一致，则完成文献的标注分类，否则，将文献发送给第三主体进行标注，并以第三主体的标注结果作为对文献的分类结果。通常，以任务派发的形式将每一篇文献的标注任务派发给两个主体。

对于文献的分类结果，在一个实施方式中，分为五类，分别为：

①a类：临床随机对照试验。包括从标题及摘要可获得足够信息以判断为随机对照临床试验的文献。以临床住院号、床位号、出生日期等数字的奇偶性作为分类依据的半随机对照临床试验也纳入此类。

②b类：随机不明的临床对照试验。收录题录从标题及摘要只能明确判断该文献属于临床对照试验，但具体分组依据是否为随机分组并不明确。

③c类：信息不足无法判断。从标题及摘要根本无法判断是否为临床对照试验也无法判断是否为其他类型的文献将被划分为此类。

④d类：非随机对照临床研究。包括可以被明确判断为队列研究、病例-对照研究、横断面研究、病例系列或病例报告等临床非随机对照设计的床研究。

⑤e类：其他。上述四类分类之外的所有文献将被归为其他，包括综述、动物实验或体外实验等文献。

或者，进一步将上述文献作二分类，即a、b、c类归为⑥f类：考虑RCT类，d、e类归为⑦g类：非RCT类。

S2：挑选出标注的文献构建训练集、验证集的步骤。通常还同时构建测试集。

依据常规的分集方式，以随机的方式从标注的文献集中，随机挑选出文献构建训练集、验证集和测试集，训练集、验证集和测试集的文献占比依次为70％、20％、10％。

S3：对训练集采用神经网络进行深度学习以构建分类器模型的步骤。分类器模型构建完成后，输入一篇文献，即可判断出该文献属于上述分类的哪一类(2类或5类)。

此步骤针对每一篇文献，包括以下过程：

对一个batch中一篇文献进行分词处理，将一篇文献处理为含n个分词的词序列；

根据预构建的词向量表(该词表设置有每一个分词和对应的id和d维词向量(也称为embeddiing)，每一个分词对应的d维向量在初始化时为随机生成的，例如分词“医院”对应的词向量为“[0.0013,0.041,0.414…]”，其在模型训练过程中，会发生调整)，将词序列转换为对应的n*d维的词向量矩阵；

对词向量矩阵进行卷积和池化的过程：利用若干窗口大小不一的卷积核filter过滤器对词向量矩阵进行卷积操作；假设过滤器的滑动窗口大小为w(每一个过滤器的w不同)，每一个filter对词向量矩阵进行卷积后得到长度为n-w+1的一维向量；将所有filter得到的向量做max-pooling(即对于卷积后的一维向量取该向量最大的一个值)后，拼接为一维向量；

配置全连接层：全连接一层长度为设置的分类种类数量(如2或5)的神经网络，对该层做softmax操作以对应所有的类别。训练时标准数据位置对应1表示是该类别，其余位置为0，测试时取softmax操作后最大值对应位置i作为预测类别。

定义交叉熵函数(或叫损失函数)loss：H(p，q)＝-∑_xp(x)logq(x)，p(x)是真实的分类，q(x)是分类器模型输出的分类；采用Adam优化器，反向传播更新神经网络参数(例如卷积核filter的权重等)与词向量表。在训练迭代到一定次数，损失熵函数loss在训练集相对稳定并不再下降，验证集上损失熵函数loss开始由下降状态升高时，停止模型训练，保存此时神经网络参数与词向量表。

S4：基于验证集对分类器模型进行参数调整的步骤。

设置初始的学习率k，通过交叉熵函数loss基于该初始学习率的收敛情况，对学习率进行调整。例如初始设置学习率为0.01，若交叉熵函数loss很快收敛且不再下降，则设置更小学习率；

对于batch_size的大小，取2的整数次方，调整过程为：分别取16、32、64、128，针对每一个取值，观察模型在验证集上准确率的高低，取准确率最高模型所对应的batch_size；

对于卷集核filter个数以及每一个卷积核filter窗口的大小w，调整方式为:取3-5个卷积核filter，每一个卷积核filter窗口的大小w取2-5，分别针对每一次对卷集核filter数量及每一个卷集核filter窗口大小的取值，观察模型在验证集上的准确率，取准确率最高模型所对应的卷集核filter个数及每一个卷集核filter的窗口的大小；

对全连接层作dropout处理，取参数[0,1]。

进一步的，为防止分类器模型过拟合，在定义损失函数(交叉熵函数loss)时，还对分类器模型作L2惩罚，惩罚项参数根据验证集的准确率作调整。

在保存了模型参数后即完成了模型的构建，通常，还要对构建的模型进行测试。即方法还包括S5：利用测试集对S4调整参数后的分类器模型进行测试的步骤。

对上述训练好的分类器模型，设置全连接层dropout处理参数为1。则此时通过分类器模型所得到的文献分类即为预测的分类结果。例如将文献m载入到训练后的模型，输出为a(或f)，则对文献m的预测分类为a类(或f类)。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于机器学习的中文RCT智能分类器的构建方法，其特征在于，包括以下步骤：

S1：对海量文献进行标注分类的步骤；

S2：挑选出标注的文献构建训练集、验证集的步骤；

S4：基于验证集对分类器模型进行参数调整的步骤。

2.如权利要求1所述的智能分类器的构建方法，其特征在于，所述S1具体为：

3.如权利要求1所述的智能分类器的构建方法，其特征在于，所述步骤S3中，选用的神经网络为卷积神经网络。

4.如权利要求3所述的智能分类器的构建方法，其特征在于，所述S3针对每一篇文献，包括以下步骤：

S3-3：对词向量矩阵进行卷积和池化的过程；

S3-4：配置全连接层；

5.如权利要求1所述的智能分类器的构建方法，其特征在于，所述S4包括以下步骤：

对batch_size大小的调整过程；

对全连接层作dropout处理，取参数[0,1]。

6.如权利要求5所述的智能分类器的构建方法，其特征在于，所述S4还包括：

7.如权利要求1所述的智能分类器的构建方法，其特征在于，在所述S2中，还包括挑选标注的文献构建测试集的步骤；方法还包括：

8.如权利要求1-7任一所述的智能分类器的构建方法，其特征在于，对文献的分类结果包括：

a类：临床随机对照试验；

b类：随机不明的临床对照试验；

c类：信息不足无法判断；

d类：非随机对照临床研究；

e类：其他；