CN105224807B

CN105224807B - 病例审核规则提取方法及装置，病例审核方法及***

Info

Publication number: CN105224807B
Application number: CN201510663065.9A
Authority: CN
Inventors: 赵大哲; 栗伟; 周庆华; 陈锡民; 王军搏; 孟勤; 柳玉辉
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2018-09-14
Anticipated expiration: 2035-10-14
Also published as: CN105224807A

Abstract

本发明公开了一种用于单病种的病例审核规则的提取方法及装置，以及用于单病种的病例审核方法及***。该提取方法包括：对训练病例集合中的每个病例进行分词处理，得到多个分词，训练病例集合包括属于预设的单病种的多个病例；构建多个分词的词共现图，每个分词作为词共现图的一个顶点，且两个顶点之间的边线的权重为两个顶点所对应的分词在训练病例集合中的共现次数；根据词共现图，从多个分词中获取关键词；根据所获取到的关键词，形成关键词集合；从关键词集合中提取针对单病种的病例审核规则，病例审核规则为由关键词集合中的若干关键词形成的有序关键词序列。由此，可提取出用于单病种的病例审核规则，以实现对单病种的病例的自动审核。

Description

病例审核规则提取方法及装置，病例审核方法及***

技术领域

本发明涉及医疗领域，具体地，涉及一种病例审核规则提取方法及装置，病例审核方法及***。

背景技术

随着社会保险覆盖面的扩大、保障水平的提高、服务便利性的提升，在利益驱动下，一些地方开始出现不法分子违规操作套取社保基金。这种现象在医疗保险领域尤为突出。

单病种是指没有并发症、单一的疾病。单病种付费指的是患者确诊入院，按规定的临床路径接受相应治疗，最终达到临床疗效标准出院，整个过程中所发生的化验检查、手术、住院、医用耗材等各项费用。由医保部门根据平均情况确定某一个病种的费用总额，然后按照这个价格将医保报销的钱交给医院。费用如果有节余，纳入医院收入；如果超标，医院补齐，与住院个人再无关系。这种方式将控制医院的过度服务，同时遏制病人看病贵现象。

由于其特殊的支付方式，在单病种的保险基金支付过程中存在欺诈违法行为，危害医保基金的安全。目前对于单病种的审核方式大多采用人工审核，并且审核的对象主要是结构化的病例数据，如判断识别码与病种标准是否相同等。采用人工审核的方式，繁琐麻烦，耗时耗力，并且审核效率低。此外，由于结构化的病例数据易被篡改，因此，无法保证医保基金的安全。

发明内容

本发明的目的是提供一种用于单病种的病例审核规则的提取方法及装置，以及用于单病种的病例审核方法及***，以实现对单病种的病例的自动审核。

为了实现上述目的，根据本发明的第一方面，提供了一种用于单病种的病例审核规则的提取方法，所述方法包括：对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，所述训练病例集合包括属于预设的单病种的多个病例；构建所述多个分词的词共现图，其中，每个分词作为所述词共现图的一个顶点，并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述训练病例集合中的共现次数；根据所述词共现图，从所述多个分词中获取关键词；根据所获取到的关键词，形成关键词集合；从所述关键词集合中提取针对所述单病种的病例审核规则，其中，所述病例审核规则为由所述关键词集合中的若干关键词形成的有序关键词序列。

在本发明的第一方面的一些可能的实施方式中，所述根据所述词共现图，从所述多个分词中获取关键词包括：根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者；根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数，分别确定所述每个分词的重要性；以及按照重要性从高到低的顺序，获取预定数量的分词作为关键词。

在本发明的第一方面的一些可能的实施方式中，所述根据所述词共现图，从所述多个分词中获取关键词还包括：在根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前，确定所述多个分词中的任意两个分词之间的第一相似性；在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下，更新所述词共现图。

在本发明的第一方面的一些可能的实施方式中，所述第一相似性为所述任意两个分词的向量之间的欧式距离；所述预设的相似性条件包括：所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值；以及所述对训练病例集合中的每个病例进行分词处理，得到多个分词包括：对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

在本发明的第一方面的一些可能的实施方式中，所述更新所述词共现图包括：判断所述词共现图中，所述任意两个分词所对应的顶点之间是否存在边线；在所述任意两个分词所对应的顶点之间存在边线的情况下，增加所述任意两个分词所对应的顶点之间的边线的权重；在所述任意两个分词所对应的顶点之间不存在边线的情况下，在所述任意两个分词所对应的顶点之间增加一边线。

在本发明的第一方面的一些可能的实施方式中，所述确定每个分词的网络最短距离变化参数包括：利用第一网络平均最短距离计算函数，确定第一网络平均最短距离，其中，所述第一网络平均最短距离为所述词共现图的网络平均最短距离；利用第二网络平均最短距离计算函数，确定每个分词的第二网络平均最短距离，其中，所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离；根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差，确定所述每个分词的网络最短距离变化参数；所述确定每个分词的网络聚集系数变化参数包括：利用第一网络平均聚集系数计算函数，确定第一网络平均聚集系数，其中，所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数；利用第二网络平均聚集系数计算函数，确定每个分词的第二网络平均聚集系数，其中，所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数；根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差，确定所述每个分词的网络聚集系数变化参数；所述确定每个分词的中间性参数包括：针对每个分词，根据所述词共现图中，除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量，所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量，以及中间性计算函数，确定该分词的中间性参数。

在本发明的第一方面的一些可能的实施方式中，所述第一网络平均最短距离计算函数包括：

其中，L表示所述第一网络平均最短距离；d_ij表示顶点i与顶点j之间的最短路径上的边线的权重和；V表示所述词共现图中的顶点集合；N表示所述词共现图中的顶点总数；

所述第二网络平均最短距离计算函数包括：

其中，k表示所述多个分词中的一个分词所对应的顶点；L_k表示顶点k所对应的分词的第二网络平均最短距离；

所述第一网络平均聚集系数计算函数包括：

其中，C表示所述第一网络平均聚集系数；C_i表示顶点i的聚集系数，并且，其中，E_i表示与顶点i相邻的顶点之间的实际边线的条数；V_i表示与顶点i相邻的顶点的总数；

所述第二网络平均聚集系数计算函数包括：

其中，C_k表示顶点k所对应的分词的第二网络平均聚集系数；

所述中间性计算函数包括：

其中，C_b表示顶点k所对应的分词的中间性参数；n_ij表示顶点i与顶点j之间的最短路径的数量；n_ij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。

在本发明的第一方面的一些可能的实施方式中，所述根据所获取到的关键词，形成关键词集合包括：从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词；将所获取到的关键词、以及每个关键词的同义词形成为所述关键词集合。

在本发明的第一方面的一些可能的实施方式中，所述从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词包括：根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性，其中，m为大于零的自然数，并且m的初始值为1；根据第二相似性计算函数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性，其中，所述第二相似性计算函数不同于所述第一相似性计算函数；根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标；从所述多个分词中除所获取到的关键词之外的分词中，获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，作为所述第m个关键词的同义词；判断m是否等于M，其中，M为所获取到的关键词的总数；在m不等于M的情况下，将m加1并返回所述根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性的步骤。

在本发明的第一方面的一些可能的实施方式中，所述第一相似性为两个词的向量之间的欧式距离；所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比；以及所述对训练病例集合中的每个病例进行分词处理，得到多个分词包括：对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

在本发明的第一方面的一些可能的实施方式中，所述从所述关键词集合中提取针对所述单病种的病例审核规则包括：确定所述关键词集合中的每个关键词在所述训练病例集合中的覆盖率；根据所述每个关键词在所述训练病例集合中的覆盖率，以及所述每个关键词针对所述单病种的特异性，从所述关键词集合中筛选出若干候选关键词，形成候选关键词集合；分别以每个候选关键词所对应的顶点作为起点，遍历所述词共现图，判断是否存在覆盖所述候选关键词集合的路径；在存在覆盖所述候选关键词集合的路径的情况下，将该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则；确定每个候选病例审核规则在所述训练病例集合中的覆盖率；将在所述训练病例集合中的覆盖率最高的候选病例审核规则确定为是所述针对所述单病种的病例审核规则。

根据本发明的第二方面，提供了一种用于单病种的病例审核方法，所述方法包括：根据本发明提供的所述用于单病种的病例审核规则的提取方法，提取针对预设的单病种的病例审核规则；确定目标病例对所述病例审核规则的覆盖程度；基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果。

在本发明的第二方面的一些可能的实施方式中，所述审核结果包括严格满足、部分满足和严格不满足；以及所述基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果包括：在所述目标病例对所述病例审核规则的覆盖程度大于或等于预设的第一覆盖程度阈值的情况下，确定所述审核结果为严格满足；在所述目标病例对所述病例审核规则的覆盖程度小于所述第一覆盖程度阈值、且大于或等于预设的第二覆盖程度阈值的情况下，确定所述审核结果为部分满足；在所述目标病例对所述病例审核规则的覆盖程度小于所述第二覆盖程度阈值的情况下，确定所述审核结果为严格不满足，其中，所述第一覆盖程度阈值大于所述第二覆盖程度阈值。

根据本发明的第三方面，提供了一种用于单病种的病例审核规则的提取装置，所述装置包括：分词处理模块，用于对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，所述训练病例集合包括属于预设的单病种的多个病例；词共现图构建模块，用于构建所述多个分词的词共现图，其中，每个分词作为所述词共现图的一个顶点，并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述训练病例集合中的共现次数；关键词获取模块，用于根据所述词共现图，从所述多个分词中获取关键词；关键词集合形成模块，用于根据所获取到的关键词，形成关键词集合；规则提取模块，用于从所述关键词集合中提取针对所述单病种的病例审核规则，其中，所述病例审核规则为由所述关键词集合中的若干关键词形成的有序关键词序列。

在本发明的第三方面的一些可能的实施方式中，所述关键词获取模块包括：网络最短距离变化参数确定子模块、网络聚集系数变化参数确定子模块以及中间性参数确定子模块中的至少一者，其中，所述网络最短距离变化参数确定子模块用于根据所述词共现图，确定每个分词的网络最短距离变化参数，所述网络聚集系数变化参数确定子模块用于根据所述词共现图，确定每个分词的网络聚集系数变化参数，所述中间性参数确定子模块用于根据所述词共现图，确定每个分词的中间性参数；重要性确定子模块，用于根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数，分别确定所述每个分词的重要性；以及关键词获取子模块，用于按照重要性从高到低的顺序，获取预定数量的分词作为关键词。

在本发明的第三方面的一些可能的实施方式中，所述关键词获取模块还包括：第一相似性确定子模块，用于在根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前，确定所述多个分词中的任意两个分词之间的第一相似性；更新子模块，用于在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下，更新所述词共现图。

在本发明的第三方面的一些可能的实施方式中，所述第一相似性为所述任意两个分词的向量之间的欧式距离；所述预设的相似性条件包括：所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值；以及所述分词处理模块，用于对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

在本发明的第三方面的一些可能的实施方式中，所述更新子模块包括：第一判断单元，用于判断所述词共现图中，所述任意两个分词所对应的顶点之间是否存在边线；权重增加单元，用于在所述任意两个分词所对应的顶点之间存在边线的情况下，增加所述任意两个分词所对应的顶点之间的边线的权重；边线增加单元，用于在所述任意两个分词所对应的顶点之间不存在边线的情况下，在所述任意两个分词所对应的顶点之间增加一边线。

在本发明的第三方面的一些可能的实施方式中，所述网络最短距离变化参数确定子模块包括：第一网络平均最短距离确定单元，用于利用第一网络平均最短距离计算函数，确定第一网络平均最短距离，其中，所述第一网络平均最短距离为所述词共现图的网络平均最短距离；第二网络平均最短距离确定单元，用于利用第二网络平均最短距离计算函数，确定每个分词的第二网络平均最短距离，其中，所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离；网络最短距离变化参数确定单元，用于根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差，确定所述每个分词的网络最短距离变化参数；所述网络聚集系数变化参数确定子模块包括：第一网络平均聚集系数确定单元，用于利用第一网络平均聚集系数计算函数，确定第一网络平均聚集系数，其中，所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数；第二网络平均聚集系数确定单元，用于利用第二网络平均聚集系数计算函数，确定每个分词的第二网络平均聚集系数，其中，所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数；网络聚集系数变化参数确定单元，用于根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差，确定所述每个分词的网络聚集系数变化参数；所述中间性参数确定子模块包括：中间性参数确定单元，用于针对每个分词，根据所述词共现图中，除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量，所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量，以及中间性计算函数，确定该分词的中间性参数。

在本发明的第三方面的一些可能的实施方式中，所述第一网络平均最短距离计算函数包括：

所述第二网络平均最短距离计算函数包括：

所述第一网络平均聚集系数计算函数包括：

所述第二网络平均聚集系数计算函数包括：

其中，C_k表示顶点k所对应的分词的第二网络平均聚集系数；

所述中间性计算函数包括：

在本发明的第三方面的一些可能的实施方式中，所述关键词集合形成模块包括：同义词获取子模块，用于从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词；关键词集合形成子模块，用于将所获取到的关键词、以及每个关键词的同义词形成为所述关键词集合。

在本发明的第三方面的一些可能的实施方式中，所述同义词获取子模块包括：第一相似性确定单元，用于根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性，其中，m为大于零的自然数，并且m的初始值为1；第二相似性确定单元，用于确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性，其中，所述第二相似性计算函数不同于所述第一相似性计算函数；同义词指标确定单元，用于根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标；同义词获取单元，用于从所述多个分词中除所获取到的关键词之外的分词中，获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，作为所述第m个关键词的同义词；第二判断单元，用于判断m是否等于M，其中，M为所获取到的关键词的总数；返回单元，用于在m不等于M的情况下，将m加1并重新运行所述第一相似性确定单元。

在本发明的第三方面的一些可能的实施方式中，所述第一相似性为两个词的向量之间的欧式距离；所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比；以及所述分词处理模块，用于对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

在本发明的第三方面的一些可能的实施方式中，所述规则提取模块包括：第一覆盖率确定子模块，用于确定所述关键词集合中的每个关键词在所述训练病例集合中的覆盖率；候选关键词筛选子模块，用于根据所述每个关键词在所述训练病例集合中的覆盖率，以及所述每个关键词针对所述单病种的特异性，从所述关键词集合中筛选出若干候选关键词，形成候选关键词集合；判断子模块，用于分别以每个候选关键词所对应的顶点作为起点，遍历所述词共现图，判断是否存在覆盖所述候选关键词集合的路径；候选病例审核规则获取子模块，用于在存在覆盖所述候选关键词集合的路径的情况下，将该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则；第二覆盖率确定子模块，用于确定每个候选病例审核规则在所述训练病例集合中的覆盖率；病例审核规则提取子模块，用于将在所述训练病例集合中的覆盖率最高的候选病例审核规则确定为是所述针对所述单病种的病例审核规则。

根据本发明的第四方面，提供了一种用于单病种的病例审核***，所述***包括：根据本发明提供的所述用于单病种的病例审核规则的提取装置，用于提取针对预设的单病种的病例审核规则；覆盖程度确定装置，用于确定目标病例对所述病例审核规则的覆盖程度；审核装置，用于基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果。

在本发明的第四方面的一些可能的实施方式中，所述审核结果包括严格满足、部分满足和严格不满足；以及所述审核装置包括：第一审核模块，用于在所述目标病例对所述病例审核规则的覆盖程度大于或等于预设的第一覆盖程度阈值的情况下，确定所述审核结果为严格满足；第二审核模块，用于在所述目标病例对所述病例审核规则的覆盖程度小于所述第一覆盖程度阈值、且大于或等于第二预设的覆盖程度阈值的情况下，确定所述审核结果为部分满足；第三审核模块，用于在所述目标病例对所述病例审核规则的覆盖程度小于所述第二覆盖程度阈值的情况下，确定所述审核结果为严格不满足，其中，所述第一覆盖程度阈值大于所述第二覆盖程度阈值。

通过上述技术方案，可以从已知的、属于预设的单病种的大量病例中提取出用于该单病种的病例审核规则。利用该病例审核规则，可以自动审核目标病例是否属于该单病种，无需人工处理，因此，可以大幅度提升审核效率，省时省力。此外，通过对病例进行文本处理来提取病例审核规则，可以有效利用非结构化的病例数据，例如，手术过程文本。这些非结构化的病例数据中包括了大量有价值的信息，并且不易伪造，因此，可以提高单病种的病例自动审核的准确性，从而可以有效避免医疗单病种保险欺诈，提高医保基金的安全性，保证医保基金的有效利用。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1示出了根据本发明的一种实施方式的用于单病种的病例审核规则的提取方法的流程图。

图2示出了采用基于递归神经网络的中文分词算法进行分词处理的过程的树形网络结构示意图。

图3示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。

图4示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。

图5示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。

图6示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。

图7示出了根据本发明的实施方式的如何获取关键词的同义词的方法的流程图。

图8示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。

图9示出了根据本发明的一种实施方式的用于单病种的病例审核方法的流程图。

图10示出了根据本发明的另一种实施方式的用于单病种的病例审核方法的流程图。

图11示出了根据本发明的实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图12示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图13示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图14示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图15示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图16示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图17示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。

图18示出了根据本发明的一种实施方式的用于单病种的病例审核***的结构框图。

图19示出了根据本发明的另一种实施方式的用于单病种的病例审核***的结构框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1示出了根据本发明的一种实施方式的用于单病种的病例审核规则的提取方法的流程图。如图1所示，该方法可以包括：

在步骤S101中，对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，训练病例集合可以包括属于预设的单病种的多个病例。

在本发明中，训练病例集合中包括的病例可以为非结构化的病例数据，例如，用于记录手术过程的手术过程文本。由于手术过程文本中包括大量的有价值的信息，且不易被伪造，因此，该文本能够较为真实地体现患者的病情，从而确保后面所提取出的病例审核规则更为准确、客观。

可以采用本领域技术人员公知的多种分词处理技术中的任一种来对训练病例集合中的每个病例进行分词处理，得到多个分词。例如，可以采用基于递归神经网络的中文分词算法。该算法将每个字表示为一n维向量，通过神经网络可以计算每对字可以合并为一个词的概率，在计算合并概率的同时还可以生成一个代表合并后词的n维向量，用该词替换合并前的字继续计算与其余字的合并概率，直至输入的句子全部映射到编码空间则完成分词的处理，同时还可以生成每个词的向量。该过程可以表示为树形网络结构，如图2所示。其中，在图2中，c₁、c₂、c₃…c_p分别表示一个句子中的第1个字至第p个字的向量，p为大于1的自然数。

对神经网络的训练可以采用贪婪RNN(Recurrent neural Network，递归神经网络)方法。例如，假设给定两个字的向量为c₁、c₂，为了考虑上下文关系，增加c₁、c₂前后的词或字的向量x_-1、x₊₁，将四个向量的连接(x_-1,c₁,c₂,x₊₁)作为网络的输入，采用一层的神经网络计算结合后的向量p：

p＝tanh(W[x_-1；c₁；c₂；x₊₁]+b) (1)

其中，W为权重，b为偏置，二者均为神经网络的参数。

之后，可以计算一个行向量W^score与p的内积作为衡量两个字可合并为一个词的可能性，如等式(2)。

s_1,2＝W^scorep (2)

其中，W^score为行向量，为神经网络的参数；s_1,2为c₁、c₂所表示的两个字可合并为一个词的可能性，并且，可被合并成一个词语的两个字的s_1,2较高，而不可被合并为一个词语的两个字的s_1,2较低。

对于每个句子，可以构建一个最优树。设训练数据集为句子、树对(x_i,y_i)，x_i为第i个句子，y_i为其对应的最优树，对于训练数据集中的每个句子，对应一个最优树。网络的目标函数如下：

其中，s_d(c'₁,c'₂)为在进行第d次合并时，被合并的两个字或词c'₁、c'₂可合并为一个词的可能性，s(x_i,y_i)为所有合并可能性之和，T(y_i)为树y_i中的合并过程的总合并次数。采用最速下降法，对于每个未知参数，如W，对应的梯度为

应当理解的是，基于递归神经网络的中文分词算法是本领域的技术人员公知的用于中文分词处理的算法，因此，对于该算法的具体实现过程及原理，本发明在此不进行详细描述。

采用上述示例的算法，可以完成对训练病例集合中的每个病例的分词处理，得到多个分词，并且还可以同时得到每个分词的向量。例如，每个分词的向量为一n维向量。不过应当理解的是，其他分词处理技术也可以适用于本发明。

在步骤S102中，构建多个分词的词共现图，其中，每个分词作为词共现图的一个顶点，并且两个顶点之间的边线的权重为两个顶点所对应的分词在训练病例集合中的共现次数。

在步骤S103中，根据词共现图，从多个分词中获取关键词。应当理解的是，可以采用本领域技术人员公知的多种关键词提取方法中的任一方法来从多个分词中获取关键词。

在步骤S104中，根据所获取到的关键词，形成关键词集合。在一个可选的实施方式中，该关键词集合中包括所获取到的关键词。

在步骤S105中，从关键词集合中提取针对单病种的病例审核规则，其中，该病例审核规则为由关键词集合中的若干关键词形成的有序关键词序列。

通过上述技术方案，可以从已知的、属于预设的单病种的大量病例中提取出用于该单病种的病例审核规则，以为后续对单病种的病例的自动审核提供客观、准确的审核依据。

图3示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。如图3所示，该方法可以包括：

在步骤S301中，对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，该训练病例集合包括属于预设的单病种的多个病例。

在步骤S302中，构建多个分词的词共现图，其中，每个分词作为词共现图的一个顶点，并且两个顶点之间的边线的权重为两个顶点所对应的分词在训练病例集合中的共现次数。

在步骤S303中，根据词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者。

关键词，通常为病例中出现次数较多、较为重要的分词。在词共现图中，这些重要的分词在网络中有很强的聚合性，其余分词所对应的顶点聚集在这些重要的分词所对应的顶点的周围。如果将这类顶点从网络中移除，网络的聚集系数会下降，而网络的最短距离会增加。因此，可以根据在移除某个分词之前的网络的最短距离与在移除该分词之后的网络的最短距离的变化来确定该分词的重要性。可替换地或附加地，可以根据在移除某个分词之前的网络的聚集系数与在移除该分词之后的网络的聚集系数的变化来确定该分词的重要性。可替换地或附加地，还可以根据分词的中间性来确定该分词的重要性。

为了提升确定出的关键词的准确性和代表性，在该步骤S303中，可以根据词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的全部。

下面分别描述如何确定分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数的方法。

首先，在一种实施方式中，在确定每个分词的网络最短距离变化参数时，可以利用第一网络平均最短距离计算函数，确定第一网络平均最短距离，其中，该第一网络平均最短距离为词共现图的网络平均最短距离。

在一些可能的实施方式中，第一网络平均最短距离计算函数可以例如包括：

其中，L表示第一网络平均最短距离；d_ij表示顶点i与顶点j之间的最短路径上的边线的权重和；V表示词共现图中的顶点集合；N表示词共现图中的顶点总数。

针对每个分词，第一网络平均最短距离可以相同。

接下来，利用第二网络平均最短距离计算函数，确定每个分词的第二网络平均最短距离，其中，每个分词的第二网络平均最短距离为从词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离。

在一些可能的实施方式中，第二网络平均最短距离计算函数可以例如包括：

其中，k表示多个分词中的一个分词所对应的顶点；L_k表示顶点k所对应的分词的第二网络平均最短距离。

可以逐一选取词共现图中的顶点作为k，并利用等式(5)，确定出每个顶点所对应的分词的第二网络平均最短距离。

之后，可以根据第一网络平均最短距离和每个分词的第二网络平均最短距离之间的差，确定每个分词的网络最短距离变化参数。

例如，网络最短距离变化参数ΔL可以通过以下等式(6)来确定：

ΔL＝|L_k-L| (6)

通过上述过程，就可以确定出每个分词的网络最短距离变化参数ΔL。

在另一种实施方式中，在确定每个分词的网络聚集系数变化参数时，可以利用第一网络平均聚集系数计算函数，确定第一网络平均聚集系数，其中，该第一网络平均聚集系数为词共现图的网络平均聚集系数。

在一些可能的实施方式中，第一网络平均聚集系数计算函数可以例如包括：

其中，C表示第一网络平均聚集系数；C_i表示顶点i的聚集系数，并且，其中，E_i表示与顶点i相邻的顶点之间的实际边线的条数；V_i表示与顶点i相邻的顶点的总数。

针对每个分词，第一网络平均聚集系数可以相同。

接下来，可以利用第二网络平均聚集系数计算函数，确定每个分词的第二网络平均聚集系数，其中，每个分词的第二网络平均聚集系数为从词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数。

在一些可能的实施方式中，第二网络平均聚集系数计算函数可以例如包括：

其中，C_k表示顶点k所对应的分词的第二网络平均聚集系数。

可以逐一选取词共现图中的顶点作为k，并利用等式(8)，确定出每个顶点所对应的分词的第二网络平均聚集系数。

之后，可以根据第一网络平均聚集系数和每个分词的第二网络平均聚集系数之间的差，确定每个分词的网络聚集系数变化参数。

例如，网络聚集系数变化参数ΔC可以通过以下等式(9)来确定：

ΔC＝|C_k-C| (9)

通过上述过程，就可以确定出每个分词的网络聚集系数变化参数ΔC。

在另一种实施方式中，在确定每个分词的中间性参数时，可以针对每个分词，根据词共现图中，除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量，所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量，以及中间性计算函数，确定该分词的中间性参数。其中，所述中间性参数为中介中心性。

在一些可能的实施方式中，中间性计算函数可以例如包括：

现在转回图3，在获取到每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之后，在步骤S304中，根据所确定出的每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数，分别确定每个分词的重要性。

如前所述，在步骤S303中，可以确定出每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的全部。在这种情况下，例如，分词的重要性CE可以例如通过以下等式(11)来确定：

CE＝αΔL+βΔC+γC_b (11)

其中，α、β、γ分别表示预设的网络最短距离变化参数的权重系数、预设的网络聚集系数变化参数的权重系数、以及预设的中间性参数的权重系数，并且，α+β+γ＝1。

接下来，在步骤S305中，按照重要性从高到低的顺序，获取预定数量的分词作为关键词。也就是说，通过该步骤S305，可以获取到重要性排名靠前的预定数量的分词作为关键词。

在步骤S306中，根据所获取到的关键词，形成关键词集合。

在步骤S307中，从关键词集合中提取针对单病种的病例审核规则，其中，该病例审核规则为由关键词集合中的若干关键词形成的有序关键词序列。

由此，通过根据分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数这三项参数中的至少一者来构建重要性评价指标，得出分词的重要性，并根据该重要性来从多个分词中提取出关键词，由此可以提高所提取出的关键词的准确性，确保所提取出的关键词为病例中的重要的分词，从而确保所提取出的病例审核规则能够为后续对单病种的病例的自动审核提供客观、准确的审核依据。

通常情况下，手术过程文本由人工编写。考虑到编写人员可能采用相似的词表达同一意思，因此，在本发明的一个可选实施方式中，在构建词共现图时，考虑两个词的相似性。

图4示出了根据这一实施方式的用于单病种的病例审核规则的提取方法的流程图。如图4所示，在图3所示的方法的基础上，该方法还可以包括：

在步骤S303之前，在步骤S401中，确定多个分词中的任意两个分词之间的第一相似性。

在步骤S402，在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下，更新词共现图。

在步骤S402之后，再进行步骤S303以及之后的步骤。应当理解的是，一旦在步骤S402中，词共现图被更新，则后续步骤中使用的词共现图为更新后的词共现图。

通常情况下，相似的词具有相似的词向量，因此，在一些可能的实施方式中，可以采用两个词的向量之间的欧式距离作为第一相似性，来评价两个词之间的相似程度。在这种情况下，预设的相似性条件可以包括：所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值。

例如，在所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值的情况下，表示所述任意两个分词相似，此时，更新词共现图。在所述任意两个分词的向量之间的欧式距离大于预设的距离阈值的情况下，表示所述任意两个分词不相似，此时，可以不更新词共现图。

由于采用欧式距离作为第一相似性，而在确定欧式距离时需要分词的向量，因此，在对训练病例集合中的每个病例进行分词处理，得到多个分词的步骤可以包括，对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。例如，如前所述，可以采用基于递归神经网络的中文分词处理算法，来得到多个分词和每个分词的向量。

例如，可以通过以下方式来确定两个词的向量之间的欧式距离：

其中，d表示两个词的向量之间的欧式距离；a_l表示两个词中的一个词的n维向量元素中的第l维元素；b_l表示两个词中的另一个词的n维向量元素中的第l维元素；并且，1≤l≤n，n表示分词的向量的总维数。

图5示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。如图5所示，图4中的更新词共现图的步骤(即，步骤S402)可以包括：

在步骤S501中，判断词共现图中，所述任意两个分词所对应的顶点之间是否存在边线。

在步骤S502中，在所述任意两个分词所对应的顶点之间存在边线的情况下，增加所述任意两个分词所对应的顶点之间的边线的权重。例如，在一个示例实施方式中，可以将所述任意两个分词所对应的顶点之间的边线的权重加1。

在步骤S503中，在所述任意两个分词所对应的顶点之间不存在边线的情况下，在所述任意两个分词所对应的顶点之间增加一边线。此时，增加的边线的权重初始为1。

通过根据分词之间的相似性来更新词共现图，可以使得在后续根据词共现图来获取关键词时，进一步提高所获取到的关键词的准确性、全面性。

考虑到手术过程由人工编写，由于每个人的书写及用词习惯不同，同一种词可能会有不同的写法，且存在不同形式的缩写。因此，为了避免一些与获取到的关键词同义的分词被漏选，在本发明的一些可选的实施方式，所形成的关键词集合还可以包括每个关键词的同义词。

图6示出了根据这一实施方式的用于单病种的病例审核规则的提取方法的流程图。如图6所示，该方法可以包括：

在步骤S601中，对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，该训练病例集合包括属于预设的单病种的多个病例。

在步骤S602中，构建多个分词的词共现图，其中，每个分词作为词共现图的一个顶点，并且两个顶点之间的边线的权重为两个顶点所对应的分词在训练病例集合中的共现次数。

在步骤S603中，根据词共现图，从多个分词中获取关键词。

在步骤S604中，从多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词。

确定两个词是否属于同义词的方法有很多。在本发明的一个示例实施方式中，可以通过两个词之间的相似性来确定两个词是否属于同义词。

图7示出了根据本发明的实施方式的如何获取关键词的同义词的方法的流程图。如图7所示，步骤S604可以包括：

在步骤S701中，根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与多个分词中除获取到的关键词之外的各个分词之间的第一相似性，其中，m为大于零的自然数，并且m的初始值为1。

在一些可选的实施方式中，第一相似性为两个词的向量之间的欧式距离d。欧式距离的确定方法已在上文描述，此处便不再赘述。在这种情况下，对训练病例集合中的每个病例进行分词处理，得到多个分词的步骤可以包括：对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

在步骤S702中，根据第二相似性计算函数，确定第m个关键词与多个分词中除所获取到的关键词之外的各个分词之间的第二相似性，其中，第二相似性计算函数不同于第一相似性计算函数。也就是说，通过步骤S701和步骤S702，可以利用两种不同的相似性确定方法，来确定第m个关键词与多个分词中除所获取到的关键词之外的各个分词之间的相似性。

在一些可选的实施方式中，第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比，可以如以下等式(13)所示：

其中，Score表示第二相似性；w₁和w₂分别表示两个词；len(w₁∩w₂)表示两个词之间相同词素的个数；len(w₁∪w₂)表示两个词的全部词素的个数。

在步骤S703中，根据第一相似性、第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数，确定第m个关键词与多个分词中除所获取到的关键词之外的各个分词之间的同义词指标。

在一些可选的实施方式中，可以通过以下等式(14)来确定同义词指标SIM：

SIM＝λ₁d+λ₂Score (14)

其中，λ₁、λ₂分别表示预设的第一相似性的权重系数、以及预设的第二相似性的权重系数，并且，λ₁+λ₂＝1。

在步骤S704中，从多个分词中除所获取到的关键词之外的分词中，获取与第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，作为第m个关键词的同义词。

如果在多个分词中除所获取到的关键词之外的分词中，不存在与第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，则可以跳过步骤S704，直接进行步骤S705。

在步骤S705中，判断m是否等于M，其中，M为所获取到的关键词的总数。

在步骤S706中，在m不等于M的情况下，将m加1并返回步骤S701，继续获取下一关键词的同义词。上述过程可以重复进行，直到遍历完全部关键词为止。

在m等于M的情况下，可以结束获取同义词的过程，并进行后续步骤(即，步骤S605)。

现在返回到图6，在获取每个关键词的同义词之后，在步骤S605中，将所获取到的关键词、以及每个关键词的同义词形成为关键词集合。也就是说，在该实施方式中，将每个关键词的同义词同样作为关键词，添加到关键词集合中。

在步骤S606中，从关键词集合中提取针对单病种的病例审核规则，其中，该病例审核规则为由关键词集合中的若干关键词形成的有序关键词序列。

通过在确定关键词集合时考虑每个关键词的同义词，可以确保具有不同写法但表达同一含义的词能够同时被作为关键词，避免出现一些与获取到的关键词同义的分词被漏选的情况。这样，从该关键词集合中提取出的针对单病种的病例审核规则更为准确、全面和客观。

图8示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取方法的流程图。如图8所示，该方法可以包括：

在步骤S801中，对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，该训练病例集合包括属于预设的单病种的多个病例。

在步骤S802中，构建多个分词的词共现图，其中，每个分词作为词共现图的一个顶点，并且两个顶点之间的边线的权重为两个顶点所对应的分词在训练病例集合中的共现次数。

在步骤S803中，根据词共现图，从多个分词中获取关键词。

在步骤S804中，根据所获取到的关键词，形成关键词集合。

在步骤S805中，确定关键词集合中的每个关键词在训练病例集合中的覆盖率。某个关键词在训练病例集合中的覆盖率是指训练病例集合中的包括该关键词的病例的数量占该训练病例集合中的全部病例的数量的占比。

在步骤S806中，根据每个关键词在训练病例集合中的覆盖率，以及每个关键词针对单病种的特异性，从关键词集合中筛选出若干候选关键词，形成候选关键词集合。

该步骤S806的实施可以采用半自动化的方式进行。例如，可以首先利用计算机，从关键词集合中，初筛出覆盖率大于或等于预设的覆盖率阈值的关键词。之后，可以由人工对初筛出的关键词针对单病种的特异性进行判断，以从初筛出的关键词中再次筛选出能够代表该单病种的关键词，作为候选关键词，并形成候选关键词集合。其中，某个关键词针对单病种的特异性是指该关键词与该单病种之间的关联性，能够反映出该关键词针对该单病种的代表性。

在步骤S807中，分别以每个候选关键词所对应的顶点作为起点，遍历词共现图，判断是否存在覆盖候选关键词集合的路径。

在步骤S808中，在存在覆盖候选关键词集合的路径的情况下，将该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则。

例如，假设关键词集合表示为A＝{W₁,W₂,...,W_n}，分别从W₁,W₂,...,W_n作为起点开始遍历词共现图，如果存在覆盖集合A的路径，则选取该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则。例如，一条候选病例审核规则可以为G₁＝{W₁,W₂,...,W_n}，另一条候选病例审核规则可以为G₂＝{W₂,W₃,...,W_n,W₁}，等等。

在步骤S809中，确定每个候选病例审核规则在训练病例集合中的覆盖率。某个候选病例审核规则在训练病例集合中的覆盖率是指训练病例集合中、按照该候选病例审核规则中的各关键词的顺序包括该候选病例审核规则中的全部关键词的病例的数量占该训练病例集合中的全部病例的数量的占比。

在步骤S810中，将在训练病例集合中的覆盖率最高的候选病例审核规则确定为是针对单病种的病例审核规则。

步骤S808至步骤S810的作用在于确定关键词集合A中各关键词之间的唯一顺序，并将遵循该顺序的有序关键词序列作为针对单病种的病例审核规则。由此，可以为后续对单病种的病例的自动审核提供客观、准确的审核依据。

图9示出了根据本发明的一种实施方式的用于单病种的病例审核方法的流程图。如图9所示，该方法可以包括：

在步骤S901中，根据本发明提供的用于单病种的病例审核规则的提取方法，提取针对预设的单病种的病例审核规则。

在步骤S902中，确定目标病例对病例审核规则的覆盖程度。其中，所述覆盖程度可以为目标病例对病例审核规则中的关键词的覆盖程度。例如，假设目标病例中涵盖病例审核规则中的全部关键词，则覆盖程度可以为100％；假设目标病例中涵盖病例审核规则中的一半关键词，则覆盖程度可以为50％，以此类推。

在步骤S903中，基于目标病例对病例审核规则的覆盖程度，对目标病例进行审核，得出审核结果。其中，审核结果可以表明该目标病例是否属于该单病种。

由此，利用病例审核规则，可以自动审核目标病例是否属于该单病种，无需人工处理，因此，可以大幅度提升审核效率，省时省力。此外，通过对病例进行文本处理来提取病例审核规则，可以有效利用非结构化的病例数据，例如，手术过程文本。这些非结构化的病例数据中包括了大量有价值的信息，并且不易伪造，因此，可以提高单病种的病例自动审核的准确性，从而可以有效避免医疗单病种保险欺诈，提高医保基金的安全性，保证医保基金的有效利用。

在一些可选的实施方式中，审核结果可以包括严格满足、部分满足和严格不满足。在这种情况下，如图10所示，基于目标病例对病例审核规则的覆盖程度，对目标病例进行审核，得出审核结果的步骤(即，步骤S903)可以包括：

在步骤S1001中，在目标病例对病例审核规则的覆盖程度大于或等于预设的第一覆盖程度阈值的情况下，确定审核结果为严格满足。

在步骤S1002中，在目标病例对病例审核规则的覆盖程度小于第一覆盖程度阈值、且大于或等于预设的第二覆盖程度阈值的情况下，确定审核结果为部分满足。

在步骤S1003中，在目标病例对病例审核规则的覆盖程度小于第二覆盖程度阈值的情况下，确定审核结果为严格不满足，其中，第一覆盖程度阈值大于第二覆盖程度阈值。

在审核结果为严格满足的情况下，可以自动地确定出该目标病例属于该预设的单病种。在审核结果为严格不满足的情况下，可以自动地确定出该目标病例不属于该预设的单病种。在审核结果为部分满足的情况下，可以通过人工来最终决定该目标病例是否属于该预设的单病种。

表1示出了利用本发明提供的病例审核方法，对两组目标病例进行审核的结果。其中，两组目标病例中的一组目标病例作为针对单病种——急性心肌梗死(病种编号为10038)的测试数据集，另一组目标病例作为针对单病种——冠状动脉球囊扩张及支架置入(病种编号为10439)的测试数据集。

表1

通过表1可以看出，利用本发明提供的用于单病种的病例审核规则的提取方法，提取出的针对急性心肌梗死这一单病种的病例审核规则为{冠状动脉造影；狭窄70％；球囊扩张；释放支架；残余狭窄；TIMI3级}，利用该规则对1371个目标病例进行审核，其中有1080个目标病例属于该单病种，覆盖率为78.77％。

另外，利用本发明提供的用于单病种的病例审核规则的提取方法，提取出的针对冠状动脉球囊扩张及支架置入这一单病种的病例审核规则为{冠状动脉造影；狭窄70％；球囊扩张；释放支架；残余狭窄}，利用该规则对1787个目标病例进行审核，其中有1576个目标病例属于该单病种，覆盖率为88.63％。

图11示出了根据本发明的实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图11所示，该装置可以包括：分词处理模块1101，用于对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，所述训练病例集合包括属于预设的单病种的多个病例；词共现图构建模块1102，用于构建所述多个分词的词共现图，其中，每个分词作为所述词共现图的一个顶点，并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述训练病例集合中的共现次数；关键词获取模块1103，用于根据所述词共现图，从所述多个分词中获取关键词；关键词集合形成模块1104，用于根据所获取到的关键词，形成关键词集合；规则提取模块1105，用于从所述关键词集合中提取针对所述单病种的病例审核规则，其中，所述病例审核规则为由所述关键词集合中的若干关键词形成的有序关键词序列。

图12示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图12所示，关键词获取模块1103可以包括：网络最短距离变化参数确定子模块1201、网络聚集系数变化参数确定子模块1202以及中间性参数确定子模块1203中的至少一者(图12中示出了关键词获取模块1103包括网络最短距离变化参数确定子模块1201、网络聚集系数变化参数确定子模块1202以及中间性参数确定子模块1203中的全部。不过在其他实施方式中，关键词获取模块1103可以包括网络最短距离变化参数确定子模块1201、网络聚集系数变化参数确定子模块1202以及中间性参数确定子模块1203中的一者或两者)，其中，所述网络最短距离变化参数确定子模块1201用于根据所述词共现图，确定每个分词的网络最短距离变化参数，所述网络聚集系数变化参数确定子模块1202用于根据所述词共现图，确定每个分词的网络聚集系数变化参数，所述中间性参数确定子模块1203用于根据所述词共现图，确定每个分词的中间性参数；重要性确定子模块1204，用于根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数，分别确定所述每个分词的重要性；以及关键词获取子模块1205，用于按照重要性从高到低的顺序，获取预定数量的分词作为关键词。

在一些可选的实施方式中，所述网络最短距离变化参数确定子模块1201可以包括：第一网络平均最短距离确定单元，用于利用第一网络平均最短距离计算函数，确定第一网络平均最短距离，其中，所述第一网络平均最短距离为所述词共现图的网络平均最短距离；第二网络平均最短距离确定单元，用于利用第二网络平均最短距离计算函数，确定每个分词的第二网络平均最短距离，其中，所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离；网络最短距离变化参数确定单元，用于根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差，确定所述每个分词的网络最短距离变化参数。

在一些可选的实施方式中，所述网络聚集系数变化参数确定子模块1202可以包括：第一网络平均聚集系数确定单元，用于利用第一网络平均聚集系数计算函数，确定第一网络平均聚集系数，其中，所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数；第二网络平均聚集系数确定单元，用于利用第二网络平均聚集系数计算函数，确定每个分词的第二网络平均聚集系数，其中，所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数；网络聚集系数变化参数确定单元，用于根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差，确定所述每个分词的网络聚集系数变化参数。

在一些可选的实施方式中，所述中间性参数确定子模块1203可以包括：中间性参数确定单元，用于针对每个分词，根据所述词共现图中，除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量，所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量，以及中间性计算函数，确定该分词的中间性参数。

图13示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图13所示，在图12所示的装置的基础上，关键词获取模块1103还可以包括：第一相似性确定子模块1301，用于在根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前，确定所述多个分词中的任意两个分词之间的第一相似性；更新子模块1302，用于在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下，更新所述词共现图。

在一些可选的实施方式中，所述第一相似性为所述任意两个分词的向量之间的欧式距离；所述预设的相似性条件包括：所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值。在这种情况下，所述分词处理模块1101，可以用于对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

图14示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图14所示，更新子模块1302可以包括：第一判断单元1401，用于判断所述词共现图中，所述任意两个分词所对应的顶点之间是否存在边线；权重增加单元1402，用于在所述任意两个分词所对应的顶点之间存在边线的情况下，增加所述任意两个分词所对应的顶点之间的边线的权重；边线增加单元1403，用于在所述任意两个分词所对应的顶点之间不存在边线的情况下，在所述任意两个分词所对应的顶点之间增加一边线。

图15示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图15所示，关键词集合形成模块1104可以包括：同义词获取子模块1501，用于从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词；关键词集合形成子模块1502，用于将所获取到的关键词、以及每个关键词的同义词形成为所述关键词集合。

图16示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图16所示，所述同义词获取子模块1501可以包括：第一相似性确定单元1601，用于根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性，其中，m为大于零的自然数，并且m的初始值为1；第二相似性确定单元1602，用于确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性，其中，所述第二相似性计算函数不同于所述第一相似性计算函数；同义词指标确定单元1603，用于根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标；同义词获取单元1604，用于从所述多个分词中除所获取到的关键词之外的分词中，获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，作为所述第m个关键词的同义词；第二判断单元1605，用于判断m是否等于M，其中，M为所获取到的关键词的总数；返回单元1606，用于在m不等于M的情况下，将m加1并重新运行所述第一相似性确定单元1601。

在一些可能的实施方式中，第一相似性为两个词的向量之间的欧式距离，第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比。在这种情况下，所述分词处理模块1101，可以用于对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

图17示出了根据本发明的另一实施方式的用于单病种的病例审核规则的提取装置的结构框图。如图17所示，所述规则提取模块1105可以包括：第一覆盖率确定子模块1701，用于确定所述关键词集合中的每个关键词在所述训练病例集合中的覆盖率；候选关键词筛选子模块1702，用于根据所述每个关键词在所述训练病例集合中的覆盖率，以及所述每个关键词针对所述单病种的特异性，从所述关键词集合中筛选出若干候选关键词，形成候选关键词集合；判断子模块1703，用于分别以每个候选关键词所对应的顶点作为起点，遍历所述词共现图，判断是否存在覆盖所述候选关键词集合的路径；候选病例审核规则获取子模块1704，用于在存在覆盖所述候选关键词集合的路径的情况下，将该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则；第二覆盖率确定子模块1705，用于确定每个候选病例审核规则在所述训练病例集合中的覆盖率；病例审核规则提取子模块1706，用于将在所述训练病例集合中的覆盖率最高的候选病例审核规则确定为是所述针对所述单病种的病例审核规则。

本发明的用于单病种的病例审核规则的提取装置对应于用于单病种的病例审核规则的提取方法，因此相同的内容不再赘述。

图18示出了根据本发明的一种实施方式的用于单病种的病例审核***的结构框图。如图18所示，该***可以包括：根据本发明提供的用于单病种的病例审核规则的提取装置1801，用于提取针对预设的单病种的病例审核规则；覆盖程度确定装置1802，用于确定目标病例对所述病例审核规则的覆盖程度；审核装置1803，用于基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果。

图19示出了根据本发明的另一种实施方式的用于单病种的病例审核***的结构框图。在图19所示的实施方式中，审核结果可以包括严格满足、部分满足和严格不满足。以及，审核装置1803可以包括：第一审核模块1901，用于在所述目标病例对所述病例审核规则的覆盖程度大于或等于预设的第一覆盖程度阈值的情况下，确定所述审核结果为严格满足；第二审核模块1902，用于在所述目标病例对所述病例审核规则的覆盖程度小于所述第一覆盖程度阈值、且大于或等于预设的第二覆盖程度阈值的情况下，确定所述审核结果为部分满足；第三审核模块1903，用于在所述目标病例对所述病例审核规则的覆盖程度小于所述第二覆盖程度阈值的情况下，确定所述审核结果为严格不满足，其中，所述第一覆盖程度阈值大于所述第二覆盖程度阈值。

本发明的用于单病种的病例审核***对应于用于单病种的病例审核方法，因此相同的内容不再赘述。

综上所述，通过本发明提供的用于单病种的病例审核规则的提取方法及装置，以及用于单病种的病例审核方法及***，可以从已知的、属于预设的单病种的大量病例中提取出用于该单病种的病例审核规则。利用该病例审核规则，可以自动审核目标病例是否属于该单病种，无需人工处理，因此，可以大幅度提升审核效率，省时省力。此外，通过对病例进行文本处理来提取病例审核规则，可以有效利用非结构化的病例数据，例如，手术过程文本。这些非结构化的病例数据中包括了大量有价值的信息，并且不易伪造，因此，可以提高单病种的病例自动审核的准确性，从而可以有效避免医疗单病种保险欺诈，提高医保基金的安全性，保证医保基金的有效利用。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本发明的实施方式可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种用于单病种的病例审核规则的提取方法，其特征在于，所述方法包括：

对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，所述训练病例集合包括属于预设的单病种的多个病例；

构建所述多个分词的词共现图，其中，每个分词作为所述词共现图的一个顶点，并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述训练病例集合中的共现次数；

根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者，所述中间性参数为中介中心性；

根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数，分别确定所述每个分词的重要性；

按照重要性从高到低的顺序，获取预定数量的分词作为关键词；

根据所获取到的关键词，形成关键词集合；

从所述关键词集合中提取针对所述单病种的病例审核规则，其中，所述病例审核规则为由所述关键词集合中的若干关键词形成的有序关键词序列。

2.根据权利要求1所述的方法，其特征在于，所述根据所述词共现图，从所述多个分词中获取关键词还包括：

在根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前，确定所述多个分词中的任意两个分词之间的第一相似性；

在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下，更新所述词共现图。

3.根据权利要求2所述的方法，其特征在于，所述第一相似性为所述任意两个分词的向量之间的欧式距离；

所述预设的相似性条件包括：所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值；以及

所述对训练病例集合中的每个病例进行分词处理，得到多个分词包括：

对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

4.根据权利要求2所述的方法，其特征在于，所述更新所述词共现图包括：

判断所述词共现图中，所述任意两个分词所对应的顶点之间是否存在边线；

在所述任意两个分词所对应的顶点之间存在边线的情况下，增加所述任意两个分词所对应的顶点之间的边线的权重；

在所述任意两个分词所对应的顶点之间不存在边线的情况下，在所述任意两个分词所对应的顶点之间增加一边线。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述确定每个分词的网络最短距离变化参数包括：

利用第一网络平均最短距离计算函数，确定第一网络平均最短距离，其中，所述第一网络平均最短距离为所述词共现图的网络平均最短距离；

利用第二网络平均最短距离计算函数，确定每个分词的第二网络平均最短距离，其中，所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离；

根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差，确定所述每个分词的网络最短距离变化参数；

所述确定每个分词的网络聚集系数变化参数包括：

利用第一网络平均聚集系数计算函数，确定第一网络平均聚集系数，其中，所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数；

利用第二网络平均聚集系数计算函数，确定每个分词的第二网络平均聚集系数，其中，所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数；

根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差，确定所述每个分词的网络聚集系数变化参数；

所述确定每个分词的中间性参数包括：

针对每个分词，根据所述词共现图中，除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量，所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量，以及中间性计算函数，确定该分词的中间性参数。

6.根据权利要求5所述的方法，其特征在于，所述第一网络平均最短距离计算函数包括：

所述第二网络平均最短距离计算函数包括：

所述第一网络平均聚集系数计算函数包括：

所述第二网络平均聚集系数计算函数包括：

其中，C_k表示顶点k所对应的分词的第二网络平均聚集系数；

所述中间性计算函数包括：

7.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据所获取到的关键词，形成关键词集合包括：

从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词；

将所获取到的关键词、以及每个关键词的同义词形成为所述关键词集合。

8.根据权利要求7所述的方法，其特征在于，所述从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词包括：

根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性，其中，m为大于零的自然数，并且m的初始值为1；

根据第二相似性计算函数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性，其中，所述第二相似性计算函数不同于所述第一相似性计算函数；

根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标；

从所述多个分词中除所获取到的关键词之外的分词中，获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，作为所述第m个关键词的同义词；

判断m是否等于M，其中，M为所获取到的关键词的总数；

在m不等于M的情况下，将m加1并返回所述根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性的步骤。

9.根据权利要求8所述的方法，其特征在于，所述第一相似性为两个词的向量之间的欧式距离；所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比；以及

10.根据权利要求1-4中任一项所述的方法，其特征在于，所述从所述关键词集合中提取针对所述单病种的病例审核规则包括：

确定所述关键词集合中的每个关键词在所述训练病例集合中的覆盖率；

根据所述每个关键词在所述训练病例集合中的覆盖率，以及所述每个关键词针对所述单病种的特异性，从所述关键词集合中筛选出若干候选关键词，形成候选关键词集合；

分别以每个候选关键词所对应的顶点作为起点，遍历所述词共现图，判断是否存在覆盖所述候选关键词集合的路径；

在存在覆盖所述候选关键词集合的路径的情况下，将该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则；

确定每个候选病例审核规则在所述训练病例集合中的覆盖率；

将在所述训练病例集合中的覆盖率最高的候选病例审核规则确定为是所述针对所述单病种的病例审核规则。

11.一种用于单病种的病例审核方法，其特征在于，所述方法包括：

根据权利要求1-10中任一项所述的用于单病种的病例审核规则的提取方法，提取针对预设的单病种的病例审核规则；

确定目标病例对所述病例审核规则的覆盖程度；

基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果。

12.根据权利要求11所述的病例审核方法，其特征在于，所述审核结果包括严格满足、部分满足和严格不满足；以及

所述基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果包括：

在所述目标病例对所述病例审核规则的覆盖程度大于或等于预设的第一覆盖程度阈值的情况下，确定所述审核结果为严格满足；

在所述目标病例对所述病例审核规则的覆盖程度小于所述第一覆盖程度阈值、且大于或等于预设的第二覆盖程度阈值的情况下，确定所述审核结果为部分满足；

在所述目标病例对所述病例审核规则的覆盖程度小于所述第二覆盖程度阈值的情况下，确定所述审核结果为严格不满足，其中，所述第一覆盖程度阈值大于所述第二覆盖程度阈值。

13.一种用于单病种的病例审核规则的提取装置，其特征在于，所述装置包括：

分词处理模块，用于对训练病例集合中的每个病例进行分词处理，得到多个分词，其中，所述训练病例集合包括属于预设的单病种的多个病例；

词共现图构建模块，用于构建所述多个分词的词共现图，其中，每个分词作为所述词共现图的一个顶点，并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述训练病例集合中的共现次数；

关键词获取模块，用于根据所述词共现图，从所述多个分词中获取关键词，其中，所述关键词获取模块包括：

网络最短距离变化参数确定子模块、网络聚集系数变化参数确定子模块以及中间性参数确定子模块中的至少一者，其中，所述网络最短距离变化参数确定子模块用于根据所述词共现图，确定每个分词的网络最短距离变化参数，所述网络聚集系数变化参数确定子模块用于根据所述词共现图，确定每个分词的网络聚集系数变化参数，所述中间性参数确定子模块用于根据所述词共现图，确定每个分词的中间性参数，所述中间性参数为中介中心性；

重要性确定子模块，用于根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数，分别确定所述每个分词的重要性；以及

关键词获取子模块，用于按照重要性从高到低的顺序，获取预定数量的分词作为关键词；

关键词集合形成模块，用于根据所获取到的关键词，形成关键词集合；

规则提取模块，用于从所述关键词集合中提取针对所述单病种的病例审核规则，其中，所述病例审核规则为由所述关键词集合中的若干关键词形成的有序关键词序列。

14.根据权利要求13所述的装置，其特征在于，所述关键词获取模块还包括：

第一相似性确定子模块，用于在根据所述词共现图，确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前，确定所述多个分词中的任意两个分词之间的第一相似性；

更新子模块，用于在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下，更新所述词共现图。

15.根据权利要求14所述的装置，其特征在于，所述第一相似性为所述任意两个分词的向量之间的欧式距离；

所述分词处理模块，用于对训练病例集合中的每个病例进行分词处理，得到多个分词和每个分词的向量。

16.根据权利要求14所述的装置，其特征在于，所述更新子模块包括：

第一判断单元，用于判断所述词共现图中，所述任意两个分词所对应的顶点之间是否存在边线；

权重增加单元，用于在所述任意两个分词所对应的顶点之间存在边线的情况下，增加所述任意两个分词所对应的顶点之间的边线的权重；

边线增加单元，用于在所述任意两个分词所对应的顶点之间不存在边线的情况下，在所述任意两个分词所对应的顶点之间增加一边线。

17.根据权利要求13-16中任一项所述的装置，其特征在于，所述网络最短距离变化参数确定子模块包括：

第一网络平均最短距离确定单元，用于利用第一网络平均最短距离计算函数，确定第一网络平均最短距离，其中，所述第一网络平均最短距离为所述词共现图的网络平均最短距离；

第二网络平均最短距离确定单元，用于利用第二网络平均最短距离计算函数，确定每个分词的第二网络平均最短距离，其中，所述每个分词的第二网络平均最短距离为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均最短距离；

网络最短距离变化参数确定单元，用于根据所述第一网络平均最短距离和所述每个分词的第二网络平均最短距离之间的差，确定所述每个分词的网络最短距离变化参数；

所述网络聚集系数变化参数确定子模块包括：

第一网络平均聚集系数确定单元，用于利用第一网络平均聚集系数计算函数，确定第一网络平均聚集系数，其中，所述第一网络平均聚集系数为所述词共现图的网络平均聚集系数；

第二网络平均聚集系数确定单元，用于利用第二网络平均聚集系数计算函数，确定每个分词的第二网络平均聚集系数，其中，所述每个分词的第二网络平均聚集系数为从所述词共现图中去除该分词所对应的顶点后的词共现图的网络平均聚集系数；

网络聚集系数变化参数确定单元，用于根据所述第一网络平均聚集系数和所述每个分词的第二网络平均聚集系数之间的差，确定所述每个分词的网络聚集系数变化参数；

所述中间性参数确定子模块包括：

中间性参数确定单元，用于针对每个分词，根据所述词共现图中，除该分词之外的任意两个分词所对应的顶点之间的最短路径的数量，所述除该分词之外的任意两个分词所对应的顶点之间的最短路径中包括该分词所对应的顶点的最短路径的数量，以及中间性计算函数，确定该分词的中间性参数。

18.根据权利要求17所述的装置，其特征在于，所述第一网络平均最短距离计算函数包括：

所述第二网络平均最短距离计算函数包括：

所述第一网络平均聚集系数计算函数包括：

所述第二网络平均聚集系数计算函数包括：

其中，C_k表示顶点k所对应的分词的第二网络平均聚集系数；

所述中间性计算函数包括：

其中，表示顶点k所对应的分词的中间性参数；n_ij表示顶点i与顶点j之间的最短路径的数量；n_ij(k)表示顶点i与顶点j之间的最短路径中包括顶点k的最短路径的数量。

19.根据权利要求13-16中任一项所述的装置，其特征在于，所述关键词集合形成模块包括：

同义词获取子模块，用于从所述多个分词中除所获取到的关键词之外的分词中，获取每个关键词的同义词；

关键词集合形成子模块，用于将所获取到的关键词、以及每个关键词的同义词形成为所述关键词集合。

20.根据权利要求19所述的装置，其特征在于，所述同义词获取子模块包括：

第一相似性确定单元，用于根据第一相似性计算函数，确定所获取到的关键词中的第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第一相似性，其中，m为大于零的自然数，并且m的初始值为1；

第二相似性确定单元，用于确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的第二相似性，其中，所述第二相似性计算函数不同于所述第一相似性计算函数；

同义词指标确定单元，用于根据所述第一相似性、所述第二相似性、以及预设的第一相似性的权重系数和预设的第二相似性的权重系数，确定所述第m个关键词与所述多个分词中除所获取到的关键词之外的各个分词之间的同义词指标；

同义词获取单元，用于从所述多个分词中除所获取到的关键词之外的分词中，获取与所述第m个关键词之间的同义词指标大于或等于预设的同义词指标阈值的分词，作为所述第m个关键词的同义词；

第二判断单元，用于判断m是否等于M，其中，M为所获取到的关键词的总数；

返回单元，用于在m不等于M的情况下，将m加1并重新运行所述第一相似性确定单元。

21.根据权利要求20所述的装置，其特征在于，所述第一相似性为两个词的向量之间的欧式距离；所述第二相似性为两个词之间相同词素的个数占两个词的全部词素的个数的占比；以及

22.根据权利要求13-16中任一项所述的装置，其特征在于，所述规则提取模块包括：

第一覆盖率确定子模块，用于确定所述关键词集合中的每个关键词在所述训练病例集合中的覆盖率；

候选关键词筛选子模块，用于根据所述每个关键词在所述训练病例集合中的覆盖率，以及所述每个关键词针对所述单病种的特异性，从所述关键词集合中筛选出若干候选关键词，形成候选关键词集合；

判断子模块，用于分别以每个候选关键词所对应的顶点作为起点，遍历所述词共现图，判断是否存在覆盖所述候选关键词集合的路径；

候选病例审核规则获取子模块，用于在存在覆盖所述候选关键词集合的路径的情况下，将该路径覆盖的候选关键词的有序关键词序列作为候选病例审核规则；

第二覆盖率确定子模块，用于确定每个候选病例审核规则在所述训练病例集合中的覆盖率；

病例审核规则提取子模块，用于将在所述训练病例集合中的覆盖率最高的候选病例审核规则确定为是所述针对所述单病种的病例审核规则。

23.一种用于单病种的病例审核***，其特征在于，所述***包括：

根据权利要求13-22中任一项所述的用于单病种的病例审核规则的提取装置，用于提取针对预设的单病种的病例审核规则；

覆盖程度确定装置，用于确定目标病例对所述病例审核规则的覆盖程度；

审核装置，用于基于所述目标病例对所述病例审核规则的覆盖程度，对所述目标病例进行审核，得出审核结果。

24.根据权利要求23所述的病例审核***，其特征在于，所述审核结果包括严格满足、部分满足和严格不满足；以及

所述审核装置包括：

第一审核模块，用于在所述目标病例对所述病例审核规则的覆盖程度大于或等于预设的第一覆盖程度阈值的情况下，确定所述审核结果为严格满足；

第二审核模块，用于在所述目标病例对所述病例审核规则的覆盖程度小于所述第一覆盖程度阈值、且大于或等于预设的第二覆盖程度阈值的情况下，确定所述审核结果为部分满足；

第三审核模块，用于在所述目标病例对所述病例审核规则的覆盖程度小于所述第二覆盖程度阈值的情况下，确定所述审核结果为严格不满足，其中，所述第一覆盖程度阈值大于所述第二覆盖程度阈值。