CN113051373A

CN113051373A - 文本分析方法、装置、电子设备和存储介质

Info

Publication number: CN113051373A
Application number: CN202110420438.5A
Authority: CN
Inventors: 甘露; 胡加学; 赵景鹤; 贺志阳
Original assignee: Anhui Iflytek Medical Information Technology Co ltd
Current assignee: Anhui Iflytek Medical Information Technology Co ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-06-29
Anticipated expiration: 2041-04-19
Also published as: CN113051373B

Abstract

本发明提供一种文本分析方法、装置、电子设备和存储介质，所述方法包括：确定待分析的疾病描述文本；基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定疾病描述文本对应的疾病类型。本发明基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，从而能够融合各个来源的医学知识确定疾病描述文本对应的疾病类型，相较于传统方法中基于端到端模型无法准确识别具有较多口语化表达的疾病描述文本对应的疾病类型，本发明结合疾病描述文本与各个来源的医学知识之间的相关度，能够准确确定疾病描述文本对应的疾病类型，提高疾病类型的识别率。

Description

文本分析方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本分析方法、装置、电子设备和存储介质。

背景技术

随着互联网的普及，患者可以根据自身的疾病类型在线上预约相应的科室医生看诊，若要精准确定相应的科室，则需要准确评估患者的疾病类型。

目前，多通过获取患者的疾病描述文本，并基于端到端模型对文本进行分析，确定患者的疾病类型，但由于患者的疾病描述文本侧重于口语化表达，从而使得基于专业的医学样本训练得到的端到端模型无法准确从口语化表达的疾病描述文本中确定对应的疾病类型。

发明内容

本发明提供一种文本分析方法、装置、电子设备和存储介质，用以解决现有技术中无法准确确定疾病描述文本对应的疾病类型的缺陷。

本发明提供一种文本分析方法，包括：

确定待分析的疾病描述文本；

基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型。

根据本发明提供的一种文本分析方法，所述基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型，包括：

基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示；

基于所述疾病表示，确定所述疾病描述文本对应的疾病类型。

根据本发明提供的一种文本分析方法，所述基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示，之前还包括：

基于各个独立来源的独立文本编码规则，确定各个独立来源下的疾病描述文本的文本表示，所述独立文本编码规则是基于对应独立来源下的医学知识确定的；

对各个独立来源下的文本表示进行自注意力计算，得到所述疾病描述文本分别与多个独立来源的医学知识之间的相关性。

根据本发明提供的一种文本分析方法，所述基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示，包括：

将所述疾病描述文本与各个独立来源的医学知识之间的相关性作为权重，对所述疾病描述文本在各个独立来源下的文本表示进行加权求和，得到第一疾病表示；

基于通用文本编码规则，确定所述疾病描述文本的第二疾病表示，所述通用文本编码规则是基于混合所述多个独立来源的医学知识确定的；

基于所述第一疾病表示和所述第二疾病表示，确定所述疾病描述文本的疾病表示。

根据本发明提供的一种文本分析方法，所述基于所述疾病表示，确定所述疾病描述文本对应的疾病类型，包括：

基于各候选疾病类型的候选疾病表示，以及所述疾病表示，确定所述疾病描述文本与各个候选疾病类型之间的相关性；

基于所述疾病描述文本与各个候选疾病类型之间的相关性，以及各候选疾病表示，确定所述疾病描述文本对应的疾病类型。

根据本发明提供的一种文本分析方法，所述确定待分析的疾病描述文本，包括：

确定待分析的初始疾病描述文本；

对所述初始疾病描述文本进行序列标注，确定所述初始疾病描述文本中的客观描述信息；

对所述初始疾病描述文本进行文本抽取，确定所述初始疾病描述文本中的主观描述信息；

基于所述客观描述信息和主观描述信息，确定所述待分析的疾病描述文本。

根据本发明提供的一种文本分析方法，所述多个独立来源的医学知识包括人机交互问诊知识、门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识中的至少两种。

本发明还提供一种文本分析装置，包括：

文本确定单元，用于确定待分析的疾病描述文本；

文本分析单元，用于基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文本分析方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本分析方法的步骤。

本发明提供的文本分析方法、装置、电子设备和存储介质，基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，从而能够融合各个来源的医学知识确定疾病描述文本对应的疾病类型，相较于传统方法中基于端到端模型无法准确识别具有较多口语化表达的疾病描述文本对应的疾病类型，本发明结合疾病描述文本与各个来源的医学知识之间的相关度，能够准确确定疾病描述文本对应的疾病类型，提高疾病类型的识别率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本分析方法的流程示意图；

图2是本发明提供的疾病类型获取方法的流程示意图；

图3是本发明提供的疾病表示确定方法的流程示意图；

图4是本发明提供的又一疾病类型获取方法的流程示意图；

图5是本发明提供的疾病描述文本获取方法的流程示意图；

图6是本发明提供的文本分析模型训练方法的流程示意图；

图7是本发明提供的文本分析装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统方法多通过获取患者的疾病描述文本，并基于端到端模型对文本进行分析，确定患者的疾病类型，但由于患者的疾病描述文本侧重于口语化表达，导致基于专业的医学样本训练得到的端到端模型无法准确从口语化表达的疾病描述文本中确定对应的疾病类型。此外，传统方法还以患者的疾病描述文本作为输入，采用任务型对话***(pipeline)识别患者的疾病类型，但pipeline中的各模块是串联的，从而会导致前面各模块的错误率均会传导至最后的输出模块，影响识别的准确率。

对此，本发明提供一种文本分析方法。图1是本发明提供的文本分析方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定待分析的疾病描述文本；

步骤120、基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定疾病描述文本对应的疾病类型。

具体地，疾病描述文本用于描述患者疾病的状态，如患者的症状、体征、诱因、既往史等。此处疾病描述文本可以是电子文本，也可以是对纸质文本进行光学字符识别OCR得到文本，还可以是根据患者的录音整理得到的文本，本发明实施例对此不作具体限定。

通常，疾病描述文本大多是患者根据自身的状况进行口语化描述得到的文本，即疾病描述文本侧重于口语化表达，存在大量发散口语化的语料描述，专业术语较少。例如，患者的肺部不舒服，但由于患者不具有专业的医学知识，从而患者会以“肺有点痒”来描述该症状，但在医学上肺部是不存在“痒”这一症状的，专业的描述应该是“肺部不适”。

由于疾病描述文本侧重于口语化表达，专业术语较少，若采用传统方法中基于专业医学样本训练得到的端到端模型对疾病描述文本进行识别，则模型无法从口语化表达的文本中识别出其对应的医学知识，进而无法准确根据疾病描述文本确定对应的疾病类型。若单独基于口语化的疾病描述文本进行机器学习，则需要额外收集大量的口语化样本进行训练，不仅需要人工进行大量的标注，而且口语化样本存在各种各样的语料，如针对同一语义可能存在大量不同的表达方式，且这些表达方式是随机的，即在实际情况中收集到足量的口语化样本进行训练是存在困难的。

因此，本发明实施例融合现有医学领域中存在的大量经过规整后的多个独立来源的医学知识来确定疾病描述文本对应的疾病类型。多个独立来源的医学知识既包括具有较多口语化表达的人机交互语料，也包括具有专业医学知识的数据库，其中具有专业医学知识的数据库的语料是经过专业医生整理后的医疗语料，语料较清晰，且具有大量的专业术语。各个来源的医学知识之间是相互独立的，且各个来源的医学知识均有对应的疾病类型。其中，多个独立来源的医学知识可以包括疾病知识库、住院病历数据、互联网疾病百科知识库等，本发明实施例对此不作具体限定。

此外，疾病描述文本分别与多个独立来源的医学知识之间的相关性用于表征疾病描述文本中描述的信息与各个来源的医学知识对应的医学信息之间的相关度，相关度越高，表明疾病描述文本中的语料与对应来源的医学知识的语料越相似，因此基于该来源下的疾病知识对疾病描述文本所表征的疾病类型进行判断的可靠性越高，对应得到的疾病类型的准确率越高。

进一步地，步骤120中基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定疾病描述文本对应的疾病类型的过程，可以通过文本分析模型实现。在执行步骤120之前，还可以预先训练得到文本分析模型，具体可以通过如下方式训练得到：首先，收集多个独立来源的医学知识样本，并对多个独立来源的医学知识样本进行混合得到多个独立来源的混合样本。随即，基于多个独立来源的医学知识样本、多个独立来源的混合样本以及与之相对应的疾病类型，对初始模型进行训练，从而得到文本分析模型。

本发明实施例提供的文本分析方法，基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，从而能够融合各个来源的医学知识确定疾病描述文本对应的疾病类型，相较于传统方法中基于端到端模型无法准确识别具有较多口语化表达的疾病描述文本对应的疾病类型，以及传统方法中采用pipeline识别患者的疾病类型，本发明实施例结合疾病描述文本与各个来源的医学知识之间的相关度，能够准确确定疾病描述文本对应的疾病类型，提高疾病类型的识别率。

需要说明的是，本发明实施例提供的方法，是以疾病描述文本为对象，获取疾病描述文本对应的疾病类型，而非以患者本人为对象。并且，本发明实施例提供的方法，目的是对疾病描述文本对应的疾病类型进行分析，用于快速根据疾病类型确定对应的科室，帮助患者在线上预约对应科室的医生看诊，而非以获得疾病诊断结果或健康状况为直接目的。因此，本发明实施例提供的方法，不属于疾病的诊断方法。

基于上述实施例，如图2所示，步骤120包括：

步骤121、基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及疾病描述文本在各个独立来源下的文本表示，确定疾病描述文本的疾病表示；

步骤122、基于疾病表示，确定疾病描述文本对应的疾病类型。

具体地，由于疾病描述文本分别与多个独立来源的医学知识之间的相关性表征疾病描述文本中描述的信息与各个来源的医学知识对应的医学信息之间的相关度，同时疾病描述文本在各个独立来源下的文本表示保留了各个来源的医学知识的独立信息，从而使得基于两者确定的疾病描述文本的疾病表示既融合有各个来源的医学知识的独立信息，也融合有疾病描述文本与各个来源的医学知识之间的相关度信息。其中，疾病描述文本在各个独立来源下的文本表示可以基于各个独立来源下的医学知识确定，用于以各个独立来源下的文本的表述风格来描述疾病描述文本，本发明实施例对此不作具体限定。例如，可以将疾病描述文本分别与多个独立来源的医学知识之间的相关性作为权重，对疾病描述文本在各个独立来源下的文本表示进行加权求和，将求和所得的结果作为疾病描述文本的疾病表示。

在确定疾病描述文本的疾病表示之后，可以将其与各候选疾病对应的疾病表示进行对比，若存在任一候选疾病对应的疾病表示与疾病描述文本的疾病表示相似度超过阈值，则可以将该将候选疾病对应的疾病类型作为疾病描述文本的疾病类型。

本发明实施例提供的文本分析方法，基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及疾病描述文本在各个独立来源下的文本表示，确定疾病描述文本的疾病表示，从而使得疾病描述文本的疾病表示既融合有各个来源的医学知识的独立信息，也融合有疾病描述文本与各个来源的医学知识之间的相关度信息，进而能够更加准确确定疾病描述文本对应的疾病类型。

基于上述任一实施例，步骤121之前还包括：

基于各个独立来源的独立文本编码规则，确定各个独立来源下的疾病描述文本的文本表示，独立文本编码规则是基于对应独立来源下的医学知识确定的；

对各个独立来源下的文本表示进行自注意力计算，得到疾病描述文本分别与多个独立来源的医学知识之间的相关性。

具体地，各个独立来源下的疾病描述文本的文本表示指采用各个独立来源下的医学知识来表示疾病描述文本，从而该文本表示可以表征疾病描述文本与各个来源的医学知识的独立相关度。独立文本编码规则可以是在通用编码规则的基础上，结合对应来源下医学知识文本的表述风格进行适应性优化得到的。

举例来说，在确定各个独立来源下的疾病描述文本的文本表示时，针对各个独立来源，依次经过词表映射后获取疾病描述文本中每个字的字向量，在通用编码规则的基础上，结合对应来源下医学知识文本的表述风格获取各个独立来源下的疾病描述文本的向量表征，即各个独立来源下的疾病描述文本的文本表示。例如可以采用基于各个独立来源下的医学知识文本进行迁移学习所得的bert网络，确定各个独立来源下的疾病描述文本的文本表示，若限定文本的长度为128个字，输入ID向量维度是x(1,128)12层bert的隐层维度是768，则经过bert网络之后获取的各个独立来源下的疾病描述文本隐层向量ht维度(128,768)，最终获得各个独立来源下的疾病描述文本的文本表示为向量

假设独立来源个数为5，则i＝0，1，…4，n为隐层向量维度，若是12层bert则隐层向量为768。

由于各个独立来源下的疾病描述文本的文本表示相互之间是独立的，为了提高疾病类型的识别率，还需要获取各个独立来源下的疾病描述文本的文本表示之间的相关性，即疾病描述文本分别与多个独立来源的医学知识之间的相关性。因此，对各个独立来源下的文本表示进行自注意力计算，可以得到疾病描述文本分别与多个独立来源的医学知识之间的相关性。

例如，以5个独立来源的医学知识为例，对各个独立来源下的疾病描述文本按照独立文本编码规则进行编码后获得向量

其中i＝0，1，…4，，再将各向量contact后得到一个[5*n]向量矩阵

然后对该向量矩阵X进行自注意力计算self-attention，获取5*1的权重向量A＝[a₀ a₁ … a₄]，即得到疾病描述文本分别与5个独立来源的医学知识之间的相关性。

本发明实施例提供的文本分析方法，基于各个独立来源的独立文本编码规则，确定各个独立来源下的疾病描述文本的文本表示，从而使得文本表示可以表征疾病描述文本与各个来源的医学知识的独立相关度，再对各个独立来源下的文本表示进行自注意力计算，得到疾病描述文本分别与多个独立来源的医学知识之间的相关性，从而能够使得疾病描述文本的疾病表示融合有各个来源的医学知识的独立信息和各个来源的医学知识的相关度信息，进而准确识别疾病描述文本对应的疾病类型。

基于上述任一实施例，如图3所示，步骤121包括：

步骤1211、将疾病描述文本与各个独立来源的医学知识之间的相关性作为权重，对疾病描述文本在各个独立来源下的文本表示进行加权求和，得到第一疾病表示；

步骤1212、基于通用文本编码规则，确定疾病描述文本的第二疾病表示，通用文本编码规则是基于混合多个独立来源的医学知识确定的；

步骤1213、基于第一疾病表示和第二疾病表示，确定疾病描述文本的疾病表示。

具体地，将疾病描述文本与各个独立来源的医学知识之间的相关性作为权重，对疾病描述文本在各个独立来源下的文本表示进行加权求和，得到第一疾病表示，从而使得第一疾病表示能够表征疾病描述文本在各个独立来源下的独立信息。由于通用文本编码规则是基于混合多个独立来源的医学知识确定的，从而基于通用文本编码规则确定的第二疾病表示能够结合各个来源的医学知识之间的相关性，反映疾病描述文本所表征的疾病特征，从而基于第一疾病表示和第二疾病表示确定的疾病描述文本的疾病表示，既融合有各个来源的医学知识的独立信息，也融合有各个来源的医学知识之间的相关性信息。

例如，基于上述实施例将矩阵X与权重向量A相乘，得到第一疾病表示:U₁＝X*A^T，同时将混合多个独立来源的医学知识经过bert编码后的得到第二疾病表示U₂，拼接在一起获取最终输入的向量表征U＝[U₁；U₂]，即疾病描述文本的疾病表示。

本发明实施例提供的文本分析方法，对疾病描述文本在各个独立来源下的文本表示进行加权求和，得到的第一疾病表示能够表征疾病描述文本在各个独立来源下的独立信息，以及基于通用编码规则确定的第二疾病表示能够结合各个来源的医学知识之间的相关性，反映疾病描述文本所表征的疾病特征，从而使得疾病描述文本的疾病表示既融合有各个来源的医学知识的独立信息，也融合有与各个来源的医学知识之间的相关性信息。

基于上述任一实施例，如图4所示，步骤122包括：

步骤1221、基于各候选疾病类型的候选疾病表示，以及疾病表示，确定疾病描述文本与各个候选疾病类型之间的相关性；

步骤1222、基于疾病描述文本与各个候选疾病类型之间的相关性，以及各候选疾病表示，确定疾病描述文本对应的疾病类型。

具体地，疾病描述文本与各个候选疾病类型之间的相关性用于表征疾病描述文本对应的疾病类型在各个候选疾病类型中所占的权重，相关性越大，表明疾病描述文本对应的疾病类型与候选疾病类型相同的概率越高。基于疾病描述文本与各个候选疾病类型之间的相关性，以及各候选疾病表示，可以得到疾病描述文本与各候选疾病类型的得分，得分值越高，表明对应候选疾病类型为疾病描述文本对应的疾病类型的概率越大，例如可以选取得分值较大的预设数量的候选疾病类型作为疾病描述文本的疾病类型，也可以将得分值大于阈值的候选疾病类型作为疾病描述文本的疾病类型，本发明实施例对此不作具体限定。

例如，候选疾病类型的疾病表示可以通过编码进行表示，假设有100个疾病，则训练目标向量的维度为100维度，每个维度代表一个疾病，eg：“头疼头晕10天”，对应诊断可能为“高血压，后循环缺血”，则训练目标向量在高血压，后循环缺血置位1即可，即候选疾病类型的疾病表示为

将其与疾病表示U经过注意力Attention计算之后，获取疾病描述文本与各个候选疾病类型之间的相关性，即相关权重矩阵V＝[v₀ v₁ … v_n]，然后获取疾病描述文本与各候选疾病类型的得分向量O＝V*Y^T，对各得分向量经过sigmoid进行加权，判断是否大于阈值，若是，则将对应候选疾病的类型作为疾病描述文本的疾病类型。

基于上述任一实施例，如图5所示，步骤110包括：

步骤111、确定待分析的初始疾病描述文本；

步骤112、对初始疾病描述文本进行序列标注，确定初始疾病描述文本中的客观描述信息；

步骤113、对初始疾病描述文本进行文本抽取，确定初始疾病描述文本中的主观描述信息；

步骤114、基于客观描述信息和主观描述信息，确定待分析的疾病描述文本。

具体地，初始疾病描述文本是患者对自身的状态进行口语化描述的文本，大多患者在进行描述时更加集中于自身的主观感受上，例如对于足部抽搐的描述，初始疾病描述文本为“脚就会不自主，间歇性的发生抖动”，而在医学上的专业描述为“足部抽搐”。

因此，为了进一步提高疾病类型的识别效率，需要从初始疾病文本中获取相应的关键信息，如症状、体征、诱因和既往史等关键信息。其中，关键信息可以分为客观描述信息和主观描述信息，客观描述信息是指规整化的信息，其语料较为收敛，如对于既往史的描述“是否存在药物过敏”，对应的描述信息通常为“存在”或“不存在”这两个规整描述。主观描述信息是集中于患者的主观感受描述得到的信息，其语料较为发散，如对于足部抽搐的症状描述，对应的描述信息可能存在各种各样的口语描述。

由于客观描述信息为比较规整的信息，从而可以对初始疾病描述文本进行序列标注获取，而主观描述信息通常集中于患者的自身感受，语料较为发散，因此可以对初始疾病描述文本进行文本抽取获取。在提取客观描述信息和主观描述信息之后，即获取了初始疾病描述文本中的关键信息，从而可以将客观描述信息和主观描述信息作为疾病描述文本，以便能够快速根据其中的关键信息分析对应的疾病类型。

例如，通常诱因和既往史在初始疾病描述文本中描述较为规整，从而可以将其作为客观描述信息，采用序列标注方法的方式进行直接获取，而对于症状获取，由于患者医学背景知识匮乏，其描述更加集中于自身主观的感受上，从而可以将其作为主观描述信息，通过端到端模型进行直接获取，基于模型学习症状和患者表述之间的相关性获取医学标准症状。

需要说明的是，由于多个独立来源的医学知识数据各有侧重，数据分布不同。因此为了更好利用各个来源的医学知识，融合各个来源的诊断知识，可以采用上述相同的方法提取各个来源的医学知识中的客观描述信息和主观描述信息，以将各个来源内非结构化信息统一映射到相同知识体系中，统一规整为结构化文本，从而能够更加快速获取疾病描述文本与各个来源医学知识之间的关联性，提高疾病类型的识别效率，进而快速帮助患者确定对应的科室。

基于上述任一实施例，多个独立来源的医学知识包括人机交互问诊知识、门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识中的至少两种。

具体地，现有医学领域中包括多个独立来源的医学知识，包括具有较多口语化表达的人机交互问诊知识，也包括经过专业医生规整的门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识。本发明实施例通过融合多个独立来源的医学知识，不仅能够准确识别疾病描述文本对应的疾病类型，而且避免单独基于口语化的疾病描述文本进行机器学习需要人工进行大量的标注的问题，提高了疾病类型的识别效率。

其中，人机交互问诊知识口语化表述居多，语料发散不收敛，并且每句话表述意图也不一样，语料包含医学专业知识较少。门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识是通过专业医生整理后的医疗语料，语料较清晰，而且专业术语较多。

基于上述任一实施例，本发明提供一种文本分析方法，该方法包括：

将待分析的疾病描述文本输入至文本分析模型，得到文本分析模型输出的疾病描述文本对应的疾病类型。其中，文本分析模型是基于多个独立来源的医学知识、混合疾病描述文本以及其对应的候选疾病类型训练得到的。多个独立来源的医学知识包括人机交互问诊知识、门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识，混合疾病描述文本是对多个独立来源的医学知识进行数据混淆后得到的。

如图6所示，文本分析模型可以包括输入层、编码层、融合层以及输出层，其中，在训练文本分析模型时，将结构化后的多个独立来源的医学知识、混合疾病描述文本以及其对应的候选疾病类型输入文本分析模型，编码层利用bert网络分别对多个独立来源的医学知识和混合疾病描述文本进行编码，融合层基于门控机制Gate确定混合疾病描述文本与各个独立来源的医学知识之间的相关性，并对混合疾病描述文本在各个独立来源下的文本表示进行加权求和，得到第一混合疾病表示，并与第二混合疾病表示拼接后确定混合疾病描述文本的疾病表示，然后将混合疾病描述文本的疾病表示与候选疾病表示进行自注意力Attention计算后，确定混合疾病描述文本与各个候选疾病类型之间的相关性，并各候选疾病表示，确定混合疾病描述文本对应的疾病类型。在对模型训练完成之后，疾病描述文本从输入层中混合疾病描述文本的位置输入，由输出层输出疾病描述文本对应的疾病类型。

其中，文本分析模型的损失函数交叉熵损失loss：

对于单个训练样本来说，m＝0，1…M，表示该训练样本对应的M个候选疾病类型，y_m表示样本X对应的第m个候选疾病类型，p(w_m)表示该训练样本与各个候选疾病类型之间的相关性。可以理解的是，文本分析模型可以基于BP算法，Adam方法等来优化loss函数。

下面对本发明提供的文本分析装置进行描述，下文描述的文本分析装置与上文描述的文本分析方法可相互对应参照。

基于上述任一实施例，本发明还提供一种文本分析装置，如图7所示，该装置包括：

文本确定单元710，用于确定待分析的疾病描述文本；

文本分析单元720，用于基于疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定疾病描述文本对应的疾病类型。

基于上述任一实施例，所述文本分析单元720，包括：

疾病表示单元，用于基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示；

疾病确定单元，用于基于所述疾病表示，确定所述疾病描述文本对应的疾病类型。

基于上述任一实施例，还包括：

文本表示单元，用于在基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示之前，基于各个独立来源的独立文本编码规则，确定各个独立来源下的疾病描述文本的文本表示，所述独立文本编码规则是基于对应独立来源下的医学知识确定的；

自注意力单元，用于对各个独立来源下的文本表示进行自注意力计算，得到所述疾病描述文本分别与多个独立来源的医学知识之间的相关性。

基于上述任一实施例，所述疾病表示单元，包括：

第一疾病表示单元，用于将所述疾病描述文本与各个独立来源的医学知识之间的相关性作为权重，对所述疾病描述文本在各个独立来源下的文本表示进行加权求和，得到第一疾病表示；

第二疾病表示单元，用于基于通用文本编码规则，确定所述疾病描述文本的第二疾病表示，所述通用文本编码规则是基于混合所述多个独立来源的医学知识确定的；

第三疾病表示单元，用于基于所述第一疾病表示和所述第二疾病表示，确定所述疾病描述文本的疾病表示。

基于上述任一实施例，所述疾病确定单元，包括：

相关性确定单元，用于基于各候选疾病类型的候选疾病表示，以及所述疾病表示，确定所述疾病描述文本与各个候选疾病类型之间的相关性；

类型确定单元，用于基于所述疾病描述文本与各个候选疾病类型之间的相关性，以及各候选疾病表示，确定所述疾病描述文本对应的疾病类型。

基于上述任一实施例，所述文本确定单元710，包括：

初始文本确定单元，用于确定待分析的初始疾病描述文本；

客观信息确定单元，用于对所述初始疾病描述文本进行序列标注，确定所述初始疾病描述文本中的客观描述信息；

主观信息确定单元，用于对所述初始疾病描述文本进行文本抽取，确定所述初始疾病描述文本中的主观描述信息；

描述文本确定单元，用于基于所述客观描述信息和主观描述信息，确定所述待分析的疾病描述文本。

基于上述任一实施例，所述多个独立来源的医学知识包括人机交互问诊知识、门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识中的至少两种。

图8是本发明提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、存储器(memory)820、通信接口(CommunicationsInterface)830和通信总线840，其中，处理器810，存储器820，通信接口830通过通信总线840完成相互间的通信。处理器810可以调用存储器820中的逻辑指令，以执行文本分析方法，该方法包括：确定待分析的疾病描述文本；基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型。

此外，上述的存储器820中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本分析方法，该方法包括：确定待分析的疾病描述文本；基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本分析方法，该方法包括：确定待分析的疾病描述文本；基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本分析方法，其特征在于，包括：

确定待分析的疾病描述文本；

2.根据权利要求1所述的文本分析方法，其特征在于，所述基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，确定所述疾病描述文本对应的疾病类型，包括：

3.根据权利要求2所述的文本分析方法，其特征在于，所述基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示，之前还包括：

4.根据权利要求2所述的文本分析方法，其特征在于，所述基于所述疾病描述文本分别与多个独立来源的医学知识之间的相关性，以及所述疾病描述文本在各个独立来源下的文本表示，确定所述疾病描述文本的疾病表示，包括：

5.根据权利要求2所述的文本分析方法，其特征在于，所述基于所述疾病表示，确定所述疾病描述文本对应的疾病类型，包括：

6.根据权利要求1至5任一项所述的文本分析方法，其特征在于，所述确定待分析的疾病描述文本，包括：

确定待分析的初始疾病描述文本；

7.根据权利要求1至5任一项所述的文本分析方法，其特征在于，所述多个独立来源的医学知识包括人机交互问诊知识、门诊病历数据、住院病历数据、疾病知识库以及互联网疾病百科知识中的至少两种。

8.一种文本分析装置，其特征在于，包括：

文本确定单元，用于确定待分析的疾病描述文本；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本分析方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本分析方法的步骤。