CN109840280B - 一种文本分类方法、装置及计算机可读存储介质 - Google Patents

一种文本分类方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109840280B
CN109840280B CN201910165382.6A CN201910165382A CN109840280B CN 109840280 B CN109840280 B CN 109840280B CN 201910165382 A CN201910165382 A CN 201910165382A CN 109840280 B CN109840280 B CN 109840280B
Authority
CN
China
Prior art keywords
medical
text
dimension
classified
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910165382.6A
Other languages
English (en)
Other versions
CN109840280A (zh
Inventor
施振辉
陈俊
夏源
陆超
黄海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910165382.6A priority Critical patent/CN109840280B/zh
Publication of CN109840280A publication Critical patent/CN109840280A/zh
Application granted granted Critical
Publication of CN109840280B publication Critical patent/CN109840280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种文本分类方法、装置及计算机可读存储介质,其中方法包括:对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签。

Description

一种文本分类方法、装置及计算机可读存储介质
技术领域
本发明涉及医疗领域的文本识别技术,尤其涉及一种文本分类方法、装置及计算机可读存储介质。
背景技术
文本分类技术是指对自然语言文本按照一定的分类体系或标准进行自动分类标记的技术。在当今互联网众多地服务中,为了更好地对用户提供医疗相关的服务,理解用户的输入文本是十分重要的,目前采用通用的文本识别方案针对非医疗领域的文本识别准确性较高,但是针对医疗领域的文本识别或分类处理无法保证结果的准确率。
发明内容
本发明实施例提供一种文本分类方法、装置及计算机可读存储介质,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种文本分类方法,包括:
对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;
对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;
基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签。
在一种实施方式中,所述基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签,包括:
将每一个维度所对应的初始向量进行拼接,得到拼接后的第一待处理向量;
将所述第一待处理向量输入至第一网络,得到所述第一网络输出的第一类输出向量,基于所述第一类输出向量确定所述待分类文本的第一类医疗标签;
其中,所述第一类输出向量中包含两位编码值,所述两位编码值分别表征所述待分类文本为医疗意图、以及所述待分类文本非医疗意图;
所述第一类医疗标签用于表征所述待分类文本是否为医疗意图。
在一种实施方式中,所述基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签,包括:
将每一个维度所对应的初始向量进行拼接,得到拼接后的第二待处理向量;
将所述第二待处理向量输入至第二网络,得到所述第二网络输出的第二类输出向量;其中,所述第二类输出向量中包含有与至少一个医疗科室对应的至少一个编码值;
基于所述第二类输出向量,确定用于表征所述待分类文本对应的医疗科室的第二类医疗标签。
在一种实施方式中,所述对待分类文本进行识别,得到至少一个维度的信息之前,所述方法还包括:
判断所述待分类文本的第一类医疗标签是否为医疗意图。
在一种实施方式中,所述方法还包括:
对所述第二类输出向量进行平滑处理,得到平滑处理后的至少一个医疗科室对应的第二类输出向量。
在一种实施方式中,所述文本元素包括至少一个文字,和/或,至少一个词;
所述医疗特征信息,包括以下至少之一:至少一类关键信息、至少一种意图特征、至少一个医疗统计特征。
第二方面,本发明实施例提供了一种文本分类装置,其特征在于,包括:
识别单元,用于对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;
第一处理单元,用于对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;
第二处理单元,用于基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签。
在一种实施方式中,所述第二处理单元,用于将每一个维度所对应的初始向量进行拼接,得到拼接后的第一待处理向量;将所述第一待处理向量输入至第一网络,得到所述第一网络输出的第一类输出向量,基于所述第一类输出向量确定所述待分类文本的第一类医疗标签;
其中,所述第一类输出向量中包含两位编码值,所述两位编码值分别表征所述待分类文本为医疗意图、以及所述待分类文本非医疗意图;
所述第一类医疗标签用于表征所述待分类文本是否为医疗意图。
在一种实施方式中,所述第二处理单元,用于将每一个维度所对应的初始向量进行拼接,得到拼接后的第二待处理向量;将所述第二待处理向量输入至第二网络,得到所述第二网络输出的第二类输出向量;其中,所述第二类输出向量中包含有与至少一个医疗科室对应的至少一个编码值;基于所述第二类输出向量,确定用于表征所述待分类文本对应的医疗科室的第二类医疗标签。
在一种实施方式中,所述第二处理单元,用于判断所述待分类文本的第一类医疗标签是否为医疗意图。
在一种实施方式中,所述第二处理单元,用于对所述第二类输出向量进行平滑处理,得到平滑处理后的至少一个医疗科室对应的第二类输出向量。
第三方面,本发明实施例提供了一种文本分类装置,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一项所述的方法。
在一个可能的设计中,所述装置的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储文本分类装置所用的计算机软件指令,其包括用于执行上述文本分类方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:
能够对待分类文本进行多种粒度的信息提取,尤其是其中包含有医疗特征信息的提取,进而基于提取出来的医疗特征信息进行编码得到初始向量,在基于初始向量确定待分类文本的医疗标签。如此,就能够在进行待分类文本的处理的时候,在输入信息中添加医疗特征信息,从而增加了对待分类文本的识别结果的准确率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出本发明实施例的一种文本分类方法流程示意图一;
图2示出本发明实施例的一种网络结构示意图;
图3示出本发明实施例的一种文本分类方法流程示意图二;
图4示出本发明实施例进行医疗科室识别的流程图;
图5示出本发明实施例的一种文本分类方法流程示意图三;
图6示出本发明实施例的一种文本分类装置的结构框图一;
图7示出本发明实施例的一种文本分类装置的结构框图二。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
在一种实施方式中,图1示出根据本发明实施例的文本分类方法的流程图,所述方法包括:
步骤S11:对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;
步骤S12:对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;
步骤S13:基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签。
这里,本实施例提供的方案可以应用于具备处理功能的设备,比如,可以为终端设备,也可以应用于网络设备。
当方案应用在终端设备的时候,可以通过终端设备采集待分类文本,或者通过其他功能获取待分类文本,再执行前述步骤S11-步骤S13最终获取结果。
当方案应用在网络设备的时候,可以接收终端设备发来的待分类文本,然后由网络设备执行步骤S11-步骤S13;进一步地,当本方案应用在网络侧,可以在执行完成步骤S13之后,由网络设备将结果发送至终端设备。
本实施方式中的待分类文本的获取方式可以为直接输入的文本,或者可以为将采集到的语音信息转换得到的文本信息。获取方式可能有扫描目标对象,然后对目标对象中包含的某一个区域中的文字进行识别,得到待分类文本;更多的获取方式在本实施方式中不再进行穷举。
在医疗领域中,病历中的主诉及病人对自己病情的简单描述就属于医疗短文本,文本长度从几个字到几百个字之间,平均长度为十几个字左右。导致文本中包含的信息及其有限,有些关键信息浓缩在一个词上。举例来说,针对文本『孕23周』,如果进行分科,其关键信息就是一个字『孕』,需要模型能从文本中学习出『怀孕』,理解『怀孕』,需要能够给出分科结果『产科』。针对文本『阑尾炎手术多少钱』,如果对其进行医疗意图识别,比如,关键信息在于『多少钱』,而不是想要问阑尾炎手术去哪个科室治疗。
本实施方式中,执行步骤S11之前,需要首先对待分类文本进行过滤,得到过滤后的待分类文本。进而再执行步骤S11对待分类文本进行识别,得到至少一个维度的信息。
其中,过滤的处理可以理解为删除待分类文本中的标点符号、以及预设的特殊文字;比如,输入一句话“今天,有些胃部的不适感”,那么可以删除其中的“,”,预设的特殊文字可以为使用概率较高的通用字,比如“的”、“天”、“有”等等,本实施方式中不做穷举,那么上述输入的一句话可以剩余以下内容“今胃部不适感”。
所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;其中,所述文本元素包括至少一个文字,和/或,至少一个词;所述医疗特征信息,包括以下至少之一:至少一类关键信息、至少一种意图特征、至少一个医疗统计特征。
也就是说,通过对所述待分类文本进行过滤,得到删除多余信息的过滤后的待分类文本;从过滤后的待分类文本中提取得到至少一个文字和/或至少一个词作为文本元素。
从过滤后的待分类文本中提取至少一个字和/或至少一个词,可以为将过滤后的待分类文本中的每一个字均提取出来,至少一个词可以为能够组成词语的连续的至少两个字提取出来,比如上述的文字可以提取出来“胃部”“不适”这样的词。
为了减少人力和时间成本,并且提高医疗短文本分类准确率,本实施例方式中结合医疗特征信息,即医学方面的知识对待分类文本进行分类。
对待分类文本进行识别得到至少一类关键信息,可以为利用NLU(自然语言理解),从待分类文本中提取出其中包含症状、疾病、检查、部位中至少之一类型的关键信息。比如,仍然采用上述“今胃部不适感”这句话为例,可以得到症状关键信息“不适”,以及部位对应的关键信息“胃部”。需要理解的是,并非每句话均可以得到全部类型的关键信息,可以仅得到其中的一部分类型的关键信息,这里不再穷举。
本实施方式针对意图特征的识别进行说明,那么医疗特征信息中,可以仅包括:至少一类关键信息以及至少一种意图特征。
获取至少一种意图特征的方式可以为关键词匹配的方式。具体来说,可以为利用前述文本元素中的至少一个词、和/或至少一个文字,进行匹配得到对应的意图特征。比如,将某一个词和/或文字作为关键词,基于关键词匹配得到对应的意图特征;当然,还可以理解为基于至少一类关键信息进行匹配得到意图特征,比如症状关键信息为疼痛,部位关键信息为头部,可以匹配得到意图特征为看病;再比如,“多少钱”这样的词可以匹配到的意图特征为花费;又比如“去*医院”这样的特征短语可以匹配到意图特征为医院相关。
前述步骤S12中,对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量,可以为:对至少一个词进行编码得到词对应的初始向量,对至少一个文字进行编码得到文字对应的初始向量,对医疗特征信息中的关键以及意图特征共同进行编码得到医疗特征信息对应的初始向量。
其中,对至少一个词以及至少一个文字进行编码可以分别采用第一词编码网络以及第一文字编码网络;均可以采用LSTM、CNN、RNN中的一种作为其编码网络。
对医疗特征信息中的关键以及意图特征共同进行编码得到医疗特征信息对应的初始向量,可以为第一特征编码网络,可以采用DNN网络实现。
参见图2进行说明,图中的输入可以理解为待分类文本,分别得到至少一个词、至少一个文字、至少一个医疗特征信息;其中,至少一个医疗特征信息中可以包括有关键信息以及意图特征。针对文字、词可以采用RNN网络进行处理得到编码,分别得到词的初始向量以及文字的初始向量;这里需要理解的是,至少一个字对应的初始向量可以为多维向量,也就是说多个字经过RNN网络处理能够得到三维向量,即3个编码值组成的向量,当然还可以为更多维度的向量,这里不做穷举;至少一个词的处理也是相应的处理,这里不再重复描述。
针对至少一个医疗特征信息中的关键信息以及意图特征的处理,可以采用DNN网络进行处理,同样也能够得到多维向量,比如可以为三维或四维向量,即能够得到3或4或者更多的编码值组成对应的多维向量。
所述基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签,包括:
将每一个维度所对应的初始向量进行拼接,得到拼接后的第一待处理向量;
将所述第一待处理向量输入至第一网络,得到所述第一网络输出的第一类输出向量,基于所述第一类输出向量确定所述待分类文本的第一类医疗标签;
其中,所述第一类输出向量中包含两位编码值,所述两位编码值分别表征所述待分类文本为医疗意图、以及所述待分类文本非医疗意图;
所述第一类医疗标签用于表征所述待分类文本是否为医疗意图。
其中,所述第一网络可以为DNN网络。
如图2所示,将文字的初始向量、词的初始向量以及医疗特征信息的初始向量进行拼接得到拼接后的第一类待处理向量。
再进一步,将第一类待处理向量输入至第一网络即图中的DNN网络,将第一类待处理向量输入至第一网络之后得到第一类输出向量,在本实施方式中可以为一个二维向量,也就是说可以输出两个编码值;其中,两个编码值可以分别对应医疗意图以及非医疗意图;假设,第一位编码值对应医疗意图,第二位编码值为非医疗意图,假设输出的两个编码值为(0,1),那么可以确认输入的待分类文本为非医疗意图,假设输出的两个编码值为(1,0),也就确认输入的待分类文本为医疗意图的文本。
本实施方式可以应用于智能分导诊***中,为了提高用户体验,需要过滤一些不是医疗相关的待分类文本及明显不是分导诊需求的待分类文本,如『今天天气很好』,『某某皮肤病的图片』等,以此保证***的输入是分导诊意图相关的。
医疗意图识别中,同样意图的待分类文本可能相似也可能不相似,不同意图的待分类文本也可能相似或者不相似。比如『感冒去哪看』和『上呼吸道感染去哪个科』就是意图相似,但文本不相似(感冒就是上呼吸道感染);『感冒吃什么药』和『感冒吃药花多少钱』就是文本相似,意图不同。在医疗意图的识别中,只利用神经网络虽然简单高效,但无法取得比较理想的结果,一是因为神经网络能学习出统计特征,但对于医学专业的逻辑推理特征很难学习到;二是因为意图不同的待分类文本,可能具有大部分相似的统计特征,加大了神经网络对这些待分类文本分类的难度。所以本实施方式结合了医疗特征,也就是意图特征以及及医学知识相关的关键信息作为输入,从而能够提高意图识别的准确率。
为了更好的对文本进行意图识别分类,采用神经网络方法结合特定意图关键信息及特定医学知识的技术方案,结合前述实施方式下面基于图3再进一步的进行说明,主要分为以下三步:
数据清洗,包括训练样本的构建,特殊字符的过滤等;具体的处理前面已经描述,这里不再赘述;
特征提取;具体可以为将待分类文本中的文字、词提取出来,以及基于NLU提取出关键信息,其中可以包含有症状、疾病、检查、部位等关键信息,还包括有基于文字、词、关键信息中至少之一匹配的方法得到对应的意图特征;
网络构建;对词和字特征,分别采用双向LSTM网络(或者RNN、CNN等网络)进行编码;对NLU提取出症状、疾病、检查、部位等关键信息以及意图特征,直接采用DNN网络进行编码,然后将三种输出的初始向量拼接得到第一类待处理向量,将第一类待处理向量输入DNN网络中,得到最终输出的第一类医疗标签。
可见,通过采用上述方案,能够对待分类文本进行多种粒度的信息提取,尤其是其中包含有医疗特征信息的提取,进而基于提取出来的医疗特征信息进行编码得到初始向量,在基于初始向量确定待分类文本的医疗标签。如此,就能够在进行待分类文本的处理的时候,在输入信息中添加医疗特征信息,从而增加了对待分类文本的识别结果的准确率。
另一种实施方式,仍基于上述图1所描述的步骤进行进一步说明,本实施方式与前实施方式不同之处在于,本实施方式所得到的医疗标签并非针对医疗意图,而是对待分类文本所对应的至少一种医疗科室的分类结果进行识别。具体的,
本实施方式同样需要进行待分类文本的过滤,以及至少一个文字和/或至少一个词的提取,均与前实施方式相同,本实施方式中不再赘述。
与前一个实施方式不同在于,本实施方式针对医疗科室的分类结果进行识别,那么医疗特征信息中,可以包括:至少一类关键信息以及至少一种医疗统计特征。
其中,获取关键信息的方式也与上述实施方式相同不再赘述。本实施方式中需要得到至少一种医疗统计特征,其获取方式可以理解为,基于至少一个文字、至少一个词、至少一类关键信息中至少之一,确定对应不同科室或不同科室分类下的统计数字;比如,词为“感冒”其对应的医疗统计特征可以为“呼吸科”80%,“妇科”0%,需要理解的是这里仅为示例,实际上可能存在更多的不同科室对应的医疗统计特征,只是不再穷举。
再进一步地,获取至少一种医疗统计特征可以为根据预设的分析模型确定不同词、文字、关键信息所对应的医疗统计特征,还可以根据预设的表格确定医疗统计特征,这里不再穷举。
还需要指出的是,本实施方式同样会执行步骤S12,对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;只是本实施方式中每一个维度所采用的网络中的至少一个参数与上一个实施方式中的参数可以不同。比如,对至少一个词以及至少一个文字进行编码可以分别采用第二词编码网络以及第二文字编码网络。同样的,均可以采用LSTM、CNN、RNN中的一种作为其编码网络,只是第二词编码网络以及第二文字编码网络,与前述第一词编码网络以及第一文字编码网络中的参数至少部分不同。
对医疗特征信息中的关键信息以及医疗统计特征共同进行编码得到医疗特征信息对应的初始向量,可以为第二特征编码网络,具体的可以采用DNN网络实现。同样的,第二特征编码网络与第一特征编码网络中存在至少部分不同参数。
本实施方式中S13中,所述基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签,如图4所示,包括:
步骤S131、将每一个维度所对应的初始向量进行拼接,得到拼接后的第二待处理向量;
步骤S132、将所述第二待处理向量输入至第二网络,得到所述第二网络输出的第二类输出向量;其中,所述第二类输出向量中包含有与至少一个医疗科室对应的至少一个编码值;
步骤S133、基于所述至少一个第二类输出向量,确定用于表征所述待分类文本对应的医疗科室的第二类医疗标签。
前述至少一个医疗科室对应的至少一个编码值,可以为针对每一个医疗科室均对应一个输出的编码值,这些编码值组成第二类输出向量。比如,可以有三个医疗科室,分别可以为第一医疗科室、第二医疗科室、第三医疗科室,并且三个医疗科室分别对应输出的多维向量中的不同的编码位,可以设置第一医疗科室对应第一位编码值,第二医疗科室对应第二位编码值,第三医疗科室对应第三位编码值;输出的向量为(1,0,0)那么可以确定第二类医疗标签指示向三个医疗科室中的第一医疗科室。
所述方法还包括:对所述第二类输出向量进行平滑处理,得到平滑处理后的至少一个医疗科室对应的第二类输出向量。具体说明如下:
本实施方式同样可以应用于智能分导诊***中,***根据用户的待分类文本,自动识别用户该去什么科室。比如:『上呼吸道感染去哪个科室?』,答案是『呼吸内科』;『腿肿该挂什么科室?』答案是『心血管内科或血管外科』等等。然而某些待分类文本所对应的科室是唯一的,某些待分类文本并不是唯一的,比如上述例子『腿肿该挂什么科室?』,咨询了医学专家后(要考虑症状的严重程度),结论是心血管内科和血管外科都正确,没有其他信息的情况下心血管内科优于血管外科。
也就是说,为了避免最终输出的第二类医疗标签过于绝对,可以对第二类输出向量进行平滑处理,进行平滑处理的方式可以为,基于预设的权重值对第二类输出向量的至少一个编码值进行调整;比如,基于预设的第一权重值对最大的编码值进行缩小,基于第二权重值对除最大编码值之外的其余编码值进行放大处理,需要保证的是,无论是调整前的编码值的总和、还是最终调整后的编码值总和,均等于1。比如,对前述(1,0,0)经过调整之后可以为(0.8,0.1,0.1)。
还需要指出的是,由于当随意输入一句话的时候,可能并非医疗意图,这种情况下进行医疗科室的识别可能得到的结果并非正确结果;因此,本实施方式可以提供进一步处理,即在执行步骤S11之前,判断所述待分类文本的第一类医疗标签是否为医疗意图。也就是说,执行本实施方式的时候,首先通过上一个实施方式进行判断输入的一句话是否为医疗意图,如果是,则执行本实施方式,进行医疗科室对应的第二类医疗标签的识别,如果不是,则不执行本实施方式。
为了更好的对文本进行科室分类,本实施方式提供的方案结合医疗特征信息之外,再结合标签平滑的方法。总体流程如图5所示,包括:
数据清洗,与图3提供的流程相同,不再赘述;
特征提取,与图3不同之处在于,需要获取词语在每个科室下的统计特征;也就是说,除了在关键特征外,还提取了词语在每个类别下的统计特征。
网络构建,对词和字特征,采用双向LSTM网络进行编码;对NLU提取出症状、疾病、检查、部位等关键信息以及词语统计特征,直接采用DNN网络进行编码,然后将三种特征的输出拼接,输入DNN网络中,得到第二类输出向量。
标签平滑,针对存在一个待分类文本属于多个科室的情况,例如:『我不舒服去哪个科室看一看』,这种无论去哪个科室都不算错误;在针对第二类输出向量的处理过程中,加入了标签平滑的方法,就是弱化过分依赖于一种科室的情况。完成标签平滑处理的第二类输出向量后,确定第二类医疗标签。
可见,通过采用上述方案,能够对待分类文本进行多种粒度的信息提取,尤其是其中包含有医疗特征信息的提取,进而基于提取出来的医疗特征信息进行编码得到初始向量,在基于初始向量确定待分类文本的医疗标签。如此,就能够在进行待分类文本的处理的时候,在输入信息中添加医疗特征信息,从而增加了对待分类文本的识别结果的准确率。
本发明的再一种实施例提供了一种图像质量评估装置,如图6所示,包括:
识别单元61,用于对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;
第一处理单元62,用于对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;
第二处理单元63,用于基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签。
在一种实施方式中,第二处理单元63,用于将每一个维度所对应的初始向量进行拼接,得到拼接后的第一待处理向量;将所述第一待处理向量输入至第一网络,得到所述第一网络输出的第一类输出向量,基于所述第一类输出向量确定所述待分类文本的第一类医疗标签;
其中,所述第一类输出向量中包含两位编码值,所述两位编码值分别表征所述待分类文本为医疗意图、以及所述待分类文本非医疗意图;
所述第一类医疗标签用于表征所述待分类文本是否为医疗意图。
在一种实施方式中,第二处理单元63,用于将每一个维度所对应的初始向量进行拼接,得到拼接后的第二待处理向量;将所述第二待处理向量输入至第二网络,得到所述第二网络输出的第二类输出向量;其中,所述第二类输出向量中包含有与至少一个医疗科室对应的至少一个编码值;基于所述第二类输出向量,确定用于表征所述待分类文本对应的医疗科室的第二类医疗标签。
在一种实施方式中,第二处理单元63,用于判断所述待分类文本的第一类医疗标签是否为医疗意图。
在一种实施方式中,第二处理单元63,用于对所述第二类输出向量进行平滑处理,得到平滑处理后的至少一个医疗科室对应的第二类输出向量。
需要说明的是,本发明实施例装置中的各单元的功能可以参见上述方法中的对应描述,在此不再赘述。
可见,通过采用上述方案,能够对待分类文本进行多种粒度的信息提取,尤其是其中包含有医疗特征信息的提取,进而基于提取出来的医疗特征信息进行编码得到初始向量,在基于初始向量确定待分类文本的医疗标签。如此,就能够在进行待分类文本的处理的时候,在输入信息中添加医疗特征信息,从而增加了对待分类文本的识别结果的准确率。
图7示出根据本发明实施例的文本分类装置的结构框图。如图7所示,包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置/设备/终端/服务器还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种文本分类方法,其特征在于,所述方法包括:
对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;
对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;
基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签;
其中,所述医疗特征信息包括至少一类关键信息,且包括至少一个医疗统计特征;所述至少一个医疗统计特征是基于所述文本元素和/或所述至少一类关键信息确定的对应不同科室或不同科室分类下的统计数字;
所述对待分类文本进行识别,得到至少一个维度的信息包括:利用自然语言理解,从待分类文本中提取其中包含症状、疾病、检查、部位中至少之一类型的关键信息;
其中,所述基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签,包括:
将每一个维度所对应的初始向量进行拼接,得到拼接后的第二待处理向量;
将所述第二待处理向量输入至第二网络,得到所述第二网络输出的第二类输出向量;其中,所述第二类输出向量中包含有与至少一个医疗科室对应的至少一个编码值;
基于所述第二类输出向量,确定用于表征所述待分类文本对应的医疗科室的第二类医疗标签;
其中,所述至少一种医疗统计特征为根据预设的分析模型或预设的表格确定的不同词、文字、关键信息所对应的医疗统计特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第二类输出向量进行平滑处理,得到平滑处理后的至少一个医疗科室对应的第二类输出向量。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述文本元素包括至少一个文字,和/或,至少一个词。
4.一种文本分类装置,其特征在于,包括:
识别单元,用于对待分类文本进行识别,得到至少一个维度的信息;其中,所述至少一个维度的信息至少包括有文本元素以及医疗特征信息;
第一处理单元,用于对所述至少一个维度的信息进行编码,得到每一个维度所对应的初始向量;
第二处理单元,用于基于每一个维度所对应的初始向量,确定所述待分类文本的医疗标签;
其中,所述医疗特征信息包括至少一类关键信息,且包括至少一个医疗统计特征;所述至少一个医疗统计特征是基于所述文本元素和/或所述至少一类关键信息确定的对应不同科室或不同科室分类下的统计数字;
所述识别单元,具体用于利用自然语言理解,从待分类文本中提取其中包含症状、疾病、检查、部位中至少之一类型的关键信息;
其中,所述第二处理单元,还用于将每一个维度所对应的初始向量进行拼接,得到拼接后的第二待处理向量;将所述第二待处理向量输入至第二网络,得到所述第二网络输出的第二类输出向量;其中,所述第二类输出向量中包含有与至少一个医疗科室对应的至少一个编码值;基于所述第二类输出向量,确定用于表征所述待分类文本对应的医疗科室的第二类医疗标签;其中,所述至少一种医疗统计特征为根据预设的分析模型或预设的表格确定的不同词、文字、关键信息所对应的医疗统计特征。
5.根据权利要求4所述的装置,其特征在于,所述第二处理单元,用于对所述第二类输出向量进行平滑处理,得到平滑处理后的至少一个医疗科室对应的第二类输出向量。
6.一种文本分类装置,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至3中任一项所述的方法。
7.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3中任一项所述的方法。
CN201910165382.6A 2019-03-05 2019-03-05 一种文本分类方法、装置及计算机可读存储介质 Active CN109840280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910165382.6A CN109840280B (zh) 2019-03-05 2019-03-05 一种文本分类方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910165382.6A CN109840280B (zh) 2019-03-05 2019-03-05 一种文本分类方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109840280A CN109840280A (zh) 2019-06-04
CN109840280B true CN109840280B (zh) 2023-07-18

Family

ID=66885337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910165382.6A Active CN109840280B (zh) 2019-03-05 2019-03-05 一种文本分类方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109840280B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263167B (zh) * 2019-06-20 2022-07-29 北京百度网讯科技有限公司 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN110379508A (zh) * 2019-06-27 2019-10-25 苏州浪潮智能科技有限公司 识别病情陈述中疾病参考信息的装置、方法、设备及介质
CN110428891A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 一种就诊意图的处理方法、装置及设备
CN111444960A (zh) * 2020-03-26 2020-07-24 上海交通大学 基于多模态数据输入的皮肤病图像分类***
CN111626063B (zh) * 2020-07-28 2020-12-08 浙江大学 一种基于投影梯度下降和标签平滑的文本意图识别方法及***
CN112069324A (zh) * 2020-08-27 2020-12-11 北京灵汐科技有限公司 一种分类标签添加方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271619A (ja) * 2008-05-01 2009-11-19 Toshiba Corp 医療情報処理装置及びプログラム
CN108492866A (zh) * 2018-02-08 2018-09-04 康美药业股份有限公司 基于售药机的导诊方法、售药机及存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、***、计算机设备和存储介质
CN108806785A (zh) * 2018-05-29 2018-11-13 四川长虹电器股份有限公司 一种基于卷积神经网络的诊疗科室推荐方法及***
CN108922608A (zh) * 2018-06-13 2018-11-30 平安医疗科技有限公司 智能导诊方法、装置、计算机设备和存储介质
CN108986907A (zh) * 2018-07-24 2018-12-11 郑州大学第附属医院 一种基于knn算法的远程医疗自动分诊方法
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
CN104021302A (zh) * 2014-06-18 2014-09-03 北京邮电大学 一种基于贝叶斯文本分类模型的辅助挂号方法
CN107610740A (zh) * 2017-07-27 2018-01-19 康美健康云服务有限公司 用于医疗的语义分析方法、电子设备、存储介质以及***
US10811125B2 (en) * 2017-08-21 2020-10-20 International Business Machines Corporation Cognitive framework to identify medical case safety reports in free form text
CN108256061A (zh) * 2018-01-16 2018-07-06 华东师范大学 医疗文本的检索方法、电子设备及存储介质
CN109637674B (zh) * 2018-10-30 2022-12-20 北京健康有益科技有限公司 自动获取健康医疗问题答案的方法、***、介质和设备
CN109271521B (zh) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 一种文本分类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271619A (ja) * 2008-05-01 2009-11-19 Toshiba Corp 医療情報処理装置及びプログラム
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN108492866A (zh) * 2018-02-08 2018-09-04 康美药业股份有限公司 基于售药机的导诊方法、售药机及存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、***、计算机设备和存储介质
CN108806785A (zh) * 2018-05-29 2018-11-13 四川长虹电器股份有限公司 一种基于卷积神经网络的诊疗科室推荐方法及***
CN108922608A (zh) * 2018-06-13 2018-11-30 平安医疗科技有限公司 智能导诊方法、装置、计算机设备和存储介质
CN108986907A (zh) * 2018-07-24 2018-12-11 郑州大学第附属医院 一种基于knn算法的远程医疗自动分诊方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
手术病例中结构化数据抽取研究;卢淑祺;窦志成;文继荣;;计算机学报(12);第166-180页 *

Also Published As

Publication number Publication date
CN109840280A (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN109840280B (zh) 一种文本分类方法、装置及计算机可读存储介质
CN110069779B (zh) 医疗文本的症状实体识别方法及相关装置
CN111985584B (zh) 基于多模态数据的疾病辅助检测设备、方法、装置及介质
CN109785311B (zh) 一种疾病诊断装置、电子设备及存储介质
EP3557584A1 (en) Artificial intelligence querying for radiology reports in medical imaging
CN111915584A (zh) 一种基于ct影像的病灶随访评估方法及***
CN113012155A (zh) 髋关节图像中骨骼分割方法、电子设备及存储介质
CN114912887B (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN113436754A (zh) 一种智能终端问诊的医疗软件及其方法
CN112883980A (zh) 一种数据处理方法及***
CN116484867A (zh) 命名实体识别方法及装置、存储介质、计算机设备
CN109493931B (zh) 一种病历文件的编码方法、服务器及计算机可读存储介质
CN115206478A (zh) 医学报告生成方法以及装置、电子设备、可读存储介质
CN112037904B (zh) 在线诊疗数据处理方法、装置、计算机设备和存储介质
CN113762285A (zh) 一种分析和处理医学影像的***及方法
CN117292783A (zh) 医学影像报告生成***
CN116453674A (zh) 一种智慧医疗***
CN112116976A (zh) 药品信息的处理方法、装置及计算机可读存储介质
CN115984179A (zh) 鼻骨骨折的识别方法、装置、终端及存储介质
CN114913995A (zh) 自助就诊方法、装置、设备及存储介质
CN114388123A (zh) 智能辅诊方法、装置、设备及存储介质
CN114664436A (zh) 一种基于智能体决策的急救辅助***
CN114049315A (zh) 关节识别方法、电子设备、存储介质及计算机程序产品
CN113870973A (zh) 基于人工智能的信息输出方法、装置、计算机设备及介质
CN113903433A (zh) 一种图像处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant