CN111370102A - 科室导诊方法、装置以及设备 - Google Patents
科室导诊方法、装置以及设备 Download PDFInfo
- Publication number
- CN111370102A CN111370102A CN202010081698.XA CN202010081698A CN111370102A CN 111370102 A CN111370102 A CN 111370102A CN 202010081698 A CN202010081698 A CN 202010081698A CN 111370102 A CN111370102 A CN 111370102A
- Authority
- CN
- China
- Prior art keywords
- department
- text
- classification
- inquiry
- key information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000003745 diagnosis Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 50
- 238000013145 classification model Methods 0.000 claims description 24
- 239000010410 layer Substances 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 11
- 239000002356 single layer Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 201000010099 disease Diseases 0.000 abstract description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 16
- 238000013461 design Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 230000002526 effect on cardiovascular system Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000012216 screening Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 7
- 206010020772 Hypertension Diseases 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000009795 derivation Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 208000019622 heart disease Diseases 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 208000012886 Vertigo Diseases 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 201000001421 hyperglycemia Diseases 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 231100000889 vertigo Toxicity 0.000 description 3
- 102100033587 DNA topoisomerase 2-alpha Human genes 0.000 description 2
- 101000801505 Homo sapiens DNA topoisomerase 2-alpha Proteins 0.000 description 2
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 208000015210 hypertensive heart disease Diseases 0.000 description 2
- 206010022437 insomnia Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 201000004384 Alopecia Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 208000008035 Back Pain Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 101150107801 Top2a gene Proteins 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000599 controlled substance Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000024963 hair loss Diseases 0.000 description 1
- 230000003676 hair loss Effects 0.000 description 1
- 230000023597 hemostasis Effects 0.000 description 1
- 230000003345 hyperglycaemic effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 208000013433 lightheadedness Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003860 sleep quality Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种科室导诊方法、装置以及设备。设计基础是1)使病患自主自助进行科室导诊查询,无需配置大量的医护人力。2)在自主自助查询时需对两个维度问题一并克服,从病患角度,需要去除专业医学信息的困扰;从自助***角度,需要提升对非专业病患输入的模糊查询信息的辨识和分析能力。因而,本发明提供的主要方案是先对输入的问诊文本进行初步科室识别和文本有效性判断,将可以直接进行科室推荐或非法问诊输入先行处理,进而采用文本分类以及关键信息检索的双策略联合方式,对无法直接推荐科室的有效的病情描述进行深入分析,从而给出准确、可靠的推荐就诊科室,引导患者顺利就医,进而缓解医院导诊咨询的压力。
Description
技术领域
本发明涉及智能应用交互技术领域,尤其涉及一种结合了人工智能文本处理技术的科室导诊方法、装置以及设备。
背景技术
随着当代就医问题的不断暴露,许多问题仍亟待解决。例如:由于医院的咨询台数量少而患者多,护士工作量大,无法帮助每一个病人,而导致患者在医院中就诊时对挂号科室有疑问却很难及时获得有效帮助,进而无法得到有效迅速的治疗。
即便很多医院以及企业推出了网络问诊/分诊服务,但从技术方案方面来讲,现有的绝大多数导诊***皆为基于特定模板的点选式导诊方案,科室导诊过程仅仅是让病患从多个病症选项模板中选择符合自身情况的一项或依据某一选项模板进行多轮提问。
经实际应用以及反馈发现,该导诊方式的病症覆盖度以及对输入信息的准确性判断均不佳,导致经常出现科室导诊失败或给出错误科室推荐的情况,尤其现有的导诊***过于依赖专业问询模板,也使得对普通病患用户的友好度不佳,增加了使用难度。
发明内容
本发明针对上述现有技术的弊端,提供了一种科室导诊方法、装置以及设备,本发明还相应提供了一种计算机可读存储介质以及一种计算机程序产品,通过以上形式,能够实现自动、智能地为病患提供科室导诊推荐,并且推荐结果更为准确可靠,改善病患的使用体验。
关于上述本发明采用的技术方案具体如下:
第一方面,本发明提供了一种科室导诊方法,包括:
对输入的问诊文本进行初步科室识别以及文本有效性判断;
基于未识别出科室的有效问诊文本,利用文本分类策略以及关键信息检索策略,获得作为候选的科室分类结果以及科室检索结果;
利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室。
在其中一种可能的实现方式中,所述文本分类策略包括由预先训练的若干分类模型输出若干所述科室分类结果。
在其中一种可能的实现方式中,所述关键信息检索策略包括:
结合所述分类模型的处理,从所述有效问诊文本中确定关键信息;
利用所述关键信息在预设的科室检索库中进行对应科室的检索。
在其中一种可能的实现方式中,所述分类模型包括卷积神经网络;
所述结合所述分类模型的处理,从所述有效问诊文本中确定关键信息包括:
根据所述卷积神经网络的卷积层的输出,确定所述有效问诊文本中每个字对应的特征参数;
基于所述卷积神经网络的最优科室分类结果以及所述特征参数,确定所述有效问诊文本中关键词的分布情况。
在其中一种可能的实现方式中,所述结合所述分类模型的处理,从所述有效问诊文本中确定关键信息具体包括:
获取最后一个卷积层输出的特征图;
对所述特征图降维,得到表征所述有效问诊文本中各字符的单层特征向量及其特征参数;
利用所述最优科室分类结果对所述特征参数求导,得到相应所述最优科室分类结果的类激活映射;
根据所述类激活映射的结果,确定所述有效问诊文本中各字的关键程度;
根据所述关键程度,提取出若干关键词。
在其中一种可能的实现方式中,对输入的问诊文本进行初步科室识别以及文本有效性判断采用以下方式的多种组合:关键词匹配、命名实体抽取以及语句合法性分类;
所述关键词匹配,用于根据所述问诊文本以及预设的问诊词库进行关键词匹配,若匹配到则直接识别出相应科室;
所述命名实体抽取,用于根据预设实体类型标签从所述问诊文本中抽取与其相应的实体信息,若抽取到则直接识别出相应科室;
所述语句合法性分类,用于判断所述问诊文本是否为有效的问诊语句类型。
在其中一种可能的实现方式中,所述对输入的问诊文本进行初步科室识别以及文本有效性判断包括:
先对所述问诊文本进行所述关键词匹配;
若未匹配到,则对所述问诊文本进行所述命名实体抽取;
若未抽取到,则对所述问诊文本进行所述语句合法性分类;
若分类结果为非法语句,则请求输入新的问诊文本;
若分类结果为合法语句,则得到所述有效问诊文本。
在其中一种可能的实现方式中,所述利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室包括:
将全部所述科室分类结果进行融合;
利用所述科室检索结果对融合后的科室分类结果进行权重调整;
根据权重调整结果,得到至少一个目标推荐科室。
第二方面,本发明提供了一种科室导诊装置,包括:
初步导诊模块,用于对输入的问诊文本进行初步科室识别以及文本有效性判断;
深入导诊模块,用于基于未识别出科室的有效问诊文本,利用文本分类策略以及关键信息检索策略,获得作为候选的科室分类结果以及科室检索结果;
目标确定模块,用于利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室。
在其中一种可能的实现方式中,所述深入导诊模块包括:文本分类子模块;
所述文本分类子模块用于由预先训练的若干分类模型输出若干所述科室分类结果。
在其中一种可能的实现方式中,所述深入导诊模块还包括:关键信息检索子模块;
所述关键信息检索子模块具体包括:
关键信息确定单元,用于结合所述分类模型的处理,从所述有效问诊文本中确定关键信息;
科室检索单元,用于利用所述关键信息在预设的科室检索库中进行对应科室的检索。
在其中一种可能的实现方式中,所述分类模型包括卷积神经网络;
所述关键信息确定单元具体用于:
根据所述卷积神经网络的卷积层的输出,确定所述有效问诊文本中每个字对应的特征参数;
基于所述卷积神经网络的最优科室分类结果以及所述特征参数,确定所述有效问诊文本中关键词的分布情况。
在其中一种可能的实现方式中,所述关键信息确定单元具体包括:
特征图获取组件,用于获取最后一个卷积层输出的特征图;
单层特征参数确定组件,用于对所述特征图降维,得到表征所述有效问诊文本中各字符的单层特征向量及其特征参数;
类激活映射运算组件,用于利用所述最优科室分类结果对所述特征参数求导,得到相应所述最优科室分类结果的类激活映射;
关键度确定组件,用于根据所述类激活映射的结果,确定所述有效问诊文本中各字的关键程度;
关键词提取组件,用于根据所述关键程度,提取出若干关键词。
在其中一种可能的实现方式中,所述初步导诊模块采用以下多种单元组合:关键词匹配单元、命名实体抽取单元以及语句合法性分类单元;
所述关键词匹配单元,用于根据所述问诊文本以及预设的问诊词库进行关键词匹配,若匹配到则直接识别出相应科室;
所述命名实体抽取单元,用于根据预设实体类型标签从所述问诊文本中抽取与其相应的实体信息,若抽取到则直接识别出相应科室;
所述语句合法性分类单元,用于判断所述问诊文本是否为有效的问诊语句类型。
在其中一种可能的实现方式中,所述初步导诊模块具体用于:
先利用所述关键词匹配单元对所述问诊文本进行所述关键词匹配;
若未匹配到,则利用所述命名实体抽取单元对所述问诊文本进行所述命名实体抽取;
若未抽取到,则利用所述语句合法性分类单元对所述问诊文本进行所述语句合法性分类;
若分类结果为非法语句,则请求输入新的问诊文本;
若分类结果为合法语句,则得到所述有效问诊文本。
在其中一种可能的实现方式中,所述目标确定模块包括:
分类结果融合单元,用于将全部所述科室分类结果进行融合;
权重调整单元,用于利用所述科室检索结果对融合后的科室分类结果进行权重调整;
目标推荐科室确定单元,用于根据权重调整结果,得到至少一个目标推荐科室。
第三方面,本发明提供了一种科室导诊设备,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
应当理解的是,本发明的第二至三方面与本发明的第一方面的技术方案构思统一,各方面及对应的可行实施方式所取得的有益效果相似。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第五方面,本发明还提供了一种计算机程序产品,当所述计算机程序产品被计算机执行时,用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。
在第五方面的一种可能的设计中,该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或者全部存储在不与处理器封装在一起的存储介质上。
本发明的核心构思主要建立在两个前提条件基础上,1)使病患自主自助进行科室导诊查询,无需配置大量的医护人力。2)庞大的病患群体属于非医学专业人员,在自主自助查询时需对两个维度问题一并克服——从病患角度,需要去除专业医学信息的困扰;从自助***角度,需要提升对非专业病患输入的模糊查询信息的辨识和分析能力。
因而,本发明提供的主要方案思路是首先对输入的问诊文本进行初步科室识别和文本有效性判断,将一些可以直接进行科室推荐或非法问诊输入先行处理,进而采用文本分类以及关键信息检索的双策略联合方式,对无法直接推荐科室的有效的病情描述进行深入分析,从而给出准确、可靠的推荐就诊科室,引导患者顺利就医,进而缓解医院导诊咨询的压力。
进一步地,本发明结合了专家知识***和人工智能技术文本处理的应用,利用处理文本分类任务的预建模型进行智能科室分类,因而能够更好地识别出不常见病情或模糊的病情描述所对应的就诊科室,以帮助患者更高效地进行挂号和就医。
进一步地,本发明还在具体的模型算法基础上,提出了基于文本的类激活映射处理思路,从而可以借由提取到的核心关键词及相应检索操作对已分类的诊室结果进行“重排序”,经此过程可使得输出的各类科室结果的准确率和召回率得到进一步提升,进而可以在有效提高准确率的同时,使推荐结果更加稳定。
综上,相较现有技术而言,本发明在真实的医疗应用环境以及多种场景挑战中能够更为优异地解决现有技术不能解决或忽视掉的问题。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的科室导诊方法的实施例的流程图;
图2为本发明提供的确定目标推荐科室的实施例的方法流程图;
图3为本发明提供的关键信息获取的实施例的方法流程图;
图4为本发明提供的关键信息检索策略的实施例的过程示意图;
图5为本发明提供的科室导诊装置的实施例的方框示意图;
图6为本发明提供的科室导诊设备的实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
从技术方案方面来讲,现有的点选式导诊方案虽然可以实现用户自助查询的功能,但其判断本质为决策问题。此类导诊***依赖预设的模板,仅仅是让病人从多个病症选项中选择符合自身情况的一项,或依据某一选项继续进行提问。例如***会要求患者填入基本信息,如:年龄,性别等;而后***会要求患者选择发生不适部位,如头、颈、胸、腹、背等;进而选择不适症状,然后根据以上信息列出可能的疾病;最后为患者提供这些疾病的就诊科室,病因,症状,检查项目,治疗方法等详细信息。此类导诊方案至少有如下缺点:一方面,依赖模板的规模,通常仅能给出有限范围的选项,因此不能保证覆盖每一个病人的每一种病症描述,更无法保证所推荐科室的准确性;另一方面,对病患的专业要求较高,需要患者根据主观感受匹配相应的医学术语进行选择,例如区分出腰骶疼痛与腰背疼痛,这无异于额外增加了自助导诊***的使用难度以及适用性。
本发明在设计之初,经分析认为产生上述缺陷的背后实质是现有技术的构思中忽视了庞大的非专业病患群体的使用感受以及群体规模带来的多样性问题。因此,本发明旨在不对患者自主自助输入的病情描述作苛刻要求,也无需进行反复的专业提问,而是仅凭原始输入信息与文本处理技术的有机结合,对输入信息进行深入地识别、分析和判断,从而给出准确可靠的科室导诊推荐。
具体来说,本发明提供了一种科室导诊方法的实施例,如图1所示,可包括如下步骤:
步骤S1、对输入的问诊文本进行初步科室识别以及文本有效性判断;
步骤S2、基于未识别出科室的有效问诊文本,利用文本分类策略以及关键信息检索策略,获得作为候选的科室分类结果以及科室检索结果;
步骤S3、利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室。
也即是本发明体现在上述实施例的构思,是将科室导引任务分解成各司其职但又相互关联的三个阶段:初步识别、深入识别、目标筛选。之所以形成上述框架,与前文分析出的现有技术问题所在息息相关,因为本发明不对病患用户的输入信息做过多要求,所以由初步识别阶段可从中过滤掉能够直接确定科室的问诊信息以及那些非法的与问诊相关性弱的输入信息,而剩下的不能直接快速定位到科室且又属于合法有效的问诊信息,则进入到深入识别阶段。在深入识别阶段所处理的对象仍是原始的且经由初步识别甄别后的问诊信息,所以无需继续向用户追加“不友好”的专业问题,也无需用户给出其他的问询信息,而是由计算机根据与两种文本处理相关的预制算法进行“自我”判断得出候选的科室推荐结果;这里所谓候选,必然包含着不同可信度的暂定结果,因此便来到最后的目标筛选阶段,由不同文本处理策略的不同结果综合遴选出目标推荐科室。
具体来说,本发明并不对原始的用户输入格式进行限定,例如可以是语音输入也可以是键盘或手写录入,当然在某些场景中还可能包含文字图像输入等,但无论何种输入方式,都会处理为文本形式,而由语音、图像转化为文本格式属于现有技术,此过程不在本发明探讨范围内。
在拿到用户输入的问诊文本后,便可以进入到初步识别阶段。由文本信息识别其中有效内容以及判断其语法规则是否合法等方式,可以借鉴文本处理以及自然语言理解领域中的多种现有成熟技术,例如可以利用但不限于关键词匹配、命名实体抽取以及语句合法性分类等手段中的一种或多种。本领域技术人员可以理解的是,上述具体手段本身作为一种文本处理工具,并不是本发明提出的技术侧重点,本发明的技术构思源于前文内容的对技术问题的分析。具体在初步识别阶段使用何种工具以及如何使用工具,可依据需要进行调整,但为了便于理解和实施本发明方案,此处对上述工具作用进行示意性介绍:
(1)关键词匹配(与后文提及的深入识别阶段的关键信息匹配没有关联),其主要作用是根据所述问诊文本以及预设的问诊词库进行关键词匹配,若二者匹配,则可以直接识别出相应科室。
更为具体地,可以采用自加权编辑距离的关键词匹配方法,这里结合现有技术做相关介绍:编辑距离(Edit Distance)是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。该具体实施例采用自加权编辑距离(Weighted Edit Distance)进行关键词匹配。首先可以预先设置标准的问诊词库,其中还可囊括疾病名称词库、症状名称词库、标准部位名称词库、检查检验名称词库等。
记此词库为C,各元素为ck,k∈n,则有:C={c1,c2,c3,...,cn},令lc k=ck的词长。在计算编辑距离时,基于传统公式,在每次运算时考虑权重,如计算输入词w与问诊词库中ck词的编辑距离,可令lw=w的词长,建立维度为lc k×lw的矩阵d。对d任意位置的权重函数(权重函数的物理含义是指根据位置和词库确定权重,例如权重可根据位置单调增)则为:
α[i][j]=f(w[i],ck[j]),i∈(0,lw)j∈(0,lc k]
计算编辑距离时,列举其中一步计算公式为例:
d[i][j]=min{d[i][j]+α[i][j],d[i-1][j]+α[i-1][j],d[i][j-1]+α[i][j-1]}
最终输入词w与问诊词库中ck词的编辑距离记为D,接着可与预设阈值T作比较,若D>T匹配失败,若D<T则匹配成功,并记录该关键词ck。
例如,输入的所述问诊文本为“睡觉质量差,长期失眠”经与预设的问诊词库匹配后,从中得到关键词“失眠”这类特异性较高的词语,进而便可以直接定位到神经内科或睡眠科,也即是经由此关键词匹配便可给出初步识别结果,从而快速直接地引导病患到到相应科室就诊。
(2)命名实体抽取,其主要作用是根据预设实体类型的标签,从所述问诊文本中抽取与其相应的实体信息,若抽取到相关实体,则直接识别出相应科室。
更为具体地,命名实体识别(Named Entity Recognition,简称NER)额可以识别文本中具有特定意义的实体,该具体实施例中共设置下表中的五种标签,可对病患输入的问诊文本进行实体识别及抽取:
同样地,当获取到与预设标签相应的实体(表明特异性较高)后,则可以直接锁定到对应科室。
(3)语句合法性分类,其主要作用是判断所述问诊文本是否为有效的问诊语句类型。也即是通过语义理解以及设定的规则判断当前问诊文本与问诊需求是否相关,这主要还是考虑到本发明的初衷为了面向大规模的非专业病患群体,不会对病患用户的输入作出苛求,因而这其中可能包含非法输入或者干扰后续处理的无效输入等。
本领域技术人员应知晓,上述工具仅为示例性介绍,而非限定。并且具体采用何种手段以及如何组合皆可变更,例如可以将上述(1)(3)结合使用、也可以将(2)(3)结合使用,还可以(1)(2)(3)共同使用。并且在使用各手段时的先后次序也可以依据实际情况进行调整,例如并行执行,哪一个工具最先获得结果则终止其他工具的执行;或者按序执行,例如先进行合法性分类再进行关键词匹配和/或实体抽取。
此处,本发明结合实际场景的处理经验,提供如下至少一种优选的初步识别流程,即先对所述问诊文本进行所述关键词匹配,这是由于词库的建立既有其普遍性也有其覆盖面的局限性,因此可先进行关键词的匹配,通过前文介绍,可根据特异性明显的词语迅速匹配到相应科室;如果没有匹配到关键词,则表明文本信息超出了词库的覆盖范围,则可以进一步对所述问诊文本进行所述命名实体抽取,由于命名实体抽取算法相对于人工构建的词库而言,具有更广泛的覆盖范围,因此可做关键词匹配工具的补充工具;如果在此基础上也未抽取到与标签相应的实体,则表明文本信息也已超出实体抽取算法的范围,当然,这在医疗场景中是常见现象,如前文分析,病患群体的数量以及个体差异会导致所描述的内容千差万别,因此,再经由上述工具处理仍不能初步识别出科室结果,则可以认为至少存在两种可能,一种是用户输入的内容不是有效的合法问诊信息,应予排除;或者另一种则是用户输入的内容是有效的合法问诊信息,但因为表述特异性较低,初步识别中的工具手段已无法辨识,此时便可以交由后续的深入识别阶段交由联合策略决策出候选结果。因此,当实体抽取失败后,则可以进行语句合法性分类,分出有效问诊文本或非法的无效文本,这里还需说明的是,当最后判定为无效文本时,在本发明的其他实施例中可以给出问诊无效的提示信息,并返回到初始步骤请求用户重新输入问诊信息,对此本实施例不做限定。
此外,还需说明的是,在进行上述初步识别前还可以对拿到的问诊文本进行文本预处理,例如可以依据word2vec技术,将用户输入的高维空间语句嵌入(embedding)到一个低维数的连续向量空间。再根据CNN与LSTM模型的特性,以每条问诊语句分词后的词汇数量作为标准,将所得数据区分为长数据与短数据。长短数据分类标准可以是以分词后的数量与预设的长度(例如30)作比较,长度大于30的数据归为长数据,反之则归类为短数据。为了便于之后的操作处理,还可以对数据长度进行统一,例如长数据通过填0值(padding)使其长度为150,若原数据的长度超过150则截断在150;或者短数据通过填0值使其长度为30。当然,还可以进行去除停用词等等本领域常规的文本预处理方式,对此本发明仅作上述示意性举例,不再赘述。
接续前文,在经由前序初步处理后,则可以获得那些未被迅速识别但属于有效问诊文本的输入信息,接着便进入到由文本分类以及关键信息检索联合的多策略决策过程,即由深入识别阶段对那些特异性较低的合法问询进行进一步辨识,并输出候选科室结果,对此过程将在下文中做具体介绍。此处先对最后从候选中确定目标科室的目标筛选阶段进行介绍。
文本分类技术以及关键信息检索技术本身在本领域中存在多种可选用的工具,如前文提及的,本发明前述核心处理框架并非是对孤立的工具本身进行侧重设计,而是针对深挖出的现有技术问题的背后成因,提出了一种综合了相互联系且各司其职的处理方案。而在深入识别阶段中可用到文本分类及检索工具则可以是多选的,并且通常在本领域中对文本进行分类以及检索后,皆可能获得每一个分类类别以及检索结果的得分,这里的得分即是表明所分出的科室类别的可能性(如概率值)以及检索到科室类别的相关性(如相似度分数)。换言之,候选的科室分类结果以及科室检索结果可以包括分类及检索后所获得的多个待定科室名称以及相应的处理得分,并且在某些实施例中还可以进一步基于该得分,对所有分类结果进行“精选”以及对所有检索结果进行“精选”,例如科室分类结果最终可以按分值排序获得TOP5,对科室检索结果按分值排序可获得TOP3。因而在目标筛选阶段,既可以利用候选科室的名称进行筛选,也可以利用全部候选分值进行筛选,例如可以提取科室名称重复次数符合阈值的候选结果(如,上例中8个候选里重复且次数最多的)作为目标科室,也可以直接按照各候选科室的得分(上例中的8个候选的得分)进行排序,选择分值符合阈值的若干个候选结果作为目标科室。当然,还可以将科室名称与得分进行结合考虑,共同作为筛选依据,对此本发明不作限定。
此处,本发明再提供另一种较佳的确定目标推荐科室的筛选思路,如图2所示,可以包括:
步骤S31、将全部所述科室分类结果进行融合;
步骤S32、利用所述科室检索结果对融合后的科室分类结果进行权重调整;
步骤S33、根据权重调整结果,得到至少一个目标推荐科室。
该处理思路的重点在于将其中一种策略的候选结果进行更新,并以另一种策略的候选结果作为“增量砝码”,使得更新后的策略输出结果更为可控,尤其当存在多个候选结果且期待最终推荐的目标科室也为多个时,依靠上述方式可以使得分值相对较低的候选结果处于一种“不离谱”的合理状态。因此可以理解地,在某些实施方式同样也可以先融合科室检索结果,再使科室分类结果对科室检索结果进行权重调整,此处不作赘述。而需要对图2示例说明的是,这里所述将全部科室分类结果进行融合至少包括两层含义:
其一、当分类工具采用一种时,这里的融合可以理解为该工具输出的若干科室分类结果可先做内部融合,例如但不限于可以对TOP5的所有分类结果做分值求均值操作,利用该均值再进一步作科室分类结果的二次过滤(例如根据该均值从TOP5再精选为TOP2);或者保留该均值,之后利用科室检索结果进行权重调整操作时,可将检索分值与该均值(其他融合方式不限于该均值)进行加权求和与计算等,最后根据最终分值,对各候选结果进行重排序,得到目标推荐科室。需知晓,以上仅为示意性介绍。
其二、由于本发明不限定文本分类策略以及关键信息检索策略所用具体工具的数量,因而当分类工具采用多种时,这里的融合可以理解为在多个分类工具输出的若干科室分类结果之间做融合操作,例如但不限于选出多个分类工具给出的重复科室名称,或者也可以将多个分类工具给出的重复科室的相应分值进行累加,并对更新分值后的全部科室分类结果重新排序,再提取分值靠前的TOPn。同理,以上仅为示意性介绍。
接着,利用科室检索结果对融合后的科室分类结果进行权重调整,则可以是指将融合后的当前若干科室分类结果视为对象,利用科室检测结果提升相关对象的重要程度,也即是对科室分类结果进行优化。需指出,权重调整不局限于分值等调整,只要可以影响某对象的重要程度,皆属于权重调整,例如将同时出现于融合后的科室分类结果以及科室检测结果的对象科室作为目标推荐侧重选(当然那,如果考虑分值层面,则可以如前文介绍,将科室检测结果得分乘以名称相同的融合后的科室分类结果),使其在融合后的科室分类结果中“脱颖而出”;如果没有重复结果,则可以利用科室检测结果作为基准,在融合后的科室分类结果中查找相关科室,例如检索结果中出现“心脏内科”,而融合后的分类结果中虽然没有“心脏内科”但出现了“心血管科”,因而检索结果的“心脏内科”便可以提升“心血管科”在融合后的科室分类结果中的重要程度,当然,这种相关科室查找的过程不仅可以基于字面相似进行比较,还可以结合专家知识进行语义层面的关联,例如睡眠科与神经内科也具有强相关性,二者相互之间也可实施权重增量操作。
上述权重调整皆为不做限定的可选措施,并且在科室分类结果对科室检索结果进行权重调整的实施方式中同样适用,最终,经由上述重要性的调整后,便可将“脱颖而出”的若干候选科室作为目标推荐科室。
此处开始,将对由文本分类以及关键信息检索联合的多策略决策过程进行具体说明,所谓联合,是指由多个不同处理维度的策略进行并行独立或相互关联的协作,联合的目的是可以避免单一处理策略的局限,以便得到更为可靠或覆盖更为广泛的候选结果。
如前文提及的文本分类的方式可有多种工具可供借鉴使用,因而,本发明在一些优选方案中,结合人工智能领域中的文本处理技术,提出在其中至少一种可能的实现方式中,前述文本分类策略可以是指由预先训练的若干分类模型输出若干所述科室分类结果。而所述分类模型的数量、架构以及具体选型,则同样可不作限定。此处介绍两种适用本发明构思的优选文本处理模型以供参考:
(一)用于文本分类处理的自注意力双向长短期记忆人工神经网络(Self-attention BiLSTM)。
RNN(Recurrent Neural Network)是一种比较常用的文本分类方法,而为了解决RNN中梯度***和梯度消失的问题,后提出了长短期记忆模型(Long Short Term Memory,LSTM)。通过增加输入门、输出门以及遗忘门来解决RNN具有的问题。自注意力模型(self-Attention model)则利用注意力机制来动态的生成不同连接的权重,处理变长的信息序列。
假设问诊文本语句的长度为n,每个词embedding的维度为k,则Self-AttentionBiLSTM(下文简称为Self-Att)输入为一个n×k的矩阵,且每个time-step处理一个词,经过n个time-step处理完一整句。举其中第t个时刻为例,这一时刻对应词为xt,上一时刻隐状态为ht-1,ht-1维度为m,计算方法如下:
a)遗忘门:ft=σ(Wf[ht-1,xt]+bf),输出一个在0到1之间的数值,这个数值决定要遗忘多少历史信息。1表示完全保留,0表示完全舍弃。
b)输入门:it=σ(Wi[ht-1,xt]+bi)
C′t=tanh(W[ht-1,xt]+bc)
ct=ft*ct-1+it*C′t,更新当前的细胞状态,决定哪些历史信息该流入当前细胞中(遗忘门控制),决定哪些新的信息该流入细胞中(输入门控制)。
c)输出门:ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(ct)
由此决定输出值中有多少信息流入到隐层中,BiLSTM为前向的LSTM与后向的LSTM的结合,只需将向前向后的ht拼接得到新的ht即可。对ht进行变换可得到yt,每个时刻可得到对应的yt,最终可得到含有n项(与句子长度相同)的输出序列Y={y1,y2,y3,...,yt,...yn}。
然后,进入Self-Attention机制。假设:yi∈Y,及i∈n,yi维度为m。Self-Attention计算过程如下:
vi=yiWv,其中Wv维度为m×m,得到vi的维度为m。
βi=qi·yi,得到Y中每一个yi(每一个字)的注意力分布βi,为标量。
最后,通过一系列全连接层与Softmax分类,便可以得到分类结果及其分数,以本发明上述示例而言,便可以得到该工具下的科室分类结果TOPn,可以记为,候选的科室名称RLSTM及其得分SLSTM。
(二)用于文本分类处理的卷积神经网络模型(Text-Convolutional NeuralNetwork,TextCNN)。
TextCNN的原理等同图片分类中的卷积神经网络,其通过数个定长的核进行卷积运算提取特征,再经过池化层(pooling)得到简化的特征,最后通过全连接层得到分类结果。当卷积核长度为n时,该方法类似于生成n-gram特征,能够捕捉局部语义信息,因此对局部特征提取能获得较好的效果。
假设问诊文本语句中的第i个词xi∈Rk是一个k维向量,则长度为n的句子可以表示为其中表示并置符号。则xi:i+j表示xi,xi:i+1直至xi:i+j的并置向量。每个卷积层中设计过滤器w∈Rhk,其宽度与k保持一致,并能覆盖h个词而产生一个新的特征图。例如,对于覆盖xi:i+h-1产生的特征ci,有计算式:
ci=f(wxi:i+h-1+b)
其中b∈R为偏置,f为激活函数。当此过滤器应用于整句:{x1:h,x2:h+1...xn-h+1:n},则可得到特征向量,依据上图注释,可知一共有m′=p×m个卷积核,则共有m′个特征向量:
qi=[c1,c2,...,cn-h+1],c∈Rn-h+1,i∈m′
对每个特征向量进行最大池化,最终拼接为维度为m′的向量,通过全连接层与Softmax进行分类,便可以得到分类结果及其分数,以本发明上述示例而言,便可以得到该工具下的科室分类结果TOPn,可以记为,候选的科室名称RCNN与其得分SCNN。
以上,本领域技术人员可以理解本发明并不对上述文本分类策略所用方式进行数量和选项限定,也同样不对关键信息检索策略所用方式作出限定,因此,关于关键信息检索策略可选用多种已有方案,尤其与机器学习相关的诸如推荐排序、语义匹配、关联规则等等;但需指出此处的关键信息检索与在先的初步识别中提及的关键词匹配并不是相同的处理逻辑,在先的关键词匹配其目的是期望快速、直接地从用户输入中定位到相应科室,因此其实现过程,例如所述问诊词库的构建也可相对简单,并无需采用复杂的检索处理工具。
接续前文,本发明在此处提供一种与分类策略关联协作的关键信息检索优选方案,即检索策略的具体实现可以结合所述分类模型的处理过程,从有效问诊文本中确定出关键信息,再利用关键信息在预设的科室检索库中进行对应科室的检索。该优选方案的构思在于并不孤立地针对有效问诊文本进行关键信息检索,而是将分类模型的贡献作为检索策略的依据或者条件,使得检索结果更趋于可控的范围,尤其对后续利用检索策略的输出对分类策略输出进行重要度调整而言,更具有操作性和针对性。
对于上述较佳的关键信息检索方式,可以理解为其分成关键信息获取阶段以及实际检索阶段。针对其中所述关键信息获取阶段,当采用不同的分类模型也可以产生不同的对应方案,在此,结合前文提及的分类模型选用基于文本的卷积神经网络实施例,本发明相应地提出一种具体的关键信息获取方式,其实现过程可以概括为是一种基于文本的类激活映射方式:先根据所述卷积神经网络的卷积层的输出,确定所述有效问诊文本中每个字对应的特征参数;再基于所述卷积神经网络的最优科室分类结果以及所述特征参数,确定所述有效问诊文本中关键词的分布情况。
关于类激活映射可以说明的是,采用此构思的终极目标是期望得到对结果影响更为重要的核心关键信息,具体来说,本发明提出的是基于文本的类激活映射(Text-basedClassify Activation Mapping,Text-CAM)以得到的与最优科室分类结果相关的有效问诊文本中的核心关键词,其原理基于类激活映射(Class Activation Mapping,CAM)算法,该算法将传统的CNN网络结构中全连接层替换为GAP层,并将它们作为得出分类的全连接层的特征。通过这种简单的连接结构,可以把图片中的重要区域用输出层权重映射回卷积层特征的方式标记出来。然而由于目前大多数CNN网络并没有使用GAP(全局平均池化)作为特征提取,故现有技术在使用上述CAM的实现方式需要修改网络结构并对模型进行重新训练。
为此,本发明提出了一种不需要GAP层,也不需要改变网络结构的提取关键信息的方法,即上述基于文本的类激活映射(Text-based Class Activation Mapping,Text-CAM)。Text-CAM可以形成文本原句中每个字所对应的特征参数,进而判断出CNN输出的最高分的分类结果相对于文本原句的关注点,从而在文本原句中提取到关键信息的分布情况。
更为具体地,在本发明的一些实施例中可采用图3示出的实现过程,所述关键信息获取阶段具体包括:
步骤S21、获取最后一个卷积层输出的特征图;
步骤S22、对所述特征图降维,得到表征所述有效问诊文本中各字符的单层特征向量及其特征参数;
步骤S23、利用所述最优科室分类结果对所述特征参数求导,得到相应所述最优科室分类结果的类激活映射;
步骤S24、根据所述类激活映射的结果,确定所述有效问诊文本中各字的关键程度;
步骤S25、根据所述关键程度,提取出若干关键词。
对于图3的实施方式,再以如下示例进行操作层面的示意:假设所述有效问诊文本中句子的向量维度为n×k,TextCNN最后一层卷积核数量为m′,则经过卷积后的特征图维度为n×m′。其中每一列代表一个特征向量。其中任意一个特征向量都经过padding保持维度与句子长度一致,即:特征向量qi,i∈m′,维度为n。基于此,关键信息的提取可分为两步:
第一步,将多层特征转为单层特征,步骤如下:
对m′个γ向量化,得到γ=[γ1,γ2,γ3,...,γi]。
对n个fj向量化,最终将维度为n×m′的特征图转化为维度为n(与句子长度相同)的单层特征参数向量f:f=[f1,f2,f3,...,fn]。
第二步,对单层特征进行求导。假设TextCNN判断出的最优类别为c,其得分为yc,对每一个fj,j∈n进行求导:
关于所述实际检索阶段可以理解为独立于上述关键信息获取阶段,也即是无论采取何种关键信息获取方式,在实际检索阶段,皆可围绕着与预设的科室检索库中(可由专家知识***以及数据采集技术,具体构建出基于大量病例以及问诊数据的科室检索数据库)相似问诊数据所对应科室和/或所对应文本的相关程度进行检索操作。
结合上述优选的关键信息获取方法,以图4示出了完整的所述关键信息检索策略,经过上述Text-CAM可以得到有效问诊文本的关键词KeywordText-CAM,进而使用KeywordText-CAM在包含病症信息和对应就诊科室的科室检索库中进行检索。此处本领域技术人员可以理解的是,对于有效问诊文本可经过前期的文本预处理,例如分词、去停用词等(需指出的是,此处的文本预处理操作可以是指“初步识别阶段”前的预处理操作,也可以是指经由“初步识别阶段”得到有效问诊文本后重新预处理操作)。接着,本发明在某些实施例中进一步可以采用比较成熟的检索***完成所述实际检索,例如但不限于采用ElasticSearch(以下简称ES),其使用的算法为BM25,ES对每一个有效问诊文本会同时返回指定数量的检索结果以及每一个检索结果的相似度得分。按本发明前文示例的方式,由该工具得出的科室检索结果TOPn,可以记为,候选的科室名称RES及其得分SES。
综合上述深入识别阶段的说明,对前文中提及的目标筛选阶段可做如下优选的示意性介绍。在该示意性说明中,文本分类策略采用Self-Attention BiLSTM以及TextCNN两种工具,而关键信息检索策略则是根据TextCNN生成的关键特征向量求导得出最优分类的类激活映射提取关键词,并在预设的科室检索库中检索出候选结果。
具体地,首先可以将TextCNN以及Self-Attention BiLSTM得到的若干候选科室进行融合排序。实际操作方式可以为对比RCNN与RLSTM,将重复科室的得分SCNN与SLSTM相加,得到SCNN-LSTM;再根据更新的得分,可取TOP5构建更新后的候选科室列表,并记为R。然后再与KeywordText-CAM检索得到的RES对比,如RES中的科室出现在更新后的候选科室列表中,则将SES与SCNN-LSTM相乘,经过归一化得到最终得分;最后对列表重排后,取其中得分最高的TOP2作为目标推荐科室输出。对于候选科室列表j的分数计算:
最后再以一个实例对深入识别阶段以及目标筛选阶段进行综合说明:假设经初步识别阶段获得的有效问诊文本为“老人昨天晚上吃完饭准备睡觉的时候突然鼻孔流血,高举双手按压止血等措施都止不住,头晕目眩,平时高血压高血糖,有心脏病,做过支架,一直吃着控制的药物”。
首先进行分词可得“老人/昨天/晚上/吃完饭/准备/睡觉/的/时候/突然/鼻孔/流血/高举/双手/按压/止血/等/措施/都/止不住/头晕目眩/平时/高血压/高血糖/有/心脏病/做过/支架/一直/吃着/控制的/药物”。接着经过padding(长数据填充0至150),并依据word2vec进行word embedding形成词向量,维度为150×300:
通过Self-Attention BiLSTM模型,得到结果RLSTM,SLSTM如下表:
科室名称 | 分值 |
心血管内科 | 0.6527 |
眩晕科 | 0.0748 |
耳鼻喉科 | 0.0599 |
神经外科 | 0.0194 |
消化内科 | 0.0186 |
通过TextCNN模型,得到结果RCNN,SCNN如下表:
科室名称 | 分值 |
心血管内科 | 0.7851 |
神经外科 | 0.0512 |
眩晕科 | 0.0352 |
内分泌科 | 0.0121 |
心理科 | 0.0102 |
通过Text-CAM得出关键词列表L:
L=[按压,心脏病,昨天晚上,高血糖,高血压,支架,吃完发]
根据L在科室检索库中检索,得到检索结果RES(检索分数未示):
高相似度文本(去停用词后) | 科室名称 |
做完覆膜支架血压高高压低压 | 心血管内科 |
高血压心脏病高血糖血压下午高 | 心血管内科 |
血压做心脏支架安装 | 心血管内科 |
高血压心脏病 | 心血管内科 |
心脏病高血压病做无 | 心血管内科 |
对SLSTMSCNNSES进行计算,得到最终推荐科室列表R与对应分数S。经过重排序后取Top2作为推荐科室,故最终的目标推荐科室R为:
R={“心血管内科”:0.99,“眩晕科”:0.11}
需指出,上述实例中涉及的检索库中的文本、病症描述、科室推荐、计算分值等数据仅为示意,不作准确性或合理性参考。
本发明的核心构思主要建立在两个前提条件基础上,1)使病患自主自助进行科室导诊查询,无需配置大量的医护人力。2)庞大的病患群体属于非医学专业人员,在自主自助查询时需对两个维度问题一并克服——从病患角度,需要去除专业医学信息的困扰;从自助***角度,需要提升对非专业病患输入的模糊查询信息的辨识和分析能力。
综上所述,本发明提供的主要方案思路是首先对输入的问诊文本进行初步科室识别和文本有效性判断,将一些可以直接进行科室推荐或非法问诊输入先行处理,进而采用文本分类以及关键信息检索的双策略联合方式,对无法直接推荐科室的有效的病情描述进行深入分析,从而给出准确、可靠的推荐就诊科室,引导患者顺利就医,进而缓解医院导诊咨询的压力。
进一步地,本发明结合了专家知识***和人工智能技术文本处理的应用,利用处理文本分类任务的预建模型进行智能科室分类,因而能够更好地识别出不常见病情或模糊的病情描述所对应的就诊科室,以帮助患者更高效地进行挂号和就医。
进一步地,本发明还在具体的模型算法基础上,提出了基于文本的类激活映射处理思路,从而可以借由提取到的核心关键词及相应检索操作对已分类的诊室结果进行“重排序”,经此过程可使得输出的各类科室结果的准确率和召回率得到进一步提升,进而可以在有效提高准确率的同时,使推荐结果更加稳定。
由此可知,相较现有技术而言,本发明在真实的医疗应用环境以及多种场景挑战中能够更为优异地解决现有技术不能解决或忽视掉的问题。
相应于上述各实施例及优选方案,本发明还提供了一种科室导诊装置的实施例,如图5所示,具体可以包括如下部件:
初步导诊模块1,用于对输入的问诊文本进行初步科室识别以及文本有效性判断;
深入导诊模块2,用于基于未识别出科室的有效问诊文本,利用文本分类策略以及关键信息检索策略,获得作为候选的科室分类结果以及科室检索结果;
目标确定模块3,用于利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室。
在其中一种可能的实现方式中,所述深入导诊模块包括:文本分类子模块;
所述文本分类子模块用于由预先训练的若干分类模型输出若干所述科室分类结果。
在其中一种可能的实现方式中,所述深入导诊模块还包括:关键信息检索子模块;
所述关键信息检索子模块具体包括:
关键信息确定单元,用于结合所述分类模型的处理,从所述有效问诊文本中确定关键信息;
科室检索单元,用于利用所述关键信息在预设的科室检索库中进行对应科室的检索。
在其中一种可能的实现方式中,所述分类模型包括卷积神经网络;
所述关键信息确定单元具体用于:
根据所述卷积神经网络的卷积层的输出,确定所述有效问诊文本中每个字对应的特征参数;
基于所述卷积神经网络的最优科室分类结果以及所述特征参数,确定所述有效问诊文本中关键词的分布情况。
在其中一种可能的实现方式中,所述关键信息确定单元具体包括:
特征图获取组件,用于获取最后一个卷积层输出的特征图;
单层特征参数确定组件,用于对所述特征图降维,得到表征所述有效问诊文本中各字符的单层特征向量及其特征参数;
类激活映射运算组件,用于利用所述最优科室分类结果对所述特征参数求导,得到相应所述最优科室分类结果的类激活映射;
关键度确定组件,用于根据所述类激活映射的结果,确定所述有效问诊文本中各字的关键程度;
关键词提取组件,用于根据所述关键程度,提取出若干关键词。
在其中一种可能的实现方式中,所述初步导诊模块采用以下多种单元组合:关键词匹配单元、命名实体抽取单元以及语句合法性分类单元;
所述关键词匹配单元,用于根据所述问诊文本以及预设的问诊词库进行关键词匹配,若匹配到则直接识别出相应科室;
所述命名实体抽取单元,用于根据预设实体类型标签从所述问诊文本中抽取与其相应的实体信息,若抽取到则直接识别出相应科室;
所述语句合法性分类单元,用于判断所述问诊文本是否为有效的问诊语句类型。
在其中一种可能的实现方式中,所述初步导诊模块具体用于:
先利用所述关键词匹配单元对所述问诊文本进行所述关键词匹配;
若未匹配到,则利用所述命名实体抽取单元对所述问诊文本进行所述命名实体抽取;
若未抽取到,则利用所述语句合法性分类单元对所述问诊文本进行所述语句合法性分类;
若分类结果为非法语句,则请求输入新的问诊文本;
若分类结果为合法语句,则得到所述有效问诊文本。
在其中一种可能的实现方式中,所述目标确定模块包括:
分类结果融合单元,用于将全部所述科室分类结果进行融合;
权重调整单元,用于利用所述科室检索结果对融合后的科室分类结果进行权重调整;
目标推荐科室确定单元,用于根据权重调整结果,得到至少一个目标推荐科室。
应理解以上图5所示的科室导诊装置的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上***(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种科室导诊设备,其可以包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或等效实施方式的步骤/功能。
图6为本发明科室导诊设备的实施例的结构示意图,其中,该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为云服务器、移动终端(如手机)、智慧屏、自助交互设备、机器人等。本实施例对科室导诊设备的具体形式不作限定。
具体如图6所示,科室导诊设备900包括处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得科室导诊设备900的功能更加完善,该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。其中,显示单元970可以包括显示屏。
进一步地,上述科室导诊设备900还可以包括电源950,用于给该设备900中的各种器件或电路提供电能。
应理解,图6所示的科室导诊设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能,可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,图6所示的科室导诊设备900中的处理器910可以是片上***SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的科室导诊方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文,上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatile memory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如***网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (14)
1.一种科室导诊方法,其特征在于,包括:
对输入的问诊文本进行初步科室识别以及文本有效性判断;
基于未识别出科室的有效问诊文本,利用文本分类策略以及关键信息检索策略,获得作为候选的科室分类结果以及科室检索结果;
利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室。
2.根据权利要求1所述的科室导诊方法,其特征在于,所述文本分类策略包括由预先训练的若干分类模型输出若干所述科室分类结果。
3.根据权利要求2所述的科室导诊方法,其特征在于,所述关键信息检索策略包括:
结合所述分类模型的处理,从所述有效问诊文本中确定关键信息;
利用所述关键信息在预设的科室检索库中进行对应科室的检索。
4.根据权利要求3所述的科室导诊方法,其特征在于,所述分类模型包括卷积神经网络;
所述结合所述分类模型的处理,从所述有效问诊文本中确定关键信息包括:
根据所述卷积神经网络的卷积层的输出,确定所述有效问诊文本中每个字对应的特征参数;
基于所述卷积神经网络的最优科室分类结果以及所述特征参数,确定所述有效问诊文本中关键词的分布情况。
5.根据权利要求4所述的科室导诊方法,其特征在于,所述结合所述分类模型的处理,从所述有效问诊文本中确定关键信息具体包括:
获取最后一个卷积层输出的特征图;
对所述特征图降维,得到表征所述有效问诊文本中各字符的单层特征向量及其特征参数;
利用所述最优科室分类结果对所述特征参数求导,得到相应所述最优科室分类结果的类激活映射;
根据所述类激活映射的结果,确定所述有效问诊文本中各字的关键程度;
根据所述关键程度,提取出若干关键词。
6.根据权利要求1所述的科室导诊方法,其特征在于,对输入的问诊文本进行初步科室识别以及文本有效性判断采用以下方式的多种组合:关键词匹配、命名实体抽取以及语句合法性分类;
所述关键词匹配,用于根据所述问诊文本以及预设的问诊词库进行关键词匹配,若匹配到则直接识别出相应科室;
所述命名实体抽取,用于根据预设实体类型标签从所述问诊文本中抽取与其相应的实体信息,若抽取到则直接识别出相应科室;
所述语句合法性分类,用于判断所述问诊文本是否为有效的问诊语句类型。
7.根据权利要求6所述的科室导诊方法,其特征在于,所述对输入的问诊文本进行初步科室识别以及文本有效性判断包括:
先对所述问诊文本进行所述关键词匹配;
若未匹配到,则对所述问诊文本进行所述命名实体抽取;
若未抽取到,则对所述问诊文本进行所述语句合法性分类;
若分类结果为非法语句,则请求输入新的问诊文本;
若分类结果为合法语句,则得到所述有效问诊文本。
8.根据权利要求1~7任一项所述的科室导诊方法,其特征在于,所述利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室包括:
将全部所述科室分类结果进行融合;
利用所述科室检索结果对融合后的科室分类结果进行权重调整;
根据权重调整结果,得到至少一个目标推荐科室。
9.一种科室导诊装置,其特征在于,包括:
初步导诊模块,用于对输入的问诊文本进行初步科室识别以及文本有效性判断;
深入导诊模块,用于基于未识别出科室的有效问诊文本,利用文本分类策略以及关键信息检索策略,获得作为候选的科室分类结果以及科室检索结果;
目标确定模块,用于利用所述科室分类结果以及所述科室检索结果,确定目标推荐科室。
10.根据权利要求9所述的科室导诊装置,其特征在于,所述深入导诊模块包括:文本分类子模块;
所述文本分类子模块用于由预先训练的若干分类模型输出若干所述科室分类结果。
11.根据权利要求10所述的科室导诊装置,其特征在于,所述深入导诊模块还包括:关键信息检索子模块;
所述关键信息检索子模块具体包括:
关键信息确定单元,用于结合所述分类模型的处理,从所述有效问诊文本中确定关键信息;
科室检索单元,用于利用所述关键信息在预设的科室检索库中进行对应科室的检索。
12.一种科室导诊设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1~8任一项所述的科室导诊方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1~8任一项所述的科室导诊方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使终端设备执行如权利要求1~8任一项所述的科室导诊方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010081698.XA CN111370102B (zh) | 2020-02-06 | 科室导诊方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010081698.XA CN111370102B (zh) | 2020-02-06 | 科室导诊方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111370102A true CN111370102A (zh) | 2020-07-03 |
CN111370102B CN111370102B (zh) | 2024-07-05 |
Family
ID=
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951943A (zh) * | 2020-09-27 | 2020-11-17 | 平安科技(深圳)有限公司 | 智能分诊方法、装置、电子设备及存储介质 |
CN111951959A (zh) * | 2020-08-23 | 2020-11-17 | 云知声智能科技股份有限公司 | 基于强化学习的对话式导诊方法、装置及存储介质 |
CN112562809A (zh) * | 2020-12-15 | 2021-03-26 | 贵州小宝健康科技有限公司 | 一种基于电子病历文本进行辅助诊断的方法及*** |
CN112951394A (zh) * | 2021-03-10 | 2021-06-11 | 中电健康云科技有限公司 | 一种基于深度学习的医院分诊和预测医学检查项目的方法 |
CN113782165A (zh) * | 2021-04-02 | 2021-12-10 | 北京京东拓先科技有限公司 | 分诊方法及装置、计算机可存储介质 |
CN113851219A (zh) * | 2021-11-29 | 2021-12-28 | 山东交通学院 | 一种基于多模态知识图谱的智能导诊方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3173983A1 (en) * | 2015-11-26 | 2017-05-31 | Siemens Aktiengesellschaft | A method and apparatus for providing automatically recommendations concerning an industrial system |
EP3376400A1 (en) * | 2017-03-14 | 2018-09-19 | Fujitsu Limited | Dynamic context adjustment in language models |
CN109635122A (zh) * | 2018-11-28 | 2019-04-16 | 平安科技(深圳)有限公司 | 智能疾病问询方法、装置、设备及存储介质 |
CN110047584A (zh) * | 2019-04-23 | 2019-07-23 | 清华大学 | 基于深度学习的医院分诊方法、***、装置及介质 |
CN110489566A (zh) * | 2019-08-22 | 2019-11-22 | 上海软中信息***咨询有限公司 | 一种智能导诊服务机器人的导诊方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3173983A1 (en) * | 2015-11-26 | 2017-05-31 | Siemens Aktiengesellschaft | A method and apparatus for providing automatically recommendations concerning an industrial system |
EP3376400A1 (en) * | 2017-03-14 | 2018-09-19 | Fujitsu Limited | Dynamic context adjustment in language models |
CN109635122A (zh) * | 2018-11-28 | 2019-04-16 | 平安科技(深圳)有限公司 | 智能疾病问询方法、装置、设备及存储介质 |
CN110047584A (zh) * | 2019-04-23 | 2019-07-23 | 清华大学 | 基于深度学习的医院分诊方法、***、装置及介质 |
CN110489566A (zh) * | 2019-08-22 | 2019-11-22 | 上海软中信息***咨询有限公司 | 一种智能导诊服务机器人的导诊方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951959A (zh) * | 2020-08-23 | 2020-11-17 | 云知声智能科技股份有限公司 | 基于强化学习的对话式导诊方法、装置及存储介质 |
CN111951943A (zh) * | 2020-09-27 | 2020-11-17 | 平安科技(深圳)有限公司 | 智能分诊方法、装置、电子设备及存储介质 |
CN112562809A (zh) * | 2020-12-15 | 2021-03-26 | 贵州小宝健康科技有限公司 | 一种基于电子病历文本进行辅助诊断的方法及*** |
CN112951394A (zh) * | 2021-03-10 | 2021-06-11 | 中电健康云科技有限公司 | 一种基于深度学习的医院分诊和预测医学检查项目的方法 |
CN113782165A (zh) * | 2021-04-02 | 2021-12-10 | 北京京东拓先科技有限公司 | 分诊方法及装置、计算机可存储介质 |
CN113851219A (zh) * | 2021-11-29 | 2021-12-28 | 山东交通学院 | 一种基于多模态知识图谱的智能导诊方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210257066A1 (en) | Machine learning based medical data classification method, computer device, and non-transitory computer-readable storage medium | |
WO2021027553A1 (zh) | 微表情分类模型生成、图像识别方法、装置、设备及介质 | |
US20210034813A1 (en) | Neural network model with evidence extraction | |
EP3895178A1 (en) | System and method for providing health information | |
WO2020237869A1 (zh) | 一种问题意图识别方法、装置、计算机设备及存储介质 | |
CN111708873A (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN109635122A (zh) | 智能疾病问询方法、装置、设备及存储介质 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN110675944A (zh) | 分诊方法及装置、计算机设备及介质 | |
Badlani et al. | Multilingual healthcare chatbot using machine learning | |
WO2021151327A1 (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
WO2022227203A1 (zh) | 基于对话表征的分诊方法、装置、设备及存储介质 | |
US20180151254A1 (en) | High-speed similar case search method and device through reduction of large scale multi-dimensional time series health data to multiple dimensions | |
CN108874773B (zh) | 关键词新增方法、装置、计算机设备和存储介质 | |
CN111651579B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
Sridhar et al. | Mobile application development for disease diagnosis based on symptoms using machine learning techniques | |
WO2020132918A1 (zh) | 药品预测方法、装置、计算机设备及存储介质 | |
Gupta et al. | An optimal multi-disease prediction framework using hybrid machine learning techniques: 10.48129/kjs. splml. 19321 | |
CN113657086A (zh) | 词语处理方法、装置、设备及存储介质 | |
CN117877660A (zh) | 基于语音识别的医学报告获取方法及*** | |
CN115171870A (zh) | 一种基于m-BERT预训练模型的就诊引导提示方法及*** | |
WO2021139271A1 (zh) | 基于fm模型的医学热点的预测方法、装置和计算机设备 | |
WO2023178970A1 (zh) | 医疗数据处理方法、装置、设备及存储介质 | |
WO2023124837A1 (zh) | 问诊处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |