CN111859078B - 一种信息识别方法、装置及电子设备 - Google Patents

一种信息识别方法、装置及电子设备 Download PDF

Info

Publication number
CN111859078B
CN111859078B CN201910355315.0A CN201910355315A CN111859078B CN 111859078 B CN111859078 B CN 111859078B CN 201910355315 A CN201910355315 A CN 201910355315A CN 111859078 B CN111859078 B CN 111859078B
Authority
CN
China
Prior art keywords
information
input information
medical field
identification
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910355315.0A
Other languages
English (en)
Other versions
CN111859078A (zh
Inventor
何源川
寇晓晖
张佳宏
刘先锐
张溢麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910355315.0A priority Critical patent/CN111859078B/zh
Publication of CN111859078A publication Critical patent/CN111859078A/zh
Application granted granted Critical
Publication of CN111859078B publication Critical patent/CN111859078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种信息识别方法、装置及电子设备,该方法包括:接收用户输入的输入信息;将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。本发明实施例可以提高输入信息中医疗特征词识别的召回率。

Description

一种信息识别方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种信息识别方法、装置及电子设备。
背景技术
目前可以根据输入的内容,搜索上述内容对应的信息。但是如果不能准确的识别输入的内容时,可能导致搜索得到的信息的准确率较低。因此,在医疗服务中,可以对用户输入的信息进行识别,以识别用户输入的信息是否属于医疗领域,但目前输入信息中医疗特征词识别的召回率比较低。
发明内容
本发明实施例提供一种信息识别方法、装置及电子设备,以解决目前输入信息中医疗特征词识别的召回率比较低的问题。
第一方面,本发明实施例提供了一种信息识别方法,包括:
接收用户输入的输入信息;
将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。
可选的,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
可选的,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
可选的,所述根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息,包括:
获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
可选的,所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值,根据所述第一识别信息和所述第二识别信息,确定所述输入信息是否属于医疗领域,包括:
当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域;或者
当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
第二方面,本发明实施例还提供一种信息识别装置,包括:
接收模块,用于接收用户输入的输入信息;
处理模块,用于将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
确定模块,用于根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。
可选的,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
可选的,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
可选的,所述处理模块包括:
第一获取子模块,用于获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
第二获取子模块,用于获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
识别子模块,用于根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
可选的,所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值,所述确定模块还用于:
当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域;或者
当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
第三方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息识别方法中的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述信息识别方法中的步骤。
在本发明实施例中,接收用户输入的输入信息;将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。这样,根据第一识别信息和/或第二识别信息,可以提高识别输入信息是否属于医疗领域的准确度,从而提高了输入信息中医疗特征词识别的召回率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息识别方法的流程图;
图2是本发明实施例提供的另一种信息识别方法的流程图;
图3是本发明实施例提供的举例图之一;
图4是本发明实施例提供的举例图之二;
图5是本发明实施例提供的一种信息识别装置的结构示意图;
图6是本发明实施例提供的一种信息识别装置的结构示意图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书中的术语“包括”以及它的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,说明书以及权利要求中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B,表示包含单独A,单独B,以及A和B都存在三种情况。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
参见图1,图1是本发明实施例提供的一种信息识别方法的流程图,如图1所示,包括以下步骤:
步骤101、接收用户输入的输入信息。
其中,输入信息的具体类型在此不做限定,例如:输入信息可以为文本信息,也可以为语音信息。
步骤102、将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
其中,根据输入信息得到的搜索结果可以为:输入信息对应的站点。
其中,深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的,而上述属于医疗领域的输入信息的获取方式可以为如下方式:获取搜索日志,从搜索日志中确定被选择的医疗站点,并获取上述医疗站点对应的输入信息,将该输入信息确定为属于医疗领域的输入信息。
另外,将上述属于医疗领域的输入信息作为训练样本,且还可以对上述训练样本进行优化,采用优化后的训练样本进行训练,以得到深度学习模型。
其中,优化可以包括:对训练样本进行标注,对边界样本进行标注,增大或者调低部分样本的权重值(标注为属于的医疗领域的样本可以增大权重值,标注为不属于医疗领域的样本可以调低权重值)。
其中,第一识别信息和第二识别信息可以为确定输入信息是否属于医疗领域的概率值,当然,第一识别信息和第二识别信息还可以为表示输入信息是否属于医疗领域的结果信息,如结果信息可以为“是”或者“否”。
步骤103、根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。
其中,根据第一识别信息确定输入信息是否属于医疗领域的判断方式可以为:当第一识别信息为确定输入信息是否属于医疗领域的概率值,且当第一识别信息大于预设概率值时,则可以确定输入信息属于医疗领域;若第一识别信息小于或等于预设概率值时,则可以确定输入信息不属于医疗领域。例如:若预设概率值为60%(或者0.6),而第一识别信息为70%(或者0.7),则可以确定输入信息属于医疗领域;若第一识别信息为30%(或者0.3),则可以确定输入信息不属于医疗领域。当然,需要说明的是,预设概率值的具体取值在此不做限定。
当然,根据第一识别信息确定输入信息是否属于医疗领域的判断方式还可以为:当第一识别信息还可以为表示输入信息是否属于医疗领域的结果,例如:若第一识别信息的内容为“是”,则表示输入信息属于医疗领域;若第一识别信息的内容为“否”,则表示输入信息不属于医疗领域。
同理,第二识别信息也可以为确定输入信息是否属于医疗领域的概率值、表示输入信息是否属于医疗领域的结果等,根据第二识别信息确定输入信息是否属于医疗领域的判断方式,具体表述可以参见上述根据第一识别信息确定输入信息是否属于医疗领域的判断方式的表述。
其中,根据第一识别信息和第二识别信息确定输入信息是否属于医疗领域的判断方式可以为:当第一识别信息和第二识别信息为确定输入信息是否属于医疗领域的概率值时,当第一识别信息大于第一预设概率值,且第二识别信息大于第二预设概率值时,确定输入信息属于医疗领域;当第一识别信息小于或等于第一预设概率值,和/或,第二识别信息小于或等于第二预设概率值,则确定输入信息不属于医疗领域。其中,第一预设概率值和第二预设概率值的具体取值在此不做限定。
另外,当第一识别信息和第二识别信息为表示输入信息是否属于医疗领域的结果时,例如:当第一识别信息和第二识别信息的内容均为“是”时,则确定输入信息属于医疗领域,若第一识别信息和第二识别信息中有至少一个的内容为“否”时,则确定输入信息不属于医疗领域。
根据实验统计,使用第一识别信息和第二识别信息,确定输入信息是否属于医疗领域,准确率可以达到97.1%,召回率可以达到78.0%,恶劣badcase(坏案例)占比<1%。与现有技术的召回方式相比,在准确率不变的情况下,大幅度提升了召回率,且大幅度降低了恶劣badcase占比。
需要说明的是,本发明实施例可以应用于电子设备中,其中,上述电子设备可以为服务器或者终端设备等。
在本发明实施例中,根据第一识别信息和/或第二识别信息,可以提高识别输入信息是否属于医疗领域的准确度,从而提高了输入信息中医疗特征词识别的召回率。同时,由于召回率的提高,从而使得提供的问诊服务入口的质量也得到了提高,使得用户可以在上述高质量的问诊服务入口中进行医疗问诊,提升了用户体验。
参见图2,图2是本发明实施例提供的另一种信息识别方法的流程图。如图2所示,包括以下步骤:
步骤201、接收用户输入的输入信息。
其中,输入信息的具体类型在此不做限定,例如:输入信息可以为文本信息,也可以为语音信息。
步骤202、将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
可选的,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
第一信息的确定步骤可以参见如下:可以先通过查找搜索日志,并从搜索日志中获取根据用户的指令选择的医疗网站,然后获取到医疗网站对应的输入信息,将该输入信息确定为第一信息。
例如:查找搜索日志,其中,搜索日志中显示被选择的网站有社交网站、新闻网站、第一医疗网站和第二医疗网站;获取第一医疗网站对应的第一输入信息,以及,获取第二医疗网站对应的第二输入信息(也可以理解为当输入第一输入信息后,显示包括第一医疗网站的多个医疗网站,根据用户的选择指令选择并点击第一医疗网站,这样,第一医疗网站与第一输入信息之间即构成对应关系,同理,第二医疗网站与第二输入信息之间也构成对应关系),将第一输入信息和第二输入信息确定为第一信息。
需要说明的是,上述医疗网站也可以被称作站点,且本实施方式还可以运用于图1所示的实施例中。
本实施方式中,由于第一信息为在进行搜索时搜索出的医疗网站,且搜索出的医疗网站中被选择的医疗网站对应的信息,从而使得确定的第一信息与医疗领域的相关度较高。
其中,可选的,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
其中,边界样本可以为属于医疗领域的样本,且靠近分界标准的样本,上述分界标准为属于医疗领域的样本与不属于医疗领域的样本的分界标准。例如:可以统计每一样本与医疗领域的相关度,而上述分界标准的相关度不做具体限定,如可以为50%(或0.5),则与医疗领域的相关度为51%(或0.51)或者52%(或0.52)的样本即可确定为边界样本,而与医疗领域的相关度为30%(或0.3)的样本则可确定为非边界样本。
上述被标注为医疗领域的正确样本可以是数据标注人员在初始训练样本中标注为医疗领域的样本。
而上述增大初始训练样本中被标注为医疗领域的正确样本的权重值,实现方式可以为将初始训练样本中被标注为医疗领域的正确样本的权重值由第一数值设置为第二数值,且第二数值大于第一数值。例如:初始训练样本中被标注为医疗领域的正确样本的当前的权重值为50%或0.5(即第一数值为50%或0.5),则可以将上述样本的权重值设置为70%或0.7(即第二数值为70%或0.7)。
深度学习模型的训练过程可以参见图3,使用包括初始训练样本的训练样本集进行训练,得到初始学习模型,通过标注边界样本和/或增大初始训练样本被标注为医疗领域的正确样本的权重值的优化方式,对训练样本集中的初始训练样本进行优化,从而得到优化训练样本,并采用优化训练样本对初始学习模型进行训练,得到深度学习模型。
需要说明的是,本实施方式也可以运用于图1所示的实施例中。
本实施方式中,通过对初始训练样本进行优化,并使用优化训练样本对初始学习模型进行训练,得到深度学习模型,这样,可以通过深度学习模型得到第一识别信息,并提高通过第一识别信息确定输入信息是否属于医疗领域的准确度,进而提高输入信息中医疗特征词的召回率。
可选的,所述根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息,包括:
获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
其中,第二识别信息可以为输入信息属于医疗领域的概率值;
当级别分布信息大于第一预设级别,且召回结果为能够召回医疗领域标识,确定第二识别信息为第一概率值;第一概率值用于确定输入信息属于医疗领域;
当级别分布信息小于或等于第一预设级别,和/或,召回结果为不能够召回医疗领域标识,确定第二识别信息为第二概率值;第二概率值用于确定输入信息不属于医疗领域。
例如:当第二识别信息大于预设概率值(例如50%或0.5)时,则可以确定输入信息属于医疗领域,当第二识别信息小于或等于预设概率值(例如50%或0.5)时,则可以确定输入信息不属于医疗领域。例如:第一概率值可以为70%(或0.7),第二概率值可以为30%(或0.3)。
当然,第二识别信息除了为输入信息属于医疗领域的概率值之外,还可以为表示输入信息是否属于医疗领域的结果(即第二识别信息的内容为“是”或者“否”),具体判断过程可以参见上述第二识别信息为概率值的表述。
其中,预设名单中可以包括多个站点,并根据每一个站点与医疗领域的相关度分成至少2级,站点与医疗领域的相关度越高,则该站点在预设名单中的级别也就越高。第一预设级别的具体数值在此不做限定,例如:当预设名单包括5个级别,则第一预设级别可以为2级。
这样,可以更加准确的确定第二识别信息。
其中,搜索结果中的站点也可以在预设名单中有对应的级别,当然,搜索结果中的站点可以为搜索结果对应的全部站点,也可以为搜索结果中按照与医疗领域相关度排名前1、前3以及前10的站点。当然,还可以是相关度超过预设数值的站点。
其中,医疗领域标识的具体类型在此不做限定,例如:可以为医疗阿拉丁卡片。
另外,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息,上述步骤可以为基于二次校验模型实现的。
参见图4,作为一种可选的实施方式,第二识别的信息的确定过程可以如下:接收输入信息,并获取输入信息的搜索结果中的站点信息,然后获取每一站点的级别分布信息,基于二次校验模型根据级别分布信息最终得到用于确定输入信息是否属于医疗领域的第二识别信息。
需要说明的是,本实施方式同样可以运用于图1所示的实施例中。
本实施方式中,根据级别分布信息和召回结果确定第二识别信息,可以提高第二识别信息的准确度,进而提高通过第二识别信息确定输入信息是否属于医疗领域的准确度。
步骤203、当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域。
其中,第一预设值和第二预设值的具体取值在此不做限定。
例如:第一预设值可以为89%(或0.89),第二预设值可以为39%(或0.39),则当第一识别信息为90%(或0.90),且第二识别信息为40%(或0.40)时,则确定输入信息属于医疗领域。
步骤204、当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
其中,所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值。
其中,第三预设值和第四预设值的取值在此不做限定。
例如:第三预设值可以为59%(或0.59),第四预设值可以为49%(或0.49),则当第二识别信息为60%(或0.60),且第一识别信息为50%(或0.50)时,确定输入信息属于医疗领域。
另外,需要说明的是,在确定输入信息是否属于医疗领域时,第一识别信息和第二识别信息的权重值可以不相同,例如:第一识别信息的权重值可以为70%(或0.70),第二识别信息的权重值可以为30%(或0.30)。当然。第一识别信息的权重值可以为40%(或0.40),第二识别信息的权重值可以为60%(或0.60)。
另外,根据第一识别信息确定所述输入信息是否属于医疗领域时,可以通过确定第一识别信息是否满足第一预设条件,当满足第一预设条件时,可以确定输入信息属于医疗领域;当不满足第一预设条件时,可以确定输入信息不属于医疗领域。
当第一识别信息为输入信息属于医疗领域的概率值时,上述第一预设条件可以为:第一识别信息大于第一预设值或者第一识别信息大于第四预设值。具体可见参见步骤203和步骤204的表述。
另外,根据第二识别信息确定所述输入信息是否属于医疗领域时,同样可以通过确定第二识别信息是否满足第二预设条件,当满足第二预设条件时,可以确定输入信息属于医疗领域;当不满足第二预设条件时,可以确定输入信息不属于医疗领域。
当第二识别信息为输入信息属于医疗领域的概率值时,上述第二预设条件可以为:第二识别信息大于第二预设值或者第二识别信息大于第三预设值。具体可见参见步骤203和步骤204的表述。
本发明实施例中,通过步骤201至204,由于第一识别信息和第二识别信息为输入信息属于医疗领域的概率值,从而根据概率值可以更加直观和明确的判断输入信息是否属于医疗领域。
参见图5,图5是本发明实施例提供的信息识别装置的结构图,能实现上述实施例中信息识别方法的细节,并达到相同的效果。如图5所示,信息识别装置500包括:
接收模块501,用于接收用户输入的输入信息;
处理模块502,用于将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
确定模块503,用于根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。
可选的,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
可选的,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
可选的,参见图6,所述处理模块502包括:
第一获取子模块5021,用于获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
第二获取子模块5022,用于获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
识别子模块5023,用于根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
可选的,所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值,所述确定模块503还用于:
当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域;或者
当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
本发明实施例提供的信息识别装置能够实现图1至图2的方法实施例中信息识别装置实现的各个过程,为避免重复,这里不再赘述。
请参见图7,图7是本发明实施例提供的一种电子设备的结构图,如图7所示,电子设备700包括处理器701、存储器702及存储在所述存储器702上并可在所述处理器上运行的计算机程序。
其中,所述计算机程序被所述处理器701执行时实现如下步骤:
接收用户输入的输入信息;
将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和/或,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
根据所述第一识别信息和/或所述第二识别信息,确定所述输入信息是否属于医疗领域。
可选的,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
可选的,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
可选的,处理器701执行的所述根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息,包括:
获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息。
可选的,所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值,处理器701执行的根据所述第一识别信息和所述第二识别信息,确定所述输入信息是否属于医疗领域,包括:
当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域;或者
当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
本发明实施例提供的电子设备能够实现图1和图2所示的方法实施例中电子设备实现的各个过程,且可以达到相同有益效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的信息识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (8)

1.一种信息识别方法,其特征在于,包括:
接收用户输入的输入信息;
将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
根据所述第一识别信息和所述第二识别信息,确定所述输入信息是否属于医疗领域;
所述根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息,包括:
获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值,根据所述第一识别信息和所述第二识别信息,确定所述输入信息是否属于医疗领域,包括:
当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域;或者
当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
2.如权利要求1所述的方法,其特征在于,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
3.如权利要求2所述的方法,其特征在于,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
4.一种信息识别装置,其特征在于,包括:
接收模块,用于接收用户输入的输入信息;
处理模块,用于将所述输入信息输入至深度学习模型进行处理,以得到用于确定所述输入信息是否属于医疗领域的第一识别信息,其中,所述深度学习模型为使用属于医疗领域的输入信息作为训练样本进行训练得到的;和,根据所述输入信息得到的搜索结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
确定模块,用于根据所述第一识别信息和所述第二识别信息,确定所述输入信息是否属于医疗领域;
所述处理模块包括:
第一获取子模块,用于获取所述搜索结果中的站点在预设名单中的级别分布信息,其中,所述预设名单包括多个预设站点,所述多个预设站点根据与医疗领域相关度分为至少2级;
第二获取子模块,用于获取所述输入信息的召回结果,其中,所述召回结果用于表示所述输入信息是否能召回医疗领域标识;
识别子模块,用于根据所述级别分布信息和所述召回结果,对所述输入信息进行医疗领域识别,以得到用于确定所述输入信息是否属于医疗领域的第二识别信息;
所述第一识别信息和所述第二识别信息为所述输入信息属于医疗领域的概率值,所述确定模块还用于:
当所述第一识别信息大于第一预设值时,且所述第二识别信息大于第二预设值时,确定所述输入信息属于医疗领域;或者
当所述第二识别信息大于第三预设值时,且所述第一识别信息大于第四预设值时,确定所述输入信息属于医疗领域。
5.如权利要求4所述的信息识别装置,其特征在于,所述属于医疗领域的输入信息包括:第一信息,其中,所述第一信息为在进行搜索时搜索出的医疗网站,且所述搜索出的医疗网站中被选择的医疗网站对应的信息。
6.如权利要求5所述的信息识别装置,其特征在于,所述深度学习模型的训练过程包括如下过程:
使用所述第一信息作为初始训练样本进行训练,得到初始学习模型;
对所述初始训练样本进行优化,得到优化训练样本,并使用所述优化训练样本对所述初始学习模型进行训练,得到所述深度学习模型,其中,所述优化包括:标注所述初始训练样本中的边界样本,和/或,增大所述初始训练样本中被标注为医疗领域的正确样本的权重值。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的信息识别方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的信息识别方法中的步骤。
CN201910355315.0A 2019-04-29 2019-04-29 一种信息识别方法、装置及电子设备 Active CN111859078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910355315.0A CN111859078B (zh) 2019-04-29 2019-04-29 一种信息识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910355315.0A CN111859078B (zh) 2019-04-29 2019-04-29 一种信息识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111859078A CN111859078A (zh) 2020-10-30
CN111859078B true CN111859078B (zh) 2024-04-12

Family

ID=72966277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910355315.0A Active CN111859078B (zh) 2019-04-29 2019-04-29 一种信息识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111859078B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915312A (zh) * 2011-08-03 2013-02-06 阿里巴巴集团控股有限公司 网站中的信息发布方法和***
US8577671B1 (en) * 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
CN103729374A (zh) * 2012-10-15 2014-04-16 北京搜狗信息服务有限公司 一种信息搜索方法及搜索引擎
WO2017071578A1 (zh) * 2015-10-27 2017-05-04 广州神马移动信息科技有限公司 搜索方法、装置、***以及搜索结果调序依据的确定方法
CN107610740A (zh) * 2017-07-27 2018-01-19 康美健康云服务有限公司 用于医疗的语义分析方法、电子设备、存储介质以及***
CN108182180A (zh) * 2018-01-30 2018-06-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108461152A (zh) * 2018-01-12 2018-08-28 平安科技(深圳)有限公司 医疗模型训练方法、医疗识别方法、装置、设备及介质
CN109327887A (zh) * 2018-10-24 2019-02-12 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109582854A (zh) * 2018-12-28 2019-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542495B2 (en) * 2013-04-30 2017-01-10 Microsoft Technology Licensing, Llc Targeted content provisioning based upon tagged search results
US10846276B2 (en) * 2015-06-30 2020-11-24 Ebay Inc. Search engine optimization by selective indexing

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915312A (zh) * 2011-08-03 2013-02-06 阿里巴巴集团控股有限公司 网站中的信息发布方法和***
US8577671B1 (en) * 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
CN103729374A (zh) * 2012-10-15 2014-04-16 北京搜狗信息服务有限公司 一种信息搜索方法及搜索引擎
WO2017071578A1 (zh) * 2015-10-27 2017-05-04 广州神马移动信息科技有限公司 搜索方法、装置、***以及搜索结果调序依据的确定方法
CN107610740A (zh) * 2017-07-27 2018-01-19 康美健康云服务有限公司 用于医疗的语义分析方法、电子设备、存储介质以及***
CN108461152A (zh) * 2018-01-12 2018-08-28 平安科技(深圳)有限公司 医疗模型训练方法、医疗识别方法、装置、设备及介质
CN108182180A (zh) * 2018-01-30 2018-06-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109327887A (zh) * 2018-10-24 2019-02-12 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109582854A (zh) * 2018-12-28 2019-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
CN111859078A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN110545568B (zh) 异构网络切换方法、切换装置、控制设备及存储介质
CN112365894B (zh) 基于ai的复合语音交互方法、装置及计算机设备
CN111294819B (zh) 一种网络优化方法及装置
CN110264274B (zh) 客群划分方法、模型生成方法、装置、设备及存储介质
US20170109431A1 (en) Method and apparatus for grouping network service users
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN110503143B (zh) 基于意图识别的阈值选取方法、设备、存储介质及装置
CN111444341B (zh) 用户画像构建方法、装置、设备及可读存储介质
CN106993048A (zh) 确定推荐信息的方法及装置、信息推荐方法及装置
CN108335165B (zh) 兴趣标签确定方法和装置
CN110990541A (zh) 一种实现问答的方法及装置
CN113901837A (zh) 一种意图理解方法、装置、设备及存储介质
CN111859078B (zh) 一种信息识别方法、装置及电子设备
CN111368858B (zh) 用户满意度评估方法及装置
CN116630749A (zh) 工业设备故障检测方法、装置、设备以及存储介质
CN110611689B (zh) 一种信息识别方法、设备及计算机可读存储介质
CN110825859A (zh) 检索方法、装置、可读存储介质和电子设备
US20190179902A1 (en) Systems and methods for task automation using natural language processing
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN114970495A (zh) 人名消歧方法、装置、电子设备及存储介质
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法
CN109637225B (zh) 一种互动式学习方法及***
JP2017062771A (ja) キーワードターゲティングシステム、キーワードターゲティング装置、サーバ装置、キーワードターゲティング方法、及びプログラム
CN106202390B (zh) 一种数据库完善***及方法
CN111061934B (zh) 指纹识别方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant