CN108509416A

CN108509416A - 句意识别方法及装置、设备和存储介质

Info

Publication number: CN108509416A
Application number: CN201810228156.3A
Authority: CN
Inventors: 王翔
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-07
Anticipated expiration: 2038-03-20
Also published as: US10929610B2; CN108509416B; US20190294674A1

Abstract

本发明提供一种句意识别方法及装置、设备和存储介质，该方法包括：对待识别的第一语句与细分领域意图库的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果；当第一相似度不满足增强识别条件时，输出第一句意识别结果；当第一相似度满足增强识别条件时，对第一语句和第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果；以及，根据第一句意识别结果和第二句意识别结果生成第三句意识别结果并输出。本发明实现了对可能存在语音误识别的语句进行细分领域的精准句意识别，提升了用户体验。

Description

句意识别方法及装置、设备和存储介质

技术领域

本申请涉及自然语言处理技术领域，具体涉及一种句意识别方法及装置、设备和存储介质。

背景技术

句意识别是通过对语句(例如问句)进行分析以判断用户的意图，是理解用户问题的前提，其应用场景主要包括客服机器人、问答***和人机交互***等。

句意识别的输入，通常来源于语音识别得到的文本结果。通用的语音识别算法，往往会出现误识别的情况，导致无法有效识别用户意图，用户体验较差。例如，对于书画问答领域，一个常见问题“这是什么画”，采用现有的句意识别方法进行识别，当语音识别将该语音识别为“这是什么话”，并转化成文本结果作为句意识别的输入时，会出现误识别的情况。现有的句意识别方法难以解决该细分领域中的误识别问题。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种对可能存在语音误识别的语句进行细分领域的精准句意识别的句意识别方法及装置、设备和存储介质。

第一方面，本发明提供一种句意识别方法，包括：

对待识别的第一语句与细分领域意图库的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果；

根据增强识别条件判断第一相似度是否触发增强识别：

否，则输出第一句意识别结果；

是，则对第一语句和第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果；以及，

根据第一句意识别结果和第二句意识别结果生成第三句意识别结果并输出。

第二方面，本发明提供一种句意识别装置，包括第一识别单元、判断单元、第一输出单元、第二识别单元和第二输出单元。

第一识别单元配置用于对待识别的第一语句与细分领域意图库的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果；

判断单元配置用于根据增强识别条件判断第一相似度是否触发增强识别；

第一输出单元配置用于在判断结果为未触发增强识别时，输出第一句意识别结果；

第二识别单元配置用于在判断结果为触发增强识别时，对第一语句和第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果；

第二输出单元配置用于根据第一句意识别结果和第二句意识别结果生成第三句意识别结果并输出。

第三方面，本发明还提供一种设备，包括一个或多个处理器和存储器，其中存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本发明各实施例提供的句意识别方法。

第四方面，本发明还提供一种存储有计算机程序的存储介质，该计算机程序使计算机执行根据本发明各实施例提供的句意识别方法。

本发明诸多实施例提供的句意识别方法及装置、设备和存储介质通过配置包括若干细分领域语句的细分领域意图库，对待识别的第一语句进行条件触发性的基于拼音的增强识别，从而实现了对可能存在语音误识别的语句进行细分领域的精准句意识别，提升了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例提供的一种句意识别方法的流程图。

图2为图1所示方法的一种优选实施方式中步骤S30的流程图。

图3为图1所示方法的一种优选实施方式中步骤S60的流程图。

图4为图1所示方法的一种优选实施方式的流程图。

图5为图4所示方法的一种优选实施方式的流程图。

图6为本发明一实施例提供的一种句意识别装置的结构示意图。

图7为图6所示装置的一种优选实施方式中第一识别单元的结构示意图。

图8为图6所示装置的一种优选实施方式中第二识别单元的结构示意图。

图9为图6所示装置的一种优选实施方式的结构示意图。

图10为图9所示装置的一种优选实施方式的结构示意图。

图11为图6所示装置的一种优选实施方式的结构示意图。

图12为本发明一实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为本发明一实施例提供的一种句意识别方法的流程图。

如图1所示，在本实施例中，本发明提供一种句意识别方法，包括：

S30：对待识别的第一语句与细分领域意图库的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果；

S40：根据增强识别条件判断第一相似度是否触发增强识别：

否，则进入步骤S50：输出第一句意识别结果。

是，则进入步骤S60：对第一语句和第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果；以及，

S70：根据第一句意识别结果和第二句意识别结果生成第三句意识别结果并输出。

在本实施例中，第一语句为通过对语音信息进行语音识别获得的文本信息，在更多实施例中，还可将第一语句配置为通讯工具中用户输入并发送的文本信息等不同来源的文本信息。其中，对于其它来源的文本信息，本发明提供的解决方案仅可以对同音字的误输入进行准确的句意识别，实现相同的技术效果。

具体地，在本实施例中，通过手机、麦克风等任意语音采集终端采集用户的语音信息，再由手机或与麦克风通信连接的智能终端进行语音识别(也可以直接将语音信息发送至服务端识别)，获得第一语句，并发送至远程的服务端，以供服务端执行上述图1所示的方法，再由服务端将输出的句意识别结果发送至应用终端或应用服务端，以供利用该句意识别结果进一步为用户提供相关的服务。在更多实施例中，还可以将上述方法配置为由手机等智能终端直接执行，或，由专用于句意识别的句意识别装置等不同设备执行，可实现相同的技术效果。

以下通过一实例对上述方法进行详细阐述：

用户通过语音提问：“这是什么画”，手机采集到该语音信息后，对该语音信息进行语音识别，得到第一语句“这是什么话”，并将该第一语句发送至服务端。

服务端接收该第一语句后，执行步骤S30，获取书画领域意图库的若干第二语句，例如“这是什么画”、“这幅是什么画”、“这是幅什么画”、“这画是谁画的”等等，并对第一语句和各第二语句分别进行基于字的相似度计算。该相似度计算可以采用本领域常用的任一相似度算法进行，在本实施例中选用深度学习模型进行相似度计算，在更多实施例中还可采集其它不同模型算法，以下结合图2进行具体介绍。

图2为图1所示方法的一种优选实施方式中步骤S30的流程图。如图2所示，在一优选实施例中，步骤S30包括：

S301：对第一语句和第二语句分别进行字向量化处理，并分别通过第一深度学习模型进行特征提取，得到第一提取结果和第二提取结果；

S303：对第一提取结果和第二提取结果进行相似度计算，得到第一相似度；

S305：根据第一相似度生成第一句意识别结果。

具体地，在步骤S301中，分别对第一语句和第二语句进行字向量化处理，再分别依次通过第一深度学习模型的卷积层进行特征提取、通过第一深度学习模型的最大池化层进行特征压缩以提取主要特征，以分别获得第一提取结果和第二提取结果。其中，第一深度学习模型通过字向量的样本训练获得。

在步骤S303中，对第一提取结果和第二提取结果进行相似度计算，计算出第一相似度，例如“这是什么话”与“这是什么画”的相似度为0.8，“这是什么话”与“这幅是什么画”的相似度为0.69，等等，从中选取相似度最高的一项作为第一相似度。在更多实施例中，还可根据实际需求保留相似度最高的若干项，例如相似度最高的两项或三项，并在后续通过步骤S60的基于拼音的增强识别后，再作综合性判断。

在步骤S305中，根据第一相似度和条件生成第一句意识别结果，例如，在本实施例中，条件为相似度不小于0.75为识别成功，则相似度0.8满足条件，第一句意识别结果为“这是什么画”。又例如在另一实施例中，若条件为相似度不小于0.85为识别成功，则0.8不满足条件，第一句意识别结果为未识别。

在步骤S40中，根据增强识别条件判断第一相似度是否触发增强识别。

在本实施例中，增强识别条件为第一相似度小于第一阈值0.85且大于第二阈值0.75。即，当第一相似度不大于第二阈值0.75时，第一句意识别结果为未识别，直接进入步骤S50，输出“未识别”作为第一句意识别结果；

当第一相似度不小于0.85时，同样进入步骤S50，输出识别成功的第一句意识别结果；

当第一相似度小于第一阈值0.85且大于第二阈值0.75时，则触发基于拼音的增强识别，进入步骤S60。

上述第一阈值和第二阈值的取值仅为示例，在更多实施例中可配置0-1之间的任意取值，例如第一阈值为0.9、第二阈值为0.6，第一阈值为0.75、第二阈值为0.68，等等，还可以根据实际配置的不同算法而不限于0-1的范围。在本实施例中，增强识别条件为预配置的条件，在其他实施例中，可以在识别过程中进行动态调整。

在另一实施例中，还可以将增强识别条件仅配置为第一相似度大于第二阈值，即对所有识别成功的第一句意识别结果均进行基于拼音的增强识别。

在步骤S60中，与步骤S30相似地，在本实施例中同样选用深度学习模型进行相似度计算，在更多实施例中同样可采集其它不同模型算法，以下结合图3进行具体介绍。

图3为图1所示方法的一种优选实施方式中步骤S60的流程图。如图3所示，在一优选实施例中，步骤S60包括：

S601：对第一语句和第二语句分别进行拼音转换、拼音向量化处理，并分别通过第二深度学习模型进行特征提取，得到第三提取结果和第四提取结果；

S603：对第三提取结果和第四提取结果进行相似度计算，得到第二相似度；

S605：根据第二相似度生成第二句意识别结果。

具体地，图3所示方法与图2所示方法的区别在于，步骤S601中先分别将第一语句和第二语句转化为拼音，并进行拼音向量化处理，以及，第二深度学习模型通过拼音向量的样本训练获得。其中，在本实施例中，第一深度学习模型和第二深度学习模型为基于相同算法训练获得的模型，在更多实施例中，还可以将第一深度学习模型和第二深度学习模型配置为基于不同算法训练获得的模型，可实现相同的技术效果。

对于上述例举的第一语句“这是什么话”和第二语句“这是什么画”，由于其拼音完全相同，显而易见地步骤S603计算出的第二相似度非常高，步骤S605生成的第二句意识别结果同样是“这是什么画”。

在步骤S70中，对第一句意识别结果和第二句意识别结果进行比对：两者若相同，则将该相同的句意识别结果作为最终的第三句意识别结果输出；两者若不同，则最终的第三句意识别结果为未识别。在上述实例中，第一句意识别结果和第二句意识别结果同样是“这是什么画”，因此最终输出的第三句意识别结果为“这是什么画”。接收该第三句意识别结果的应用终端或应用服务端可以根据该句意识别结果进行相关的资料查询和展示，以供用户参考，从而实现了在语音识别误识别为“这是什么话”的情况下成功完成书画领域的精准句意识别，为用户提供了良好的用户体验。优选地，在更多实施例中，还可将步骤S70配置为第一句意识别结果和第二句意识别结果不同时，同时输出第一句意识别结果和第二句意识别结果以供参考等不同方式。

上述实施例通过配置包括若干细分领域语句的细分领域意图库，对待识别的第一语句进行条件触发性的基于拼音的增强识别，从而实现了对可能存在语音误识别的语句进行细分领域的精准句意识别，提升了用户体验。

图4为图1所示方法的一种优选实施方式的流程图。如图4所示，在一优选实施例中，上述方法还包括：

S20：对语音信息进行语音识别，得到第一语句。

具体地，图4所示方法与图1所示方法的区别在于，集成了语音识别功能，而无需单独配置语音识别模块并进行数据对接。

图5为图4所示方法的一种优选实施方式的流程图。如图5所示，在一优选实施例中，上述方法还包括：

S10：采集语音信息。

具体地，图5所示方法与图4所示方法的区别在于，集成了语音采集功能，而无需单独配置语音采集设备，并通过通信传输语音信息。

图6为本发明一实施例提供的一种句意识别装置的结构示意图。图6所示装置可对应执行图1所示的方法。如图6所示，在本实施例中，本发明提供一种句意识别装置10，包括第一识别单元103、判断单元104、第一输出单元105、第二识别单元106和第二输出单元107。

其中，第一识别单元103配置用于对待识别的第一语句与细分领域意图库30的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果；

判断单元104配置用于根据增强识别条件判断第一相似度是否触发增强识别；

第一输出单元105配置用于在判断结果为未触发增强识别时，输出第一句意识别结果；

第二识别单元106配置用于在判断结果为触发增强识别时，对第一语句和第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果；

第二输出单元107配置用于根据第一句意识别结果和第二句意识别结果生成第三句意识别结果并输出。

在本实施例中，上述第一识别单元103、判断单元104、第二识别单元106为中央处理器CPU，上述第一输出单元105、第二输出单元107为与CPU连接的通信组件，在更多实施例中，还可根据实际需求将上述各单元配置为本领域常用的其它处理器与通信组件的组合，可实现相同的技术效果。上述句意识别装置10的配置环境可参考图1所示的方法，具体可配置在手机等智能终端、远程服务端、单独配置的专用句意识别装置等不同配置环境。

图6所示装置的句意识别原理可参考图1所示的方法，此处不再赘述。

图7为图6所示装置的一种优选实施方式中第一识别单元的结构示意图。图7所示装置可对应执行图2所示的方法。

如图7所示，在一优选实施例中，第一识别单元103包括第一提取子单元1031、第一相似度计算子单元1033和第一结果生成子单元1035。

第一提取子单元1031配置用于对第一语句和第二语句分别进行字向量化处理，并分别通过第一深度学习模型进行特征提取，得到第一提取结果和第二提取结果；

第一相似度计算子单元1033配置用于对第一提取结果和第二提取结果进行相似度计算，得到第一相似度；

第一结果生成子单元1035配置用于根据第一相似度生成第一句意识别结果。

图7所示装置的句意识别原理可参考图2所示的方法，此处不再赘述。

图8为图6所示装置的一种优选实施方式中第二识别单元的结构示意图。图8所示装置可对应执行图3所示的方法。

如图8所示，在一优选实施例中，第二识别单元106包括第二提取子单元1061、第二相似度计算子单元1063和第二结果生成子单元1065。

第二提取子单元1061配置用于对第一语句和第二语句分别进行拼音转换、拼音向量化处理，并分别通过第二深度学习模型进行特征提取，得到第三提取结果和第四提取结果；

第二相似度计算子单元1063配置用于对第三提取结果和第四提取结果进行相似度计算，得到第二相似度；

第二结果生成子单元1065配置用于根据第二相似度生成第二句意识别结果。

图8所示装置的句意识别原理可参考图3所示的方法，此处不再赘述。

图9为图6所示装置的一种优选实施方式的结构示意图。图9所示装置可对应执行图4所示的方法。

如图9所示，在一优选实施例中，上述句意识别装置10还包括语音识别单元102，配置用于对语音信息进行语音识别，得到第一语句。

图9所示装置的句意识别原理可参考图4所示的方法，此处不再赘述。

图10为图9所示装置的一种优选实施方式的结构示意图。图10所示装置可对应执行图5所示的方法。

如图10所示，在一优选实施例中，上述句意识别装置10还包括采集单元101，配置用于采集语音信息。

图10所示装置的句意识别原理可参考图5所示的方法，此处不再赘述。

图11为图6所示装置的一种优选实施方式的结构示意图。图11所示装置同样可执行图5所示的方法。

如图11所示，在一优选实施例中，上述句意识别装置10还包括存储单元108，配置用于存储细分领域意图库。

具体地，图11所示装置与图6-10所示装置的区别在于，将细分领域意图库存储在本地存储设备中。在图11所示的装置中，采集单元101与语音识别单元102同样为可选项。

图12为本发明一实施例提供的一种设备的结构示意图。

如图12所示，作为另一方面，本申请还提供了一种设备1200，包括一个或多个中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM1203中，还存储有设备1200操作所需的各种程序和数据。CPU1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本公开的实施例，上述任一实施例描述的句意识别方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行句意识别方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。

作为又一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例的装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，该程序被一个或者一个以上的处理器用来执行描述于本申请的句意识别方法。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以通过执行规定的功能或操作的专用的基于硬件的***来实现，或者可以通过专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，各所述单元可以是设置在计算机或移动智能设备中的软件程序，也可以是单独配置的硬件装置。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离本申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种句意识别方法，其特征在于，包括：

根据增强识别条件判断所述第一相似度是否触发增强识别：

否，则输出所述第一句意识别结果；

是，则对所述第一语句和所述第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果，以及，根据所述第一句意识别结果和所述第二句意识别结果生成第三句意识别结果并输出。

2.根据权利要求1所述的方法，其特征在于，所述增强识别条件包括所述第一相似度小于第一阈值且大于第二阈值；

所述第一相似度不大于所述第二阈值时，所述第一句意识别结果为未识别。

3.根据权利要求1所述的方法，其特征在于，所述对待识别的第一语句与细分领域意图库的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果包括：

对所述第一语句和所述第二语句分别进行字向量化处理，并分别通过第一深度学习模型进行特征提取，得到第一提取结果和第二提取结果；

对所述第一提取结果和所述第二提取结果进行相似度计算，得到第一相似度；

根据所述第一相似度生成所述第一句意识别结果。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一提取结果和所述第二提取结果进行相似度计算，得到第一相似度包括：

将根据若干所述第二语句提取得到的各所述第二提取结果分别与所述第一提取结果进行相似度计算，得到若干候选相似度；

将各所述候选相似度中相似度最高的一项确定为第一相似度。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一语句和所述第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果包括：

对所述第一语句和所述第二语句分别进行拼音转换、拼音向量化处理，并分别通过第二深度学习模型进行特征提取，得到第三提取结果和第四提取结果；

对所述第三提取结果和所述第四提取结果进行相似度计算，得到第二相似度；

根据所述第二相似度生成所述第二句意识别结果。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一句意识别结果和所述第二句意识别结果生成第三句意识别结果并输出包括：

判断所述第一句意识别结果和所述第二句意识别结果是否相同：

否，则将第三句意识别结果配置为未识别并输出；

是，则将所述第一句意识别结果作为第三句意识别结果输出。

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

对语音信息进行语音识别，得到所述第一语句。

8.根据权利要求7所述的方法，其特征在于，在所述对语音信息进行语音识别，得到所述第一语句前，还包括：

采集所述语音信息。

9.一种句意识别装置，其特征在于，包括：

第一识别单元，配置用于对待识别的第一语句与细分领域意图库的第二语句进行基于字的相似度计算，得到第一相似度和第一句意识别结果；

判断单元，配置用于根据增强识别条件判断所述第一相似度是否触发增强识别；

第一输出单元，配置用于在判断结果为未触发增强识别时，输出所述第一句意识别结果；

第二识别单元，配置用于在判断结果为触发增强识别时，对所述第一语句和所述第二语句进行基于拼音的相似度计算，得到第二相似度和第二句意识别结果；

第二输出单元，配置用于根据所述第一句意识别结果和所述第二句意识别结果生成第三句意识别结果并输出。

10.根据权利要求9所述的装置，其特征在于，所述增强识别条件包括所述第一相似度小于第一阈值且大于第二阈值；

11.根据权利要求9或10所述的装置，其特征在于，还包括：

语音识别单元，配置用于对语音信息进行语音识别，得到第一语句。

12.根据权利要求11所述的装置，其特征在于，还包括：

采集单元，配置用于采集语音信息。

13.根据权利要求7-10任一项所述的装置，其特征在于，还包括：

存储单元，配置用于存储所述细分领域意图库。

14.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。

15.一种存储有计算机程序的存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。