CN107464566A

CN107464566A - 语音识别方法和装置

Info

Publication number: CN107464566A
Application number: CN201710861589.8A
Authority: CN
Inventors: 孙孝雄
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2017-12-12

Abstract

本发明公开了一种语音识别方法和装置，其中，方法包括：获取用户输入的语音信息；基于命名实体识别***识别出语音信息中的实体信息；获取用户输入语音信息时的语速信息和音量信息；以及基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息。本发明实施例的语音识别方法，通过获取用户输入的语音信息，并基于命名实体识别***识别出语音信息中的实体信息，再获取用户输入语音信息时的语速信息和音量信息，以及基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息，从而将情感信息作为语音识别的重要因素，帮助提高语音识别的准确率，更加符合用户的真实需求。

Description

语音识别方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音识别方法和装置。

背景技术

随着科技的不断进步，语音识别技术取得了显著的进步，智能化时代的到来，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。目前，语音识别主要是解析用户说话的内容，理解用户的意图，从而与用户进行简单的交互，例如接收用户的语音指令，执行一些简单的操作，或者与用户进行简单的对话。但是，当用户输入一句语音，如“给我播放一首歌曲”时，目前的语音识别***，通常只会为用户说话的内容进行解析，根据解析结果随机推荐一首歌曲，而用户在说话时还包括更多的信息，并没用充分的加以利用，因此无法理解更深层次的用户的行为意图。

发明内容

本发明提供一种语音识别方法和装置，以解决上述技术问题中的至少一个。

本发明实施例提供一种语音识别方法，包括：获取用户输入的语音信息；基于命名实体识别***识别出所述语音信息中的实体信息；获取所述用户输入所述语音信息时的语速信息和音量信息；以及基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息。

可选的，基于命名实体识别***识别出所述语音信息中的实体信息，包括：对所述语音信息进行分析，获得分析结果；根据所述分析结果识别出所述实体信息。

可选的，对所述语音信息进行分析，获得分析结果，包括：对所述语音信息进行预处理、分词、词性标注处理，以获得所述分析结果。

可选的，基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息，包括：将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型；基于预设情感词典，通过所述深度学习情感分析模型识别出所述情感信息。

可选的，在获取用户输入的语音信息之后，还包括：对所述语音信息进行语义解析，并生成语义解析结果；根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。

本发明另一实施例提供一种语音识别装置，包括：第一获取模块，用于获取用户输入的语音信息；识别模块，用于基于命名实体识别***识别出所述语音信息中的实体信息；第二获取模块，用于获取所述用户输入所述语音信息时的语速信息和音量信息；以及情感分析模块，用于基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息。

可选的，所述识别模块，用于：对所述语音信息进行分析，获得分析结果；根据所述分析结果识别出所述实体信息。

可选的，所述识别模块，具体用于：对所述语音信息进行预处理、分词、词性标注处理，以获得所述分析结果。

可选的，所述情感分析模块，用于：将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型；基于预设情感词典，通过所述深度学习情感分析模型识别出所述情感信息。

可选的，所述装置还包括：语义解析模块，用于在获取用户输入的语音信息之后，对所述语音信息进行语义解析，并生成语义解析结果；反馈模块，用于根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。

本发明还一实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述的语音识别方法。

本发明又一实施例提供一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器用于执行本发明第一方面实施例所述的语音识别方法。

本发明实施例提供的技术方案可以包括以下有益效果：

通过获取用户输入的语音信息，并基于命名实体识别***识别出所述语音信息中的实体信息，再获取所述用户输入所述语音信息时的语速信息和音量信息，以及基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息，从而将情感信息作为语音识别的重要因素，帮助提高语音识别的准确率，更加符合用户的真实需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的语音识别方法的流程图；

图2是根据本发明另一个实施例的语音识别方法的流程图；

图3是基于深度学习的情感分析***框架示意图；

图4是根据本发明一个实施例的语音识别装置的结构框图；

图5是根据本发明另一个实施例的语音识别装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别方法和装置。

图1是根据本发明一个实施例的语音识别方法的流程图。

如图1所示，该语音识别方法包括：

S101，获取用户输入的语音信息。

目前，语音识别主要是解析用户说话的内容，理解用户的意图，从而与用户进行简单的交互，例如接收用户的语音指令，执行一些简单的操作，或者与用户进行简单的对话。但是，当用户输入一句语音，如“给我播放一首歌曲”时，目前的语音识别***，通常只会为用户说话的内容进行解析，根据解析结果随机推荐一首歌曲，而用户在说话时还包括更多的信息利于情感信息等，并没用充分的加以利用，因此无法理解更深层次的用户的行为意图。

为此，本发明提出一种语音识别方法，能够将情感信息作为特征融合至语音识别中，从而能够更精准地理解用户的意图。情感分析，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。因此，本发明基于深度学习技术，结合语音识别***中的语速，音量等特征进行综合分析，从而准确地获取用户的情感信息。

在本发明的一个实施例中，可获取用户输入的语音信息。

S102，基于命名实体识别***识别出语音信息中的实体信息。

其中，命名实体识别***(Named Entity Recognition，NER)，主要用于识别文本中具有特定意义的实体，例如人名、地名、机构名、专有名词等。

在本发明的一个实施例中，，可对语音信息进行分析，获得分析结果，然后根据分析结果识别出实体信息。具体地，可对语音信息进行预处理、分词、词性标注等处理，从而获得分析结果。

S103，获取用户输入语音信息时的语速信息和音量信息。

在获取用户输入的语音信息时，同时还可获取语音信息对应的语速信息和音量信息。其中，语速信息和音量信息可定义为double类型，取值范围可用数字表示，如0-15。应当理解的是，针对步骤S103与步骤S101，本发明并不限定两者的执行先后顺序。

S104，基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息。

在获取上述信息之后，可将实体信息、语速信息和音量信息作为特征信息输入至深度学习情感分析模型，然后可基于预设情感词典，通过深度学习情感分析模型识别出情感信息，例如识别出该语音信息对应的情感信息为高兴。

其中，深度学习情感分析模型可为一个卷积神经网络CNN模型。预设情感词典为通过以下几个情感词典融合整理生成，1褒贬词及其近义词、2汉语情感词极值表、3清华大学李军中文褒贬义词典、4情感词典及其分类、5情感词汇本体、6台湾大学NTUSD简体中文情感词典以及7知网HowNet情感词典。

在本发明的另一实施例中，如图2所示，语音识别方法还可包括以下步骤：

S105，对语音信息进行语义解析，并生成语义解析结果。

S106，根据语义解析结果和情感信息向用户反馈与语音信息相对应的结果信息。

在本实施例中，可以运用自然语言理解(Natural Language Understanding，NLU)技术来对语音信息进行语义解析。在获得语义解析结果之后，再结合分析获得的情感信息，从而对用户的意图进行深度的解析，最终向用户反馈相应的结果信息。

下面以一个具体示例进行详细说明。

如图3所示，图3为一个基于深度学习的情感分析***框架示意图。

首先，用户进行语音输入“给我播放一首歌曲”，此时可通过命名实体识别NER来识别出对应的实体信息“歌曲”。其中，可先将语音转换为文本，再对文本进行预处理、分词、词性标注等处理，然后输出至NER中进行识别。之后，利用语音识别技术，获得语速信息和音量信息。语速信息和音量信息可定义为double类型，取值范围可用数字表示，如0-15。数字越大，表示语速越快或者音量越大。在此之后，可将实体信息、语速信息和音量信息整理为特征信息，输入深度学习情感分析模型，利用整合好的情感词典，分析出语音信息对应的情感信息为高兴。此时，再结合语义解析，从而分析出用户的意图为想要获取高兴的歌曲，因此可智能地向用户推送一首欢快的歌曲进行播放，更加符合用户的需求。

本发明实施例的语音识别方法，通过获取用户输入的语音信息，并基于命名实体识别***识别出语音信息中的实体信息，再获取用户输入语音信息时的语速信息和音量信息，以及基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息，从而将情感信息作为语音识别的重要因素，帮助提高语音识别的准确率，更加符合用户的真实需求。

为了实现上述实施例，本发明还提出了一种语音识别装置，图4是根据本发明一个实施例的语音识别装置的结构框图，如图4所示，该装置包括第一获取模块410、识别模块420、第二获取模块430以及情感分析模块440。

其中，第一获取模块410，用于获取用户输入的语音信息。

识别模块420，用于基于命名实体识别***识别出语音信息中的实体信息。

第二获取模块430，用于获取用户输入语音信息时的语速信息和音量信息。

情感分析模块440，用于基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息。

此外，如图5所示，该装置还可包括语义解析模块450和反馈模块460。

语义解析模块450，用于在获取用户输入的语音信息之后，对语音信息进行语义解析，并生成语义解析结果。

反馈模块460，用于根据语义解析结果和情感信息向用户反馈与语音信息相对应的结果信息。

需要说明的是，前述对语音识别方法的解释说明，也适用于本发明实施例的语音识别装置，本发明实施例中未公布的细节，在此不再赘述。

本发明实施例的语音识别装置，通过获取用户输入的语音信息，并基于命名实体识别***识别出语音信息中的实体信息，再获取用户输入语音信息时的语速信息和音量信息，以及基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息，从而将情感信息作为语音识别的重要因素，帮助提高语音识别的准确率，更加符合用户的真实需求。

为了实现上述实施例，本发明还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例的语音识别方法。

为了实现上述实施例，本发明还提供一种终端设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器用于执行本发明第一方面实施例的语音识别方法。

例如，计算机程序可被处理器执行以完成以下步骤的语音识别方法：

S101’，获取用户输入的语音信息。

S102’，基于命名实体识别***识别出语音信息中的实体信息。

S103’，获取用户输入语音信息时的语速信息和音量信息。

S104’，基于深度学习情感分析模型，根据实体信息、语速信息和音量信息，识别出语音信息对应的情感信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括：

获取用户输入的语音信息；

基于命名实体识别***识别出所述语音信息中的实体信息；

获取所述用户输入所述语音信息时的语速信息和音量信息；以及

基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息。

2.如权利要求1所述的方法，其特征在于，基于命名实体识别***识别出所述语音信息中的实体信息，包括：

对所述语音信息进行分析，获得分析结果；

根据所述分析结果识别出所述实体信息。

3.如权利要求2所述的方法，其特征在于，对所述语音信息进行分析，获得分析结果，包括：

对所述语音信息进行预处理、分词、词性标注处理，以获得所述分析结果。

4.如权利要求1所述的方法，其特征在于，基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息，包括：

将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型；

基于预设情感词典，通过所述深度学习情感分析模型识别出所述情感信息。

5.如权利要求1所述的方法，其特征在于，在获取用户输入的语音信息之后，还包括：

对所述语音信息进行语义解析，并生成语义解析结果；

根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。

6.一种语音识别装置，其特征在于，包括：

第一获取模块，用于获取用户输入的语音信息；

识别模块，用于基于命名实体识别***识别出所述语音信息中的实体信息；

第二获取模块，用于获取所述用户输入所述语音信息时的语速信息和音量信息；以及

情感分析模块，用于基于深度学习情感分析模型，根据所述实体信息、所述语速信息和所述音量信息，识别出所述语音信息对应的情感信息。

7.如权利要求6所述的装置，其特征在于，所述识别模块，用于：

对所述语音信息进行分析，获得分析结果；

根据所述分析结果识别出所述实体信息。

8.如权利要求7所述的装置，其特征在于，所述识别模块，具体用于：

9.如权利要求6所述的装置，其特征在于，所述情感分析模块，用于：

10.如权利要求6所述的装置，其特征在于，所述装置还包括：

语义解析模块，用于在获取用户输入的语音信息之后，对所述语音信息进行语义解析，并生成语义解析结果；

反馈模块，用于根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-5任一项所述的语音识别方法。

12.一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器用于执行权利要求1-5任一项所述的语音识别方法。