CN111524508A

CN111524508A - 语音对话***以及语音对话实现方法

Info

Publication number: CN111524508A
Application number: CN201910108497.1A
Authority: CN
Inventors: 王欣; 马天泽; 林锋; 邵鹏
Original assignee: NIO Co Ltd
Current assignee: NIO Co Ltd
Priority date: 2019-02-03
Filing date: 2019-02-03
Publication date: 2020-08-11

Abstract

本发明涉及一种语音对话实现方法以及语音对话实现***。该方法用于在客户端与服务器之间实现语音对话，包括下述步骤：第一传输步骤，从客户端将语音数据传送到服务器；转换步骤，服务器对所述语音数据进行语音识别以及语义理解并生出文本数据；以及第二传输步骤，从服务器将所述文本数据传送到客户端。根据本发明，客户端只需要和服务器进行一次通信，就能够对语音数据进行语音识别和语义理解，能够提高特定场景下的语音识别准确率。

Description

语音对话***以及语音对话实现方法

技术领域

本发明涉及人机交互技术，特别涉及语音对话***以及语音对话实现方法。

背景技术

NLU（自然语言理解）和ASR（自动语音识别）是对话***的重要组成部分， ASR将用户的语音输入转换成文本， NLU对文本进行语义理解，识别用户的意图，从而执行相应的任务并进行语音答复。

在现有技术中，NLU和ASR的功能相互独立，各自被以独立模块提供。图5是目前语音对话***的架构框图。

如图5所示，目前语音对话***的通信过程包括两次通信。具体地，第一次通信是指从客户端将语音输入送至ASR***，由ASR***将语音数据转成文本后返回客户端；第二次通信是指，从客户端将得到的文本送至NLU***，由NLU***进行语义理解得到相应的答复后返回客户端。

可见，客户端要进行两次通信才能得到答复，通信流程较为繁琐。

发明内容

鉴于上述问题，本发明旨在提出一种能够简化通信流程的语音对话***以及语音对话实现方法。

本发明的语音对话实现方法,其特征在于，该方法用于在客户端与服务器之间实现语音对话，包括下述步骤：

第一传输步骤，从客户端将语音数据传送到服务器；

转换步骤，服务器对所述语音数据进行语音识别以及语义理解并生成文本数据；以及

第二传输步骤，从服务器将所述文本数据传送到客户端。

可选地，在所述第一传输步骤中，以socket长连接方式建立客户端与服务器之间的通信。

可选地，所述转换步骤包括下述子步骤：

对所述语音数据进行特征提取并将提取的特征输入声学模型，得到得分序列；

基于所述得分序列在静态解码器中进行搜索，以获得与该语音数据对应的文本数据，其中，在所述静态解码器中预先设置了语料数据，所述语料数据包括基于场景的场景语料数据；以及

对于所述解码器输出的文本数据进行后处理从而获得预定格式的文本数据。

可选地，所述基于所述得分序列在静态解码器中进行搜索，以获得与该语音数据对应的文本数据的过程中，所述静态解码器仅在需要与场景语料数据中的数据进行匹配时，在所述场景语料数据进行搜索。

可选地，在所述第一传输步骤中，进一步将用于所述场景决策的决策补充信息与所述语音数据一起发送到服务器。

本发明的语音对话实现***,其特征在于，该***用于在客户端与服务器之间实现语音对话，具备：客户端和服务器，

其中，所述客户端用于将语音数据传送到服务器并接受来自服务器的文本数据，

所述服务器用于对所述语音数据进行语音识别以及语义理解并生出文本数据，将所述文本数据传送到所述客户端。

可选地，以socket长连接方式建立所述客户端与所述服务器之间的通信。

可选地，所述服务器包括具备：

语音识别器，用于将所述语音数据进行特征提取并将提取的特征输入声学模型，得到得分序列；以及

静态解码器，用于对所述得分序列进行搜索，以获得与该语音数据对应的文本数据，其中，在所述静态解码器中预先设置了语料数据，所述语料数据包括基于场景的场景语料数据；以及

输出模块，用于对所述解码器输出的文本数据进行后处理从而获得预定格式的文本数据。

可选地，所述静态解码器进行搜索以获得与该语音数据对应的文本数据的过程中，所述静态解码器仅在需要与场景语料数据中的数据进行匹配时，在所述场景语料数据进行搜索。

可选地，所述客户端将用于所述场景决策的决策补充信息与所述语音数据一起发送到所述服务器。

本发明的计算机可读介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现上述的语音对话实现方法。

本发明的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的语音对话实现方法。

如上所述，根据本发明的语音对话***以及语音对话实现方法，通过将语音识别和语义理解整合成一个服务，客户端只需要和服务器进行一次通信，就能够对语音数据进行语音识别和语义理解后直接对客户端进行答复。而且，通过加入场景决策和场景解码网络搜索这两个语义理解过程，能够提高特定场景下的语音识别准确率。进一步，在客户端和服务器之间通过建立一个socket长链接进行通信，通过对话状态对socket链接状态进行维护，将链接保持到对话状态结束，就能够避免频繁的新建链接造成的资源浪费。

通过纳入本文的附图以及随后与附图一起用于说明本发明的某些原理的具体实施方式，本发明的方法和装置所具有的其它特征和优点将更为具体地变得清楚或得以阐明。

附图说明

图1是表示本发明一实施方式的语音对话实现方法的流程图。

图2是表示转换步骤S200的具体过程的流程示意图。

图3中表示了客户端100与服务器200之间进行通信的数据协议。

图4是表示本发明一实施方式的语音对话实现***的架构框图。

图5是目前语音对话***的架构框图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

图1是表示本发明一实施方式的语音对话实现方法的流程图。

如图1所示，本发明一实施方式的语音对话用于在客户端100与服务器200之间实现语音对话，该方法包括下述步骤：

第一传输步骤S100：从客户端100将语音数据传送到服务器200；

转换步骤S200：服务器200对所述语音数据进行语音识别以及语义理解并生成文本数据；以及

第二传输步骤S300：从服务器200将所述文本数据传送到客户端100。

根据本申请，语音识别和语义理解都在转换步骤S200完成。由此，客户端100只要将语音数据发送给服务器200，便可从服务器200获得文本数据，而不是像现有方式那样，客户端就一个语音数据需要跟远端进行两个来回的通信。

这里对于转换步骤S200的具体内容进行说明。

图2是表示转换步骤S200的具体过程的流程示意图。

如图2所示，转换步骤S200包括下述子步骤：步骤S201、步骤S202以及步骤S203。

接着，对于这些步骤进行具体说明。

步骤S201：对所述语音数据进行特征提取并将提取的特征输入声学模型，得到各个时刻各个状态的得分序列。其中，对语音数据进行特征提取、将其输入到声学模型以及得到得分序列，可采用常规的处理步骤，其并非本发明的重点，在此就不赘述细节。

步骤S202：基于所得到的得分序列，在例如静态解码器（wfst）中搜索以得到与其对应的结果，在此称为搜索结果。其中，静态解码器包括状态概率模型和语言模型，语言模型由收集的语料和字典训练生成。基于得分序列在概率模型中搜索出符合语言模型约束的最大得分路径，从而得到最优解，也就是与得分序列最为匹配的结果。

在此需要说明的是，根据本申请的语言模型中的语料中，包含有场景语料信息，该场景语料信息可与多种因素有关，比如用户的通讯录、用户的特定语音习惯、地名等，所有有助于理解用户、特定用户的语义的信息都可涵盖在此。

基于此，对步骤202进一步解释如下：在基于得分序列而在静态解码器进行搜索的过程中，不仅仅是获得自动语音识别，更是在识别过程中基于语料信息，例如场景语料信息而获得更为准确的信息，从而给出最匹配的搜索结果，也就是给出与语音输入最匹配的文字。应理解到，并不是每一个语音输入都需要在场景预料信息中进行匹配，如果在不使用场景语料信息就可以获得确定结果的情况下，是可以不搜索场景语料信息的，而在下文的一个示例中，因为存在不确定的语义，因此会在场景语料信息中进行检索。

由此可以看出，与如图5所示的现有技术中ASR独立于NLU自动语音识别相比，本申请将NLU与ASR相互融合在一起，使得在ASR阶段，即可采用到NLU的语义理解部分，从而给出与语音输入对应的更为准确的搜索结果，也就是原始文本数据。

作为示例，可实现做出最为基本的语音识别，然后再在如上所述的场景语料信息中进行进一步的搜索，以获得最优解，这对那些语音有多种理解的情况尤为有益。

步骤S203：对步骤202的搜索结果（原始文本数据）进行后处理并获得预定格式的文本结果。

这里，列举一个示例对于本发明的语音对话实现方法进行说明。

例如，用户A的通讯录中有联系人陈一，用户B的通讯录中有联系人陈伊，用户A和B的通讯录都已作为场景语料。在用户A和用户B都说“打电话给chenyi ”的情况下，首先会分别获得用户A和用户B语音输入的得分序列（相当于步骤201），然后，基于得分序列在静态解码器搜索，在这个过程中，因为场景语料，将会准确地给出针对用户A的搜索结果是“打电话给陈一”，而给用户B的搜索结果是“打电话给陈伊”（相当于步骤202）。最后在对搜索结果进行后处理从而获得预定格式的文本结果（相当于步骤203）。该文本结果将由服务器发送给客户端。

特别地，在本申请中，在客户端100与服务器200之间通过建立一个socket长链接进行通讯。其中，所谓socket是指，网络上的两个程序通过一个双向的通讯连接实现数据的交换，这个连接的一端称为一个socket。所谓socket长链接是指，整个通讯过程，客户端和服务端只用一个socket对象，长期保持socket的连接。图3中表示了客户端100与服务器200之间进行通信的数据协议。

如图3所示，在通信数据中包括header（头）部分、语音数据部分以及结束标识。

其中，header部分包括header长度以及语义理解中进行上述决策需要用到的补充信息，例如车辆ID信息、当前位置、蓝牙连接状态、当前导航状态等（上文结合图2的示例中未曾提及，但实际上，这些信息也可作为场景语料信息）。例如，用户想要搜索附近的餐厅，客户端100对服务器200发起询问，根据图3所示的数据协议，客户端100会把当前位置信息放在header中传到服务器200，然后发送“搜索附近的餐厅”对应的音频数据，服务器200在识别意图后，就可以利用header中的当前位置信息进行搜索。

而且，通过对话状态对socket链接状态进行维护，将链接保持到对话状态结束，由此能够避免频繁的新建链接造成资源浪费。

以上，对于本发明的语音对话实现方法进行了说明，接着对于本发明的语音对话实现***进行说明。

图4是表示本发明一实施方式的语音对话实现***的架构框图。

如图4所示，本发明一实施方式的语音对话实现***用于在客户端100与服务器200之间实现语音对话。

其中，客户端100用于将语音数据传送到服务器200并接受来自服务器200的文本数据。服务器200用于对所述语音数据进行语音识别以及语义理解并生出文本数据，将所述文本数据传送到所述客户端100。

其中，客户端100具备：

发送模块110，用于发送语音数据；以及

接收模块120，用于接收文本数据。

其中，服务器200被配置为包括：

语音识别器210，用于将所述语音数据进行特征提取并输入声学模型，得到各个时刻各个状态的得分序列；

静态解码器220，其基于得分序列进行搜索，以获得与该语音数据对应的文本数据，其中，在所述静态解码器中预先设置了语料数据，所述语料数据包括基于场景的场景语料数据；以及

输出模块230，对搜索结果进行后处理从而获得预定格式的文本结果，输出模块230例如为通信部件。

其中，静态解码器220进行搜索以获得与该语音数据对应的文本数据的过程中，静态解码器220仅在需要与场景语料数据中的数据进行匹配时，在所述场景语料数据进行搜索。

作为一个优选方式，客户端100和服务器200之间建立一个socket长链接，并且采用图3所示的数据协议进行通信。其中，客户端100将用于所述场景决策的决策补充信息与语音数据一起发送到服务器200。

本发明还提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的语音对话实现方法。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的语音对话实现方法。

以上例子主要说明了本发明的语音对话***以及语音对话实现方法。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种语音对话实现方法,其特征在于，该方法用于在客户端与服务器之间实现语音对话，包括下述步骤：

第一传输步骤，从客户端将语音数据传送到服务器；

第二传输步骤，从服务器将所述文本数据传送到客户端。

2.如权利要求1所述的语音对话实现方法,其特征在于，

在所述第一传输步骤中，以socket长连接方式建立客户端与服务器之间的通信。

3.如权利要求1所述的语音对话实现方法,其特征在于，所述转换步骤包括下述子步骤：

4.如权利要求3所述的语音对话实现方法,其特征在于，所述基于所述得分序列在静态解码器中进行搜索，以获得与该语音数据对应的文本数据的过程中，所述静态解码器仅在需要与场景语料数据中的数据进行匹配时，在所述场景语料数据进行搜索。

5.如权利要求1所述的语音对话实现方法,其特征在于，

在所述第一传输步骤中，进一步将用于所述场景决策的决策补充信息与所述语音数据一起发送到服务器。

6.一种语音对话实现***,其特征在于，该***用于在客户端与服务器之间实现语音对话，具备：客户端和服务器，

7.如权利要求6所述的语音对话实现方法,其特征在于，

以socket长连接方式建立所述客户端与所述服务器之间的通信。

8.如权利要求6所述的语音对话实现***,其特征在于，所述服务器包括具备：

语音识别器，用于将所述语音数据进行特征提取并将提取的特征输入声学模型，得到得分序列；

9.如权利要求8所述的语音对话实现***,其特征在于，

所述静态解码器进行搜索以获得与该语音数据对应的文本数据的过程中，所述静态解码器仅在需要与场景语料数据中的数据进行匹配时，在所述场景语料数据进行搜索。

10.如权利要求8所述的语音对话实现***,其特征在于，

所述客户端将用于所述场景决策的决策补充信息与所述语音数据一起发送到所述服务器。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现权利要求1~5任意一项所述的语音对话实现方法。

12.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1~5任意一项所述的语音对话实现方法。