CN107301865B

CN107301865B - 一种用于语音输入中确定交互文本的方法和装置

Info

Publication number: CN107301865B
Application number: CN201710480763.4A
Authority: CN
Inventors: 胡伟凤; 高雪松
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2020-11-03
Anticipated expiration: 2037-06-22
Also published as: CN107301865A

Abstract

本发明公开了一种用于语音输入中确定交互文本的方法和装置，属于数据处理领域。该方法包括：识别用户输入的语音数据，得到语音数据的识别文本；若识别文本与预设的文本库无法匹配，则获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；计算预设文本的发音元素串与识别文本的发音元素串之间的发音相似度；将预设文本中发音相似度为最大值的预设文本确定为语音数据的交互文本。解决了在实际应用中，用于语音输入中确定交互文本的的识别结果往往与用户输入意图不一致的问题；达到了有效避免用于语音输入中确定交互文本的的识别结果在终端的文本库中不存在，避免终端根据该识别文本无法进行控制业务定位的效果。

Description

一种用于语音输入中确定交互文本的方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种用于语音输入中确定交互文本的方法和装置。

背景技术

近几年随着科技的飞速发展，用于语音输入中确定交互文本的控制技术已逐渐应用在各种终端设备上。用户可通过终端设备上配置的用于语音输入中确定交互文本的装置对终端设备进行声控，这为终端设备的控制技术带来了新的变革。目前，语音控制已经成为终端设备的一种主流控制方式。

以电视机为例，通常，电视机配置有语音应用程序，比如语音助手等，用户通过语音助手进行语音输入，电视机对用户的语音输入进行识别得到文本进而电视机根据该文本生成其对应的控制指令，执行该控制指令以实现电视机的语音控制。

已有技术中，通过下述公式依次实现对用户输入的语音数据识别得到其对应的识别文本。

W₁＝arg max P(W|X) (1)

其中，在上述公式(1)中，W表示数据库中存储的任一文字序列，该文字序列包括词或字，该数据库可以是用于做用于语音输入中确定交互文本的的语料库；X表示用户输入的语音数据，W₁表示从存储文字序列中获得的可与用户输入的语音数据匹配的文字序列，P(W|X)表示该用户输入的语音数据可以变成文字的概率。

其中，在上述公式(2)中，W₂表示该用户输入的语音数据与该文字序列之间的匹配程度，P(X|W)表示该文字序列可以发音的概率，P(W)表示该文字序列为词或字的概率，P(X)表示用户输入的语音数据为音频信息的概率。

在上述的识别过程中，对用户输入的语音数据，首先通过声学模型确定P(W|X)，然后在通过语言模型计算P(W)、通过声学模型计算P(X|W)，最后根据计算得到的概率值，将概率值最大的文本确定为用户输入的语音数据对应的识别文本。

其中，语言模型通常利用链式法则，把文字序列为词或字的概率拆解成其中每个词或字的概率之积，也即是，将W拆解成w₁、w₂、w₃、....w_n-1、w_n，并通过下述公式(3)确定P(W)。

P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)...P(w_n|w₁,w₂,...,w_n-1) (3)

其中，在上述公式(3)中，P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。

其中，声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音，并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点，从而确定每个音素的起止时间，进而确定用户输入的语音数据与音素串的匹配程度，也即是，确定P(X|W)。由于在确定每个词时还需要确定每个词的发音，而确定每个词的发音则需要通过词典实现。词典是与声学模型和语言模块并列的模型，且该词典可以把单个词转换成音素串。

通常情况下，可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布，并在用于语音输入中确定交互文本的阶段，确定用户输入的语音数据中每一帧的特征向量x_t由相应音素s_i产生的概率P(x_t|s_i)，把每一帧的概率相乘，就得到P(X|W)。通过频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)从训练数据中提取大量的特征向量，以及每个特征向量对应的音素，从而训练从特征到音素的分类器。

但是，在实际的使用过程中，由于已有技术中是将根据声学模型和语言模型计算的概率值最大的文本确定为用户输入的语音数据对应的识别文本，但是受到用户所处环境的噪音、用户的方言口语等因素的影响，导致根据声学模型和语言模型计算的概率值最大的文本并不是用户的真实意图，或者识别得到的识别文本在终端的文本库中并不存在，导致终端无法根据该识别文本进行控制业务定位。

发明内容

为了解决在实际应用中，受到用户所处环境的噪音、用户的方言口语等因素的影响，用于语音输入中确定交互文本的的识别结果往往与用户输入意图不一致的问题，本发明实施例提供了一种用于语音输入中确定交互文本的方法和装置，可以有效避免用于语音输入中确定交互文本的的识别结果在终端的文本库中不存在，避免终端根据该识别文本无法进行控制业务定位。所述技术方案如下：

第一方面，提供了一种用于语音输入中确定交互文本的方法，所述方法包括：

识别用户输入的语音数据，得到所述语音数据的识别文本；

若所述识别文本与预设的文本库无法匹配，则获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；

计算所述预设文本的发音元素串与所述识别文本的发音元素串之间的发音相似度；

将所述预设文本中发音相似度为最大值的预设文本确定为所述语音数据的交互文本。

第二方面，提供了一种用于语音输入中确定交互文本的装置，所述装置包括：

识别模块，用于识别用户输入的语音数据，得到所述语音数据的识别文本；

获取模块，用于当所述识别文本与预设的文本库无法匹配时，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；

计算模块，用于计算所述预设文本的发音元素串与所述识别文本的发音元素串之间的发音相似度；

确定模块，用于将所述预设文本中发音相似度为最大值的预设文本确定为所述语音数据的交互文本。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法，若用户输入的语音数据识别得到的识别文本与预设的文本库无法匹配时，则从预设的文本库中获取与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，并将预设文本中发音相似度为最大值的预设文本确定为用户输入的语音数据的交互文本，然后终端可以基于该交互文本实现该语音数据对应的操作，可以有效避免由于识别文本在终端的文本库中不存在，导致终端无法根据该识别文本进行控制业务定位；同时由于文本中的字符是由发音元素或者发音元素串构成，计算预设文本的发音元素串与识别文本的发音元素串之间的相似度，相当于计算预设文本与识别文本之间的相似度；采用发音相似度为最大值的预设文本替换识别文本作为用户输入语音数据的交互文本，解决了在实际应用中，受到用户所处环境的噪音、用户的方言口语等因素的影响，造成用于语音输入中确定交互文本的的识别结果中存在明显的错误，即有效避免用于语音输入中确定交互文本的的识别结果在终端的文本库中不存在，避免终端根据该识别文本无法进行控制业务定位的问题，提高了语音控制在终端上的体验效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图；

图2是本发明另一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图；

图3是本发明再一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图；

图4A是本发明又一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图；

图4B是本发明一个实施例提供的基于发音编码的相似性检索的方式检索识别文本对应的预设文本方法的方法流程图；

图4C是本发明一个实施例提供的计算预设文本对应的发音编码串与识别文本的发音编码串之间的相似度方法的方法流程图；

图5是本发明一个实施例中提供的用于语音输入中确定交互文本的装置的结构方框图；

图6是本发明部分实施例中提供的终端的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

相对于传统的文本输入方式，语音输入方式更符合人们的日常习惯，使得用户的输入过程更为高效。但受到用户所处环境的噪音以及用户的方言口语等因素的影响，语音识别的识别结果中存在明显的错误，又或者存在明显的错误的识别结果往往与用户输入意图不一致。

请参考图1，其示出了本发明一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图。该用于语音输入中确定交互文本的方法可以包括如下步骤：

步骤101，识别用户输入的语音数据，得到语音数据的识别文本。

可选的，利用大量的语音数据和语音数据对应的语音文本来训练声学模型(比如GMM-HMM模型、DNN-HMM模型和RNN+CTC模型)，当声学模型训练成熟后，接收用户输入的语音数据，利用训练好的声学模型对语音数据进行识别，得到语音数据的识别文本。

步骤102，若识别文本与预设的文本库无法匹配，则获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本。

可选的，若识别文本中包括的至少一个分词，与预设的文本库无法匹配，则获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本。

终端得到语音数据的识别文本后，对识别文本进行分词，得到识别文本中包括的至少一个分词。

需要说明的是，分词的方式可以为按字分词、按词分词、按句子成分(主语、谓语、宾语等)分词等，本实施例并不限定分词的具体方式。比如，识别文本为“中国新声音”，对识别文本进行按字分词后可得到“中”、“国”、“新”、“声”、“音”，对识别文本进行按词分词后“中”、“国”、“新”、“声”、“音”这五个分词，也可能得到“中国”、“新”、“声音”这三个分词。

需要说明的是，对识别文本可仅按字分词，也可以仅按词分词，还可以按字分词与按词分词合并实施(识别文本分词(即识别文本中包括的至少一个分词)为识别文本进行按字分词后得到的第一识别文本分词与识别文本进行按词分词后得到的第二识别文本分词的并集)，本实施例并不限定分词的组合方式。

可选的，将识别文本分词与预设的文本库匹配，具体为判定预设的文本库中是否存储有该识别文本分词，若预设的文本库中未存储有识别文本分词，则直接将该识别文本确定为语音数据的交互文本，若预设的文本库中未存储有识别文本分词，则判定识别文本分词与预设的文本库无法匹配。

若识别文本分词与预设的文本库无法匹配(即文本库中为存储该识别文本分词)，则对识别文本进行相似性检索，获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本。

本实施例中，该相似性检索的检索方式分为基于文本的相似性检索、基于发音元素的相似性检索和基于发音编码的相似性检索。其中，基于文本的相似性检索，是指对识别文本进行分词后，对识别文本包括的每个识别文本分词分别进行相似性检索；基于发音元素的相似性检索，是指在对识别文本进行分词的基础上，获取每个识别文本分词分别对应的分词发音元素串，对每个分词发音元素分别进行相似性检索；基于发音编码的相似性检索，是指获取识别文本的发音元素串后，将发音元素串转换为发音编码串，对发音编码串进行切分后，对发音编码串包括的每位发音编码分别进行相似性检索。

可选的，为了避免预设的文本库中存储的文本的数量较大，导致终端获取识别文本所需花费的时长较长，降低相似性检索的效率，该文本库仅包括高热度文本、高使用频率文本、高搜索频率文本。其中，文本库中存储的文本可由技术人员设置。

需要说明的是，该识别文本和预设文本的文本语言可以为汉字、英文或者其他国家的语言，本实施例不对识别文本和预设文本的文本语言作具体限定。

步骤103，计算预设文本的发音元素串与识别文本的发音元素串之间的发音相似度。

文本由字符组成，字符由发音元素构成。发音元素即为音素，是语音中的最小的单位，也就是说，计算两个文本的发音元素串的相似度，实则是计算两个文本之间的相似度。

当字符为汉字时，发音元素为汉语拼音。比如，当文本为“好声音”时，组成该文本的字符为“好”、“声”、“音”三个字符，构成字符“好”的发音元素串为“hao”，构成字符“声”的发音元素串为“sheng”，构成字符“音”的发音元素串为“yin”，也就是说，文本为“好声音”的发音元素串为“hao sheng yin”。

相似度的计算可以通过最长公共子串、最长公共子序列、最少编辑距离法、汉明距离、余弦值、编辑距离等手段实现，在本实施例中以编辑距离为例计算预设文本的发音元素串与识别文本的发音元素串之间的发音相似度，这并不对本实施例中所可能采用的相似度的计算方式做任何限制。

编辑距离是指两个字符串之间，由一个字符串转成另一个字符串所需的最少编辑操作次数，其中，编辑操作包括字符的替换，字符的***和字符的删除。一般来说，两个字符串之间的编辑距离越小，说明这两个字符串的相似度越大，两个字符串的相似度越大，说明这两个字符串越相似。

步骤104，将预设文本中发音相似度为最大值的预设文本确定为语音数据的交互文本。

若某一预设文本的发音元素串与识别文本的发音元素串之间的相似度越大，说明该预设文本为语音数据的交互文本的可能性越高，因此，终端可将预设文本中发音相似度为最大值的预设文本确定为语音数据的交互文本。

可选的，终端得到语音数据的交互文本之后，将在该终端的显示界面上显示该语音数据的交互文本。

可选的，终端得到语音数据的交互文本之后，将在该终端的显示界面上显示该交互文本所要执行的语音控制业务。

比如，终端得到的语音数据的交互文本为“打开浏览器”，那么该终端可在显示界面上显示交互文本“打开浏览器”，也可以直接执行交互文本“打开浏览器”所要执行的语音控制业务，打开终端所安装的浏览器应用。

综上所述，本发明实施例提供的方法，若用户输入的语音数据识别得到的识别文本与预设的文本库无法匹配时，则从预设的文本库中获取与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，并将预设文本中发音相似度为最大值的预设文本确定为用户输入的语音数据的交互文本，然后终端可以基于该交互文本实现该语音数据对应的操作，可以有效避免由于识别文本在终端的文本库中不存在，导致终端无法根据该识别文本进行控制业务定位；同时由于文本中的字符是由发音元素或者发音元素串构成，计算预设文本的发音元素串与识别文本的发音元素串之间的相似度，相当于计算预设文本与识别文本之间的相似度；采用发音相似度为最大值的预设文本替换识别文本作为用户输入语音数据的交互文本，解决了在实际应用中，受到用户所处环境的噪音、用户的方言口语等因素的影响，造成用于语音输入中确定交互文本的的识别结果中存在明显的错误，即有效避免用于语音输入中确定交互文本的的识别结果在终端的文本库中不存在，避免终端根据该识别文本无法进行控制业务定位的问题，提高了语音控制在终端上的体验效果。

实施例二

当识别文本自身存在错误(比如：文本中部分字词错误、文本中缺字少词、文本中多字添词、文本中字词顺序颠倒)时，终端可采用基于文本的相似性检索的方式检索识别文本对应的预设文本，以使检索出的预设文本中尽可能包含用户本意想输入的正确文本，提高语音输入中确定交互文本的正确率。

请参考图2，其示出了本发明另一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图。该用于语音输入中确定交互文本的方法可以包括如下步骤：

步骤201，识别用户输入的语音数据，得到语音数据的识别文本。

步骤202，若识别文本中包括的至少一个分词，与预设的文本库无法匹配，则根据识别文本所包括的识别文本分词，获取文本库中包含至少一个识别文本分词的文本。

比如：识别文本分词分别为“中国”、“新”、“声音”，终端获取的预设文本可以仅包括“中国”或“新”或“声音”，可以同时包括“中国”和“新”，或者同时包括“中国”和“声音”，或者同时包括“新”和“声音”，也可以同时包括“中国”、“新”、“声音”。

对于识别文本中部分字词错误的情况，由于终端对识别文本进行分词后所得到的各个识别文本分词中，一般包括至少一个识别文本中部分正确字词的分词，因此终端所获取包含至少一个识别文本中正确字词的分词的文本中，通常包括用户本意想输入的仅包括正确字词的文本。

对于识别文本中缺字少词的情况，由于终端所获取包含至少一个识别文本分词的文本中，通常存在包括识别文本中全部识别文本分词的文本，该文本的文本长度可能比识别文本的文本长度长，也可能比识别文本的文本长度短，在文本长度可能比识别文本的文本长度长的文本中，通常包括用户本意想输入的未缺字少词的文本。

对于识别文本中多字添词的情况，由于终端所获取包含至少一个识别文本分词的文本中，通常存在包括识别文本中全部识别文本分词的文本，该文本的文本长度可能比识别文本的文本长度长，也可能比识别文本的文本长度短，在文本长度可能比识别文本的文本长度短的文本中，通常包括用户本意想输入的未多字添词的文本。

对于识别文本中字符顺序颠倒的情况，终端所获取包含至少一个识别文本分词的文本中，通常存在包括识别文本中全部识别文本分词的文本，由于识别文本分词不同的组合顺序所组成的文本不同，因此包括识别文本中全部识别文本分词的文本的数量可能为多个，在这类文本中通常包括用户本意想输入的未顺序颠倒的文本。

步骤203，在获取的文本中，选取文本长度与识别文本的文本长度的差值不超过第三预设阈值的文本，作为与识别文本对应的至少一个预设文本。

由于预设文本的文本长度与识别文本的文本长度相差越大，亦可以说明预设文本与识别文本之间的文本相似度越低，因此当终端采用基于文本的相似性检索的方式检索识别文本对应的预设文本时，“获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本”可被替换为“在获取的文本中，选取文本长度与识别文本的文本长度的差值不超过第三预设阈值的文本，作为与识别文本对应的至少一个预设文本”。

另外，为了避免终端将文本长度与识别文本的文本长度偏差较大的文本作为识别文本对应的预设文本之一，增加终端不必要的计算量，降低语音输入中确定交互文本的效率，设置第三预设阈值的另一个目的在于，在终端计算发音相似度之前，剔除与识别文本的文本相似度较低的预设文本，减少终端不必要的计算量，提高语音输入中确定交互文本的效率。

比如，识别文本为5个字符，第三预设阈值为1个字符，那么，终端在获取的文本中，选取文本长度在4个字符至6个字符之间的文本，作为与识别文本对应的至少一个预设文本。

需要说明的是，该第三预设阈值可以人为设置也可以***预设，本实施例并不限定第三预设阈值的具体设置方式。

步骤204，计算预设文本的发音元素串与识别文本的发音元素串之间的发音相似度。

步骤205，将预设文本中发音相似度为最大值的预设文本确定为语音数据的交互文本。

需要说明的是，本实施例中步骤201与步骤101类似、步骤204至步骤205与步骤103至步骤104类似，因此本实施例不再对步骤201、步骤204以及步骤205赘述说明。

本实施例中，终端可采用基于文本的相似性检索的方式检索识别文本对应的预设文本，以使检索出的预设文本中尽可能包含用户本意想输入的正确文本，提高语音输入中确定交互文本的正确率。

实施例三

当由于终端进行语音识别后得到的文本与用户输入的文本发音相同文字符不同，导致终端识别出的文本产生偏差时，终端可采用基于发音元素的相似性检索的方式检索识别文本对应的预设文本，以使检索出的预设文本中尽可能包含用户本意想输入的正确文本，提高语音输入中确定交互文本的正确率。

请参考图3，其示出了本发明再一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图。该用于语音输入中确定交互文本的方法可以包括如下步骤：

步骤301，识别用户输入的语音数据，得到语音数据的识别文本。

步骤302，若识别文本中包括的至少一个分词，与预设的文本库无法匹配，则获取识别文本所包括的识别文本分词分别对应的分词发音元素串。

比如：识别文本“中国新声音”所包括的识别文本分词分别为“中国”、“新”、“声音”，则该识别文本分词对应的分词发音元素串分别为“zhong guo”、“xin”、“sheng yin”。

步骤303，根据识别文本的发音元素串所包括的分词发音元素串，获取文本库中对应的发音元素串包含至少一个分词发音元素串的文本。

可选的，预设的文本库存储的文本与发音元素串的对应关系以列表的方式存储在该预设的文本库中。

比如，分词发音元素串分别为“zhong guo”、“xin”、“sheng yin”，终端所获取的预设文本的发音元素串可以仅包括“zhong guo”或“xin”或“sheng yin”，可以同时包括“zhong guo”和“xin”，或者同时包括“zhong guo”和“sheng yin”，或者同时包括“xin”和“sheng yin”，也可以同时包括“zhong guo”、“xin”、“sheng yin”。

对于终端进行语音识别后得到的识别文本与用户本意想输入的文本发音相同文字符不同的情况，由于一个发音元素可能对应多个不同的字符，也就是说，终端获取的是包含至少一个分词发音元素串的发音元素串对应的预设文本可能有多个，因此，在终端所获取的对应的发音元素串包含至少一个分词发音元素串的预设文本中，极大可能包括用户本意想输入的与识别文本发音相同字符不同的文本。

步骤304，在获取的文本中，选取对应的发音元素串的元素串长度与识别文本的发音元素串的元素串长度的差值不超过第四预设阈值的文本，作为与识别文本对应的至少一个预设文本。

由于预设文本的发音元素串的元素串长度与识别文本的发音元素串的元素串长度相差越大，亦可以说明预设文本与识别文本之间的文本相似度越低，因此当终端采用基于发音元素的相似性检索的方式检索识别文本对应的预设文本时，“获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本”可被替换为“在获取的文本中，选取对应的发音元素串的元素串长度与识别文本的发音元素串的元素串长度的差值不超过第四预设阈值的文本，作为与识别文本对应的至少一个预设文本”。

另外，为了避免终端将对应的发音元素串的元素串长度与识别文本的发音元素串的元素串长度的文本作为识别文本对应的预设文本之一，增加终端不必要的计算量，降低语音输入中确定交互文本的效率，设置第四预设阈值的另一个目的在于，在终端计算发音相似度之前，剔除与识别文本的文本相似度较低的预设文本，减少终端不必要的计算量，提高语音输入中确定交互文本的效率。

比如，识别文本的的发音元素串的元素串长度为15，第四预设阈值为5，那么，终端在获取的文本中，选取对应的发音元素串的元素串长度在10至20之间的文本，作为与识别文本对应的至少一个预设文本。

需要说明的是，该第四预设阈值可以人为设置也可以***预设，本实施例并不限定第四预设阈值的具体设置方式。

步骤305，计算预设文本的发音元素串与识别文本的发音元素串之间的发音相似度。

步骤306，将预设文本中发音相似度为最大值的预设文本确定为语音数据的交互文本。

需要说明的是，本实施例中步骤301与步骤101类似、步骤305至步骤306与步骤103至步骤104类似，因此本实施例不再对步骤301、步骤305至步骤306赘述说明。

本实施例中，终端可采用基于发音元素的相似性检索的方式检索识别文本对应的预设文本，以使检索出的预设文本中尽可能包含用户本意想输入的正确文本，提高语音输入中确定交互文本的正确率。

实施例四

当用户输入的语音数据存在偏差(比如用户前后鼻音不分，或者用户用方言进行语音输入，或者用户平舌音翘舌音不分，造成用户语音数据输入的词语中部分词语的读音出现错误)，导致终端识别出的文本产生偏差时，终端可采用基于发音编码的相似性检索的方式检索识别文本对应的预设文本，以使检索出的预设文本中尽可能包含用户本意想输入的正确文本，提高语音输入中确定交互文本的正确率。

请参考图4A，其示出了本发明又一个实施例提供的用于语音输入中确定交互文本的方法的方法流程图。该用于语音输入中确定交互文本的方法可以包括如下步骤：

步骤401，识别用户输入的语音数据，得到语音数据的识别文本。

步骤402，若识别文本中包括的至少一个分词，与预设的文本库无法匹配，则根据识别文本的发音元素串对应的发音编码串所包括的发音子编码串，获取文本库中对应的发音编码串包含至少一个发音子编码串的预设文本。

在一种可能实现的方式中，步骤402可被步骤402a至步骤402c替代，请参考图4B，其示出了本发明一个实施例提供的基于发音编码的相似性检索的方式检索识别文本对应的预设文本方法的方法流程图。

步骤402a，若识别文本中包括的至少一个分词，与预设的文本库无法匹配，则根据预存的声母、韵母以及元辅音分别与编码的对应关系，确定识别文本的发音元素串所对应的发音编码串。

该识别文本的语言类型为汉字，该识别文本的发音元素串为汉语拼音。

由于不同的字符对应的发音元素的长度可能不同，因此不同的字符组成的文本的发音元素串的元素串长度也可能不同。以编辑距离为例，计算每个预设文本的发音元素串与识别文本的发音元素串之间的相似度，由于编辑距离是指两个字符串之间，由一个字符串转成另一个字符串所需的最少编辑操作次数，因此，在计算每个预设文本的发音元素串与识别文本的发音元素串之间的相似度时，相比计算两个元素串长度较短的发音元素串之间的相似度，终端计算两个元素串长度较长的发音元素串之间的相似度所需要的计算量更大。

由于汉语拼音的发音音节均由声母、韵母和元辅音构成，若将声母、韵母和元辅音分别用一位发音编码代替，那么每个字符可用至少两位编码来表示(部分字符的发音元素不包括元辅音，比如“好”)，显然，相较于汉语拼音，采用发音编码表示字符的方式可以大大降低终端的计算量，因此根据预存的声母、韵母以及元辅音分别与编码的对应关系，可将识别文本的发音元素串转换为发音编码，提高终端语音识别的效率。

优选的，由于部分字符的发音元素不包括元辅音，即存在两位发音编码，为了避免因发音编码的位数不同，而影响后续将发音编码串转换成文本时，终端无法判定编码串中每个字符所对应的发音编码串是三位还是两位，导致终端将发音编码串转换成文本产生错误。本实施例中，将不包括元辅音(即元辅音为空)的字符的元辅音用预定发音编码表示(比如0，v，#)。

本实施例中，每个三位发音编码串中第一位发音编码为声母，第二位发音编码为元辅音，第三位发音编码为韵母进行举例说明。虽然本实施例并不限定三位发音编码串中各个发音编码的排列顺序，但各个字符对应的三位发音编码串之间的排列顺序需一致。

表1是一种可能声母、韵母以及元辅音分别与编码的对应关系表。

表1

比如，根据表1所示的对应关系，字符“中”对应的三位发音编码串为“F0l”，字符“国”对应的三位发音编码串为“9SP”，字符串“中国新歌声”对应的十五位发音编码串为“F0l 9SP E0f90Q J0j”。

可选的，对于因用户对部分词语的读音错误导致终端识别出的文本产生偏差的情况，本实施例可将口语发音相似的声母、韵母对应于同一发音编码(比如：对于前后鼻音不分的情况，可将“in”和“ing”对应于同一发音编码，对于平舌音翘舌音不分的情况，可将“zh”和“z”对应于同一发音编码)，来扩大终端进行相似性检索的范围，提高终端语音识别的正确率。

表2是另一种可能声母、韵母以及元辅音分别与编码的对应关系表。

b:1	q:D	a:O	ie:a
				p:2	x:E	o:P	ve:b
m:3	zh:F	e:Q	er:c
				f:4	z:F	i:R	an:d
d:5	c:H	u:S	en:e
				t:6	ch:H	v:T	in:f
n:7	sh:J	ai:O	un:g
				l:7	s:J	ei:V	uen:h
g:9	r:L	ui:W	ang:d
				k:A	y:M	ao:O	eng:e
h:4	w:N	ou:Y	ing:e
				j:C		iu:Z	ong:P

表2

比如，根据表2所示的对应关系，字符“中”对应的三位发音编码串为“F0P”，字符“宗”对应的三位发音编码串为“F0P”，字符串“中国新歌声”对应的十五位发音编码串为“F0l 9SP E0fj0e M0f”，字符串“宗苟好森一”对应的十五位发音编码串为“F0l 90YE0fj0e M0R”。

步骤402b，对识别文本的发音编码串进行切分，得到发音编码串包括的发音子编码。

需要说明的是，终端可对发音编码串每隔一位进行切分，可以每隔两位进行切分，可以每隔五位进行切分，本实施例并不限定终端对发音编码串进行切分的具***数。

比如，发音编码串为“F0l 9SP E0fj0e M0f”，每隔一位对发音编码串进行切分得到的发音子编码分别为“F”、“0”、“l”、“9”、“S”、“P”、“E”、“0”“f”、“j”、“0”、“e”、“M”、“0”、“f”。

步骤402c，根据得到的发音子编码串，获取文本库中对应的发音编码串包含至少一个发音子编码串的文本。

可选的，预设的文本库存储的文本与发音编码串的对应关系以列表的方式存储在该预设的文本库中。

比如，发音子编码串分别为“F”、“0”、“1”，终端所获取的文本可以仅包括“F”或“0”或“1”，可以同时包括“F”和“0”，或者同时包括“F”和“1”，或者同时包括“0”和“1”，也可以同时包括“F”、“0”、“1”。

步骤403，在获取的文本中，选取对应的发音编码串的编码串长度与识别文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本，作为与识别文本对应的至少一个预设文本。

由于预设文本的编码串长度与识别文本的编码串长度相差越大，亦可以说明预设文本与识别文本之间的文本相似度越低，因此当终端采用基于发音编码的相似性检索的方式检索识别文本对应的预设文本时，“获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本”可被替换为“在获取的文本中，选取对应的发音编码串的编码串长度与识别文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本，作为与识别文本对应的至少一个预设文本”。

另外，为了避免终端将编码串长度与识别文本的编码串长度偏差较大的文本作为识别文本对应的预设文本之一，增加终端不必要的计算量，降低语音识别的效率，设置第二预设阈值的另一个目的在于，在终端计算发音相似度之前，剔除与识别文本的文本相似度较低的预设文本，减少终端不必要的计算量，提高语音识别的效率。

比如，识别文本的的发音编码串的编码串长度为15，第二预设阈值为5，那么，终端在获取的文本中，选取对应的发音编码串的编码串长度在10至20之间的文本，作为与识别文本对应的至少一个预设文本。

需要说明的是，该第二预设阈值可以人为设置也可以***预设，本实施例并不限定第二预设阈值的具体设置方式。

步骤404，计算预设文本对应的发音编码串与识别文本的发音编码串之间的相似度。

在一种可能实现的方式中，步骤404可被步骤404a至步骤404b替代，请参考图4C，其示出了本发明一个实施例提供的计算预设文本对应的发音编码串与识别文本的发音编码串之间的相似度方法的方法流程图。

步骤404a，至少任意剔除识别文本的发音编码串中的至少一位编码，得到识别文本的发音编码串对应的至少一个发音部分编码串。

设识别文本为s₁，该s₁对应的编码串为“a₁a₂a₃b₁b₂b₃c₁c₂c₃”，终端对s₁对应的编码串从第一位编码开始进行编码剔除，一次剔除两位，一共剔除三次，那么，可分别得到发音编码串“a₁a₂a₃b₁b₂b₃c₁c₂c₃”对应的发音部分编码串“a₃b₁b₂b₃c₁c₂c₃”、“b₂b₃c₁c₂c₃”和“c₁c₂c₃”。

需要说明的是，终端对发音编码串中编码的剔除顺序可以为从第一位开始剔除，可以为从最后一位开始剔除，也可以在第n位至第m位的范围内进行任一剔除(0<n<m)，本实施例不对终端对发音编码串中编码的剔除顺序进行限定。

可选的，本实施例可根据发音部分编码串对应的编码串长度，或者根据发音部分编码串对应的文本的文本长度，来确定发音编码串一次被剔除的编码位数。

以根据发音部分编码串对应的文本的文本长度，来确定发音编码串一次被剔除的编码位数进行举例。设当文本长度小于且等于5个字符时，发音编码串一次被剔除的编码位数为1位，当文本长度大于5个字符时，发音编码串一次被剔除的编码位数为2位。若文本s₁的文本长度为3，则该识别文本s₁对应的发音编码串一次被剔除的编码位数为1位，若文本s₁的文本长度为7，则该识别文本s₁对应的发音编码串一次被剔除的编码位数为2位。

步骤404b，对于每个预设文本的发音编码串，计算预设文本的发音编码串分别与识别文本的发音编码串和至少一个发音部分编码串之间的相似度，对计算出的预设文本的发音编码串对应的多个相似度求平均，得到预设文本的发音编码串对应的平均相似度。

继续以步骤404a中的举例为例，当终端获取到识别文本为s₁对应的发音编码串所对应的发音部分编码串后，可利用下述公式1对每个预设文本的发音编码串对应的多个相似度求平均，得到每个预设文本的发音编码串对应的平均相似度：

total(mindistance)＝min_j∈y((SUM_j∈x1(editdistance(y_j，x_i))/len1(y_j))/num(x1)),(公式1)

其中，i＞0，j＞0

其中，x1为文本为s₁对应的发音编码串，x_i为文本为s₁对应的发音编码串和发音部分编码串，y_j为发音编码串x1对应的相似编码串，len1(y_j)为相似编码串y_j的长度，num(x1)为文本为s₁对应的发音编码串的编码位数。

可选的，终端对识别文本s1进行m次剔除，其中，在n次中发音编码串一次被剔除的编码位数为p位，在m-n次中发音编码串一次被剔除的编码位数为q位后，那么，当终端获取到识别文本为s₁对应的发音编码串所对应的发音部分编码串后，可利用下述公式2对每个预设文本的发音编码串对应的多个相似度求平均，得到每个预设文本的发音编码串对应的平均相似度：

其中，i＞0，j＞0，θ+σ＝1

其中，x1和z1均为文本为s₁对应的发音编码串，x_i为文本为s₁对应的发音编码串和一次被剔除的编码位数为p位的发音部分编码串，y_j为发音编码串x1对应的相似编码串，z_i为文本为s₁对应的发音编码串和一次被剔除的编码位数为q位的发音部分编码串，len2(y_j)为相似编码串y_j的长度，num(z1)为文本为s₁对应的发音编码串的编码位数，θ为x_i在公式2中的占比参数和σ为z_i在公式2中的占比参数，可选的，θ和σ的取值均为0.5。

步骤405，将预设文本中平均相似度为最大值的预设文本，确定为语音数据的交互文本。

比如，根据表2所示的对应关系，识别文本“中国新歌声”对应的发音编码串为“F0l9SP E0fj0e M0f”，识别文本对应的预设文本分别为中国好声音(发音编码串为F01 9SPB0X J0j M0f)、我的中国星(发音编码串为N0P 50Q F01 9SP E0k)和星的声音(发音编码串为E0k 50Q J0j M0f)。

终端先对识别文本“中国新歌声”对应的编码串“F0l 9SP E0fj0e M0f”从第一位编码开始进行编码剔除，一次剔除一位，一共剔除五次，得到发音部分编码串“0l 9SP E0kJ0j M0f”、“l 9SP E0k J0j M0f”、“9SP E0k J0j M0f”、“SP E0k J0j M0f”、“P E0k J0jM0f”；再对识别文本“中国新歌声”对应的编码串“F0l 9SP E0fj0e M0f”从最后位编码开始进行编码剔除，一次剔除一位，一共剔除五次，得到发音部分编码串“F0l 9SP E0k J0jM0”、“F0l 9SP E0k J0j M”、“F0l 9SP E0k J0j”、“F0l 9SP E0k J0”和“F0l 9SP E0k J”，再对识别文本“中国新歌声”对应的编码串“F0l 9SP E0fj0e M0f”从第一位编码开始进行编码剔除，一次剔除三位，一共剔除两次，得到发音部分编码串9SP E0k J0j M0f”和“E0kJ0j M0f”；最后再对识别文本“中国新歌声”对应的编码串“F0l 9SP E0fj0e M0f”从最后位编码开始进行编码剔除，一次剔除三位，一共剔除两次，得到发音部分编码串“F0l 9SP E0kJ0j”和“F0l 9SP E0k”。

对于每个预设文本的发音编码串，计算预设文本的发音编码串分别与发音编码串和至少一个发音部分编码串之间的预设文本的发音编码串对应的多个相似度求平均，得到预设文本的发音编码串对应的平均相似度，根据公式2对每个预设文本的发音编码串对应的多个相似度求平均，得到每个预设文本的发音编码串对应的平均相似度，具体计算结果如表3所示：

表3

由表3可知，“中国好声音”的发音编码串“F01 9SP B0X J0j M0f”对应的平均相似度为0.58，“我的中国星”的发音编码串“N0P 50Q F01 9SP E0k”对应的平均相似度为0.824242424，“星的声音”的发音编码串“E0k 50Q J0j M0f”对应的平均相似度为0.688636364，由于“中国好声音”的发音编码串与“中国新歌声”的发音编码串之间的编辑距离最小，即“中国好声音”的发音编码串与“中国新歌声”的发音编码串之间的相似度最大，因此，终端将预设文本“中国好声音”确定为语音数据的交互文本。

需要说明的是，本实施例中步骤401与步骤101类似，因此本实施例不再对步骤401赘述说明。

本实施例中，终端可采用基于发音编码的相似性检索的方式检索识别文本对应的预设文本，以使检索出的预设文本中尽可能包含用户本意想输入的正确文本，提高语音输入中确定交互文本的正确率。

下述为本发明装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图5，图5是本发明一个实施例中提供的用于语音输入中确定交互文本的装置的结构方框图。该用于语音输入中确定交互文本的方法该装置包括：识别模块501、获取模块502、计算模块503和确定模块504。

识别模块501，用于识别用户输入的语音数据，得到语音数据的识别文本；

获取模块502，用于当识别文本与预设的文本库无法匹配时，获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；

计算模块503，用于计算预设文本的发音元素串与识别文本的发音元素串之间的发音相似度；

确定模块504，用于将预设文本中发音相似度为最大值的预设文本确定为语音数据的交互文本。

在一种可能的实现方式中，该获取模块502，还用于：若识别文本中包括的至少一个分词，与预设的文本库无法匹配，则获取文本库中与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本。

在一种可能的实现方式中，该获取模块502，包括：获取单元502a和选取单元502b。

获取单元502a，用于根据识别文本的发音元素串对应的发音编码串所包括的发音子编码串，获取文本库中对应的发音编码串包含至少一个发音子编码串的文本；

选取单元502b，用于在获取的文本中，选取对应的发音编码串的编码串长度与识别文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本，作为与识别文本对应的至少一个预设文本；

计算模块503，还用于：计算预设文本对应的发音编码串与识别文本的发音编码串之间的相似度。

在一种可能的实现方式中，该计算模块503，包括：剔除单元503a和计算单元503b。

剔除单元503a，用于至少任意剔除识别文本的发音编码串中的至少一位编码，得到识别文本的发音编码串对应的至少一个发音部分编码串；

计算单元503b，用于对于每个预设文本的发音编码串，计算预设文本的发音编码串分别与识别文本的发音编码串和至少一个发音部分编码串之间的相似度，对计算出的预设文本的发音编码串对应的多个相似度求平均，得到预设文本的发音编码串对应的平均相似度。

在一种可能的实现方式中，该确定模块504，还用于：将预设文本中平均相似度为最大值的预设文本，确定为语音数据的交互文本。

综上所述，本发明实施例提供的装置，若用户输入的语音数据识别得到的识别文本与预设的文本库无法匹配时，则从预设的文本库中获取与识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，并将预设文本中发音相似度为最大值的预设文本确定为用户输入的语音数据的交互文本，然后终端可以基于该交互文本实现该语音数据对应的操作，可以有效避免由于识别文本在终端的文本库中不存在，导致终端无法根据该识别文本进行控制业务定位；同时由于文本中的字符是由发音元素或者发音元素串构成，计算预设文本的发音元素串与识别文本的发音元素串之间的相似度，相当于计算预设文本与识别文本之间的相似度；采用发音相似度为最大值的预设文本替换识别文本作为用户输入语音数据的交互文本，解决了在实际应用中，受到用户所处环境的噪音、用户的方言口语等因素的影响，造成用于语音输入中确定交互文本的的识别结果中存在明显的错误，即有效避免用于语音输入中确定交互文本的的识别结果在终端的文本库中不存在，避免终端根据该识别文本无法进行控制业务定位的问题，提高了语音控制在终端上的体验效果。

需要说明的是：上述实施例中提供的用于语音输入中确定交互文本的装置在语音输入中确定交互文本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用于语音输入中确定交互文本的装置与用于语音输入中确定交互文本的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参见图6所示，其示出了本发明部分实施例中提供的终端的结构方框图。该终端600用于实施上述实施例提供的用于语音输入中确定交互文本的方法。本发明中的终端600可以包括一个或多个如下组成部分：用于执行计算机程序指令以完成各种流程和方法的处理器，用于数据和存储程序指令随机接入存储器(RAM)和只读存储器(ROM)，用于存储数据和数据的存储器，I/O设备，界面，天线等。具体来讲：

终端600可以包括RF(Radio Frequency，射频)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、WiFi(wireless fidelity，无线保真)模块670、处理器680、电源682、摄像头690等部件。本领域技术人员可以理解，图6中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对终端600的各个构成部件进行具体的介绍：

RF电路610可用于收发数据或通话过程中，信号的接收和发送，特别地，将基站的下行数据接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(Low NoiseAmplifier，低噪声放大器)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobilecommunication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行终端600的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端600的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符数据，以及产生与终端600的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程序驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸数据，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的数据或提供给用户的数据以及终端600的各种菜单。显示单元640可包括显示面板641，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现终端600的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现终端600的输入和输出功能。

终端600还可包括至少一种传感器650，比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在终端600移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端600还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与终端600之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一终端，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，终端600通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670，但是可以理解的是，其并不属于终端600的必须构成，完全可以根据需要在不改变公开的本质的范围内而省略。

处理器680是终端600的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行终端600的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

终端600还包括给各个部件供电的电源682(比如电池)，优选的，电源可以通过电源管理***与处理器682逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

摄像头690一般由镜头、图像传感器、接口、数字信号处理器、CPU、显示屏幕等组成。其中，镜头固定在图像传感器的上方，可以通过手动调节镜头来改变聚焦；图像传感器相当于传统相机的“胶卷”，是摄像头采集图像的心脏；接口用于把摄像头利用排线、板对板连接器、弹簧式连接方式与终端主板连接，将采集的图像发送给所述存储器620；数字信号处理器通过数学运算对采集的图像进行处理，将采集的模拟图像转换为数字图像并通过接口发送给存储器620。

尽管未示出，终端600还可以包括蓝牙模块等，在此不再赘述。

终端600除了包括一个或者多个处理器680，还包括有存储器，以及一个或者多个程序，其中一个或者多个程序存储于存储器中，并被配置成由一个或者多个处理器执行，执行上述用于语音输入中确定交互文本的方法。

需要说明的是，上述实施例提供的终端与用于语音输入中确定交互文本的装置实施例以及用于语音输入中确定交互文本的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于语音输入中确定交互文本的方法，其特征在于，所述方法包括：

识别用户输入的语音数据，得到所述语音数据的识别文本；

若所述识别文本与预设的文本库无法匹配，则对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；

将所述预设文本中发音相似度为最大值的预设文本确定为所述语音数据的交互文本；

其中，若所述相似性检索为基于发音编码的相似性检索，所述对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，包括：

根据所述识别文本的发音元素串对应的发音编码串所包括的发音子编码串，获取所述文本库中对应的发音编码串包含至少一个发音子编码串的文本，在获取的文本中，选取对应的发音编码串的编码串长度与所述识别文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本，作为与所述识别文本对应的至少一个预设文本。

2.根据权利要求1所述的方法，其特征在于，所述若所述识别文本与预设的文本库无法匹配，则对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，具体包括：

若所述识别文本中包括的至少一个分词，与预设的文本库无法匹配，则对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本。

3.根据权利要求1所述的方法，其特征在于，所述计算所述预设文本的发音元素串与所述识别文本的发音元素串之间的发音相似度，具体包括：

计算所述预设文本对应的发音编码串与所述识别文本的发音编码串之间的相似度。

4.根据权利要求3所述的方法，其特征在于，所述计算所述预设文本对应的发音编码串与所述识别文本的发音编码串之间的相似度，具体包括：

至少任意剔除所述识别文本的发音编码串中的至少一位编码，得到所述识别文本的发音编码串对应的至少一个发音部分编码串；

对于每个预设文本的发音编码串，计算所述预设文本的发音编码串分别与所述识别文本的发音编码串和所述至少一个发音部分编码串之间的相似度，对计算出的所述预设文本的发音编码串对应的多个相似度求平均，得到所述预设文本的发音编码串对应的平均相似度。

5.根据权利要求4所述的方法，其特征在于，所述将所述预设文本中发音相似度为最大值的预设文本确定为所述语音数据的交互文本，具体包括：

将所述预设文本中所述平均相似度为最大值的预设文本，确定为所述语音数据的交互文本。

6.一种用于语音输入中确定交互文本的方法，其特征在于，所述方法包括：

识别用户输入的语音数据，得到所述语音数据的识别文本；

其中，若所述相似性检索为基于发音元素的相似性检索，所述对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，包括：

对所述识别文本进行分词，得到所述识别文本中包括的至少一个分词，获取所述识别文本所包括的识别文本分词对应的分词发音元素串，根据所述识别文本的发音元素串所包括的分词发音元素串，获取所述文本库中对应的发音元素串包含所述至少一个分词发音元素串的文本，在获取的文本中，选取对应的发音元素串的元素串长度与所述识别文本的发音元素串的元素串长度的差值不超过第四预设阈值的文本，作为与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，所述识别文本分词为所述识别文本中包括的至少一个分词。

7.一种用于语音输入中确定交互文本的装置，其特征在于，所述装置包括：

获取模块，用于当所述识别文本与预设的文本库无法匹配时，对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；

确定模块，用于将所述预设文本中发音相似度为最大值的预设文本确定为所述语音数据的交互文本；

其中，若所述相似性检索为基于发音编码的相似性检索，所述获取模块，用于根据所述识别文本的发音元素串对应的发音编码串所包括的发音子编码串，获取所述文本库中对应的发音编码串包含至少一个发音子编码串的文本，在获取的文本中，选取对应的发音编码串的编码串长度与所述识别文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本，作为与所述识别文本对应的至少一个预设文本。

8.根据权利要求7所述的装置，其特征在于，所述获取模块，还用于：若所述识别文本中包括的至少一个分词，与预设的文本库无法匹配，则对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本。

9.根据权利要求7所述的装置，其特征在于，所述计算模块，还用于：计算所述预设文本对应的发音编码串与所述识别文本的发音编码串之间的相似度。

10.根据权利要求9所述的装置，其特征在于，所述计算模块，包括：

剔除单元，用于至少任意剔除所述识别文本的发音编码串中的至少一位编码，得到所述识别文本的发音编码串对应的至少一个发音部分编码串；

计算单元，用于对于每个预设文本的发音编码串，计算所述预设文本的发音编码串分别与所述识别文本的发音编码串和所述至少一个发音部分编码串之间的相似度，对计算出的所述预设文本的发音编码串对应的多个相似度求平均，得到所述预设文本的发音编码串对应的平均相似度。

11.根据权利要求10所述的装置，其特征在于，所述确定模块，还用于：将所述预设文本中所述平均相似度为最大值的预设文本，确定为所述语音数据的交互文本。

12.一种用于语音输入中确定交互文本的装置，其特征在于，所述装置包括：

获取模块，用于若所述识别文本与预设的文本库无法匹配，则对所述识别文本进行相似性检索，获取所述文本库中与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本；

其中，若所述相似性检索为基于发音元素的相似性检索，所述获取模块，用于对所述识别文本进行分词，得到所述识别文本中包括的至少一个分词，获取所述识别文本所包括的识别文本分词对应的分词发音元素串，根据所述识别文本的发音元素串所包括的分词发音元素串，获取所述文本库中对应的发音元素串包含所述至少一个分词发音元素串的文本，在获取的文本中，选取对应的发音元素串的元素串长度与所述识别文本的发音元素串的元素串长度的差值不超过第四预设阈值的文本，作为与所述识别文本之间的文本相似度大于第一预设阈值的至少一个预设文本，所述识别文本分词为所述识别文本中包括的至少一个分词。