CN108595431B

CN108595431B - 语音交互文本纠错方法、装置、终端及存储介质

Info

Publication number: CN108595431B
Application number: CN201810399789.0A
Authority: CN
Inventors: 李金凯; 杨善松
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2020-09-25
Anticipated expiration: 2038-04-28
Also published as: CN108595431A

Abstract

本申请揭示了一种语音交互文本纠错方法、装置、终端及存储介质，属于语音识别领域，该方法包括：根据预存的各个字符串的语义属性，计算语音识别得到的交互文本中相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串；基于待修正字符串相邻的非待修正字符串的语义属性，确定非待修正字符串的语义属性共现概率，在语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串。本申请通过字符串的语义属性，间接计算字符串间共现概率，从而对文本纠错模型中未训练过的字符串进行纠错，提高交互文本的纠错效率。

Description

语音交互文本纠错方法、装置、终端及存储介质

技术领域

本申请涉及语音识别领域，特别涉及一种语音交互文本纠错方法、装置、终端及存储介质。

背景技术

随着语音识别技术的发展，语音识别技术的应用领域越来越广，使用语音搜索、语音控制等功能的用户也越来越多。

在各种外部环境因素的影响下，语音识别***在进行语音识别的过程中可能会出现部分字符串识别错误的情况。现有技术中，语音识别***会尝试根据预先训练好的文本纠错模型对识别错误文本进行纠错，如果纠错成功则替换原文本或者提示用户正确文本。比如，语音识别***获取到用户输入的语音数据“我想看芳华”后，先根据该语音数据生成交互文本“我想看方华”，对“我想看方华”进行分词后，再根据文本纠错模型对分词后得到的字符串“我”、“想看”、“方华”分别进行纠错，最后将纠错成功的字符串“我想看芳华”替换“我想看方华”。

现有技术中的文本纠错模型的构建往往仅基于字符串本身，对于纠错模型中未能覆盖的新词、生僻词，将无法完成纠错过程。随着网络用语、新词汇的激增，尤其是电视语音助手应用场景下，娱乐领域影视名称、音乐名称等字符串层出不穷，这类文本纠错模型在该场景中已不是十分适用。

发明内容

为了解决相关技术中语音识别***无法对文本纠错模型中未训练过的字符串进行纠错的问题，本申请实施例提供了一种语音交互文本纠错方法、装置、终端及存储介质。所述技术方案如下：

第一方面，提供了一种语音交互文本纠错方法，所述方法包括：

获取待识别的语音数据，进行语音识别，得到所述语音数据对应的交互文本；

对所述交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在所述多个字符串中，确定待修正字符串；

基于所述待修正字符串相邻的非待修正字符串的语义属性，确定所述非待修正字符串的语义属性共现概率，在所述语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与所述待修正字符串对应的发音音频相似度最高的目标字符串，将所述待修正字符串替换为所述目标字符串。

可选的，所述根据预存的字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，包括：

根据预存的各个字符串的语义属性，确定出相邻的第一字符串的语义属性和第二字符串的语义属性；

在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率；

根据所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，计算所述第一字符串和所述第二字符串之间的字符串共现概率。

可选的，所述在所述多个字符串中，确定待修正字符串，包括：

在所述多个字符串中，将与相邻的字符串之间的字符串共现概率均低于预设的第一概率阈值的第三字符串，确定为待修正字符串。

可选的，所述在所述语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与所述待修正字符串对应的发音音频相似度最高的目标字符串，包括：

在预存的所述语义属性共现概率最高的第一语义属性对应的各字符串中，筛选出字符串长度与所述待修正字符串对应的字符串长度之间的差值小于预设长度阈值的字符串；

在筛选得到的字符串中，分别计算各个字符串对应的发音音频与所述待修正字符串对应的发音音频之间的编辑距离；

将对应的发音音频与所述待修正字符串对应的发音音频之间的编辑距离最小的字符串，确定为与所述待修正字符串对应的发音音频相似度最高的目标字符串。

可选的，在所述多个字符串中，确定待修正字符串之后，所述方法还包括：

根据所述交互文本中所有相邻的两个字符串分别对应的语义属性之间的语义属性共现概率，计算所述交互文本对应的语义属性综合概率；

如果所述交互文本对应的语义属性综合概率低于预设的第三概率阈值，则执行所述基于所述待修正字符串相邻的非待修正字符串的语义属性，确定与所述非待修正字符串的语义属性的语义属性共现概率最高的第一语义属性的步骤。

第二方面，提供了一种语音交互文本纠错装置，所述装置包括：

获取模块，用于获取待识别的语音数据，进行语音识别，得到所述语音数据对应的交互文本；

确定模块，用于对所述交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在所述多个字符串中，确定待修正字符串；

替换模块，用于基于所述待修正字符串相邻的非待修正字符串的语义属性，确定所述非待修正字符串的语义属性共现概率，在所述语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与所述待修正字符串对应的发音音频相似度最高的目标字符串，将所述待修正字符串替换为所述目标字符串。

可选的，所述确定模块，包括：

第一确定单元，用于根据预存的各个字符串的语义属性，确定出相邻的第一字符串的语义属性和第二字符串的语义属性；

第二确定单元，用于在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率；

第一计算单元，用于根据所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，计算所述第一字符串和所述第二字符串之间的字符串共现概率。

可选的，所述确定模块，还包括：

第三确定单元，用于在所述多个字符串中，将与相邻的字符串之间的字符串共现概率均低于预设的第一概率阈值的第三字符串，确定为待修正字符串。

筛选单元，用于在预存的所述语义属性共现概率最高的第一语义属性对应的各字符串中，筛选出字符串长度与所述待修正字符串对应的字符串长度之间的差值小于预设长度阈值的字符串；

第二计算单元，用于在筛选得到的字符串中，分别计算各个字符串对应的发音音频与所述待修正字符串对应的发音音频之间的编辑距离；

第四确定单元，用于将对应的发音音频与所述待修正字符串对应的发音音频之间的编辑距离最小的字符串，确定为与所述待修正字符串对应的发音音频相似度最高的目标字符串。

第三计算单元，用于根据所述交互文本中所有相邻的两个字符串分别对应的语义属性之间的语义属性共现概率，计算所述交互文本对应的语义属性综合概率；

第五确定单元，用于如果所述交互文本对应的语义属性综合概率低于预设的第三概率阈值，则执行所述基于所述待修正字符串相邻的非待修正字符串的语义属性，确定与所述非待修正字符串的语义属性的语义属性共现概率最高的第一语义属性的步骤。

第三方面，提供了一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的语音交互文本纠错方法。

第四方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的语音交互文本纠错方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的方法，基于字符串各自的语义属性，计算相邻的字符串之间的字符串共现概率，来确定交互文本中的待修正字符串，并根据与待纠错字符相邻的非待修正字符的语义属性，对待修正字符串进行纠错；由于无需将新增词汇输入模型进行训练，只需要根据新增词汇的语义属性，即可完成对新增词汇所在文本的纠错过程，因此解决了相关技术中语音识别***很难准确的对文本纠错模型中未训练过的字符串进行纠错的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的语音交互文本纠错方法的方法流程图；

图2A示出了本申请另一个实施例提供的语音交互文本纠错方法的方法流程图；

图2B示出了本申请一个实施例提供的字符串与语义属性之间的对应关系的表格；

图2C示出了本申请一个实施例提供的各个语义属性之间的语义属性共现概率的对应关系的表格；

图3示出了本申请再一个实施例提供的语音交互文本纠错方法的方法流程图；

图4示出了本申请又一个实施例提供的语音交互文本纠错方法的方法流程图；

图5示出了本申请一个实施例中提供的语音交互文本纠错装置的结构方框图；

图6示出了本申请一个示例性实施例提供的终端600的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本申请实施例中，提供了一种语音交互文本纠错方法，由于无需将新增词汇输入模型进行训练，只需要根据新增词汇的语义属性，即可完成对新增词汇所在文本的纠错过程，因此解决了相关技术中语音识别***很难准确的对文本纠错模型中未训练过的字符串进行纠错的问题。下面将基于上面所述的本申请实施例涉及的共性方面，对本申请实施例进行进一步详细说明。

本申请实施例涉及到的名词及名词的具体解释如下：

语义属性共现概率：彼此相邻的两个字符串分别对应的语义属性同时出现的概率。

字符串共现概率：两个字符串彼此相邻且同时出现的概率，由该两个字符串分别对应的语义属性计算得到。

语义属性综合概率：交互文本所包括的字符串之间语义属性共现概率的综合概率，用于表示交互文本为语义正确的文本的概率，由该交互文本中所有两两相邻的字符串分别对应的语义属性之间的语义属性共现概率计算得到。

实施例1

请参考图1，其示出了本申请一个实施例提供的语音交互文本纠错方法的方法流程图。该语音交互文本纠错方法可以包括如下步骤：

步骤101，获取待识别的语音数据，进行语音识别，得到语音数据对应的交互文本。

可选的，利用大量的语音数据和语音数据对应的语音文本来训练声学模型 (比如GMM-HMM模型、DNN-HMM模型和RNN+CTC模型)，当声学模型训练成熟后，获取待识别的语音数据，利用训练好的声学模型对语音数据进行语音识别，得到语音数据对应的交互文本。

可选的，本实施例中进行语音识别的执行主体可以为终端或者服务器。当执行主体为终端时，终端通过麦克风麦克风采集用户的语音数据，对采集到的语音数据进行语音识别；当执行主体为服务器时，服务器接收终端发送的语音数据，对接收到的语音数据进行语音识别。

步骤102，对交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串。

可选的，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，可被替代为：根据预存的各个字符串的语义属性，确定出相邻的第一字符串的语义属性和第二字符串的语义属性，在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，根据所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，计算所述第一字符串和所述第二字符串之间的字符串共现概率。

可选的，在多个字符串中，确定待修正字符串被替换为：在多个字符串中，将与相邻的字符串之间的字符串共现概率均低于预设的第一概率阈值的第三字符串，确定为待修正字符串。

举例，预设的第一概率阈值为0.8，在语音识别后得到的交互文本“我想看方华”中，字符串“我”与字符串“想看”之间的字符串共现概率0.95，字符串“想看”与字符串“方华”之间的字符串共现概率0.75。由于字符串“我”与相邻的字符串“想看”之间的字符串共现概率高于0.8，因此将字符串“我”确定为非待修正字符串；由于字符串“想看”与相邻的字符串(字符串“我”和字符串“方华”)之间的字符串共现概率并非均低于0.8，因此将字符串“我”确定为非待修正字符串；由于字符串“方华”与相邻的字符串“想看”之间的字符串共现概率低于0.8，因此将字符串“方华”确定为待修正字符串。

需要说明的是，分词的方式可以为按字分词、按词分词、按句子成分(主语、谓语、宾语等)分词等，本实施例并不限定分词的具体方式。比如，交互文本为“我想看芳华”，对交互文本进行按字分词后可得到“我”、“想”、“看”、“芳”、华”这五个分词，对交互文本进行按词分词后“我”、“想看”、“芳华”这三个分词。

需要说明的是，对交互文本可仅按字分词，也可以仅按词分词，还可以按字分词与按词分词合并实施，本实施例并不限定分词的组合方式。

步骤103，基于待修正字符串相邻的非待修正字符串的语义属性，确定非待修正字符串的语义属性共现概率，在语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串，将待修正字符串替换为目标字符串。

由于待修正字符串位于交互文本不同的位置，与其相邻的待修正字符串的数量会有所不同，比如当待修正字符串位于交互文本的句首或者句末时，与该待修正字符串相邻的非待修正字符串的数量为1，也就是说，第一语义属性基于该非待修正字符串的语义属性即可确定；当待修正字符串位于交互文本的句中时，与该待修正字符串相邻的非待修正字符串的数量为2，也就是说，第一语义属性需基于两个非待修正字符串的语义属性共同确定。故，在一种可能实现的方式中，当待修正字符串位于交互文本不同的位置时，基于待修正字符串相邻的非待修正字符串的语义属性，确定与非待修正字符串的语义属性共现概率最高的第一语义属性的具体过程至少存在下述两种情况：

第一种情况，当待修正字符串与第四字符串相邻时，基于第四字符串的第二语义属性，确定与非待修正字符串的语义属性的语义属性共现概率最高的第一语义属性，其中，第四字符串为非待修正字符串。

举例，在语音识别后得到的交互文本“我想看方华”中，包括字符串“我”、“想看”、“方华”，其中，“方华”为待修正字符串。由于“方华”与非待修正字符串“想看”相邻，基于非待修正字符串“想看”的语义属性“视觉动词”，确定出与“视觉动词”共现概率最高的第一语义属性“影视名称”。

第二种情况，当待修正字符串与第五字符串和第六字符串相邻时，基于第五字符串的第三语义属性和第六字符串的第四语义属性，确定出与第三语义属性的第一语义属性共现概率以及与第四语义属性的第二语义属性共现概率均达到预设的第二概率阈值的语义属性集合，第五字符串和第六字符串为非待修正字符串；根据语义属性集合中每个语义属性对应的第一语义属性共现概率和第一语义属性共现概率，计算每个语义属性对应的平均语义属性共现概率；将平均语义属性共现概率最高的语义属性确定为与非待修正字符串的语义属性的语义属性共现概率最高的第一语义属性。

举例，第二概率阈值为0.8，在语音识别后得到的交互文本“电影方华很好看”中，包括字符串“电影”、“方华”、“很好看”，其中，“方华”为待修正字符串。由于“方华”分别与非待修正字符串“电影”和“很好看”相邻，基于“电影”的第三语义属性“电影分类”和“很好看”的第四语义属性“影视评价”，确定出与第三语义属性“电影分类”共现概率以及与第四语义属性“影视评价”共现概率均达到预设的第二概率阈值的语义属性集合“电影名称”、“电视剧名称”和“视频名称”。根据语义属性集合中语义属性“电影名称”与第三语义属性“电影分类”之间的第一语义属性共现概率0.8以及语义属性“电影名称”与第四语义属性“影视评价”之间的第二语义属性共现概率0.3，计算语义属性“电影名称”对应的平均语义属性共现概率0.55；根据语义属性集合中语义属性“电视剧名称”与第三语义属性“电影分类”之间的第一语义属性共现概率0.1以及语义属性“电视剧名称”与第四语义属性“影视评价”之间的第二语义属性共现概率0.3，计算语义属性“电视剧名称”对应的平均语义属性共现概率0.2；根据语义属性集合中语义属性“视频名称”与第三语义属性“电影分类”之间的第一语义属性共现概率0.1以及语义属性“视频名称”与第四语义属性“影视评价”之间的第二语义属性共现概率0.3，计算语义属性“视频名称”对应的平均语义属性共现概率0.2。将平均语义属性共现概率最高的语义属性“电影名称”确定为与“电影名称”和“影视评价”共现概率最高的第一语义属性。

在确定出与非待修正字符串的语义属性共现概率最高的第一语义属性之后，在预存的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串，将交互文本中的待修正字符串替换为目标字符串。

可选的，语义属性与各字符串之间的对应关系以表格的形式存储在本地。

由于字符串由字符组成，字符由发音音频构成。发音音频即为音素，是语音中的最小的单位，也就是说，计算两个字符串的发音音频的相似度，实则是计算两个字符串之间的相似度。

当字符为汉字时，发音音频为汉语拼音。比如，当字符串为“方华”时，组成该字符串的字符为“方”、“华”，构成字符“方”的发音音频串为“fang”，构成字符“华”的发音音频串为“hua”，也就是说，字符串为“方华”的发音音频串为“fang hua”。

需要说明的是，发音音频相似度的计算可以通过最长公共子串、最长公共子序列、最少编辑距离法、汉明距离、余弦值、编辑距离等手段实现，本实施例并不对发音音频相似度的计算方式做任何限制。

综上所述，本申请实施例提供的方法，基于字符串各自的语义属性，计算相邻的字符串之间的字符串共现概率，来确定交互文本中的待修正字符串，并根据与待纠错字符相邻的非待修正字符的语义属性，对待修正字符串进行纠错；由于无需将新增词汇输入模型进行训练，只需要根据新增词汇的语义属性，即可完成对新增词汇所在文本的纠错过程，因此解决了相关技术中语音识别***很难准确的对文本纠错模型中未训练过的字符串进行纠错的问题，达到了在不依赖纠错模型的前提下精准地完成对交互文本完成纠错过程的效果。

实施例2

请参考图2A，其示出了本申请另一个实施例提供的语音交互文本纠错方法的方法流程图。该语音交互文本纠错方法可以包括如下步骤：

步骤201，获取待识别的语音数据，进行语音识别，得到语音数据对应的交互文本。

步骤202，对交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，确定出相邻的第一字符串的语义属性和第二字符串的语义属性。

可选的，字符串与语义属性之间的对应关系通过表格的形式存储在本地。图2B示出了本申请一个实施例提供的字符串与语义属性之间的对应关系的表格。如图2B所示，在语音识别后得到的交互文本“我想看方华”中，字符串“我”的语义属性为“主语”，字符串“想看”的语义属性为“视觉动作”，字符串“方华”的语义属性为“人名”。

步骤203，在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出第一字符串的语义属性和第二字符串的语义属性之间的语义属性共现概率。

可选的，各个语义属性之间的语义属性共现概率的对应关系通过表格的形式存储在本地。图2C示出了本申请一个实施例提供的各个语义属性之间的语义属性共现概率的对应关系的表格。结合图2B和图2C可知，在语音识别后得到的交互文本“我想看方华”中，字符串“我”的语义属性为“主语”，字符串“想看”的语义属性为“视觉动作”，字符串“方华”的语义属性为“人名”。其中，“主语”(字符串“我”的语义属性)与“视觉动作”(字符串“想看”的语义属性)之间的语义属性共现概率为0.2，由于“视觉动作”(字符串“想看”的语义属性)与“人名”(字符串“方华”的语义属性)之间的语义属性共现概率未在各个语义属性之间的语义属性共现概率的对应关系中找到，因此将“视觉动作”与“人名”之间的语义属性共现概率确定为0。

步骤204，根据第一字符串的语义属性和第二字符串的语义属性之间的语义属性共现概率，计算第一字符串和第二字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串。

可选的，根据预存的各个字符串的语义属性和预设的字符串共现概率公式，计算相邻的两个字符串之间的字符串共现概率。其中，预设的字符串共现概率公式由贝叶斯公式推导得到，贝叶斯公式由公式(1)所示：

其中，P(w_i|w_i-1)为在字符串w_i-1出现的情况下字符串w_i出现的概率(即交互文本中字符串w_i-1在字符串w_i之前出现的概率)，P(w_i-1w_i)为字符串w_i-1与字符串w_i共同出现的概率(该概率不考虑字符串w_i-1与字符串w_i出现的先后顺序)，P(w_i-1)为字符串w_i-1出现的概率。

全概率公式由公式(2)所示：

其中，P(w_i-1)为字符串w_i-1出现的次数，P(t_j|w_i-1)为预设的字符串w_i-1的语义属性为t_j的概率，P(t_k|t_j)为语义属性t_j与语义属性t_k之间的语义属性共现概率，P(w_i|t_k)为预设的字符串w_i的语义属性为t_k的概率。

将公式(2)代入公式(1)后，得到预设的字符串共现概率公式，该预设的字符串共现概率公式由下述公式(3)表示：

其中，

C(t_jw_i-1)为预设的字符串w_i-1的语义属性为t_j的概率，C(w_i-1)为字符串w_i-1出现的次数，C(w_it_k)为预设的字符串w_i的语义属性为t_k的概率，C(t_k)为训练语料中语义属性t_k出现的次数，C(t_kt_j)为语义属性t_j与语义属性t_k之间的语义属性共现概率，C(t_j)为训练语料中语义属性t_j出现的次数。

仍参见图2B，在字符串与语义属性之间的对应关系中还记录有字符串属于各个语义属性的概率的对应关系，比如，字符串“三生三世十里桃花”的语义属性分别为“小说名称”、“电影名称”以及“电视剧名称”，对应的，“三生三世十里桃花”的语义属性为“小说名称”的概率为0.33，“三生三世十里桃花”的语义属性为“电影名称”的概率为0.33，“三生三世十里桃花”的语义属性为“电视剧名称”的概率为0.33。

需要说明的是，本实施例中，字符串与各个语义属性之间的概率关系可以通过人为预先定义直接得到，也可以基于预先定义的概率，通过语料训练，利用极大似然估计方法计算得到，本实施例并不限定字符串与各个语义属性之间的概率关系的生成方式。

步骤205，基于待修正字符串相邻的非待修正字符串的语义属性，确定非待修正字符串的语义属性共现概率，在语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串，将待修正字符串替换为目标字符串。

在一种可能的场景中，如果交互文本中存在相邻的三个待修正字符串，则先基于待修正字符串相邻的非待修正字符串的语义属性，确定出替换与非待修正字符串相邻的待修正字符串的目标字符串，再将确定出的目标字符串作为非待修正字符串，确定出替换与该非待修正字符串相邻的待修正字符串的目标字符串。

举例，交互文本“ABCDE”中存在待修正字符串“BCD”，先基于待修正字符串“B”相邻的非待修正字符串“A”的语义属性，确定出替换与非待修正字符串“A”相邻的待修正字符串“B”的目标字符串“F”，以及基于待修正字符串“D”相邻的非待修正字符串“E”的语义属性，确定出替换与非待修正字符串“E”相邻的待修正字符串“D”的目标字符串“G”，再将确定出的目标字符串“F”作为非待修正字符串“F”，将确定出的目标字符串“G”作为非待修正字符串“G”，确定出替换分别与非待修正字符串“F”和非待修正字符串“G”相邻的待修正字符串“C”的目标字符串“H”。

需要说明的是，由于本实施例中步骤201与步骤101相似，因此本实施例不对步骤201赘述说明。

实施例3

在一种可能实现的方式中，从第一语义属性对应的各字符串中确定目标字符串之前，预先根据待修正字符串的字符串长度，对第一语义属性对应的各字符串进行筛选，以此减少处理器计算发音音频相似度的字符串的数量，从而减少处理器的计算压力。请参考图3，其示出了本申请再一个实施例提供的语音交互文本纠错方法的方法流程图。该语音交互文本纠错方法可以包括如下步骤：

步骤301，获取待识别的语音数据，进行语音识别，得到语音数据对应的交互文本。

步骤302，对交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串。

步骤303，基于待修正字符串相邻的非待修正字符串的语义属性，确定与非待修正字符串的语义属性的语义属性共现概率最高的第一语义属性，在预存的语义属性共现概率最高的第一语义属性对应的各字符串中，筛选出字符串长度与待修正字符串对应的字符串长度之间的差值小于预设长度阈值的字符串。

以编辑距离为例，由于编辑距离是指两个音频串之间，由一个音频串转成另一个音频串所需的最少编辑操作次数，因此，两个音频串长度相差较大，这两个音频串对应的发音音频之间的编辑距离也越大，故，为了减少处理器的计算量，可在计算字符串之间的相似度之前，在预存的第一语义属性对应的各字符串中，剔除字符串长度与待修正字符串对应的字符串长度之间的差值小于预设长度阈值的字符串。

需要说明的是，预设长度阈值可以人为设定也可以***预设，预设长度阈值可以为0、1、2等等，本实施例并不限定预设长度阈值的设置方式和具体数值。

步骤304，在筛选得到的字符串中，分别计算各个字符串对应的发音音频与待修正字符串对应的发音音频之间的编辑距离。

编辑距离是指两个音频串之间，由一个音频串转成另一个音频串所需的最少编辑操作次数，其中，编辑操作包括音频的替换，音频的***和音频的删除。

举例，交互文本“我想看方华”中的待修正字符串为“方华”，与第一语义属性“电影名称”对应的各字符串分别为“芳华”、“繁花”和“奋发”，其中，字符串“芳华”对应的发音音频为“fang hua”，与“方华”之间的编辑距离为0；字符串“繁花”对应的发音音频为“fanhua”，与“方华”之间的编辑距离为1，字符串“奋发”对应的发音音频为“fen fa”，与“方华”之间的编辑距离为4，由于字符串“芳华”与“方华”之间的编辑距离最小，因此将交互文本中的待修正字符串“方华”替换为字符串“芳华”，得到替换后的交互文本“我想看芳华”。

步骤305，将对应的发音音频与待修正字符串对应的发音音频之间的编辑距离最小的字符串，确定为与待修正字符串对应的发音音频相似度最高的目标字符串，将待修正字符串替换为目标字符串。

一般来说，两个发音音频之间的编辑距离越小，说明这两个发音音频的相似度越高，两个发音音频的相似度越高，说明这两个发音音频对应字符串越相似，故，将对应的发音音频与待修正字符串对应的发音音频之间的编辑距离最小的字符串，确定为与待修正字符串对应的发音音频相似度最高的目标字符串。

需要说明的是，由于本实施例中步骤301至步骤302与步骤101至步骤102 相似，因此本实施例不对步骤301至步骤302赘述说明。

本实施例中，从第一语义属性对应的各字符串中确定目标字符串之前，预先根据待修正字符串的字符串长度，对第一语义属性对应的各字符串进行筛选，以此减少处理器计算发音音频相似度的字符串的数量，从而减少处理器的计算压力。

实施例4

在一种可能实现的方式中，为了降低误纠的可能性，从交互文本确定出待修正字符串之后，计算交互文本对应的语义属性综合概率，根据语义属性综合概率的高低判定是否需要对交互文本进行纠错。请参考图4，其示出了本申请又一个实施例提供的语音交互文本纠错方法的方法流程图。该语音交互文本纠错方法可以包括如下步骤：

步骤401，获取待识别的语音数据，进行语音识别，得到语音数据对应的交互文本。

步骤402，对交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串。

步骤403，根据交互文本中所有相邻的两个字符串分别对应的语义属性之间的语义属性共现概率，计算交互文本对应的语义属性综合概率。

具体的，根据交互文本中所有相邻的两个字符串分别对应的语义属性之间的语义属性共现概率和预设的语义属性综合概率公式，计算交互文本对应的语义属性综合概率。

其中，预设的语义属性综合概率公式由下述公式(4)表示：

其中，P(w₁,w₂,...,w_m)为交互文本的语义属性综合概率，P(t_j|w_i-1)为预设的字符串w_i-1的语义属性为t_j的概率，P(t_k|t_j)为语义属性t_j与语义属性t_k之间的语义属性共现概率，P(w_i|t_k)为预设的字符串w_i的语义属性为t_k的概率。

需要说明的是，当交互文本中相邻的某两个字符串之间的字符串共现概率为0时，根据公式(4)得到的交互文本对应的语义属性综合概率为0，为了避免后续过程中，处理器因交互文本对应的语义属性综合概率过低直接判定需要对交互文本进行纠错。可选的，当第一字符串的语义属性和第二字符串的语义属性之间的语义属性共现概率未存储在各个语义属性之间的语义属性共现概率的对应关系中时，将第一字符串的语义属性和第二字符串的语义属性之间的语义属性共现概率确定为默认值，该默认值不为零。

步骤404，如果交互文本对应的语义属性综合概率低于预设的第三概率阈值，则基于待修正字符串相邻的非待修正字符串的语义属性，确定非待修正字符串的语义属性共现概率，在语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串，将待修正字符串替换为目标字符串。

需要说明的是，第三概率阈值可以人为设定也可以***预设，第三概率阈值可以为0.3、0.4、0.5等等，本实施例并不限定第三概率阈值的设置方式和具体数值。

需要说明的是，由于本实施例中步骤401至步骤402与步骤101至步骤102 相似，因此本实施例不对步骤401至步骤402赘述说明。

本实施例中，为了降低误纠的可能性，从交互文本确定出待修正字符串之后，计算交互文本对应的语义属性综合概率，根据语义属性综合概率的高低判定是否需要对交互文本进行纠错。

下述为本申请装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图5，图5示出了本申请一个实施例中提供的语音交互文本纠错装置的结构方框图。该语音交互文本纠错方法该装置包括：获取模块501、确定模块 502和替换模块503。

获取模块501，用于获取待识别的语音数据，进行语音识别，得到语音数据对应的交互文本；

确定模块502，用于对交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串；

替换模块503，用于基于待修正字符串相邻的非待修正字符串的语义属性，确定非待修正字符串的语义属性共现概率，在语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串，将待修正字符串替换为目标字符串。

在一种可能的实现方式中，该确定模块502，包括：

第二确定单元，用于在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出第一字符串的语义属性和第二字符串的语义属性之间的语义属性共现概率；

第一计算单元，用于根据第一字符串的语义属性和第二字符串的语义属性之间的语义属性共现概率，计算第一字符串和第二字符串之间的字符串共现概率。

在一种可能的实现方式中，该确定模块502，还包括：

第三确定单元，用于在多个字符串中，将与相邻的字符串之间的字符串共现概率均低于预设的第一概率阈值的第三字符串，确定为待修正字符串。

在一种可能的实现方式中，该替换模块503，还包括：

筛选单元，用于在预存的语义属性共现概率最高的第一语义属性对应的各字符串中，筛选出字符串长度与待修正字符串对应的字符串长度之间的差值小于预设长度阈值的字符串；

第二计算单元，用于在筛选得到的字符串中，分别计算各个字符串对应的发音音频与待修正字符串对应的发音音频之间的编辑距离；

第四确定单元，用于将对应的发音音频与待修正字符串对应的发音音频之间的编辑距离最小的字符串，确定为与待修正字符串对应的发音音频相似度最高的目标字符串。

在一种可能的实现方式中，该装置还包括：

第三计算单元，用于在至少一个字符串中，确定待修正字符串之后，根据交互文本中所有相邻的两个字符串分别对应的语义属性之间的语义属性共现概率，计算交互文本对应的语义属性综合概率；

第五确定单元，用于如果交互文本对应的语义属性综合概率低于预设的第三概率阈值，则执行基于待修正字符串相邻的非待修正字符串的语义属性，确定与非待修正字符串的语义属性的语义属性共现概率最高的第一语义属性的步骤。

综上所述，本申请实施例提供的装置，基于字符串各自的语义属性，计算相邻的字符串之间的字符串共现概率，来确定交互文本中的待修正字符串，并根据与待纠错字符相邻的非待修正字符的语义属性，对待修正字符串进行纠错；由于无需将新增词汇输入模型进行训练，只需要根据新增词汇的语义属性，即可完成对新增词汇所在文本的纠错过程，因此解决了相关技术中语音识别***很难准确的对文本纠错模型中未训练过的字符串进行纠错的问题，达到了在不依赖纠错模型的前提下精准地完成对交互文本完成纠错过程的效果。

需要说明的是：上述实施例中提供的语音交互文本纠错装置在纠错语音交互文本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音交互文本纠错装置与语音交互文本纠错方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请一示例性实施例提供了一种终端，能够实现本申请提供的语音交互文本纠错方法，该终端包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取待识别的语音数据，进行语音识别，得到语音数据对应的交互文本；

对交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，计算相邻的两个字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在多个字符串中，确定待修正字符串；

基于待修正字符串相邻的非待修正字符串的语义属性，确定非待修正字符串的语义属性共现概率，在语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与待修正字符串对应的发音音频相似度最高的目标字符串，将待修正字符串替换为目标字符串。

图6示出了本申请一个示例性实施例提供的终端600的结构框图。终端600 可被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、 FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA (Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的异常数据上报方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603 相连。具体地，***设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络 (2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真) 网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏 605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路 604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

电源608用于为终端600中的各个组件进行供电。电源608可以是交流电、直流电、一次性电池或可充电电池。当电源608包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音交互文本纠错方法，其特征在于，所述方法包括：

对所述交互文本进行分词，得到多个字符串，根据预存的各个字符串的语义属性，确定出相邻的第一字符串的语义属性和第二字符串的语义属性，在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，根据所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，计算所述第一字符串和所述第二字符串之间的字符串共现概率，根据计算得到的字符串共现概率，在所述多个字符串中，确定待修正字符串；

2.根据权利要求1所述的方法，其特征在于，所述在所述多个字符串中，确定待修正字符串，包括：

3.根据权利要求1所述的方法，其特征在于，所述在所述语义属性共现概率最高的第一语义属性对应的各字符串中，选取发音音频与所述待修正字符串对应的发音音频相似度最高的目标字符串，包括：

4.根据权利要求1-3中任一所述的方法，其特征在于，在所述多个字符串中，确定待修正字符串之后，所述方法还包括：

5.一种语音交互文本纠错装置，其特征在于，所述装置包括：

确定模块，用于对所述交互文本进行分词，得到多个字符串；所述确定模块包括第一确定单元，用于根据预存的各个字符串的语义属性，确定出相邻的第一字符串的语义属性和第二字符串的语义属性；第二确定单元，用于在预存的各个语义属性之间的语义属性共现概率的对应关系中，确定出所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率；第一计算单元，用于根据所述第一字符串的语义属性和所述第二字符串的语义属性之间的语义属性共现概率，计算所述第一字符串和所述第二字符串之间的字符串共现概率；所述确定模块，还用于根据计算得到的字符串共现概率，在所述多个字符串中，确定待修正字符串；

6.根据权利要求5所述的装置，其特征在于，所述确定模块，还包括：

7.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-4任一所述的语音交互文本纠错方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-4任一所述的语音交互文本纠错方法。