CN108899016B

CN108899016B - 一种语音文本规整方法、装置、设备及可读存储介质

Info

Publication number: CN108899016B
Application number: CN201810868006.9A
Authority: CN
Inventors: 夏春梦; 王影; 乔玉平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2020-09-11
Anticipated expiration: 2038-08-02
Also published as: CN108899016A

Abstract

本申请公开了一种语音文本规整方法、装置、设备及可读存储介质，本申请从待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元，并确定每一待规整单元的各种候选表现形式，该候选表现形式为符合语音规范，且在组成待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果，从各种候选表现形式中确定待规整单元的目标表现形式，该目标表现形式为符合说话人表达意图的表现形式，将待规整语音文本中待规整单元替换为对应的目标表现形式。本申请方案使得规整后的语音文本能够表达用户真实意图。

Description

一种语音文本规整方法、装置、设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及一种语音文本规整方法、装置、设备及可读存储介质。

背景技术

随着人工智能的发展，语音识别技术已广泛应用于工作生活中，基于语音识别的快速输入技术，大型会议的语音转写***等都需要将获取的音频信号识别成相应的文本。

现有的语音识别***所识别的语音文本往往会出现偏差，例如包含连字符的单词或词组，有的连字符可省略但意义不变，有的连字符不能省略，因为省略之后意义发生变化。对于单词或词组是否包含连字符以及连字符位置，其发音都是相似的，因此现有语音识别***识别的语音文本统一不添加连字符。这就导致输出的语音文本无法表达说话人的真实意图。示例如，“set-back”表达的意思是“挫折”，而“set back”表达的意思是“使推迟”。再比如，“black-bird”表达的意思是“黑色羽毛的鸟”，而“blackbird”表达的意思是“山鸟”。再比如，“a natural gas-producer”表达的意思是“天然的气体制造者”，而“anatural-gas producer”表达的意思是“天然气制造商”。由此可见，对于某些单词或词组，是否添加连字符以及连字符添加位置，对单词或词组的表达意义有很大的区别。

按照现有的语音识别***所识别的语音文本，由于其简单的将处理结果统一不添加连字符，导致识别的语音文本无法表达说话人真实意图，不符合说话人真实需求。

发明内容

有鉴于此，本申请提供了一种语音文本规整方法、装置、设备及可读存储介质，用于对语音文本进行规整处理，以满足说话人真实表达意图及需求。

为了实现上述目的，现提出的方案如下：

一种语音文本规整方法，包括：

从所述待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元；

确定每一所述待规整单元的各种候选表现形式，所述候选表现形式为符合语法规范，且在组成所述待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果；

针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，所述目标表现形式为符合说话人表达意图的表现形式；

将所述待规整语音文本中所述待规整单元替换为对应的目标表现形式。

优选地，所述针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

针对每一所述待规整单元，获取所述待规整单元的每一种候选表现形式的自然语言特征；

至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式。

优选地，所述从所述待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元，包括：

从所述待规整语音文本包含的首个单词开始遍历，并从当前遍历到的单词向后依次选取0-N个单词，N为大于0的整数；

将当前遍历到的单词与每次选取的单词的组合，组成待规整单元。

优选地，所述确定每一所述待规整单元的各种候选表现形式，包括：

在组成所述待规整单元的任意一对或多对相邻字母间，任意一对或多对相邻单词间，添加或不添加连字符，得到所述待规整单元所有的可能表现形式；

针对每一种可能表现形式，查询词典以确认是否符合语法规范；

将存在于所述词典中的可能表现形式确定为所述待规整单元的候选表现形式。

查询所述待规整单元对应的候选表现形式词库，所述候选表现形式词库中预置有与所述待规整单元对应的各种候选表现形式；

获取所述待规整单元对应的候选表现形式词库中的各种候选表现形式。

优选地，所述获取所述待规整单元的每一种候选表现形式的自然语言特征，包括：

获取所述待规整单元的每一种候选表现形式的文本特征和/或语音特征，所述语音特征为所述待规整单元对应语音的声学特征。

优选地，所述文本特征包括：词性、上下文信息中的任意一种或多种；

所述语音特征包括：谱参数、时长、停顿信息、重音中的任意一种或多种。

优选地，所述至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

将所述待规整单元的每一种候选表现形式及对应的自然语言特征输入预置的第一识别模型，得到第一识别模型输出的每一种候选表现形式的得分；

所述第一识别模型为，以待规整单元训练数据的每一种候选表现形式及对应自然语言特征作为训练样本，以标注的待规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签训练得到；

将得分最高的候选表现形式作为待规整单元的目标表现形式。

优选地，所述针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，还包括：

针对每一所述待规整单元，获取所述待规整单元的每一种候选表现形式的用户习惯特征；

所述至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

根据所述待规整单元的每一种候选表现形式的自然语言特征及用户习惯特征，从所述待规整单元的各种候选表现形式中确定目标表现形式。

优选地，所述根据所述待规整单元的每一种候选表现形式的自然语言特征及用户习惯特征，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

将所述待规整单元的每一种候选表现形式及对应的自然语言特征和用户习惯特征输入预置的第二识别模型，得到第二识别模型输出的每一种候选表现形式的得分；

所述第二识别模型为，以规整单元训练数据的每一种候选表现形式及对应自然语言特征和用户习惯特征作为训练样本，以标注的规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签训练得到；

一种语音文本规整装置，包括：

待规整单元获取单元，用于从所述待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元；

候选表现形式确定单元，用于确定每一所述待规整单元的各种候选表现形式，所述候选表现形式为符合语法规范，且在组成所述待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果；

目标表现形式确定单元，用于针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，所述目标表现形式为符合说话人表达意图的表现形式；

替换单元，用于将所述待规整语音文本中所述待规整单元替换为对应的目标表现形式。

一种语音文本规整设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音文本规整方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音文本规整方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音文本规整方法，从待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元，并确定每一待规整单元的各种候选表现形式，该候选表现形式为符合语音规范，且在组成待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果，也即，本实施例确定了每一种待规整单元对连字符包含情况的各种候选表现形式，进而从各种候选表现形式中确定待规整单元的目标表现形式，该目标表现形式为符合说话人表达意图的表现形式，并将待规整语音文本中待规整单元替换为对应的目标表现形式。由此可见，本申请考虑了待规整单元的多种候选表现形式，并从中确定出说话人真实想要表达的目标表现形式，进而利用目标表现形式替换待规整单元，使得规整后的语音文本能够表达用户真实意图，更加符合用户真实需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种语音文本规整方法流程图；

图2为本申请实施例公开的一种语音文本规整装置结构示意图；

图3为本申请实施例公开的一种语音文本规整设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

单词或词组包含连字符以及不包含连字符意义有相同的情况，也有不相同的情况。并，连字符位置不同意义也有可能不同。示例如下：

hot-water，hotwater，两种表现形式的意义均为：(热水)；

value-for-money，value for money，两种表现形式的意义均为：(物有所值)；

set-back(挫折)，set back(使推迟)；

turn-out(切断)，turn out(关掉)。

a natural gas-producer(天然的气体制造者，如花草树木)，a natural-gasproducer(天然气制造商)；

a crushed ice-making machine(碾碎了的制冰机)，a crushed-ice-makingmachine(碎冰机)；

Mr.Green was a small-business man.格林先生是位做小买卖的商人；

Mr.Green was a small business man.格林先生是一个身材矮小的商人。

在同一个单词中有无连字符“-”，有的会发生意义的变化，有的意义则仍然一样。

意义不变的：

co-opration，cooperation(合作)；

post-man，postman(邮递员)。

意义变化的：

black-bird/black bird(黑色羽毛的鸟)，blackbird(山鸟)；

re-count(重算、重数)，recount(叙述)；

re-collect(重新集合)，recollect(回忆、记忆)。

上述仅仅示例了若干种单词或词组对连字符不同包含形式的示例。由此可见，上述这种发音几乎一致，但不同的表现形式意义有可能相同，也有可能天差地别。

如果按照现有语音识别***，识别的语音文本统一不添加连字符，这就导致输出的语音文本无法表达说话人的真实意图。为此本申请提供一种解决方案。

需要说明的是，上述仅仅是以英语为例进行的说明，其它涉及连字符表达，以及连字符添加与否及添加位置对表达意义有影响的语种，均可以作为本申请的处理对象，示例如法语等。

在介绍本申请方案之前，首先对本申请下述用到的词语进行解释，以便后续理解。

对于一个单词或者两个及其以上的单词组成的词组，其对连字符均可能有不同包含情况，本申请可以以一个单词或两个及其以上的单词组成的词组作为待规整单元，也即待规整单元可以是一个单词，也可以是至少两个单词组成的词组。

如上述的“recount”、“recollect”可以是一个待规整单元。而包含多个单词的词组“value for money”也可以是一个待规整单元。

进一步，对于一个待规整单元，其对连字符有多种不同的包含情况，以“recount”为例，可以在任意一个或多个相邻字母之间添加以及不添加连字符，每种方式都可以作为待规整单元的一种可能表现形式。进一步，待规整单元的所有可能表现形式中，有些是不符合语法规范的，如“r-ecount”这一表现形式，其没有任何意义，不符合语法规范，因此不可能作为用户所意图的表现形式。因此，待规整单元的所有可能表现形式中，只有符合语法规范的那些表现形式才可能作为待规整单元的候选表现形式。以“recount”为例，其各种候选表现形式有两种，分别为：“recount”和“re-count”。

基于上述理解，结合附图1对本申请的语音文本规整方法进行介绍，如图1所示，该方法可以包括：

步骤S100、从所述待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元。

具体地，这里的待规整语音文本可以是需要进行连字符添加与否规整处理的语音文本，其为对语音进行识别后的文本结果。待规整语音文本可以是按照各种语音识别方法所识别后的结果，对此本申请不做严格限定。

本步骤中，对于待规整语音文本，从中获取由单个单词组成的待规整单元，和/或获取由至少两个连续单词组成的待规整单元。

示例如，待规整语音文本为：A blackbird flew down and perched on theparapet outside his window.

则本步骤中可以将“A”、“blackbird”等单词作为待规整单元，或者还可以将“Ablackbird”、“A blackbird flew”等由至少两个连续单词组成的词组作为待规整单元。

步骤S110、确定每一所述待规整单元的各种候选表现形式。

具体地，如前所述，待规整单元的候选表现形式为符合语法规范，且在组成所述待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果。

本步骤中，针对每一待规整单元，确定其各种候选表现形式。可以理解的是，待规整单元的各种候选表现形式必然包含了说话人所真正意图表达的形式。

步骤S120、针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式。

其中，所述目标表现形式为符合说话人表达意图的表现形式。

步骤S130、将所述待规整语音文本中所述待规整单元替换为对应的目标表现形式。

具体地，上一步骤中已经确定了待规整单元的目标表现形式，该目标表现形式即为预测的用户对待规整单元的真实表达意图，因此本步骤中将待规整语音文本中的待规整单元替换为对应的目标表现形式。

确定的待规整单元“blackbird”的目标表现形式为“black-bird”，因此可以将待规整语音文本中的“black-bird”替换为“blackbird”。

本申请实施例公开的语音文本规整方法，考虑了待规整单元的多种候选表现形式，并从中预测说话人真实想要表达的目标表现形式，进而利用目标表现形式替换待规整单元，使得规整后的语音文本能够表达用户真实意图，更加符合用户真实需求。

本申请一个实施例中，对上述步骤S100，从所述待规整语音文本中获取待规整单元的过程进行介绍。

一种可选的实施方式下，获取待规整单元的过程可以包括：

1)从所述待规整语音文本包含的首个单词开始遍历，并从当前遍历到的单词向后依次选取0-N个单词，N为大于0的整数。

具体地，本申请可以预先统计获取包含连字符的最长词组，并依据该最长词组包含的单词的个数来确定N值大小，如将最长词组包含的单词的个数作为N值。

2)将当前遍历到的单词与每次选取的单词的组合，组成待规整单元。

定义N为2。

则从首个单词“A”开始往后逐个遍历。假设当前遍历到的单词为“blackbird”时，从“blackbird”向后依次选取0-3个单词：

选取0个单词时，由“blackbird”组成待规整单元；

选取1个单词时，由“blackbird flew”组成待规整单元；

选取2个单词时，由“blackbird flew down”组成待规整单元。

可以理解的是，除了上述获取待规整单元的方式之外，还可以存在其他可选方式，如预先设定窗口尺寸及滑动步长，从待规整语音文本的首个单词开始，依次滑窗选取单词，将每次滑窗选取的单词组成待规整单元。

本申请另一个实施例中，对上述步骤S110，确定每一所述待规整单元的各种候选表现形式的过程进行介绍。

一种可选的实施方式下，确定待规整单元的各种候选表现形式的过程可以包括：

1)在组成所述待规整单元的任意一对或多对相邻字母间，任意一对或多对相邻单词间，添加或不添加连字符，得到所述待规整单元所有的可能表现形式。

具体地，根据前述对待规整单元的可能表现形式的解释可知，本步骤中可以获取待规整单元的所有可能表现形式。具体方式即为，在组成待规整单元的任意一对或多对相邻字母间，任意一对或多对相邻单词间，添加或不添加连字符。可以理解的是，当待规整单元为一个单词时，则可以在该单词包含的任意一对或多对相邻字母间，添加或不添加连字符，得到该待规整单元的各种可能表现形式。当待规整单元为两个或者两个以上的单词组成的词组时，可以在任意一对或多对相邻单词间，添加或不添加连字符，得到该待规整单元的各种可能表现形式。

2)针对每一种可能表现形式，查询词典以确认是否符合语法规范。

具体地，对于待规整单元的所有可能表现形式，其并非每一种都符合语法规范。因此，本步骤中通过查询词典的方式，确认每一种可能表现形式是否符合语法规范。可以理解的是，对于词典中记录的可能表现形式，属于符合语法规范的，否则，不属于语法规范。

3)将存在于所述词典中的可能表现形式确定为所述待规整单元的候选表现形式。

另一种可选的实施方式下，确定待规整单元的各种候选表现形式的过程可以包括：

1)查询所述待规整单元对应的候选表现形式词库，所述候选表现形式词库中预置有与所述待规整单元对应的各种候选表现形式。

具体地，本申请实施例可以预先针对存在不同表现形式的单词或词组构建候选表现形式词库，词库中存储了对应单词或词组的各种候选表现形式。以“recount”和“re-count”为例，二者对应的候选表现形式词库包括：{“recount”、“re-count”}。

对于查询待规整单元对应的候选表现形式词库的过程，可以是查询待规整单元所在的候选表现形式词库，将其所在的候选表现形式词库确定为其对应的候选表现形式词库。

2)获取所述待规整单元对应的候选表现形式词库中的各种候选表现形式。

本申请的又一个实施例中，介绍了上述步骤S120，从所述待规整单元的各种候选表现形式中确定目标表现形式的一种可选实施方式。

本实施例中，可以从自然语言特征的角度考虑，来确定目标表现形式，具体可以包括：

S1、针对每一所述待规整单元，获取所述待规整单元的每一种候选表现形式的自然语言特征。

具体地，自然语言特征的种类可以有多种，具体可以由用户设定。通过获取每一种候选表现形式的自然语言特征，可以基于此预测用户对待规整单元的真实表达意图。

其中，待规整单元的候选表现形式的自然语言特征可以包括多种，如文本特征、语音特征。其中，语音特征为待规整单元对应发音的声学特征。

其中，每一种候选表现形式的语音特征可以包括：谱参数、时长信息、停顿信息、重音等。

其中，时长信息指每一种候选表现形式包含所有词的总时长，和/或包含单个词或单个音素的时长。

停顿信息指每一种候选表现形式包含的停顿次数、停顿时长、停顿位置。

重音信息可以通过音强、音高来表示。

待规整单元的每一种候选表现形式的文本特征可以包括：

词性：根据词性的不同，可以划分为：介词、名词、动词等等。不同候选表现形式的词性可能不同。

上下文信息：待规整单元在待规整语音文本中的上下文信息，可以包括待规整语音文本中，待规整单元前、后相邻的单词或单词组合。

S2、至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式。

具体地，本步骤中至少考虑了待规整单元的每一种候选表现形式的自然语言特征，基于此从各种候选表现形式中确定出目标表现形式，该目标表现形式即为本申请预测的用户对待规整单元的真实表达意图。

本实施例提供的方案中，可以通过神经网络模型的方式，预测待规整单元的目标表现形式。

具体地，收集待规整单元训练数据，并确定待规整单元训练数据的各种候选表现形式。进一步，确定每一种候选表现形式的自然语言特征，确定自然语言特征的过程与前述介绍相同。在训练神经网络模型之前，预先为待规整单元的每一种候选表现形式进行样本标签标注，即标注待规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分。

定义本实施例中的神经网络模型为第一识别模型，则以待规整单元训练数据的每一种候选表现形式及对应自然语言特征作为训练样本，以标注的待规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签，训练第一识别模型。

基于训练后的第一识别模型，可以将从待规整语音文本中获取的待规整单元的每一种候选表现形式，及对应的自然语言特征输入该第一识别模型中，由第一识别模型输出预测的每一种候选表现形式的得分。进一步，将得分最高的候选表现形式作为待规整单元的目标表现形式。

根据前述介绍可知，自然语言特征可以包括文本特征和语音特征，因此第一识别模型可以是一个完整的模型，训练时综合考虑文本特征和语音特征。除此之外，第一识别模型还可以是由两个子模型组成，分别定义为第一文本识别模型和第一语音识别模型。

第一文本识别模型，以待规整单元训练数据的每一种候选表现形式及对应文本特征作为训练样本，以标注的待规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签。

第一语音识别模型，以待规整单元训练数据的每一种候选表现形式及对应语音特征作为训练样本，以标注的待规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签。

基于此，将所述待规整单元的每一种候选表现形式及对应的自然语言特征输入预置的第一识别模型的过程，可以包括：

将所述待规整单元的每一种候选表现形式及对应的文本特征输入第一文本识别模型，得到第一文本识别模型输出的每一种候选表现形式的文本得分。

将所述待规整单元的每一种候选表现形式及对应的语音特征输入第一语音识别模型，得到第一语音识别模型输出的每一种候选表现形式的语音得分。

进一步，根据每一种候选表现形式的文本得分和语音得分，确定候选表现形式的总得分。并将总得分最高的候选表现形式作为待规整单元的目标表现形式。

可以理解的是，若待规整单元的各种候选表现形式的语义均不同，则各种候选表现形式的区分点主要在文本特征，而若待规整单元的各种候选表现形式的语义均相同，则各种候选表现形式的区分点主要在语音特征。进一步，若待规整单元的各种候选表现形式的语义部分相同部分不相同，则各种候选表现形式的区分点既有文本特征，也有语音特征。

(1)若确定待规整单元的各种候选表现形式的语义均不同，则将所述待规整单元的每一种候选表现形式及对应的文本特征输入第一文本识别模型，得到第一文本识别模型输出的每一种候选表现形式的文本得分；进一步将文本得分最高的候选表现形式作为待规整单元的目标表现形式。

(2)若确定待规整单元的各种候选表现形式的语义均相同，则将所述待规整单元的每一种候选表现形式及对应的语音特征输入第一语音识别模型，得到第一语音识别模型输出的每一种候选表现形式的语音得分；进一步将语音得分最高的候选表现形式作为待规整单元的目标表现形式。

(3)若确定待规整单元的各种候选表现形式的语义部分相同部分不相同，则将所述待规整单元的每一种候选表现形式及对应的文本特征输入第一文本识别模型，得到第一文本识别模型输出的每一种候选表现形式的文本得分；将所述待规整单元的每一种候选表现形式及对应的语音特征输入第一语音识别模型，得到第一语音识别模型输出的每一种候选表现形式的语音得分；根据每一种候选表现形式的文本得分和语音得分，确定候选表现形式的总得分。并将总得分最高的候选表现形式作为待规整单元的目标表现形式。

在本申请的另一个实施例中，介绍了上述步骤S120，从所述待规整单元的各种候选表现形式中确定目标表现形式的另一种可选实施方式。在上一实施例获取待规整单元的每一种候选表现形式的自然语言特征的基础上，本实施例中还可以进一步获取待规整单元的每一种候选表现形式的用户习惯特征。

其中，用户习惯特征可以包括以下任意一项或多项：频率特征、语速特征、用户属性特征等。

为了便于表述，定义待规整语音文本对应语音的说话人为当前用户。

其中，频率特征是指，根据当前用户历史输入统计的，输入每一种候选表现形式的频率。

语速特征是指，待规整单元对应的语速信息。

用户属性特征可以包括性别、年龄、职业等。

在增加了获取待规整单元的每一种候选表现形式的用户习惯特征的基础上，本申请实施例一共可以获取到自然语言特征和用户习惯特征，其中自然语言特征可以包括文本特征、语音特征。

基于此，至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式的过程，具体可以包括：

与前述类似的，本实施例中也可以使用神经网络模型来进行目标表现形式的预测。定义本实施例中使用的模型为第二识别模型。

第二识别模型为，以规整单元训练数据的每一种候选表现形式及对应自然语言特征和用户习惯特征作为训练样本，以标注的规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签训练得到。

基于此，将待规整单元的每一种候选表现形式及对应的自然语言特征和用户习惯特征输入第二识别模型，得到模型输出的每一种候选表现形式的得分。进一步，将得分最高的候选表现形式作为待规整单元的目标表现形式。

第二识别模型可以是一个完整的模型，训练时综合考虑自然语言特征和用户习惯特征。除此之外，第二识别模型还可以是由两个子模型组成，分别定义为第二自然语言识别模型和第二用户习惯识别模型。其中，第二自然语言识别模型又可以划分为：第二文本识别模型和第二语音识别模型。

其中，第二文本识别模型和第二语音识别模型训练过程与前述第一文本识别模型和第一语音识别模型相同，此处不再赘述。

对于第二用户习惯识别模型，其可以是以规整单元训练数据的每一种候选表现形式及对应用户习惯特征作为训练样本，以标注的规整单元训练数据的每一种候选表现形式作为目标表现形式的可能性得分作为样本标签训练得到。

基于此，将所述待规整单元的每一种候选表现形式及对应的自然语言特征和用户习惯特征输入第二识别模型的过程，可以包括：

将所述待规整单元的每一种候选表现形式及对应的文本特征输入第二文本识别模型，得到第二文本识别模型输出的每一种候选表现形式的文本得分。

将所述待规整单元的每一种候选表现形式及对应的语音特征输入第二语音识别模型，得到第一语音识别模型输出的每一种候选表现形式的语音得分。

将所述待规整单元的每一种候选表现形式及对应的用户习惯特征输入第二用户习惯识别模型，得到第二用户习惯识别模型输出的每一种候选表现形式的用户习惯得分。

进一步，根据每一种候选表现形式的文本得分、语音得分和用户习惯得分，确定候选表现形式的总得分。并将总得分最高的候选表现形式作为待规整单元的目标表现形式。

其中，在根据每一种候选表现形式的文本得分、语音得分和用户习惯得分，确定候选表现形式的总得分的过程中，可以考虑文本得分、语音得分和用户习惯得分中的任意一个或多个的组合，来确定总得分。示例如，仅考虑文本得分和用户习惯得分，或仅考虑语音得分和用户习惯得分，或同时考虑文本得分、语音得分和用户习惯得分。

本实施例提供的方案中，由于考虑了用户习惯特征，因此对于各候选表现形式发音相同、语义相同的场景，可以综合用户习惯特征来确定最符合用户习惯的表现形式。

上述实施例介绍了步骤S120，确定目标表现形式的几种可选实施方式，除此之外，本申请实施例还可以采用其他方式从候选表现形式中确定目标表现形式，如通过分析说话人或所有用户对待规整单元的每种候选表现形式的使用频率，选取频率最高的候选表现形式作为目标表现形式，等等。

下面对本申请实施例提供的语音文本规整装置进行描述，下文描述的语音文本规整装置与上文描述的语音文本规整方法可相互对应参照。

参见图2，图2为本申请实施例公开的一种语音文本规整装置结构示意图。如图2所示，该装置可以包括：

待规整单元获取单元11，用于从所述待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元；

候选表现形式确定单元12，用于确定每一所述待规整单元的各种候选表现形式，所述候选表现形式为符合语法规范，且在组成所述待规整单元的任意一个或多个相邻字母间，任意一个或多个相邻单词间，添加或不添加连字符的结果；

目标表现形式确定单元13，用于针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，所述目标表现形式为符合说话人表达意图的表现形式；

替换单元14，用于将所述待规整语音文本中所述待规整单元替换为对应的目标表现形式。

可选的，所述目标表现形式确定单元可以包括：

自然语言特征获取单元，用于针对每一所述待规整单元，获取所述待规整单元的每一种候选表现形式的自然语言特征；

目标表现形式选择单元，用于至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式。

可选的，所述待规整单元获取单元可以包括：

遍历单元，用于从所述待规整语音文本包含的首个单词开始遍历，并从当前遍历到的单词向后依次选取0-N个单词，N为大于0的整数；

组合单元，用于将当前遍历到的单词与每次选取的单词的组合，组成待规整单元。

可选的，本申请实施例公开了候选表现形式确定单元的两种不同结构，分别如下：

第一种，所述候选表现形式确定单元可以包括：

可能表现形式确定单元，用于在组成所述待规整单元的任意一对或多对相邻字母间，任意一对或多对相邻单词间，添加或不添加连字符，得到所述待规整单元所有的可能表现形式；

词典查询单元，用于针对每一种可能表现形式，查询词典以确认是否符合语法规范；

合规确定单元，用于将存在于所述词典中的可能表现形式确定为所述待规整单元的候选表现形式。

第二种，所述候选表现形式确定单元可以包括：

词库查询单元，用于查询所述待规整单元对应的候选表现形式词库，所述候选表现形式词库中预置有与所述待规整单元对应的各种候选表现形式；

词库获取单元，用于获取所述待规整单元对应的候选表现形式词库中的各种候选表现形式。

可选的，上述自然语言特征获取单元可以包括：

文本及语音特征获取单元，用于获取所述待规整单元的每一种候选表现形式的文本特征和/或语音特征，所述语音特征为所述待规整单元对应语音的声学特征。

其中，所述文本特征可以包括：词性、上下文信息中的任意一种或多种；

所述语音特征可以包括：谱参数、时长、停顿信息、重音中的任意一种或多种。

可选的，上述目标表现形式选择单元可以包括：

第一模型预测单元，用于将所述待规整单元的每一种候选表现形式及对应的自然语言特征输入预置的第一识别模型，得到第一识别模型输出的每一种候选表现形式的得分；

第一模型结果确定单元，用于将得分最高的候选表现形式作为待规整单元的目标表现形式。

可选的，所述目标表现形式确定单元还可以包括：

用户习惯特征获取单元，用于针对每一所述待规整单元，获取所述待规整单元的每一种候选表现形式的用户习惯特征。

在此基础上，上述目标表现形式选择单元具体用于，根据所述待规整单元的每一种候选表现形式的自然语言特征及用户习惯特征，从所述待规整单元的各种候选表现形式中确定目标表现形式。

进一步，本申请实施例公开了目标表现形式选择单元的另一种可选结构，如下包括：

第二模型预测单元，用于将所述待规整单元的每一种候选表现形式及对应的自然语言特征和用户习惯特征输入预置的第二识别模型，得到第二识别模型输出的每一种候选表现形式的得分；

第二模型结果确定单元，用于将得分最高的候选表现形式作为待规整单元的目标表现形式。

本申请实施例提供的语音文本规整装置可应用于语音文本规整设备，如手机、PC终端、云平台、服务器及服务器集群等。可选的，图3示出了语音文本规整设备的硬件结构框图，参照图3，语音文本规整设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音文本规整方法，其特征在于，包括：

从待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元；

2.根据权利要求1所述的方法，其特征在于，所述针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定每一所述待规整单元的各种候选表现形式，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定每一所述待规整单元的各种候选表现形式，包括：

6.根据权利要求2所述的方法，其特征在于，所述获取所述待规整单元的每一种候选表现形式的自然语言特征，包括：

获取所述待规整单元的每一种候选表现形式的文本特征和/或语音特征。

7.根据权利要求6所述的方法，其特征在于，所述文本特征包括：词性、上下文信息中的任意一种或多种；

8.根据权利要求2或6所述的方法，其特征在于，所述至少根据所述待规整单元的每一种候选表现形式的自然语言特征，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

9.根据权利要求2或6所述的方法，其特征在于，所述针对每一所述待规整单元，从所述待规整单元的各种候选表现形式中确定目标表现形式，还包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述待规整单元的每一种候选表现形式的自然语言特征及用户习惯特征，从所述待规整单元的各种候选表现形式中确定目标表现形式，包括：

11.一种语音文本规整装置，其特征在于，包括：

待规整单元获取单元，用于从待规整语音文本中获取由单个单词和/或至少两个连续单词组成的待规整单元；

12.一种语音文本规整设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-10中任一项所述的语音文本规整方法的各个步骤。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-10中任一项所述的语音文本规整方法的各个步骤。