CN115798465B

CN115798465B - 一种语音输入方法、***及可读存储介质

Info

Publication number: CN115798465B
Application number: CN202310072790.3A
Authority: CN
Inventors: 吴天; 丁国平; 黄聪聪; 熊阳; 刘智鹏; 占祥东
Original assignee: Tianchuang Optoelectronic Engineering Co ltd
Current assignee: Tianchuang Optoelectronic Engineering Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-07
Anticipated expiration: 2043-02-07
Also published as: CN115798465A

Abstract

本发明公开一种语音输入方法、***及可读存储介质，包括：获取用户输入的第一待识别语音；根据第一语速信息以及语音时长得到第一待识别语音的字符数，并对第一待识别语音进行分析，得到与第一待识别语音相对应的第一语音内容；获取用户输入的第二待识别语音，并判断第二待识别语音的字符数是否大于第一待识别语音的字符数；若不大于，则判断与第二待识别语音相对应的第二语音内容是否为第一语音内容的子语音内容；若为子语音内容，则基于第二语音内容对第一语音内容进行更新，并输出更新后的第一语音内容。实现了不同语速的语音适用于不同的语音识别模型，解决采用通用的语音识别可能存在识别无效如识别不准确的问题。

Description

一种语音输入方法、***及可读存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种语音输入方法、***及可读存储介质。

背景技术

目前的语音识别功能大多是采用语音识别模型实现，而语音识别模型的训练是采用基于标准语音的训练库进行训练。然而，在实际应用场景，用户的语言生长环境或者身体生理原因等多方面原因，导致了用户的语速可能不相同。

对于一部分语速快的用户，采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别等问题，使得这一部分用户使用语音识别技术的语音沟通存在很大的阻碍，严重影响用户的使用体验。

发明内容

本发明提供一种语音输入方法、***及可读存储介质，用于解决对于一部分语速快的用户，采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别的技术问题。

第一方面，本发明提供一种语音输入方法，包括：在接收到第一语音输入指令时，获取用户输入的第一待识别语音，并提取所述第一待识别语音中的第一语音特征信息，其中，所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息；根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数，并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容；在接收到第二语音输入指令时，获取用户输入的第二待识别语音，并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数；若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数，则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容，其中，所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容；若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容，则基于所述第二语音内容对所述第一语音内容进行更新，并输出更新后的第一语音内容。

进一步地，在根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数之前，所述方法还包括：判断所述第一待识别语音中是否存在无义语音段，其中，所述无义语音段包括空白语音段和拖长音语音段；若所述第一待识别语音中存在无义语音段，则基于所述无义语音段的起始时间和终止时间去除所述第一待识别语音中的所述无义语音段，并重新拼接成仅包含有义语音段的第一目标待识别语音；获取所述第一目标待识别语音中的第一语速信息和第一目标待识别语音的所述语音时长。

进一步地，所述基于预先训练的与所述字符数相关联的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容，包括：基于不同字符数的训练语音以及与所述训练语音相对应的训练语音内容对神经网络模型进行训练，得到至少一个语音识别模型，其中，一个语音识别模型用于识别字符数在一字符数范围的训练语音；根据所述第一待识别语音的字符数选取与所述字符数相对应的某一语音识别模型；根据所述某一语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容。

进一步地，在所述判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之前，所述方法还包括：判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同；若所述第二待识别语音中的第二声纹信息与所述第一声纹信息相同，则基于所述第一语速信息以及所述第二待识别语音的语音时长得到所述第二待识别语音的字符数。

进一步地，在判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同，之后，所述方法还包括：若所述第二待识别语音中的第二声纹信息与所述第一声纹信息不相同，则直接输出与所述第一待识别语音相对应的第一语音内容。

进一步地，在判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之后，所述方法还包括：若所述第二待识别语音的字符数大于所述第一待识别语音的字符数，则直接输出与所述第一待识别语音相对应的第一语音内容。

第二方面，本发明提供一种语音输入***，包括：获取模块，配置为在接收到第一语音输入指令时，获取用户输入的第一待识别语音，并提取所述第一待识别语音中的第一语音特征信息，其中，所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息；分析模块，配置为根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数，并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容；第一判断模块，配置为在接收到第二语音输入指令时，获取用户输入的第二待识别语音，并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数；第二判断模块，配置为若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数，则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容，其中，所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容；更新模块，配置为若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容，则基于所述第二语音内容对所述第一语音内容进行更新，并输出更新后的第一语音内容。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音输入方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序指令被处理器执行时，使所述处理器执行本发明任一实施例的语音输入方法的步骤。

本申请的一种语音输入方法、***及可读存储介质，采用不同的语音识别模型对不同字符数的输入语音进行识别，实现了不同语速的语音适用于不同的语音识别模型，解决了对于一部分语速快的用户，采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别的问题；并且在语音输入过程中，通过判断第二待识别语音的字符数是否大于第一待识别语音的字符数以及判断与第二待识别语音相对应的第二语音内容是否为第一语音内容的子语音内容，能够对语音内容是否正确进行默认判断，从而提高了语音输入的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音输入方法的流程图；

图2为本发明一实施例提供的一种语音输入***的结构框图；

图3是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本申请的一种语音输入方法的流程图。

如图1所示，语音输入方法具体包括以下步骤：

步骤S101，在接收到第一语音输入指令时，获取用户输入的第一待识别语音，并提取所述第一待识别语音中的第一语音特征信息，其中，所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息。

在本实施例中，在接收到第一语音输入指令时，获取用户输入的第一待识别语音后，可采用预设的语音特征提取工具，对该第一待识别语音进行特征提取，得到第一语音特征信息。

需要说明的是，语音输入指令可基于多种语音输入方式获取，基于语音输入方式的不同，语音输入指令可包括语音式语音输入指令、按键式语音输入指令、触摸式语音输入指令等。具体地，若为语音式语音输入指令，终端设备可通过检测语音唤醒词或其他语音输入，以获取语音输入指令；若为按键式语音输入指令，终端设备可在检测到按键按下信号时，接收到语音输入指令；若为触摸式语音输入指令，终端设备可通过检测指定区域是否采集到触摸信号，以获取语音输入指令，等等。

在一些实施方式中，可采用前端工具Praat语音分析软件，对输入语音进行分析。其中，Praat是通过对输入语音的语音信号进行采集、分析，并以文字报表或者语图的方式输出分析结果，从而可以根据分析结果得到输入语音的语速信息。

步骤S102，根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数，并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容。

在本实施例中，字符数可以为输入语音中有效字符的数量。例如，输入语音为“导航去胜利路”，那么输入语音的字符数可以为6。再例如输入语音为“导航去胜利路226号的格兰云天酒店”，那么输入语音的字符数可以为17。

具体地，可根据输入语音的语速信息以及语音时长得到输入语音的字符数，并且根据字符数选择与其相对应的语音识别模型，并且根据该语音识别模型对输入语音进行识别，得到与输入语音相对应的语音内容。

在一些实施方式中，基于不同字符数的训练语音以及与所述训练语音相对应的训练语音内容对神经网络模型进行训练，得到至少一个语音识别模型，其中，一个语音识别模型用于识别字符数在一字符数范围的训练语音；根据第一待识别语音的字符数选取与字符数相对应的某一语音识别模型；根据某一语音识别模型对第一待识别语音进行分析，得到与第一待识别语音相对应的第一语音内容。

例如，将在2秒内的某一输入语音“导航去胜利路”作为一训练语音，以及在2秒内的另一输入语音“导航去胜利路226号的格兰云天酒店”作为另一训练语音，并分别输入至神经网络模型中，分别得到两个语音识别模型，其中一语音识别模型用于识别1-10个字符数的输入语音，另一语音识别模型用于识别11-20个字符数的输入语音。这样，采用不同的语音识别模型对不同字符数的输入语音进行识别，实现了不同语速的语音适用于不同的语音识别模型，解决了对于一部分语速快的用户，采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别的问题。

在一些实施方式中，在根据第一语速信息以及语音时长得到第一待识别语音的字符数之前，方法还包括：

判断第一待识别语音中是否存在无义语音段，其中，无义语音段包括空白语音段和拖长音语音段；若第一待识别语音中存在无义语音段，则基于无义语音段的起始时间和终止时间去除第一待识别语音中的无义语音段，并重新拼接成仅包含有义语音段的第一目标待识别语音；获取第一目标待识别语音中的第一语速信息和第一目标待识别语音的语音时长。这样，通过去除输入语音中的无义语音段，并重新拼接形成仅包含有义语音段的待识别语音，能够避免无实际含义的语音占用整个输入语音的语音时长的现象，从而提高得到待识别语音字符数的准确度。

需要说明的是，空白语音段的声音强度小于预设强度，空白语音片段可表征用户没有说话或说话声音强度非常小的语音片段，拖长音语音段是指用户在发出声音，且声音强度不小于预设强度的语音片段，且该语音片段无语义内容。例如，在2s内的输入语音“导航去胜利路226号，额，额，额…，的格兰云天酒店”，其中“额，额，额…，”为拖长音语音段。基于无义语音段的起始时间和终止时间去除第一待识别语音中的无义语音段，并重新拼接成仅包含有义语音段的第一目标待识别语音（“导航去胜利路226号的格兰云天酒店”）。

步骤S103，在接收到第二语音输入指令时，获取用户输入的第二待识别语音，并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数。

在本实施例中，在接收到第二语音输入指令时，获取用户输入的第二待识别语音，判断第二待识别语音中的第二声纹信息是否与第一声纹信息相同；若第二待识别语音中的第二声纹信息与第一声纹信息不相同，则直接输出与第一待识别语音相对应的第一语音内容。这样，在第一待识别语音与第二待识别语音的声纹信息不相同时，说明上一用户已经默认确定第一语音内容的准确性，并且此时已经切换了用户，通过下一用户的声纹进行确定第一语音内容的准确性，有效地提高了在切换用户过程中，语音内容输出的流畅度。

在一个具体应用场景中，用户A通过唤醒词（“输入”）输入为“导航去格兰云天酒店”的语音，在经过语音识别模型的识别，向用户展示语音内容“导航去格兰云天酒店”，此时，用户B输入“胜利路”的语音，通过用户B与用户A的不同声纹信息，使得确定与用户A的输入语音相对应的“导航去格兰云天酒店”的语音内容正确，此时在显示列表中显示多个地址的格兰云天酒店，例如，胜利路格兰云天酒店，云飞路格兰云天酒店，并且通过用户B输入“胜利路格兰云天酒店”的语音，确定最终目的是：“导航去胜利路格兰云天酒店”。

在现有技术中，在用户A输入“导航去格兰云天酒店”的语音后，***经过语音识别后会产生“是否为导航去格兰云天酒店”的交互信息，此时需要用户再次确定回复“是的”的语音进行确定语音内容是正确的，从而造成了语音输入的不便捷。采用本实施例的方法后，用户B输入“胜利路格兰云天酒店”的语音，通过用户B与用户A的不同声纹信息，能够直接确定用户A输入的语音内容为正确。

需要说明的是，若第二待识别语音中的第二声纹信息与第一声纹信息相同，则基于第一语速信息以及第二待识别语音的语音时长得到第二待识别语音的字符数。通过第一语速信息以及第二待识别语音的语音时长得到第二待识别语音的字符数能够便于后续的语音输入操作。

步骤S104，若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数，则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容。

在本实施例中，第一语音内容的子语音内容为第一个字符和最后一个字符均存在于第一语音内容中的语音内容和/或与第一语音内容中字符相同的字符数量大于预设阈值的语音内容。通过判断与第二待识别语音相对应的第二语音内容是否为第一语音内容的子语音内容，能够对是否直接输出第一语音内容进行判断，从而降低了需要用户反复确定语音内容是否正确的现象发生，有效地提高了语音输入的效率。

在另一具体应用场景中，用户A通过唤醒词（“输入”）输入为“导航去格兰云天酒店”的语音，在经过语音识别模型的识别，向用户展示语音内容“导航去格兰酒店”，由于识别的语音内容“导航去格兰酒店”是错误的，此时用户A再次输入“去格兰云天酒店”，由于用户A再次输入“去格兰云天酒店”的语音内容中包含“去”和“店”，从而判定用户A再次输入“去格兰云天酒店”的语音内容为用户上一次输入的语音内容的子语音内容，从而将用户上一次的语音内容替换为“导航去格兰云天酒店”。

再有，用户A通过唤醒词（“输入”）输入为“导航去格兰云天酒店”的语音，在经过语音识别模型的识别，向用户展示语音内容“导航去格兰酒店”，由于识别的语音内容“导航去格兰酒店”是错误的，此时用户A再次输入“胜利路格兰云天酒店”，由于用户A再次输入“胜利路格兰云天酒店”的语音内容中与用户A上一次的语音内容的“去格兰酒店”相同的字符为5个，大于预设阈值4个，从而判定用户A再次输入“胜利路格兰云天酒店”的语音内容为用户上一次输入的语音内容的子语音内容，从而将用户上一次的语音内容替换为“导航去胜利路格兰云天酒店”。

在一些可选的实施例中，若第二待识别语音的字符数大于第一待识别语音的字符数，则直接输出与第一待识别语音相对应的第一语音内容。

由于第二待识别语音的字符数大于第一待识别语音的字符数，能够说明第二待识别语音的目的与第一待识别语音的目的不相同，可直接确定第一待识别语音的识别为正确。

例如，在采用语音输入文章的应用场景中，若某一短句的识别为正确时，可直接语音输入下一句，若某一短句的识别为不正确时，针对短句错误部分进行语音输入正确词汇，从而对某一短句进行替换。

具体地，某一短句语音为“今天天气晴转阴”，若识别的语音内容为“今天天气晴转阴”，此时用户语音输入下一句语音为“小明和同学在户外进行了钓鱼活动”，从而默认识别的语音内容为“今天天气晴转阴”正确，无需用户再次确认；若识别的语音内容为“今天天气晴转雨”，此时用户语音输入下一句语音为“晴转阴”，由于“晴转阴”中两个字符与上一句识别的字符相同，从而认为“晴转阴”为“今天天气晴转雨”的子语音内容，从而最终将语音内容替换为“今天天气晴转阴”。

步骤S105，若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容，则基于所述第二语音内容对所述第一语音内容进行更新，并输出更新后的第一语音内容。

在本实施例中，若与第二待识别语音相对应的第二语音内容为所述第一语音内容的子语音内容，则基于第二语音内容对第一语音内容进行更新，并输出更新后的第一语音内容。

若与第二待识别语音相对应的所述第二语音内容不为第一语音内容的子语音内容，则直接输出与第一待识别语音相对应的第一语音内容。

例如，某一短句语音为“今天天气晴转阴”，若识别的语音内容为“今天天气晴转阴”，此时用户语音输入下一句语音为“时间为上午”，由于“时间为上午”不为“今天天气晴转阴”的子语音内容，从而默认识别的语音内容为“今天天气晴转阴”正确。

综上，本申请的方法，采用不同的语音识别模型对不同字符数的输入语音进行识别，实现了不同语速的语音适用于不同的语音识别模型，解决了对于一部分语速快的用户，采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别的问题；并且在语音输入过程中，通过判断第二待识别语音的字符数是否大于第一待识别语音的字符数以及判断与第二待识别语音相对应的第二语音内容是否为第一语音内容的子语音内容，能够对语音内容是否正确进行默认判断，从而提高了语音输入的效率。

请参阅图2，其示出了本申请的一种语音输入***的结构框图。

如图2所示，语音输入***200，包括获取模块210、分析模块220、第一判断模块230、第二判断模块240以及更新模块250。

其中，获取模块210，配置为在接收到第一语音输入指令时，获取用户输入的第一待识别语音，并提取所述第一待识别语音中的第一语音特征信息，其中，所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息；分析模块220，配置为根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数，并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容；第一判断模块230，配置为在接收到第二语音输入指令时，获取用户输入的第二待识别语音，并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数；第二判断模块240，配置为若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数，则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容，其中，所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容；更新模块250，配置为若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容，则基于所述第二语音内容对所述第一语音内容进行更新，并输出更新后的第一语音内容。

应当理解，图2中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图2中的诸模块，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序指令被处理器执行时，使所述处理器执行上述任意方法实施例中的语音输入方法；

作为一种实施方式，本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令设置为：

在接收到第一语音输入指令时，获取用户输入的第一待识别语音，并提取所述第一待识别语音中的第一语音特征信息，其中，所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息；

根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数，并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容；

在接收到第二语音输入指令时，获取用户输入的第二待识别语音，并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数；

若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数，则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容，其中，所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容；

若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容，则基于所述第二语音内容对所述第一语音内容进行更新，并输出更新后的第一语音内容。

计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据语音输入***的使用所创建的数据等。此外，计算机可读存储介质可以包括高速随机存取存储器，还可以包括存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音输入***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图3是本发明实施例提供的电子设备的结构示意图，如图3所示，该设备包括：一个处理器310以及存储器320。电子设备还可以包括：输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图3中以通过总线连接为例。存储器320为上述的计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音输入方法。输入装置330可接收输入的数字或字符信息，以及产生与语音输入***的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述电子设备可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音输入***中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音输入方法，其特征在于，包括：

2.根据权利要求1所述的一种语音输入方法，其特征在于，在根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数之前，所述方法还包括：

判断所述第一待识别语音中是否存在无义语音段，其中，所述无义语音段包括空白语音段和拖长音语音段；

若所述第一待识别语音中存在无义语音段，则基于所述无义语音段的起始时间和终止时间去除所述第一待识别语音中的所述无义语音段，并重新拼接成仅包含有义语音段的第一目标待识别语音；

获取所述第一目标待识别语音中的第一语速信息和第一目标待识别语音的所述语音时长。

3.根据权利要求1所述的一种语音输入方法，其特征在于，所述基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容，包括：

基于不同字符数的训练语音以及与所述训练语音相对应的训练语音内容对神经网络模型进行训练，得到至少一个语音识别模型，其中，一个语音识别模型用于识别字符数在一字符数范围的训练语音；

根据所述第一待识别语音的字符数选取与所述字符数相对应的某一语音识别模型；

根据所述某一语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容。

4.根据权利要求1所述的一种语音输入方法，其特征在于，在所述判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之前，所述方法还包括：

判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同；

若所述第二待识别语音中的第二声纹信息与所述第一声纹信息相同，则基于所述第一语速信息以及所述第二待识别语音的语音时长得到所述第二待识别语音的字符数。

5.根据权利要求4所述的一种语音输入方法，其特征在于，在判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同，之后，所述方法还包括：

若所述第二待识别语音中的第二声纹信息与所述第一声纹信息不相同，则直接输出与所述第一待识别语音相对应的第一语音内容。

6.根据权利要求1所述的一种语音输入方法，其特征在于，在判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之后，所述方法还包括：

若所述第二待识别语音的字符数大于所述第一待识别语音的字符数，则直接输出与所述第一待识别语音相对应的第一语音内容。

7.一种语音输入***，其特征在于，包括：

获取模块，配置为在接收到第一语音输入指令时，获取用户输入的第一待识别语音，并提取所述第一待识别语音中的第一语音特征信息，其中，所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息；

分析模块，配置为根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数，并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析，得到与所述第一待识别语音相对应的第一语音内容；

第一判断模块，配置为在接收到第二语音输入指令时，获取用户输入的第二待识别语音，并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数；

第二判断模块，配置为若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数，则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容，其中，所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容；

更新模块，配置为若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容，则基于所述第二语音内容对所述第一语音内容进行更新，并输出更新后的第一语音内容。

8.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述的方法。