CN110970030A

CN110970030A - 一种语音识别转换方法及***

Info

Publication number: CN110970030A
Application number: CN201911260985.0A
Authority: CN
Inventors: 蔡志成
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-07

Abstract

本发明公开一种语音识别转换方法，包括如下步骤：获取语音数据，对语音数据进行语音识别生成待输出文本信息；对待输出文本信息进行转换分析，获取待转换文本；对待转换文本进行转换条件判断，根据判断结果对待输出文本信息进行处理，生成识别结果输出。本发明还公开了语音识别转换***，根据本发明公开的方法和***，可以使得识别结果更加人性化，增加了用户的语音交互体验感。

Description

一种语音识别转换方法及***

技术领域

本发明涉及语音识别技术领域，特别是一种语音识别转换方法及***。

背景技术

当前国内语音技术行业的语音识别转文本均为汉语中文,所有的声音转出为的文本均为中文,包括数字识别转出的也是中文,如此便造成了许多困扰,。例如当用户说出一串数字相关的语句时,经过语音识别后反馈出的是一串中文数字,这样就大大的影响了用户体验。

发明内容

为了解决上述问题，发明人构思通过对获取的语音信息进行识别后，对识别结果的解析方式做出改进，对识别结果中的汉字种类进行分析，并结合语境，智能化的将汉字类型转换为数字类型，使得识别结果更加人性化，增加了用户的语音交互体验感。

根据本发明的一个方面，提供了一种语音识别转换方法，包括如下步骤：获取语音数据，对语音数据进行语音识别生成待输出文本信息；对待输出文本信息进行转换分析，获取待转换文本；对待转换文本进行转换条件判断，根据判断结果对待输出文本信息进行处理，生成识别结果输出。通过将获取的转换文本进行判断，得出可以更加符合用户对话场景的文本类型，由此可以增加用户的语音交互体验感，克服了现有技术中仅根据语音输入直接得到文本，对于一些需要特殊处理的特定场景如数字特征明显的语句，并不方便用户进行阅读的问题。

在一些实施方式中，对待输出文本信息进行转换分析，获取待转换文本实现为：对待输出文本信息的内容进行关键字筛查，获取包含有汉语数字的文本信息作为待转换文本。通过关键字定位文本的类型，不仅精确且实现方式简单，解决了现有技术文本转换单一的问题，尤其能够解决数字特征明显的语音识别结果仍以汉语数字形式展示所导致的用户体验差等问题。

在一些实施方式中，对待转换文本进行转换条件判断，根据判断结果对待输出文本信息进行处理，生成识别结果输出包括如下步骤：根据待转换文本的汉语数字内容和数字类型对待转换文本进行转换条件判断，根据判断结果，将符合转换条件的待转换文本转换为对应的***数字内容，并用转换后的***数字内容替换待输出文本信息中的待转换文本内容，生成识别结果输出；或对不符合转换条件的待转换文本，则将待输出文本信息作为识别结果输出。在对待输出的文本信息处理时，将文本内容根据转换条件进行提取，获取***数字内容，并将该***内容自动的替换原位置，从而可以自动化的实现文本自适应的转换，且能够提高转换的准确率，使其能够真正符合场景需求，大大的提高了用户的体验感。

在一些实施方式中，符合转换条件的待转换文本的数字类型包括日期类型、浮点型、整数型、电话号码和百分比。由此，可以实现对多种数字类型进行转换，符合用户的多种语境需求。

在一些实施方式中，根据所述待转换文本的汉语数字内容和数字类型对所述待转换文本进行转换条件判断实现为包括：预先配置数字类型转换库存储，其中，数字类型转换库中包括有数字类型、该数字类型对应的表达形态、以及转换方式；将待转换文本的汉语数字内容分别与数字类型转换库中的表达形态进行匹配，确定数字类型；根据确定的数字类型获取对应的转换方式，基于转换方式对所述待转换文本是否符合转换条件进行判断。其中，数字类型、对应的表达形态和转换方式可以根据用户需求来进行配置，也可以根据用户习惯来进行配置，这样就能够通过对待转换文本进行表达形态的判断，从而确定其所属的数字类型，然后结合每种数字类型的表达需求和习惯，来结合转换方式进行转换，从而使得转换结果能够更好地符合用户需求和用户阅读习惯，大幅提高语音识别输出文本的灵活性和适用性，提高用户体验。

根据本发明的另一个方面，提供了一种语音识别转换***，包括：信息获取模块，用于获取当前的语音数据，对语音数据进行语音识别生成文本信息；第一转换模块，用于对文本信息进行转换分析，获取待转换文本；第二转换模块，用于对待转换文本进行转换条件判断，根据判断结果对待输出文本信息进行处理，生成识别结果输出。通过第一转换模块获取文本后，再通过第二转换模块将获取的转换文本进行判断，得出可以更加符合用户对话语境的文本类型，由此可以增加用户的语音交互体验感，克服了现有技术中仅根据语音输入直接得到文本，对于一些需要特殊处理的特定场景如数字特征明显的语句，并不方便用户进行阅读的问题。

在一些实施方式中，第一转换模块用于根据文本信息的内容进行关键字筛查，获取包含有汉语数字的文本信息作为待转换文本。通过关键字定位文本的类型，不仅精确且实现方式简单，解决了现有技术文本转换单一的问题，尤其能够解决数字特征明显的语音识别结果仍以汉语数字形式展示所导致的用户体验差等问题。

在一些实施方式中，第二转换模块包括：判断单元，用于对第一转换结果进行转换条件判断，输出符合转换条件的判断结果至下述第一转换输出单元，或输出不符合转换条件的判断结果至下述第二转换输出单元；第一转换输出单元，用于在判断结果为符合转换条件时，将符合转换条件的待转换文本转换为对应的***数字内容，将转换后的***数字内容替换待输出文本信息中的待转换文本内容，生成识别结果输出；第二转换输出单元，用于在判断结果为不符合转换条件时，将待输出文本信息作为识别结果输出。在判断单元对待输出的文本信息处理时，将文本内容根据转换条件进行提取，获取***数字内容，并将该***内容自动的替换原位置通过第一转换输出单元直接输出，从而可以自动化的实现文本自适应的转换，且能够提高转换的准确率，使其能够真正符合场景需求，大大的提高了用户的体验感。

根据本发明的另一个方面，提供了一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法的步骤。

根据本发明的又一个方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

附图说明

图1为本发明一实施方式的语音识别转换方法流程图；

图2为本发明一实施方式的语音识别转换***的原理框图；

图3为本发明一实施方式的电子设备结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一实施方式的语音识别转换方法，如图1所示，本实施例包括如下步骤：

步骤S101：获取语音数据，对语音数据进行语音识别生成待输出文本信息。在本实施例中，获取语音数据的方式通过启动语音检测装置，对用户输出的语音进行拾音。之后对接收到的用户语音通过语音识别引擎等现有技术进行语音识别，获取第一识别结果即待输出的文本信息。

步骤S102：对待输出文本信息进行转换分析，获取待转换文本。获取待输出的文本信息后，首先根据文本信息的内容进行关键字筛查，该关键字筛查是根据现有技术实现，对关键字进行自定义，例如将其设置成汉语数字的筛查条件，根据该筛查结果获取包含有汉语数字的文本信息作为待转换文本。示例性地，可以实现为利用汉字Unicode码组合形成规范的正则表达式，利用正则表达式对文本信息的内容进行关键字匹配，从而实现对待输出文本信息的初级数字筛选，找到需要进行转换的数字内容，即待转换文本。

步骤S103：对待转换文本进行转换条件判断，根据判断结果对待输出文本信息进行处理，生成识别结果输出。获取待转换文本后，首先根据待转换文本的汉语数字内容和数字类型对待转换文本进行转换条件判断，其具体可以实现为：通过预先配置数字类型转换库来进行转换条件的判断，其中，配置存储的数字类型转换库中示例性实现为包括有数字类型、该数字类型对应的表达形态、以及转换方式；这样，在获取到待转换文本后，就可以将待转换文本的汉语数字内容分别与数字类型转换库中的表达形态进行匹配，从而确定待转换文本所对应的数字类型；在确定了数字类型之后，就可以根据确定的数字类型获取对应的转换方式，对待转换文本进行判断，以确定其是不是需要进行转换，即确定其是不是符合转换条件。其中，示例性地，设置的符合转换条件的待转换文本的数字类型可以为包括日期类型、浮点型、整数型、电话号码和百分比。对每种数字类型配置的表达形态则是根据其常见表达习惯进行配置，示例性地可以为：针对百分比类型的，其表达形态配置为包括百分之、千分之、百分之零点等关键词；对于日期类型的数字类型，其表达形态可以配置为包括年月日(如二零一九年十月一日)、月日(例如七月七日,八月九号)等关键词；针对浮点型的数字类型，其表达形态可以配置为包括零点(如一百零三点四,零点八)、分之(如三分之一)等关键词；对于电话号码的数字类型，其表达形态可以配置为特定长度或特定内容的数字串(如幺零零八六)；对于整数型的数字类型，其表达形态可以配置为符合规范的正则表达式，例如包括单位数字固定表达(如一，二…九)、两位数固定表达(如二十、三十五)、三位数固定表达(如一百一、两百三十四)等。为了更精准地实现转换，还对每种数字类型配置对应的转换方式，其中，转换方式也是以符合用户习惯的方式来根据经验进行配置，示例性地针对整数(但汉语文本大于等于2的)形态还需要检索文本内数字格式段的左右上下文,根据左右上下文来判断是否符合转换条件，例如判断左右上下文是否有与转换方式中配置的明确度量单位和计量单位对应的内容,针对不适合做数字转换的则判断为不符合转换条件,如:尺、条、粒、颗、根、堆等等一些汉语单位词；而针对适合转换的则再依据场景判断是否符合转换条件，如:针对个、只、天等汉语单位词在只有两个及以上数字文本的场景下，判断为符合转换条件，其余场景判断为不符合转换条件。而例如对于浮点型的或电话号码的则对应的转换方式配置为直接转换，即直接判断为符合转换条件。

这样，就可以实现基于数字类型和汉语数字内容的结合进行判断，其中，判断条件中涉及的汉语数字内容是根据现有技术中的阅读习惯作为依据的，判断结果会比较准确也比较符合用户习惯。之后，再根据判断结果，将符合转换条件的待转换文本转换为对应的***数字内容，将转换后的***数字内容替换待输出文本信息中的待转换文本内容，生成识别结果输出。而对于不符合转换条件的待转换文本，则不进行转换，而是直接将待输出文本信息作为识别结果输出。

示例性地，当获取的待转换文本为：“我们相识有一千零四百二十天了吧”，那么结合汉语数字内容和数字类型转换库的相关配置，一般用户的阅读习惯是将汉字内容天数作为***数字更加适合阅读，则确定其是需要转换的待转换文本，就将数字类型“一千零四百二十天”转换为“1420”并将其进行相同位置的替换得到识别结果为：“我们相识有1420天了吧”。

当获取的待转换文本为：“今天这中奖率有百分之七十哦”，那么结合汉语数字内容和数字类型转换库的相关配置，一般用户的阅读习惯是将汉字内容百分比作为***数字更加适合阅读，则确定其是需要转换的待转换文本，就将数字类型“百分之七十”转换为“70％”并将其进行相同位置的替换得到识别结果为：“今天这中奖率有70％哦”。

当获取的待转换文本为：“二零零八年冰灾好严重”，那么结合汉语数字内容和数字类型转换库的相关配置，一般用户的阅读习惯是将汉字内容年月日作为***数字更加适合阅读，则确定其是需要转换的待转换文本，就将数字类型“二零零八年”转换为“2008”并将其进行相同位置的替换得到识别结果为：“2008年冰灾好严重”。

但是，对于一些基于用户的阅读习惯，不应该转换成***数字的类型，即不符合转换条件的待转换文本，则将待输出文本信息作为识别结果输出。优选地，对于含有汉语数字内容的诗词类型的内容，用户习惯上是不需要转换的，对此，可以在数字类型转换库中配置诗词类型的数字类型，并配置现有的含有数字的诗词语句，这样就可以在获取到诗词类型的待输出文本内容时，通过与数字类型转换库中的内容匹配，来判断是否是诗词以及判断是否符合转换条件。示例性的，当获取的待转换文本为：“飞流直下三千尺”，那么结合汉语数字内容，一般用户的阅读习惯是将古诗词中的数字类型作为汉字内容更加适合阅读，则确定其是不需要转换的待转换文本，就将数字类型“三千”保留，并直接输出识别结果为：“飞流直下三千尺”。

根据本实施例提供的方法，可以通过将获取的转换文本进行判断，得出可以更加符合用户对话预警的文本类型，由此可以增加用户的语音交互体验感，克服了现有技术中仅根据语音输入直接得到文本，对于一些数字特征明显的语句，并不方便用户进行阅读的问题。当然，在其他实现例中，也可以根据需求参照上述方法的构思设置筛查的关键字和配置转换库，以根据需求实现对其他特定内容的转换，本发明实施例不视为对此的限制。

图2示意性地显示了根据本发明的一实施方式的语音识别转换***框图，如图2所示，

本实施例的语音识别转换***包括：信息获取模块1、第一转换模块2和第二转换模块3。信息获取模块1用于获取当前的语音数据，对语音数据进行语音识别生成文本信息，可以实现为用于对拾音内容进行识别转换的语音识别引擎。第一转换模块2用于对文本信息进行转换分析，获取待转换文本。第二转换模块3用于对待转换文本进行转换条件判断，根据判断结果对待输出文本信息进行处理，生成识别结果输出。第一转换模块2用于根据文本信息的内容进行关键字筛查来获取待转换文件，其中，关键字筛查的对应文本可以是包含有汉语数字的正则表达式，这样筛查出的待转换文本即为包含有汉语数字的文本内容。其中，待转换文本是否符合转换条件可以通过数字类型转换库来进行相关参数配置，示例性地配置需要筛查的数字类型可以是包括日期类型、浮点型、整数型、电话号码和百分比，筛查方式可以是通过配置符合需求的正则表达式，而判断是否符合转换条件可以通过基于经验和用户习惯为各个数字类型配置转换方式来作为判断方式和判断依据。第一转换模块2和第二转换模块3的具体工作原理和处理过程可以参照上述方法部分的描述，在此不进行赘述。

其中，第二转换模块3包括判断单元301、第一转换输出单元302和第二转换输出单元303。判断单元301用于对第一转换结果进行转换条件判断，输出符合转换条件的判断结果至第一转换输出单元302，或输出不符合转换条件的判断结果至第二转换输出单元303。第一转换输出单元302用于在判断结果为符合转换条件时，将符合转换条件的待转换文本转换为对应的***数字内容，将转换后的***数字内容替换待输出文本信息中的待转换文本内容，生成识别结果输出。第二转换输出单元303用于在判断结果为不符合转换条件时，将待输出文本信息作为识别结果输出。第二转换模块3的各个单元的具体处理过程可以参照前文方法部分的描述。

根据本实施例提供的***，可以通过第一转换模块获取文本后，再通过第二转换模块将获取的转换文本进行判断，得出可以更加符合用户对话预警的文本类型，由此可以增加用户的语音交互体验感，克服了现有技术中仅根据语音输入直接得到文本，对于一些数字特征明显的语句，并不方便用户进行阅读的问题。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述语音识别转换的方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当所程序指令被计算机执行时，使计算机执行上述语音识别转换的方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被所述至少一个处理器执行，以使至少一个处理器能够执行上述语音识别转换的方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时能够执行上述语音识别转换的方法。

上述本发明实施例的语音识别转换的装置可用于执行本发明实施例的语音识别转换的方法，并相应的达到上述本发明实施例的实现语音识别转换的方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图3是本申请另一实施例提供的执行语音识别转换的方法的电子设备的硬件结构示意图，如图3所示，该设备包括：

一个或多个处理器510以及存储器520，图3中以一个处理器510为例。

执行语音识别转换的方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别转换的方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别转换的方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别转换的装置的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至语音识别转换的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与语音识别转换的装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

上述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语音识别转换的方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种语音识别转换方法，其特征在于，包括如下步骤：

获取语音数据，对所述语音数据进行语音识别生成待输出文本信息；

对所述待输出文本信息进行转换分析，获取待转换文本；

对所述待转换文本进行转换条件判断，根据判断结果对所述待输出文本信息进行处理，生成识别结果输出。

2.根据权利要求1所述的方法，其特征在于，所述对所述待输出文本信息进行转换分析，获取待转换文本实现为：

对所述待输出文本信息的内容进行关键字筛查，获取包含有汉语数字的文本信息作为待转换文本。

3.根据权利要求2所述的方法，其特征在于，对所述待转换文本进行转换条件判断，根据判断结果对所述待输出文本信息进行处理，生成识别结果输出包括如下步骤：

根据所述待转换文本的汉语数字内容和数字类型对所述待转换文本进行转换条件判断，根据判断结果，

将符合转换条件的所述待转换文本转换为对应的***数字内容，并用所述***数字内容替换所述待输出文本信息中的待转换文本内容，生成识别结果输出；或

对不符合转换条件的待转换文本，则将所述待输出文本信息作为识别结果输出。

4.根据权利要求3所述的方法，其中，符合转换条件的待转换文本的数字类型包括日期类型、浮点型、整数型、电话号码和百分比。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待转换文本的汉语数字内容和数字类型对所述待转换文本进行转换条件判断实现为包括：

预先配置数字类型转换库存储，其中，所述数字类型转换库中包括有数字类型、该数字类型对应的表达形态、以及转换方式；

将所述待转换文本的汉语数字内容分别与所述数字类型转换库中的表达形态进行匹配，确定数字类型；

根据确定的数字类型获取对应的转换方式，基于所述转换方式对所述待转换文本是否符合转换条件进行判断。

6.一种语音识别转换***，其特征在于，包括：

信息获取模块，用于获取当前的语音数据，对所述语音数据进行语音识别生成文本信息；

第一转换模块，用于对所述文本信息进行转换分析，获取待转换文本；

第二转换模块，用于对所述待转换文本进行转换条件判断，根据判断结果对所述待输出文本信息进行处理，生成识别结果输出。

7.根据权利要求5所述的***，其特征在于，所述第一转换模块用于根据文本信息的内容进行关键字筛查，获取包含有汉语数字的文本信息作为待转换文本。

8.根据权利要求5所述的***，其特征在于，所述第二转换模块包括：

判断单元，用于对所述第一转换结果进行转换条件判断，输出符合转换条件的判断结果至下述第一转换输出单元，或输出不符合转换条件的判断结果至下述第二转换输出单元；

第一转换输出单元，用于在判断结果为符合转换条件时，将符合转换条件的所述待转换文本转换为对应的***数字内容，将转换后的***数字内容替换所述待输出文本信息中的待转换文本内容，生成识别结果输出；

第二转换输出单元，用于在判断结果为不符合转换条件时，将所述待输出文本信息作为识别结果输出。

9.电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。

10.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任意一项所述方法的步骤。