WO2021128967A1

WO2021128967A1 - 语音识别修正方法、装置和存储介质

Info

Publication number: WO2021128967A1
Application number: PCT/CN2020/115375
Authority: WO
Inventors: 张毅; 李宝洁; 韦泽垠; 孙铭
Original assignee: 深圳Tcl数字技术有限公司
Priority date: 2019-12-24
Filing date: 2020-09-15
Publication date: 2021-07-01
Also published as: CN111009247A; CN111009247B

Abstract

一种语音识别修正方法，包括：（S100）在语音识别过程中，监测到用户删除语音识别结果时，获取用户重新输入的语音信息；（S200）对语音信息进行大数据比对，获取语音信息对应的语音识别结果序列；（S300）将语音识别结果序列按照预设规则进行显示。同时，涉及一种语音识别修正装置及计算机可读存储介质。

Description

语音识别修正方法、装置和存储介质

本申请要求于2019年12月24日提交中国专利局、申请号为201911352576.3、发明名称为“语音识别修正方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及电视语音交互领域，尤其涉及一种语音识别修正方法、装置和计算机可读存储介质。

背景技术

语音识别（Automatic Speech Recognition, ASR）是指将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术目前已应用到越来越多的行业当中，例如家电、通信、汽车电子、医疗、家庭服务、消费电子产品等。

但是，语音识别是一种依靠计算机深度学习的识别技术方法，因此，在语音识别的过程中，往往会因为用户的口音和计算机的的技术限制等原因，产生语音识别错误的问题，导致无法准确识别出用户想要表达的语音信息。

技术解决方案

本申请的主要目的在于提供一种语音识别修正方法、装置和计算机可读存储介质，旨在实现在用户语音识别过程中发生错误时，对用户的语音识别结果进行修正。

为实现上述目的，本申请提供一种语音识别修正方法，所述语音识别修正方法包括以下步骤：

在语音识别过程中，监测到用户删除语音识别结果时，获取用户重新输入的语音信息；

对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列；

将所述语音识别结果序列按照预设规则进行显示。

在一实施方式中，所述将所述语音识别结果序列按照预设规则进行显示的步骤包括：

将所述语音识别结果序列中的语音识别结果按照排序依次进行显示；

监测到用户删除正在显示的语音识别结果，则获取所述语音识别结果序列中排序后一位的语音识别结果；

将所述排序后一位的语音识别结果进行显示。

将所述语音识别结果序列中的排序第一的语音识别结果进行显示；

将所述排序后一位的语音识别结果进行显示。

获取所述语音识别结果序列中排序预设个数的语音识别结果；

将所述排序预设个数的语音识别结果进行显示，以便于用户进行选择。

自动识别为排序第一的词汇；

如果自动识别出错，则当用户第三次语音输入后，自动识别为排序后一位的词汇。

在一实施方式中，所述对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

对所述语音信息进行大数据比对，获得所述语音信息进行语音识别后的语音识别结果集合；

对所述语音识别结果集合按照使用次数进行排序，获得所述语音信息对应的语音识别结果序列。

获取当前设备的地址信息；

根据所述地址信息确定所述语音信息的大数据比对区域；

对所述语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列。

在一实施方式中，所述获取当前设备的地址信息的步骤包括：

获取当前设备的IP地址；

根据所述IP地址确定当前设备的地址信息。

在一实施方式中，所述对所述语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果集合；

对所述语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列。

在一实施方式中，所述对所述语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列的步骤包括：

获取所述语音识别结果集合中每一项语音识别结果的矩阵值；

对所述矩阵值进行符串扫描，获得矩阵最后值；

确定所述矩阵最后值大于预设阈值后，根据矩阵最后值对所述语音识别结果进行排序。

此外，为实现上述目的，本申请还提供一种语音识别修正装置，所述语音识别修正装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别修正程序，所述语音识别修正程序被所述处理器执行时实现如上所述的语音识别修正方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别修正程序，所述语音识别修正程序被处理器执行时实现上述的语音识别修正方法的步骤。

本申请提供一种语音识别修正方法、装置和计算机存储介质。在该方法中，在语音识别过程中，监测到用户删除语音识别结果时，获取用户重新输入的语音信息；对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列；将所述语音识别结果序列按照预设规则进行显示。通过上述方式，本申请能在用户语音识别过程中，监测到用户有删除语音识别结果的情况时，通过大数据对比的方式对用户语音输入的识别文字进行纠错，减少用户的语音重复次数，提升用户语音交互体验。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本申请语音识别修正方法第一实施例的流程示意图；

图3为本申请语音识别修正方法第二实施例的流程示意图；

图4为本申请语音识别修正方法第三实施例的流程示意图；

图5为本申请语音识别修正方法第四实施例的流程示意图；

图6为本申请语音识别修正方法第五实施例的流程示意图；

图7为本申请语音识别修正方法第六实施例的流程示意图；

图8为本申请语音识别修正方法第七实施例的流程示意图；

图9为本申请语音识别修正方法第八实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本申请的实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的装置结构示意图。

本申请实施例终端可以是PC，也可以是智能手机、平板电脑、便携计算机等具有数据处理功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

在一实施方式中，终端还可以包括摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、Wi-Fi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音识别修正程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端（用户端），与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音识别修正程序，并执行以下操作：

将所述语音识别结果序列按照预设规则进行显示。

进一步地，处理器1001可以调用存储器1005中存储的语音识别修正程序，还执行以下操作：

所述将所述语音识别结果序列按照预设规则进行显示的步骤包括：

将所述排序后一位的语音识别结果进行显示。

所述对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

一步地，处理器1001可以调用存储器1005中存储的语音识别修正程序，还执行以下操作：

获取当前设备的地址信息；

根据所述地址信息确定所述语音信息的大数据比对区域；

所述获取当前设备的地址信息的步骤包括：

获取当前设备的IP地址；

根据所述IP地址确定当前设备的地址信息。

所述对所述语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

所述对所述语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列的步骤包括：

对所述矩阵值进行符串扫描，获得矩阵最后值；

本申请语音识别修正设备的具体实施例与下述语音识别修正方法各实施例基本相同，在此不作赘述。

参照图2，图2为本申请语音识别修正方法第一实施例的流程示意图，所述语音识别修正方法包括：

步骤S100，在语音识别过程中，监测到用户删除语音识别结果时，获取用户重新输入的语音信息；

在本实施例中，用户在电视上进行语音交互的过程中，使用语音识别，如果监测到用户对语音识别结果进行了删除，则说明此时语音识别结果为错误的，如果此时，反复的进行语音识别的操作，可能还是会出现相同的识别结果，导致无法识别出用户真正的语音文字。因此，本方案就是对该情况进行修正，提供一种语音识别修正方法。在用户语音识别的过程中，监测到用户删除语音识别结果，则获取用户重新输入的语音信息，当然也可以获取用户上次输入的语音信息作为用户新输入的语音信息。

步骤S200，对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列；

在获取语音信息后，对语音信息进行大数据比对识别，获得对应的语音识别结果序列，对语音信息进行识别，识别结果一般是多个的，根据大数据情况，如使用次数多少，地区区域使用情况等进行排序，可以获得对应的语音识别结果序列。

步骤S300，将所述语音识别结果序列按照预设规则进行显示。

在获得语音识别结果序列后，将语音识别结果序列按照预设规则进行显示。具体地，可以将语音识别结果序列选取预设前几位，将预设前几位的语音识别结果显示在电视上，供用户进行选择；当然，也可以将语音识别结果中的首位直接进行显示，若用户进行删除，则将第二位进行显示，以此类推，直到用户没有进行删除为止。当然，还可以按照其他预设规则进行显示。

请参阅图3，图3为本申请语音识别修正方法第二实施例的流程示意图。

基于上述实施例，本实施例中，步骤S300包括：

步骤S310，将所述语音识别结果序列中的语音识别结果按照排序依次进行显示；

在本实施例中，在获取到语音识别结果序列后，可以将语音识别结果序列中的语音识别结果按照序列依次进行显示。如显示第一位，发现用户删除第一位后，显示第二位等，依此类推。确定用户没有删除后，修正成功。

步骤S320，监测到用户删除正在显示的语音识别结果，则获取所述语音识别结果序列中排序后一位的语音识别结果；

在监测到用户删除正在显示的语音识别结果后，获取排序后一位的语音识别结果，如用户删除正在显示的语音识别结果序列中排序第一的语音识别结果，则获得排序第二的语音识别结果。

步骤S330，将所述排序后一位的语音识别结果进行显示。

在获取排序后一位的语音识别结果后，将排序后一位的语音识别结果进行显示，如获得排序第二的语音识别结果后，将排序第二的语音识别结果进行显示。通过这种方式，可以依次让用户进行选择，不需进行多余按键，具有便捷性。

请参阅图4，图4为本申请语音识别修正方法第三实施例的流程示意图。

基于上述实施例，本实施例中，步骤S300包括：

步骤S340，获取所述语音识别结果序列中排序预设个数的语音识别结果；

在本实施例中，在获取到语音识别结果序列后，还可以直接获取语音识别结果序列中排序预设个数的语音识别结果，如语音识别序列中排序前10的语音识别结果。

步骤S350，将所述排序预设个数的语音识别结果进行显示，以便于用户进行选择。

在获取排序预设个数的语音识别结果后，将排序预设个数的语音识别结果进行显示，以便于用户进行选择。这样显示预设个数的识别结果，用于用户进行选择，可以大大提高选择的正确率，提高语音识别效率。具体地，将最常用的top 10个词汇推送到设备端，按照概率高低进行排序，由用户选择正确的词汇。或者自动识别为排序第一的词汇，如果自动识别仍然出错，则当用户第三次语音输入，则自动识别为排序第二的词汇，以此类推。

请参阅图5，图5为本申请语音识别修正方法第四实施例的流程示意图。

基于上述实施例，本实施例中，步骤S200包括：

步骤S210，对所述语音信息进行大数据比对，获得所述语音信息进行语音识别后的语音识别结果集合；

在本实施例中，对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列，可以通过对所述语音信息进行大数据比对，获得所述语音信息进行语音识别后的语音识别结果集合。对语音信息进行大数据比对识别，可以获得过个识别结果，这些语音识别结果构成一个语音识别结果集合，包含了所以该语音识别结果的可能。

步骤S220，对所述语音识别结果集合按照使用次数进行排序，获得所述语音信息对应的语音识别结果序列。

在获得语音识别结果集合后，对语音识别结果集合按照使用次数进行排序，可以获得语音信息对应的语音识别结果序列。如按照使用次数的多少来排序。

请参阅图6，图6为本申请语音识别修正方法第五实施例的流程示意图。

基于上述实施例，本实施例中，步骤S200包括：

步骤S230，获取当前设备的地址信息；

在本实施例中，对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列，还可以先获取当前设备的地址信息。如当前设备位于哪个省份、哪个国家，哪个行政地区等。

步骤S240，根据所述地址信息确定所述语音信息的大数据比对区域；

在获取地址信息后，可以根据地址信息确定语音信息的大数据比对区域，如地址信息为长沙，则大数据比对区域为湖南等。

步骤S250，对所述语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列。

在确定语音信息的大数据比对区域后，可以对语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列。如在湖南区域内，对语音信息进行语音识别结果的排序，获得语音识别结果序列。具体地，服务器端记录用户的行为，将用户重复输入的词汇进行大数据对比，通过距离算法，搜索到该语音识别最常用的top 10个词汇。同时，还可以根据用户电视的IP地址，定位用户的地理位置，根据地理位置确定大数据搜索区域，如地理位置显示福建，则在福建范围内搜索语音识别率最高的词汇，获得语音识别结果序列。

请参阅图7，图7为本申请语音识别修正方法第六实施例的流程示意图。

基于上述实施例，本实施例中，步骤S230包括：

步骤S231，获取当前设备的IP地址；

在本实施例中，获得当前设备的地址信息，可以通过获取当前设备的IP地址获得，IP地址为用户连接网络时分配的使用地址，根据该地址可以确定用户的地址信息。

步骤S232，根据所述IP地址确定当前设备的地址信息。

在获得IP地址后，可以根据IP地址确定当前设备的地址信息，如查找IP地址分配表获得当前设备的地址信息。

请参阅图8，图8为本申请语音识别修正方法第七实施例的流程示意图。

基于上述实施例，本实施例中，步骤S250包括：

步骤S251，对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果集合；

在本实施例中，对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列，可以通过对所述语音信息进行大数据比对，获得所述语音信息进行语音识别后的语音识别结果集合。对语音信息进行大数据比对识别，可以获得各个识别结果，这些语音识别结果构成一个语音识别结果集合，包含了所有该语音识别结果的可能。

步骤S252，对所述语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列。

在获得语音识别结果集合后，将语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列。预设距离算法为一种计算机算法，具体如下所述：1.str1或str2的长度为0返回另一个字符串的长度。 if(str1.length==0) return str2.length; if(str2.length==0) return str1.length；2.初始化(n+1)*(m+1)的矩阵d，并让第一行和列的值从0开始增长。3.扫描两字符串（n*m级的），如果：str1[i] == str2[j]，用temp记录它，为0。否则temp记为1。然后在矩阵d[i,j]赋于d[i-1,j]+1 、d[i,j-1]+1、d[i-1,j-1]+temp三者的最小值。4.扫描完后，返回矩阵的最后一个值d[n][m]即是它们的距离。当距离大于某个值，则认为不相关，进一步对特征标签的相关性进行计算。

请参阅图9，图9为本申请语音识别修正方法第八实施例的流程示意图。

基于上述实施例，本实施例中，步骤S252包括：

步骤S2521，获取所述语音识别结果集合中每一项语音识别结果的矩阵值；

在本实施例汇总，按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列，可以先获取语音识别结果集合中每一项语音识别结果的矩阵值，该矩阵值能反应语音识别结果集合中每一项语音识别结果的相关特征。

步骤S2522，对所述矩阵值进行符串扫描，获得矩阵最后值；

在获得矩阵值后，对矩阵值进行符串扫描，获得矩阵最后值。即对矩阵值进行符串扫描，获得一个计算结果，或扫描结果，这个计算结果或扫描结果为一最后的数值，该数值能反应语音识别结果集合中每一项语音识别结果的距离值。

步骤S2523，确定所述矩阵最后值大于预设阈值后，执行步骤S2524：根据矩阵最后值对所述语音识别结果进行排序。

在获得矩阵最后值后，将矩阵最后值与预设阈值进行比较，确定矩阵最后值大于预设阈值后，可以将大于预设阈值的矩阵最后值对应的语音识别结果按照矩阵最后值的大小进行排序，获得语音识别结果序列。确定矩阵最后值小于预设阈值后，直接将该语音识别结果排除。

此外，本申请实施例还提出一种计算机可读存储介质。

本申请计算机可读存储介质上存储有语音识别修正程序，所述语音识别修正程序被处理器执行时实现如上所述的语音识别修正方法的步骤。

其中，在所述处理器上运行的语音识别修正程序被执行时所实现的方法可参照本申请语音识别修正方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种语音识别修正方法，其中，所述语音识别修正方法包括以下步骤：

在语音识别过程中，监测到用户删除语音识别结果后，获取用户重新输入的语音信息；

对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列；

将所述语音识别结果序列按照预设规则进行显示。
如权利要求1所述的语音识别修正方法，其中，所述将所述语音识别结果序列按照预设规则进行显示的步骤包括：

将所述语音识别结果序列中的语音识别结果按照排序依次进行显示；

监测到用户删除正在显示的语音识别结果，则获取所述语音识别结果序列中排序后一位的语音识别结果；

将所述排序后一位的语音识别结果进行显示。
如权利要求1所述的语音识别修正方法，其中，所述将所述语音识别结果序列按照预设规则进行显示的步骤包括：

将所述语音识别结果序列中的排序第一的语音识别结果进行显示；

监测到用户删除正在显示的语音识别结果，则获取所述语音识别结果序列中排序后一位的语音识别结果；

将所述排序后一位的语音识别结果进行显示。
如权利要求1所述的语音识别修正方法，其中，所述将所述语音识别结果序列按照预设规则进行显示的步骤包括：

获取所述语音识别结果序列中排序预设个数的语音识别结果；

将所述排序预设个数的语音识别结果进行显示，以便于用户进行选择。
如权利要求4所述的语音识别修正方法，其中，所述将所述语音识别结果序列按照预设规则进行显示的步骤包括：

自动识别为排序第一的词汇；

如果自动识别出错，则当用户第三次语音输入后，自动识别为排序后一位的词汇。
如权利要求1所述的语音识别修正方法，其中，所述对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

对所述语音信息进行大数据比对，获得所述语音信息进行语音识别后的语音识别结果集合；

对所述语音识别结果集合按照使用次数进行排序，获得所述语音信息对应的语音识别结果序列。
如权利要求1所述的语音识别修正方法，其中，所述对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

获取当前设备的地址信息；

根据所述地址信息确定所述语音信息的大数据比对区域；

对所述语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列。
如权利要求5所述的语音识别修正方法，其中，所述获取当前设备的地址信息的步骤包括：

获取当前设备的IP地址；

根据所述IP地址确定当前设备的地址信息。
如权利要求5所述的语音识别修正方法，其中，所述对所述语音信息在所述大数据比对区域内进行大数据比对，获取所述语音信息对应的语音识别结果序列的步骤包括：

对所述语音信息进行大数据比对，获取所述语音信息对应的语音识别结果集合；

对所述语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列。
如权利要求7所述的语音识别修正方法，其中，所述对所述语音识别结果集合按照预设距离算法进行排序，获得所述语音信息对应的语音识别结果序列的步骤包括：

获取所述语音识别结果集合中每一项语音识别结果的矩阵值；

对所述矩阵值进行符串扫描，获得矩阵最后值；

确定所述矩阵最后值大于预设阈值后，根据矩阵最后值对所述语音识别结果进行排序。
一种语音识别修正装置，其中，所述语音识别修正装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别修正程序，所述语音识别修正程序被所述处理器执行时实现如权利要求1至10中任一项所述语音识别修正方法的步骤。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有语音识别修正程序，所述语音识别修正程序被处理器执行时实现如权利要求1至10中任一项所述语音识别修正方法的步骤。