CN114333828A - 用于数码产品的快速语音识别*** - Google Patents

用于数码产品的快速语音识别*** Download PDF

Info

Publication number
CN114333828A
CN114333828A CN202210218615.6A CN202210218615A CN114333828A CN 114333828 A CN114333828 A CN 114333828A CN 202210218615 A CN202210218615 A CN 202210218615A CN 114333828 A CN114333828 A CN 114333828A
Authority
CN
China
Prior art keywords
user
module
voice
text
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210218615.6A
Other languages
English (en)
Inventor
周俊太
蒋博峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen China Ark Information Industry Co ltd
Original Assignee
Shenzhen China Ark Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen China Ark Information Industry Co ltd filed Critical Shenzhen China Ark Information Industry Co ltd
Priority to CN202210218615.6A priority Critical patent/CN114333828A/zh
Publication of CN114333828A publication Critical patent/CN114333828A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及语音识别领域,且公开了用于数码产品的快速语音识别***,包括:启动模块,用于启动程序,管理程序运行,运行发送指令;录入模块,用于记录用户输出的语音数据;声纹识别模块,用于采集用户语音数据中的声纹特征,确定是否为用户本人;绑定模块,用于绑定用户登录信息,记录用户声纹特征,以解锁程序运行;转换模块,用于将用户输入的语音数据实时转换为文本数据。本发明可为用户提供在语音识别过程中进行纠错的功能,为无法识别的语音数据进行报错提醒,并且可为用户提供语句重合度较高的相似文本命令,以供用户选择,帮助用户快速操控,即使录入的不准确的语音数据,依然能够直接得出需要的指令。

Description

用于数码产品的快速语音识别***
技术领域
本发明涉及语音识别技术领域,具体为用于数码产品的快速语音识别***。
背景技术
语音识别是一门交叉学科,随着科技的发展,语音识别技术取得显著进步,开始从实验室走向市场,语音识别技术已经逐步进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面;
许多智能数码产品,也已经越来越多的运用起语音识别技术;
但是,现有的数码产品上搭载的语音识别***,常常会因为用户常用语与数据库中记录的模板文本不一致,即使意思相近,而使得识别依旧失败,用户不能对数据库中的模板文本进行自定义编辑,不能为用户提供纠错的帮助,影响用户的使用体验。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了用于数码产品的快速语音识别***,能够有效地解决现有技术数码产品上搭载的语音识别***,常常会因为用户常用语与数据库中记录的模板文本不一致,即使意思相近,而使得识别依旧失败,用户不能对数据库中的模板文本进行自定义编辑,不能为用户提供纠错的帮助,影响用户的使用体验的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明公开了用于数码产品的快速语音识别***,包括:
启动模块,用于启动程序,管理程序运行,运行发送指令;
录入模块,用于记录用户输出的语音数据;
声纹识别模块,用于采集用户语音数据中的声纹特征,确定是否为用户本人;
绑定模块,用于绑定用户登录信息,记录用户声纹特征,以解锁程序运行;
转换模块,用于将用户输入的语音数据实时转换为文本数据;
数据库模块,用于记录触发指令的文本数据,可进行写入;
检索模块,用于将转换所得的文本数据在数据库中进行搜寻,找到对应文本数据;
纠错模块,用于对检错过程中,无法准确识别的文本字句进行报错提醒;
置换选择模块,用于在语句报错时,提供语句重合度较高的相似文本命令,供用户选择;
记忆模块,用于对用户多次纠错后的选择进行记录,将纠错语句与数据库中文本正确语句进行关联记忆;
指令发送模块,用于发送最终文本对应的指令。
更进一步地,所述数据库模块通过无线网络交互连接有快捷词模块,所述快捷词模块用于编辑快捷词,以对应相关的长文本触发指令。
更进一步地,所述记忆模块与数据库模块通过无线网络交互连接,所述记忆模块记录结果实时上报数据库模块,以供用户在二次录入时,呈现记忆所得的结果。
更进一步地,所述绑定模块与录入模块通过无线网络交互连接,所述绑定模块在用户初次登入时,通过录入模块记录用户声纹特征,并上报绑定模块进行记录,解锁程序运行。
用于数码产品的快速语音识别方法,包括以下步骤:
Step1:用户录入初始语音,记录声纹特征;
Step2:用户录入快捷词替代长语音指令,在数据库文本中进行存储;
Step3:用户以特定语句唤醒语音程序;
Step4:录入语音后,语音转换为文本,在数据库文本中进行识别检索;
Step5:识别正常,按照文本进行对应指令发送;
Step6:识别异常,进行提醒,提供相近意思的文本指令选择;
Step7:用户对提供的指令选项进行选择,并确定;
Step8:记录多次纠错的语句与用户二次选择的语句,上传数据库进行记录;
Step9:指令发送完毕。
更进一步地,所述步骤Step1中的声纹特征具体表现为音质、音长、音强、音高,在提取此类特征后,获取声纹波形中反映说话人生理和行为特征的语音参数;
声纹特征在提取时,需对输入的声音信号进行处理解析,以得到一组特征描述向量,可分为听觉特征和声学特征,其中,听觉特征是指人耳可以鉴别和描述的声音特征,声学特征是指计算机算法从声音信号提取出来的一组声学描述参数;
特征提取方法包括:高斯混合模型、联合因子分析法、深度神经网络方法。
更进一步地,所述步骤Step4中的识别检索的过程包括:
对语音信号进行分析后得到语音的特征参数,然后对参数进行处理,形成标准模板;
当有语音转化的文本接入程序时,***将对语音信号进行处理,然后进行参考数据库内的模板进行匹配,得出识别结果。
更进一步地,所述步骤Step6中识别异常提醒方式包括:通过预先设定的报错语音进行播报纠错、通过发送报错文本信息进行展示提醒。
更进一步地,所述步骤Step6中相近意思的文本指令其选择的具体概念为:异常文本数据与数据库中在录的文本数据中,拼音相近的字句、文字重合度较高的字句和词语含义相近的字句。
更进一步地,所述步骤2中的语音指令录入的具有识别率,识别率指待识别的语音能够从目标说话人集合中,正确找到所对应说话人的概率,认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人,其辨认正确的比率又可称为Top-1的辨认召回率,当目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确,如此统计出来的辨认正确的比率称为Top-N辨认召回率,辨认召回率的计算公式为:
Top-N=
Figure 322561DEST_PATH_IMAGE001
其中,m=成功召回语音数;
g=测试语音数。
(三)有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
1、本发明可为用户提供在语音识别过程中进行纠错的功能,为无法识别的语音数据进行报错提醒,并且可为用户提供语句重合度较高的相似文本命令,以供用户选择,提升用户的使用体验,便于用户快速的进行语音操控。
2、本发明能够在多次纠错后,自动将被纠错的语句与数据库中的正确模板文本进行关联,方便用户在后续的使用过程中,即使录入的不准确的语音数据,依然能够直接得出需要的指令,可进行自定义编辑,将长命令定义成用户编辑好的词语。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为用于数码产品的快速语音识别***的结构示意图;
图2为用于数码产品的快速语音识别方法的结构流程示意图;
图3为本发明语音识别的演示过程示意图;
图中的标号分别代表:1、启动模块;2、录入模块;3、声纹识别模块;4、绑定模块;5、转换模块;6、数据库模块;7、快捷词模块;8、检索模块;9、纠错模块;10、置换选择模块;11、记忆模块;12、指令发送模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1
本实施例的用于数码产品的快速语音识别***,如图1所示,包括:
启动模块1,用于启动程序,管理程序运行,运行发送指令;
录入模块2,用于记录用户输出的语音数据;
声纹识别模块3,用于采集用户语音数据中的声纹特征,确定是否为用户本人;
绑定模块4,用于绑定用户登录信息,记录用户声纹特征,以解锁程序运行;
转换模块5,用于将用户输入的语音数据实时转换为文本数据;
数据库模块6,用于记录触发指令的文本数据,可进行写入;
检索模块8,用于将转换所得的文本数据在数据库中进行搜寻,找到对应文本数据;
纠错模块9,用于对检错过程中,无法准确识别的文本字句进行报错提醒;
置换选择模块10,用于在语句报错时,提供语句重合度较高的相似文本命令,供用户选择;
记忆模块11,用于对用户多次纠错后的选择进行记录,将纠错语句与数据库中文本正确语句进行关联记忆;
指令发送模块12,用于发送最终文本对应的指令。
如图1所示,所述数据库模块6通过无线网络交互连接有快捷词模块7,所述快捷词模块7用于编辑快捷词,以对应相关的长文本触发指令。
如图1所示,所述记忆模块11与数据库模块6通过无线网络交互连接,所述记忆模块11记录结果实时上报数据库模块6,以供用户在二次录入时,呈现记忆所得的结果。
如图1所示,所述绑定模块4与录入模块2通过无线网络交互连接,所述绑定模块4在用户初次登入时,通过录入模块2记录用户声纹特征,并上报绑定模块4进行记录,解锁程序运行。
本***在搭载后,用户首先通过录入模块2录入初始语音,通过声纹识别模块3识别,由绑定模块4进行记录绑定,当启动模块1唤醒启动后,用户录入语音,声纹识别模块3正常识别后,由转换模块5转换成文本数据,经由检索模块8在数据库模块6中搜寻,结果吻合后,由指令发送模块12进行对应命令的发送,当结果出现偏差时,由纠错模块9进行提醒,并由置换选择模块10提供相近意思命令的选择,用户选择后,指令发送模块12进行发送,由记忆模块11对用户纠错后的选择进行记录,上传至数据库模块6,将被纠错的文本与纠错后选择的文本进行关联,用户通过快捷词模块7进行快捷词语的编辑,将长命令转换成自定义的词语,上传数据库模块6进行保存。
实施例2
在其他层面,本实施例还提供一种用于数码产品的快速语音识别方法,如图2所示,包括以下步骤:
Step1:用户录入初始语音,记录声纹特征;
Step2:用户录入快捷词替代长语音指令,在数据库文本中进行存储;
Step3:用户以特定语句唤醒语音程序;
Step4:录入语音后,语音转换为文本,在数据库文本中进行识别检索;
Step5:识别正常,按照文本进行对应指令发送;
Step6:识别异常,进行提醒,提供相近意思的文本指令选择;
Step7:用户对提供的指令选项进行选择,并确定;
Step8:记录多次纠错的语句与用户二次选择的语句,上传数据库进行记录;
Step9:指令发送完毕。
如图2所示,所述步骤Step1中的声纹特征具体表现为音质、音长、音强、音高,在提取此类特征后,获取声纹波形中反映说话人生理和行为特征的语音参数;
声纹特征在提取时,需对输入的声音信号进行处理解析,以得到一组特征描述向量,可分为听觉特征和声学特征,其中,听觉特征是指人耳可以鉴别和描述的声音特征,声学特征是指计算机算法从声音信号提取出来的一组声学描述参数;
特征提取方法包括:高斯混合模型、联合因子分析法、深度神经网络方法。
如图2所示,所述步骤Step4中的识别检索的过程包括:
对语音信号进行分析后得到语音的特征参数,然后对参数进行处理,形成标准模板;
当有语音转化的文本接入程序时,***将对语音信号进行处理,然后进行参考数据库中的模板进行匹配,得出识别结果。
如图2所示,所述步骤Step6中识别异常提醒方式包括:通过预先设定的报错语音进行播报纠错、通过发送报错文本信息进行展示提醒。
如图2所示,所述步骤Step6中相近意思的文本指令其选择的具体概念为:异常文本数据与数据库中在录的文本数据中,拼音相近的字句、文字重合度较高的字句和词语含义相近的字句。
如图2所示,所述步骤2中的语音指令录入的具有识别率,识别率指待识别的语音能够从目标说话人集合中,正确找到所对应说话人的概率,认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人,其辨认正确的比率又可称为Top-1的辨认召回率,当目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确,如此统计出来的辨认正确的比率称为Top-N辨认召回率,辨认召回率的计算公式为:
Top-N=
Figure 186611DEST_PATH_IMAGE001
其中,m=成功召回语音数;
g=测试语音数。
实施例3
本实例中,如图3所示,语音输入过程中,特征提取需要先进行,如预加重,在音频录制过程中,高频信号更容易衰减,而像元音等一些因素的发音包含了较多的高频信号的成分,高频信号的丢失,可能会导致音素的共振峰并不明显,使得声学模型对这些音素的建模能力不强。预加重是个一阶高通滤波器,可以提高信号高频部分的能量,接着,分帧,语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、时不变的。这个短时间一般取10-30ms,因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧,帧长一般取25ms。为了使帧与帧之间平滑过渡,保持其连续性,分帧一般采用交叠分段的方法,保证相邻两帧相互重叠一部分。相邻两帧的起始位置的时间差称为帧移,一般在使用中帧移取值为10ms;
因为后面会对信号做FFT,而FFT变换的要求为:信号要么从-∞到+∞,要么为周期信号。现实世界中,不可能采集时间从 -∞ 到 +∞ 的信号,只能是有限时间长度的信号。由于分帧后的信号是非周期的,进行 FFT 变换之后会有频率泄露的问题发生,为了将这个泄漏误差减少到最小程度,需要使用加权函数,也叫窗函数。加窗主要是为了使时域信号似乎更好地满足 FFT 处理的周期性要求,减少泄漏。
声学模型是对发声的建模,它能够把语音输入转换成声学表示的输出,给出语音属于某个声学符号的概率;
语言模型表示某一字序列发生的概率,是对一组字序列构成的知识表示。它的作用之一为消解多音字的问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列;
给定输入特征序列的情况下,在由声学模型、发音词典和语言模型等知识源组成的搜索空间中,通过一定的搜索算法,寻找使概率最大的词序列,完成解码,最后文字输出。
综上所述,本发明可为用户提供在语音识别过程中进行纠错的功能,为无法识别的语音数据进行报错提醒,并且可为用户提供语句重合度较高的相似文本命令,以供用户选择,能够在多次纠错后,自动将被纠错的语句与数据库中的正确模板文本进行关联,在后续的使用过程中,即使录入的不准确的语音数据,依然能够直接得出需要的指令,可进行自定义编辑,将长命令定义成用户编辑好的词语。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.用于数码产品的快速语音识别***,其特征在于,包括:
启动模块(1),用于启动程序,管理程序运行,运行发送指令;
录入模块(2),用于记录用户输出的语音数据;
声纹识别模块(3),用于采集用户语音数据中的声纹特征,确定是否为用户本人;
绑定模块(4),用于绑定用户登录信息,记录用户声纹特征,以解锁程序运行;
转换模块(5),用于将用户输入的语音数据实时转换为文本数据;
数据库模块(6),用于记录触发指令的文本数据,可进行写入;
检索模块(8),用于将转换所得的文本数据在数据库中进行搜寻,找到对应文本数据;
纠错模块(9),用于对检错过程中,无法准确识别的文本字句进行报错提醒;
置换选择模块(10),用于在语句报错时,提供语句重合度较高的相似文本命令,供用户选择;
记忆模块(11),用于对用户多次纠错后的选择进行记录,将纠错语句与数据库中文本正确语句进行关联记忆;
指令发送模块(12),用于发送最终文本对应的指令。
2.根据权利要求1所述的用于数码产品的快速语音识别***,其特征在于:所述数据库模块(6)通过无线网络交互连接有快捷词模块(7),所述快捷词模块(7)用于编辑快捷词,以对应相关的长文本触发指令。
3.根据权利要求1所述的用于数码产品的快速语音识别***,其特征在于:所述记忆模块(11)与数据库模块(6)通过无线网络交互连接,所述记忆模块(11)记录结果实时上报数据库模块(6),以供用户在二次录入时,呈现记忆所得的结果。
4.根据权利要求3所述的用于数码产品的快速语音识别***,其特征在于:所述绑定模块(4)与录入模块(2)通过无线网络交互连接,所述绑定模块(4)在用户初次登入时,通过录入模块(2)记录用户声纹特征,并上报绑定模块(4)进行记录,解锁程序运行。
5.用于数码产品的快速语音识别方法,所述方法是对权利要求1-4中任一项所述用于数码产品的快速语音识别***的实施方法,其特征在于,包括以下步骤:
Step1:用户录入初始语音,记录声纹特征;
Step2:用户录入快捷词替代长语音指令,在数据库文本中进行存储;
Step3:用户以特定语句唤醒语音程序;
Step4:录入语音后,语音转换为文本,在数据库文本中进行识别检索;
Step5:识别正常,按照文本进行对应指令发送;
Step6:识别异常,进行提醒,提供相近意思的文本指令选择;
Step7:用户对提供的指令选项进行选择,并确定;
Step8:记录多次纠错的语句与用户二次选择的语句,上传数据库进行记录;
Step9:指令发送完毕。
6.根据权利要求5所述的用于数码产品的快速语音识别方法,其特征在于:所述步骤Step1中的声纹特征具体表现为音质、音长、音强、音高,在提取此类特征后,获取声纹波形中反映说话人生理和行为特征的语音参数;
声纹特征在提取时,需对输入的声音信号进行处理解析,以得到一组特征描述向量,可分为听觉特征和声学特征,其中,听觉特征是指人耳可以鉴别和描述的声音特征,声学特征是指计算机算法从声音信号提取出来的一组声学描述参数;
特征提取方法包括:高斯混合模型、联合因子分析法、深度神经网络方法。
7.根据权利要求5所述的用于数码产品的快速语音识别方法,其特征在于:所述步骤Step4中的识别检索的过程包括:
对语音信号进行分析后得到语音的特征参数,然后对参数进行处理,形成标准模板;
当有语音转化的文本接入程序时,***将对语音信号进行处理,然后进行参考数据库内的模板进行匹配,得出识别结果。
8.根据权利要求5所述的用于数码产品的快速语音识别方法,其特征在于:所述步骤Step6中识别异常提醒方式包括:通过预先设定的报错语音进行播报纠错、通过发送报错文本信息进行展示提醒。
9.根据权利要求5所述的用于数码产品的快速语音识别方法,其特征在于:所述步骤Step6中相近意思的文本指令其选择的具体概念为:异常文本数据与数据库中在录的文本数据中,拼音相近的字句、文字重合度较高的字句和词语含义相近的字句。
10.根据权利要求5所述的用于数码产品的快速语音识别方法,其特征在于:所述步骤2中的语音指令录入的具有识别率,识别率指待识别的语音能够从目标说话人集合中,正确找到所对应说话人的概率,认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人,其辨认正确的比率又可称为Top-1的辨认召回率,当目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确,如此统计出来的辨认正确的比率称为Top-N辨认召回率,辨认召回率的计算公式为:
Top-N=
Figure 240285DEST_PATH_IMAGE001
其中,m=成功召回语音数;
g=测试语音数。
CN202210218615.6A 2022-03-08 2022-03-08 用于数码产品的快速语音识别*** Pending CN114333828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210218615.6A CN114333828A (zh) 2022-03-08 2022-03-08 用于数码产品的快速语音识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210218615.6A CN114333828A (zh) 2022-03-08 2022-03-08 用于数码产品的快速语音识别***

Publications (1)

Publication Number Publication Date
CN114333828A true CN114333828A (zh) 2022-04-12

Family

ID=81033021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210218615.6A Pending CN114333828A (zh) 2022-03-08 2022-03-08 用于数码产品的快速语音识别***

Country Status (1)

Country Link
CN (1) CN114333828A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117931299A (zh) * 2023-12-29 2024-04-26 北京红旗软件有限公司 一种智能Linux操作***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978964A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制指令纠错方法和***
CN106205613A (zh) * 2016-07-22 2016-12-07 深圳智眸科技有限公司 一种导航语音识别方法及***
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN108735209A (zh) * 2018-04-28 2018-11-02 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111462748A (zh) * 2019-01-22 2020-07-28 北京猎户星空科技有限公司 语音识别处理方法、装置、电子设备及存储介质
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN112349287A (zh) * 2020-10-30 2021-02-09 深圳Tcl新技术有限公司 显示设备及其控制方法、从设备及计算机可读存储介质
CN113593556A (zh) * 2021-07-26 2021-11-02 深圳市捌零零在线科技有限公司 一种车载语音操作***人机互动方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978964A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制指令纠错方法和***
CN106205613A (zh) * 2016-07-22 2016-12-07 深圳智眸科技有限公司 一种导航语音识别方法及***
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN108735209A (zh) * 2018-04-28 2018-11-02 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN111462748A (zh) * 2019-01-22 2020-07-28 北京猎户星空科技有限公司 语音识别处理方法、装置、电子设备及存储介质
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN112349287A (zh) * 2020-10-30 2021-02-09 深圳Tcl新技术有限公司 显示设备及其控制方法、从设备及计算机可读存储介质
CN113593556A (zh) * 2021-07-26 2021-11-02 深圳市捌零零在线科技有限公司 一种车载语音操作***人机互动方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117931299A (zh) * 2023-12-29 2024-04-26 北京红旗软件有限公司 一种智能Linux操作***

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及***
CN106297800B (zh) 一种自适应的语音识别的方法和设备
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
CN110782875B (zh) 一种基于人工智能的语音韵律处理方法及装置
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN112750445B (zh) 语音转换方法、装置和***及存储介质
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN114333828A (zh) 用于数码产品的快速语音识别***
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN112231440A (zh) 一种基于人工智能的语音搜索方法
US20050246172A1 (en) Acoustic model training method and system
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质
CN112133325A (zh) 错误音素识别方法及装置
Li et al. Automatic segmentation of Chinese Mandarin speech into syllable-like
CN114724547A (zh) 一种用于口音英语的识别方法及***
CN115862603B (zh) 一种歌曲语音识别方法、***、存储介质和电子设备
CN111696530B (zh) 一种目标声学模型获取方法及装置
CN113035247B (zh) 一种音频文本对齐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220412