CN103500579B - 语音识别方法、装置及*** - Google Patents

语音识别方法、装置及*** Download PDF

Info

Publication number
CN103500579B
CN103500579B CN201310470331.7A CN201310470331A CN103500579B CN 103500579 B CN103500579 B CN 103500579B CN 201310470331 A CN201310470331 A CN 201310470331A CN 103500579 B CN103500579 B CN 103500579B
Authority
CN
China
Prior art keywords
confidence
degree
candidate keywords
keyword
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310470331.7A
Other languages
English (en)
Other versions
CN103500579A (zh
Inventor
肖征荣
张丽云
贾佳
廖军
严斌峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201310470331.7A priority Critical patent/CN103500579B/zh
Publication of CN103500579A publication Critical patent/CN103500579A/zh
Application granted granted Critical
Publication of CN103500579B publication Critical patent/CN103500579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音识别方法、装置及***。该方法包括对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。本发明能够提高对语音关键词的识别速度及覆盖率。

Description

语音识别方法、装置及***
技术领域
本发明涉及通信技术,尤其涉及一种语音识别方法、装置及***。
背景技术
随着社会发展,信息安全成为各国关注的重点,特别是对音视频内容的监控,从被监控的音视频内容中检测出敏感的信息,为信息安全提供参考。
对语音数据的识别通常采用对音视频内容进行音视频分离,将分离出的语音数据转换为文本,利用文本匹配方式,在文本中匹配搜索关键词。
在现有技术中,由于先将语音数据转换为文本,然后利用文本匹配方式搜索关键词,另外没有涉及对相似关键词的搜索,导致关键词的搜索速度较慢以及关键词覆盖率较低。
发明内容
本发明提供一种语音识别方法、装置及***,以提高对语音关键词的识别速度及覆盖率。
本发明的一个方面是提供一种语音识别方法,包括:
对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
本发明的另一个方面是提供一种语音识别装置,包括:
转换模块,用于对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
匹配搜索模块,用于根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
置信度获取模块,用于获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
本发明的另一个方面是提供一种语音识别***,包括:
数据采集装置,用于实时采集音频数据;
如权利要求5-8任一所述的语音识别装置,用于对所述数据采集装置采集的音频数据进行识别,向结果显示模块发送识别后的识别结果;
结果显示模块,用于显示所述语音识别装置发送的所述识别结果。
本发明提供的语音识别方法、装置及***,利用在语音数据对应的音素图中采用动态规划算法匹配搜索关键词文本对应的音素串,提高了语音关键词的识别速度及覆盖率。
附图说明
图1为本发明实施例一提供的语音识别方法流程图;
图2为本发明实施例二提供的语音识别方法流程图;
图3为本发明实施例三提供的语音识别方法框图;
图4为本发明实施例四提供的语音识别装置结构图;
图5为本发明实施例五提供的语音识别装置结构图;
图6为本发明实施例六提供的语音识别***结构图。
具体实施方式
实施例一
图1为本发明实施例一提供的语音识别方法流程图。本发明实施例适用于基于音素图的语音关键词识别方法,将语音文件通过声学识别为音素图,将搜索关键词转换为音素串,在音素图中匹配搜索音素串,具体的语音识别过程包括:
步骤101、对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
音素是根据语音的自然属性划分出来的最小语音单位,从声学性质来看,音素是从音质角度划分出来的最小语音单位,相同发音动作发出的音是同一音素,不同发音动作发出的音是不同音素。一个语音文件包含有大量的最小语音单位,由大量连续的音素可构成音素图,采用声学识别技术可以将语音文件转换成对应的音素图,与搜索关键词对应的音素可构成音素串。
步骤102、根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
在所述音素图中匹配搜索所述音素串,获得多个与所述搜索关键词相近的候选关键词,其中所述音素串是由所述搜索关键词转换得到的,且多个候选关键词构成关键词候选列表。例如“普通话”可以分析成“p,u,t,o,n,g,h,u,a”八个音素,“putonghua”构成“普通话”的音素串,而与“putonghua”对应的关键词可以是“普通话”也可以是“普通化”,如果“普通话”为所述搜索关键词,则“普通化”是与所述搜索关键词相近的候选关键词;在音素图中搜索“putonghua”,如果存在,将与“putonghua”对应的关键词“普通话”、“普通化”作为候选关键词输出。
步骤103、获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
对关键词候选列表中的各候选关键词进行置信度计算,并与预设的置信度门限值比较,获得置信度高于预设的置信度门限值的候选关键词,以及所述候选关键词所在的语音文件标识、所述候选关键词在所述语音文件内的偏移以及所述候选关键词对应的置信度,并且由所述候选关键词所在的语音文件标识、所述候选关键词在所述语音文件内的偏移以及所述候选关键词对应的置信度构成三元组作为语音识别输出结果。
本实施例通过在语音文件对应的音素图中匹配搜索关键词对应的音素串,提高了搜索关键词的识别速度;通过对候选关键词进行置信度计算,选择置信度高于预设的置信度门限值的候选关键词,提高了搜索关键词的覆盖率。
实施例二
图2为本发明实施例二提供的语音识别方法流程图。在实施例一中,所述根据所述音素串在所述音素图中进行匹配搜索可以是在所述音素图中基于动态规划原理或基于统计知识的同步原理匹配搜索所述音素串,本实施例优选的匹配搜索方式是基于动态规划原理的音素串搜索。
如图2所示,在实施例一的基础上,通过计算各候选关键词的置信度,并与预设的置信度门限值比较,得到识别结果后,如步骤104所示,根据所述识别结果中各候选关键词的置信度,对所述识别结果进行排序,以使所述各候选关键词对应的三元组识别结果有序排列。其中,三元组中所述候选关键词在所述语音文件内的偏移以所述候选关键词距离所述语音文件开头的时间长度表示,并且精确到10毫秒。
本实施例中用于计算候选关键词置信度的方法有多种,可以是基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法,本实施例优选的方式是基于后验概率方法的置信度算法。
本实施例通过对各候选关键词依据置信度大小进行排序,使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。
实施例三
图3为本发明实施例三提供的语音识别方法框图。如图3所示,本实施例可具体采用上述实施例提供的语音识别方法,实现对语音文件的关键词识别,具体识别过程如下:
步骤301、对输入的语音文件进行声学识别;
通过声学识别技术将输入的语音文件转换成音素图。
步骤302、输入关键词文本;
输入的关键词文本是将在语音文件中搜索的关键词。
步骤303、转换成音素;
将输入的关键词文本转换成音素形成音素串。
步骤304、基于动态规划原理的音素串搜索;
在语音文件转换成的音素图中基于动态规划原理匹配搜索关键词对应的音素串,得到关键词候选列表。
步骤305、后验概率置信度计算;
对关键词候选列表中的各候选关键词依据后验概率置信度算法进行置信度计算。
步骤306、置信度门限值比较;
将各候选关键词对应的置信度与预设的置信度门限值比较,获得置信度高于预设的置信度门限值的候选关键词。
步骤307、候选关键词排序;
对多个置信度高于预设的置信度门限值的候选关键词依据置信度大小进行排序。输出如实施例一中所述的三元组识别结果,且多个三元组依据置信度大小有序排列。
本实施例通过采用上述实施例中的语音识别方法,实现了对语音文件中关键词快速全面的识别。
实施例四
图4为本发明实施例四提供的语音识别装置结构图。如图4所示,本发明实施例提供一种语音识别装置40,包括转换模块401、匹配搜索模块402和置信度获取模块403,其中,转换模块401用于对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;匹配搜索模块402用于根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;置信度获取模块403用于获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
本实施例通过在语音文件对应的音素图中匹配搜索关键词对应的音素串,提高了搜索关键词的识别速度;通过对候选关键词进行置信度计算,选择置信度高于预设的置信度门限值的候选关键词,提高了搜索关键词的覆盖率。
实施例五
图5为本发明实施例五提供的语音识别装置结构图。如图5所示,在实施例四的基础上,所述语音识别装置40还包括排序模块404,且排序模块404用于根据所述识别结果中各候选关键词的置信度,对所述识别结果进行排序。
本实施例通过对各候选关键词依据置信度大小进行排序,使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。
实施例六
图6为本发明实施例六提供的语音识别***结构图。如图6所示,本实施例提供一种语音识别***50,包括数据采集装置51、上述实施例提供的语音识别装置40和结果显示模块53,其中,数据采集装置51用于实时采集音频数据;语音识别装置40用于对所述数据采集装置51采集的音频数据进行识别,向结果显示模块53发送识别后的识别结果;结果显示模块53用于显示所述语音识别装置40发送的所述识别结果。
本实施例通过对音视频数据进行采集、处理及结果显示,实现了对音视频数据中语音数据的关键词识别,通过对语音数据采用上述实施例提供的语音识别方法,提高了关键词的搜索速度以及搜索范围。
综上所述,本发明提供的语音识别方法,通过在语音文件对应的音素图中匹配搜索关键词对应的音素串,提高了搜索关键词的识别速度;通过对候选关键词进行置信度计算,选择置信度高于预设的置信度门限值的候选关键词,提高了搜索关键词的覆盖率;通过对各候选关键词依据置信度大小进行排序,使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种语音识别方法,其特征在于,包括:
对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述识别结果中各候选关键词的置信度,对所述识别结果进行排序。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述音素串在所述音素图中进行匹配搜索,包括:
在所述音素图中基于动态规划原理或基于统计知识的同步原理匹配搜索所述音素串。
4.根据权利要求1或2所述的方法,其特征在于,所述获取各候选关键词的置信度,包括:
对所述各候选关键词依据置信度算法获得与所述候选关键词对应的置信度,所述置信度算法包括基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法。
5.一种语音识别装置,其特征在于,包括:
转换模块,用于对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
匹配搜索模块,用于根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
置信度获取模块,用于获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
排序模块,用于根据所述识别结果各候选关键词的置信度,对所述识别结果进行排序。
7.根据权利要求5或6所述的装置,其特征在于,所述匹配搜索模块采用的匹配搜索算法包括基于动态规划原理或基于统计知识的同步原理的匹配搜索算法。
8.根据权利要求5或6所述的装置,其特征在于,所述置信度获取模块采用的置信度算法包括基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法。
9.一种语音识别***,其特征在于,包括:
数据采集装置,用于实时采集音频数据;
如权利要求5-8任一所述的语音识别装置,用于对所述数据采集装置采集的音频数据进行识别,向结果显示模块发送识别后的识别结果;
结果显示模块,用于显示所述语音识别装置发送的所述识别结果。
CN201310470331.7A 2013-10-10 2013-10-10 语音识别方法、装置及*** Active CN103500579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310470331.7A CN103500579B (zh) 2013-10-10 2013-10-10 语音识别方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310470331.7A CN103500579B (zh) 2013-10-10 2013-10-10 语音识别方法、装置及***

Publications (2)

Publication Number Publication Date
CN103500579A CN103500579A (zh) 2014-01-08
CN103500579B true CN103500579B (zh) 2015-12-23

Family

ID=49865783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310470331.7A Active CN103500579B (zh) 2013-10-10 2013-10-10 语音识别方法、装置及***

Country Status (1)

Country Link
CN (1) CN103500579B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157969B (zh) * 2015-03-24 2020-04-03 阿里巴巴集团控股有限公司 一种语音识别结果的筛选方法及装置
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN108694940B (zh) * 2017-04-10 2020-07-03 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN108288468B (zh) 2017-06-29 2019-07-19 腾讯科技(深圳)有限公司 语音识别方法及装置
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN108183844B (zh) * 2018-02-06 2020-09-08 四川虹美智能科技有限公司 一种智能家电语音控制方法、装置及***
CN108615526B (zh) 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN110767214A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 语音识别方法及其装置和语音识别***
CN112185367A (zh) * 2019-06-13 2021-01-05 北京地平线机器人技术研发有限公司 关键词检测方法和装置、计算机可读存储介质、电子设备
CN111477219A (zh) * 2020-05-08 2020-07-31 合肥讯飞数码科技有限公司 关键词区分方法、装置、电子设备和可读存储介质
CN111627445B (zh) * 2020-05-26 2023-07-07 福建省海峡智汇科技有限公司 一种用于场地或人员的匹配方法和***
CN113192535B (zh) * 2021-04-16 2022-09-09 中国科学院声学研究所 一种语音关键词检索方法、***和电子装置
CN113782016B (zh) * 2021-08-06 2023-05-05 佛山市顺德区美的电子科技有限公司 一种唤醒处理方法、装置、设备和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049308A1 (en) * 2002-11-22 2004-06-10 Koninklijke Philips Electronics N.V. Speech recognition device and method
CN101447183A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 一种应用于语音识别***的高性能置信度处理方法
JP4716125B2 (ja) * 2006-08-04 2011-07-06 株式会社国際電気通信基礎技術研究所 発音評定装置、およびプログラム
CN102136001A (zh) * 2011-03-25 2011-07-27 天脉聚源(北京)传媒科技有限公司 一种多媒体信息模糊检索方法
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049308A1 (en) * 2002-11-22 2004-06-10 Koninklijke Philips Electronics N.V. Speech recognition device and method
JP4716125B2 (ja) * 2006-08-04 2011-07-06 株式会社国際電気通信基礎技術研究所 発音評定装置、およびプログラム
CN101447183A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 一种应用于语音识别***的高性能置信度处理方法
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN102136001A (zh) * 2011-03-25 2011-07-27 天脉聚源(北京)传媒科技有限公司 一种多媒体信息模糊检索方法

Also Published As

Publication number Publication date
CN103500579A (zh) 2014-01-08

Similar Documents

Publication Publication Date Title
CN103500579B (zh) 语音识别方法、装置及***
CN103700370B (zh) 一种广播电视语音识别***方法及***
CN109065031B (zh) 语音标注方法、装置及设备
CN111742365B (zh) 用于监控***中的音频事件检测的***和方法
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
US10671666B2 (en) Pattern based audio searching method and system
CN110557589A (zh) 用于整合记录的内容的***和方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN102982572A (zh) 一种智能化图像编辑方法和装置
CN110852215A (zh) 一种多模态情感识别方法、***及存储介质
WO2021041144A1 (en) Sequence models for audio scene recognition
CN104778230B (zh) 一种视频数据切分模型的训练、视频数据切分方法和装置
WO2016119604A1 (zh) 一种语音信息搜索方法、装置及服务器
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
US11664015B2 (en) Method for searching for contents having same voice as voice of target speaker, and apparatus for executing same
CN110689906A (zh) 一种基于语音处理技术的执法检测方法及***
Wang et al. Exploring audio semantic concepts for event-based video retrieval
CN112468754B (zh) 一种基于音视频识别技术的笔录数据采集方法及装置
CN110246496A (zh) 语音识别方法、***、计算机设备及储存介质
CN110413997B (zh) 针对电力行业的新词发现方法及其***、可读存储介质
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
CN102456346A (zh) 拼接语音检测***及方法
CN108520740B (zh) 基于多种特征的音频内容一致性分析方法和分析***
CN116341521A (zh) 一种基于文本特征的aigc文章辨识***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant