CN103500579B - 语音识别方法、装置及*** - Google Patents
语音识别方法、装置及*** Download PDFInfo
- Publication number
- CN103500579B CN103500579B CN201310470331.7A CN201310470331A CN103500579B CN 103500579 B CN103500579 B CN 103500579B CN 201310470331 A CN201310470331 A CN 201310470331A CN 103500579 B CN103500579 B CN 103500579B
- Authority
- CN
- China
- Prior art keywords
- confidence
- degree
- candidate keywords
- keyword
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003657 Likelihood-ratio test Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音识别方法、装置及***。该方法包括对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。本发明能够提高对语音关键词的识别速度及覆盖率。
Description
技术领域
本发明涉及通信技术,尤其涉及一种语音识别方法、装置及***。
背景技术
随着社会发展,信息安全成为各国关注的重点,特别是对音视频内容的监控,从被监控的音视频内容中检测出敏感的信息,为信息安全提供参考。
对语音数据的识别通常采用对音视频内容进行音视频分离,将分离出的语音数据转换为文本,利用文本匹配方式,在文本中匹配搜索关键词。
在现有技术中,由于先将语音数据转换为文本,然后利用文本匹配方式搜索关键词,另外没有涉及对相似关键词的搜索,导致关键词的搜索速度较慢以及关键词覆盖率较低。
发明内容
本发明提供一种语音识别方法、装置及***,以提高对语音关键词的识别速度及覆盖率。
本发明的一个方面是提供一种语音识别方法,包括:
对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
本发明的另一个方面是提供一种语音识别装置,包括:
转换模块,用于对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
匹配搜索模块,用于根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
置信度获取模块,用于获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
本发明的另一个方面是提供一种语音识别***,包括:
数据采集装置,用于实时采集音频数据;
如权利要求5-8任一所述的语音识别装置,用于对所述数据采集装置采集的音频数据进行识别,向结果显示模块发送识别后的识别结果;
结果显示模块,用于显示所述语音识别装置发送的所述识别结果。
本发明提供的语音识别方法、装置及***,利用在语音数据对应的音素图中采用动态规划算法匹配搜索关键词文本对应的音素串,提高了语音关键词的识别速度及覆盖率。
附图说明
图1为本发明实施例一提供的语音识别方法流程图;
图2为本发明实施例二提供的语音识别方法流程图;
图3为本发明实施例三提供的语音识别方法框图;
图4为本发明实施例四提供的语音识别装置结构图;
图5为本发明实施例五提供的语音识别装置结构图;
图6为本发明实施例六提供的语音识别***结构图。
具体实施方式
实施例一
图1为本发明实施例一提供的语音识别方法流程图。本发明实施例适用于基于音素图的语音关键词识别方法,将语音文件通过声学识别为音素图,将搜索关键词转换为音素串,在音素图中匹配搜索音素串,具体的语音识别过程包括:
步骤101、对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
音素是根据语音的自然属性划分出来的最小语音单位,从声学性质来看,音素是从音质角度划分出来的最小语音单位,相同发音动作发出的音是同一音素,不同发音动作发出的音是不同音素。一个语音文件包含有大量的最小语音单位,由大量连续的音素可构成音素图,采用声学识别技术可以将语音文件转换成对应的音素图,与搜索关键词对应的音素可构成音素串。
步骤102、根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
在所述音素图中匹配搜索所述音素串,获得多个与所述搜索关键词相近的候选关键词,其中所述音素串是由所述搜索关键词转换得到的,且多个候选关键词构成关键词候选列表。例如“普通话”可以分析成“p,u,t,o,n,g,h,u,a”八个音素,“putonghua”构成“普通话”的音素串,而与“putonghua”对应的关键词可以是“普通话”也可以是“普通化”,如果“普通话”为所述搜索关键词,则“普通化”是与所述搜索关键词相近的候选关键词;在音素图中搜索“putonghua”,如果存在,将与“putonghua”对应的关键词“普通话”、“普通化”作为候选关键词输出。
步骤103、获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
对关键词候选列表中的各候选关键词进行置信度计算,并与预设的置信度门限值比较,获得置信度高于预设的置信度门限值的候选关键词,以及所述候选关键词所在的语音文件标识、所述候选关键词在所述语音文件内的偏移以及所述候选关键词对应的置信度,并且由所述候选关键词所在的语音文件标识、所述候选关键词在所述语音文件内的偏移以及所述候选关键词对应的置信度构成三元组作为语音识别输出结果。
本实施例通过在语音文件对应的音素图中匹配搜索关键词对应的音素串,提高了搜索关键词的识别速度;通过对候选关键词进行置信度计算,选择置信度高于预设的置信度门限值的候选关键词,提高了搜索关键词的覆盖率。
实施例二
图2为本发明实施例二提供的语音识别方法流程图。在实施例一中,所述根据所述音素串在所述音素图中进行匹配搜索可以是在所述音素图中基于动态规划原理或基于统计知识的同步原理匹配搜索所述音素串,本实施例优选的匹配搜索方式是基于动态规划原理的音素串搜索。
如图2所示,在实施例一的基础上,通过计算各候选关键词的置信度,并与预设的置信度门限值比较,得到识别结果后,如步骤104所示,根据所述识别结果中各候选关键词的置信度,对所述识别结果进行排序,以使所述各候选关键词对应的三元组识别结果有序排列。其中,三元组中所述候选关键词在所述语音文件内的偏移以所述候选关键词距离所述语音文件开头的时间长度表示,并且精确到10毫秒。
本实施例中用于计算候选关键词置信度的方法有多种,可以是基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法,本实施例优选的方式是基于后验概率方法的置信度算法。
本实施例通过对各候选关键词依据置信度大小进行排序,使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。
实施例三
图3为本发明实施例三提供的语音识别方法框图。如图3所示,本实施例可具体采用上述实施例提供的语音识别方法,实现对语音文件的关键词识别,具体识别过程如下:
步骤301、对输入的语音文件进行声学识别;
通过声学识别技术将输入的语音文件转换成音素图。
步骤302、输入关键词文本;
输入的关键词文本是将在语音文件中搜索的关键词。
步骤303、转换成音素;
将输入的关键词文本转换成音素形成音素串。
步骤304、基于动态规划原理的音素串搜索;
在语音文件转换成的音素图中基于动态规划原理匹配搜索关键词对应的音素串,得到关键词候选列表。
步骤305、后验概率置信度计算;
对关键词候选列表中的各候选关键词依据后验概率置信度算法进行置信度计算。
步骤306、置信度门限值比较;
将各候选关键词对应的置信度与预设的置信度门限值比较,获得置信度高于预设的置信度门限值的候选关键词。
步骤307、候选关键词排序;
对多个置信度高于预设的置信度门限值的候选关键词依据置信度大小进行排序。输出如实施例一中所述的三元组识别结果,且多个三元组依据置信度大小有序排列。
本实施例通过采用上述实施例中的语音识别方法,实现了对语音文件中关键词快速全面的识别。
实施例四
图4为本发明实施例四提供的语音识别装置结构图。如图4所示,本发明实施例提供一种语音识别装置40,包括转换模块401、匹配搜索模块402和置信度获取模块403,其中,转换模块401用于对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;匹配搜索模块402用于根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;置信度获取模块403用于获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
本实施例通过在语音文件对应的音素图中匹配搜索关键词对应的音素串,提高了搜索关键词的识别速度;通过对候选关键词进行置信度计算,选择置信度高于预设的置信度门限值的候选关键词,提高了搜索关键词的覆盖率。
实施例五
图5为本发明实施例五提供的语音识别装置结构图。如图5所示,在实施例四的基础上,所述语音识别装置40还包括排序模块404,且排序模块404用于根据所述识别结果中各候选关键词的置信度,对所述识别结果进行排序。
本实施例通过对各候选关键词依据置信度大小进行排序,使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。
实施例六
图6为本发明实施例六提供的语音识别***结构图。如图6所示,本实施例提供一种语音识别***50,包括数据采集装置51、上述实施例提供的语音识别装置40和结果显示模块53,其中,数据采集装置51用于实时采集音频数据;语音识别装置40用于对所述数据采集装置51采集的音频数据进行识别,向结果显示模块53发送识别后的识别结果;结果显示模块53用于显示所述语音识别装置40发送的所述识别结果。
本实施例通过对音视频数据进行采集、处理及结果显示,实现了对音视频数据中语音数据的关键词识别,通过对语音数据采用上述实施例提供的语音识别方法,提高了关键词的搜索速度以及搜索范围。
综上所述,本发明提供的语音识别方法,通过在语音文件对应的音素图中匹配搜索关键词对应的音素串,提高了搜索关键词的识别速度;通过对候选关键词进行置信度计算,选择置信度高于预设的置信度门限值的候选关键词,提高了搜索关键词的覆盖率;通过对各候选关键词依据置信度大小进行排序,使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种语音识别方法,其特征在于,包括:
对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述识别结果中各候选关键词的置信度,对所述识别结果进行排序。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述音素串在所述音素图中进行匹配搜索,包括:
在所述音素图中基于动态规划原理或基于统计知识的同步原理匹配搜索所述音素串。
4.根据权利要求1或2所述的方法,其特征在于,所述获取各候选关键词的置信度,包括:
对所述各候选关键词依据置信度算法获得与所述候选关键词对应的置信度,所述置信度算法包括基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法。
5.一种语音识别装置,其特征在于,包括:
转换模块,用于对待识别的语音文件进行声学识别获得对应的音素图,并将搜索关键词转换为音素串;
匹配搜索模块,用于根据所述音素串在所述音素图中进行匹配搜索,获得关键词候选列表,所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词;
置信度获取模块,用于获取各候选关键词的置信度,并根据预设的置信度门限值,获取识别结果,所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移,以及所述候选关键词对应的置信度。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
排序模块,用于根据所述识别结果各候选关键词的置信度,对所述识别结果进行排序。
7.根据权利要求5或6所述的装置,其特征在于,所述匹配搜索模块采用的匹配搜索算法包括基于动态规划原理或基于统计知识的同步原理的匹配搜索算法。
8.根据权利要求5或6所述的装置,其特征在于,所述置信度获取模块采用的置信度算法包括基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法。
9.一种语音识别***,其特征在于,包括:
数据采集装置,用于实时采集音频数据;
如权利要求5-8任一所述的语音识别装置,用于对所述数据采集装置采集的音频数据进行识别,向结果显示模块发送识别后的识别结果;
结果显示模块,用于显示所述语音识别装置发送的所述识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310470331.7A CN103500579B (zh) | 2013-10-10 | 2013-10-10 | 语音识别方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310470331.7A CN103500579B (zh) | 2013-10-10 | 2013-10-10 | 语音识别方法、装置及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103500579A CN103500579A (zh) | 2014-01-08 |
CN103500579B true CN103500579B (zh) | 2015-12-23 |
Family
ID=49865783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310470331.7A Active CN103500579B (zh) | 2013-10-10 | 2013-10-10 | 语音识别方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103500579B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157969B (zh) * | 2015-03-24 | 2020-04-03 | 阿里巴巴集团控股有限公司 | 一种语音识别结果的筛选方法及装置 |
CN108630193B (zh) * | 2017-03-21 | 2020-10-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
CN108694940B (zh) * | 2017-04-10 | 2020-07-03 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN108288468B (zh) | 2017-06-29 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN107665705B (zh) * | 2017-09-20 | 2020-04-21 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN108183844B (zh) * | 2018-02-06 | 2020-09-08 | 四川虹美智能科技有限公司 | 一种智能家电语音控制方法、装置及*** |
CN108615526B (zh) | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
CN110767214A (zh) * | 2018-07-27 | 2020-02-07 | 杭州海康威视数字技术股份有限公司 | 语音识别方法及其装置和语音识别*** |
CN112185367A (zh) * | 2019-06-13 | 2021-01-05 | 北京地平线机器人技术研发有限公司 | 关键词检测方法和装置、计算机可读存储介质、电子设备 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN111627445B (zh) * | 2020-05-26 | 2023-07-07 | 福建省海峡智汇科技有限公司 | 一种用于场地或人员的匹配方法和*** |
CN113192535B (zh) * | 2021-04-16 | 2022-09-09 | 中国科学院声学研究所 | 一种语音关键词检索方法、***和电子装置 |
CN113782016B (zh) * | 2021-08-06 | 2023-05-05 | 佛山市顺德区美的电子科技有限公司 | 一种唤醒处理方法、装置、设备和计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004049308A1 (en) * | 2002-11-22 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
CN101447183A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 一种应用于语音识别***的高性能置信度处理方法 |
JP4716125B2 (ja) * | 2006-08-04 | 2011-07-06 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
CN102136001A (zh) * | 2011-03-25 | 2011-07-27 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息模糊检索方法 |
CN102439660A (zh) * | 2010-06-29 | 2012-05-02 | 株式会社东芝 | 基于置信度得分的语音标签方法和装置 |
-
2013
- 2013-10-10 CN CN201310470331.7A patent/CN103500579B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004049308A1 (en) * | 2002-11-22 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
JP4716125B2 (ja) * | 2006-08-04 | 2011-07-06 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
CN101447183A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 一种应用于语音识别***的高性能置信度处理方法 |
CN102439660A (zh) * | 2010-06-29 | 2012-05-02 | 株式会社东芝 | 基于置信度得分的语音标签方法和装置 |
CN102136001A (zh) * | 2011-03-25 | 2011-07-27 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息模糊检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103500579A (zh) | 2014-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103500579B (zh) | 语音识别方法、装置及*** | |
CN103700370B (zh) | 一种广播电视语音识别***方法及*** | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
CN111742365B (zh) | 用于监控***中的音频事件检测的***和方法 | |
CN105512348A (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
US10671666B2 (en) | Pattern based audio searching method and system | |
CN110557589A (zh) | 用于整合记录的内容的***和方法 | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN102982572A (zh) | 一种智能化图像编辑方法和装置 | |
CN110852215A (zh) | 一种多模态情感识别方法、***及存储介质 | |
WO2021041144A1 (en) | Sequence models for audio scene recognition | |
CN104778230B (zh) | 一种视频数据切分模型的训练、视频数据切分方法和装置 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN110019779B (zh) | 一种文本分类方法、模型训练方法及装置 | |
CN103871424A (zh) | 一种基于贝叶斯信息准则的线上说话人聚类分析方法 | |
US11664015B2 (en) | Method for searching for contents having same voice as voice of target speaker, and apparatus for executing same | |
CN110689906A (zh) | 一种基于语音处理技术的执法检测方法及*** | |
Wang et al. | Exploring audio semantic concepts for event-based video retrieval | |
CN112468754B (zh) | 一种基于音视频识别技术的笔录数据采集方法及装置 | |
CN110246496A (zh) | 语音识别方法、***、计算机设备及储存介质 | |
CN110413997B (zh) | 针对电力行业的新词发现方法及其***、可读存储介质 | |
CN114363695B (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
CN102456346A (zh) | 拼接语音检测***及方法 | |
CN108520740B (zh) | 基于多种特征的音频内容一致性分析方法和分析*** | |
CN116341521A (zh) | 一种基于文本特征的aigc文章辨识*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |