CN107103902B - 完整语音内容递归识别方法 - Google Patents

完整语音内容递归识别方法 Download PDF

Info

Publication number
CN107103902B
CN107103902B CN201710449747.9A CN201710449747A CN107103902B CN 107103902 B CN107103902 B CN 107103902B CN 201710449747 A CN201710449747 A CN 201710449747A CN 107103902 B CN107103902 B CN 107103902B
Authority
CN
China
Prior art keywords
sub
voice
recognition
voices
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710449747.9A
Other languages
English (en)
Other versions
CN107103902A (zh
Inventor
谢国雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Enjoy Culture Communication Co Ltd
Original Assignee
Shanghai Enjoy Culture Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Enjoy Culture Communication Co Ltd filed Critical Shanghai Enjoy Culture Communication Co Ltd
Priority to CN201710449747.9A priority Critical patent/CN107103902B/zh
Publication of CN107103902A publication Critical patent/CN107103902A/zh
Application granted granted Critical
Publication of CN107103902B publication Critical patent/CN107103902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种完整语音内容递归识别方法。为了提高语音识别准确率而设计。本发明所述的方法包括:初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,对最初的S2中若干段子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。

Description

完整语音内容递归识别方法
技术领域
本发明涉及一种完整语音内容递归识别方法。
背景技术
在客户端和服务器进行语音识别的现有的语音识别装置首先在客户端进行语音识别,在判定为客户端的语音识别结果的识别分数较低,识别精度较差的情况下,在服务器进行语音识别并采用服务器的语音识别结果。
现有语音识别技术,针对长篇幅的语音(超过1句话)的识别,还是基于较小的长度单元语音的逐个识别,没能利用完整篇幅的语音所包含的完整信息来进一步纠正和提升识别率。
鉴于上述,本设计人积极加以研究创新,以期创设一种完整语音内容递归识别方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是为提供一种利用完整篇幅的语音内容来提高计算机对语音的识别率的完整语音内容递归识别方法。
本发明完整语音内容递归识别方法,包括:
S1获取一段音频作为主语音;
S2模糊切割主语音成n段子语音;
S3初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;
S4每一段子语音通过相邻的子语音的识别结果文案和语义对比,来重新计算各个元素的置信度,对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,其中,所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音,会有各种不同版本的识别结果文案,每一种结果文案为一个识别版本;对于总共n段子语音,按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音;
S5将步骤S4中的子语音作为S1中的主语音,分割为预定段,重复上述步骤S2至S5,直至语音变成一个词;所述词是指,由一个或多个字组成的,包含语义的的一组字;
S6对将S1中获取的获取一段音频作为主语音,模糊切割主语音成n段子语音,将所述子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
进一步地,S2中根据预先训练的语音停顿模型,识别出语音的自然停顿,根据语音的自然停顿将主语音分割成若干段子语音。
进一步地,步骤S5中的预定段为3、4、5。
进一步地,通过音素声学模型对比方法初步识别每段子语音。
本发明完整语音内容递归识别***,包括:
音频获取单元,用于获取一段音频作为主语音,采用模糊切割主语音成n段子语音;
初步识别单元,用于初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;
校正单元,用于每一段子语音通过相邻的子语音的识别结果文案和语义对比,来重新计算各个元素的置信度,对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,其中,所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音,会有各种不同版本的识别结果文案,每一种结果文案为一个识别版本;对于总共n段子语音,按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音;
分割单元,用于将子语音作为音频获取单元的主语音,分割为预定段,重复运行初步识别单元、校正单元,直至语音变成一个词;所述词是指,由一个或多个字组成的,包含语义的的一组字;
合并单元,对将音频获取单元获取的获取一段音频作为主语音,模糊切割主语音成n段子语音,将所述子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子;
通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
与现有技术相比,本发明完整语音内容递归识别方法具有以下优点:
与现有的小长度单元语音识别技术相比,能基于完整的语音内容以及最细分的词汇基础上,提高识别准确性,同时,通过设置递归次数、子语音长度,创造了预先设置识别速度和预估识别准确性的手段。本发明整个流程让计算机完整的识别并理解了整句句子和每个词汇,得出置信度最高的识别结果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明一种完整语音内容递归识别方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
如图1所示,本发明一种完整语音内容递归识别方法的最佳实施例,包括:
S1获取一段音频作为主语音;
S2模糊切割主语音成n段子语音;
S3初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;
S4每一段子语音通过相邻的子语音的识别结果文案和语义对比,来重新计算各个元素的置信度,对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,其中,所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音,会有各种不同版本的识别结果文案,每一种结果文案为一个识别版本;对于总共n段子语音,按如下方式[(1|2),(2,3),…,(n一1,n)]n>1把括号中的2段子语音定义为相邻子语音;
S5将步骤S4中的子语音作为S1中的主语音,分割为预定段,重复上述步骤S2至S5,直至语音变成一个词;所述词是指,由一个或多个字组成的,包含语义的的一组字;
S6对将S1中获取的获取一段音频作为主语音,模糊切割主语音成n段子语音,将所述子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
进一步地,S2中根据预先训练的语音停顿模型,识别出语音的自然停顿,根据语音的自然停顿将主语音分割成若干段子语音。
进一步地,步骤S5中的预定段为3、4、5。
本实施例中,利用完整篇幅的语音所包含的完整信息来进一步纠正和提升识别率。通过设置递归次数、子语音长度,创造了预先设置识别速度和预估识别准确性的手段。
实施例2
本发明一种完整语音内容递归识别***的最佳实施例,包括:
音频获取单元,用于获取一段音频作为主语音,采用模糊切割主语音成n段子语音;
初步识别单元,用于初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;
校正单元,用于每一段子语音通过相邻的子语音的识别结果文案和语义对比,来重新计算各个元素的置信度,对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,其中,所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音,会有各种不同版本的识别结果文案,每一种结果文案为一个识别版本;对于总共n段子语音,按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音;
分割单元,用于将子语音作为音频获取单元的主语音,分割为预定段,重复运行初步识别单元、校正单元,直至语音变成一个词;所述词是指,由一个或多个字组成的,包含语义的的一组字;
合并单元,对将音频获取单元获取的获取一段音频作为主语音,模糊切割主语音成n段子语音,将所述子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子;
通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
上述各实施例中,通过音素声学模型对比方法初步识别每段子语音。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (5)

1.一种完整语音内容递归识别方法,其特征在于,包括:
S1获取一段音频作为主语音;
S2模糊切割主语音成n段子语音;
S3初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;
S4每一段子语音通过相邻的子语音的识别结果文案和语义对比,来重新计算每段子语音的初步识别、语义分析的置信度,对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,其中,所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音,会有各种不同版本的识别结果文案,每一种结果文案为一个识别版本;对于总共n段子语音,按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音;
S5将步骤S4中的子语音作为S1中的主语音,分割为预定段,重复上述步骤S2至S5,直至语音变成一个词;所述词是指,由一个或多个字组成的,包含语义的的一组字;
S6对将S1中获取的一段音频作为主语音,模糊切割主语音成n段子语音,将所述子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子;通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
2.根据权利要求1所述的完整语音内容递归识别方法,其特征在于,S2中根据预先训练的语音停顿模型,识别出语音的自然停顿,根据语音的自然停顿将主语音分割成若干段子语音。
3.根据权利要求1所述的完整语音内容递归识别方法,其特征在于,步骤S5中的预定段为3、4、5。
4.根据权利要求1所述的完整语音内容递归识别方法,其特征在于,通过音素声学模型对比方法初步识别每段子语音。
5.一种完整语音内容递归识别***,其特征在于,包括:
音频获取单元,用于获取一段音频作为主语音,采用模糊切割主语音成n段子语音;
初步识别单元,用于初步识别每段子语音,并对每段子语音分别采用词语切割归类、语法单位审查和静态语义审查分析出每段子语音的语义,计算每段子语音的初步识别、语义分析的置信度;
校正单元,用于每一段子语音通过相邻的子语音的识别结果文案和语义对比,来重新计算每段子语音的初步识别、语义分析的置信度,对识别结果中每个识别版本根据置信度重新排序来纠正本段的识别结果,其中,所述识别版本为出现在不同“子语音”和“合并子语音”中的同一段语音,会有各种不同版本的识别结果文案,每一种结果文案为一个识别版本;对于总共n段子语音,按如下方式[(1|2),(2,3),…,(n-1,n)]n>1把括号中的2段子语音定义为相邻子语音;
分割单元,用于将子语音作为音频获取单元的主语音,分割为预定段,重复运行初步识别单元、校正单元,直至语音变成一个词;所述词是指,由一个或多个字组成的,包含语义的的一组字;
合并单元,对将音频获取单元获取的一段音频作为主语音,模糊切割主语音成n段子语音,将所述子语音两两合并变成新的“合并子语音”,分别进行语音初步识别、语义分析,计算每段“合并子语音”的初步识别、语义分析的置信度,然后重复此合并步骤直到合并成最初完整的句子;
通过切割与合并这2个方向上的递归最终得到整个主语音的识别结果集合以及对应的语意理解结果集合。
CN201710449747.9A 2017-06-14 2017-06-14 完整语音内容递归识别方法 Active CN107103902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710449747.9A CN107103902B (zh) 2017-06-14 2017-06-14 完整语音内容递归识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710449747.9A CN107103902B (zh) 2017-06-14 2017-06-14 完整语音内容递归识别方法

Publications (2)

Publication Number Publication Date
CN107103902A CN107103902A (zh) 2017-08-29
CN107103902B true CN107103902B (zh) 2020-02-04

Family

ID=59660290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710449747.9A Active CN107103902B (zh) 2017-06-14 2017-06-14 完整语音内容递归识别方法

Country Status (1)

Country Link
CN (1) CN107103902B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573707B (zh) * 2017-12-27 2020-11-03 北京金山云网络技术有限公司 一种语音识别结果的处理方法、装置、设备及介质
CN109257547B (zh) * 2018-09-21 2021-04-06 南京邮电大学 中文在线音视频的字幕生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455357A (zh) * 2003-05-23 2003-11-12 郑方 一种实现多路对话的人-机汉语口语对话***的方法
CN1831937A (zh) * 2005-03-08 2006-09-13 台达电子工业股份有限公司 语音辨识与语言理解分析的方法与装置
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN104485106A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 语音识别方法、语音识别***和语音识别设备
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455357A (zh) * 2003-05-23 2003-11-12 郑方 一种实现多路对话的人-机汉语口语对话***的方法
CN1831937A (zh) * 2005-03-08 2006-09-13 台达电子工业股份有限公司 语音辨识与语言理解分析的方法与装置
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN104485106A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 语音识别方法、语音识别***和语音识别设备
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
简述ZX-2029型电话机的原理与制作;朱璇等;《电脑知识与技术》;20130531;第3431-3435 *

Also Published As

Publication number Publication date
CN107103902A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
CN110263322B (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110364171B (zh) 一种语音识别方法、语音识别***及存储介质
CN109410914B (zh) 一种赣方言语音和方言点识别方法
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US7813929B2 (en) Automatic editing using probabilistic word substitution models
US9170994B2 (en) Machine translation apparatus, method and computer readable medium
WO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
CN107291684B (zh) 语言文本的分词方法和***
CN104156349B (zh) 基于统计词典模型的未登录词发现和分词***及方法
CN103971686A (zh) 自动语音识别方法和***
WO2014187096A1 (en) Method and system for adding punctuation to voice files
US20090265166A1 (en) Boundary estimation apparatus and method
CN110019741B (zh) 问答***答案匹配方法、装置、设备及可读存储介质
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN111933113B (zh) 一种语音识别的方法、装置、设备及介质
WO2019100458A1 (zh) 泰语音节切分的方法及装置
CN104679735A (zh) 语用机器翻译方法
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN107103902B (zh) 完整语音内容递归识别方法
JP6242963B2 (ja) 言語モデル改良装置及び方法、音声認識装置及び方法
CN110263345A (zh) 关键词提取方法、装置及存储介质
Neubig et al. Improved statistical models for SMT-based speaking style transformation
Kuo et al. Morphological and syntactic features for Arabic speech recognition
CN111222331A (zh) 辅助解码方法、装置、电子设备及可读存储介质
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant