CN109686365A - 一种语音识别方法和语音识别*** - Google Patents

一种语音识别方法和语音识别*** Download PDF

Info

Publication number
CN109686365A
CN109686365A CN201811599441.2A CN201811599441A CN109686365A CN 109686365 A CN109686365 A CN 109686365A CN 201811599441 A CN201811599441 A CN 201811599441A CN 109686365 A CN109686365 A CN 109686365A
Authority
CN
China
Prior art keywords
information
voice
error correction
recognition result
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811599441.2A
Other languages
English (en)
Other versions
CN109686365B (zh
Inventor
张云翔
饶竹一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Co ltd
Original Assignee
Shenzhen Power Supply Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Co ltd filed Critical Shenzhen Power Supply Co ltd
Priority to CN201811599441.2A priority Critical patent/CN109686365B/zh
Publication of CN109686365A publication Critical patent/CN109686365A/zh
Application granted granted Critical
Publication of CN109686365B publication Critical patent/CN109686365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语音识别方法和***,该方法包括如下步骤:S1、获取用户输入的具有错误信息的语音信息和对语音信息进行纠错的语音纠错信息,并分别存储语音信息和语音纠错信息;S2、对语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息进行编码;S3、分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息获得第一识别结果;S4、获取用户输入所述语音信息的环境信息,根据环境信息获得第二识别结果;S5、将第二识别结果与词典信息进行对比,获得最终的识别结果。本发明能够快速识别语音信息,提高工作效率。

Description

一种语音识别方法和语音识别***
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法和语音识别***。
背景技术
语音识别***选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。***所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
现有技术中,通过麦克风输入语音信息,如果输入错误只能删除重新输入,不利于语音信息快速识别,降低工作效率。
发明内容
本发明所要解决的技术问题在于,提供一种在输入语音信息存在错误时,在不删除已经输入的语音信息的情况下,能够快速识别语音信息的语音识别方法。
为了解决上述技术问题,本发明提供一种语音识别方法,该方法包括如下步骤:
S1、获取用户输入的具有错误信息的语音信息和对所述语音信息进行纠错的语音纠错信息,并分别存储所述语音信息和语音纠错信息;
S2、对所述语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息提取特征信息并进行编码,获得语音信息编码和语音纠错信息编码;
S3、分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息,获得第一识别结果;
S4、获取用户输入所述语音信息的环境信息,根据所述环境信息获得第二识别结果;
S5、将所述第二识别结果与词典信息进行对比,获得最终的识别结果,并将所述最终的识别结果呈现给所述用户。
其中,所述步骤S2中对所述语音信息和语音纠错信息进行初步处理具体包括:
分别对所述语音信息和语音纠错信息进行滤波处理,并分别对滤波处理后的语音信息和语音纠错信息进行采样;
分别对采样后的语音信息和采样后的语音纠错信息进行编码,获得语音信息编码和语音纠错信息编码。
其中,在所述步骤S3具体包括:
将所述语音信息编码与现有的声学模型和语音模型进行对比,获得所述语音信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音信息编码对应的第一文字信息;
将所述语音纠错信息编码与现有的声学模型和语音模型进行对比,获得所述语音纠错信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音纠错信息编码对应的第二文字信息;
将所述第一文字信息和所述第二文字信息进行对比,获取相似度最高的第一文字信息和第二文字信息,并用所述第二文字信息替换第一文字信息中与所述第二文字信息相似的部分,形成第一识别结果。
其中,所述声学模型为隐马尔科夫模型。
其中,所述步骤S4具体包括:
采集用户输入所述语音信息所处环境的图像,并识别出图像中的环境信息,
根据所述环境信息获得所述用户的可能需求,根据所述可能需求筛选出第二识别结果。
其中,所述步骤S5具体包括:
将所述第二识别结果与词典信息进行对比,剔除不符合语言格式的第二识别结果,获得第三识别结果;
将第三识别结果与用户存储的识别结果进行相似度对比,并按照相似度从大到小的顺序进行排列,展示给用户。
本发明提供一种语音识别***,所述***包括:
获取单元,用于获取用户输入的具有错误信息的语音信息和对所述语音信息进行纠错的语音纠错信息,并分别存储所述语音信息和语音纠错信息;
处理单元,用于对所述语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息提取特征信息并进行编码,获得语音信息编码和语音纠错信息编码;
反推识别单元,用于分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息,获得第一识别结果;
环境识别单元,用于获取用户输入所述语音信息的环境信息,根据所述环境信息获得第二识别结果;
对比识别单元,用于将所述第二识别结果与用户存储的识别结果进行对比,获得最终的识别结果,并将所述最终的识别结果呈现给所述用户。
其中,所述反推识别单元包括:
第一对比反推单元,用于将所述语音信息编码与现有的声学模型和语音模型进行对比,获得所述语音信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音信息编码对应的第一文字信息;
第二对比反推单元,将所述语音纠错信息编码与现有的声学模型和语音模型进行对比,获得所述语音纠错信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音纠错信息编码对应的第二文字信息;
对比替换单元,将所述第一文字信息和所述第二文字信息进行对比,获取相似度最高的第一文字信息和第二文字信息,并用所述第二文字信息替换第一文字信息中与所述第二文字信息相似的部分,形成第一识别结果。
本发明实施例的有益效果在于:本发明通过对获取的语音信息和语音纠错信息进行编码,并根据语音信息编码和语音纠错信息编码分别获得反推文字信息,对比两者的反推文字信息,将相似度高的语音纠错信息编码对应的文字信息替换语音信息编码中的反推文字信息从而获得第一识别结果,获取用户输入语音信息所处的环境信息,并根据环境信息对第一识别结果进行筛选获得第二识别结果,通过将第二识别结果与词典信息进行对比从而获得最终的识别结果。本发明实施例的语音识别方法,在语音输入存在错误时,无需删除重新输入,有利于语音信息快速识别,提高工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种语音识别方法的流程示意图。
图2是本发明实施例的一种语音识别***的结构示意图。
具体实施方式
以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。
以下参照图1进行说明,本发明实施例一提供一种语音识别方法,该方法包括如下步骤:
S1、获取用户输入的具有错误信息的语音信息和对所述语音信息进行纠错的语音纠错信息,并分别存储所述语音信息和语音纠错信息。
具体地,通过语音录入选项进行语音录入,该录入的语音信息中存在错误信息,在录入过程中如果出现较小的差错,选择语音纠错录入选项进行纠错录入,纠错录入只需要录入错误的部位,纠错录入的信息为语音纠错信息,将语音信息和语音纠错信息分别进行存储。
举例说明,假设用于期望录入的语音信息为“寻找最近的加油站”,用户在录入的过程中,由于某种原因,录入的语音信息为“寻找近的加油站”,用户选择语音纠错录入选项,录入的语音纠错信息为“最近的”。
S2、对所述语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息提取特征信息并进行编码,获得语音信息编码和语音纠错信息编码。
具体地,对语音信息和语音纠错信息进行滤波处理,消除语音信息和语音纠错信息中的噪音和回声,增加语音信息和语音纠错信息的质量,对滤波后的语音信息和语音纠错信息进行采样,通过A/D转换器将模拟信号转换成数字信号,分别对语音信息转换后的数字信号和语音纠错信息转换后的数字信号进行编码并提取特征信息,获取语音信息编码和语音纠错信息编码。
特征信息为频率倒谱系数MFCC特征,频率倒谱系数MFCC特征是基于声音频率的非线性梅尔刻度(Mel刻度)的对数能量线谱的线性变换,首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数,PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。对语音信息进行初步处理,从而能提升语音信息和纠错语音信息的质量,有助于提升后续识别的质量。
S3、分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息,获得第一识别结果。
具体地,将所述语音信息编码与现有的声学模型和语音模型进行对比,获得所述语音信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音信息编码对应的第一文字信息;将所述语音纠错信息编码与现有的声学模型和语音模型进行对比,获得所述语音纠错信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音纠错信息编码对应的第二文字信息;将所述第一文字信息和所述第二文字信息进行对比,获取相似度最高的第一文字信息和第二文字信息,并用所述第二文字信息替换第一文字信息中与所述第二文字信息相似的部分,形成第一识别结果。
声学模型是语音识别***中最为重要的部分之一,目前的主流***多采用隐马尔科夫模型进行建模,隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值,语言模型是一个单纯的、统一的、抽象的形式***,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义,经过对比和分析,从而组合出符合的选项,每个音符都有相对的编码,与已经存储好的声学模型和语言模型进行对比,进而选择出所有相近的编码,完成初步识别,有助于提升初步识别的效率和质量,声学模型的输出值通常就是从各个帧计算而得的声学特征,这些特征就是声学的编码,而语言模型是根据语言客观事实而进行的语言抽象数学建模,而这些特征就是语言的编码,从而方便和采集到的语音编码进行交叉对比,从而得出的结果中在进行对比,选择相识度最高的,进而能根据编码反推出文字信息。
举例说明,以“寻找最近的加油站”为例,通过声学模型和语音模型获得了相似度最高的编码,从而能反推出多组文字信息,再通过语音纠错信息和语音信息之间的对比,进而能选择出相似度最高的语音信息和语音纠错信息,例如“寻找近的加油站”中“近的”和纠错语音信息中的“最近的”相似对最好,从而能进行替换,作为备选之一,当然也有可能识别成“训罩进德架游展”,而纠错语音信息识别成“嘴进德”,该组进行替换,则变成了“训罩嘴进德架游展”当成备选之一,当然也有可能出现“训罩嘴紧的加油站”这种备选,由此可见,该第一识别结果是“寻找近的加油站”或者“训罩嘴紧的加油站”或者“训罩嘴进德架游展”。
S4、获取用户输入所述语音信息时所处的环境信息,根据所述环境信息获得第二识别结果。
具体地,通过摄像设备拍摄用户输入所述语音信息时的周边情况的环境照片,摄像设备采用高清红外摄像器,从而识别出用于当时所处的环境,通过识别用户所处的环境位置,进而能大致判断出使用者的需求,举例说明,用户所处的环境位置可能是市区、公路、郊区,与市区关联度较大的名词可能是市区中的办公楼、小区或者酒店,与公路关联较大的名词可能是公路上的加油站、停车场、修车厂等,与郊区关联较大的可能是郊区村庄名称等。通过识别用户所在的位置信息,从而可以获得跟对应的位置信息关联较大的名词,根据关联较大的名词可以将第一识别结果中明显不符合的识别结果剔除。
举例说明,仍然以“寻找最近的加油站”为例,通过获取用户输入语音信息的照片,可知用户当时处于公路上,根据与公路关联最大的名词可能是公路上的加油站、停车场、修车厂等,因而可以将第一识别结果中的“训罩嘴进德架游展”剔除,从而获得第二识别结果“寻找近的加油站”或者“训罩嘴紧的加油站”。
S5、将所述第二识别结果与存储的词典信息进行对比,获得最终的识别结果,并将所述最终的识别结果呈现给所述用户。
通过将第二识别结果与存储的词典信息进行对比,将明显不符合语言规则的识别结果信息进行删除,从而获得最终识别结果,将最终识别结果与用户存储的过往识别信息进行对比,获得每一个最终识别结果的相似度,按照相似度从大到小的顺序向用户展示所述最终识别结果,便于用户对所述最终的识别结果进行查询,从而选择用户预期的识别结果,提高识别的效率和质量。
当用户选择了最终的识别结果后,通过扬声器进行播放,将正确的识别结果进行存储,方便提醒其他人员,从而再次确定识别结果,将识别结果进行存储,从而便于进行扩充,方便使用者下次使用。
本发明实施例的一种语音识别方法,通过对获取的语音信息和语音纠错信息进行编码,并根据语音信息编码和语音纠错信息编码分别获得反推文字信息,对比两者的反推文字信息,将相似度高的语音纠错信息编码对应的文字信息替换语音信息编码中的反推文字信息从而获得第一识别结果,获取用户输入语音信息所处的环境信息,并根据环境信息对第一识别结果进行筛选获得第二识别结果,通过将第二识别结果与词典信息进行对比从而获得最终的识别结果。本发明实施例的语音识别方法,在语音输入存在错误时,无需删除重新输入,有利于语音信息快速识别,提高工作效率。
基于本发明实施例一,本发明实施例二提供一种语音识别***,如图2所示,该***1包括:
获取单元11,用于获取用户输入的语音信息和对输入的语音信息进行纠错的语音纠错信息,并分别存储所述语音信息和语音纠错信息;
处理单元12,用于对所述语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息提取特征信息并进行编码,获得语音信息编码和语音纠错信息编码;
反推识别单元13,用于分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息,获得第一识别结果;
环境识别单元14,用于获取用户输入所述语音信息的环境信息,根据所述环境信息剔除所述初步识别结果中与所述环境信息不相关的识别结果,获得第二识别结果;
对比识别单元15,用于将所述第二识别结果与用户存储的识别结果进行对比,获得最终的识别结果,并将所述最终的识别结果呈现给所述用户。
其中,所述反推识别单元13包括:
第一对比反推单元,用于将所述语音信息编码与现有的声学模型和语音模型进行对比,获得所述语音信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音信息编码对应的第一文字信息;
第二对比反推单元,将所述语音纠错信息编码与现有的声学模型和语音模型进行对比,获得所述语音纠错信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音纠错信息编码对应的第二文字信息;
对比替换单元,将所述第一文字信息和所述第二文字信息进行对比,获取相似度最高的第一文字信息和第二文字信息,并用所述第二文字信息替换第一文字信息中与所述第二文字信息相似的部分,形成第一识别结果。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (8)

1.一种语音识别方法,其特征在于,包括如下步骤:
S1、获取用户输入的具有错误信息的语音信息和对所述语音信息进行纠错的语音纠错信息,并分别存储所述语音信息和语音纠错信息;
S2、对所述语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息提取特征信息并进行编码,获得语音信息编码和语音纠错信息编码;
S3、分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息,获得第一识别结果;
S4、获取用户输入所述语音信息时所处的环境信息,根据所述环境信息获得第二识别结果;
S5、将所述第二识别结果与词典信息进行对比,获得最终的识别结果,并将所述最终的识别结果呈现给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中对所述语音信息和语音纠错信息进行初步处理具体包括:
分别对所述语音信息和语音纠错信息进行滤波处理,并分别对滤波处理后的语音信息和语音纠错信息进行采样;
分别对采样后的语音信息和采样后的语音纠错信息进行编码,获得语音信息编码和语音纠错信息编码。
3.根据权利要求2所述的方法,其特征在于,在所述步骤S3具体包括:
将所述语音信息编码与现有的声学模型和语音模型进行对比,获得所述语音信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音信息编码对应的第一文字信息;
将所述语音纠错信息编码与现有的声学模型和语音模型进行对比,获得所述语音纠错信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音纠错信息编码对应的第二文字信息;
将所述第一文字信息和所述第二文字信息进行对比,获取相似度最高的第一文字信息和第二文字信息,并用所述第二文字信息替换第一文字信息中与所述第二文字信息相似的部分,形成第一识别结果。
4.根据权利要求3所述的方法,其特征在于:
所述声学模型为隐马尔科夫模型。
5.根据权利要求4所述的方法,其特征在于,所述步骤S4具体包括:
采集用户输入所述语音信息所处环境的图像,并识别出图像中的环境信息,
根据所述环境信息获得所述用户的可能需求,根据所述可能需求筛选出第二识别结果。
6.根据权利要求5所述的方法,其特征在于,所述步骤S5具体包括:
将所述第二识别结果与词典信息进行对比,剔除不符合语言格式的第二识别结果,获得第三识别结果;
将第三识别结果与用户存储的识别结果进行相似度对比,并按照相似度从大到小的顺序进行排列,展示给用户。
7.一种语音识别***,其特征在于,所述***包括:
获取单元,用于获取用户输入的具有错误信息的语音信息和对所述语音信息进行纠错的语音纠错信息,并分别存储所述语音信息和语音纠错信息;
处理单元,用于对所述语音信息和语音纠错信息进行初步处理,并对处理后的语音信息和语音纠错信息提取特征信息并进行编码,获得语音信息编码和语音纠错信息编码;
反推识别单元,用于分别根据语音信息编码和语音纠错信息编码反推出对应的文字信息,并对比语音信息编码反推出的文字信息和语音纠错信息编码反推出的文字信息,获得第一识别结果;
环境识别单元,用于获取用户输入所述语音信息的环境信息,根据所述环境信息获得第二识别结果;
对比识别单元,用于将所述第二识别结果与用户存储的识别结果进行对比,获得最终的识别结果,并将所述最终的识别结果呈现给所述用户。
8.根据权利要求7所述的***,其特征在于,所述反推识别单元包括:
第一对比反推单元,用于将所述语音信息编码与现有的声学模型和语音模型进行对比,获得所述语音信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音信息编码对应的第一文字信息;
第二对比反推单元,将所述语音纠错信息编码与现有的声学模型和语音模型进行对比,获得所述语音纠错信息编码与所述声学模型和语音模型的相似编码,并根据相似编码反推出所述语音纠错信息编码对应的第二文字信息;
对比替换单元,将所述第一文字信息和所述第二文字信息进行对比,获取相似度最高的第一文字信息和第二文字信息,并用所述第二文字信息替换第一文字信息中与所述第二文字信息相似的部分,形成第一识别结果。
CN201811599441.2A 2018-12-26 2018-12-26 一种语音识别方法和语音识别*** Active CN109686365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811599441.2A CN109686365B (zh) 2018-12-26 2018-12-26 一种语音识别方法和语音识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811599441.2A CN109686365B (zh) 2018-12-26 2018-12-26 一种语音识别方法和语音识别***

Publications (2)

Publication Number Publication Date
CN109686365A true CN109686365A (zh) 2019-04-26
CN109686365B CN109686365B (zh) 2021-07-13

Family

ID=66188586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811599441.2A Active CN109686365B (zh) 2018-12-26 2018-12-26 一种语音识别方法和语音识别***

Country Status (1)

Country Link
CN (1) CN109686365B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334271A (zh) * 2019-05-21 2019-10-15 北京奇艺世纪科技有限公司 一种搜索结果优化方法、***、电子设备及存储介质
CN111356022A (zh) * 2020-04-18 2020-06-30 徐琼琼 一种基于语音识别的视频文件处理方法
CN111524511A (zh) * 2020-04-01 2020-08-11 黑龙江省农业科学院农业遥感与信息研究所 一种农业技术咨询人机对话方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN105206260A (zh) * 2015-08-31 2015-12-30 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别***及语音评分***
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新***
CN108595412A (zh) * 2018-03-19 2018-09-28 百度在线网络技术(北京)有限公司 纠错处理方法及装置、计算机设备及可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别***及语音评分***
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN105206260A (zh) * 2015-08-31 2015-12-30 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新***
CN108595412A (zh) * 2018-03-19 2018-09-28 百度在线网络技术(北京)有限公司 纠错处理方法及装置、计算机设备及可读介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334271A (zh) * 2019-05-21 2019-10-15 北京奇艺世纪科技有限公司 一种搜索结果优化方法、***、电子设备及存储介质
CN110334271B (zh) * 2019-05-21 2022-01-11 北京奇艺世纪科技有限公司 一种搜索结果优化方法、***、电子设备及存储介质
CN111524511A (zh) * 2020-04-01 2020-08-11 黑龙江省农业科学院农业遥感与信息研究所 一种农业技术咨询人机对话方法及***
CN111356022A (zh) * 2020-04-18 2020-06-30 徐琼琼 一种基于语音识别的视频文件处理方法

Also Published As

Publication number Publication date
CN109686365B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
US11514891B2 (en) Named entity recognition method, named entity recognition equipment and medium
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN107369439B (zh) 一种语音唤醒方法和装置
US8949125B1 (en) Annotating maps with user-contributed pronunciations
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及***
CN113488058B (zh) 一种基于短语音的声纹识别方法
US20140365221A1 (en) Method and apparatus for speech recognition
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
CN109686365A (zh) 一种语音识别方法和语音识别***
WO2023030235A1 (zh) 目标音频的输出方法及***、可读存储介质、电子装置
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN113744727A (zh) 模型训练方法、***、终端设备及存储介质
CN111667834A (zh) 一种助听设备及助听方法
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN117041430B (zh) 一种提高智能协调外呼***的外呼质量及鲁棒方法和装置
CN109346104A (zh) 一种基于谱聚类的音频特征降维方法
CN112133294A (zh) 语音识别方法、装置和***及存储介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN114067807A (zh) 音频数据处理方法、装置及电子设备
CN113409774A (zh) 语音识别方法、装置及电子设备
CN112951237A (zh) 一种基于人工智能的自动语音识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant