CN111161718A - 语音识别方法、装置、设备、存储介质及空调 - Google Patents

语音识别方法、装置、设备、存储介质及空调 Download PDF

Info

Publication number
CN111161718A
CN111161718A CN201811323620.3A CN201811323620A CN111161718A CN 111161718 A CN111161718 A CN 111161718A CN 201811323620 A CN201811323620 A CN 201811323620A CN 111161718 A CN111161718 A CN 111161718A
Authority
CN
China
Prior art keywords
accent
target
information
voice information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811323620.3A
Other languages
English (en)
Inventor
刘文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201811323620.3A priority Critical patent/CN111161718A/zh
Publication of CN111161718A publication Critical patent/CN111161718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及一种语音识别方法、装置、设备、存储介质及空调,包括:获取语音信息;将语音信息发送给预先训练得到的目标语音识别模型;所述目标语音识别模型识别的口音与目标口音相匹配,目标口音为设备所处地理位置对应的口音;由目标语音识别模型识别语音信息,得到语音信息的文本信息。由于目标语音模型与上述地理位置使用的口音相匹配,因此该目标语音模型对方言口音的识别率较高,基于此,本申请的技术方案对方言口音具有较为理想的识别率。

Description

语音识别方法、装置、设备、存储介质及空调
技术领域
本申请涉及人机交互技术领域,尤其涉及一种语音识别方法、装置、设备、存储介质及空调。
背景技术
随着科学技术的发展,人与机器之间的交互方式也越来越多样化,其中,现在应用较为广泛的就是机器通过识别人的语音来进行人机交互。
由于语言是由非常多种的方言构成,而对于单一方言来说,每个人的口音也会各不相同,因此,现有的语音识别技术在识别有口音的语音时,特别在方言复杂的偏远地区,识别率难以达到理想状态。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种语音识别方法、装置、设备、存储介质及空调。
根据本申请的第一方面,提供一种语音识别方法,包括:
获取语音信息;所述语音信息包括口音;
将所述语音信息发送给预设的目标语音识别模型;所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备所处地理位置使用的口音;
由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息。
可选的,所述目标语音识别模型包括标准口音推断模型和目标口音推断模型;
所述由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息,包括:
将所述语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到所述语音信息的第一文本信息和第二文本信息;所述目标口音推断模型识别的口音与目标口音相匹配,所述目标口音为设备的地理位置使用的口音;
分别确定所述第一文本信息与所述语音信息的第一匹配度和所述第二文本信息与所述语音信息的第二匹配度;
输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息。
可选的,所述输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息,包括:
当所述第一匹配度与所述第二匹配度均低于预设值时,将所述语音信息上传到服务器,以使所述服务器根据所述语音信息匹配最佳口音推断模型;
从所述服务器中获取所述最佳口音推断模型;
将所述语音信息发送给所述最佳口音推断模型;
由所述最佳口音推断模型识别所述语音信息得到所述语音信息的文本信息。
可选的,本方法还包括:
接收用户发出的同一关键词的标准口音信息和目标口音信息;
将所述标准口音信息发送给预先训练得到的标准口音推断模型,得到所述标准口音信息的文本信息;
将所述标准口音信息的文本信息设置为所述目标口音信息对应的文本信息;
获取目标地理位置;
由聚类算法对相同关键词的所述方言口音语音信息进行音素的比较和聚类,并根据所述方言口音语音信息对应的所述目标地理位置形成方言边界,进而形成口音地图。
可选的,所述目标口音推断模型的训练过程包括:
获取所述目标口音信息、与所述目标口音信息对应的所述文本信息;
以所述目标口音信息和所述目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到所述目标口音推断模型。
可选的,所述获取目标地理位置,包括:
获取设备所在的目标地理位置;
或,
获取用户输入的目标地理位置。
可选的,所述获取设备所在的目标地理位置包括:
获取与所述设备相连的邻近的移动终端地理位置作为所述目标地理位置。
根据本申请的第二方面,提供一种语音识别装置,包括:
获取模块,用于获取语音信息;所述语音信息包括口音;
发送模块,用于所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备所处地理位置使用的口音;
识别模块,用于由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息。
可选的,所述目标语音识别模型包括标准口音推断模型和目标口音推断模型;
所述识别模块包括:
识别单元,用于将所述语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到所述语音信息的第一关键词和第二关键词;所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备的地理位置使用的口音;
匹配单元,用于分别确定所述第一文本信息与所述语音信息的第一匹配度和所述第二文本信息与所述语音信息的第二匹配度;
输出单元,用于输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息。
可选的,所述输出单元包括:
上传子单元,用于当所述第一匹配度与所述第二匹配度均低于预设值时,将所述语音信息上传到服务器,以使所述服务器根据所述语音信息匹配最佳口音推断模型;
下载子单元,用于从所述服务器中获取所述最佳口音推断模型;
发送子单元,用于将所述语音信息发送给所述最佳口音推断模型;
识别子单元,用于由所述最佳口音推断模型识别所述语音信息得到所述语音信息的文本信息。
可选的,还包括口音地图生成模块,所述口音地图生成模块包括:
接收单元,用于接收用户发出的同一关键词的标准口音信息和目标口音信息;
识别单元,用于将所述标准口音语音信息发送给预先训练得到的标准口音推断模型,得到所述标准口音信息的文本信息;
设置单元,用于将所述标准口音信息的文本信息设置为所述目标口音信息对应的文本信息;
第二获取单元,用于获取目标地理位置;
生成单元,用于由聚类算法对相同关键词的所述方言口音语音信息进行音素的比较和聚类,并根据所述方言口音语音信息对应的所述目标地理位置形成方言边界,进而形成口音地图。
可选的,还包括目标口音推断模型的训练模块,所述目标口音推断模型的训练模块包括:
第一获取单元,用于获取目标口音信息、所述目标口音信息对应的文本信息;
训练单元,用于以所述目标口音信息和所述目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到所述目标口音推断模型。
可选的,所述第二获取单元包括:
第一获取子单元,用于获取设备所在的目标地理位置;
或,
第二获取子单元,用于获取用户输入的目标地理位置。
可选的,所述第一获取子单元具体用于获取与所述设备相连的邻近的移动终端地理位置作为所述目标地理位置。
根据本申请的第三方面,提供一种语音识别的设备,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行如下所述的语音识别方法:
获取语音信息;所述语音信息包括口音;
将所述语音信息发送给预设的目标语音识别模型;所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备所处地理位置使用的口音;
由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息。
可选的,所述目标语音识别模型包括标准口音推断模型和目标口音推断模型;
所述由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息,包括:
将所述语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到所述语音信息的第一文本信息和第二文本信息;所述目标口音推断模型识别的口音与目标口音相匹配,所述目标口音为设备的地理位置使用的口音;
分别确定所述第一文本信息与所述语音信息的第一匹配度和所述第二文本信息与所述语音信息的第二匹配度;
输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息。
可选的,所述输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息,包括:
当所述第一匹配度与所述第二匹配度均低于预设值时,将所述语音信息上传到服务器,以使所述服务器根据所述语音信息匹配最佳口音推断模型;
从所述服务器中获取所述最佳口音推断模型;
将所述语音信息发送给所述最佳口音推断模型;
由所述最佳口音推断模型识别所述语音信息得到所述语音信息的文本信息。
可选的,本方法还包括:
接收用户发出的同一关键词的标准口音信息和目标口音信息;
将所述标准口音信息发送给预先训练得到的标准口音推断模型,得到所述标准口音信息的文本信息;
将所述标准口音信息的文本信息设置为所述目标口音信息对应的文本信息;
获取目标地理位置;
由聚类算法对相同关键词的所述方言口音语音信息进行音素的比较和聚类,并根据所述方言口音语音信息对应的所述目标地理位置形成方言边界,进而形成口音地图。
可选的,所述目标口音推断模型的训练过程包括:
获取所述目标口音信息、与所述目标口音信息对应的所述文本信息;
以所述目标口音信息和所述目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到所述目标口音推断模型。
可选的,所述获取目标地理位置,包括:
获取设备所在的目标地理位置;
或,
获取用户输入的目标地理位置。
可选的,所述获取设备所在的目标地理位置包括:
获取与所述设备相连的邻近的移动终端地理位置作为所述目标地理位置。
所述处理器用于调用并执行所述存储器中的所述计算机程序。
根据本申请的第四方面,提供一种空调,包括如本申请第三方面所述的语音识别的设备。
根据本申请的第五方面,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如本申请第一方面所述的语音识别方法。
本申请提供的技术方案可以包括以下有益效果:在获取到语音信息后,将语音信息发送给预先训练得到的目标语音识别模型,然后由目标语音识别模型识别语音信息,得到语音信息的文本信息,语音信息包括口音,其中,目标语音识别模型识别的口音与设备所处地理位置使用的口音相匹配,因此在使用设备所在的地理位置范围内的方言口音进行人机交互时,由于目标语音模型与上述地理位置使用的口音相匹配,因此该目标语音模型对方言口音的识别率较高,基于此,本申请的技术方案对方言口音具有较为理想的识别率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例一提供的一种语音识别方法的流程示意图。
图2是本申请实施例二提供的一种语音识别装置的结构示意图。
图3是本申请实施例三提供的一种语音识别设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
实施例一
请参阅图1,图1是本申请实施例一提供的一种语音识别方法的流程示意图。
如图1所示,本实施例提供的语音识别方法包括:
步骤11、获取语音信息;语音信息包括口音;
步骤12、将语音信息发送给预先训练得到的目标语音识别模型;目标语音识别模型识别的口音与目标口音相匹配,目标口音为设备所处地理位置使用的口音;
步骤13、由目标语音识别模型识别语音信息,得到语音信息的文本信息。
由于在获取到语音信息后,将语音信息发送给预先训练得到的目标语音识别模型,然后由目标语音识别模型识别语音信息,得到语音信息的关键词。其中,目标语音识别模型识别的口音与目标口音先匹配,目标口音为设备所处地理位置使用的口音,因此在使用设备所在的地理位置范围内的方言口音进行人机交互时,由于目标语音模型与上述地理位置使用的口音相匹配,因此该目标语音模型对方言口音的识别率较高,基于此,本申请的技术方案对方言口音具有较为理想的识别率。
需要说明的是,文本信息可以为计算机语言文本信息,也可以是任何一种语言的文本信息或关键词。
其中,上述目标语音识别模型可以包括标准口音推断模型和目标口音推断模型。标准口音推断模型是基于普通话的语音信息为样本训练得到的语音识别模型,而目标口音推断模型则是基于方言口音的语音信息为样本训练得到的语音识别模型。
在步骤13中,目标语音识别模型识别语音信息得到关键词的过程可以包括如下步骤:
将语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到语音信息的第一关键词和第二关键词;目标语音识别模型识别的口音与目标口音相匹配,目标口音为设备的地理位置使用的口音;
分别确定第一文本信息与语音信息的第一匹配度和第二文本信息与语音信息的第二匹配度;
输出第一匹配度和第二匹配度中匹配度较高的匹配度对应的关键词。
下面以设备的地理位置使用的口音的“打开空调”语音信息为例,对上述目标语音识别模型识别语音信息得到关键词的过程进行说明。
预先训练得到的标准口音推断模型在接收到上述语音信息后,经过识别得到第一关键词,由于本例中的语音信息为设备的地理位置使用的口音,与普通话有所不同,所以在识别过程中,第一关键词与语音信息的匹配度可能为60%,此处记为第一匹配度。
预先训练得到的目标口音推断模型接收到上述语音信息后,经过识别得到第二关键词,由于目标口音推断模型与设备的地理位置使用的口音相匹配,因此,在识别过程中,第二关键词与语音信息的匹配度可能为90%,记为第二匹配度。
由上述可知,第二匹配度高于第一匹配度,因此,将第二匹配度对应的第二关键词作为最后的关键词输出。
由于普通话的普及,家庭中使用普通话的情况也越来越普遍,因此使用标准口音推断模型和目标口音推断模型对语音信息同时识别,输出匹配度高的关键词,可以有效加快识别的速度。
进一步地,上述输出第一匹配度和第二匹配度中匹配度较高的匹配度对应的关键词步骤可以包括:
当第一匹配度与第二匹配度均低于预设值时,将语音信息上传到服务器,以使服务器根据语音信息匹配最佳口音推断模型;
从服务器中获取最佳口音推断模型;
将语音信息发送给最佳口音推断模型;
由最佳口音推断模型识别语音信息得到语音信息的关键词。
当第一匹配度与第二匹配度均低于预设值时,说明标准口音推断模型和目标口音推断模型都不是最匹配的口音推断模型,此时可以将语音信息上传到服务器,由服务器匹配最佳口音推断模型,然后将语音信息发送给最佳口音推断模型;由最佳口音推断模型识别语音信息得到语音信息的关键词。
如今的家庭中,经常会同时由来自异地的方言口音,因此与设备所在地理位置使用的口音相匹配的目标口音推断模型便不再适用异地的方言口音,采用上述步骤便可以有效解决此问题。
需要说明的是,上述模型均是预先训练得到的,下面以目标口音推断模型的训练过程为例,对模型的训练进行说明。
目标口音推断模型的训练过程可以为:
获取目标口音信息、目标口音信息对应的文本信息;
以目标口音信息和目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到目标口音推断模型。
其中,目标口音信息、目标口音信息对应的文本信息可以从预先生成的口音地图中获取,也可以在口音地图形成过程中获取,目标口音信息可以为某地理位置的方言口音的语音信息,文本信息可以表示出目标语音信息的关键词或者内容。建立深度学习模型的过程为现有技术,详细内容不在本申请书中赘述。
另外,本实施例还可以包括生成口音地图的步骤,该步骤可以包括:
接收用户发出的同一关键词的标准口音信息和目标口音信息;
将标准口音信息发送给预先训练得到的标准口音推断模型,得到标准口音信息的文本信息;
将标准口音信息的文本信息设置为目标口音信息对应的文本信息;
获取目标地理位置;
由聚类算法对相同关键词的方言口音语音信息进行音素的比较和聚类,并根据方言口音语音信息对应的目标地理位置形成方言边界,进而形成口音地图。
需要说明的是,发出的同一关键词的标准口音信息和目标口音信息的用户可以是掌握多种方言或者语言的用户,由用户以自愿的方式发出同一关键词的标准口音信息和目标口音信息,这样,就不用花费巨大的人力去主动采集口音信息,节省了采集口音信息的人力和物力。
进一步地,获取目标地理位置的方式可以有多种,可以直接获取设备所在的目标地理位置,也可以获取用户输入的目标地理位置。当用户为非本地居民时,其方言口音对应的地理位置往往与设备所在的地理位置有所不同,此时用户可以直接输入其方言的所在地作为目标地理位置,可以提高口音地图中数据的准确性。
另外,由于有些设备不具备定位的功能,因此可以通过与设备在相连的相邻的移动设备的地理位置作为目标地理位置。
另外,在首次执行本方法的步骤时,步骤12中预设的目标语音识别模型可以由设备根据其所处的地理位置从服务器中获取,也可以由用户通过设备直接向服务器发送请求来获取。
其中,口音地图可以包括方言边界以及方言边界形成后所包含的区域对应的目标口音推断模型。
需要说明的是,为了保证语音聚类的准确性,允许用于通过电话、邮件等人工方式对方言发音、方言适配的准确性对管理者投诉,由管理者用人工干预的方式剔除不正确的方言语音。
实施例二
请参阅图2,图2是本申请实施例二提供的一种语音识别装置的结构示意图。
如图2所示,本实施例提供的语音识别装置包括:
获取模块21,用于获取语音信息;语音信息包括口音信息;
发送模块22,用于将语音信息发送给预先训练得到的目标语音识别模型;目标语音识别模型是根据设备的地理位置对应的口音信息训练得到的;
识别模块23,用于由目标语音识别模型识别语音信息,得到语音信息的关键词。
可选的,目标语音识别模型包括标准口音推断模型和目标口音推断模型;
识别模块包括:
识别单元,用于将语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到语音信息的第一关键词和第二关键词;目标语音识别模型识别的口音与目标口音相匹配,目标口音为设备的地理位置使用的口音;
匹配单元,用于分别确定第一文本信息与语音信息的第一匹配度和第二文本信息与语音信息的第二匹配度;
输出单元,用于输出第一匹配度和第二匹配度中匹配度较高的匹配度对应的文本信息。
可选的,还包括目标口音推断模型的训练模块,目标口音推断模型的训练模块包括:
第一获取单元,用于获取目标口音信息、目标口音信息对应的文本信息;
训练单元,用于以目标口音信息和目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到目标口音推断模型。
可选的,获取单元包括:
获取子单元,用于从预先生成的口音地图中,获取目标口音信息和目标口音信息对应的文本信息。
可选的,输出单元包括:
上传子单元,用于当第一匹配度与第二匹配度均低于预设值时,将语音信息上传到服务器,以使服务器根据语音信息匹配最佳口音推断模型;
下载子单元,用于从服务器中获取最佳口音推断模型;
发送子单元,用于将语音信息发送给最佳口音推断模型;
识别子单元,用于由最佳口音推断模型识别语音信息得到语音信息的关键词。
可选的,还包括口音地图生成模块,口音地图生成模块包括:
接收单元,用于接收用户发出的同一关键词的标准口音信息和目标口音信息;
识别单元,标准口音语音信息发送给预先训练得到的标准口音推断模型,得到标准口音信息的文本信息;
设置单元,用于将标准口音信息的文本信息设置为目标口音信息对应的文本信息;
第二获取单元,用于获取目标地理位置;
生成单元,用于由聚类算法对相同关键词的方言口音语音信息进行音素的比较和聚类,并根据方言口音语音信息对应的目标地理位置形成方言边界,进而形成口音地图。
可选的,第二获取单元包括:
第一获取子单元,用于获取设备所在的目标地理位置;
或,
第二获取子单元,用于获取用户输入的目标地理位置。
可选的,第一获取子单元具体用于获取与设备相连的邻近的移动终端地理位置作为目标地理位置。
实施例三
请参阅图3,图3是本申请实施例三提供的一种语音识别设备的结构示意图。
如图3所示,本申请提供的语音识别设备包括:
处理器31,以及与处理器相连接的存储器32;
存储器用于存储计算机程序,计算机程序至少用于执行如下的语音识别方法:
获取语音信息;
将语音信息发送给预先训练得到的目标语音识别模型;目标语音识别模型是根据设备的地理位置对应的口音信息训练得到的;
由目标语音识别模型识别语音信息,得到语音信息的关键词。
可选的,目标语音识别模型包括标准口音推断模型和目标口音推断模型;
由目标语音识别模型识别语音信息,得到语音信息的关键词,包括:
将语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到语音信息的第一关键词和第二关键词;目标语音识别模型识别的口音与目标口音相匹配,目标口音为设备的地理位置使用的口音;
分别确定第一文本信息与语音信息的第一匹配度和第二文本信息与语音信息的第二匹配度;
输出第一匹配度和第二匹配度中匹配度较高的匹配度对应的关键词。
可选的,目标口音推断模型的训练过程包括:
获取目标口音信息、目标口音信息对应的文本信息;
以目标口音信息和目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到目标口音推断模型。
可选的,获取目标口音信息、目标口音信息对应的文本信息,包括:
从预先生成的口音地图中,获取目标口音信息和目标口音信息对应的文本信息。
可选的,输出第一匹配度和第二匹配度中匹配度较高的匹配度对应的关键词,包括:
当第一匹配度与第二匹配度均低于预设值时,将语音信息上传到服务器,以使服务器根据语音信息匹配最佳口音推断模型;
从服务器中获取最佳口音推断模型;
将语音信息发送给最佳口音推断模型;
由最佳口音推断模型识别语音信息得到语音信息的关键词。
可选的,生成口音地图的步骤包括:
接收用户发出的同一关键词的标准口音信息和目标口音信息;
标准口音信息发送给预先训练得到的标准口音推断模型,得到标准口音信息的文本信息;
将标准口音信息的文本信息设置为目标口音信息对应的文本信息;
获取目标地理位置;
由聚类算法对相同关键词的方言口音语音信息进行音素的比较和聚类,并根据方言口音语音信息对应的目标地理位置形成方言边界,进而形成口音地图。
可选的,获取目标地理位置,包括:
获取设备所在的目标地理位置;
或,
获取用户输入的目标地理位置。
可选的,获取设备所在的目标地理位置包括:
获取相连的相邻的移动终端地理位置作为目标地理位置。
处理器用于调用并执行存储器中的计算机程序。
另外,本申请的实施例四提供一种空调,本实施例中的空调包括如实施例三的语音识别设备。
本申请实施例五提供一种存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时,实现如实施例一的语音识别方法中各个步骤。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种语音识别方法,其特征在于,包括:
获取语音信息;所述语音信息包括口音;
将所述语音信息发送给预设的目标语音识别模型;所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备所处地理位置使用的口音;
由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述目标语音识别模型包括标准口音推断模型和目标口音推断模型;
所述由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息,包括:
将所述语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到所述语音信息的第一文本信息和第二文本信息;所述目标口音推断模型识别的口音与目标口音相匹配,所述目标口音为设备的地理位置使用的口音;
分别确定所述第一文本信息与所述语音信息的第一匹配度和所述第二文本信息与所述语音信息的第二匹配度;
输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息。
3.根据权利要求2所述的方法,其特征在于,所述输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息,包括:
当所述第一匹配度与所述第二匹配度均低于预设值时,将所述语音信息上传到服务器,以使所述服务器根据所述语音信息匹配最佳口音推断模型;
从所述服务器中获取所述最佳口音推断模型;
将所述语音信息发送给所述最佳口音推断模型;
由所述最佳口音推断模型识别所述语音信息得到所述语音信息的文本信息。
4.根据权利要求2所述的方法,其特征在于,还包括:
接收用户发出的同一关键词的标准口音信息和目标口音信息;
将所述标准口音信息发送给预先训练得到的标准口音推断模型,得到所述标准口音信息的文本信息;
将所述标准口音信息的文本信息设置为所述目标口音信息对应的文本信息;
获取目标地理位置;
由聚类算法对相同关键词的所述方言口音语音信息进行音素的比较和聚类,并根据所述方言口音语音信息对应的所述目标地理位置形成方言边界,进而形成口音地图。
5.根据权利要求4所述的方法,其特征在于,所述目标口音推断模型的训练过程包括:
获取所述目标口音信息、与所述目标口音信息对应的所述文本信息;
以所述目标口音信息和所述目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到所述目标口音推断模型。
6.根据权利要求4所述的方法,其特征在于,所述获取目标地理位置,包括:
获取设备所在的目标地理位置;
或,
获取用户输入的目标地理位置。
7.根据权利要求6所述的方法,其特征在于,所述获取设备所在的目标地理位置包括:
获取与所述设备相连的邻近的移动终端地理位置作为所述目标地理位置。
8.一种语音识别装置,其特征在于,包括:
获取模块,用于获取语音信息;所述语音信息包括口音;
发送模块,用于所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备所处地理位置使用的口音;
识别模块,用于由所述目标语音识别模型识别所述语音信息,得到所述语音信息的文本信息。
9.根据权利要求8所述的装置,其特征在于,所述目标语音识别模型包括标准口音推断模型和目标口音推断模型;
所述识别模块包括:
识别单元,用于将所述语音信息发送给预先训练得到的标准口音推断模型和预先训练得到的目标口音推断模型,分别对应得到所述语音信息的第一关键词和第二关键词;所述目标语音识别模型识别的口音与目标口音相匹配,所述目标口音为设备的地理位置使用的口音;
匹配单元,用于分别确定所述第一文本信息与所述语音信息的第一匹配度和所述第二文本信息与所述语音信息的第二匹配度;
输出单元,用于输出所述第一匹配度和所述第二匹配度中匹配度较高的匹配度对应的文本信息。
10.根据权利要求9所述的装置,其特征在于,所述输出单元包括:
上传子单元,用于当所述第一匹配度与所述第二匹配度均低于预设值时,将所述语音信息上传到服务器,以使所述服务器根据所述语音信息匹配最佳口音推断模型;
下载子单元,用于从所述服务器中获取所述最佳口音推断模型;
发送子单元,用于将所述语音信息发送给所述最佳口音推断模型;
识别子单元,用于由所述最佳口音推断模型识别所述语音信息得到所述语音信息的文本信息。
11.根据权利要求9所述的装置,其特征在于,还包括口音地图生成模块,所述口音地图生成模块包括:
接收单元,用于接收用户发出的同一关键词的标准口音信息和目标口音信息;
识别单元,用于将所述标准口音语音信息发送给预先训练得到的标准口音推断模型,得到所述标准口音信息的文本信息;
设置单元,用于将所述标准口音信息的文本信息设置为所述目标口音信息对应的文本信息;
第二获取单元,用于获取目标地理位置;
生成单元,用于由聚类算法对相同关键词的所述方言口音语音信息进行音素的比较和聚类,并根据所述方言口音语音信息对应的所述目标地理位置形成方言边界,进而形成口音地图。
12.根据权利要求11所述的装置,其特征在于,还包括目标口音推断模型的训练模块,所述目标口音推断模型的训练模块包括:
第一获取单元,用于获取目标口音信息、所述目标口音信息对应的文本信息;
训练单元,用于以所述目标口音信息和所述目标口音信息对应的文本信息作为训练样本,训练预先建立的深度学习模型,得到所述目标口音推断模型。
13.根据权利要求11所述的装置,其特征在于,所述第二获取单元包括:
第一获取子单元,用于获取设备所在的目标地理位置;
或,
第二获取子单元,用于获取用户输入的目标地理位置。
14.根据权利要求13所述的装置,其特征在于,所述第一获取子单元具体用于获取与所述设备相连的邻近的移动终端地理位置作为所述目标地理位置。
15.一种语音识别的设备,其特征在于,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行权利要求1-7任一项所述的语音识别方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
16.一种空调,其特征在于,包括如权利要求15所述的语音识别的设备。
17.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7任一项所述的语音识别方法中各个步骤。
CN201811323620.3A 2018-11-07 2018-11-07 语音识别方法、装置、设备、存储介质及空调 Pending CN111161718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811323620.3A CN111161718A (zh) 2018-11-07 2018-11-07 语音识别方法、装置、设备、存储介质及空调

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811323620.3A CN111161718A (zh) 2018-11-07 2018-11-07 语音识别方法、装置、设备、存储介质及空调

Publications (1)

Publication Number Publication Date
CN111161718A true CN111161718A (zh) 2020-05-15

Family

ID=70554794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811323620.3A Pending CN111161718A (zh) 2018-11-07 2018-11-07 语音识别方法、装置、设备、存储介质及空调

Country Status (1)

Country Link
CN (1) CN111161718A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933107A (zh) * 2020-09-04 2020-11-13 珠海格力电器股份有限公司 语音识别方法、装置、存储介质和处理器
CN116386603A (zh) * 2023-06-01 2023-07-04 蔚来汽车科技(安徽)有限公司 语音识别方法、设备、驾驶设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236600A1 (en) * 2013-01-29 2014-08-21 Tencent Technology (Shenzhen) Company Limited Method and device for keyword detection
CN104008132A (zh) * 2014-05-04 2014-08-27 深圳市北科瑞声科技有限公司 语音地图搜索方法及***
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及***
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN107564525A (zh) * 2017-10-23 2018-01-09 深圳北鱼信息科技有限公司 语音识别方法及装置
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、***、设备及存储介质
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236600A1 (en) * 2013-01-29 2014-08-21 Tencent Technology (Shenzhen) Company Limited Method and device for keyword detection
CN104008132A (zh) * 2014-05-04 2014-08-27 深圳市北科瑞声科技有限公司 语音地图搜索方法及***
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及***
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN107564525A (zh) * 2017-10-23 2018-01-09 深圳北鱼信息科技有限公司 语音识别方法及装置
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、***、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张策等: "《重庆方言语音识别***的设计与实现》", 《计算机测量与控制》 *
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017, 电子科技大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933107A (zh) * 2020-09-04 2020-11-13 珠海格力电器股份有限公司 语音识别方法、装置、存储介质和处理器
CN116386603A (zh) * 2023-06-01 2023-07-04 蔚来汽车科技(安徽)有限公司 语音识别方法、设备、驾驶设备和介质

Similar Documents

Publication Publication Date Title
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
US9430467B2 (en) Mobile speech-to-speech interpretation system
CN109410664B (zh) 一种发音纠正方法及电子设备
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
US10152965B2 (en) Learning personalized entity pronunciations
CN105895103B (zh) 一种语音识别方法及装置
CN108288467B (zh) 一种语音识别方法、装置及语音识别引擎
CN108986826A (zh) 自动生成会议记录的方法、电子装置及可读存储介质
CN106875949B (zh) 一种语音识别的校正方法及装置
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
CN108447471A (zh) 语音识别方法及语音识别装置
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN103635962A (zh) 声音识别***、识别字典登记***以及声学模型标识符序列生成装置
US20220284882A1 (en) Instantaneous Learning in Text-To-Speech During Dialog
CN110544470B (zh) 语音识别方法、装置、可读存储介质和电子设备
KR102140391B1 (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
TW201911290A (zh) 用於基於語言的服務呼叫的系統和方法
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
CN111178081A (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication