CN112820294A - 语音识别方法、装置、存储介质及电子设备 - Google Patents

语音识别方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112820294A
CN112820294A CN202110011888.9A CN202110011888A CN112820294A CN 112820294 A CN112820294 A CN 112820294A CN 202110011888 A CN202110011888 A CN 202110011888A CN 112820294 A CN112820294 A CN 112820294A
Authority
CN
China
Prior art keywords
phoneme sequence
mapping
target
phoneme
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110011888.9A
Other languages
English (en)
Other versions
CN112820294B (zh
Inventor
陈进
梁微
林锋
庄莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mgjia Beijing Technology Co ltd
Original Assignee
Mgjia Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mgjia Beijing Technology Co ltd filed Critical Mgjia Beijing Technology Co ltd
Priority to CN202110011888.9A priority Critical patent/CN112820294B/zh
Publication of CN112820294A publication Critical patent/CN112820294A/zh
Application granted granted Critical
Publication of CN112820294B publication Critical patent/CN112820294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种语音识别方法、装置、存储介质及电子设备,该方法通过将接收到的用户语音信息识别为语音文本,该语音文本包括位置标识信息;从该语音文本中识别该位置标识信息;获取该位置标识信息对应的至少一个音素序列;在根据至少一个音素序列确定该位置识别信息易被混淆的情况下,根据至少一个该音素序列确定校正之后的目标位置信息;根据该目标位置信息生成该用户语音信息对应的目标语音文本。这样,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而能够提升语音识别***用户的体验。

Description

语音识别方法、装置、存储介质及电子设备
技术领域
本公开涉及语音对话领域,具体地,涉及一种语音识别方法、装置、存储介质及电子设备。
背景技术
语音识别是一种将数字语音转换为计算机可以理解的文字的技术。最近几年,语音识别技术取得显著进展,语音识别技术逐渐走入人们的生活,给我们的生活、工作带来便利。
目前的语音识别,经常因为用户的发音不准或者存在同音字词的情况而造成语音识别结果不准确的问题,尤其在电子地图,导航等应用场景中,若对地点信息识别错误,则很容易导致南辕北辙的现象出现,从而不仅无法为用户提供便利,反而会给用户带来不必要的麻烦,如此会非常不利于提升用户体验。
发明内容
本公开的目的是提供一种语音识别方法、装置、存储介质及电子设备。
为了实现上述目的,本公开的第一方面提供一种语音识别方法,所述方法包括:
将接收到的用户语音信息识别为语音文本,所述语音文本包括位置标识信息;
从所述语音文本中识别所述位置标识信息;
获取所述位置标识信息对应的至少一个音素序列;
在根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况下,根据至少一个所述音素序列确定校正之后的目标位置信息;
根据所述目标位置信息生成所述用户语音信息对应的目标语音文本。
可选地,所述根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况,包括:
在确定目标数据库中存在至少一个所述音素序列中的至少一个的情况下,从所述目标数据库中获取所述至少一个所述音素序列对应的至少一个候选音素序列,所述候选音素序列为在所述目标数据库内所述音素序列对应的易错音素序列,中间音素序列或者标准音素序列;
获取每个所述候选音素序列的映射关系,所述映射关系包括映射节点属性和映射方向属性,所述映射节点属性包括映射根节点和映射尾节点,所述映射方向属性包括单向映射和双向映射;
若确定该候选音素序列对应的映射方向属性包括双向映射,则确定所述位置识别信息易被混淆;
若确定该候选音素序列对应的映射方向属性仅包括单向映射,且在该单向映射的映射关系中该候选音素序列为映射根节点,则确定所述位置识别信息易被混淆。
可选地,所述目标数据库,通过以下方式预先生成:
获取多个区域中每个区域对应的易错音素序列组,所述易错音素序列组包括该区域内的多个位置信息对应的易错音素序列;
获取每个所述易错音素序列对应的所述中间音素序列和标准音素序列,以得到该区域对应的音素序列集合;
建立每个所述易错音素序列与所述中间音素序列,以及所述中间音素序列与标准音素序列之间的所述映射关系,以生成多个区域对应的所述目标数据库。
可选地,所述确定目标数据库中存在至少一个所述音素序列中的至少一个,包括:
获取目标终端当前所处的目标区域;
从所述目标数据库中确定所述目标区域对应的区域音素序列集合,所述区域音素序列集合包括多个位置信息对应的易错音素序列,中间音素序列以及标准音素序列;
在确定至少一个所述音素序列中的任一个属于所述区域音素序列集合,则确定目标数据库中存在至少一个所述音素序列中的至少一个。
可选地,所述根据至少一个所述音素序列确定校正之后的目标位置信息,包括:
在确定所述候选音素序列为映射根节点的情况下,根据所述候选音素序列的映射尾节点确定对应的目标音素序列;
若确定所述候选音素序列对应的映射尾节点对应的目标候选音素序列包括多个的情况下,获取每个目标候选音素序列的权重值;
根据所述目标候选音素序列的权重值从多个所述目标候选音素序列中确定目标音素序列;
将所述目标音素序列对应的位置信息确定为所述目标位置信息。
可选地,所述获取多个所述目标候选音素序列权重值,包括:
获取每个目标候选音素序列在所述目标区域内的热度信息;
根据所述热度信息确定每个所述目标候选音素序列的权重值。
可选地,所述方法还包括:
在确定所述位置标识信息不易被混淆的情况下,将所述位置标识信息确定为所述目标位置信息。
可选地,所述确定所述位置标识信息不易被混淆,包括:
若确定每个所述候选音素序列对应的映射方向属性仅为单向映射,且每个所述候选音素序列对应的映射节点属性均为映射尾节点,则确定所述位置标识信息不易被混淆;
或者,
在确定所述目标数据库中不存在至少一个所述音素序列中的任一个的情况下,确定所述位置标识信息不易被混淆。
本公开的第二方面提供一种语音识别装置,所述装置包括:
第一识别模块,用于将接收到的用户语音信息识别为语音文本,所述语音文本包括位置标识信息;
第二识别模块,用于从所述语音文本中识别所述位置标识信息;
获取模块,用于获取所述位置标识信息对应的至少一个音素序列;
第一确定模块,用于在根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况下,根据至少一个所述音素序列确定校正之后的目标位置信息;
生成模块,用于根据所述目标位置信息生成所述用户语音信息对应的目标语音文本。
可选地,所述第一确定模块,用于:
在确定目标数据库中存在至少一个所述音素序列中的至少一个的情况下,从所述目标数据库中获取所述至少一个所述音素序列对应的至少一个候选音素序列,所述候选音素序列为在所述目标数据库内所述音素序列对应的易错音素序列,中间音素序列或者标准音素序列;
获取每个所述候选音素序列的映射关系,所述映射关系包括映射节点属性和映射方向属性,所述映射节点属性包括映射根节点和映射尾节点,所述映射方向属性包括单向映射和双向映射;
若确定该候选音素序列对应的映射方向属性包括双向映射,则确定所述位置识别信息易被混淆;
若确定该候选音素序列对应的映射方向属性仅包括单向映射,且在该单向映射的映射关系中该候选音素序列为映射根节点,则确定所述位置识别信息易被混淆。
可选地,所述目标数据库,通过以下方式预先生成:
获取多个区域中每个区域对应的易错音素序列组,所述易错音素序列组包括该区域内的多个位置信息对应的易错音素序列;
获取每个所述易错音素序列对应的所述中间音素序列和标准音素序列,以得到该区域对应的音素序列集合;
建立每个所述易错音素序列与所述中间音素序列,以及所述中间音素序列与标准音素序列之间的所述映射关系,以生成多个区域对应的所述目标数据库。
可选地,所述第一确定模块,用于:
获取目标终端当前所处的目标区域;
从所述目标数据库中确定所述目标区域对应的区域音素序列集合,所述区域音素序列集合包括多个位置信息对应的易错音素序列,中间音素序列以及标准音素序列;
在确定至少一个所述音素序列中的任一个属于所述区域音素序列集合,则确定目标数据库中存在至少一个所述音素序列中的至少一个。
可选地,所述第一确定模块,用于:
在确定所述候选音素序列为映射根节点的情况下,根据所述候选音素序列的映射尾节点确定对应的目标音素序列;
若确定所述候选音素序列对应的映射尾节点对应的目标候选音素序列包括多个的情况下,获取每个目标候选音素序列的权重值;
根据所述目标候选音素序列的权重值从多个所述目标候选音素序列中确定目标音素序列;
将所述目标音素序列对应的位置信息确定为所述目标位置信息。
可选地,所述第一确定模块,用于:
获取每个目标候选音素序列在所述目标区域内的热度信息;
根据所述热度信息确定每个所述目标候选音素序列的权重值。
可选地,所述装置还包括:
第二确定模块,用于在确定所述位置标识信息不易被混淆的情况下,将所述位置标识信息确定为所述目标位置信息。
可选地,所述第二确定模块,用于:
若确定每个所述候选音素序列对应的映射方向属性仅为单向映射,且每个所述候选音素序列对应的映射节点属性均为映射尾节点,则确定所述位置标识信息不易被混淆;
或者,
在确定所述目标数据库中不存在至少一个所述音素序列中的任一个的情况下,确定所述位置标识信息不易被混淆。
本公开的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上第一方面所述方法的步骤。
本公开的第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现以上第一方面所述方法的步骤。
通过上述技术方案,将接收到的用户语音信息识别为语音文本,所述语音文本包括位置标识信息;从所述语音文本中识别所述位置标识信息;获取所述位置标识信息对应的至少一个音素序列;在根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况下,根据至少一个所述音素序列确定校正之后的目标位置信息;根据所述目标位置信息生成所述用户语音信息对应的目标语音文本。这样,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而有助于提升用户体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例示出的一种语音识别方法的流程图;
图2是根据图1所示实施例示出的一种语音识别方法的流程图;
图3是根据图1所示实施例示出的另一种语音识别方法的流程图;
图4是本公开一示例性实施例示出的一种语音识别装置的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在详细介绍本公开的具体实施方式之前,首先对本公开的应用场景进行以下说明,本公开可以应用于语音识别场景,尤其是涉及地点信息识别的语音识别场景,例如电子地图中的语音识别,导航过程中的语音识别,以及旅游***中涉及到的语音识别等。相关技术中,进行语音识别的过程中,经常因为用户发音不准或者存在同音字词的情况而导致语音识别结果准确性较差,例如,用户在输入语音信息时采用了携带有很重口音的普通话,或者直接采用地方方言输入语音信息,再或者用户对一个不熟悉的地名、词语读音把握不准时输入了一个不准确的语音信息等情形。用户输入的语音内存在同音字词的情况,例如用户输入语音信息识别的语音文本为“去嘉州实验小学”但实际在该区域内只有“加洲实验小学”,两个发音完全相同。在电子地图,导航等应用场景中,若语音识别结果不准确,则很容易导致用户想去A地点,结果去了B地点,或者直接无法搜索到相关地方的现象,从而不仅无法为用户提供便利,反而会给用户带来不必要的麻烦,如此会非常不利于提升用户体验。
为了克服以上技术问题,本公开提供一种语音识别方法、装置、存储介质及电子设备,该方法通过将接收到的用户语音信息识别为语音文本,该语音文本包括位置标识信息;从该语音文本中识别该位置标识信息;获取该位置标识信息对应的至少一个音素序列;在根据该至少一个音素序列确定该位置识别信息易被混淆的情况下,根据至少一个该音素序列确定校正之后的目标位置信息;根据该目标位置信息生成该用户语音信息对应的目标语音文本。这样,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而能够提升语音识别***用户的体验。
下面结合具体实施例对本公开进行说明。
图1是本公开一示例性实施例示出的一种语音识别方法的流程图;参见图1,该方法可以包括以下步骤:
步骤101,将接收到的用户语音信息识别为语音文本。
其中,该语音文本包括位置标识信息,该语音信息为音频信息,该语音文本为计算机可以理解的文字信息。
示例的,该位置标识信息可以是街道名称,景点名称,建筑物名称,商铺名称,企业名称,公交站牌名称等POI(Point ofInformation,信息点)信息,例如:可以是XX公园,XX大楼,XX公交站等。
步骤102,从该语音文本中识别该位置标识信息。
本步骤中,从语音文本中识别位置标识信息的过程可以参考现有技术中对地名信息的识别方式,现有技术中的相关实施方式较多,本公开对此不作限定。
步骤103,获取该位置标识信息对应的至少一个音素序列。
其中,由于在同一个区域内,针对同一个位置标识信息可能会有多种读法,因此一个位置标识信息会对应有至少一个因素序列。
示例地,在一个位置标识信息中包括汉字“打”时,一种读法为“da2”另一种读法为“da3”,这里该数字2和3分别代表声调,因此该位置标识信息会对应有两个音素序列。
步骤104,在根据该至少一个音素序列确定该位置识别信息易被混淆的情况下,根据至少一个该音素序列确定校正之后的目标位置信息。
本步骤中,该根据该至少一个音素序列确定该位置识别信息易被混淆的情况的实施方式可以包括:
在确定目标数据库中存在至少一个该音素序列中的至少一个的情况下,从该目标数据库中获取该至少一个该音素序列对应的至少一个候选音素序列,该候选音素序列为在该目标数据库内该音素序列对应的易错音素序列,中间音素序列或者标准音素序列;获取每个该候选音素序列的映射关系,该映射关系包括映射节点属性和映射方向属性,该映射节点属性包括映射根节点和映射尾节点,该映射方向属性包括单向映射和双向映射;若确定该候选音素序列对应的映射方向属性包括双向映射,则确定该位置识别信息易被混淆;若确定该候选音素序列对应的映射方向属性仅包括单向映射,且在该单向映射的映射关系中该候选音素序列为映射根节点,则确定该位置识别信息易被混淆。
需要指出的是,该易错音素序列可以是因为用户发音不准,或者存在同音字词而导致的容易出现语音识别错误的音素序列,该标准音素序列为易错音素序列对应的正确发音的音素序列,该中间音素序列为发音在该易错音素序列与标准音素序列之间的音素序列,例如该中间音素序列可以是混淆音素序列,该混淆音素序列为去掉声调、翘舌、后鼻音等之后得到的音素序列。
另外,本步骤中所述的根据至少一个该音素序列确定校正之后的目标位置信息的实施方式可以包括:
在确定该候选音素序列为映射根节点的情况下,根据该候选音素序列的映射尾节点确定对应的目标音素序列;若确定该候选音素序列对应的映射尾节点对应的目标候选音素序列包括多个的情况下,获取每个目标候选音素序列的权重值;根据该目标候选音素序列的权重值从多个该目标候选音素序列中确定目标音素序列;将该目标音素序列对应的位置信息确定为该目标位置信息。
步骤105,根据该目标位置信息生成该用户语音信息对应的目标语音文本。
示例地,若对用户语音信息进行语音识别得到的语音文本为“我要去一家超市”其中对应的位置标识信息为“一家超市”,通过对该“一家超市”对应的音素序列确定校正之后的目标位置信息为“宜家超市”,则将该语音文本中的位置标识信息“一家超市”替换为该目标位置信息“宜家超市”,从而得到该目标语音文本“我要去宜家超市”。
通过以上技术方案,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而有助于提升用户体验。
图2是根据图1所示实施例示出的一种语音识别方法的流程图,如图2所示,在步骤104中所述的根据该至少一个音素序列确定该位置识别信息易被混淆的实施方式可以包括以下步骤:
S1041、在确定目标数据库中存在至少一个该音素序列中的至少一个的情况下,从该目标数据库中获取该至少一个该音素序列对应的至少一个候选音素序列。
其中,该候选音素序列为在该目标数据库内该音素序列对应的易错音素序列,中间音素序列或者标准音素序列。
本步骤中,可以将该至少一个音素序列与该目标数据库中的易错音素序列,中间音素序列以及标准音素序列进行匹配,将与该至少一个音素序列匹配的易错音素序列,中间音素序列或者标准音素序列确定为该候选音素序列。
另外,该目标数据库,通过以下方式预先生成:
获取多个区域中每个区域对应的易错音素序列组,该易错音素序列组包括该区域内的多个位置信息对应的易错音素序列;获取每个该易错音素序列对应的该中间音素序列和标准音素序列,以得到该区域对应的音素序列集合;建立每个该易错音素序列与该中间音素序列,以及该中间音素序列与标准音素序列之间的该映射关系,以生成多个区域对应的该目标数据库。这里的区域可以是行政区域,例如每个省可以是一个区域,每个市可以是一个区域,甚至每个县也可以是一个区域。
示例地,一个位置标识信息存在易错音素序列A、易错音素序列B和标准音素序列D三种读法,在生成该目标数据库时,可以获取该易错音素序列A和该易错音素序列B,与标准音素序列D之间的一个中间音素序列C,例如可以是该易错音素序列A、该易错音素序列B以及标准音素序列D对应的混淆音素序列,该混淆音素序列为对易错音素序列A、该易错音素序列B以及标准音素序列D去掉声调、翘舌、后鼻音等之后得到的音素,用于将相近的发音映射到一起。分别建立该易错音素序列A与该易错音素序列B之间的映射关系,该易错音素序列A与该中间音素序列C之间的映射关系,该易错音素序列B与该中间音素序列C之间的映射关系,以及该标准音素序列D与该中间音素序列C之间的映射关系,例如,该音素序列A与该音素序列B之间的映射关系的映射方向属性为双向映射,即音素序列A可以映射至该音素序列B,该音素序列B也可以映射至该音素序列A,该音素序列A与中间音素序列C之间的映射关系的映射方向属性为单向映射,且该音素序列A为映射根节点,该中间音素序列C为映射尾结点,即该音素序列A可以映射至该中间音素序列C,但该音素序列C不能映射至该音素序列A。该音素序列B与中间音素序列C之间的映射关系的映射方向属性为单向映射,且该音素序列B为映射根节点,该中间音素序列C为映射尾结点,即该音素序列B可以映射至该中间音素序列C,但该音素序列C不能映射至该音素序列B。该音素序列D与中间音素序列C之间的映射关系的映射方向属性为单向映射,且该中间音素序列C为映射根节点,该音素序列D为映射尾结点,即该中间音素序列C可以映射至该音素序列D,但该音素序列D不能映射至该中间音素序列C。获取每个区域内的多个位置信息对应的易错音素序列,以及每个音素序列对应的中间音素序列和标准音素序列,以生成该区域对应的音素序列集合,从而形成该目标数据库。
需要说明的是,假设用户想要表达的是音素序列D的音,实际发出的是音素序列A或者音素序列B的音,则可以确定该音素序列A,音素序列B与音素序列D为相近发音,在语音识别过程中,均可以通过该中间音素序列C获取到标准音素序列D的音,这样能够有效的对该音素序列A和该音素序列B的音进行校正,从而得到一个准确的语音识别结果。
还需补充的是,该S1041中所述的确定目标数据库中存在至少一个该音素序列中的至少一个的实施方式可以包括:
获取目标终端当前所处的目标区域;从该目标数据库中确定该目标区域对应的区域音素序列集合,该区域音素序列集合包括多个位置信息对应的易错音素序列,中间音素序列以及标准音素序列;在确定至少一个该音素序列中的任一个属于该区域音素序列集合,则确定目标数据库中存在至少一个该音素序列中的至少一个。
其中,该目标终端可以是车载语音识别模块,也可以是手机、电脑、Ipad、手表等终端,可以通过设置在该目标终端内的定位模块,获取该目标终端当前所处的目标区域,在该目标数据库中每个区域对应一个音素序列集合,该音素序列集合中包括该区域内经常出现的多个位置信息对应的易错音素序列,中间音素序列以及标准音素序列。
S1042、获取每个该候选音素序列的映射关系。
其中,该映射关系包括映射节点属性和映射方向属性,该映射节点属性包括映射根节点和映射尾节点,该映射方向属性包括单向映射和双向映射。
仍以上述步骤S1041中所示示例为例进行说明,若用户输入该位置标识信息为音素序列A1,将该音素序列A1与目标数据库中的易错音素序列A、易错音素序列B、中间音素序列C以及标准音素序列D进行匹配,确定该易错音素序列A为与该音素序列A1相匹配的候选音素序列,从该目标数据库中获取到该易错音素序列A包括易错音素序列A与该易错音素序列B之间映射方向属性为双向映射的映射关系,以及易错音素序列A与该中间音素序列C之间映射方向属性为单向映射的映射关系,其中,在该单行映射中,该易错音素序列A为映射根节点。
需要说明的是,将该音素序列A1与目标数据库中的易错音素序列A、易错音素序列B、中间音素序列C以及标准音素序列D进行匹配的实施方式为:确定该音素序列A1是否与易错音素序列A、易错音素序列B、中间音素序列C以及标准音素序列D中的任一个相同,在该音素序列A1与易错音素序列A相同的情况下,确定该音素序列A1与易错音素序列A相匹配;在该音素序列A1与易错音素序列B相同的情况下,确定该音素序列A1与易错音素序列B相匹配,在该音素序列A1与中间音素序列C相同的情况下,确定该音素序列A1与中间音素序列C相匹配,在该音素序列A1与标准音素序列D相同的情况下,确定该音素序列A1与标准音素序列D相匹配。
S1043、若确定该候选音素序列对应的映射方向属性包括双向映射,则确定该位置识别信息易被混淆。
仍以上述步骤S1042中所示示例为例进行说明,由于该候选音素序列为该易错音素序列A,该易错音素序列A对应的映射关系包括易错音素序列A与该易错音素序列B之间映射方向属性为双向映射的映射关系,因此可以确定该候选音素序列对应的映射方向属性包括双向映射,该音素序列A1对应的位置标识信息易被混淆。
S1044、若确定该候选音素序列对应的映射方向属性仅包括单向映射,且在该单向映射的映射关系中该候选音素序列为映射根节点,则确定该位置识别信息易被混淆。
仍以上述步骤S1042中所示示例为例进行说明,由于该候选音素序列为该易错音素序列A,该易错音素序列A对应的映射关系包括易错音素序列A与该中间音素序列C之间映射方向属性为单向映射的映射关系,且在该单行映射中,该易错音素序列A为映射根节点,因此可以确定该音素序列A1对应的位置标识信息易被混淆。
以上步骤S1041至S1044能够有效的确定该位置标识信息是否属于易被混淆的位置信息,在确定该位置标识信息之后可以通过图3中所示的S1045至S1048所述的步骤确定校正之后的目标位置信息,图3是根据图1所示实施例示出的另一种语音识别方法的流程图,如图3所示,
在该步骤104中所述的根据至少一个该音素序列确定校正之后的目标位置信息的实施方式可以包括以下步骤:
S1045、在确定该候选音素序列为映射根节点的情况下,根据该候选音素序列的映射尾节点确定对应的目标音素序列。
其中,在该候选音素序列为易错音素序列的情况下,获取该易错音素序列的映射尾节点对应的中间音素序列,并获取该中间音素序列对应的标准音素序列,将该标准音素序列确定为该目标音素序列。
仍以上述步骤S1041至S1044所示的示例为例,该候选音素序列为该易错音素序列A,该易错音素序列A对应中间音素序列C,获取该中间音素序列C对应的标准音素序列D,将该标准音素序列D确定为该目标候选音素序列。
S1046、若确定该候选音素序列对应的映射尾节点对应的目标候选音素序列包括多个的情况下,获取每个目标候选音素序列的权重值。
本步骤中所述的获取每个目标候选音素序列的权重值的实施方式可以包括:获取每个目标候选音素序列在该目标区域内的热度信息;根据该热度信息确定每个该目标候选音素序列的权重值。
其中,该热度信息可以是用于表征该目标候选音素序列对应的地点,位置在互联网上被搜索的次数,被搜索的次数越多,对应的热度越高,被搜索的次数越少,对应的热度越低;相应地,该热度越高,该目标候选音素序列的权重值越大,该热度越低,该目标候选音素序列的权重值越小。
示例的,在该中间音素序列C对应有标准音素序列D1和标准音素序列D2,且该中间音素序列C对应有易错音素序列A和易错音素序列B,其中,中间音素序列C与标准音素序列D1之间为映射方向属性为单向映射的映射关系,中间音素序列C与标准音素序列D2之间为映射方向属性为单向映射的映射关系,该易错音素序列A和易错音素序列B之间为映射方向属性为双向映射的映射关系,该易错音素序列A和易错音素序列B分别与该中间音素序列C之间为映射方向属性为单向映射的映射关系。在该候选音素序列为该易错音素序列B的情况下,获取到该目标候选音素序列为该标准音素序列D1和标准音素序列D2,此时,若该标准音素序列D1对应的权重值为80,该标准音素序列D2对应的权重值为30,则确定该标准音素序列D1为该目标音素序列。
S1047、根据该目标候选音素序列的权重值从多个该目标候选音素序列中确定目标音素序列。
本步骤中一种可能的实施方式为:从多个该目标候选音素序列中获取权重值最大的目标候选音素序列,将该权重值最大的目标候选音素序列确定为该目标音素序列。
S1048、将该目标音素序列对应的位置信息确定为该目标位置信息。
其中,获取该目标音素序列对应的位置信息的实施方式可以参考现有技术中将音素序列翻译为相应文字内容的过程,本公开对此不作限定。
这样,通过以上步骤S1045至S1046能够在确定该位置标识信息之后,有效确定校正之后的目标位置信息,从而为步骤105中生成目标语音文本提供依据。
可选地,该方法还可以包括:
在确定该位置标识信息不易被混淆的情况下,将该位置标识信息确定为该目标位置信息。
其中,所述的确定该位置标识信息不易被混淆对应的一种可能的实施方式为:
若确定每个该候选音素序列对应的映射方向属性仅包括单向映射,且每个该候选音素序列对应的映射节点属性均为映射尾节点,则确定该位置标识信息不易被混淆。
示例地,若在该目标数据中,一个地点信息对应有易错音素序列E,中间音素序列F,以及标准音素序列G,其中,该易错音素序列E与中间音素序列F之间为映射节点属性为单向映射的映射关系,该易错音素序列E为映射根节点,该中间音素序列F为映射尾节点;该中间音素序列F与该标准音素序列G之间为映射节点属性为单向映射的映射关系,该中间音素序列F为映射根节点,该标准音素序列G为映射尾节点。用户的语音文本中的该位置标识信息对应的音素序列为音素序列G1,与该音素序列G1相匹配的音素序列为该标准音素序列G,即该候选音素序列为该标准音素序列G,由于该标准音素序列G对应的映射方向属性仅包括单向映射,且该标准音素序列G对应的映射节点属性为映射尾节点,因此可以确定该位置标识信息不易被混淆。
所述的确定该位置标识信息不易被混淆对应的另一种可能的实施方式为:在确定该目标数据库中不存在至少一个该音素序列中的任一个的情况下,确定该位置标识信息不易被混淆。
需要说明的是,由于该目标数据库中收录的均为易混淆的位置信息对应的音素,因此在确定该目标数据库中不存在至少一个该音素序列中的任一个的情况下,可以确定该位置标识信息属于不易被混淆的位置信息。
以上技术方案,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而有助于提升用户体验。
图4是本公开一示例性实施例示出的一种语音识别装置的框图;参见图4,该装置可以包括:
第一识别模块401,用于将接收到的用户语音信息识别为语音文本,该语音文本包括位置标识信息;
第二识别模块402,用于从该语音文本中识别该位置标识信息;
获取模块403,用于获取该位置标识信息对应的至少一个音素序列;
第一确定模块404,用于在根据该至少一个音素序列确定该位置识别信息易被混淆的情况下,根据至少一个该音素序列确定校正之后的目标位置信息;
生成模块405,用于根据该目标位置信息生成该用户语音信息对应的目标语音文本。
通过以上技术方案,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而有助于提升用户体验。
可选地,该第一确定模块404,用于:
在确定目标数据库中存在至少一个该音素序列中的至少一个的情况下,从该目标数据库中获取该至少一个该音素序列对应的至少一个候选音素序列,该候选音素序列为在该目标数据库内该音素序列对应的易错音素序列,中间音素序列或者标准音素序列;
获取每个该候选音素序列的映射关系,该映射关系包括映射节点属性和映射方向属性,该映射节点属性包括映射根节点和映射尾节点,该映射方向属性包括单向映射和双向映射;
若确定该候选音素序列对应的映射方向属性包括双向映射,则确定该位置识别信息易被混淆;
若确定该候选音素序列对应的映射方向属性仅包括单向映射,且在该单向映射的映射关系中该候选音素序列为映射根节点,则确定该位置识别信息易被混淆
可选地,该目标数据库,通过以下方式预先生成:
获取多个区域中每个区域对应的易错音素序列组,该易错音素序列组包括该区域内的多个位置信息对应的易错音素序列;
获取每个该易错音素序列对应的该中间音素序列和标准音素序列,以得到该区域对应的音素序列集合;
建立每个该易错音素序列与该中间音素序列,以及该中间音素序列与标准音素序列之间的该映射关系,以生成多个区域对应的该目标数据库。
可选地,该第一确定模块404,用于:
获取目标终端当前所处的目标区域;
从该目标数据库中确定该目标区域对应的区域音素序列集合,该区域音素序列集合包括多个位置信息对应的易错音素序列,中间音素序列以及标准音素序列;
在确定至少一个该音素序列中的任一个属于该区域音素序列集合,则确定目标数据库中存在至少一个该音素序列中的至少一个。
可选地,该第一确定模块404,用于:
在确定该候选音素序列为映射根节点的情况下,根据该候选音素序列的映射尾节点确定对应的目标音素序列;
若确定该候选音素序列对应的映射尾节点对应的目标候选音素序列包括多个的情况下,获取每个目标候选音素序列的权重值;
根据该目标候选音素序列的权重值从多个该目标候选音素序列中确定目标音素序列;
将该目标音素序列对应的位置信息确定为该目标位置信息。
可选地,该第一确定模块404,用于:
获取每个目标候选音素序列在该目标区域内的热度信息;
根据该热度信息确定每个该目标候选音素序列的权重值。
可选地,该装置还包括:
第二确定模块406,用于在确定该位置标识信息不易被混淆的情况下,将该位置标识信息确定为该目标位置信息。
可选地,该第二确定模块406,用于:
若确定每个该候选音素序列对应的映射方向属性仅为单向映射,且每个该候选音素序列对应的映射节点属性均为映射尾节点,则确定该位置标识信息不易被混淆;
或者,
在确定该目标数据库中不存在至少一个该音素序列中的任一个的情况下,确定该位置标识信息不易被混淆。
通过以上技术方案,能够根据位置标识信息对应的音素序列得到准确性较高的目标位置信息,能够有效避免各种发音不准造成的地点识别错误的情况发生,能够有效提升语音识别结果的准确性,从而有助于提升用户体验。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的语音识别方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的语音识别方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的语音识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的语音识别方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (11)

1.一种语音识别方法,其特征在于,所述方法包括:
将接收到的用户语音信息识别为语音文本,所述语音文本包括位置标识信息;
从所述语音文本中识别所述位置标识信息;
获取所述位置标识信息对应的至少一个音素序列;
在根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况下,根据至少一个所述音素序列确定校正之后的目标位置信息;
根据所述目标位置信息生成所述用户语音信息对应的目标语音文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况,包括:
在确定目标数据库中存在至少一个所述音素序列中的至少一个的情况下,从所述目标数据库中获取所述至少一个所述音素序列对应的至少一个候选音素序列,所述候选音素序列为在所述目标数据库内所述音素序列对应的易错音素序列,中间音素序列或者标准音素序列;
获取每个所述候选音素序列的映射关系,所述映射关系包括映射节点属性和映射方向属性,所述映射节点属性包括映射根节点和映射尾节点,所述映射方向属性包括单向映射和双向映射;
若确定该候选音素序列对应的映射方向属性包括双向映射,则确定所述位置识别信息易被混淆;
若确定该候选音素序列对应的映射方向属性仅包括单向映射,且在该单向映射的映射关系中该候选音素序列为映射根节点,则确定所述位置识别信息易被混淆。
3.根据权利要求2所述的方法,其特征在于,所述目标数据库,通过以下方式预先生成:
获取多个区域中每个区域对应的易错音素序列组,所述易错音素序列组包括该区域内的多个位置信息对应的易错音素序列;
获取每个所述易错音素序列对应的所述中间音素序列和标准音素序列,以得到该区域对应的音素序列集合;
建立每个所述易错音素序列与所述中间音素序列,以及所述中间音素序列与标准音素序列之间的所述映射关系,以生成多个区域对应的所述目标数据库。
4.根据权利要求3所述的方法,其特征在于,所述确定目标数据库中存在至少一个所述音素序列中的至少一个,包括:
获取目标终端当前所处的目标区域;
从所述目标数据库中确定所述目标区域对应的区域音素序列集合;
在确定至少一个所述音素序列中的任一个属于所述区域音素序列集合,则确定目标数据库中存在至少一个所述音素序列中的至少一个。
5.根据权利要求4所述的方法,其特征在于,所述根据至少一个所述音素序列确定校正之后的目标位置信息,包括:
在确定所述候选音素序列为映射根节点的情况下,根据所述候选音素序列的映射尾节点确定对应的目标音素序列;
若确定所述候选音素序列对应的映射尾节点对应的目标候选音素序列包括多个的情况下,获取每个目标候选音素序列的权重值;
根据所述目标候选音素序列的权重值从多个所述目标候选音素序列中确定目标音素序列;
将所述目标音素序列对应的位置信息确定为所述目标位置信息。
6.根据权利要求5所述的方法,其特征在于,所述获取多个所述目标候选音素序列权重值,包括:
获取每个目标候选音素序列在所述目标区域内的热度信息;
根据所述热度信息确定每个所述目标候选音素序列的权重值。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在确定所述位置标识信息不易被混淆的情况下,将所述位置标识信息确定为所述目标位置信息。
8.根据权利要求7所述的方法,其特征在于,所述确定所述位置标识信息不易被混淆,包括:
若确定每个所述候选音素序列对应的映射方向属性仅为单向映射,且每个所述候选音素序列对应的映射节点属性均为映射尾节点,则确定所述位置标识信息不易被混淆;
或者,
在确定所述目标数据库中不存在至少一个所述音素序列中的任一个的情况下,确定所述位置标识信息不易被混淆。
9.一种语音识别装置,其特征在于,所述装置包括:
第一识别模块,用于将接收到的用户语音信息识别为语音文本,所述语音文本包括位置标识信息;
第二识别模块,用于从所述语音文本中识别所述位置标识信息;
获取模块,用于获取所述位置标识信息对应的至少一个音素序列;
第一确定模块,用于在根据所述至少一个音素序列确定所述位置识别信息易被混淆的情况下,根据至少一个所述音素序列确定校正之后的目标位置信息;
生成模块,用于根据所述目标位置信息生成所述用户语音信息对应的目标语音文本。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202110011888.9A 2021-01-06 2021-01-06 语音识别方法、装置、存储介质及电子设备 Active CN112820294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110011888.9A CN112820294B (zh) 2021-01-06 2021-01-06 语音识别方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110011888.9A CN112820294B (zh) 2021-01-06 2021-01-06 语音识别方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112820294A true CN112820294A (zh) 2021-05-18
CN112820294B CN112820294B (zh) 2024-07-12

Family

ID=75857721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110011888.9A Active CN112820294B (zh) 2021-01-06 2021-01-06 语音识别方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112820294B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345442A (zh) * 2021-06-30 2021-09-03 西安乾阳电子科技有限公司 语音识别方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
US20110131042A1 (en) * 2008-07-28 2011-06-02 Kentaro Nagatomo Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
JP2014164261A (ja) * 2013-02-27 2014-09-08 Canon Inc 情報処理装置およびその方法
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN111143525A (zh) * 2019-12-17 2020-05-12 广东广信通信服务有限公司 车辆信息获取方法、装置和智能移车***
CN111462748A (zh) * 2019-01-22 2020-07-28 北京猎户星空科技有限公司 语音识别处理方法、装置、电子设备及存储介质
CN111583908A (zh) * 2020-04-30 2020-08-25 北京一起教育信息咨询有限责任公司 一种语音数据分析方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
US20110131042A1 (en) * 2008-07-28 2011-06-02 Kentaro Nagatomo Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
JP2014164261A (ja) * 2013-02-27 2014-09-08 Canon Inc 情報処理装置およびその方法
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
CN111462748A (zh) * 2019-01-22 2020-07-28 北京猎户星空科技有限公司 语音识别处理方法、装置、电子设备及存储介质
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN111143525A (zh) * 2019-12-17 2020-05-12 广东广信通信服务有限公司 车辆信息获取方法、装置和智能移车***
CN111583908A (zh) * 2020-04-30 2020-08-25 北京一起教育信息咨询有限责任公司 一种语音数据分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANG ZUO ET AL.: "Correction of phoneme recognition errors in word learning through speech interaction", 2010 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345442A (zh) * 2021-06-30 2021-09-03 西安乾阳电子科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113345442B (zh) * 2021-06-30 2024-06-04 西安乾阳电子科技有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112820294B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US9188456B2 (en) System and method of fixing mistakes by going back in an electronic device
CN109754793B (zh) 用于推荐车辆的功能的装置和方法
KR102191101B1 (ko) 내비게이션 방법, 내비게이션 장치, 기기 및 매체
US20160004501A1 (en) Audio command intent determination system and method
CN105336326A (zh) 用于使用上下文信息的语音识别修复的方法和***
KR20160090743A (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
WO2014183373A1 (en) Systems and methods for voice identification
JP6597527B2 (ja) 音声認識装置および音声認識方法
CN111667810B (zh) 多音字语料的获取方法、装置、可读介质和电子设备
CN107112007B (zh) 语音识别装置及语音识别方法
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
CN112820294B (zh) 语音识别方法、装置、存储介质及电子设备
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2012168349A (ja) 音声認識システムおよびこれを用いた検索システム
US20210201895A1 (en) Method and apparatus for outputting analysis abnormality information in spoken language understanding
JP5160594B2 (ja) 音声認識装置および音声認識方法
KR20160055059A (ko) 음성 신호 처리 방법 및 장치
US10600405B2 (en) Speech signal processing method and speech signal processing apparatus
US10529324B1 (en) Geographical based voice transcription
CN113077793B (zh) 一种语音识别方法、装置、设备及存储介质
JP6996186B2 (ja) 情報処理装置、言語判定方法及びプログラム
CN114694645A (zh) 一种确定用户意图的方法及装置
JP2017182251A (ja) 解析装置
US11308936B2 (en) Speech signal processing method and speech signal processing apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant