CN109215638B - 一种语音学习方法、装置、语音设备及存储介质 - Google Patents

一种语音学习方法、装置、语音设备及存储介质 Download PDF

Info

Publication number
CN109215638B
CN109215638B CN201811224694.1A CN201811224694A CN109215638B CN 109215638 B CN109215638 B CN 109215638B CN 201811224694 A CN201811224694 A CN 201811224694A CN 109215638 B CN109215638 B CN 109215638B
Authority
CN
China
Prior art keywords
voice
user
speech
learned
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811224694.1A
Other languages
English (en)
Other versions
CN109215638A (zh
Inventor
廖海霖
毛跃辉
廖湖锋
张新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201811224694.1A priority Critical patent/CN109215638B/zh
Publication of CN109215638A publication Critical patent/CN109215638A/zh
Application granted granted Critical
Publication of CN109215638B publication Critical patent/CN109215638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种一种语音学习方法、装置、语音设备及存储介质,用以提高语音语音识别的准确率,提升用户使用体验。该方法包括:采集待学习语音;并获得用户输入的语义理解文本,其中,所述语义理解文本表明所述用户对所述待学习语音的语义理解;以及将所述语义理解文本确定为所述待学习语音的语音识别结果。采用该方法,即使用户说话不标准,也能按照用户的说话时的主观理解进行与用户的匹配识别,进而提高语音识别的准确性。

Description

一种语音学习方法、装置、语音设备及存储介质
技术领域
本发明涉及语音技术领域,尤其涉及一种语音学习方法、装置、语音设备及存储介质。
背景技术
语音技术已经由一门年轻的计算机技术发展成了一门非常流行、越来成熟的技术。语音输入目前以标准的普通话输入为准,即语音准确识别的前提是普通话,并且随着普通话的全面推广,大部分地区的用户都能使用较为标准的普通话,从而能够较为广泛地使用语音识别设备。
但是,仍然存在有部分用户不会说出较为标准的普通话,例如一些山区用户、带地方口音的用户或者一些老年人,所以在使用语音设备的时候,语音设备可能无法准确的识别这些用户说的话,从而导致语音识别的准确率较低。
发明内容
本发明实施例提供一种语音学习方法、装置、语音设备及存储介质,用以提高语音识别的准确率,提升用户使用体验。
第一方面,提供一种语音学习方法,所述方法包括:
采集待学习语音;
获得用户输入的语义理解文本,其中,所述语义理解文本表明所述用户对所述待学习语音的语义理解;
将所述语义理解文本确定为所述待学习语音的语音识别结果。
可选的,获得用户输入的语义理解文本,包括:
显示所述待学习语音的语义识别文本,其中,所述语义识别文本为对所述待学习语音进行语音识别后得到的文字识别结果;
获得所述用户针对所述语义识别文本进行修改后的语义修正文本;
将所述语义修正文本确定为所述语义理解文本。
可选的,在将所述语义理解文本确定为所述待学习语音的语音识别结果之后,所述方法还包括:
确定与所述用户对应的目标专属语音学习库;
将所述待学习语音和所述语义理解文本关联存储到所述目标专属语音学习库中。
可选的,确定与所述用户对应的目标专属语音学习库,包括:
确定所述待学习语音的声纹特征,并将专属语音学习库集中与所述声纹特征对应的专属语音学习库确定为所述目标专属语音学习库;或者,
确定在采集所述待学习语音时登录的用户账号,并将专属语音学习库集中与所述用户账号对应的专属语音学习库确定为所述目标专属语音学习库。
可选的,所述方法还包括:
若以所述声纹特征或所述用户账号未能够从所述专属语音学习库中匹配出所述目标专属语音库,则新建专属语音库;
将新建的专属语音库作为所述目标专属语音库。
可选的,在将所述待学习语音和所述语义理解文本关联存储到所述专属语音学习库中之后,所述方法还包括:
在获得控制语音时,确定与所述控制语音对应的专属学习语音库;
从对应的专属学习语音库中查找与所述待识别语音对应的语义理解文本;
按照确定出的语义理解文本执行对应的语音控制操作。
第二方面,提供一种语音学习装置,所述装置包括:
语音采集模块,用于采集待学习语音;
语义获得模块,用于获得用户输入的语义理解文本,其中,所述语义理解文本表明所述用户对所述待学习语音的语义理解;
语音识别模块,用于将所述语义理解文本确定为所述待学习语音的语音识别结果。
可选的,所述装置还包括显示模块和语义修正模块,其中:
所述侠显示模块,用于显示所述待学习语音的语义识别文本,其中,所述语义识别文本为对所述待学习语音进行语音识别后得到的文字识别结果;
所述语义修正模块,用于获得所述用户针对所述语义识别文本进行修改后的语义修正文本;
语义获得模块,还用于将所述语义修正文本确定为所述语义理解文本。
可选的,所述装置还包括关联存储模块,用于:
在语音识别模块将所述语义理解文本确定为所述待学习语音的语音识别结果之后,确定与所述用户对应的目标专属语音学习库;
将所述待学习语音和所述语义理解文本关联存储到所述目标专属语音学习库中。
可选的,所述确定模块用于:
确定所述待学习语音的声纹特征,并将专属语音学习库集中与所述声纹特征对应的专属语音学习库确定为所述目标专属语音学习库;或者,
确定在采集所述待学习语音时登录的用户账号,并将专属语音学习库集中与所述用户账号对应的专属语音学习库确定为所述目标专属语音学习库。
可选的,所述确定模块还用于:
若以所述声纹特征或所述用户账号未能够从所述专属语音学习库中匹配出所述目标专属语音库,则新建专属语音库;
将新建的专属语音库作为所述目标专属语音库。
可选的,所述装置还包括语音控制模块,用于:
在所述存储模块将所述待学习语音和所述语义理解文本关联存储到所述专属语音学习库中之后,在获得控制语音时,确定与所述控制语音对应的专属学习语音库;
从对应的专属学习语音库中查找与所述待识别语音对应的语义理解文本;
按照确定出的语义理解文本执行对应的语音控制操作。
第三方面,提供一种语音设备,所述语音设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一方法包括的步骤。
第四方面,提供一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中任一方法包括的步骤。
本发明实施例中,可以先采集待学习语音,再获得用户输入的语义理解文本,再将该语义理解文本确定为该待学习语音的语音识别结果,由于该语义理解文本表明的是该用户对该待学习语音的语义理解,所以在将其直接作为该待学习语音的语音识别结果之后,就相当于是直接将用户对待学习语音的主观理解作为了该待学习语音的语音识别结果,换言之,对于用户自己说出的话,用户可以自定义其实际的理解含义,通过语音设备进行语音学习的方式,可以将该理解含义同时也定义到语音设备中,这样可以使得语音设备对用户说出的话的解析是尽量按照用户自己说出的话的初衷含义进行理解识别的,提供了一种按照用户自身需求进行语音语义定义和匹配的方法,这样,即使用户说话不标准,语音设备也能按照用户的说话时的主观理解进行与用户的匹配识别,进而提高语音识别的准确性,并且,语音设备还可以针对不同的用户进行不同匹配方式的语音识别,提供差异化的语音识别,以尽量满足不同用户的使用需求,增强方案的普适性和语音识别的推广性,进而提升用户使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中的语音学习方法的流程图;
图2为本发明实施例中的语音语义检查及纠正页面的示意图;
图3为本发明实施例中的语音语义自定义页面的示意图;
图4为本发明实施例中的语音学习方法的另一流程图;
图5为本发明实施例中的语音学习装置的结构框图;
图6为本发明实施例中的语音设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例中,“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供的语音学***板电脑、掌上电脑(Personal Digital Assistant,PDA),笔记本电脑、智能穿戴式设备(例如智能手表和智能头盔)、个人计算机等终端设备,或者也可以是电视机、空调、冰箱等智能家居设备。
下面结合说明书附图介绍本发明实施例提供的技术方案。
请参见图1,本发明实施例提供的语音学习方法的流程描述如下。
步骤101:采集待学习语音。
如前所述,本发明实施例通过语音学习的方式来将用户说出的语音按照用户自己主观理解的方式进行理解识别,也就是说,语音设备可以对各个用户的语音进行学习训练,进而可以尽量按照用户自己想要的理解方式进行识别,通过学习后的方式进行语音识别,可以使得最终的语音识别结果能够是与用户自己想要表达的语义相符的,从而达到提高语音识别的准确性的目的。
在具体实施过程中,语音设备可以具备语音学习的功能,当用户希望使用语音设备进行语音学习时则可以使用该语音学习的功能,当完成语音学习后,为了避免语音设备的误响应,此时可以再关闭该语音学习的功能。在开启语音学习的功能之后,语音设备则进入语音学习状态,以对用户后续所说的话尽量按照用户自己想要表达的语音进行理解,所以,在开始进行语音学习之后,用户可以说出希望语音设备按照用户自身理解所进行识别的语音,为了便于描述,本发明实施例中将该语音称作待学习语音,在用户说出待学习语音之后,语音设备则可以采集以获得该待学习语音。
步骤102:显示待学习语音的语义识别文本,其中,该语义识别文本为对待学习语音进行语音识别后得到的文字识别结果。
在获得用户的待学习语音之后,语音设备可以先按照原始的语音识别方式对该待学习语音进行语音识别,以得到初始的语音识别结果,再将该初始的语音识别结果转换成文字识别结果后以文本进行显示输出,以便于用户能够通过文字的形式直观地看到语音设备对该待学习语音的语义理解,为了便于描述,本发明实施例中将语音设备对待学习语音的文字识别结果称作语义识别文本。
对于一把用户而言都能够有效地识别出文字,并且,文字是作为一种更为客观且折中的呈现方式以便于用户能够直观查看到语音设备针对待学习语音的语义识别,这样的话,用户则可以知晓语音设备对于自己说出的待学习语音的语义理解是否正确,即可以判断语音设备是否是按照用户自己的主观理解来理解并识别该学习语音的。
例如参见图2所示,假设用户使用方言口音说出了“开启空调,制冷模式”的待学习语音,即图2中的声音信号,但是由于是方言口音,所以语音设备按照现有的识别方式进行识别后就误将其识别成了“凯奇空调,职能模式”,并且为了便于用户能够知晓其对用户以方言口音说出的“开启空调,制冷模式”的实际语义理解,语音设备可以将最初的语音识别结果即“凯奇空调、职能模式”以文本的方式显示给用户查看,所以可以将这里的“开启空调,制冷模式”(方言口音说出的)理解为是本发明实施例中的待学习语音,而将文本形式呈现的“凯奇空调,职能模式”理解为是本发明实施例中的语义识别文本。
步骤103:获得用户针对语义识别文本进行修改后的语义修正文本。
用户在看到文字显示的“凯奇空调,职能模式”之后,则可以知道语音设备对其用方言口音说出的“开启空调,制冷模式”识别有误,为了使得语音设备能够安好自己实际想要表达的意思进行语音识别理解,此时用户可以对语音设备输出的语义识别文本进行文字修改纠正,以修改成自己实际想要表达的语义,为了便于描述,本发明实施例中将用户对语音设备文字输出的语义识别文本进行修改后得到的文本称作语义修正文本,就参见图2所示,用户手动修改之后,就将原本的“凯奇空调,职能模式”修改成了“开启空调,制冷模式”,语义识别文本如图2中的“解释语义”后所显示的内容,语义修正文本如图2中的“纠正语义”后所显示的内容。
由于语义理解文本是用于表明用户对待学习语音的语义理解的,所以通过该步骤,用户可以对语音设备误识别的语义进行人为的修改,以纠正语音设备的语义识别结果,并且使得语音设备是按照用户自身实际想要表达的含义进行修正的。
步骤104:将语义修正文本确定为语义理解文本。
步骤105:获得用户输入的语义理解文本。
步骤106:将语义理解文本确定为待学习语音的语音识别结果。
在修改之后,用户可以将修改得到的语义修正文本提交给语音设备,语音设备在获得用户提交的语义修正文本之后,则可以将其作为用户实际的语义理解文本,进而再将用户实际想要表达的语义理解文本作为待学习语音的最终的语音识别结果,继续图2的例子,即使用户是用方言口音说出的“开启空调,制冷模式”,但是通过前述介绍的语音学习,语音设备能够准确地将即使用方言口音说出的“开启空调,制冷模式”识别为“开启空调,制冷模式”,而不会像现有技术一样会误识别为“凯奇空调,职能模式”,从而提高了语音识别的准确性。
前述介绍了基于语音设备的语义识别结果而进行纠正修改的语音学习方式,即可以通过如图2所示的语音训练页面进行语音学习训练,但是在实际中,用户还可以自定义的语音,例如将自己说出的任意一段语音定义为自己想要表达的语义,而该想要表达的语义与用户所说出的语音实际代表的语义可以相同,或者也可以不同,以下结合参见图3所示的自定义语义页面进行说明。
在自定义页面中,语音设备可以采集到用户说出的任意一段语音,在采集之后,可以暂时不对采集到的待学习语音进行任何识别,此时可以显示设定语义的区域以供用户输入自己想要为该待学习语音定义的实际语义,例如用户想要定义的实际语义是“设定明天8点的闹钟”,并且在自定义之后可以将该自定义内容提交给语音设备,语音设备在获得用户提交的自定义语义之后,则可以将刚刚采集到的待学习语音语该自定义语义进行关联,例如在实际中,对于用户自定义的“设定明天8点的闹钟”的语义,用户所说出的待学习语音可能是用标准普通话说出的“设定明天8点的闹钟”,或者可以是以某地方口音说出的“设定明天8点的闹钟”,或者也可以是用标准普通话或地方口音说出的例如“我明天不想早起”等任一的其它语音,从而实现语音语义自定义的目的,以使得语音设备能够按照用户自己希望定义的语音语义理解方式对用户的语音进行语义识别,以满足用户个性化的语音识别要求,提升用户使用体验。
对于语音语义自定义的方法流程,在图1中即可以只执行步骤101、步骤105和步骤106,即对于语音语义自定义的方案来说,图1中的步骤102-步骤104不是必须执行的步骤,所以为了便于理解,在图1中是将步骤102-步骤104以虚框表示的,即对于语音语义自定义的语音学习方式来说,可不必执行步骤102-步骤104。
进一步地,在将用户输入的语义理解文本确定为待学习语音的最终语音识别结果之后,语音设备可以确定与该用户对应的目标专属语音学习库,进而再将该待学习语音和对应的语义理解文本关存储到该目标专属语音学习库中,以便于以后在该用户再说出该待学习语音时,语音设备能够基于该关联关系查找到对应的用户提交的语义理解文本,以实现对用户语音的准确理解。
也就是说,可以为每个用户配置一个专属语音学习库,多个用户对应配置的多个专属语音学习库例如可以称作专属语音学习库集,因为每个用户的语音方式和习惯以及自己的希望的语义理解可能均是不同的,所以通过分别建立专属语音学习库的方式可以便于语音设备能够对不同的用户的语音均能够进行有效的识别,通过个性化的语音识别方式,可以满足用户差异化的语义识别需求,进而丰富语音识别场景,增强语音设备的语音识别功能,提升用户体验。
为了实现一个用户与一个专属语音学习库之间的一一配置关系,在一种可能的实施方式中,可以根据每个用户的声纹特征建立对应匹配的专属语音学习库,在该种方式下,在获得了某条待学习语音和对应的语义理解文本之后,则可以先确定该待学习语音的声纹特征,然后再将专属语音学习库集中与该声纹特征对应的专属语音学习库确定为该用户对应的目标专属语音学习库。声纹特征能够唯一标识一个用户,即可以通过每个用户的声纹特征不同而对应配置一个专属语音学习库,尽量体现用户的差异化语音识别需求,并且声纹特征是可以直接从语音中提取到的人体生物特征,所以通过声纹特征的方式可以实现准确、快速的匹配。
为了实现一个用户与一个专属语音学习库之间的一一配置关系,在另一种可能的实施方式中,还可以根据每个用户账号建立对应匹配的专属语音学习库,因为一般来说,在一个语音设备中,即使同一个应用,不同的用户可以使用自己各自不同的用户账号登录,在登录之后即可以进行语音操作,例如语音导航或者语音家居控制,所以还可以通过用户账号的不同来区分不同的用户,从而配置对应不同的专属语音库。在该种方式下,在获得了某条待学习语音和对应的语义理解文本之后,则可以先确定在采集该待学习语音时登录的用户账号,然后再将专属语音学习库集中与该用户账号对应的专属语音学习库确定为该用户对应的目标专属语音学习库。
需要说明的是,无论是通过声纹特征还是用户账号从专属语音学习库集中国匹配某个用户对应的专属语音学习库时,若未能够匹配成功,即表明该用户还未配置过专属语音学习库,此时则可以新建一个专属语音库,例如可以通过该用户的声纹特征或者用户账号匹配创建,并将新建的专属语音库作为该用户对应的专属语音学习库,那么以后再对该用户的语音进行学习后,即可以将学习的语音和对应的语义理解文本关联存储在该新配置的专属语音学习库中,以实现语音的可持续性学习。
前述介绍了语音学习的过程,在实际应用中,语音学习更多是为了便于后续的语音控制使用,例如用户可以通过学习的语音实现与语音设备的智能交互,或者控制语音设备进行一些快速功能的调用,或者可以语音控制语音设备(例如空调)快速开启或者调整运行参数,等等,在具体实施过程中,当用户需要对语音设备进行语音控制时,可以先说出控制语音,对应的语音设备可以采集到用户说出的控制语音,进一步地,可以基于用户的声纹特征或者用户账号确定该用户匹配的专属学习语音库,然后再将采集到的控制语音在专属学习语音库中进行匹配查找,若能找到则可以获得对应的语义理解文本,并以查找到的语义理解文本执行对应的语音控制操作,例如控制快速调用拨打电话功能或者控制家电开启,如果未能从专属学习语音库查找到相同的语音,则表明该语音还未进行过学习,那么此时可以采用前述介绍的方式对该控制语音进行学习,也就是说,语音学习是一个动态的过程,语音学习和语音使用是相辅相成的,在语音使用的过程中也可以进行语音学习,以实现语音的及时学习,尽量进一步地提高语音识别的准确性。
为了便于对本发明实施例中的方案进行整体上的理解,再结合图4进行简单说明。首先,用户可以打开语音APP(Application,应用),然后再绑定设备,这里所说为的绑定设备就是指使用哪一个语音设备,一般来说,语义APP是运行在语音设备上的,然后,可以通过前述介绍的语音学习方式进行语义纠正或者语义自定义。对于语义纠正来说,先输入语音,然后再文本解释语音,即以文本将语音识别结果显示出来,由用户检测语义是否正确,若正确的话,用户可以确定,语音设备可以确认采集到的该端语音的语义内容,并把语音及语义提交保存,如用户确定语义不正确,则可以输入正确的语义,即对错的语义进行修正,在修正之后可以通过点击“纠正”按钮提交给语音设备,语音设备可以语音语义关联保存。对于语义自定义来说,也是先输入语音,在语义设备识别之前由用户自定义语义然后提交,语音设备再将获得语音和自定义的语义关联保存。
本发明实施例中,可以先采集待学习语音,再获得用户输入的语义理解文本,再将该语义理解文本确定为该待学习语音的语音识别结果,由于该语义理解文本表明的是该用户对该待学习语音的语义理解,所以在将其直接作为该待学习语音的语音识别结果之后,就相当于是直接将用户对待学习语音的主观理解作为了该待学习语音的语音识别结果,换言之,对于用户自己说出的话,用户可以自定义其实际的理解含义,通过语音设备进行语音学习的方式,可以将该理解含义同时也定义到语音设备中,这样可以使得语音设备对用户说出的话的解析是尽量按照用户自己说出的话的初衷含义进行理解识别的,提供了一种按照用户自身需求进行语音语义定义和匹配的方法,这样,即使用户说话不标准,语音设备也能按照用户的说话时的主观理解进行与用户的匹配识别,进而提高语音识别的准确性,并且,语音设备还可以针对不同的用户进行不同匹配方式的语音识别,提供差异化的语音识别,以尽量满足不同用户的使用需求,增强方案的普适性和语音识别的推广性,进而提升用户使用体验。
基于同一发明构思,本发明实施例提供了一种用于语音学习装置,该语音学习装置能够实现前述的语音学习方法对应的功能。该语音学习装置可以是硬件结构、软件模块、或硬件结构加软件模块。该语音学习装置可以由芯片***实现,芯片***可以由芯片构成,也可以包含芯片和其他分立器件。请参见图5所示,该语音学习装置包括语音采集模块501、语义获得模块502和语音识别模块503。其中:
语音采集模块501,用于采集待学习语音;
语义获得模块502,用于获得用户输入的语义理解文本,其中,语义理解文本表明用户对待学习语音的语义理解;
语音识别模块503,用于将语义理解文本确定为待学习语音的语音识别结果。
在一种可能的实施方式中,参见图5所示,本发明实施例中的语音学习装置还包括显示模块504和语义修正模块505,其中:
显示模块504,用于显示待学习语音的语义识别文本,其中,语义识别文本为对待学习语音进行语音识别后得到的文字识别结果;
语义修正模块505,用于获得用户针对语义识别文本进行修改后的语义修正文本;
语义获得模块502,还用于将语义修正文本确定为语义理解文本。
在一种可能的实施方式中,请参见图5所示,本发明实施例中的语音学习装置还包括关联存储模块506,用于在语音识别模块503将语义理解文本确定为待学习语音的语音识别结果之后,确定与用户对应的目标专属语音学习库,并将待学习语音和语义理解文本关联存储到目标专属语音学习库中。
在一种可能的实施方式中,关联存储模块506,用于确定待学习语音的声纹特征,并将专属语音学习库集中与声纹特征对应的专属语音学习库确定为目标专属语音学习库;或者,确定在采集待学习语音时登录的用户账号,并将专属语音学习库集中与用户账号对应的专属语音学习库确定为目标专属语音学习库。
在一种可能的实施方式中,关联存储模块506,用于若以声纹特征或用户账号未能够从专属语音学习库中匹配出目标专属语音库,则新建专属语音库;并将新建的专属语音库作为目标专属语音库。
在一种可能的实施方式中,本发明实施例中的语音学习装置还包括语音控制模块,用于在存储模块将待学习语音和语义理解文本关联存储到专属语音学习库中之后,在获得控制语音时,确定与控制语音对应的专属学习语音库;并从对应的专属学习语音库中查找与待识别语音对应的语义理解文本;以及按照确定出的语义理解文本执行对应的语音控制操作。
前述的语音学习方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明实施例中的语音学习装置所对应的功能模块的功能描述,在此不再赘述。本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本发明实施例提供一种语音设备,该语音设备例如可以是手机、平板电脑、PDA,笔记本电脑、智能穿戴式设备(例如智能手表和智能头盔)、个人计算机等终端设备,或者也可以是电视机、空调、冰箱等智能家居设备,等等。请参见图6所示,该语音设备包括至少一个处理器601,以及与至少一个处理器连接的存储器602,本发明实施例中不限定处理器601与存储器602之间的具体连接介质,图6中是以处理器601和存储器602之间通过总线600连接为例,总线600在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线600可以分为地址总线、数据总线、控制总线等,为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。另外,该语音设备还可以包括语音采集模块603,该语音采集模块603也可以通过总线600与处理器601和存储器602连接,并且能够根据处理器601的控制进行语音采集,例如,语音采集模块603为麦克风或麦克风阵列。
在本发明实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以执行前述的公共交通中的行程控制方法中所包括的步骤。
其中,处理器601是语音设备的控制中心,可以利用各种接口和线路连接整个语音设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据,语音设备的各种功能和处理数据,从而对语音设备进行整体监控。可选的,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器601进行设计编程,可以将前述实施例中介绍的语音学习方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的语音学习方法的步骤,如何对处理器601进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本发明实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的语音学习方法的步骤。
在一些可能的实施方式中,本发明提供的语音学习方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在语音学习设装置或语音设备上运行时,所述程序代码用于使该语音学习设装置或语音设备执行本说明书上述描述的根据本发明各种示例性实施方式的语音学习方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种语音学习方法,其特征在于,所述方法包括:
采集待学习语音;
在未对所述待学习语音进行语义识别时,获得用户输入的语义理解文本,其中,所述语义理解文本表明所述用户对所述待学习语音的语义理解;
将所述语义理解文本确定为所述待学习语音的语音识别结果。
2.如权利要求1所述的方法,其特征在于,在将所述语义理解文本确定为所述待学习语音的语音识别结果之后,所述方法还包括:
确定与所述用户对应的目标专属语音学习库;
将所述待学习语音和所述语义理解文本关联存储到所述目标专属语音学习库中。
3.如权利要求2所述的方法,其特征在于,确定与所述用户对应的目标专属语音学习库,包括:
确定所述待学习语音的声纹特征,并将专属语音学习库集中与所述声纹特征对应的专属语音学习库确定为所述目标专属语音学习库;或者,
确定在采集所述待学习语音时登录的用户账号,并将专属语音学习库集中与所述用户账号对应的专属语音学习库确定为所述目标专属语音学习库。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若以所述声纹特征或所述用户账号未能够从所述专属语音学习库中匹配出所述目标专属语音学习库,则新建专属语音库;
将新建的专属语音库作为所述目标专属语音学习库。
5.如权利要求2-4任一所述的方法,其特征在于,在将所述待学习语音和所述语义理解文本关联存储到所述专属语音学习库中之后,所述方法还包括:
在获得控制语音时,确定与所述控制语音对应的专属语音学习库;
从对应的专属语音学习库中查找与所述控制语音对应的语义理解文本;
按照确定出的语义理解文本执行对应的语音控制操作。
6.一种语音学习装置,其特征在于,所述装置包括:
语音采集模块,用于采集待学习语音;
语义获得模块,用于在未对所述待学习语音进行语义识别时,获得用户输入的语义理解文本,其中,所述语义理解文本表明所述用户对所述待学习语音的语义理解;
语音识别模块,用于将所述语义理解文本确定为所述待学习语音的语音识别结果。
7.一种语音设备,其特征在于,所述语音设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-5中任一方法包括的步骤。
8.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-5中任一方法包括的步骤。
CN201811224694.1A 2018-10-19 2018-10-19 一种语音学习方法、装置、语音设备及存储介质 Active CN109215638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811224694.1A CN109215638B (zh) 2018-10-19 2018-10-19 一种语音学习方法、装置、语音设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811224694.1A CN109215638B (zh) 2018-10-19 2018-10-19 一种语音学习方法、装置、语音设备及存储介质

Publications (2)

Publication Number Publication Date
CN109215638A CN109215638A (zh) 2019-01-15
CN109215638B true CN109215638B (zh) 2021-07-13

Family

ID=64980872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811224694.1A Active CN109215638B (zh) 2018-10-19 2018-10-19 一种语音学习方法、装置、语音设备及存储介质

Country Status (1)

Country Link
CN (1) CN109215638B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032740A (zh) * 2019-04-20 2019-07-19 卢劲松 定制个性语义学习应用方法
CN110942765B (zh) * 2019-11-11 2022-05-27 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN110931018A (zh) * 2019-12-03 2020-03-27 珠海格力电器股份有限公司 智能语音交互的方法、装置及计算机可读存储介质
CN111081217B (zh) * 2019-12-03 2021-06-04 珠海格力电器股份有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN111623474A (zh) * 2020-04-22 2020-09-04 梅州市青塘实业有限公司 空调的智能控制方法、装置、智能空调及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020123894A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Processing speech recognition errors in an embedded speech recognition system
CN102543076A (zh) * 2011-01-04 2012-07-04 ***通信集团公司 用于语音输入法的语音训练方法及相应的***
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN104795069B (zh) * 2014-01-21 2020-06-05 腾讯科技(深圳)有限公司 语音识别方法和服务器
CN105808197B (zh) * 2014-12-30 2019-07-26 联想(北京)有限公司 一种信息处理方法和电子设备
CN105096941B (zh) * 2015-09-02 2017-10-31 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN109036406A (zh) * 2018-08-01 2018-12-18 深圳创维-Rgb电子有限公司 一种语音信息的处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN109215638A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109215638B (zh) 一种语音学习方法、装置、语音设备及存储介质
CN108831469B (zh) 语音命令定制方法、装置和设备及计算机存储介质
CN105592343B (zh) 针对问题和回答的显示装置和方法
US9824687B2 (en) System and terminal for presenting recommended utterance candidates
CN107591155B (zh) 语音识别方法及装置、终端及计算机可读存储介质
US9443527B1 (en) Speech recognition capability generation and control
CN106098063B (zh) 一种语音控制方法、终端设备和服务器
CN108958810A (zh) 一种基于声纹的用户识别方法、装置及设备
US10224030B1 (en) Dynamic gazetteers for personalized entity recognition
CN111081217B (zh) 一种语音唤醒方法、装置、电子设备及存储介质
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
CN107077845A (zh) 一种语音输出方法及装置
CN110544473B (zh) 语音交互方法和装置
CN111161725B (zh) 一种语音交互方法、装置、计算设备及存储介质
CN105632487B (zh) 一种语音识别方法和装置
CN111343028A (zh) 配网控制方法及装置
CN108766431B (zh) 一种基于语音识别的自动唤醒方法及电子设备
CN110544470B (zh) 语音识别方法、装置、可读存储介质和电子设备
CN109637536B (zh) 一种自动化识别语义准确性的方法及装置
US10950221B2 (en) Keyword confirmation method and apparatus
CN111710337A (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
JP2022503255A (ja) 音声情報処理方法、装置、プログラム及び記録媒体
CN106847273B (zh) 语音识别的唤醒词选择方法及装置
CN111583933A (zh) 一种语音信息的处理方法、装置、设备及介质
CN109684443B (zh) 智能交互方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant