CN109509473B - 语音控制方法及终端设备 - Google Patents
语音控制方法及终端设备 Download PDFInfo
- Publication number
- CN109509473B CN109509473B CN201910079479.5A CN201910079479A CN109509473B CN 109509473 B CN109509473 B CN 109509473B CN 201910079479 A CN201910079479 A CN 201910079479A CN 109509473 B CN109509473 B CN 109509473B
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- voice information
- information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 206010013952 Dysphonia Diseases 0.000 description 6
- 208000027498 hoarse voice Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种语音控制方法及终端设备,该方法包括:接收用户输入的语音信息;将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。这样,由于预设语音模块库中存储有对应于不同使用场景的至少两个语音模型,从而可以从预设语音模型库中调用与当前使用场景较为匹配的语音模型来对用户输入的语音信息进行匹配,提高语音控制成功率。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种语音控制方法及终端设备。
背景技术
随着通信技术的发展,终端设备集成了越来越多的功能,目前,大部分终端设备都支持语音控制功能,例如,支持用户通过语音唤醒终端设备,或支持用户通过语音指令控制终端执行特定功能。
以语音唤醒终端设备为例,在用户使用语音唤醒前,一般需要用户先录入语音,以便***根据用户录入的语音生成相应的语音模型,当用户输入语音进行唤醒时,可以根据用户当前输入的声音与语音模型进行匹配,匹配成功时唤醒终端设备。
现有技术中,当用户在录入语音时所处的环境与输入语音信息时所处的环境不同而导致声音的混响差异较大,或者用户因为感冒或年龄增大等因素导致声音发生变化时,容易出现输入的语音信息与语音模型存在很大的差异,进而造成匹配失败,语音控制成功率低。
发明内容
本发明实施例提供一种语音控制方法及终端设备,以解决现有终端设备语音控制成功率低的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音控制方法,应用于终端设备,所述方法包括:
接收用户输入的语音信息;
将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;
在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
第二方面,本发明实施例提供一种终端设备,包括:
接收模块,用于接收用户输入的语音信息;
匹配模块,用于将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;
执行模块,用于在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
第三方面,本发明实施例提供一种终端设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语音控制方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述语音控制方法中的步骤。
本发明实施例中,在接收到用户输入的语音信息时,可以将语音信息与预设语音模型库中的语音模型进行匹配,且在所述预设语音模型库中存在语音模型与所述唤醒语音匹配成功的情况下,执行所述语音信息对应的控制指令,这样,由于预设语音模块库中存储有对应于不同使用场景的至少两个语音模型,从而可以从预设语音模型库中调用与当前使用场景较为匹配的语音模型来对用户输入的语音信息进行匹配,提高语音控制成功率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音控制方法的流程图之一;
图2是本发明实施例提供的一种语音控制方法的流程图之二;
图3是本发明实施例提供的一种语音控制方法的流程图之三;
图4是本发明实施例提供的一种语音控制方法的流程图之四;
图5是本发明实施例提供的一种语音控制方法的流程图之五;
图6是本发明实施例提供的一种终端设备的结构示意图;
图7是本发明实施例提供的另一种终端设备的结构示意图;
图8是本发明实施例提供的一种终端设备的生成模块的结构示意图;
图9是本发明实施例提供的另一种终端设备的生成模块的结构示意图;
图10是本发明实施例提供的另一种终端设备的生成模块的结构示意图;
图11是本发明实施例提供的一种终端设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种语音控制方法的流程图,应用于终端设备,如图1所示,所述方法包括以下步骤:
步骤101、接收用户输入的语音信息。
上述语音信息可以是用户输入的包括预设唤醒词或预设控制指令的语音,例如,所述终端设备的预设唤醒词为“嗨,小V”,当用户输入包括“嗨,小V”的语音信息时,所述终端设备接收到用户输入的唤醒语音信息,或所述预设控制指令为“打开照片”,当用户输入包括“打开照片”的语音信息时,所述终端设备接收到用户输入的控制语音信息。
步骤102、将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项。
本实施例中,所述终端设备可以预先建立有语音模型库,所述预设语音模型库中可以存储有对应于不同使用场景的至少两个语音模型,所述至少两个语音模型可以是由***根据用户在不同使用场景下主动录入的语音信息生成的,也可以是根据用户在不同使用场景下对所述终端设备下发控制指令时所输入的语音信息生成的,其中,所述使用场景可以包括地理位置和声音特征中的至少一项。例如,根据用户在不同地理位置(如家、公司)录入的语音信息,分别生成一个语音模型,或者根据用户在声音正常时录入的语音信息和因感冒而出现声音嘶哑时所输入的语音信息分别生成一个正常语音模型和变化语音模型。
这样,由于所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,从而在接收到用户输入的语音信息时,可以将所述语音信息分别与所述预设语音模型库中的每个语音模型进行匹配,以避免因地理位置的环境、声音变化等影响匹配的准确度,也可以根据当前使用场景,将所述语音信息与所述预设语音模型库中与当前使用场景对应的语音模型进行匹配,即保证匹配准确度又节省匹配时间。
例如,所述预设语音模型库中存储有对应于不同地理位置的语音模型,以避免因不同地理位置的环境造成语音混响差异很大而导致语音匹配失败,当接收到用户输入的语音信息时,可以加载所述预设语音模型库中的全部语音模型,将用户输入的语音信息分别与所述预设语音模型库中的每个语音模型进行匹配,且只要与其中一个语音模型匹配成功,即可执行所述语音信息对应的控制指令;或者当接收到用户输入的语音信息时,可以获取所述终端设备当前所处的地理位置,仅加载所述预设语音库中与所述终端设备当前所处的地理位置对应的语音模型,并将用户输入的语音信息与该语音模型进行匹配,以减少匹配时间,在匹配成功的情况下,可执行所述语音信息对应的控制指令。
又例如,所述预设语音模型库中存储有对应于不同声音特征(如正常声音和嘶哑声音)的语音模型,以避免用户因感冒或情绪低落等因素产生声音特征变化而导致语音匹配失败,当接收到用户输入的语音信息时,可以先判断用户的声音特征是否存在特定变化(如声音嘶哑),在确定用户声音存在特定变化时,可以同时加载所述预设语音模型库中的正常语音模型和特定变化语音模型,将用户输入的语音信息分别与所述正常语音模型和特定变化语音模型进行匹配,且只要与其中一个语音模型匹配成功,即可执行所述语音信息对应的控制指令;而在确定用户声音正常时,仅加载所述预设语音模型库中的正常语音模型,将用户输入的语音信息与所述正常语音模型进行匹配,以减少匹配时间,在匹配成功的情况下,可执行所述语音信息对应的控制指令。
需说明的是,所述预设语音模型库中还可以存储有根据用户近期输入的语音信息生成的语音模型,例如,根据用户近一个月内输入的语音信息生成的语音模型,这样,所述预设语音模型库中可以存储有根据用户最近时间段输入的语音信息所生成的语音模型,从而可以避免用户因年龄增长、季节变化、声带变化等因素造成的声音缓慢变化而导致语音控制成功率逐渐降低。
步骤103、在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
本实施例中,无论步骤102中采用何种方式将所述语音信息与预设语音模型库中的语音模型进行匹配,只要所述预设语音模型库中存在语音模型与所述语音信息匹配成功,即可执行所述语音信息对应的控制指令,例如,当所述语音信息为唤醒信息时,若匹配成功,则可唤醒所述终端设备;当所述语音信息为“打开相册”的语音控制指令时,若匹配成功,则可执行打开相册的操作。
这样,由于所述预设语音模型库中存储有多个语音模型,从而相较于现有技术中只有一个固定的语音模型与之匹配而易出现匹配失败,本方案可极大提高所述终端设备的语音控制成功率。
可选的,所述步骤102包括:
将所述语音信息与预设语音模型库中的目标语音模型进行匹配,其中,所述目标语音模型为所述预设语音模型库中与当前使用场景关联的语音模型;
所述步骤103包括:
在所述目标语音模型中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
该实施方式中,为减少匹配时间和保证匹配准确度,可以将所述语音信息与预设语音模型库中的目标语音模型进行匹配,其中,所述目标语音模型是所述预设语音模型库中与当前使用场景关联的语音模型,所述目标语音模型的数量可以是一个或多个。
例如,若所述使用场景为地理位置,所述预设语音模型库中存储有关联不同地理位置的语音模型,则可以根据所述终端设备当前所处的地理位置,确定所述预设语音模型库中与所述终端设备当前所处的地理位置关联的语音模型为所述目标语音模型,并将所述语音信息与所述目标语音模型匹配。
又例如,若所述使用场景为声音特征,所述预设语音模型库中存储有关联不同声音特征的语音模型,如关联正常声音特征的语音模型和关联嘶哑声音特征的语音模型,则可以根据用户输入所述语音信息时的声音特征,确定目标语音模型,具体地,若检测到用户输入所述语音信息时的声音特征正常,则将所述语音信息与关联正常声音特征的语音模型进行匹配,若检测到用户输入所述语音信息时的声音特征较为嘶哑,则将所述语音信息与关联嘶哑声音特征的语音模型进行匹配,或者也可以将所述语音信息分别与关联正常声音特征的语音模型和关联嘶哑声音特征的语音模型进行匹配。
在将所述语音信息与所述目标语音模型进行匹配之后,可以根据所述语音信息与所述目标语音模型的匹配度确定是否匹配成功,且只要所述目标语音模型中存在语音模型与所述语音信息匹配成功,则执行所述语音信息对应的控制指令。
这样,该实施方式中,在接收到用户输入的语音信息时,可根据当前使用场景确定所述预设语音模型库中的目标语音模型,并将所述语音信息与所述目标语音模型进行匹配,在存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令,从而即可减少匹配时间,又能提高语音控制成功率。
本发明实施例中,上述终端设备可以是任何具有存储媒介的设备,例如:计算机(Computer)、手机、平板电脑(Tablet PersonalComputer)、膝上型电脑(LaptopComputer)、个人数字助理(PersonalDigital Assistant,简称PDA)、移动上网装置(MobileInternet Device,简称MID)或可穿戴式设备(Wearable Device)等终端设备。
本实施例中的语音控制方法,在接收到用户输入的语音信息时,可以将语音信息与预设语音模型库中的语音模型进行匹配,且在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令,这样,由于预设语音模块库中存储有对应于不同使用场景的至少两个语音模型,从而可以从预设语音模型库中调用与当前使用场景较为匹配的语音模型来对用户输入的语音信息进行匹配,提高语音控制成功率。
参见图2,图2是本发明实施例提供的另一种语音控制方法的流程图,应用于终端设备,本实施例在图1所示的实施例的基础上,追加了根据所述语音信息生成第二语音模型,并通过所述第二语音模型更新所述预设语音模型库的步骤,从而可以根据用户在不同场景或近期录入的语音信息不断更新预设语音模块库,以提高语音控制成功率。如图2所示,所述方法包括以下步骤:
步骤201、接收用户输入的语音信息。
该步骤的具体实施方式可以参见图1所示的方法实施例中步骤101的实施方式,为避免重复,这里不再赘述。
步骤202、将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项。
该步骤的具体实施方式可以参见图1所示的方法实施例中步骤102的实施方式,为避免重复,这里不再赘述。
步骤203、在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
该步骤的具体实施方式可以参见图1所示的方法实施例中步骤103的实施方式,为避免重复,这里不再赘述。
步骤204、在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,其中,所述第一语音模型为所述预设语音模型库中的任一语音模型。
步骤205、通过所述第二语音模型更新所述预设语音模型库。
本实施例中,在所述语音信息与第一语音模型匹配成功的情况下,还可以在所述语音信息满足一定条件下,根据所述语音信息生成第二语音模型,其中,所述第一语音模型为所述预设语音模型库中的任一语音模型,具体地,可以在所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,所述预设阈值可以是***设置或用户自定义设置的,为保证所生成的第二语音模型能够提高语音控制成功率,所述预设阈值可以为较高的匹配度阈值,如70%、80%或85%等。
所述根据所述语音信息生成第二语音模型,可以是从所述语音信息中提取声纹特征信息,然后基于所提取的声纹特征信息和预设唤醒关键词,建立第二语音模型。其中,需说明的是,除了需满足所述语音信息与所述第一语音模型的匹配度超过预设阈值的条件才生成所述第二语音模型,还可以设定其他条件,来进一步保证语音控制成功率,例如,基于一定数量的语音信息、近一个月的语音信息、在同一地理位置输入的语音信息或在声音特征出现特定变化时的语音信息生成所述第二语音模型。
然后,可以通过所述第二语音模型更新所述预设语音模型库,具体地,可以是将所述第二语音模型添加至所述预设语音模型库中,也可以是使用所述第二语音模型替换所述预设语音模型库中的某个语音模型,具体如何更新可以根据所述第二语音模型的生成条件确定。
例如,若所述第二语音模型是基于同一地理位置的语音信息生成的,且所述预设语音模型库中没有关联所述同一地理位置的语音模型,则可以将所述第二语音模型添加至所述预设语音模型库中,并关联所述同一地理位置;若所述第二语音模型是基于用户近一个月输入的语音信息生成的,则可以使用所述第二语音模型替换所述预语音模型库中的语音模型,作为最新的语音模型;若所述第二语音模型是基于用户声音嘶哑时输入的语音信息生成的,则可以将所述第二语音模型添加至所述预设语音模型库中,作为关联用户声音嘶哑时的使用场景下的语音模型。
需说明的是,本实施例中,并不限定所述步骤204和所述步骤203的执行顺序,即所述步骤204可以是与所述步骤203并列执行的,也可以是在所述步骤203之后执行。
可选的,所述使用场景包括地理位置;
所述步骤204包括:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,获取所述终端设备当前所处的第一地理位置;
在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型。
该实施方式中,所述使用场景包括地理位置,所述语音信息可以是唤醒语音,这样,所述预设语音模型库中存储有对应于不同地理位置的至少两个语音模型。在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,可以根据所述语音信息和对应的地理位置,生成关联有地理位置的第二语音模型。
具体地,在所述语音信息满足与所述第一语音模型的匹配度超过预设阈值的情况下,可以先获取所述终端设备当前所处的第一地理位置,然后确定所述第一地理位置是否为常用唤醒地点,具体可以由服务器根据大数据统计,判断所述第一地理位置是否为所述终端设备的常用唤醒地点,如通过统计所述终端设备在所述第一地理位置的活动时长、唤醒次数等信息来判断所述第一地理位置是否为所述终端设备的常用唤醒地点,或者也可以由所述终端设备根据预先记录的在所述第一地理位置的活动时长、唤醒次数等信息,确定所述第一地理位置是否为常用唤醒地点。
例如,每当用户在所述第一地理位置输入语音信息以唤醒所述终端设备时,便记录所述第一地理位置,以及记录在所述第一地理位置的活动时长、唤醒次数等,当累计的所述终端设备在所述第一地理位置的活动时长达到一定时长,或唤醒次数达到一定次数时,便可确定所述第一地理位置为的常用唤醒地点。
在确定所述第一地理位置为常用唤醒地点的情况下,可根据所述语音信息生成关联所述第一地理位置的第二语音模型,即该实施方式中,可以根据用户在常用唤醒地点输入的唤醒语音信息,建立关联该唤醒地点的语音模型,使得用户在这些常用唤醒地点输入唤醒语音信息以唤醒所述终端设备时,可以调用对应的语音模型来进行匹配,提高语音控制成功率。
当生成关联所述第一地理位置的第二语音模型后,便可通过所述第二语音模型更新所述预设语音模型库,具体地,若所述预设语音模型库中存在关联所述第一地理位置的语音模型,则可以使用所述第二语音模型替换所述预设语音模型库中已存在的关联所述第一地理位置的语音模型,若所述预设语音模型库中还未建立有关联所述第一地理位置的语音模型,则可以将所述第二语音模型添加至所述预设语音模型库中。
这样,该实施方式中,当所述使用场景为地理位置时,可以在所述语音信息满足与所述第一语音模型的匹配度超过预设阈值的情况下,获取语音信息对应的地理位置,并在该地理位置为常用唤醒地点时,根据所述语音信息生成关联该地理位置的语音模型,以更新所述预设语音模型库中关联该地理位置的语音模型,从而当用户下次位于该地理位置输入唤醒语音信息时,可以调用与该地理位置对应的最新语音模型来进行匹配,提高语音控制成功率。且通过这种方式可以不断更新和完善所述预设语音模型库中对应于不同地理位置的语音模型,保证用户在不同地理位置均能够较快地唤醒所述终端设备,而不会受地理环境对声音的影响。
可选的,所述获取所述终端设备当前所处的第一地理位置之后,所述根据所述语音信息生成关联所述第一地理位置的第二语音模型之前,所述方法还包括:
将所述语音信息存入与所述第一地理位置对应的第一数据库中;
所述在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型,包括:
在所述第一数据库中存储的语音信息数量达到第一预设数量的情况下,根据所述第一数据库中存储的语音信息,生成关联所述第一地理位置的第二语音模型。
该实施方式中,在获取所述终端设备当前所处的第一地理位置之后,可以先不根据所述语音信息生成关联所述第一地理位置的第二语音模型,而是先将所述语音信息存入与所述第一地理位置对应的第一数据库中,即可对每个地理位置建立一个对应的数据库,用于存储用户在该地理位置输入的与第一语音模型匹配成功且匹配度超过预设阈值的语音信息。
然后可以判断所述第一数据库中存储的语音信息数量是否达到第一预设数量,以判定所述第一地理位置是否为常用唤醒地点,其中,所述第一预设数量可以是***设置或用户自定义设置的,例如可设置为5条、10条等。当确定所述第一数据库中存储的语音信息数量还未达到所述第一预设数量时,无需生成关联所述第一地理位置的第二语音模型;当确定所述第一数据库中存储的语音信息数量达到所述第一预设数量时,则可以根据所述第一数据库中存储的语音信息,生成关联所述第一地理位置的第二语音模型,具体地,可以使用所述第一数据库中存储的多条语音信息,训练生成关联所述第一地理位置的第二语音模型。
需说明的是,在生成关联所述第一地理位置的第二语音模型后,可以删除所述第一数据库中存储的语音信息,以便重新存储后续用户在所述第一地理位置输入的满足条件的语音信息,并再次基于所述第一数据库中存储的语音信息,生成新的语音模型来更新所述预设语音模型库中关联所述第一地理位置的语音模型。
还需说明的是,在所述预设语音模型库中存储有对应于不同地理位置的多个语音模型的情况下,可以根据所述终端设备的常用唤醒地点,对所述预设语音模型库进行更新,具体地,当所述预设语音模型库中存在关联第二地理位置的语音模型,但所述终端设备在所述第二地理位置超过预设时长未被唤醒时,可以删除所述预设语音模型库中关联所述第二地理位置的语音模型,以节省所述预设语音模型库所占用的存储空间。
这样,该实施方式中,通过基于所述第一数据库中存储的一定数量的语音信息,生成关联所述第一地理位置的第二语音模型,从而可保证所生成的语音模型能够更好地与用户输入的语音信息进行匹配,且能降低更新所述预设语音模型库的频率,使所述预设语音模型库具备更好的稳定性。
可选的,所述步骤204包括:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,将所述语音信息存入第二数据库中;
在所述第二数据库中存储的语音信息数量达到第二预设数量时,根据所述第二数据库中存储的语音信息,生成第二语音模型;
所述步骤205包括:
使用所述第二语音模型替换所述第一语音模型。
随着年龄增长、季节变化等因素,用户的声音会缓慢发生变化,从而导致原有语音模型与用户近期的声音匹配度降低,进而导致语音控制成功率逐步降低。该实施方式中,为避免因用户声音的缓慢变化而带来的语音控制成功率降低,可以利用用户近期通过语音指令控制所述终端设备时的语音信息来更新所述预设语音模型库中的语音模型,使所述预设语音模型库能够随用户声音的变化而动态更新,进而提高语音控制成功率。
具体地,可以预先建立第二数据库,用于存储用户近期输入的与第一语音模型匹配成功,且与所述第一语音模型的匹配度超过预设阈值的语音信息,当所述第二数据库中存储的语音信息数量达到第二预设数量时,可以根据所述第二数据库中存储的语音信息,生成第二语音模型,这样,可保证所述第二语音模型是基于用户最近输入的语音信息中的声音特征所生成的;其中,所述第二预设数量可以是***设置或用户自定义设置的,例如可设置为5条、10条等。
然后可使用所述第二语音模型更新所述预设语音模型库中的语音模型,具体地,为节省所述预设语音模型库所占用的存储空间,可以是使用所述第二语音模型替换所述预设语音模型库中基于较早时间的语音信息所生成的语音模型。
此外,在生成所述第二语音模型库之后,还可删除所述第二数据库中存储的语音信息,以便所述第二数据库存储用户后续所输入的符合条件的语音信息,从而保证所述第二数据库中存储的是用户最近时间段所输入的语音信息,进而保证基于所述第二数据库中的语音信息所生成的语音模型与用户最近的声音特征更为匹配。
这样,该实施方式中,通过根据所述第二数据库中存储的一定数量的语音信息,生成第二语音模型,从而可保证所生成的语音模型能够更好地与用户的声音特征匹配,避免用户因声音特征的缓慢变化而导致的语音控制成功率降低。
可选的,所述使用场景包括声音特征;
所述步骤204包括:
在检测到用户输入所述语音信息时的声音特征存在特定变化,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成关联变化声音特征的第二语音模型。
该实施方式中,所述使用场景包括声音特征,这样,所述预设语音模型库中存储有对应于不同声音特征的至少两个语音模型,具体可以是存储有对应于正常声音特征的语音模型和对应于变化声音特征的语音模型。
该实施方式中,在接收到用户输入的语音信息时,还可以检测用户当前的声音特征是否存在特定变化,如是否存在声音嘶哑等变化,在检测到用户的声音特征存在特定变化,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,可以根据所述语音信息生成关联变化声音特征的第二语音模型,在所述预设语音模型库中存在关联变化声音特征的语音模型的情况下,可以使用所述第二语音模型替换所述预设语音模型库中关联变化声音特征的语音模型,在所述预设语音模型库中不存在关联变化声音特征的语音模型的情况下,可以将所述第二语音模型添加至所述预设语音模型库中。
这样,在下次接收到用户输入的声音特征存在特定变化的语音信息时,可以直接与所述预设语音模型库中关联变化声音特征的语音模型进行匹配,进而可以提高语音匹配成功率,在下次接收到用户输入的声音特征不存在特定变化的语音信息时,可以不加载所述关联变化声音特征的语音模型,以避免占用内存。
本实施例中,在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,并通过所述第二语音模型更新所述预设语音模型库,从而所述预设语音模块库的语音模型可以不断被更新,以适应用户在不同使用场景或不同时期的语音控制需求,通过适应更新语音模型的方式提高语音控制成功率。
另外,本实施例在图1所示的实施例的基础上还增加了多种可选的实施方式,这些可选的实施方式可以相互结合实现,也可以单独实现,且都能达到提高语音控制成功率的技术效果。
为更好地说明本发明实施例,下面结合图3、图4和图5,以用户输入唤醒语音以唤醒终端设备为例,对本发明实施例的实施方式进行举例说明:
例1:如图3所示,步骤301、根据用户在不同的地理位置录入的唤醒语音,建立多个分别关联不同地理位置的语音模型,形成地点语音模型库;
步骤302、当接收到用户输入的唤醒语音时,获取所述终端设备当前所处的地理位置,确定所述地点语音模型库中与所述终端设备当前所处的地理位置匹配的目标语音模型;其中,若所述终端设备当前所处的地理位置与某语音模型所关联的地理位置的距离在预设范围之内,则可认为所述终端设备当前所处的地理位置与该语音模型所关联的地理位置匹配;
步骤303、将所述唤醒语音与所述目标语音模型匹配,其中,若所述地点语音模型库中不存在与所述终端设备当前所处的地理位置匹配的语音模型,则可与***默认的语音模型进行匹配;
步骤304、在匹配成功的情况下,唤醒所述终端设备,并且若所述唤醒语音与所述目标语音模型的匹配度超过预设阈值,则将所述唤醒语音存储至与所述终端设备当前所处的地理位置对应的数据库中;
步骤305、通过大数据统计判断所述终端设备当前所处的地理位置是否为常用唤醒地点;
步骤306、若是,则在所述数据库中存储的唤醒语音数量达到预设数量时,基于所述数据库中存储的唤醒语音,生成关联所述终端设备当前所处的地理位置的语音模型;
步骤307、通过所生成的关联所述终端设备当前所处的地理位置的语音模型更新所述地点语音模型库,具体地,可以是将关联所述终端设备当前所处的地理位置的语音模型添加至所述地点语音模型库,或替换所述地点语音模型库中关联所述终端设备当前所处的地理位置的语音模型;
步骤308、此外,当所述终端设备在目标地理位置超过预设时长未被唤醒时,删除所述地点语音模型库中关联所述目标地理位置的语音模型。
例2:如图4所示,步骤401、根据用户录入的唤醒语音,生成语音模型;
步骤402、接收用户输入的唤醒语音,将所述唤醒语音与所述语音模型进行匹配;
步骤403、在匹配成功的情况下,唤醒所述终端设备,并且若所述唤醒语音与所述语音模型的匹配度超过预设阈值,则将所述唤醒语音存储至历史语音数据库中;
步骤404、在所述历史语音数据库中存储的唤醒语音数量达到预设数量时,基于所述历史语音数据库中存储的唤醒语音,生成新语音模型;
步骤405、利用所生成的新语音模型替换原有的语音模型,实现语音模型跟随人声变化动态更新。
例3:如图5所示,步骤501、根据用户声音正常时录入的唤醒语音,生成正常语音模型;
步骤502、接收用户输入的唤醒语音,将所述唤醒语音与所述正常语音模型进行匹配,并检测用户声音是否发生特定变化;
步骤503、在所述唤醒语音与所述正常语音模型匹配成功的情况下,唤醒所述终端设备;
步骤504、同时,当检测到用户声音发生特定变化,如声音沙哑,且所述唤醒语音与所述正常语音模型的匹配度超过预设阈值时,基于所述唤醒语音生成声音变化语音模型;
步骤505、在后续接收到唤醒语音时,将所述唤醒语音分别与所述正常语音模型和所述声音变化语音模型进行匹配;
步骤506、在所述唤醒语音与所述正常语音模型和所述声音变化语音模型中的至少一个匹配成功的情况下,唤醒所述终端设备;
步骤507、在所述唤醒语音与所述正常语音模型的匹配度高于所述唤醒语音与所述声音变化语音模型的匹配度的情况下,确定用户声音恢复正常;
步骤508、在下次唤醒时,不再加载所述声音变化语音模型,以节省***资源。
参见图6,图6是本发明实施例提供的一种终端设备的结构示意图,如图6所示,终端设备600包括:
接收模块601,用于接收用户输入的语音信息;
匹配模块602,用于将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;
执行模块603,用于在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
可选的,匹配模块602用于将所述语音信息与预设语音模型库中的目标语音模型进行匹配,其中,所述目标语音模型为所述预设语音模型库中与当前使用场景关联的语音模型;
执行模块603用于在所述目标语音模型中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
可选的,如图7所示,终端设备600还包括:
生成模块604,用于在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,其中,所述第一语音模型为所述预设语音模型库中的任一语音模型;
更新模块605,用于通过所述第二语音模型更新所述预设语音模型库。
可选的,所述使用场景包括地理位置;
如图8所示,生成模块604包括:
获取单元6041,用于在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,获取终端设备600当前所处的第一地理位置;
第一生成单元6042,用于在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型。
可选的,如图9所示,生成模块604还包括:
第一存储单元6043,用于将所述语音信息存入与所述第一地理位置对应的第一数据库中;
第一生成单元6042用于在所述第一数据库中存储的语音信息数量达到第一预设数量的情况下,根据所述第一数据库中存储的语音信息,生成关联所述第一地理位置的第二语音模型。
可选的,如图10所示,生成模块604包括:
第二存储单元6044,用于在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,将所述语音信息存入第二数据库中;
第二生成单元6045,用于在所述第二数据库中存储的语音信息数量达到第二预设数量时,根据所述第二数据库中存储的语音信息,生成第二语音模型,并删除所述第二数据库中存储的语音信息;
更新模块605用于使用所述第二语音模型替换所述第一语音模型。
可选的,所述使用场景包括声音特征;
所述生成模块604用于在检测到用户输入所述语音信息时的声音特征存在特定变化,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成关联变化声音特征的第二语音模型。
终端设备600能够实现图1至图5的方法实施例中终端设备实现的各个过程,为避免重复,这里不再赘述。本发明实施例的终端设备600可以在接收到用户输入的语音信息时,将语音信息与预设语音模型库中的语音模型进行匹配,且在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令,这样,由于预设语音模块库中存储有对应于不同使用场景的至少两个语音模型,从而可以从预设语音模型库中调用与当前使用场景较为匹配的语音模型来对用户输入的语音信息进行匹配,提高语音控制成功率。
图11为实现本发明各个实施例的一种终端设备的硬件结构示意图,该终端设备1100包括但不限于:射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、处理器1110、以及电源1111等部件。本领域技术人员可以理解,图11中示出的终端设备结构并不构成对终端设备的限定,终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器1110,用于控制输入单元1104接收用户输入的语音信息;
将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;
在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
可选的,处理器1110还用于:
将所述语音信息与预设语音模型库中的目标语音模型进行匹配,其中,所述目标语音模型为所述预设语音模型库中与当前使用场景关联的语音模型;
在所述目标语音模型中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
可选的,处理器1110还用于:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,其中,所述第一语音模型为所述预设语音模型库中的任一语音模型;
通过所述第二语音模型更新所述预设语音模型库。
可选的,所述使用场景包括地理位置;
处理器1110还用于:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,获取所述终端设备当前所处的第一地理位置;
在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型。
可选的,处理器1110还用于:
控制存储器1109将所述语音信息存入与所述第一地理位置对应的第一数据库中;
在所述第一数据库中存储的语音信息数量达到第一预设数量的情况下,根据所述第一数据库中存储的语音信息,生成关联所述第一地理位置的第二语音模型。
可选的,处理器1110还用于:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,控制存储器1109将所述语音信息存入第二数据库中;
在所述第二数据库中存储的语音信息数量达到第二预设数量时,根据所述第二数据库中存储的语音信息,生成第二语音模型;
使用所述第二语音模型替换所述第一语音模型。
可选的,所述使用场景包括声音特征;
处理器1110还用于:
在检测到用户输入所述语音信息时的声音特征存在特定变化,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成关联变化声音特征的第二语音模型。
终端设备1100能够实现前述实施例中终端设备实现的各个过程,为避免重复,这里不再赘述。本发明实施例的终端设备1100可以在接收到用户输入的语音信息时,将语音信息与预设语音模型库中的语音模型进行匹配,且在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令,这样,由于预设语音模块库中存储有对应于不同使用场景的至少两个语音模型,从而可以从预设语音模型库中调用与当前使用场景较为匹配的语音模型来对用户输入的语音信息进行匹配,提高语音控制成功率。
应理解的是,本发明实施例中,射频单元1101可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器1110处理;另外,将上行的数据发送给基站。通常,射频单元1101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元1101还可以通过无线通信***与网络和其他设备通信。
终端设备通过网络模块1102为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元1103可以将射频单元1101或网络模块1102接收的或者在存储器1109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元1103还可以提供与终端设备1100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元1103包括扬声器、蜂鸣器以及受话器等。
输入单元1104用于接收音频或视频信号。输入单元1104可以包括图形处理器(Graphics Processing Unit,简称GPU)11041和麦克风11042,图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1106上。经图形处理器11041处理后的图像帧可以存储在存储器1109(或其它存储介质)中或者经由射频单元1101或网络模块1102进行发送。麦克风11042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1101发送到移动通信基站的格式输出。
终端设备1100还包括至少一种传感器1105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板11061的亮度,接近传感器可在终端设备1100移动到耳边时,关闭显示面板11061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器1105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元1106用于显示由用户输入的信息或提供给用户的信息。显示单元1106可包括显示面板11061,可以采用液晶显示器(Liquid Crystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板11061。
用户输入单元1107可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板11071上或在触控面板11071附近的操作)。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1110,接收处理器1110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板11071。除了触控面板11071,用户输入单元1107还可以包括其他输入设备11072。具体地,其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板11071可覆盖在显示面板11061上,当触控面板11071检测到在其上或附近的触摸操作后,传送给处理器1110以确定触摸事件的类型,随后处理器1110根据触摸事件的类型在显示面板11061上提供相应的视觉输出。虽然在图11中,触控面板11071与显示面板11061是作为两个独立的部件来实现终端设备的输入和输出功能,但是在某些实施例中,可以将触控面板11071与显示面板11061集成而实现终端设备的输入和输出功能,具体此处不做限定。
接口单元1108为外部装置与终端设备1100连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到终端设备1100内的一个或多个元件或者可以用于在终端设备1100和外部装置之间传输数据。
存储器1109可用于存储软件程序以及各种数据。存储器1109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1110是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器1109内的软件程序和/或模块,以及调用存储在存储器1109内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。处理器1110可包括一个或多个处理单元;优选的,处理器1110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。
终端设备1100还可以包括给各个部件供电的电源1111(比如电池),优选的,电源1111可以通过电源管理***与处理器1110逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
另外,终端设备1100包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种终端设备,包括处理器1110,存储器1109,存储在存储器1109上并可在所述处理器1110上运行的计算机程序,该计算机程序被处理器1110执行时实现上述语音控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音控制方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (11)
1.一种语音控制方法,应用于终端设备,其特征在于,所述方法包括:
接收用户输入的语音信息;
将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;所述至少两个语音模型是根据用户在不同使用场景下录入的语音信息生成的,或者是根据用户在不同使用场景下对所述终端设备下发控制指令时所输入的语音信息生成的;
在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令;
所述在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令之后,所述方法还包括:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,其中,所述第一语音模型为所述预设语音模型库中的任一语音模型;
通过所述第二语音模型更新所述预设语音模型库;
所述使用场景包括声音特征;
所述在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,包括:
在检测到用户输入所述语音信息时的声音特征存在特定变化,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成关联变化声音特征的第二语音模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信息与预设语音模型库中的语音模型进行匹配,包括:
将所述语音信息与预设语音模型库中的目标语音模型进行匹配,其中,所述目标语音模型为所述预设语音模型库中与当前使用场景关联的语音模型;
所述在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令,包括:
在所述目标语音模型中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
3.根据权利要求1所述的方法,其特征在于,所述使用场景包括地理位置;
所述在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,包括:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,获取所述终端设备当前所处的第一地理位置;
在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型。
4.根据权利要求3所述的方法,其特征在于,所述获取所述终端设备当前所处的第一地理位置之后,所述根据所述语音信息生成关联所述第一地理位置的第二语音模型之前,所述方法还包括:
将所述语音信息存入与所述第一地理位置对应的第一数据库中;
所述在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型,包括:
在所述第一数据库中存储的语音信息数量达到第一预设数量的情况下,根据所述第一数据库中存储的语音信息,生成关联所述第一地理位置的第二语音模型。
5.根据权利要求1所述的方法,其特征在于,所述在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,包括:
在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,将所述语音信息存入第二数据库中;
在所述第二数据库中存储的语音信息数量达到第二预设数量时,根据所述第二数据库中存储的语音信息,生成第二语音模型;
所述通过所述第二语音模型更新所述预设语音模型库,包括:
使用所述第二语音模型替换所述第一语音模型。
6.一种终端设备,其特征在于,包括:
接收模块,用于接收用户输入的语音信息;
匹配模块,用于将所述语音信息与预设语音模型库中的语音模型进行匹配,其中,所述预设语音模型库中存储有对应于不同使用场景的至少两个语音模型,所述使用场景包括地理位置和声音特征中的至少一项;所述至少两个语音模型是根据用户在不同使用场景下录入的语音信息生成的,或者是根据用户在不同使用场景下对所述终端设备下发控制指令时所输入的语音信息生成的;
执行模块,用于在所述预设语音模型库中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令;
所述终端设备还包括:
生成模块,用于在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成第二语音模型,其中,所述第一语音模型为所述预设语音模型库中的任一语音模型;
更新模块,用于通过所述第二语音模型更新所述预设语音模型库;
所述使用场景包括声音特征;
所述生成模块用于在检测到用户输入所述语音信息时的声音特征存在特定变化,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,根据所述语音信息生成关联变化声音特征的第二语音模型。
7.根据权利要求6所述的终端设备,其特征在于,所述匹配模块用于将所述语音信息与预设语音模型库中的目标语音模型进行匹配,其中,所述目标语音模型为所述预设语音模型库中与当前使用场景关联的语音模型;
所述执行模块用于在所述目标语音模型中存在语音模型与所述语音信息匹配成功的情况下,执行所述语音信息对应的控制指令。
8.根据权利要求6所述的终端设备,其特征在于,所述使用场景包括地理位置;
所述生成模块包括:
获取单元,用于在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,获取所述终端设备当前所处的第一地理位置;
第一生成单元,用于在确定所述第一地理位置为常用唤醒地点的情况下,根据所述语音信息生成关联所述第一地理位置的第二语音模型。
9.根据权利要求8所述的终端设备,其特征在于,所述生成模块还包括:
第一存储单元,用于将所述语音信息存入与所述第一地理位置对应的第一数据库中;
所述第一生成单元用于在所述第一数据库中存储的语音信息数量达到第一预设数量的情况下,根据所述第一数据库中存储的语音信息,生成关联所述第一地理位置的第二语音模型。
10.根据权利要求6所述的终端设备,其特征在于,所述生成模块包括:
第二存储单元,用于在所述语音信息与第一语音模型匹配成功,且所述语音信息与所述第一语音模型的匹配度超过预设阈值的情况下,将所述语音信息存入第二数据库中;
第二生成单元,用于在所述第二数据库中存储的语音信息数量达到第二预设数量时,根据所述第二数据库中存储的语音信息,生成第二语音模型;
所述更新模块用于使用所述第二语音模型替换所述第一语音模型。
11.一种终端设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音控制方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910079479.5A CN109509473B (zh) | 2019-01-28 | 2019-01-28 | 语音控制方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910079479.5A CN109509473B (zh) | 2019-01-28 | 2019-01-28 | 语音控制方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109509473A CN109509473A (zh) | 2019-03-22 |
CN109509473B true CN109509473B (zh) | 2022-10-04 |
Family
ID=65758261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910079479.5A Active CN109509473B (zh) | 2019-01-28 | 2019-01-28 | 语音控制方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109509473B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833857B (zh) * | 2019-04-16 | 2024-05-24 | 斑马智行网络(香港)有限公司 | 语音处理方法、装置和分布式*** |
CN110225386B (zh) * | 2019-05-09 | 2021-09-14 | 海信视像科技股份有限公司 | 一种显示控制方法、显示设备 |
CN110047485B (zh) * | 2019-05-16 | 2021-09-28 | 北京地平线机器人技术研发有限公司 | 识别唤醒词的方法和装置、介质以及设备 |
CN110349575A (zh) * | 2019-05-22 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 语音识别的方法、装置、电子设备和存储介质 |
CN112289325A (zh) * | 2019-07-24 | 2021-01-29 | 华为技术有限公司 | 一种声纹识别方法及装置 |
CN111724791A (zh) * | 2020-05-22 | 2020-09-29 | 华帝股份有限公司 | 基于智能语音设备的识别控制方法 |
CN112786055A (zh) * | 2020-12-25 | 2021-05-11 | 北京百度网讯科技有限公司 | 资源挂载方法、装置、设备、存储介质及计算机程序产品 |
CN112820273B (zh) * | 2020-12-31 | 2022-12-02 | 青岛海尔科技有限公司 | 唤醒判别方法和装置、存储介质及电子设备 |
CN112786046B (zh) * | 2021-01-15 | 2022-05-17 | 宁波方太厨具有限公司 | 多设备语音控制方法、***、设备及可读存储介质 |
CN113611332B (zh) * | 2021-10-09 | 2022-01-18 | 聊城中赛电子科技有限公司 | 一种基于神经网络的智能控制开关电源方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别*** |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令*** |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别***和方法 |
CN106328124A (zh) * | 2016-08-24 | 2017-01-11 | 安徽咪鼠科技有限公司 | 一种基于用户行为特征的语音识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI349266B (en) * | 2007-04-13 | 2011-09-21 | Qisda Corp | Voice recognition system and method |
CN101290770A (zh) * | 2007-04-20 | 2008-10-22 | 明基电通股份有限公司 | 语音识别***及方法 |
CN102968987A (zh) * | 2012-11-19 | 2013-03-13 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及*** |
CN105489221B (zh) * | 2015-12-02 | 2019-06-14 | 北京云知声信息技术有限公司 | 一种语音识别方法及装置 |
CN108597495B (zh) * | 2018-03-15 | 2020-04-14 | 维沃移动通信有限公司 | 一种处理语音数据的方法及装置 |
CN108924337A (zh) * | 2018-05-02 | 2018-11-30 | 宇龙计算机通信科技(深圳)有限公司 | 一种唤醒性能的控制方法和装置 |
CN108924343A (zh) * | 2018-06-19 | 2018-11-30 | Oppo广东移动通信有限公司 | 电子设备控制方法、装置、存储介质及电子设备 |
CN108922520B (zh) * | 2018-07-12 | 2021-06-01 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN109243461B (zh) * | 2018-09-21 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
-
2019
- 2019-01-28 CN CN201910079479.5A patent/CN109509473B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别*** |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令*** |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别***和方法 |
CN106328124A (zh) * | 2016-08-24 | 2017-01-11 | 安徽咪鼠科技有限公司 | 一种基于用户行为特征的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109509473A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109509473B (zh) | 语音控制方法及终端设备 | |
CN109343759B (zh) | 一种息屏显示的控制方法及终端 | |
CN108135033B (zh) | 一种蓝牙连接方法及移动终端 | |
CN108712566B (zh) | 一种语音助手唤醒方法及移动终端 | |
CN108073458B (zh) | 内存回收方法、移动终端及计算机可读存储介质 | |
CN111324235A (zh) | 一种屏幕刷新频率调整方法及电子设备 | |
CN108391008B (zh) | 一种消息提醒方法及移动终端 | |
CN108984066B (zh) | 一种应用程序图标显示方法及移动终端 | |
CN109901695B (zh) | 屏幕省电的显示方法、移动终端和计算机可读存储介质 | |
CN107734170B (zh) | 一种通知消息处理方法、移动终端及穿戴设备 | |
CN108681413B (zh) | 一种显示模组的控制方法及移动终端 | |
CN109189303B (zh) | 文本编辑方法及移动终端 | |
CN109858447B (zh) | 一种信息处理方法及终端 | |
CN108597495B (zh) | 一种处理语音数据的方法及装置 | |
CN108307048B (zh) | 一种消息输出方法和装置及移动终端 | |
CN108388400B (zh) | 一种操作处理方法及移动终端 | |
CN108089935B (zh) | 一种应用程序的管理方法及移动终端 | |
CN111694537B (zh) | 音频播放方法、电子设备及可读存储介质 | |
CN115985323B (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
CN109922209B (zh) | 一种照片管理方法及终端设备 | |
CN109660657B (zh) | 一种应用程序控制方法及装置 | |
CN109144860B (zh) | 一种对控件对象的操作方法及终端设备 | |
CN110928616A (zh) | 快捷图标管理方法及电子设备 | |
CN114064179A (zh) | 一种显示模式适配方法、终端及存储介质 | |
CN110908732B (zh) | 应用的任务删除方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |