CN112700770A - 语音控制方法、音箱设备、计算设备和存储介质 - Google Patents
语音控制方法、音箱设备、计算设备和存储介质 Download PDFInfo
- Publication number
- CN112700770A CN112700770A CN201911011486.8A CN201911011486A CN112700770A CN 112700770 A CN112700770 A CN 112700770A CN 201911011486 A CN201911011486 A CN 201911011486A CN 112700770 A CN112700770 A CN 112700770A
- Authority
- CN
- China
- Prior art keywords
- user
- personalized
- equipment
- control
- controlled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000004590 computer program Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例公开了一种语音控制方法、音箱设备、计算设备和存储介质,方法包括:获取用户语音信号;获取用于控制待控制设备的用户个性化控制信息;至少基于用户个性化控制信息,处理语音信号并得到对应的设备控制请求,控制请求用于控制目标待控制设备执行设备控制操作。本发明实施例能够实现个性化语音控制。
Description
技术领域
本发明涉及语言控制技术领域,尤其涉及一种语音控制方法、音箱设备、计算设备和存储介质。
背景技术
随着信息化社会的发展,以及信息技术的进步,语音识别技术经历了从无到有,从稚嫩到成熟的发展过程,现有语音识别技术无论是从识别速度上还是从识别准确度上,均可满足人们对语音识别的基本需求。
相关的语音识别技术,只能识别出词库中存储的词,对于不同用户之间不同的语音习惯则不能正常解析。可见,相关技术难以针对不同用户的个性化语音进行识别,进而不能基于识别的语音实现个性化语音控制。
发明内容
本发明实施例提供了一种语音控制方法、音箱设备、计算设备和存储介质,用以解决不能个性化语音控制的问题。
根据本发明实施例的第一方面,提供一种语音控制方法,该方法可以包括:
获取用户语音信号;
获取用于控制待控制设备的用户个性化控制信息;
至少基于用户个性化控制信息,处理语音信号并得到对应的设备控制请求,控制请求用于控制目标待控制设备执行设备控制操作。
根据本发明实施例的第二方面,提供一种导航方法,该方法可以包括:
获取用户语音信号;
获取待定位地理位置的个性化信息;
至少基于待定位地理位置的个性化信息,处理语音信号并得到对应的地理位置。
根据本发明实施例的第三方面,提供一种音箱设备,该音箱设备可以包括:
获取模块,获取用户语音信号;
获取模块,还用于获取用于控制待控制设备的用户个性化控制信息;
处理模块,用于至少基于用户个性化控制信息,处理语音信号并得到对应的设备控制请求,设备控制请求用于控制目标待控制设备执行设备控制操作。
根据本发明实施例的第四方面,提供一种音箱设备,音箱设备包括:存储器,用于存储程序指令;
处理器,用于根据程序指令执行第一方面所示的方法。
根据本发明实施例的第五方面,提供一种计算设备,计算设备包括:至少一个处理器、至少一个存储器以及至少一个计算机程序,其中,计算机程序被存储在存储器中,计算机程序包括指令,处理器用于执行计算机程序,以使计算设备实现如第一方面所示的方法或第二方面所示的方法。
根据本发明实施例的第六方面,提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述各方面的语音控制方法或第二方面所示的方法。
在本发明实施例中披露的语音控制方法,通过用于控制待控制设备的用户个性化控制信息,处理用户语音信号并得到对应的设备控制请求,该设备控制请求用于控制目标待控制设备执行设备控制操作。本发明实施例能够实现个性化语音控制,与此同时,还能根据个性化语音增加语音识别率。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明实施例的一种语音控制方法的应用场景示意图;
图2为本发明实施例的一种语音控制方法的流程图;
图3为本发明实施例的语音控制***的示意图;
图4为本发明实施例的另一种语音控制方法的流程图;
图5为本发明实施例的一种导航方法的示意图;
图6为本发明实施例的一种语音控制设备的示意图;
图7为本发明实施例的一种音响设备的示意图;
图8为本发明实施例的一种导航装置的示意图;
图9为本发明实施例的语音控制设备示意性框图;
图10为本发明实施例的音箱设备示意性框图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1为本发明实施例一种语音控制方法的应用场景示意图。如图1所示,在场景中,主要将屋子按照功能划分为多个区域(例如,卧室、厨房等;或者,办公室,会议室等);上述区域中,都设置有语音控制设备和待控制设备(例如,灯、投影仪等设备)。下面以区域1为会议室、区域2为办公室为示例,在区域1中包括语音控制设备11、灯12和投影仪13;区域2中包括语音控制设备21和灯22。在区域1中,用户可以通过向语音控制设备11发出语音信号,进而能实现控制该区域1中的灯12和投影仪13;或者,通过用户终端上的应用程序(Application,APP)操作该区域中的待控制设备。在图1中仅示例通过语音操作上述区域中的待控制设备。
需要说明的是,语音控制设备可以为音箱设备。
下面结合附图,对本说明书提供的方案进行详细描述。
图2为本发明实施例的一种语音控制方法的流程图。如图2所示,该语音控制方法可以包括:
S210:获取用户语音信号;
S220:获取用于控制待控制设备的用户个性化控制信息;
S230:至少基于用户个性控制信息,处理语音信号并得到对应的设备控制请求,设备控制请求用于控制目标待控制设备执行设备控制操作。
在本发明实施例中披露的语音控制方法,通过用于控制待控制设备的用户个性化控制信息,处理用户语音信号并得到对应的设备控制请求,该设备控制请求用于控制目标待控制设备执行设备控制操作。本发明实施例能够实现个性化语音控制,与此同时,还能根据个性化语音增加语音识别率。
在本发明实施例中,S210包括:
在图3中,语音控制设备31接收到用户10发出的用户语音信号。
其中,语音控制设备31可以为语音获取设备,具有麦克风和喇叭等器件。在图3中仅以麦克风为示例。
在本发明实施例中,语音控制设备31可以在用户10需要对设备33(例如,灯、电视、投影仪等设备)进行操作的时候,才唤醒语音控制设备31;一方面可以节省资源,另一方面可以避免不必要的操作,提高用户体验度。
在本发明实施例中,S220包括:
从目标服务端获取用于控制待控制设备的用户个性化控制信息。
在图3中,从目标服务端32获取用户个性化控制信息。在图3中仅以从目标服务端32获取用户个性化控制信息为示例。
需要说明的是,语音控制***30中的语音控制设备31、目标服务端32均处于在线状态。
在本发明实施例中,S220包括:
从本地获取用户个性化控制信息。
需要说明的是,从本地(例如,数据库DB)获取用户个性化控制信息;在一种情况下,如果在本地没有获取到与用户个性化控制信息,此时可以再从目标服务端获取用户个性化控制信息。
由于从本地获取用户个性化控制信息的速度一般要比从目标服务端获取用户个性化控制信息的时间短,可以在目标服务端中存储的用户个性化控制信息被修改之后,通过接口同步至语音控制设备的本地。其中,用户可以通过用户终端上的应用程序(Application,APP)对用户个性化控制信息进行修改。
需要说明的是,考虑到用户个性化控制信息可能会涉及到敏感信息,此时,从目标服务端中获取用户个性化控制信息相较于本地,安全性更好。其中,目标服务端一般为目标待控制设备的生成厂家,在用户的设置用户个性化控制信息不包括敏感信息的时候,可以在用户个性化控制信息修改之后同步至本地,便于提高用户体验度。
在本发明实施例中,S230包括:
第一步:识别用户语音信号,得到第一文本;
第二步:至少基于所述用户个性化控制信息,解析所述第一文本,并根据解析后的第一文本得到所述设备控制请求。
在本发明实施例中,第一步包括:
基于用户个性化控制信息,识别用户语音信息,得到第一文本。
其中,基于用户个性化控制信息,识别用户语音信息,得到第一文本,包括:
对用户语音信号进行识别,得到分词;将分词与用户个性化控制信息进行匹配,得到第一文本。
在本发明实施例中,第二步包括:
解析第一文本,并将解析后的第一文本与用户个性化控制信息进行匹配,得到与解析后的第一文本匹配的目标待控制设备;
根据匹配的目标待控制设备和解析后的第一文本中的设备控制操作,得到设备控制请求。
具体地,基于对话框(Dialog)中的自然语言理解(Natural LanguageUnderstanding,Nlu)对进行分析,并与用户个性化控制信息进行匹配,得到第一文本匹配的目标待控制设备;以及Dialog Script(对话脚本函数引擎)基于目标待控制设备和解析后的第一文本中的设备控制操作得到设备控制请求。
在本发明实施例中,用户个性化控制信息包括如下项中的至少一种:待控制设备的个性化命名、待控制设备所在的个性化位置信息、个性化控制指令。
其中,待控制设备的名称可以用户自己定义,例如“小明”,也可以设备固有的名称,例如“灯”。
其中,待控制设备所在的个性化位置信息可以用户自己定义,例如“女儿”,也可以为次卧。
其中,个性化控制指令可以用户自己定义,例如“长按”,也可以为打开或关闭。
在一个示例中,用户个性化控制信息为““长按”对应“打开”、“酷炫”对应“次卧”、“按钮”对应“灯ID 11111””,用户语音信号为“长按酷炫按钮”。为了方便描述,下文中以打开灯为示例。另外,此处只是列举了一种用户个性化控制信息,用户可以根据自己的使用需求来设置,避免设置太单一。
第一步包括:
识别用户语音信号得到“长按酷炫按钮”。
第二步包括:
根据““长按”对应“打开”、“酷炫”对应“次卧”、“按钮”对应“灯ID 11111””,分析“长按酷炫按钮”,并与用户个性化控制信息进行匹配,得到意图(intent)为“打开”、槽(slot)为““灯”、“灯与ID 11111对应”区域(domain)为“次卧””,并基于domain+intent+slot生成控制请求,即“打开次卧中灯(灯ID为11111)”。
需要说明的是,如果用户语音信号中包括目标待控制设备所在的位置信息,在对用户语音信号进行分析的过程,按照分析用户语音信号得出的区域(domain)为目标待控制设备所处的位置信息;在用户语音信号中区域(domain)缺省的情况下,可以基于语音控制设备31所处的位置信息来补充区域(domain),进而实现语音控制。
在本发明实施例中,目标待控制设备与语音控制设备31处于同一区域,例如同一房间或同一办公区域。
在一个示例中,区域的数量为一个时,只要分析出“intent+slot”,此时“domain”可由语音控制设备31所在的位置信息进行补充,即可实现语音控制。
另外,对于一个较大的区域时,尤其是相同类型的目标待控制设备较多时,可以考虑设置多个语音控制设备31,实现分布式控制。
在一个示例中,区域的数量为至少两个时,如果只分析出“intent+slot”,此时由接收用户语音信号的语音控制设备31的位置信息来进行补充,也可以实现语音控制;如果解析出“domain+intent+slot”,也是可以实现语音控制。
在本发明实施例中,目标待控制设备与语音控制设备31不处于同一区域。
在一个示例中,一个屋子包括多个房间,屋子里设置了一个语音控制设备31。
在本发明实施例中,用户个性化控制信息可以为某一用户ID对应的;也可以为多个用户ID对应的;第二种是指,用户个性化控制信息对应整个屋,且分别可以基于每一个房间的用户ID进行调取。其中,用户ID可以用户的手机号或者其他用户设置的账号。
本发明实施例,在S230之后,该语音控制方法还包括:
基于设备控制请求控制目标待控制设备执行设备控制操作。
在语音控制设备31接收到用户10发出的用户语音信号,并至少基于获取的用户个性化控制信息,处理语音信号并得到对应的设备控制请求,以及根据设备控制请求控制待控制设备执行设备控制操作。例如,得到设备控制请求为“请打开卧室的灯”,由语音控制设备31控制卧室的灯打开。
本发明实施例,在S230之后,该语音控制方法还包括:
发送设备控制请求至目标服务端,以指示目标服务端基于设备控制请求控制目标待控制设备执行设备控制操作。
在图3中,语音控制设备31接收到用户10发出的用户语音信号,并至少基于获取的用户个性化控制信息,处理语音信号并得到对应的设备控制请求,以及将设备控制请求发送至目标服务端32,以指示目标服务端32基于设备控制请求控制目标待控制设备33执行设备控制操作。例如,得到设备控制请求为“请打开卧室的灯”,由语音控制设备31将“请打开卧室的灯”发送至目标服务端32,由目标服务端32控制灯的开启。
另外,在灯33打开之后,接收目标服务端32返回的处理结果,并依次传送至语音控制设备31,由语音控制设备31在其控制面板上显示和/或语音控制设备31语音播报。
在本发明实施例中,语音控制设备可以为音箱设备,此时,由音箱设备执行语音控制方法对应的步骤;语音控制设备还可以为音箱设备对应的云端,此时,由音箱设备获取语音数据,并将语音数据上传至云端,由云端执行后续的语音控制方法对应的步骤。
图4为本发明实施例的另一种语音控制方法的流程图。如图4所示,该语音控制包括可以包括:
S410:获取用户语音信号;
S420:根据用户ID从目标服务端获取与用户ID对应的用户个性化控制信息;
其中,用户个性化控制信息包括如下项中的至少一项:待控制设备的个性化命名、待控制设备所在的个性化位置信息、个性化控制指令;
S430:基于ASR对用户语音信号进行识别,并与用户个性化控制信息匹配,得到文本;
S440:基于对话框(Dialog)中的自然语言理解(Natural LanguageUnderstanding,Nlu)对进行分析,并与用户个性化控制信息进行匹配,得到文本匹配的目标待控制设备;以及Dialog Script(对话脚本函数引擎)基于目标待控制设备和解析后的文本中的设备控制请求得到设备控制请求,并发送至目标服务端,由目标服务端控制目标待控制设备执行设备控制操作;
S450:发送设备控制请求至目标服务端,以指示目标服务端基于设备控制请求控制目标待控制设备执行设备控制操作。
在目标服务端执行收到控制请求之后,返回一个回答消息给Dialog Script,并由Dialog Script依次传送至音箱设备,并由音箱设备进行显示或者语音播报;其中,该通知消息可以为“好的”。
在一个示例中,用户个性化控制信息为““长按”对应“打开”、“酷炫”对应“次卧”、“按钮”对应“灯ID 11111””,用户语音信号为“长按酷炫按钮”。为了方便描述,下文中以打开灯为示例。另外,此处只是列举了一种用户个性化控制信息,用户可以根据自己的使用需求来设置,避免设置太单一。
第一步包括:
识别用户语音信号得到“长按酷炫按钮”。
第二步包括:
根据““长按”对应“打开”、“酷炫”对应“次卧”、“按钮”对应“灯ID 11111””,分析“长按酷炫按钮”,并与用户个性化控制信息进行匹配,得到意图(intent)为“打开”、槽(slot)为““灯”、“灯与ID 11111对应”区域(domain)为“次卧””,并基于domain+intent+slot生成控制请求,即“打开次卧中灯(灯ID为11111)”。
第三步包括:
发送控制请求“打开次卧中的灯(灯ID为11111)”至目标服务端,以指示目标服务端控制打开ID 11111。其中,每一个待控制设备在目标服务端都有固有的ID,所以能找到该待控制设备的ID,即可实现对该待控制设备的控制。
图5为本发明实施例的一种导航方法的流程图。如图5所示,该导航方法包括:
S510:获取用户语音信号;
S520:获取待定位地理位置的个性化信息;
其中,待定位地理位置的个性化信息为用户自定义的与位置相关的信息,例如,“小花”,该“小花”对应“次卧”。
S530:至少基于待定位地理位置的个性化信息,处理语音信号并得到对应的地理位置。
在本发明实施例中披露的导航方法,通过待定位地理位置的个性化信息,处理用户语音信号并得到对应的地理位置。本发明实施例能够实现个性化语音定位,与此同时,还能根据个性化语音增加语音识别率。
图6为本发明实施例的一种语音控制设备的示意图。如图6所示,该语音控制设备600包括:
获取模块610,用于获取用户语音信号;
获取模块610,还用于获取用于控制待控制设备的用户个性化控制信息;
处理模块620,用于至少基于用户个性化控制信息,处理语音信号并得到对应的设备控制请求,控制请求用于控制目标待控制设备执行设备控制操作。
在本发明实施例中披露的语音控制设备,通过用于控制待控制设备的用户个性化控制信息,处理用户语音信号并得到对应的设备控制请求,该设备控制请求用于控制目标待控制设备执行设备控制操作。本发明实施例能够实现个性化语音控制,与此同时,还能根据个性化语音增加语音识别率。
可选的,该语音控制设备,还包括:
执行模块,用于根据设备控制请求控制所述目标待控制设备执行设备控制操作。
可选的,该语音控制设备,还包括:
发送模块,用于发送设备控制请求至目标服务端,以指示目标服务端基于设备控制请求控制目标待控制设备执行设备控制操作。
可选的,处理模块620,包括:
识别单元,用于识别用户语音信号,得到第一文本;
解析单元,用于至少基于用户个性化控制信息,解析第一文本,并根据解析后的第一文本得到设备控制请求。
可选的,识别单元,还用于:
基于用户个性化控制信息,识别用户语音信息,得到第一文本。
可选的,解析单元,还用于:
解析第一文本,并将解析后的第一文本与用户个性化控制信息进行匹配,得到与解析后的第一文本匹配的目标待控制设备;
根据匹配的目标待控制设备和解析后的第一文本中的设备控制操作,得到设备控制请求。
其中,用户个性化控制信息包括如下项中的至少一种:待控制设备的个性化命名、待控制设备所在的个性化位置信息、个性化控制指令
可选的,获取模块610,还用于:
根据用户ID从目标服务端或本地存储设备中获取用户个性化控制信息。
可选的,该语音控制设备,还包括:
同步模块,用于同步目标服务端中的用户个性化控制信息至本地存储设备。
图7为本发明实施例的一种音箱设备的示意图。如图7所示,该音箱设备700包括:
获取模块710,用于获取用户语音信号;
获取模块710,还用于获取用于控制待控制设备的用户个性化控制信息;
处理模块720,用于至少基于用户个性化控制信息,处理语音信号并得到对应的设备控制请求,控制请求用于控制目标待控制设备执行设备控制操作。
在本发明实施例中披露的音箱设备,通过用于控制待控制设备的用户个性化控制信息,处理用户语音信号并得到对应的设备控制请求,该设备控制请求用于控制目标待控制设备执行设备控制操作。本发明实施例能够实现个性化语音控制,与此同时,还能根据个性化语音增加语音识别率。
可选的,该音箱设备,还包括:
执行模块,用于根据设备控制请求控制所述目标待控制设备执行设备控制操作。
可选的,该音箱设备,还包括:
发送模块,用于发送设备控制请求至目标服务端,以指示目标服务端基于设备控制请求控制目标待控制设备执行设备控制操作。
可选的,处理模块720,包括:
识别单元,用于识别用户语音信号,得到第一文本;
解析单元,用于至少基于用户个性化控制信息,解析第一文本,并根据解析后的第一文本得到设备控制请求。
可选的,识别单元,还用于:
基于用户个性化控制信息,识别用户语音信息,得到第一文本。
可选的,解析单元,还用于:
解析第一文本,并将解析后的第一文本与用户个性化控制信息进行匹配,得到与解析后的第一文本匹配的目标待控制设备;
根据匹配的目标待控制设备和解析后的第一文本中的设备控制操作,得到设备控制请求。
其中,用户个性化控制信息包括如下项中的至少一种:待控制设备的个性化命名、待控制设备所在的个性化位置信息、个性化控制指令
可选的,获取模块710,还用于:
根据用户ID从目标服务端或本地存储设备中获取用户个性化控制信息。
可选的,该音箱设备,还包括:
同步模块,用于同步目标服务端中的用户个性化控制信息至本地存储设备。
图8为本发明实施例的导航装置的示意图。如图8所示,该导航装置800,包括:
获取模块810,用于获取用户语音信号;
获取模块810,还用于获取待定位地理位置的个性化信息;
其中,待定位地理位置的个性化信息为用户自定义的与位置相关的信息,例如,“小花”,该“小花”对应“次卧”。
处理模块820,还用于至少基于待定位地理位置的个性化信息,处理语音信号并得到对应的地理位置。
在本发明实施例中披露的导航方法,通过待定位地理位置的个性化信息,处理用户语音信号并得到对应的地理位置。本发明实施例能够实现个性化语音定位,与此同时,还能根据个性化语音增加语音识别率。
图9示出了本发明实施例的语音控制设备示意性框图,能够实现根据本发明实例提供的语音控制方法和装置的计算设备的示例性硬件架构的结构图。
计算设备900包括输入设备901、输入接口902、中央处理器903、存储器904、输出接口905、以及输出设备906。其中,输入接口902、中央处理器903、存储器904、以及输出接口905通过总线910相互连接,输入设备901和输出设备906分别通过输入接口902和输出接口906与总线910连接,进而与计算设备900的其他组件连接。
具体地,输入设备901接收来自外部的输入信息,并通过输入接口902将输入信息传送到中央处理器903;中央处理器903基于存储器904中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器904中,然后通过输出接口905将输出信息传送到输出设备906;输出设备906将输出信息输出到计算设备900的外部供用户使用。
图9所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图2、图4描述的语音控制方法,或图5描述的导航方法。
图10示出了本发明实施例的音箱设备示意性框图,能够实现根据本发明实例提供的语音控制方法和装置的计算设备的示例性硬件架构的结构图。
音箱设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中,输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1006与总线1010连接,进而与音箱设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到中央处理器1003;中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到音箱设备1000的外部供用户使用。
图10所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图2、图4描述的语音控制方法,或图5描述的导航方法。
根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或从可拆卸存储介质被安装。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所描述的装置实例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域的技术人员可以清楚地了解到,本发明的方法过程并不限于所描述和示出的具体步骤,任何熟悉本技术领域的技术人员在领会本发明的精神后,在本发明揭露的技术范围内作出各种改变、修改和添加,或者等效替换以及改变步骤之间的顺序,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (14)
1.一种语音控制方法,包括:
获取用户语音信号;
获取用于控制待控制设备的用户个性化控制信息;
至少基于所述用户个性化控制信息,处理所述语音信号并得到对应的设备控制请求,所述控制请求用于控制目标待控制设备执行设备控制操作。
2.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述设备控制请求控制所述目标待控制设备执行设备控制操作。
3.根据权利要求1所述的方法,其中,所述方法还包括:
发送所述设备控制请求至目标服务端,以指示目标服务端基于所述设备控制请求控制所述目标待控制设备执行设备控制操作。
4.根据权利要求2或3所述的方法,其中,所述至少基于所述用户个性化控制信息,处理所述语音信号并得到对应的控制请求,包括:
识别所述用户语音信号,得到第一文本;
至少基于所述用户个性化控制信息,解析所述第一文本,并根据解析后的第一文本得到所述设备控制请求。
5.根据权利要求4所述的方法,其中,所述识别所述用户语音信号,得到第一文本,包括:
基于所述用户个性化控制信息,识别所述用户语音信息,得到所述第一文本。
6.根据权利要求4所述的方法,其中,所述至少基于所述用户个性化控制信息,解析所述第一文本,并根据解析后的第一文本得到所述设备控制请求,包括:
解析所述第一文本,并将解析后的第一文本与所述用户个性化控制信息进行匹配,得到与所述解析后的第一文本匹配的目标待控制设备;
根据所述匹配的目标待控制设备和所述解析后的第一文本中的设备控制操作,得到所述设备控制请求。
7.根据权利要求1所述的方法,其中,所述用户个性化控制信息包括如下项中的至少一种:待控制设备的个性化命名、待控制设备所在的个性化位置信息、个性化控制指令。
8.根据权利要求1所述的方法,其中,所述获取用于控制待控制设备的用户个性化控制信息,包括:
根据用户ID从目标服务端或本地存储设备中获取所述用户个性化控制信息。
9.根据权利要求8所述的方法,其中,在从本地存储设备中获取所述用户个性化控制信息之前,所述方法还包括:
同步所述目标服务端中的所述用户个性化控制信息至所述本地存储设备。
10.一种导航方法,所述方法包括:
获取用户语音信号;
获取待定位地理位置的个性化信息;
至少基于所述待定位地理位置的个性化信息,处理所述语音信号并得到对应的地理位置。
11.一种音箱设备,所述音箱设备包括:
获取模块,获取用户语音信号;
所述获取模块,还用于获取用于控制待控制设备的用户个性化控制信息;
处理模块,用于至少基于所述用户个性化控制信息,处理所述语音信号并得到对应的设备控制请求,所述控制请求用于控制目标待控制设备执行设备控制操作。
12.一种音箱设备,所述音箱设备包括:
存储器,用于存储程序指令;
处理器,用于根据所述程序指令执行根据权利要求1-9任一项所述的方法。
13.一种计算设备,所述计算设备包括:至少一个处理器、至少一个存储器以及至少一个计算机程序,其中,所述计算机程序被存储在所述存储器中,所述计算机程序包括指令,所述处理器用于执行所述计算机程序,以使所述计算设备实现如权利要求1-9任一项所述的方法或权利要求10所述的方法。
14.一种计算机可读存储介质,所述存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-9任一项所述的方法或权利要求10所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911011486.8A CN112700770A (zh) | 2019-10-23 | 2019-10-23 | 语音控制方法、音箱设备、计算设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911011486.8A CN112700770A (zh) | 2019-10-23 | 2019-10-23 | 语音控制方法、音箱设备、计算设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112700770A true CN112700770A (zh) | 2021-04-23 |
Family
ID=75505070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911011486.8A Pending CN112700770A (zh) | 2019-10-23 | 2019-10-23 | 语音控制方法、音箱设备、计算设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700770A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380245A (zh) * | 2021-06-01 | 2021-09-10 | 青岛海尔空调器有限总公司 | 一种信息处理方法、装置及*** |
CN115529530A (zh) * | 2022-11-24 | 2022-12-27 | 深圳市百泰实业股份有限公司 | 一种多功能移动电源音箱的内部功能的智能控制方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107612968A (zh) * | 2017-08-15 | 2018-01-19 | 北京小蓦机器人技术有限公司 | 通过智能终端控制其所连接设备的方法、设备与*** |
CN108337139A (zh) * | 2018-01-29 | 2018-07-27 | 广州索答信息科技有限公司 | 家电语音控制方法、电子设备、存储介质及*** |
CN110246499A (zh) * | 2019-08-06 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 家居设备的语音控制方法及装置 |
-
2019
- 2019-10-23 CN CN201911011486.8A patent/CN112700770A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107612968A (zh) * | 2017-08-15 | 2018-01-19 | 北京小蓦机器人技术有限公司 | 通过智能终端控制其所连接设备的方法、设备与*** |
CN108337139A (zh) * | 2018-01-29 | 2018-07-27 | 广州索答信息科技有限公司 | 家电语音控制方法、电子设备、存储介质及*** |
CN110246499A (zh) * | 2019-08-06 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 家居设备的语音控制方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380245A (zh) * | 2021-06-01 | 2021-09-10 | 青岛海尔空调器有限总公司 | 一种信息处理方法、装置及*** |
CN115529530A (zh) * | 2022-11-24 | 2022-12-27 | 深圳市百泰实业股份有限公司 | 一种多功能移动电源音箱的内部功能的智能控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11626117B2 (en) | Contingent device actions during loss of network connectivity | |
CN108683574B (zh) | 一种设备控制方法、服务器和智能家居*** | |
CN109658932B (zh) | 一种设备控制方法、装置、设备及介质 | |
US10079014B2 (en) | Name recognition system | |
CN108831469B (zh) | 语音命令定制方法、装置和设备及计算机存储介质 | |
US11869487B1 (en) | Allocation of local and remote resources for speech processing | |
CN107112014B (zh) | 在基于语音的***中的应用焦点 | |
KR102429436B1 (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
US10034029B1 (en) | Systems and methods for audio object delivery based on audible frequency analysis | |
KR101954550B1 (ko) | 음량조절 방법, 시스템, 디바이스 및 컴퓨터 저장매체 | |
US11373645B1 (en) | Updating personalized data on a speech interface device | |
KR20190103308A (ko) | 기록된 미디어 핫워드 트리거 억제 | |
US11238860B2 (en) | Method and terminal for implementing speech control | |
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
KR20170032096A (ko) | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 | |
CN103699530A (zh) | 根据语音输入信息在目标应用中输入文本的方法与设备 | |
JP2019204074A (ja) | 音声対話方法、装置及びシステム | |
KR20190141767A (ko) | 오디오 워터 마킹을 이용한 키 구문 검출 | |
WO2018099000A1 (zh) | 语音输入的处理方法、终端和网络服务器 | |
CN108028044A (zh) | 使用多个识别器减少延时的语音识别*** | |
EP3627498A1 (en) | Method and system, for generating speech recognition training data | |
CN111640434A (zh) | 用于控制语音设备的方法和装置 | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、***和存储介质 | |
CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
CN107808662B (zh) | 更新语音识别用的语法规则库的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |