CN116805488A - 一种多设备的语音控制***及方法 - Google Patents
一种多设备的语音控制***及方法 Download PDFInfo
- Publication number
- CN116805488A CN116805488A CN202210272315.6A CN202210272315A CN116805488A CN 116805488 A CN116805488 A CN 116805488A CN 202210272315 A CN202210272315 A CN 202210272315A CN 116805488 A CN116805488 A CN 116805488A
- Authority
- CN
- China
- Prior art keywords
- voice
- instruction
- terminal device
- terminal equipment
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000012545 processing Methods 0.000 claims abstract description 62
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000015654 memory Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000013475 authorization Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 description 47
- 239000010410 layer Substances 0.000 description 34
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 230000003993 interaction Effects 0.000 description 16
- 238000011161 development Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000005266 casting Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000003999 initiator Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及音频技术领域,公开了一种多设备的语音控制***及方法,用以提供一种通过语音来同时控制多个邻近设备的技术方案,可以降低多设备协同进行业务处理场景下的操作繁琐度。第一终端设备接收并响应于用户的第一语音指令,向第一服务端设备上传第一语音请求信息,第一语音请求信息包含第一语音指令;第二终端设备接收并响应于用户的第二语音指令,向第一服务端设备上传第二语音请求信息,第二语音请求信息包含第二语音指令;第一服务端设备根据第一语音指令和第二语音指令,若确定第一语音请求信息和第二语音请求信息之间相关,执行以下处理中的至少一种:生成并向第一终端设备发送第一控制指令;生成并向第二终端设备发送第二控制指令。
Description
技术领域
本申请实施例涉及音频技术领域,尤其涉及一种多设备的语音控制***及方法。
背景技术
随着半导体技术和软件技术的发展,终端设备出现了各种形态;例如,手机,平板电脑,电视,车载设备,以及各种家用电器等。目前,很多业务可能涉及到多个设备,需要多个设备协同进行业务处理;例如,视频会议时可以将便携机画面投影到大屏上、在多个设备上登录相同的账号、将手机上正在播放的视频投屏到电视上等。
相关技术中,在需要多个设备协同进行业务处理的场景中,通常需要用户手动操作。比如,用户在手机上已经登录账号,如果需要在电脑上登录该账号,一般需要用户通过手机手动授权登录。又比如,用户想将手机上正在播放的视频投屏到电视上,需要用户在手机上手动进行投屏操作。由此,相关技术在多设备协同进行业务处理下,存在操作繁琐等问题。
因此,如何降低多设备协同进行业务处理场景下的操作繁琐度,是具有研究意义的。
发明内容
本申请实施例提供一种多设备的语音控制***及方法,用以提供一种通过语音来同时控制多个邻近设备的技术方案,可以降低多设备协同进行业务处理场景下的操作繁琐度。
第一方面,本申请实施例提供了一种多设备的语音控制***,其中,第一终端设备接收并响应于用户的第一语音指令,向第一服务端设备上传第一语音请求信息,所述第一语音请求信息包含所述第一语音指令;以及,第二终端设备接收并响应于用户的第二语音指令,向所述第一服务端设备上传第二语音请求信息,所述第二语音请求信息包含所述第二语音指令;所述第一服务端设备根据所述第一语音指令和所述第二语音指令,若确定所述第一语音请求信息和所述第二语音请求信息之间相关,执行以下处理中的至少一种:生成并向所述第一终端设备发送第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作,所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理;生成并向所述第二终端设备发送第二控制指令,所述第二控制指令用于执行所述第二语音指令的相关操作;所述第二语音指令的相关操作用于与所述第一终端设备进行业务的协同处理。
该方法中,多个终端设备均接收用户的语音指令,服务端设备可以通过对语音指令的分析,识别出相关的终端设备,也即用户可以通过语音指令实现多设备的控制的场景,从而可以由服务端设备分别指示各终端设备执行接收到语音指令的相关操作,以实现多设备协同进行业务处理。相比于相关技术中在多设备协同进行业务处理场景下,需要用户手动操作甚至多次手动操作才能实现,本申请提供的方法可以降低用户的操作繁琐度,从而可以提升用户体验。
在一种可能的设计中,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,包括但不限于以下方式中的至少一种:(1)确定所述第一语音指令和所述第二语音指令相同;(2)确定所述第一语音指令和所述第二语音指令之间的相似度大于第一指定阈值;(3)确定所述第一语音指令和所述第二语音指令相对应。
该设计中,服务端设备通过对多个终端设备分别上传的语音指令,可以实现对终端设备之间是否需要协同进行业务处理的识别,从而可以基于用户的语音指令实现多设备的控制,进而可以降低用户的操作繁琐度。
在一种可能的设计中,所述第一语音请求信息和所述第二语音请求信息分别还包含但不限于以下信息中的至少一种:时间戳信息、声纹信息、终端设备状态信息。
该设计中,终端设备在向服务端设备上传语音业务请求信息时,除了语音指令信息之外,还可以包含其他一些可以有利于确定终端设备之间是否相关的判断的其他信息,从而可以更准确地实现基于用户的语音指令对多设备的语音控制。
在一种可能的设计中,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,还包括但不限于以下方式中的一种或多种:确定所述第一终端设备上传的时间戳信息和所述第二终端设备上传的时间戳信息相同、或相似度大于第二指定阈值;确定所述第一终端设备上传的声纹信息和所述第二终端设备上传的声纹信息相同、或相似度大于第三指定阈值。
该设计中,为了提升对终端设备之间是否需要协同进行业务处理的识别的准确性,服务端设备还可以结合终端设备上传的一些其他信息,来确定终端设备之间是否相关,从而可以提升多设备的语音控制的准确性;并且,通过声纹信息的判断,还可以提升多设备的语音控制的安全性。
在一种可能的设计中,所述第一服务端设备根据所述第一语音指令和所述第二语音指令,执行以下处理中的至少一种;包括:所述第一服务端设备对所述第一语音指令和所述第二语音指令进行语义分析;以及,所述第一服务端设备根据所述第一终端设备对应的终端设备状态信息和所述第二终端设备对应的终端设备状态信息,确定所述第一终端设备和所述第二终端设备的状态;所述第一服务端设备根据所述语义分析的结果、所述第一终端设备和所述第二终端设备的状态,执行所述以下处理中的至少一种。
该设计中,服务端设备在识别到终端设备之间相关时,进一步可以根据用户的语音指令所对应的用户意图,确定各终端设备需要执行的相关操作并指示给对应的终端设备,从而可以基于用户的语音指令,实现对多个终端设备的语音控制。并且,服务端设备结合各终端设备的状态,还可以生成更准确的控制指令,从而可以保证多设备的语音控制的准确性。
在一种可能的设计中,若所述第一服务端设备执行的处理为所述生成并向所述第一终端设备发送第一控制指令,则所述第一控制指令中包含所述第二终端设备的设备标识,所述第二终端设备的设备标识用于所述第一终端设备根据所述第二终端设备的设备标识,执行所述第一语音指令的相关操作;或者,若所述第二服务端设备执行的处理为所述生成并向所述第二终端设备发送第二控制指令,则所述第二控制指令中包含所述第一终端设备的设备标识,所述第一终端设备的设备标识用于所述第二终端设备根据所述第一终端设备的设备标识,执行所述第二语音指令的相关操作。
该设计中,服务端设备基于语音指令所对应的用户意图,一些可能的场景中,确定部分终端设备需要进行相应操作,该相应操作通常需要与另一部分终端设备进行协同处理。此时,服务端设备可以在向部分终端设备发送的控制指令中携带另一部分终端设备的设备标识,以使所述部分终端设备确定需要与哪些终端设备实现协同处理。这样,通过该设计,无需第一终端设备和第二终端设备处于连接状态或者处于相同的局域网中,第一终端设备或第二终端设备可以根据控制指令中携带的另一终端设备的设备标识,实现与另一终端设备进行协同处理。
在一种可能的设计中,还包括:所述第一服务端设备生成第一标识码,所述第一标识码用于标识所述第一终端设备和所述第二终端设备相关。
该设计中,为了便于实现对相关的第一终端设备和第二终端设备的控制,通过第一标识码可以保证对所述第一终端设备和所述第二终端设备进行多设备的语音控制的处理效率。例如,若第一终端设备和第二终端设备在接收到控制指令后,还需要与第一服务端设备或第二服务端设备或其他设备进行交互,可以通过第一标识码来快速识别第一终端设备和第二终端设备相关。
在一种可能的设计中,所述***还包括第二服务端设备,其中:所述第一终端设备根据所述第一控制指令,向所述第二服务端设备发送第一请求指令,所述第一控制指令和所述第一请求指令携带所述第一标识码;以及,所述第二终端设备根据所述第二控制指令,向所述第二服务端设备发送第二请求指令,所述第二控制指令和所述第二请求指令携带所述第一标识码;所述第二服务端设备根据所述第一标识码,执行以下处理中的至少一种:向所述第一终端设备发送第一应答指令,向所述第二终端设备发送第二应答指令。
该设计中,一些可能的场景下,实现对第一终端设备和第二终端设备的语音控制,还可以通过其他服务端设备来实现。此时,通过为第一终端设备和第二终端设备生成的第一标识码,可以快速地确定第一终端设备和第二终端设备相关,从而可以保证多设备的语音控制的处理效率。
在一种可能的设计中,所述第一请求指令用于请求登录指定平台,所述第二请求指令用于请求授权对指定平台的登录;所述第二终端设备执行的处理为所述向所述第二终端设备发送第二应答指令,所述第二应答指令用于指示所述第一终端设备授权所述第二终端设备登录所述指定平台。
该设计中,给出了对第一终端设备和第二终端设备的语音控制为登录指定平台的场景。相比于相关技术中,通常需要用户在已登录设备上通过扫一扫方式,扫描未登录设备上生成的二维码的方式,本申请提供的方法,可以基于用户的语音指令实现对多设备的语音控制,从而可以降低用户的操作繁琐度。
在一种可能的设计中,所述第一语音指令和所述第二语音指令用于指示但不限于以下场景中的任一种:在所述第一终端设备或所述第二终端设备上登录指定平台、将所述第一终端设备接入所述第二终端设备或将所述第二终端设备接入所述第一终端设备。
该设计中,给出了基于用户的语音指令可以实现多设备的语音控制的场景。通过本申请提供的方法,可以基于用户的语音指令实现对多设备的语音控制,从而可以降低用户的操作繁琐度。
在一种可能的设计中,所述第一语音指令和所述第二语音指令为基于用户的同一语音指令,且分别由所述第一终端设备和所述第二终端设备接收的。
该设计中,通过多个终端设备同时接收用户的语音指令,可以更准确的实现基于用户的语音指令实现对多设备的语音控制,从而不仅可以降低用户的操作繁琐度,还可以提高多设备的语音控制的准确性。
第二方面,本申请实施例还提供了一种多设备的语音控制方法,包括:第一终端设备接收用户的第一语音指令;所述第一终端设备响应于所述第一语音指令,向第一服务端设备上传第一语音请求信息,所述第一语音请求信息包含所述第一语音指令;所述第一终端设备接收所述第一服务端设备发送的第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作;所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理;其中,所述第一控制指令为所述第一服务端设备在确定所述第一语音请求信息与第二终端设备上传的第二语音请求信息相关时生成的。
在一种可能的设计中,所述第一语音请求信息和所述第二语音请求信息分别还包含但不限于以下信息中的至少一种:时间戳信息、声纹信息、终端设备状态信息。
在一种可能的设计中,所述第一控制指令中包含所述第二终端设备的设备标识,所述第二终端设备的设备标识用于所述第一终端设备根据所述第二终端设备的设备标识,执行所述第一语音指令的相关操作。
在一种可能的设计中,所述第一控制指令中包含第一标识码;所述第一标识码用于标识所述第一终端设备和所述第二终端设备相关。
在一种可能的设计中,所述方法还包括:所述第一终端设备根据所述第一控制指令,向第二服务端设备发送第一请求指令,所述第一控制指令和所述第一请求指令携带所述第一标识码,以使所述第二服务端设备根据所述第一标识码,执行以下处理中的至少一种:向所述第一终端设备发送第一应答指令,向所述第二终端设备发送第二应答指令。
在一种可能的设计中,所述第一请求指令用于请求登录指定平台;或者,所述第一请求指令用于请求授权对指定平台的登录;所述方法还包括:若所述第一请求指令用于请求授权对指定平台的登录,所述第一终端设备接收第一应答指令,所述第一应答指令用于指示所述第二终端设备授权所述第一终端设备登录所述指定平台。
在一种可能的设计中,所述第一语音指令和所述第二语音请求信息中包含的第二语音指令用于指示但不限于以下场景中的任一种:在所述第一终端设备或所述第二终端设备上登录指定平台、将所述第一终端设备接入所述第二终端设备或将所述第二终端设备接入所述第一终端设备。
在一种可能的设计中,所述第一语音指令和所述第二语音请求信息中包含的第二语音指令为基于用户的同一语音指令,且分别由所述第一终端设备和所述第二终端设备接收的。
第三方面,本申请实施例还提供了一种多设备的语音控制方法,包括:第一服务端设备接收第一终端设备上传的第一语音请求信息,所述第一语音请求信息包含所述第一语音指令;以及,所述第一服务端设备接收第二终端设备上传的第二语音请求信息,所述第二语音请求信息包含所述第二语音指令;所述第一服务端设备根据所述第一语音指令和所述第二语音指令,若确定所述第一语音请求信息和所述第二语音请求信息之间相关,执行以下处理中的至少一种:生成并向所述第一终端设备发送第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作;所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理;生成并向所述第二终端设备发送第二控制指令,所述第二控制指令用于执行所述第二语音指令的相关操作;所述第二语音指令的相关操作用于与所述第一终端设备进行业务的协同处理。
在一种可能的设计中,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,包括但不限于以下方式中的至少一种:确定所述第一语音指令和所述第二语音指令相同;确定所述第一语音指令和所述第二语音指令之间的相似度大于第一指定阈值;确定所述第一语音指令和所述第二语音指令相对应。
在一种可能的设计中,所述第一语音请求信息和所述第二语音请求信息分别还包含但不限于以下信息中的至少一种:时间戳信息、声纹信息、终端设备状态信息。
在一种可能的设计中,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,还包括但不限于以下方式中的一种或多种:确定所述第一终端设备上传的时间戳信息和所述第二终端设备上传的时间戳信息相同、或相似度大于第二指定阈值;确定所述第一终端设备上传的声纹信息和所述第二终端设备上传的声纹信息相同、或相似度大于第三指定阈值。
在一种可能的设计中,所述第一服务端设备根据所述第一语音指令和所述第二语音指令,执行以下处理中的至少一种;包括:所述第一服务端设备对所述第一语音指令和所述第二语音指令进行语义分析;以及,所述第一服务端设备根据所述第一终端设备对应的终端设备状态信息和所述第二终端设备对应的终端设备状态信息,确定所述第一终端设备和所述第二终端设备的状态;所述第一服务端设备根据所述语义分析的结果、所述第一终端设备和所述第二终端设备的状态,执行所述以下处理中的至少一种。
在一种可能的设计中,若所述第一服务端设备执行的处理为所述生成并向所述第一终端设备发送第一控制指令,则所述第一控制指令中包含所述第二终端设备的设备标识,所述第二终端设备的设备标识用于所述第一终端设备根据所述第二终端设备的设备标识,执行所述第一语音指令的相关操作;或者,若所述第二服务端设备执行的处理为所述生成并向所述第二终端设备发送第二控制指令,则所述第二控制指令中包含所述第一终端设备的设备标识,所述第一终端设备的设备标识用于所述第二终端设备根据所述第一终端设备的设备标识,执行所述第二语音指令的相关操作。
在一种可能的设计中,所述方法还包括:所述第一服务端设备生成第一标识码,所述第一标识码用于标识所述第一终端设备和所述第二终端设备相关。
在一种可能的设计中,所述第一终端设备根据所述第一控制指令,向所述第二服务端设备发送第一请求指令,所述第一控制指令和所述第一请求指令携带所述第一标识码;以及,所述第二终端设备根据所述第二控制指令,向所述第二服务端设备发送第二请求指令,所述第二控制指令和所述第二请求指令携带所述第一标识码;所述第二服务端设备根据所述第一标识码,执行以下处理中的至少一种:向所述第一终端设备发送第一应答指令,向所述第二终端设备发送第二应答指令。
在一种可能的设计中,所述第一请求指令用于请求登录指定平台,所述第二请求指令用于请求授权对指定平台的登录;所述第二终端设备执行的处理为所述向所述第二终端设备发送第二应答指令,所述第二应答指令用于指示所述第一终端设备授权所述第二终端设备登录所述指定平台。
在一种可能的设计中,所述第一语音指令和所述第二语音指令用于指示但不限于以下场景中的任一种:在所述第一终端设备或所述第二终端设备上登录指定平台、将所述第一终端设备接入所述第二终端设备或将所述第二终端设备接入所述第一终端设备。
在一种可能的设计中,所述第一语音指令和所述第二语音指令为基于用户的同一语音指令,且分别由所述第一终端设备和所述第二终端设备接收的。
第四方面,本申请实施例还提供了一种终端设备,包括:一个或多个处理器;一个或多个存储器;所述一个或多个存储器,用于存储一个或多个计算机程序以及数据信息;其中所述一个或多个计算机程序包括指令;当所述指令被所述一个或多个处理器执行时,使得所述终端设备执行如上述第二方面中任一项可能的设计中所述的方法。
第五方面,本申请实施例还提供了一种服务端设备,包括:一个或多个处理器;一个或多个存储器;所述一个或多个存储器,用于存储一个或多个计算机程序以及数据信息;其中所述一个或多个计算机程序包括指令;当所述指令被所述一个或多个处理器执行时,使得所述服务端设备执行如上述第三方面中任一项可能的设计中所述的方法。
第六方面,本申请实施例还提供了一种多设备的语音控制***,包括至少两个如上述第四方面所述的终端设备、和如上述第五方面的服务端设备。
第七方面,本申请实施例提供了一种计算机可读存储介质,计算机可读介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第二方面或第三方面中任一种可能的设计中的方法。
第八方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第二方面或第三方面中任一种可能的设计中的方法。
第九方面,本申请实施例还提供一种终端设备上的图形用户界面,该终端设备具有显示屏、一个或多个存储器、以及一个或多个处理器,所述一个或多个处理器用于执行存储在所述一个或多个存储器中的一个或多个计算机程序,所述图形用户界面包括所述终端设备执行本申请实施例第二方面任一可能的设计时显示的图形用户界面。
上述第二方面至第九方面中任一方面的有益效果请具体参阅上述第一方面中各种可能的设计的有益效果,在此不再赘述。
附图说明
图1a为本申请实施例提供的多设备管理的应用场景示意图;
图1b为本申请实施例提供的对应图1a示出的应用场景的流程示意图;
图2为本申请实施例提供的一种可能的终端设备的硬件结构示意图;
图3为本申请实施例提供的一种终端设备的软件结构框图;
图4为本申请实施例提供的一种多设备的语音控制方法的应用场景图之一;
图5为本申请实施例提供的一种多设备的语音控制方法的应用场景图之二;
图6为本申请实施例提供的一种多设备的语音控制方法的交互流程示意图之一;
图7为本申请实施例提供的一种多设备的语音控制方法的流程示意图;
图8a为本申请实施例提供的一种多设备的语音控制方法的交互流程示意图之二;
图8b为本申请实施例提供的一种多设备的语音控制方法的交互流程示意图之二;
图9为本申请实施例提供的一种多设备的语音控制方法的交互流程示意图之三。
具体实施方式
随着社会的快速发展,终端设备的形态越来越多,例如手机、平板电脑、电视等;并且,终端设备越来越普及。终端设备不但具有通信功能、还具有强大的处理能力、存储能力、照相功能等。终端设备通过操作***执行相应的应用程序,用户可以使用终端设备打电话、发短消息、浏览网页、看视频等。并且,为了方便用户在不同的终端设备之间协同进行业务处理,目前存在多种方式可以实现对多设备的管理,例如多设备登录相同的账号,设备之间的投屏等。
结合背景技术中介绍的内容,相关技术中,在需要多个设备协同进行业务处理的场景中,通常需要用户手动操作。
示例性的,参阅图1a,为本申请实施例提供的多设备管理的应用场景示意图。在该场景中,假设用户在图1a中(a)示出的手机上,安装有某一个应用程序(application,APP),并且已经登录用户账号。如果需要在其他终端设备上的相同APP上,登录该相同的用户账号。目前,通常可以采用借助用户账号已经登录的设备,且通过扫一扫方式,来扫描未登录的设备上的二维码,以此来实现已登录设备对未登录设备的授权登录。如图1a所示,用户可以在(b)中的平板电脑上手动调整出用于进行请求授权登录的二维码;然后通过(a)示出的手机,采用扫一扫方式,来实现对未登录设备的授权登录。
基于图1a示出的场景,以下通过图1b示出的流程示意图介绍具体实现过程。
S101、未登录设备对应的后台服务器向APP开发平台请求APP的授权登录。
S102、APP开发平台返回二维码。
S103、未登录设备对应的后台服务器控制未登录设备显示二维码。
S104、用户通过已登录设备扫描二维码。可以理解,该流程操作为用户手动操作。
S105、用户通过已登录设备授权登录,并指示给APP开发平台。
S106、APP开发平台告知未登录设备对应的后台服务器已授权。
S107、未登录设备对应的后台服务器向APP开发平台请求用户账号数据。
S108、APP开发平台向未登录设备对应的后台服务器返回用户账号数据。
通过以上实现过程,可以得到该场景中需要用户手动操作设备,才能完成用户通过已登录设备实现对未登录设备的授权登录。
有鉴于此,本申请实施例提供一种多设备的语音控制***及方法,可以通过语音来关联多个邻近设备,以及同时实现对多个邻近设备的协同管理,用以完成需要多个设备协同进行业务处理的业务任务。设计思想主要为多个邻近设备同时获取用户的语音指令,并将包含但不限于语音指令的语音请求信息发送给服务侧设备。服务侧设备可以根据接收到的来自多个设备的语音请求信息,关联上报相同语音指令的多个邻近设备,并为每个设备生成对应的控制指令。因此,通过本申请提供的***或方法,具有操作简便、交互方式更方便等特点。其中,邻近设备表示多个可以满足同时接收到用户的同一语音指令的终端设备,例如,处于相同房间的手机和电视、处于同一桌面的电脑和手机等。
下面将结合附图,对本申请实施例进行详细描述。
可以理解的是,本申请实施例的终端设备可以是诸如智能家居设备(例如,智能电视,智慧屏,智能音箱等)、手机、平板电脑、可穿戴设备(例如,手表、头盔、耳机等)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等具有语音指令输入能力的设备。可以理解的是,本申请实施例对终端设备的具体类型不作任何限制。
本申请实施例可以应用到的终端设备,示例性实施例包括但不限于搭载 或者其它操作***的便携式终端设备。上述便携式终端设备也可以是其它便携式终端设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(Laptop)等。
图2示出了一种可能的终端设备的硬件结构示意图。其中,所述终端设备200包括:射频(radio frequency,RF)电路210、电源220、处理器230、存储器240、输入单元250、显示单元260、音频电路270、通信接口280、以及无线保真(wireless-fidelity,Wi-Fi)模块290等部件。本领域技术人员可以理解,图2中示出的终端设备200的硬件结构并不构成对终端设备200的限定,本申请实施例提供的终端设备200可以包括比图示更多或更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图2中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面结合图2对所述终端设备200的各个构成部件进行具体的介绍:
所述RF电路210可用于通信或通话过程中,数据的接收和发送。特别地,所述RF电路210在接收到基站的下行数据后,发送给所述处理器230处理;另外,将待发送的上行数据发送给基站。通常,所述RF电路210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier,LNA)、双工器等。
此外,RF电路210还可以通过无线通信网络和其他设备进行通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(global system of mobilecommunication,GSM)、通用分组无线服务(general packet radio service,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code divisionmultiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
Wi-Fi技术属于短距离无线传输技术,所述终端设备200通过Wi-Fi模块290可以连接访问接入点(access point,AP),从而实现数据网络的访问。所述Wi-Fi模块290可用于通信过程中,数据的接收和发送。
所述终端设备200可以通过所述通信接口280与其他设备实现物理连接。可选的,所述通信接口280与所述其他设备的通信接口通过电缆连接,实现所述终端设备200和其他设备之间的数据传输。
由于在本申请实施例中,所述终端设备200能够实现通信业务,与服务侧设备(例如可以包含但不限于:语音业务服务器、账号服务器等)实现交互,因此所述终端设备200需要具有数据传输功能,即所述终端设备200内部需要包含通信模块。虽然图2示出了所述RF电路210、所述Wi-Fi模块290、和所述通信接口280等通信模块,但是可以理解的是,所述终端设备200中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块),以进行数据传输。
例如,当所述终端设备200为手机时,所述终端设备200可以包含所述RF电路210,还可以包含所述Wi-Fi模块290,或可以包含蓝牙模块(图2中未示出);当所述终端设备200为计算机时,所述终端设备200可以包含所述通信接口280,还可以包含所述Wi-Fi模块290,或可以包含蓝牙模块(图2中未示出);当所述终端设备200为平板电脑时,所述终端设备200可以包含所述Wi-Fi模块,或可以包含蓝牙模块(图2中未示出)。
所述存储器240可用于存储软件程序以及模块。所述处理器230通过运行存储在所述存储器240的软件程序以及模块,从而执行所述终端设备200的各种功能应用以及数据处理。可选的,所述存储器240可以主要包括存储程序区和存储数据区。其中,存储程序区可存储操作***(主要包括内核层、***层、应用程序框架层和应用程序层等各自对应的软件程序或模块)。
此外,所述存储器240可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述输入单元250可用于接收用户输入的数字或字符信息等多种不同类型的数据对象的编辑操作,以及产生与所述终端设备200的用户设置以及功能控制有关的键信号输入。可选的,输入单元250可包括触控面板251以及其他输入设备252。
其中,所述触控面板251,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板251上或在所述触控面板251附近的操作),并根据预先设定的程序驱动相应的连接装置。
可选的,所述其他输入设备252可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
所述显示单元260可用于显示由用户输入的信息或提供给用户的信息以及所述终端设备200的各种菜单。所述显示单元260即为所述终端设备200的显示***,用于呈现界面,实现人机交互。所述显示单元260可以包括显示面板261。可选的,所述显示面板261可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置。本申请实施例中,在终端设备上可以不设置显示单元260,例如智能音箱设备无需设置显示屏;或者,在终端设备上设置显示单元260,并通过显示单元260显示终端设备200通过麦克风271接收到的语音指令所对应的显示内容,例如,若麦克风271接收到的语音指令为“打开并登录即时通信应用程序A”,则可在显示面板261上显示对应即时通信应用程序A的显示界面等。
所述处理器230是所述终端设备200的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在所述存储器240内的软件程序和/或模块,以及调用存储在所述存储器240内的数据,执行所述终端设备200的各种功能和处理数据,从而实现基于所述终端设备200的多种业务。本申请实施例中,处理器230用来实现本申请实施例提供的方法,进而提供一种可以通过语音来同时控制多个邻近设备的技术方案,从而可以降低多设备进行业务处理场景下的操作繁琐度。
所述终端设备200还包括用于给各个部件供电的电源220(比如电池)。可选的,所述电源220可以通过电源管理***与所述处理器230逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗等功能。
如图2所示,终端设备200还包括音频电路270、麦克风271和扬声器272,可提供用户与终端设备200之间的音频接口。音频电路270可用于将音频数据转换为扬声器272能够识别的信号,并将信号传输到扬声器272,由扬声器272转换为声音信号输出。麦克风271用于收集外部的声音信号(如人说话的声音、或者其它声音等),并将收集的外部的声音信号转换为音频电路270能够识别的信号,发送给音频电路270。音频电路270还可用于将麦克风271发送的信号转换为音频数据,再将音频数据输出至RF电路210以发送给比如另一终端设备,或者将音频数据输出至存储器240以便后续进一步处理。本申请实施例中,麦克风271收集外部的声音信号的触发场景可以为用户通过点击终端设备200的显示界面上的语音输入控件(如智慧助手、语音助手等)触发的,也可以为用户通过预设唤醒词来唤醒的,本申请对此不进行限定。
尽管未示出,所述终端设备200还可以包括至少一种传感器、摄像头等,在此不再赘述。至少一种传感器可以包含但不限于压力传感器、气压传感器、加速度传感器、距离传感器、指纹传感器、触摸传感器、温度传感器等。
本申请实施例涉及的操作***(operating system,OS),是运行在终端设备200上的最基本的***软件。以手机为例,操作***可以是鸿蒙***(HarmonyOS)或安卓(android)***或IOS***。终端设备200的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以采用分层架构的操作***为例,示例性说明终端设备200的软件结构。
图3为本申请实施例提供的一种终端设备的软件结构框图。如图3所示,终端设备的软件结构可以是分层架构,例如可以将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将操作***分为五层,从上至下分别为应用程序层,应用程序框架层(framework,FWK),运行时和***库,内核层,以及硬件层。
应用程序层可以包括一系列应用程序包。如图3所示,应用程序层可以包括相机、设置、皮肤模块、用户界面(user interface,UI)、三方应用程序等。其中,三方应用程序可以包括WLAN、音乐、通话、蓝牙、视频等。
在本申请一些实施例中,应用程序层可以用于实现编辑界面的呈现,上述编辑界面可以用于用户查看或进行操作等。例如,若手机包含显示面板261,用户可以在显示面板261显示的主界面上显示即时通信应用程序的相关界面等。
一种可能的实现方式中,应用程序可以使用java语言开发,通过调用应用程序框架层所提供的应用程序编程接口(application programming interface,API)来完成,开发者可以通过应用程序框架层来与操作***的底层(例如硬件层、内核层等)进行交互,开发自己的应用程序。该应用程序框架层主要是操作***的一系列的服务和管理***。
应用程序框架层为应用程序层的应用程序提供应用编程接口和编程框架。应用程序框架层包括一些预定义函数。如图3所示,应用程序框架层可以包括快捷图标管理模块,窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。
快捷图标管理模块用于对终端设备上显示的快捷图标进行管理,例如创建快捷图标、移除快捷图标、监控快捷图标是否满足显示条件等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端设备的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端设备振动,指示灯闪烁等。
在本申请一些实施例中,该应用程序框架层主要负责调用与硬件层之间通信的服务接口,以将用户进行操作的操作请求传递到硬件层,所述操作请求可以包含用户通过语音指令控制打开或登录某一APP的操作请求等。
运行时包括核心库和虚拟机。运行时负责操作***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是操作***的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
在一些实施例中,三维图形处理库可以用于绘制三维的运动轨迹图像,2D图形引擎可以用于绘制二维的运动轨迹图像。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
硬件层可以包括各类传感器,例如加速度传感器、陀螺仪传感器、触摸传感器等。
通常终端设备200可以同时运行多个应用程序。较为简单的,一个应用程序可以对应一个进程,较为复杂的,一个应用程序可以对应多个进程。每个进程具备一个进程号(进程ID)。
结合上述图2中对终端设备的硬件结构的介绍,以及图3中对终端设备的软件框架的介绍,下面结合多个实施例和附图,示例性说明终端设备执行本申请实施例中提出的一种多设备的语音控制方法的软件以及硬件的工作原理。
应理解,本申请实施例中“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a、b、c可以是单个,也可以是多个。
本申请实施例涉及的多个,是指大于或等于两个。
另外,需要理解的是,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
此外,本申请实施例中,“终端设备”、“设备”等可以混用,即指可以用于实现本申请实施例的各种设备;本申请实施例中的“应用”和“应用程序”也可以混用,均指具有一定业务提供能力的程序或客户端等,也就是说应用和客户端也可混用,比如视频客户端、即时通信客户端也可以称之为视频应用或即时通信应用等。
应理解,终端设备的硬件结构可以如图2所示,软件架构可以如图3所示,其中,终端设备中的软件架构对应的软件程序和/或模块可以存储在存储器240中,处理器230可以运行存储器240中存储的软件程序和应用以执行本申请实施例提供的一种多设备的语音控制方法的流程。
为了便于理解本申请提供的一种多设备的语音控制方法,以下结合图4至图9中所示的内容,对采用本申请提供的方法的实现过程进行介绍。
本申请实施例适用于需要多设备协同进行业务处理的应用场景。首先通过以下多个示例对本申请实施例适用的应用场景进行说明。可以理解,本申请实施时并不限定于以下应用场景。
一种可能的应用场景中,如图1a所示,在需要借助用户账号已经登录的手机,来实现在平板电脑上同样登录该相同的用户账号的场景下,相关技术中通常需要用户借助手机且通过扫一扫方式,来实现在平板电脑上登录用户账号。本申请实施时,用户可以通过语音指令来同时控制手机和平板电脑,从而可以实现通过相同的语音指令来进行对手机和平板电脑不同的控制,进以实现在平板电脑上登录与手机上相同的用户账号。
参阅图4,为本申请实施例提供的一种多设备的语音控制方法的应用场景图。如图4中的(a)示出的手机上,已经登录有的微信账号(即手机为已登录设备);而在如图4中的(b)示出的平板电脑(也可简称“平板”)上,未登录微信账号(即平板为未登录设备)。在该场景下,手机和平板首先可以同时或几乎同时获取用户的语音指令,如图4中的“在平板上登录微信账号”。然后,手机和平板可以分别将包含该条语音指令的语音请求信息上传到第一服务端设备(例如语音业务服务器)进行处理;其中,语音请求信息还可以包括但不限于:时间戳信息、声纹信息、终端设备状态信息。
语音业务服务器接收到多个终端设备上传的语音请求信息之后,可以对各终端设备上传的语音请求信息进行分析,比如根据手机和平板上传的语音指令,确定手机和平板上传的语音请求信息是否相关。例如,若分析到手机和平板上传的语音指令相同、或者相似度大于指定阈值或者相对应时,则确定手机和平板上传的语音请求信息相关;此外,还可以结合时间戳信息和声纹信息等信息进行进一步的精确判断。
进一步的,语音业务服务器可以根据对手机和平板上传的语音指令的语义分析,进行手机和平板的控制。一种可选的示例中,语音业务服务器可以分别生成对应手机的第一控制指令和对应平板的第二控制指令;其中,第一控制指令可以为指示手机向账号服务器发起授权请求,第二控制指令可以为指示平板向第二服务端设备(如账号服务器)发起登录请求。这样,账号服务器接收到平板发送的登录请求和手机发送的授权请求之后,可以根据手机的授权请求对平板的登录请求进行应答,以实现在平板上登录微信。另一种可选的示例中,语音业务服务器也可以生成对应手机的第一控制指令,此时第一控制指令可以包含平板的设备标识,且指示手机基于平板的设备标识向平板发送包含用户账号和密钥的授权信息,这样平板在接收到手机发送的授权信息之后,可以直接根据所述用户账号和密钥进行登录。
另一种可能的应用场景中,除需要借助账号服务器进行账号登录的场景之外,还可以实现屏幕投影等场景,例如,将手机的显示画面投影到电视上等。相关技术中实现该场景通常不仅需要在手机和电视连接在相同的局域网下,还需要用户在手机上通过手动操作投屏控件,来实现将手机的显示界面投屏到电视。本申请实施时,手机和电视无需连接在相同的局域网下或处于连接状态,用户可以通过语音指令来实现同时控制手机和电视,从而可以实现通过相同的语音指令来进行对手机和电视不同的控制,进以实现在电视上显示手机的显示界面。
参阅图5,为本申请实施例提供的一种多设备的语音控制方法的应用场景图。在该场景下,手机和电视首先可以同时获取用户的语音指令,如图5中的用户的语音指令为“把手机屏幕投到电视上”,如图5中的(a)示出的手机获取到用户的语音指令“把手机屏幕投到电视上”,及如图5中的(b)示出的电视也获取到用户的语音指令“把手机屏幕投到电视上”。然后,手机和电视可以分别将包含该条语音指令的语音请求信息上传到服务端设备(例如语音业务服务器)进行处理;其中,语音请求信息还可以包括但不限于:时间戳信息、声纹信息。
语音业务服务器接收到多个终端设备上传的语音请求信息之后,可以对各终端设备上传的语音请求信息进行分析,比如根据手机和电视上传的语音指令,确定手机和电视上传的语音请求信息是否相关。例如,若分析到手机和电视上传的语音指令相同、或者相似度大于指定阈值或者相对应时,则确定手机和电视上传的语音请求信息相关;此外,还可以结合时间戳信息和声纹信息等信息进行进一步的精确判断。
进一步的,语音业务服务器可以根据对手机和电视上传的语音指令的语义分析,进行对手机和电视的控制。一种可选的示例中,语音业务服务器可以生成对应手机的控制指令,例如向手机发送投屏指令;其中,投屏指令中可以包含但不限于:电视的设备标识(例如接入地址)。这样,手机接收到语音业务服务器发送的投屏指令之后,可以根据电视的接入地址连接到电视,无需手机和电视必须接入相同的局域网的条件,本申请实施时可以基于用户的语音指令实现对手机和电视相关的鉴权,从而可以进一步实现将手机的显示界面对应的内容投影到电视上进行显示。另一种可选的示例中,语音业务服务器也可以生成对应电视的控制指令,例如向电视发送接受投屏指令,其中,接受投屏指令可以包括但不限于:手机的设备标识,以及指示电视在与手机连接之后,指示手机将显示页面的数据内容发送给电视。
可以理解,本申请实施时,不限定语音业务服务器在确定两个终端设备的语音请求信息相关之后,分别对两个终端设备的控制方式,实际实现时可根据对语音指令的语义分析结果,生成对应两个终端设备或者其中任一终端设备的控制指令,以实现用户语音指令所对应的用户意图。
此外,本申请实施时不限定服务端设备向第一终端设备发送的第一控制指令或第二终端设备发送的第二控制指令的次数和发送方式,控制指令可以为一次或多次,若需要多次控制指令才能实现用户语音指令所对应的用户意图,语音业务服务器可以发送多次控制指令。例如,语音业务服务器第一次发送控制指令时,可能存在终端设备无法正确接收到控制指令,则可以等待预设时间之后再次发送。又例如,用户意图需要语音业务服务器进行周期性控制,则语音业务服务器可以在每次周期时刻到达时,向终端设备发送控制指令。
基于结合图4和图5示出的内容对本申请实施例可能适用的应用场景进行说明,可以得到本申请实施例提供的方法的设计思想为,通过多个邻近设备可以接收相同(或几乎相同或相对应)的语音指令,并分别由每个邻近设备上传到服务端设备,进而可以由服务端设备针对不同的邻近设备生成不同的控制指令。以下对本申请提供的方法的交互过程进行具体说明。
参阅图6,为本申请实施例提供的一种多设备的语音控制方法的交互流程示意图。需要说明的是,该实施例中以第一终端设备和第二终端设备作为示例,本申请实施时,不限定终端设备的类型和数量;具体实现时,可以包含更多的终端设备参与到语音控制中,若包含更多的终端设备,各终端设备的交互流程可以参阅第一终端设备或者第二终端设备的实现过程。该交互流程包括:
步骤601a、第一终端设备接收第一语音指令的输入。
步骤601b、第二终端设备接收第二语音指令的输入。
其中,第一语音指令和第二语音指令可以基于用户的同一语音指令得到的,且分别由所述第一终端设备和所述第二终端设备接收,从而可以实现服务端设备识别到第一终端设备与第二终端设备分别上传的语音请求信息是相关的。结合图4示出的应用场景,第一语音指令和第二语音指令对应的用户语音指令可以为“在平板上登录微信账号”,第一终端设备可以为手机,第二终端设备可以为平板电脑。结合图5示出的应用场景,第一语音指令和第二语音指令对应的用户语音指令可以为“把手机屏幕投到电视上”,第一终端设备可以为手机,第二终端设备可以为电视。
示例性的,第一终端设备或第二终端设备在接收用户的语音指令的输入之前,可以已经通过唤醒词进行唤醒,或者通过终端设备上的指定控件或指定手势等进行唤醒,本申请实施例对终端设备的唤醒过程不作限定。
其中,本申请具体实现时,不限定步骤601a和步骤601b的执行顺序。可选的,步骤601a和步骤601b可以同时执行;例如,用户可以首先唤醒第一终端设备和第二终端设备之后,使得第一终端设备和第二终端设备此时可以同时接收用户语音指令的输入,也可以理解为第一语音指令和第二语音指令为用户的一条语音指令在两个不同终端设备的输入,即第一语音指令和第二语音指令来源于相同的用户语音指令。另一可选的,步骤601a可以先于步骤601b执行,或步骤601b先于步骤602a执行;需要说明的是,实施时还可以限定步骤601a和步骤601b的发生时间差小于指定时间阈值,且第一终端设备和第二终端设备分别接收到的第一语音指令相同(或几乎相同);例如,用户可以首先唤醒第一终端设备,并输出内容为“把手机屏幕投到电视上”的第一语音指令,以使得第一终端设备接收到用户的语音指令,然后唤醒第二终端设备,并同样输出内容为“把手机屏幕投到电视上”的第二语音指令,以使得第二终端设备同样接收到用户的语音指令;这样,在第一终端设备和第二终端设备分别将包含语音指令的语音请求信息上传至第一服务端设备之后,第一服务端设备可以确定第一终端设备和第二终端之间具有接收相同的用户语音指令的关联关系。可以理解,步骤601a和步骤601b同时执行可以具有更准确的多设备的语音控制效果;若逐步执行,虽然来源于同一用户,但由于通过相同内容但不同时刻的用户语音指令来实现,此时差异较差大,第一服务端设备在判断相似度时可以设置较低的阈值。
步骤602a、第一终端设备上传第一语音请求信息到第一服务端设备,所述第一语音请求信息包含所述第一语音指令。
步骤602b、第二终端设备上传第二语音请求信息到第一服务端设备,所述第二语音请求信息包含所述第二语音指令。
本申请实施时,第一终端设备和第二终端设备还可以根据实际应用场景,在语音请求信息(第一语音请求信息或者第二语音请求信息)中携带其他信息。示例性的,所述语音请求信息还可以包括但不限于:时间戳信息、声纹信息、终端设备状态信息。其中,
1)、时间戳信息可以用于标识终端设备接收第一语音指令的时间,进而可以便于第一服务端设备结合所述时间戳信息,确定第一终端设备和第二终端设备是否在同一应用场景中接收到相同的语音指令。
2)、声纹信息可以用于标识用户身份信息,进而可以便于第一服务端设备结合所述声纹信息,确定第一终端设备和第二终端设备接收到的语音指令是否来自于同一人。
3)、终端设备状态信息可以但不限用于标识在终端设备的账户登录状态,例如标识微信账号在第一终端设备上为已登录状态,以及该微信账号在第二终端设备上为未登录状态,进而可以便于第一服务端设备结合所述终端设备状态信息,确定各终端设备的角色(例如可以认为图4中示出的手机为“源设备”角色,平板为“目标设备”角色;又例如可以认为图5中示出的手机为“发起方”角色,电视为“接收方”角色等),然后可以根据各终端设备的角色对应生成不同的控制指令。
举例来说,参阅以下表1a和表1b,第一服务端设备(语音业务服务器)分别接收到的第一终端设备(手机)、第二终端设备(平板电脑)、电视的语音请求信息,其中表1a为语音业务服务器对来自手机和平板电脑的语音请求信息的对比,表1b为语音业务服务器对来自手机和电视的语音请求信息的对比,如下:
表1a
根据以上表1a示出的内容,语音业务服务器通过对来自手机和平板电脑的语音请求信息的信息对比,分别得到语音指令、时间戳信息和声纹信息相同、或者相似度均大于指定阈值,则可以确定手机和平板电脑的本次语音请求信息相关。其中,相似度越大,表示两条语音请求信息之间相关的概率越大;相同则表示两条语音请求信息之间相关。进一步的,语音业务服务器可以进一步对语音指令的语义进行分析,根据分析结果生成对应手机的第一控制指令和/或对应平板电脑的第二控制指令。
需要说明的是,判断语音指令、时间戳信息和声纹信息是否相同或者相似度是否大于指定阈值,可实施为分别判断第一语音指令和第二语音指令是否相同或相似度是否大于第一指定阈值、第一终端设备上传的时间戳信息和第二终端设备上传的时间戳信息是否相同或相似度是否大于第二指定阈值、第一终端设备上传的声纹信息和第二终端设备上传的声纹信息的相似度是否大于第三指定阈值。其中,判断语音指令的相似度例如可实施为判断语音指令对应音频的时域类参数、频域类参数等方式,距离越小则可表示第一终端设备和第二终端设备上传的语音指令相似度越大;判断时间戳信息的相似度例如可实施为判断时间差等方式,时间差越小则可表示第一终端设备和第二终端设备上传的语音指令相似度越大;判断声纹信息的相似度例如可实施为基于人工智能技术进行声纹特征提取之后,比较声纹特征的相似度等。
此外,若用户采用对第一终端设备和第二终端设备逐一进行语音指令的控制,来实现同一用户意图,此时用户的语音指令可以不完全相同,而是相对应。结合图5的示例,用户向手机发起的语音指令可以为“把手机屏幕投到电视上”,而向电视发起的语音指令可以为“在电视上显示手机屏幕”,两个语音指令虽不相同,相似度也不高,但对应相同的用户,因此手机接收的第一语音指令和电视接收的第二语音指令相对应。换言之,语音业务服务器根据手机发起的“把手机屏幕投到电视上”可以确定手机为“发起方”角色,电视为“接收方”角色以及意图为投屏,并且根据电视发起的“在电视上显示手机屏幕”也可以确定手机为“发起方”角色,电视为“接收方”角色以及意图为投屏,因此手机和平板的语音指令是相对应的。
表1b
根据以上表1b示出的内容,语音业务服务器通过对来自手机和平板电脑的语音请求信息的信息对比,在得到语音指令的相似度不大于指定阈值、或时间戳信息的相似度不大于指定阈值、或声纹信息的相似度不大于指定阈值,则可以确定手机和电视的本次语音请求信息不相关。
此外,第一服务端设备通常可以接收到多条语音请求信息,在判断哪几条语音请求信息属于同一应用场景下的实现过程中,第一服务端设备可以根据语音请求信息中包含的信息逐一判断。例如,第一服务端设备可以首先基于终端设备之间的时间戳信息的相似度,判断是否相关,若不大于指定阈值,则可以继续判断声纹信息等其他信息,否则可以确定不相关;以及,若最后确定终端设备之间的语音指令的相似度不大于指定阈值,则可以确定终端设备上传的语音请求信息相关。需要说明的是,本申请实施时,不限定第一服务端设备进行判断的先后顺序。这样,通过语音请求信息中的一些信息的筛选或排除,可以提高判断终端设备上传的语音请求信息是否相关的处理效率。
步骤603、第一服务端设备根据所述第一语音指令和所述第二语音指令,若确定所述第一语音请求信息和所述第二语音请求信息之间相关,执行以下步骤604a和604b中的至少一种。
示例性的,第一服务端设备接收到各终端设备的语音指令之后,一方面进行如表1a和表1b所示的相似度对比,用于判断相关的语音请求信息,也即处于同一应用场景下多个终端设备接收相同的语音指令;另一方面可以进行语义分析、槽位等处理,可实施为首先将各终端设备的语音指令识别为文字内容,然后基于得到的文字内容进行用户的意图理解或槽位解析等,用以确定各终端设备在该应用场景下的角色和意图。例如,第一服务端设备一方面可以基于来自手机的第一语音请求信息和来自平板的第二语音请求信息,可以确定手机和平板处于同一应用场景下多个终端设备接收相同的语音指令;基于此,第一服务端设备可以继续根据如“在平板上登录微信账号”的语音指令的语义分析,可以确定在该应用场景下手机作为“源设备”角色、平板作为“目标设备”角色以及意图为“登录微信账号”。其中,此时第一服务端设备例如可以为语音业务服务器,主要用于对各终端设备上传的语音请求信息进行处理。
进一步的,第一服务端设备可以根据确定的各终端设备在相关时的角色和意图,对应分别生成对第一终端设备的第一控制指令和/或对应第二终端设备的第二控制指令。
步骤604a、第一服务端设备生成并向所述第一终端设备发送所述第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作;所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理。示例性的,第一语音指令的相关操作可以为第一服务端设备对第一语音指令的语音分析结果确定的。例如,在需要登录微信账号的应用场景下,第一服务端设备还可以从各终端设备的语音请求信息中,还可获取到各终端设备上的终端设备状态信息(即微信账号的登录状态),如图4中示出的手机上登录有微信账号,平板上未登录有微信账号,则第一语音指令的相关操作可以为生成指示手机向账号服务器发起授权请求的第一控制指令和指示平板向账号服务器发起登录请求的第二控制指令。
步骤604b、第一服务端设备生成并向所述第二终端设备发送所述第二控制指令,所述第二控制指令用于执行所述第二语音指令的相关操作;所述第二语音指令的相关操作用于与所述第一终端设备进行业务的协同处理。同理,第二语音指令的相关操作可以为第一服务端设备对第二语音指令的语音分析结果确定的。又例如,在需要进行手机投屏到电视的应用场景下,第一服务端设备可以根据语音指令的语义分析结果,向手机发送第一控制指令;其中,第一控制指令中可以包含平板的设备标识,比如接入地址(例如,接入地址可以为MAC地址或者IP地址等)。此时,第二语音指令的相关操作可以为指示手机根据平板的接入地址接入平板。
这样,通过第一服务端设备基于各终端设备的语音请求信息,可以由第一服务端设备控制各终端设备协同实现业务处理,从而可以降低用户的操作繁琐度。
可以理解,根据步骤603可以确定需要执行步骤604a、或执行步骤604b、或者同时执行步骤604a和步骤604b。
此外,在所述第一终端设备或所述第二终端设备上登录指定平台的应用场景下,可选的,若第一服务端设备指示第一终端设备和第二终端设备需要与第二服务端设备进行交互,则还可以生成唯一标识所述第一终端设备和所述第二终端设备的第一标识码(例如语音指纹),例如,可以通过唯一标识符(universally unique identifier,UUID)算法来实现。参阅图7,为本申请实施例提供的一种多设备的语音控制方法的流程示意图。
步骤701a、第一服务端设备获取第一终端设备的第一语音指令。
步骤701b、第一服务端设备获取第二终端设备的第二语音指令。
其中,步骤701a可以是基于以上步骤602a中接收到的第一语音请求信息之后得到的,步骤701b可以是基于以上步骤602b中接收到的第二语音请求信息之后得到的。
步骤702、第一服务端设备判断第一终端设备和第二终端设备是否相关。可实施为,通过判断第一终端设备的第一语音指令和第二终端设备的第一语音指令属于相同的语音输入(如语音指令、时间戳信息和声纹信息等的相似度分别大于指定阈值),可以确定相关,则继续执行步骤703。
步骤703、第一服务端设备生成第一标识码,所述第一标识码用于标识所述第一终端设备和所述第二终端设备相关。
本申请实施时,第一服务端设备可以通过第一控制指令和第二控制指令携带所述第一标识码。以及,第一终端设备和第二终端设备分别与另一服务器交互时,可以携带所述第一标识码。
其中,第一终端设备和第二终端设备分别与另一服务器交互,可实施为第一终端设备根据所述第一控制指令,向第二服务端设备(例如账号服务器等)发送第一请求指令,其中,所述第一请求指令用于请求登录指定平台(例如可以为授权请求);第二终端设备根据所述第二控制指令,向第二服务端设备发送第二请求指令,其中,所述第二请求指令用于请求授权对指定平台的登录(例如可以为登录请求)。例如,如图4所示的场景,手机可以根据第一控制指令,向账号服务器发送授权请求时携带所述第一标识码;平板可以根据第二控制指令,向账号服务器发送登录请求时同样携带所述第一标识码。
这样,账号服务器可以基于接收到的手机和平板的第一标识码,执行以下处理中的至少一种:向所述第一终端设备发送第一应答指令,向所述第二终端设备发送第二应答指令;其中,所述第二应答指令用于指示所述第一终端设备授权所述第二终端设备登录所述指定平台;例如,向平板发送第二应答指令,以确定手机的授权请求用于响应平板的登录请求。
另一可选的实施例中,在所述第一终端设备或所述第二终端设备上登录指定平台的应用场景下,第一服务端设备还可通过指示第一终端设备将指定平台的用户账号信息发送给第二终端设备,无需第二服务端设备的交互。可实施为,所述第一服务端设备在步骤603之后执行的处理为向第一终端设备发送第一控制指令。可选的,第一服务端设备可以在所述第一控制指令中携带第二终端设备的设备标识,以第一终端设备可以基于第二终端设备的设备标识将指定平台的用户账号信息发送给所述第二终端设备,其中,设备标识可以为第二终端设备的接入地址(例如MAC地址或者IP地址等)。
在将所述第一终端设备接入所述第二终端设备或将所述第二终端设备接入所述第一终端设备的应用场景下,第一服务端设备在分别接收到手机和电视的语音请求信息之后,由于确定该应用场景的意图为将手机的显示画面投屏到电视上,则服务端设备可以仅向手机发送第一控制指令,而无需向电视发送第二控制指令;其中,该应用场景下向手机发送的第一控制指令可以为指示电视的接入地址。
为便于理解本申请实施例提供的方法,以下分别结合图4和图5示出的应用场景对本申请实施例提供的方法进行详细介绍。
参阅图8a,为本申请实施例提供的一种多设备的语音控制方法的另一交互流程示意图。如图4示出的应用场景,第一终端设备(手机)、第二终端设备(平板)和服务端设备(语音业务服务器和账号服务器)之间的交互流程,包括:
步骤801a、用户通过语音输入第一语音指令给手机。其中,第一语音指令可以为如图8a中示出的“在平板上登录微信账号”。
步骤801b、用户通过语音输入第二语音指令给平板。
步骤802a、手机向语音业务服务器发送第一语音请求信息。其中,第一语音请求信息可以包含但不限于:所述第一语音指令、时间戳信息、声纹信息和终端设备状态信息(如手机上微信账号的登录状态,可以理解如果需要登录其他APP账号,则可以为手机上其他APP账号的登录状态)。
步骤802b、平板向语音业务服务器发送第二语音请求信息。其中,第二语音请求信息可以包含但不限于:所述第二语音指令、时间戳信息、声纹信息和终端设备状态信息(如平板上微信账号的登录状态)。
示例性的,语音业务服务器在接收到多个终端设备发送的多个语音请求信息(包含所述第一语音请求信息和所述第二语音请求信息)之后,可以根据各语音请求信息确定相关的终端设备,也即可以确定手机和平板此次语音请求信息相关。然后,针对相关的每组终端设备,语音业务服务器可以生成对应各终端设备的控制指令,例如对应手机的第一控制指令和/或对应手机的第二控制指令。此外,针对相关的每组终端设备,语音业务服务器还可以生成唯一标识处于该应用场景下的多个终端设备。
步骤803a、语音业务服务器向手机发送第一控制指令。如图4示出的应用场景,基于手机上的微信账号处于已登录状态,第一控制指令可以用于指示手机向(第三方)账号服务器发送授权请求(第一请求指令),也即指示手机通知管理微信账号相关数据的账号服务器可以授权平板的登录。
步骤803b、语音业务服务器向平板发送第二控制指令。如图4示出的应用场景,基于平板上的微信账号处于未登录状态,第二控制指令可以用于指示平板向(第三方)账号服务器发送登录请求(第二请求指令)。
步骤804a、手机根据所述第一控制指令,向(第三方)账号服务器发送授权请求。
步骤804b、平板根据所述第二控制指令,向(第三方)账号服务器发送登录请求。
步骤805、(第三方)账号服务器根据所述授权请求和所述登录请求,授权平板登录(第二应答指令)。其中,手机发送授权请求时可以携带语音业务服务器指示的第一标识码,平板发送登录请求时也可以携带语音业务服务器指示的第一标识码,且两者的第一标识码相同,则账号服务器可以根据第一标识码实现对手机本次授权请求和平板本次登录请求之间的匹配。
参阅图8b,为本申请实施例提供的一种多设备的语音控制方法的另一交互流程示意图。仍如图4示出的应用场景,第一终端设备(手机)、第二终端设备(平板)和服务端设备(语音业务服务器和账号服务器)之间的交互流程,其中,步骤801a至802b与图8a中示出的相同,在此不再赘述,不同的交互流程至少包括:
步骤803、语音业务服务器向手机发送第一控制指令,所述第一控制指令包含平板标识(第二终端设备的设备标识)。
步骤804、手机根据平板标识向平板发送用户账号信息。这样,平板可以根据手机发送的用户账号信息进行账号登录。示例性的,若手机根据所述平板标识确定与平板具有连接状态,则手机可以直接根据对应的连接通道发送所述用户账号信息;其中,所述连接状态可以通过但不限于以下方式中的一种来实现:蓝牙连接、Wi-Fi直连。另一示例性的,若手机与平板不具有连接状态,则手机可以根据所述平板标识指示的平板接入地址,向所述平板发送所述用户账号信息。
在以上实现过程中,本申请实施时可以基于用户的语音指令实现对多设备需要协同进行业务处理场景的识别,和对该场景包含的多个终端设备的关联,以及生成对各终端设备相对应的控制指令,从而可以实现基于用户语音的便携操作。相比于相关技术中,需要用户借助第一终端设备,并通过扫一扫方式,来实现对第二终端设备的授权登录的方式,可以降低用户的操作繁琐度。
参阅图9,为本申请实施例提供的一种多设备的语音控制方法的又一交互流程示意图。如图5示出的应用场景,第一终端设备(手机)、第二终端设备(电视)和服务端设备(语音业务服务器)之间的交互流程,包括:
步骤901a、用户通过语音输入第一语音指令给手机。
步骤901b、用户通过语音输入第二语音指令给电视。其中,第一语音指令和第二语音指令可以为如图9中示出的“把屏幕投到电视上”。
步骤902a、手机向语音业务服务器发送第一语音请求信息。其中,第一语音请求信息可以包含但不限于:所述第一语音指令、时间戳信息、声纹信息。可以理解,在该场景下无需终端设备状态信息,具体实现时语音请求信息可以根据具体场景进行设置。
步骤902b、电视向语音业务服务器发送第二语音请求信息。其中,第二语音请求信息可以包含但不限于:所述第二语音指令、时间戳信息、声纹信息。
示例性的,语音业务服务器根据手机本次语音请求信息和电视本次语音请求信息,可以确定手机和电视本次语音请求信息相关。因此,语音业务服务器可以通过对第一语音请求信息和第二语音请求信息的分析,可以生成向手机指示电视的接入地址的第一控制指令。
步骤903、语音业务服务器向手机发送第一控制指令。其中,第一控制指令可以包含但不限于:电视的设备标识(如接入地址)。
步骤904、手机根据所述第一控制指令,接入电视。
通过本申请实施例提供的方法,可以基于用户语音实现投屏场景下的便携操作。相比于相关技术中,需要第一终端设备和第二终端设备连接于相同的局域网,并且用户手动在第一终端设备上进行投屏的手动操作,可以降低用户的操作繁琐度;以及,本申请实施时,无需要求第一终端设备和第二终端设备必须连接于相同的局域网内,第一终端设备和第二终端设备可以处于连接状态或未处于连接状态,第一服务端设备可以基于第一终端设备上传的第一语音指令和第二终端设备上传的第二语音指令,进行第一终端设备和第二终端设备是否相关的鉴权,从而可以实现多设备的业务协同处理。
基于以上实施例,本申请还提供一种终端设备,所述终端设备包括多个功能模块;所述多个功能模块相互作用,实现本申请实施例所描述的各方法中第一终端设备或第二终端设备所执行的功能。如执行图6所示实施例中第一终端设备执行的步骤601a,或执行图6所示实施例中第二终端设备执行的步骤601b。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
基于以上实施例,本申请还提供一种终端设备,该终端设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储计算机程序指令,所述终端设备运行时,所述至少一个处理器执行本申请实施例所描述的各方法中终端设备所执行的功能。如执行图6所示实施例中第一终端设备执行的步骤601a,或执行图6所示实施例中第二终端设备执行的步骤601b。
基于以上实施例,本申请还提供一种服务端设备,所述服务端设备包括多个功能模块;所述多个功能模块相互作用,实现本申请实施例所描述的各方法中第一服务端设备或第二服务端设备所执行的功能。如执行图6所示实施例中第一服务端设备执行的步骤602a至步骤604b。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
基于以上实施例,本申请还提供一种服务端设备,该服务端设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储计算机程序指令,所述服务端设备运行时,所述至少一个处理器执行本申请实施例所描述的各方法中服务端设备所执行的功能。如执行图6所示实施例中第一服务端设备执行的步骤602a至步骤604b。
基于以上实施例,本申请还提供一种多设备的语音控制***,该***包括至少两个终端设备、和服务端设备;其中,所述至少两个终端设备进行业务的协同处理。例如,所述至少两个终端设备可以为上述实施例中的第一终端设备和第二终端设备,服务端设备可以为上述实施例中的第一服务端设备和第二服务端设备。
基于以上实施例,本申请还提供一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行本申请实施例所描述的各方法。
基于以上实施例,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被计算机执行时,使得所述计算机执行本申请实施例所描述的各方法。
基于以上实施例,本申请还提供了一种芯片,所述芯片用于读取存储器中存储的计算机程序,实现本申请实施例所描述的各方法。
基于以上实施例,本申请提供了一种芯片***,该芯片***包括处理器,用于支持计算机装置实现本申请实施例所描述的各方法。在一种可能的设计中,所述芯片***还包括存储器,所述存储器用于保存该计算机装置必要的程序和数据。该芯片***,可以由芯片构成,也可以包含芯片和其他分立器件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的保护范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (28)
1.一种多设备的语音控制***,其特征在于,包括:
第一终端设备接收并响应于用户的第一语音指令,向第一服务端设备上传第一语音请求信息,所述第一语音请求信息包含所述第一语音指令;以及,
第二终端设备接收并响应于用户的第二语音指令,向所述第一服务端设备上传第二语音请求信息,所述第二语音请求信息包含所述第二语音指令;
所述第一服务端设备根据所述第一语音指令和所述第二语音指令,若确定所述第一语音请求信息和所述第二语音请求信息之间相关,执行以下处理中的至少一种:
生成并向所述第一终端设备发送第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作;所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理;
生成并向所述第二终端设备发送第二控制指令,所述第二控制指令用于执行所述第二语音指令的相关操作;所述第二语音指令的相关操作用于与所述第一终端设备进行业务的协同处理。
2.根据权利要求1所述的***,其特征在于,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,包括以下方式中的至少一种:
确定所述第一语音指令和所述第二语音指令相同;
确定所述第一语音指令和所述第二语音指令之间的相似度大于第一指定阈值;
确定所述第一语音指令和所述第二语音指令相对应。
3.根据权利要求1或2所述的***,其特征在于,所述第一语音请求信息和所述第二语音请求信息分别还包含以下信息中的至少一种:时间戳信息、声纹信息、终端设备状态信息。
4.根据权利要求3所述的***,其特征在于,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,还包括以下方式中的一种或多种:
确定所述第一终端设备上传的时间戳信息和所述第二终端设备上传的时间戳信息相同、或相似度大于第二指定阈值;
确定所述第一终端设备上传的声纹信息和所述第二终端设备上传的声纹信息相同、或相似度大于第三指定阈值。
5.根据权利要求3所述的***,其特征在于,所述第一服务端设备根据所述第一语音指令和所述第二语音指令,执行以下处理中的至少一种;包括:
所述第一服务端设备对所述第一语音指令和所述第二语音指令进行语义分析;以及,所述第一服务端设备根据所述第一终端设备对应的终端设备状态信息和所述第二终端设备对应的终端设备状态信息,确定所述第一终端设备和所述第二终端设备的状态;
所述第一服务端设备根据所述语义分析的结果、所述第一终端设备和所述第二终端设备的状态,执行所述以下处理中的至少一种。
6.根据权利要求1至5中任一所述的***,其特征在于,若所述第一服务端设备执行的处理为所述生成并向所述第一终端设备发送第一控制指令,则所述第一控制指令中包含所述第二终端设备的设备标识,所述第二终端设备的设备标识用于所述第一终端设备根据所述第二终端设备的设备标识,执行所述第一语音指令的相关操作;或者,
若所述第二服务端设备执行的处理为所述生成并向所述第二终端设备发送第二控制指令,则所述第二控制指令中包含所述第一终端设备的设备标识,所述第一终端设备的设备标识用于所述第二终端设备根据所述第一终端设备的设备标识,执行所述第二语音指令的相关操作。
7.根据权利要求1至6中任一所述的***,其特征在于,还包括:
所述第一服务端设备生成第一标识码,所述第一标识码用于标识所述第一终端设备和所述第二终端设备相关。
8.根据权利要求7所述的***,其特征在于,所述***还包括第二服务端设备,其中:
所述第一终端设备根据所述第一控制指令,向所述第二服务端设备发送第一请求指令,所述第一控制指令和所述第一请求指令携带所述第一标识码;以及,
所述第二终端设备根据所述第二控制指令,向所述第二服务端设备发送第二请求指令,所述第二控制指令和所述第二请求指令携带所述第一标识码;
所述第二服务端设备根据所述第一标识码,执行以下处理中的至少一种:向所述第一终端设备发送第一应答指令,向所述第二终端设备发送第二应答指令。
9.根据权利要求8所述的***,其特征在于,所述第一请求指令用于请求登录指定平台,所述第二请求指令用于请求授权对指定平台的登录;
所述第二终端设备执行的处理为所述向所述第二终端设备发送第二应答指令,所述第二应答指令用于指示所述第一终端设备授权所述第二终端设备登录所述指定平台。
10.根据权利要求1至9中任一所述的***,其特征在于,所述第一语音指令和所述第二语音指令用于指示以下场景中的任一种:在所述第一终端设备或所述第二终端设备上登录指定平台、将所述第一终端设备接入所述第二终端设备或将所述第二终端设备接入所述第一终端设备。
11.根据权利要求1至10中任一所述的***,其特征在于,所述第一语音指令和所述第二语音指令为基于用户的同一语音指令,且分别由所述第一终端设备和所述第二终端设备接收的。
12.一种多设备的语音控制方法,其特征在于,包括:
第一终端设备接收用户的第一语音指令;
所述第一终端设备响应于所述第一语音指令,向第一服务端设备上传第一语音请求信息,所述第一语音请求信息包含所述第一语音指令;
所述第一终端设备接收所述第一服务端设备发送的第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作;所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理;
其中,所述第一控制指令为所述第一服务端设备在确定所述第一语音请求信息与第二终端设备上传的第二语音请求信息相关时生成的。
13.根据权利要求12所述的方法,其特征在于,所述第一语音请求信息和所述第二语音请求信息分别还包含以下信息中的至少一种:时间戳信息、声纹信息、终端设备状态信息。
14.根据权利要求12或13所述的方法,其特征在于,所述第一控制指令中包含所述第二终端设备的设备标识,所述第二终端设备的设备标识用于所述第一终端设备根据所述第二终端设备的设备标识,执行所述第一语音指令的相关操作。
15.根据权利要求12至14中任一所述的方法,其特征在于,所述第一控制指令中包含第一标识码;所述第一标识码用于标识所述第一终端设备和所述第二终端设备相关。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:
所述第一终端设备根据所述第一控制指令,向第二服务端设备发送第一请求指令,所述第一控制指令和所述第一请求指令携带所述第一标识码,以使所述第二服务端设备根据所述第一标识码,执行以下处理中的至少一种:向所述第一终端设备发送第一应答指令,向所述第二终端设备发送第二应答指令。
17.根据权利要求16所述的方法,其特征在于,所述第一请求指令用于请求登录指定平台;或者,所述第一请求指令用于请求授权对指定平台的登录;所述方法还包括:
若所述第一请求指令用于请求授权对指定平台的登录,所述第一终端设备接收第一应答指令,所述第一应答指令用于指示所述第二终端设备授权所述第一终端设备登录所述指定平台。
18.根据权利要求12至17中任一所述的方法,其特征在于,所述第一语音指令和所述第二语音请求信息中包含的第二语音指令用于指示以下场景中的任一种:在所述第一终端设备或所述第二终端设备上登录指定平台、将所述第一终端设备接入所述第二终端设备或将所述第二终端设备接入所述第一终端设备。
19.根据权利要求12至17中任一所述的方法,其特征在于,所述第一语音指令和所述第二语音请求信息中包含的第二语音指令为基于用户的同一语音指令,且分别由所述第一终端设备和所述第二终端设备接收的。
20.一种多设备的语音控制方法,其特征在于,包括:
第一服务端设备接收第一终端设备上传的第一语音请求信息,所述第一语音请求信息包含所述第一语音指令;以及,
所述第一服务端设备接收第二终端设备上传的第二语音请求信息,所述第二语音请求信息包含所述第二语音指令;
所述第一服务端设备根据所述第一语音指令和所述第二语音指令,若确定所述第一语音请求信息和所述第二语音请求信息之间相关,执行以下处理中的至少一种:
生成并向所述第一终端设备发送第一控制指令,所述第一控制指令用于执行所述第一语音指令的相关操作;所述第一语音指令的相关操作用于与所述第二终端设备进行业务的协同处理;
生成并向所述第二终端设备发送第二控制指令,所述第二控制指令用于执行所述第二语音指令的相关操作;所述第二语音指令的相关操作用于与所述第一终端设备进行业务的协同处理。
21.根据权利要求20所述的方法,其特征在于,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,包括以下方式中的至少一种:
确定所述第一语音指令和所述第二语音指令相同;
确定所述第一语音指令和所述第二语音指令之间的相似度大于第一指定阈值;
确定所述第一语音指令和所述第二语音指令相对应。
22.根据权利要求20或21所述的方法,其特征在于,所述第一语音请求信息和所述第二语音请求信息分别还包含以下信息中的至少一种:时间戳信息、声纹信息、终端设备状态信息。
23.根据权利要求22所述的方法,其特征在于,所述第一服务端设备确定所述第一语音请求信息和所述第二语音请求信息之间相关,还包括以下方式中的一种或多种:
确定所述第一终端设备上传的时间戳信息和所述第二终端设备上传的时间戳信息相同、或相似度大于第二指定阈值;
确定所述第一终端设备上传的声纹信息和所述第二终端设备上传的声纹信息相同、或相似度大于第三指定阈值。
24.根据权利要求22所述的方法,其特征在于,所述第一服务端设备根据所述第一语音指令和所述第二语音指令,执行以下处理中的至少一种;包括:
所述第一服务端设备对所述第一语音指令和所述第二语音指令进行语义分析;以及,所述第一服务端设备根据所述第一终端设备对应的终端设备状态信息和所述第二终端设备对应的终端设备状态信息,确定所述第一终端设备和所述第二终端设备的状态;
所述第一服务端设备根据所述语义分析的结果、所述第一终端设备和所述第二终端设备的状态,执行所述以下处理中的至少一种。
25.一种终端设备,其特征在于,包括:一个或多个处理器;一个或多个存储器;
所述一个或多个存储器,用于存储一个或多个计算机程序以及数据信息;其中所述一个或多个计算机程序包括指令;
当所述指令被所述一个或多个处理器执行时,使得所述终端设备执行如权利要求12至19中任一项所述的方法。
26.一种服务端设备,其特征在于,包括一个或多个处理器;一个或多个存储器;
所述一个或多个存储器,用于存储一个或多个计算机程序以及数据信息;其中所述一个或多个计算机程序包括指令;
当所述指令被所述一个或多个处理器执行时,使得所述服务端设备执行如权利要求20至24中任一项所述的方法。
27.一种多设备的语音控制***,其特征在于,包括至少两个如权利要求25所述的终端设备、和如权利要求26所述的服务端设备。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求12至24中任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210272315.6A CN116805488A (zh) | 2022-03-18 | 2022-03-18 | 一种多设备的语音控制***及方法 |
PCT/CN2023/080568 WO2023174155A1 (zh) | 2022-03-18 | 2023-03-09 | 一种多设备的语音控制***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210272315.6A CN116805488A (zh) | 2022-03-18 | 2022-03-18 | 一种多设备的语音控制***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116805488A true CN116805488A (zh) | 2023-09-26 |
Family
ID=88022215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210272315.6A Pending CN116805488A (zh) | 2022-03-18 | 2022-03-18 | 一种多设备的语音控制***及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116805488A (zh) |
WO (1) | WO2023174155A1 (zh) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366692B1 (en) * | 2017-05-15 | 2019-07-30 | Amazon Technologies, Inc. | Accessory for a voice-controlled device |
JP7057647B2 (ja) * | 2017-11-17 | 2022-04-20 | キヤノン株式会社 | 音声制御システム、制御方法及びプログラム |
US10650829B2 (en) * | 2018-06-06 | 2020-05-12 | International Business Machines Corporation | Operating a voice response system in a multiuser environment |
US11120791B2 (en) * | 2018-11-15 | 2021-09-14 | International Business Machines Corporation | Collaborative artificial intelligence (AI) voice response system control for authorizing a command associated with a calendar event |
CN110322878A (zh) * | 2019-07-01 | 2019-10-11 | 华为技术有限公司 | 一种语音控制方法、电子设备及*** |
CN110968362B (zh) * | 2019-11-18 | 2023-09-26 | 北京小米移动软件有限公司 | 应用运行方法、装置及存储介质 |
CN113127609A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 语音控制方法、装置、服务器、终端设备及存储介质 |
CN111341310A (zh) * | 2020-02-19 | 2020-06-26 | 北京声智科技有限公司 | 基于智能音箱控制手机的***、方法、装置和存储介质 |
CN112102826A (zh) * | 2020-08-31 | 2020-12-18 | 南京创维信息技术研究院有限公司 | 一种控制语音设备多端唤醒的***和方法 |
CN113450792A (zh) * | 2021-06-22 | 2021-09-28 | 海信视像科技股份有限公司 | 终端设备的语音控制方法、终端设备及服务器 |
-
2022
- 2022-03-18 CN CN202210272315.6A patent/CN116805488A/zh active Pending
-
2023
- 2023-03-09 WO PCT/CN2023/080568 patent/WO2023174155A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023174155A1 (zh) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018103484A1 (zh) | 直播页面的数据处理方法、装置和*** | |
CN106416195B (zh) | 一种处理器实现方法、一种通信网络连接的***和有形的计算机可读存储媒体 | |
US20190268294A1 (en) | Screen display method, apparatus, terminal, and storage medium | |
US10637804B2 (en) | User terminal apparatus, communication system, and method of controlling user terminal apparatus which support a messenger service with additional functionality | |
CN105207896A (zh) | 网络通话方法和装置 | |
CN108605226A (zh) | 一种来电提醒的方法、终端设备和图形用户界面 | |
US20230259250A1 (en) | Control method and apparatus, and electronic device | |
CN110945467B (zh) | 一种免打扰方法和终端 | |
CN111656347A (zh) | 一种项目的显示方法及终端 | |
CN106375182B (zh) | 基于即时通信应用的语音通信方法及装置 | |
CN109495769A (zh) | 视频通信方法、终端、智能电视、服务器及存储介质 | |
JP7319431B2 (ja) | アプリケーション機能の実施方法及び電子装置 | |
WO2023174155A1 (zh) | 一种多设备的语音控制***及方法 | |
CN111159734A (zh) | 通信终端及多应用数据互访处理方法 | |
CN111290672A (zh) | 一种图像显示方法、装置、存储介质及终端 | |
CN114020379B (zh) | 一种终端设备、信息反馈方法和存储介质 | |
CN116939610A (zh) | 一种接入控制方法、***及可读存储介质 | |
CN115174504B (zh) | 一种界面显示方法、终端设备和存储介质 | |
CN118118538A (zh) | 一种数据接入方法及电子设备 | |
CN117041353B (zh) | 任务处理的方法、装置、电子设备及存储介质 | |
EP4366244A1 (en) | Multi-device synchronous playback method and apparatus | |
CN111142648B (zh) | 一种数据处理方法和智能终端 | |
KR20120070311A (ko) | 범용 편집 기능을 지원하는 이동 단말기 및 그 제어 방법 | |
CN110138574B (zh) | 群管理方法、装置、电子设备及可读存储介质 | |
WO2023273936A1 (zh) | 一种壁纸设置方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |