CN109243444B - 语音交互方法、设备及计算机可读存储介质 - Google Patents

语音交互方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109243444B
CN109243444B CN201811159559.3A CN201811159559A CN109243444B CN 109243444 B CN109243444 B CN 109243444B CN 201811159559 A CN201811159559 A CN 201811159559A CN 109243444 B CN109243444 B CN 109243444B
Authority
CN
China
Prior art keywords
mode
user
terminal equipment
information
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811159559.3A
Other languages
English (en)
Other versions
CN109243444A (zh
Inventor
曹玉树
司庆
贺清龙
薛向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811159559.3A priority Critical patent/CN109243444B/zh
Publication of CN109243444A publication Critical patent/CN109243444A/zh
Priority to US16/508,453 priority patent/US11282519B2/en
Priority to JP2019132233A priority patent/JP7227866B2/ja
Application granted granted Critical
Publication of CN109243444B publication Critical patent/CN109243444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供一种语音交互方法、设备及计算机可读存储介质。本发明实施例通过将终端设备从近场语音交互模式转换为远场语音交互模式,使得该终端设备处于远场语音交互模式时,获取用户的语音信息,并根据该语音信息,从服务器获取用户需要的目标信息,由该终端设备以语音方式播放该目标信息,使得终端设备例如手机、平板电脑等用户终端可以在远场语音交互模式下变成带屏的智能音箱,在近场语音交互模式下为常用的手机或平板电脑,该终端设备方便用户携带,用户可以随时随地使用该终端设备的远场语音交互功能,从而为用户提供了灵活、便捷的语音服务。

Description

语音交互方法、设备及计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种语音交互方法、设备及计算机可读存储介质。
背景技术
随着人工智能技术的爆发和语音技术的逐渐成熟,以对话流为主的类人式对话交互已经成为一种新型的交互革新,主流的智能设备交互模式正在从触摸式交互向触摸与对话并行的交互模式转变。
当前智能音箱成为了用户上网的一种工具,用户通过该智能音箱可以点播歌曲、上网购物、或了解天气状况等,但是,智能音箱比较笨重,用户无法随身携带、随时使用,无法为用户提供灵活、便捷的语音服务。
发明内容
本发明实施例提供一种语音交互方法、设备及计算机可读存储介质,为用户提供灵活、便捷的语音服务。
第一方面,本发明实施例提供一种语音交互方法,包括:
获取模式控制指令;
根据所述模式控制指令,将终端设备从第一模式转换为第二模式;
当所述终端设备处于所述第二模式时,获取用户的语音信息;
根据所述语音信息,从服务器获取所述用户需要的目标信息;
播放所述目标信息对应的音频信息。
第二方面,本发明实施例提供一种语音交互方法,包括:
获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;
若所述终端设备处于第二模式,则根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;
将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息。
第三方面,本发明实施例提供一种终端设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以下操作:
获取模式控制指令;
根据所述模式控制指令,将终端设备从第一模式转换为第二模式;
当所述终端设备处于所述第二模式时,获取用户的语音信息;
根据所述语音信息,从服务器获取所述用户需要的目标信息;
播放所述目标信息对应的音频信息。
第四方面,本发明实施例提供一种服务器,包括:
存储器;
处理器;
通讯接口;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以下操作:
获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;
若所述终端设备处于第二模式,则根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;
通过所述通讯接口将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息。
第五方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。
第六方面,本发明实施例提供一种终端设备,包括:
第一获取模块,用于获取模式控制指令;
模式转换模块,用于根据所述模式控制指令,将终端设备从第一模式转换为第二模式;
第二获取模块,用于当所述终端设备处于所述第二模式时,获取用户的语音信息;
第三获取模块,用于根据所述语音信息,从服务器获取所述用户需要的目标信息;
播放模块,用于播放所述目标信息对应的音频信息。
第七方面,本发明实施例提供一种服务器,包括:
获取模块,用于获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;
确定模块,用于当所述终端设备处于第二模式时,根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;
发送模块,用于将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息。
本发明实施例提供的语音交互方法、设备及计算机可读存储介质,通过将终端设备从近场语音交互模式转换为远场语音交互模式,使得该终端设备处于远场语音交互模式时,获取用户的语音信息,并根据该语音信息,从服务器获取用户需要的目标信息,由该终端设备以语音方式播放该目标信息,使得终端设备例如手机、平板电脑等用户终端可以在远场语音交互模式下变成带屏的智能音箱,在近场语音交互模式下为常用的手机或平板电脑,该终端设备方便用户携带,用户可以随时随地使用该终端设备的远场语音交互功能,从而为用户提供了灵活、便捷的语音服务。
附图说明
图1为本发明实施例提供的一种应用场景的示意图;
图2为本发明实施例提供的语音交互方法流程图;
图3为本发明实施例提供的另一种应用场景的示意图;
图4为本发明实施例提供的另一种应用场景的示意图;
图5为本发明实施例提供的另一种应用场景的示意图;
图6为本发明实施例提供的另一种应用场景的示意图;
图7为本发明另一实施例提供的语音交互方法流程图;
图8为本发明另一实施例提供的页面切换示意图;
图9为本发明另一实施例提供的语音交互方法流程图;
图10为本发明另一实施例提供的语音交互方法流程图;
图11为本发明实施例提供的语音交互方法流程图;
图12为本发明另一实施例提供的语音交互方法流程图;
图13为本发明另一实施例提供的远程服务器内的功能模块示意图;
图14为本发明实施例提供的终端设备的结构示意图;
图15为本发明实施例提供的服务器的结构示意图;
图16为本发明实施例提供的终端设备的结构示意图;
图17为本发明实施例提供的服务器的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明提供的语音交互方法,可以适用于图1所示的通信***。如图1所示,该通信***包括:终端设备11和服务器12。该终端设备11具体可以是手机、平板电脑等用户终端。
本发明提供的语音交互方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明实施例提供的语音交互方法流程图。本发明实施例针对现有技术的如上技术问题,提供了语音交互方法,该方法具体步骤如下:
步骤201、获取模式控制指令。
本实施例所述语音交互方法的执行主体可以是终端设备,该终端设备具体可以是手机、平板电脑等用户终端。如图3所示,终端设备31同时支持第一模式和第二模式,其中,第一模式具体可以是该手机、平板电脑等用户终端原有的工作模式,第二模式是指该手机、平板电脑等用户终端连接有外接设备后使得该用户终端具有智能音箱功能时的工作模式。在本实施例中,第一模式包括近场语音交互模式,第二模式包括远场语音交互模式。所谓的近场语音交互模式是指,用户距离终端设备31在较近的范围内进行语音交互,例如,用户距离终端设备31在0.5米范围内,终端设备31可以识别该用户在各个方位发出的语音信息。所谓远场语音交互模式是指,用户可以在距离终端设备31较远的范围内进行语音交互,例如,用户距离终端设备31在3-5米的范围内与该终端设备31进行语音交互。在本实施例中,用户可以控制该终端设备31由近场语音交互模式切换为远场语音交互模式,或者,控制该终端设备31由远场语音交互模式切换为近场语音交互模式。此处,以该终端设备31由近场语音交互模式切换为远场语音交互模式为例,切换的方式具体可以是终端设备31获取模式控制指令,并根据该模式控制指令将终端设备31由近场语音交互模式切换为远场语音交互模式。
可选的,所述获取模式控制指令,包括如下几种可行的实现方式:
一种可行的实现方式是:检测用户对所述终端设备中应用程序的操作,并根据所述操作生成所述模式控制指令。
如图3所示,终端设备31安装有多种应用程序,终端设备31的用户界面上显示有多个应用程序的图标,其中一个应用程序32可用于控制该终端设备31由近场语音交互模式切换为远场语音交互模式,该应用程序32具体可以是用于对该终端设备31进行用户设置的应用程序,用户点击进入该应用程序32后,选择相应的语音交互模式设置,例如,开启远场语音交互模式的功能按键,或关闭近场语音交互模式的功能按键。当终端设备31检测到用户对该应用程序32的操作、以及用户对远场语音交互模式的设置操作后,根据用户的操作将生成模式控制指令。
另一种可行的实现方式是:检测所述终端设备是否连接有外接设备,若所述终端设备连接有外接设备,则生成所述模式控制指令。
例如,终端设备31还可以连接有各种不同类型的外接设备。可选的,所述外接设备包括如下至少一种:充电底座、音箱、耳机、手机支架。此处只是示意性说明,并不限定外接设备的具体类型,也不限定终端设备31和外接设备之间的连接方式,可选的,终端设备31和外接设备通过有线方式连接例如通用串行总线(Universal Serial Bus,USB)接口、3.5mm音频接口、Lighting接口等连接,或者,终端设备31和外接设备通过无线方式连接例如蓝牙、无线保真(WIreless-Fidelity,wifi)等。
如图4所示,当终端设备31与充电底座41连接时,即可触发终端设备31由近场语音交互模式切换为远场语音交互模式。具体的,终端设备31实时检测终端设备31是否与外接设备例如充电底座41连接,当终端设备31检测到终端设备31与充电底座41连接时,生成所述模式控制指令。
步骤202、根据所述模式控制指令,将终端设备从第一模式转换为第二模式。
具体的,终端设备31根据该模式控制指令,将终端设备31由近场语音交互模式切换为远场语音交互模式。在远场语音交互模式下,用户可以在较远的距离范围内与终端设备31进行语音交互。也就是说,当终端设备31处于近场语音交互模式时,终端设备31实现原有的手机或平板电脑的功能。当终端设备31处于远场语音交互模式时,终端设备31可以实现智能音箱的功能。
可选的,所述终端设备包括近场语音通路和远场语音通路;所述将终端设备从第一模式转换为第二模式,包括:关闭所述近场语音通路,并开启所述远场语音通路。
在本实施例中,终端设备31的驱动层设置有近场语音通路和远场语音通路,近场语音通路和远场语音通路是相互隔离、相互独立的语音通路,当终端设备31处于近场语音交互模式时,终端设备31通过该近场语音通路进行语音信息处理。当终端设备31处于远场语音交互模式时,终端设备31通过该远场语音通路进行语音信息处理。在本实施例中,该远场语音通路可支持线性2mic、4mic、或6mic的语音信息处理。当用户在用户界面中通过应用程序设置终端设备31由近场语音交互模式切换为远场语音交互模式时,终端设备31的驱动层具体可以将近场语音通路关闭,将远场语音通路开启。或者,当终端设备31与外接设备连接触发终端设备31由近场语音交互模式切换为远场语音交互模式时,终端设备31的驱动层具体可以将近场语音通路关闭,将远场语音通路开启。
步骤203、当所述终端设备处于所述第二模式时,获取用户的语音信息。
如图3所示,当终端设备31处于远场语音交互模式时,该终端设备31可以实时采集用户的语音信息,并通过该远场语音通路进行语音信息处理。
可选的,所述获取用户的语音信息,包括:通过所述外接设备采集所述用户的语音信息。
如图4所示,当终端设备31与外接设备例如充电底座连接时,如果该充电底座安装有麦克风,则可以通过该充电底座的麦克风采集用户的语音信息,再由该充电底座将用户的语音信息传输给终端设备31。
步骤204、根据所述语音信息,从服务器获取所述用户需要的目标信息。
当终端设备31获取到用户的语音信息后,可以将该语音信息发送给远程服务器,由远程服务器进行语义分析,确定用户需要的目标信息,例如,终端设备31采集到的语音信息是:“播放张学友的歌”,该终端设备31将该语音信息发送给远程服务器后,远程服务器确定该用户需要的目标信息是歌曲类音频信息,该音频信息需要满足的条件是歌手为张学友,该远程服务器从数据库中获取满足要求的音频信息,并将该音频信息发送给终端设备31。
在其他实施例中,所述根据所述语音信息,从服务器获取所述用户需要的目标信息,包括:通过所述远场语音通路对所述语音信息进行处理,确定所述用户需要的目标信息;从服务器获取所述用户需要的目标信息。
如图4所示,终端设备31与充电底座41连接,终端设备31进入远场语音交互模式,用户42在距离终端设备31较远的地方说:“播放张学友的歌”,充电底座41采集该用户42的语音信息,并将该语音信息传输给终端设备31,终端设备31通过远场语音通路对该语音信息进行处理,确定用户需要的目标信息是歌曲类音频信息,该音频信息需要满足的条件是歌手为张学友,则该终端设备31可以将该目标信息对应的特征信息例如:音频信息、歌手为张学友等信息发送给远程服务器43,由远程服务器43从数据库中获取满足要求的目标信息,并将该目标信息发送给终端设备31。
步骤205、播放所述目标信息对应的音频信息。
当终端设备31接收到该远程服务器43下发的目标信息后,播放该目标信息对应的音频信息。例如,播放张学友的歌。
可选的,所述播放所述目标信息对应的音频信息,包括:通过所述外接设备播放所述目标信息对应的音频信息。
如图4所示,该充电底座41还可以安装有扬声器,当终端设备31接收到远程服务器43下发的用户需要的音频信息例如音乐时,该终端设备13可以通过充电底座41来播放该音乐例如张学友的歌。
可以理解,此处只是示意性说明,并不限定用户和终端设备具体的语音交互内容,也不限定远程服务器43下发的目标信息的具体格式,该目标信息具体可以是文本信息、音频信息、视频信息、图像信息中的至少一种。例如,如图4所示,用户42在远距离内说:“今天天气怎么样”,该终端设备13检测到用户的语音信息后,将该语音信息发送给远程服务器43,远程服务器43根据用户所在位置,确定用户当前所处位置的天气信息,并将该天气信息下发给终端设备13,该终端设备13在播放该天气信息的同时,还可以在该终端设备13的屏幕上以文字的形式显示该天气信息。再例如,远程服务器43还可以控制该用户家庭内的智能家居,例如,该用户客厅内的灯是属于物联网中的智能家居,如图4所示,用户42在远距离内说:“将客厅的灯打开”,该终端设备13检测到用户的语音信息后,将该语音信息发送给远程服务器43,远程服务器43根据该语音信息生成控制该灯的控制指令,并通过物联网向该用户客厅内的灯发送控制指令,控制该用户客厅内的灯开启。
在其他实施例中,远程服务器43还可以接收第三方服务器或其他终端设备提供的媒体信息。如图5所示,其他用户的终端设备51可以将本地存储的或录制的媒体信息例如古筝演凑视频发送给远程服务器43,远程服务器43可以将该媒体信息存储在数据库中。例如,用户42对终端设备13说:“播放古筝视频”,终端设备13将该语音信息发送给远程服务器43,远程服务器43可以将从终端设备51接收到的古筝演凑视频发送给终端设备13,终端设备13播放该古筝演凑视频。再或者,如图6所示,远程服务器43还可以接收第三方服务器61发送的媒体信息,例如,第三方服务器61将最新的娱乐信息例如图像信息、视频信息、音频信息等信息发送给远程服务器43。用户42对终端设备13说:“播放娱乐信息”,终端设备13将该语音信息发送给远程服务器43,远程服务器43可以将从第三方服务器61接收到的最新的娱乐信息发送给终端设备13,终端设备13播放该娱乐信息,例如,终端设备13将该娱乐信息传输给充电底座41,由充电底座41的扬声器来播放给娱乐信息。
本发明实施例通过将终端设备从近场语音交互模式转换为远场语音交互模式,使得该终端设备处于远场语音交互模式时,获取用户的语音信息,并根据该语音信息,从服务器获取用户需要的目标信息,由该终端设备以语音方式播放该目标信息,使得终端设备例如手机、平板电脑等用户终端可以在远场语音交互模式下变成带屏的智能音箱,在近场语音交互模式下为常用的手机或平板电脑,该终端设备方便用户携带,用户可以随时随地使用该终端设备的远场语音交互功能,从而为用户提供了灵活、便捷的语音服务。
图7为本发明另一实施例提供的语音交互方法流程图。在上述实施例的基础上,本实施例提供的语音交互方法还包括如下步骤:
步骤701、当所述终端设备处于第一模式时,控制所述终端设备显示第一界面。
如图8所示,当终端设备处于近场语音交互模式时,该终端设备显示第一界面81,该第一界面81具体可以是该终端设备原有的***桌面,该***桌面上显示有多个不同应用程序的图标。
步骤702、当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面。
如图3所示,当用户点击进入应用程序32,并开启远场语音交互模式的功能按键,或关闭近场语音交互模式的功能按键时,终端设备31从所述近场语音交互模式转换为所述远场语音交互模式。
或者,如图4所示,终端设备31与外接设备连接时,触发终端设备31从所述近场语音交互模式转换为所述远场语音交互模式。
在本实施例中,当终端设备31从所述近场语音交互模式转换为所述远场语音交互模式时,终端设备31的屏幕上显示第二界面82,该第二界面82可以是与远场语音交互模式对应的***桌面,可选的,第二界面82中没有第三方应用程序图标,用户主要通过语音交互方式和终端设备31进行交互。可选的,该第二界面82中可以显示有退出远场语音交互模式的按键,当用户点击该按键时,终端设备31从所述远场语音交互模式转换为所述近场语音交互模式,同时终端设备31显示的界面由第二界面82切换为第一界面81。或者,如图4所示,当终端设备13与外接设备分离时,触发终端设备31从所述远场语音交互模式转换为所述近场语音交互模式,同时终端设备31显示的界面由第二界面82切换为第一界面81。
在本实施例中,当终端设备31处于远场语音交互模式时,该终端设备13在与用户进行语音交互时,该终端设备13还可以根据用户的语音信息,识别该用户的声纹信息,该声纹信息可以作为该用户的标识信息,可选的,该终端设备13可以支持多个家庭成员使用,具体的,该终端设备13可预先存储有每个家庭成员的声纹信息,当终端设备13采集到语音信息时,首先识别该语音信息对应的声纹信息,并判断该声纹信息是否为某个家庭成员的声纹信息,如果是,则终端设备13进一步与该家庭成员进行语音交互,进一步,该终端设备13还可以根据该家庭成员的声纹信息,确定该家庭成员在该家庭中的角色,如果终端设备13确定出该声纹信息是儿童的声纹信息,则该终端设备13还可以启动相应的儿童模式,例如,限制该儿童使用该终端设备13进行语音交互的时间。如果终端设备13确定出该声纹信息是拥有权限最大的家庭成员的声纹信息,则该终端设备13还可以启动相应的权限模式,例如,其他家庭成员与终端设备13进行语音交互时,每次都需要说出能够唤醒该终端设备13的关键词,而拥有权限最大的家庭成员与终端设备13进行语音交互时,不需要说出该关键词,直接说出用户需求即可。例如,同样是播放娱乐信息,其他家庭成员需要说出:“小度、小度、播放娱乐信息”,而拥有权限最大的家庭成员只需说出:“播放娱乐信息”,其中“小度、小度”即是唤醒终端设备13的关键词。可以理解,本实施例所述的儿童模式和权限模式只是当终端设备13处于远场语音交互模式下的一些具体应用,并不是与远场语音交互模式并列的模式。
本发明实施例通过当所述终端设备处于近场语音交互模式时,控制所述终端设备显示第一界面,当所述终端设备从所述近场语音交互模式转换为所述远场语音交互模式时,控制所述终端设备显示第二界面,在第二界面下,为用户提供了智能语音交互体验。
图9为本发明另一实施例提供的语音交互方法流程图。根据上述实施例可知,终端设备31可以在近场语音交互模式下显示第一界面81,在远场语音交互模式下显示第二界面82,由于第一界面81中显示有各种不同的应用程序图标,当终端设备31处于近场语音交互模式下,该终端设备31可以显示不同应用程序的交互界面,而终端设备31处于远场语音交互模式时,该终端设备31是否还可以显示不同应用程序的交互界面,可通过本实施例所述的方法来实现。本实施例提供的语音交互方法还包括如下步骤:
步骤901、获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭。
可选的,当终端设备31处于近场语音交互模式时,用户可以对该终端设备31中应用程序的打开或关闭方式进行控制,例如,用户可以设置:当终端设备31处于远场语音交互模式时,非用户触发的应用程序可以打开或关闭。此处不限定具体的设置方式,可以是语音方式设置,也可以是操作应用程序方式来设置。可选的,当用户进行相应的设置后,该终端设备13生成相应的应用程序控制指令,例如,用户设置:当终端设备31处于远场语音交互模式时,非用户触发的应用程序可以打开,则该应用程序控制指令用于控制非用户触发的应用程序打开。如果用户设置:当终端设备31处于远场语音交互模式时,非用户触发的应用程序关闭,则该应用程序控制指令用于控制非用户触发的应用程序关闭。
步骤902、若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面。
例如,该应用程序控制指令用于控制非用户触发的应用程序打开,那么当终端设备31处于远场语音交互模式时,终端设备31显示第二界面82,此时,如果该终端设备31在近场语音交互模式下的任一个应用程序例如微信接收到了即时通信消息,则该终端设备31可以在该第二界面82中显示该即时通信消息对应的提示信息例如任务栏、通知栏、弹框等,当用户点击该提示信息时,终端设备31可以从第二界面82跳转到微信用户界面。
步骤903、若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
例如,该应用程序控制指令用于控制非用户触发的应用程序关闭,那么当终端设备31处于远场语音交互模式时,终端设备31显示第二界面82,此时,如果该终端设备31在近场语音交互模式下的某一个应用程序例如微信接收到了即时通信消息,但该第二界面82中不显示任何提示信息,相当于,在终端设备31显示第二界面82时,可以将近场语音交互模式下应用程序屏蔽掉。
另外,在其他实施例中,用户还可以对某一个应用程序进行设置,使得该终端设备32处于远场语音交互模式时,只显示该应用程序对应的任务栏、通知栏、弹框等,而不显示其他应用程序对应的任务栏、通知栏、弹框等。
本发明实施例中,用户可控制非用户触发的应用程序可以打开或关闭,如果用户控制非用户触发的应用程序打开,则当终端设备处于所述远场语音交互模式时,该终端设备31在近场语音交互模式下的应用程序可以开启,且该应用程序对应的任务栏、通知栏、弹框等都可以显示在屏幕中,使得用户可以即时接收到应用程序的消息。如果用户控制非用户触发的应用程序关闭,则当终端设备处于所述远场语音交互模式时,该终端设备31在近场语音交互模式下的应用程序不能开启,且该应用程序对应的任务栏、通知栏、弹框等不显示在屏幕中,避免用户在远场语音交互模式下的语音交互被打断。
图10为本发明另一实施例提供的语音交互方法流程图。在上述实施例的基础上,本实施例提供的语音交互方法还包括如下步骤:
步骤1001、当所述终端设备处于所述第二模式时,接收服务器实时发送的推送消息。
在本实施例中,当终端设备由近场语音交互模式切换到远场语音交互模式,即当终端设备显示的界面由如图8所示的第一界面81切换到第二界面82时,远程服务器实时向该终端设备发送推送消息,该推送消息可以是该远程服务器随机确定的,也可以是该远程服务器根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个生成的。
本实施例不限定该推送消息的具体形式和数量,例如,该推送消息可以是文字信息、图像信息、视频信息、音频信息中的至少一种。
步骤1002、在所述终端设备显示所述推送消息。
当终端设备接收到远程服务器下发的推送消息后,在第二界面82中实时显示该推送消息,例如,该推送消息具体可以是桌面背景和文字信息,远程服务器每次下发不同的桌面背景和文字信息,该文字信息可以是当前最新的热点消息、天气信息、新闻等实时消息。具体的,该终端设备可以轮番展现该推送消息。在该终端设备实时显示该推送消息的过程中,如果该终端设备检测到了用户的语音信息,则按照上述实施例所述方法将该语音信息发送给远程服务器,由该远程服务器确定用户需要的目标信息,或者,该终端设备根据该语音信息确定出用户需要的目标信息,并将请求获取该目标信息的请求消息发送给远程服务器。当该终端设备接收到远程服务器下发的该目标信息时,该终端设备暂停显示前述推送消息,并播放该目标信息,当该目标信息播放结束后,该终端设备再次开始显示前述暂停的推送消息。在本实施例中,该终端设备和该远程服务器可以保持网络长连接,实时获取该远程服务器下发的最新的推送消息。
本发明实施例通过当所述终端设备处于所述远场语音交互模式时,接收服务器实时发送的推送消息,并在所述终端设备显示所述推送消息,使得用户不仅在远场语音交互模式下可以与该终端设备进行远场语音交互,另外,还可以实时浏览服务器下发的推送消息,方便用户了解更多的网络咨询。
图11为本发明实施例提供的语音交互方法流程图。本发明实施例针对现有技术的如上技术问题,提供了语音交互方法,该方法具体步骤如下:
步骤1101、获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式。
步骤1102、若所述终端设备处于第二模式,则根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息。
步骤1103、将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息。
本实施例所述语音交互方法的执行主体可以是服务器,该服务器具体可以是上述实施例所述的远程服务器。本实施例所述的方法的实现方式和具体原理均与上述实施例一致,此处不再赘述。
本发明实施例通过将终端设备从近场语音交互模式转换为远场语音交互模式,使得该终端设备处于远场语音交互模式时,获取用户的语音信息,并根据该语音信息,从服务器获取用户需要的目标信息,由该终端设备以语音方式播放该目标信息,使得终端设备例如手机、平板电脑等用户终端可以在远场语音交互模式下变成带屏的智能音箱,在近场语音交互模式下为常用的手机或平板电脑,该终端设备方便用户携带,用户可以随时随地使用该终端设备的远场语音交互功能,从而为用户提供了灵活、便捷的语音服务。
图12为本发明另一实施例提供的语音交互方法流程图。在上述实施例的基础上,本实施例提供的语音交互方法还包括如下步骤:
步骤1201、若所述终端设备处于第二模式,则生成推送消息。
在本实施例中,当终端设备由近场语音交互模式切换到远场语音交互模式,即当终端设备显示的界面由如图8所示的第一界面81切换到第二界面82时,远程服务器实时向该终端设备发送推送消息,该推送消息可以是该远程服务器随机确定的,也可以是该远程服务器根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个生成的。
可选的,所述生成推送消息,包括:根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息。
可选的,所述根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息,包括:根据所述用户历史记录信息预测用户行为信息;根据所述用户行为信息,获取多个推荐内容;根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息。
可选的,所述根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息,包括:对所述多个推荐内容和所述最新实时热点信息进行排序,得到所述多个推荐内容和所述最新实时热点信息的排序结果;根据所述排序结果,确定所述推送消息。
在本实施例中,该远程服务器可以包括如图13所示的用户行为分析模块、智能行为预测模块、排序处理模块和运营分析模块,其中,用户行为分析模块用于分析用户历史记录信息,该用户历史记录信息具体可以是用户历史语音信息,根据该用户历史语音信息可以确定出用户历史申请过的目标信息,另外,当终端设备13接收到该远程服务器下发的目标信息后,该终端设备13还可以检测用户是否点击观看了该目标信息,若该用户未点击观看该目标信息,该终端设备13也可以将该用户未点击观看的记录信息发送给该远程服务器,该用户行为分析模块可确定出用户播放过哪些目标信息、没有播放过哪些目标信息,该用户行为分析模块根据用户播放过的目标信息和没有播放过的目标信息预测用户行为信息,例如,预测用户即将获取的信息类型,该信息类型例如为探险类。该用户行为分析模块将其预测出的用户行为信息发送给智能行为预测模块,该智能行为预测模块根据该信息类型例如探险类,从数据库中获取多个推荐内容例如多个探险类的视频信息,例如视频信息A、视频信息B、视频信息C,同时,该智能行为预测模块还可计算出视频信息A、视频信息B、视频信息C各自的权重系数,该权重系数可以是该智能行为预测模块根据用户浏览过的视频记录、以及该视频信息被点击的次数等因素确定的。进一步,该智能行为预测模块将多个推荐内容例如视频信息A、视频信息B、视频信息C、以及每个视频信息对应的权重系数发送给排序处理模块,该排序处理模块不仅接收该智能行为预测模块发送的视频信息A、视频信息B、视频信息C,同时还接收运营分析模块发送的最新实时热点信息以及该最新实时热点信息对应的权重系数,该排序处理模块根据权重系数,对视频信息A、视频信息B、视频信息C和最新实时热点信息进行排序,可以理解,此处只是示意性说明,并不限定运营分析模块给该排序处理模块发送的最新实时热点信息的数量。该远程服务器可以根据该排序处理模块对视频信息A、视频信息B、视频信息C和最新实时热点信息的排序结果,向终端设备下发推送消息,在一种可能的情况中,该远程服务器按照该排序结果依次推送,另一种可能的情况中,该远程服务器从该排序结果中截取权重系数较高的信息推送给终端设备。
步骤1202、向所述终端设备实时发送所述推送消息。
本发明实施例通过服务器根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成推送消息,使得该推送消息更符合用户的需求,提高了用户体验。
图14为本发明实施例提供的终端设备的结构示意图。本发明实施例提供的终端设备可以执行语音交互方法实施例提供的处理流程,如图14所示,终端设备140包括:存储器141、处理器142、计算机程序和通讯接口143;其中,计算机程序存储在存储器141中,并被配置为由处理器142执行以下操作:获取模式控制指令;根据所述模式控制指令,将终端设备从第一模式转换为第二模式;当所述终端设备处于所述第二模式时,获取用户的语音信息;根据所述语音信息,从服务器获取所述用户需要的目标信息;播放所述目标信息对应的音频信息。
可选的,处理器142获取模式控制指令时,具体用于如下至少一种:检测用户对所述终端设备中应用程序的操作,并根据所述操作生成所述模式控制指令;检测所述终端设备是否连接有外接设备,若所述终端设备连接有外接设备,则生成所述模式控制指令。
可选的,所述外接设备包括如下至少一种:充电底座、音箱、耳机、手机支架。
可选的,处理器142获取用户的语音信息时,具体用于:通过所述外接设备采集所述用户的语音信息;处理器142播放所述目标信息对应的音频信息时,具体用于:通过所述外接设备播放所述目标信息对应的音频信息。
可选的,所述终端设备包括近场语音通路和远场语音通路;处理器142将终端设备从第一模式转换为第二模式时,具体用于:关闭所述近场语音通路,并开启所述远场语音通路;处理器142根据所述语音信息,从服务器获取所述用户需要的目标信息时,具体用于:通过所述远场语音通路对所述语音信息进行处理,确定所述用户需要的目标信息;从服务器获取所述用户需要的目标信息。
可选的,处理器142还用于:当所述终端设备处于第一模式时,控制所述终端设备显示第一界面;当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面。
可选的,处理器142还用于:获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭;若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面;若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
可选的,处理器142还用于:当所述终端设备处于所述第二模式时,通过通讯接口143接收服务器实时发送的推送消息;在所述终端设备显示所述推送消息。
图14所示实施例的终端设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图15为本发明实施例提供的服务器的结构示意图。该服务器具体可以是上述实施例中所述的远程服务器。本发明实施例提供的服务器可以执行语音交互方法实施例提供的处理流程,如图15所示,服务器150包括:存储器151、处理器152、计算机程序和通讯接口153;其中,计算机程序存储在存储器151中,并被配置为由处理器152执行以下操作:获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;若所述终端设备处于第二模式,则根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;通过通讯接口153将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息。
可选的,处理器152还用于:若所述终端设备处于第二模式,则生成推送消息;通过所述通讯接口向所述终端设备实时发送所述推送消息。
可选的,处理器152生成推送消息时,具体用于:根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息。
可选的,处理器152根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息时,具体用于:根据所述用户历史记录信息预测用户行为信息;根据所述用户行为信息,获取多个推荐内容;根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息。
可选的,处理器152根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息时,具体用于:对所述多个推荐内容和所述最新实时热点信息进行排序,得到所述多个推荐内容和所述最新实时热点信息的排序结果;根据所述排序结果,确定所述推送消息。
图15所示实施例的服务器可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的语音交互方法。
图16为本发明实施例提供的终端设备的结构示意图。本发明实施例提供的终端设备可以执行语音交互方法实施例提供的处理流程,如图16所示,终端设备160包括:第一获取模块161、模式转换模块162、第二获取模块163、第三获取模块164和播放模块165;其中,第一获取模块161用于获取模式控制指令;模式转换模块162用于根据所述模式控制指令,将终端设备从第一模式转换为第二模式;第二获取模块163用于当所述终端设备处于所述第二模式时,获取用户的语音信息;第三获取模块164用于根据所述语音信息,从服务器获取所述用户需要的目标信息;播放模块165用于播放所述目标信息对应的音频信息。
可选的,第一获取模块161在获取模式控制指令时,具体用于如下至少一种:
检测用户对所述终端设备中应用程序的操作,并根据所述操作生成所述模式控制指令;
检测所述终端设备是否连接有外接设备,若所述终端设备连接有外接设备,则生成所述模式控制指令。
可选的,所述外接设备包括如下至少一种:充电底座、音箱、耳机、手机支架。
可选的,第二获取模块163在获取用户的语音信息时,具体用于:通过所述外接设备采集所述用户的语音信息;播放模块165在播放所述目标信息对应的音频信息时,具体用于:通过所述外接设备播放所述目标信息对应的音频信息。
可选的,所述终端设备包括近场语音通路和远场语音通路;模式转换模块162将终端设备从第一模式转换为第二模式时,具体用于:关闭所述近场语音通路,并开启所述远场语音通路;第三获取模块164根据所述语音信息,从服务器获取所述用户需要的目标信息时,具体用于:通过所述远场语音通路对所述语音信息进行处理,确定所述用户需要的目标信息;从服务器获取所述用户需要的目标信息。
可选的,该终端设备还包括控制模块166,控制模块166用于:当所述终端设备处于第一模式时,控制所述终端设备显示第一界面;当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面。
可选的,第一获取模块161还用于:获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭;若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面;若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
可选的,该终端设备还包括接收模块167,该接收模块167用于:当所述终端设备处于所述第二模式时,接收服务器实时发送的推送消息;在所述终端设备显示所述推送消息。
图16所示实施例的终端设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图17为本发明实施例提供的服务器的结构示意图。该服务器具体可以是上述实施例中所述的远程服务器。本发明实施例提供的服务器可以执行语音交互方法实施例提供的处理流程,如图17所示,服务器170包括:获取模块171、确定模块172和发送模块173;其中,获取模块171用于获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;确定模块172用于当所述终端设备处于第二模式时,根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;发送模块173用于将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息。
可选的,该服务器还包括:推送消息生成模块174;推送消息生成模块174用于当所述终端设备处于第二模式时,生成推送消息;发送模块173还用于向所述终端设备实时发送所述推送消息。在本实施例中,推送消息生成模块174具体可以包括如图13所示的用户行为分析模块、智能行为预测模块、排序处理模块和运营分析模块,具体原理此处不再赘述。
可选的,推送消息生成模块174在生成推送消息时具体用于:根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息。
可选的,推送消息生成模块174在根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息时,具体用于:根据所述用户历史记录信息预测用户行为信息;根据所述用户行为信息,获取多个推荐内容;根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息。
可选的,推送消息生成模块174根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息时,具体用于:对所述多个推荐内容和所述最新实时热点信息进行排序,得到所述多个推荐内容和所述最新实时热点信息的排序结果;根据所述排序结果,确定所述推送消息。
图17所示实施例的服务器可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (23)

1.一种语音交互方法,其特征在于,包括:
获取模式控制指令;
根据所述模式控制指令,将终端设备从第一模式转换为第二模式;
所述第二模式为在连接外接设备后,具有智能音箱功能的模式;
当所述终端设备处于所述第二模式时,获取用户的语音信息;
根据所述语音信息,从服务器获取用户需要的目标信息;
播放所述目标信息对应的音频信息;
所述方法还包括:
当所述终端设备处于第一模式时,控制所述终端设备显示第一界面;
当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面;
获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭;
若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面;
若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
2.根据权利要求1所述的方法,其特征在于,所述获取模式控制指令,包括如下至少一种:
检测用户对所述终端设备中应用程序的操作,并根据所述操作生成所述模式控制指令;
检测所述终端设备是否连接有外接设备,若所述终端设备连接有外接设备,则生成所述模式控制指令。
3.根据权利要求2所述的方法,其特征在于,所述外接设备包括如下至少一种:
充电底座、音箱、耳机、手机支架。
4.根据权利要求3所述的方法,其特征在于,所述获取用户的语音信息,包括:
通过所述外接设备采集所述用户的语音信息;
所述播放所述目标信息对应的音频信息,包括:
通过所述外接设备播放所述目标信息对应的音频信息。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述终端设备包括近场语音通路和远场语音通路;
所述将终端设备从第一模式转换为第二模式,包括:
关闭所述近场语音通路,并开启所述远场语音通路;
所述根据所述语音信息,从服务器获取所述用户需要的目标信息,包括:
通过所述远场语音通路对所述语音信息进行处理,确定所述用户需要的目标信息;
从服务器获取所述用户需要的目标信息。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
当所述终端设备处于所述第二模式时,接收服务器实时发送的推送消息;
在所述终端设备显示所述推送消息。
7.一种语音交互方法,其特征在于,包括:
获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;
所述第二模式为在连接外接设备后,具有智能音箱功能的模式;
若所述终端设备处于第二模式,则根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;
将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息;
所述方法还包括:
当所述终端设备处于第一模式时,控制所述终端设备显示第一界面;
当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面;
获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭;
若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面;
若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
若所述终端设备处于第二模式,则生成推送消息;
向所述终端设备实时发送所述推送消息。
9.根据权利要求8所述的方法,其特征在于,所述生成推送消息,包括:
根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息。
10.根据权利要求9所述的方法,其特征在于,所述根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息,包括:
根据所述用户历史记录信息预测用户行为信息;
根据所述用户行为信息,获取多个推荐内容;
根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息。
11.根据权利要求10所述的方法,其特征在于,所述根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息,包括:
对所述多个推荐内容和所述最新实时热点信息进行排序,得到所述多个推荐内容和所述最新实时热点信息的排序结果;
根据所述排序结果,确定所述推送消息。
12.一种终端设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以下操作:
获取模式控制指令;
根据所述模式控制指令,将终端设备从第一模式转换为第二模式;
所述第二模式为在连接外接设备后,具有智能音箱功能的模式;当所述终端设备处于所述第二模式时,获取用户的语音信息;
根据所述语音信息,从服务器获取用户需要的目标信息;
播放所述目标信息对应的音频信息;
所述处理器还用于:
当所述终端设备处于第一模式时,控制所述终端设备显示第一界面;
当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面;
获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭;
若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面;
若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
13.根据权利要求12所述的终端设备,其特征在于,所述处理器获取模式控制指令时,具体用于如下至少一种:
检测用户对所述终端设备中应用程序的操作,并根据所述操作生成所述模式控制指令;
检测所述终端设备是否连接有外接设备,若所述终端设备连接有外接设备,则生成所述模式控制指令。
14.根据权利要求13所述的终端设备,其特征在于,所述外接设备包括如下至少一种:
充电底座、音箱、耳机、手机支架。
15.根据权利要求14所述的终端设备,其特征在于,所述处理器获取用户的语音信息时,具体用于:通过所述外接设备采集所述用户的语音信息;
所述处理器播放所述目标信息对应的音频信息时,具体用于:通过所述外接设备播放所述目标信息对应的音频信息。
16.根据权利要求12-15任一项所述的终端设备,其特征在于,所述终端设备包括近场语音通路和远场语音通路;
所述处理器将终端设备从第一模式转换为第二模式时,具体用于:关闭所述近场语音通路,并开启所述远场语音通路;
所述处理器根据所述语音信息,从服务器获取所述用户需要的目标信息时,具体用于:
通过所述远场语音通路对所述语音信息进行处理,确定所述用户需要的目标信息;
从服务器获取所述用户需要的目标信息。
17.根据权利要求12-15任一项所述的终端设备,其特征在于,还包括:通讯接口;
所述处理器还用于:
当所述终端设备处于所述第二模式时,通过所述通讯接口接收服务器实时发送的推送消息;
在所述终端设备显示所述推送消息。
18.一种服务器,其特征在于,包括:
存储器;
处理器;
通讯接口;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以下操作:
获取终端设备当前的语音交互模式,所述终端设备包括第一模式和第二模式;
所述第二模式为在连接外接设备后,具有智能音箱功能的模式;若所述终端设备处于第二模式,则根据所述终端设备发送的用户语音信息,确定所述用户需要的目标信息;
通过所述通讯接口将所述目标信息发送给所述终端设备,以使所述终端设备播放所述目标信息对应的音频信息;
所述处理器还用于:
当所述终端设备处于第一模式时,控制所述终端设备显示第一界面;
当所述终端设备从所述第一模式转换为所述第二模式时,控制所述终端设备显示第二界面;
获取应用程序控制指令,所述应用程序控制指令用于控制非用户触发的应用程序打开或关闭;
若所述应用程序控制指令用于控制非用户触发的应用程序打开,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面显示所述应用程序对应的用户界面;
若所述应用程序控制指令用于控制非用户触发的应用程序关闭,则当所述终端设备处于所述第二模式且所述应用程序开启时,在所述第二界面不显示所述应用程序对应的用户界面。
19.根据权利要求18所述的服务器,其特征在于,所述处理器还用于:
若所述终端设备处于第二模式,则生成推送消息;
通过所述通讯接口向所述终端设备实时发送所述推送消息。
20.根据权利要求19所述的服务器,其特征在于,所述处理器生成推送消息时,具体用于:
根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息。
21.根据权利要求20所述的服务器,其特征在于,所述处理器根据最新实时热点信息、用户历史记录信息和用户画像中的至少一个,生成所述推送消息时,具体用于:
根据所述用户历史记录信息预测用户行为信息;
根据所述用户行为信息,获取多个推荐内容;
根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息。
22.根据权利要求21所述的服务器,其特征在于,所述处理器根据所述多个推荐内容和所述最新实时热点信息,确定所述推送消息时,具体用于:
对所述多个推荐内容和所述最新实时热点信息进行排序,得到所述多个推荐内容和所述最新实时热点信息的排序结果;
根据所述排序结果,确定所述推送消息。
23.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-11任一项所述的方法。
CN201811159559.3A 2018-09-30 2018-09-30 语音交互方法、设备及计算机可读存储介质 Active CN109243444B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811159559.3A CN109243444B (zh) 2018-09-30 2018-09-30 语音交互方法、设备及计算机可读存储介质
US16/508,453 US11282519B2 (en) 2018-09-30 2019-07-11 Voice interaction method, device and computer readable storage medium
JP2019132233A JP7227866B2 (ja) 2018-09-30 2019-07-17 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811159559.3A CN109243444B (zh) 2018-09-30 2018-09-30 语音交互方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109243444A CN109243444A (zh) 2019-01-18
CN109243444B true CN109243444B (zh) 2021-06-01

Family

ID=65054808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811159559.3A Active CN109243444B (zh) 2018-09-30 2018-09-30 语音交互方法、设备及计算机可读存储介质

Country Status (3)

Country Link
US (1) US11282519B2 (zh)
JP (1) JP7227866B2 (zh)
CN (1) CN109243444B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243444B (zh) * 2018-09-30 2021-06-01 百度在线网络技术(北京)有限公司 语音交互方法、设备及计算机可读存储介质
CN109949809B (zh) * 2019-03-27 2021-07-06 维沃移动通信有限公司 一种语音控制方法及终端设备
CN112017652A (zh) * 2019-05-31 2020-12-01 华为技术有限公司 一种交互方法和终端设备
CN112071312B (zh) * 2019-06-10 2024-03-29 海信视像科技股份有限公司 一种语音控制方法及显示设备
CN110491387B (zh) * 2019-08-23 2022-03-29 三星电子(中国)研发中心 一种基于多个终端的交互服务实现方法和***
CN112581949B (zh) * 2019-09-29 2023-09-01 深圳市万普拉斯科技有限公司 设备控制方法、装置、电子设备及可读存储介质
CN111161741B (zh) * 2019-12-19 2023-06-27 五八有限公司 一种个性化信息识别方法、装置、电子设备及存储介质
CN113377322A (zh) * 2020-03-09 2021-09-10 阿里巴巴集团控股有限公司 页面直达处理方法、装置及电子设备
CN111665732A (zh) * 2020-06-11 2020-09-15 安吉县广播电视网络有限公司 一种智慧家居语音装置以及语音***
CN112860331B (zh) * 2021-03-19 2023-11-10 Vidaa美国公司 一种显示设备及语音交互的提示方法
CN115776581A (zh) * 2022-11-03 2023-03-10 深圳创维-Rgb电子有限公司 基于电视的信息处理方法、装置、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227656A (zh) * 2015-09-28 2016-01-06 百度在线网络技术(北京)有限公司 基于语音识别的信息推送方法和装置
CN107105322A (zh) * 2017-05-23 2017-08-29 深圳市鑫益嘉科技股份有限公司 一种多媒体智能推送机器人及推送方法
CN108038737A (zh) * 2017-12-26 2018-05-15 西安Tcl软件开发有限公司 广告信息推送控制方法、终端和计算机可读存储介质
CN108039172A (zh) * 2017-12-01 2018-05-15 Tcl通力电子(惠州)有限公司 智能蓝牙音箱语音交互方法、智能蓝牙音箱及存储介质
CN108428452A (zh) * 2018-03-14 2018-08-21 百度在线网络技术(北京)有限公司 终端支架和远场语音交互***

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US6349290B1 (en) * 1998-06-30 2002-02-19 Citibank, N.A. Automated system and method for customized and personalized presentation of products and services of a financial institution
JP2000069141A (ja) 1998-08-26 2000-03-03 Uniden Corp 音声認識機能付き電話機
US7966078B2 (en) * 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
JP2001345929A (ja) 2000-06-06 2001-12-14 Nec Shizuoka Ltd 携帯電話とオプション機器との接続方法
JP2004282332A (ja) 2003-03-14 2004-10-07 Matsushita Electric Ind Co Ltd 電話装置
US20090018826A1 (en) 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8509180B2 (en) 2008-05-02 2013-08-13 Qualcomm Incorporated Method and apparatus for efficient handover in LTE
US8131267B2 (en) * 2008-05-19 2012-03-06 Tbm, Llc Interactive voice access and retrieval of information
KR101617665B1 (ko) 2011-09-30 2016-05-03 애플 인크. 핸즈-프리 상호작용을 위한 자동 적응식 사용자 인터페이스
US20130212478A1 (en) * 2012-02-15 2013-08-15 Tvg, Llc Audio navigation of an electronic interface
KR101309794B1 (ko) 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
KR102060661B1 (ko) * 2013-07-19 2020-02-11 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
US9167333B2 (en) * 2013-10-18 2015-10-20 Plantronics, Inc. Headset dictation mode
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置
CN109243444B (zh) * 2018-09-30 2021-06-01 百度在线网络技术(北京)有限公司 语音交互方法、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227656A (zh) * 2015-09-28 2016-01-06 百度在线网络技术(北京)有限公司 基于语音识别的信息推送方法和装置
CN107105322A (zh) * 2017-05-23 2017-08-29 深圳市鑫益嘉科技股份有限公司 一种多媒体智能推送机器人及推送方法
CN108039172A (zh) * 2017-12-01 2018-05-15 Tcl通力电子(惠州)有限公司 智能蓝牙音箱语音交互方法、智能蓝牙音箱及存储介质
CN108038737A (zh) * 2017-12-26 2018-05-15 西安Tcl软件开发有限公司 广告信息推送控制方法、终端和计算机可读存储介质
CN108428452A (zh) * 2018-03-14 2018-08-21 百度在线网络技术(北京)有限公司 终端支架和远场语音交互***

Also Published As

Publication number Publication date
CN109243444A (zh) 2019-01-18
JP7227866B2 (ja) 2023-02-22
US11282519B2 (en) 2022-03-22
US20190333513A1 (en) 2019-10-31
JP2019195221A (ja) 2019-11-07

Similar Documents

Publication Publication Date Title
CN109243444B (zh) 语音交互方法、设备及计算机可读存储介质
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
CN106201424B (zh) 一种信息交互方法、装置及电子设备
EP3591648B1 (en) Information processing apparatus, information processing method, and program
JP6335139B2 (ja) 手動始点/終点指定及びトリガフレーズの必要性の低減
US9479911B2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
CN108538291A (zh) 语音控制方法、终端设备、云端服务器及***
US20170046124A1 (en) Responding to Human Spoken Audio Based on User Input
CN105264485A (zh) 在多个设备上提供内容
CN107564519A (zh) 交互服务器及其控制方法和交互***
CN107911386B (zh) 获取服务授权信息的方法及装置
JP6619488B2 (ja) 人工知能機器における連続会話機能
CN108882101B (zh) 一种智能音箱的播放控制方法、装置、设备及存储介质
KR20220108163A (ko) 음성 명령 추천을 제공하기 위한 시스템 및 방법
CN103973542B (zh) 一种语音信息处理方法及装置
CN110047484A (zh) 一种语音识别交互方法、***、设备和存储介质
CN111640434A (zh) 用于控制语音设备的方法和装置
WO2024103926A1 (zh) 语音控制方法、装置、存储介质以及电子设备
CN108073572A (zh) 信息处理方法及其装置、同声翻译***
CN108304434B (zh) 信息反馈方法和终端设备
US11354520B2 (en) Data processing method and apparatus providing translation based on acoustic model, and storage medium
WO2014020835A1 (ja) エージェント制御システム、方法およびプログラム
CN109743618B (zh) 音乐播放方法、终端和计算机可读存储介质
CN109979451A (zh) 用于输出信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210512

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant