WO2020114213A1

WO2020114213A1 - 语音用户界面的显示方法和会议终端

Info

Publication number: WO2020114213A1
Application number: PCT/CN2019/118081
Authority: WO
Inventors: 郑明辉; 肖靖; 王耕; 赵光耀
Original assignee: 华为技术有限公司
Priority date: 2018-12-03
Filing date: 2019-11-13
Publication date: 2020-06-11
Also published as: EP3869504A1; CN111258528B; US20210286867A1; CN111258528A; EP3869504A4

Abstract

一种语音用户界面的显示方法和会议终端，所述方法包括：在接收用户输入会议终端的语音信息时，采集用户的声音。根据用户输入的语音信息可以获取用户语音指令。根据用户的声音可以实时获取用户的身份信息。进而，根据用户的身份信息、用户语音指令和会议终端当前的会议状态，可以显示与用户匹配的用户界面信息。由于考虑了用户的身份信息，可以识别出不同用户对会议的使用需求，针对性的生成用户界面信息，满足了不同用户对于会议***的不同需求，提升了用户界面信息显示的多样性，提升了用户对于会议***的使用感受。

Description

语音用户界面的显示方法和会议终端

本申请要求于2018年12月03日提交中国专利局、申请号为201811467420.5、申请名称为《语音用户界面的显示方法和会议终端》的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及信息处理技术领域，尤其涉及一种语音用户界面的显示方法和会议终端。

背景技术

随着人工智能的兴起，语音交互技术逐渐在各个行业中应用，例如，家庭智能音箱、语音控制车载终端、个人语音助手、语音控制会议***等。

其中，语音控制会议***应用在会议室等公用场所，其独特性在于用户的不固定性。比如，每一次会议的组织者和参与者都在发生变化。目前，语音控制会议***对于所有用户均呈现统一的用户界面。

但是，参与会议的用户不同，在会议中的需求可能不同。例如，对于可以熟练使用会议***的用户来说，用户希望可以高效地完成语音会议控制任务。对于初次使用会议***的用户来说，用户希望获得更多的帮助引导。目前的语音控制会议***，无法满足不同用户对于会议***的不同需求。

发明内容

本申请实施例提供一种语音用户界面的显示方法和会议终端，解决了目前的语音控制会议***无法满足不同用户对于会议***的不同需求的技术问题。

第一方面，本申请实施例提供一种语音用户界面的显示方法，包括：

接收用户输入会议终端的语音信息时，采集用户的声音；语音信息包括语音唤醒词或以语音唤醒词开头的语音信息；

根据用户的声音获取用户的身份信息；

根据语音信息获取用户语音指令；

根据用户的身份信息、会议终端的会议状态和用户语音指令，生成与用户匹配的用户界面信息；

显示用户界面信息。

第一方面提供的语音用户界面的显示方法中，通过在接收用户输入的语音信息时，采集用户的声音。根据用户输入的语音信息可以获取用户语音指令。根据用户的声音可以实时获取用户的身份信息。进而，根据用户的身份信息、用户语音指令和会议终端当前的会议状态，可以显示与用户匹配的用户界面信息。由于考虑了用户的身份信息，可以识别出不同用户对会议的使用需求，针对性的生成用户界面信息，满足了不同用户对于会议***的不同需求，提升了用户界面信息显示的多样性，提升了用户对于会议***的使用感受。

在一种可能的实现方式中，用户语音指令用于唤醒会议终端；根据用户的身份信息、会议终端的会议状态和用户语音指令，生成与用户匹配的用户界面信息，包括：

根据会议状态和用户的身份信息确定用户的类型，用户的类型用于指示用户通过输入语音信息完成会议控制任务的熟悉程度；

若用户的类型指示用户为生手用户，则根据会议状态生成会议操作提示信息和语音输入界面。

在一种可能的实现方式中，方法还包括：

若用户的类型指示用户为熟练用户，则生成语音输入界面。

在一种可能的实现方式中，若会议状态指示用户已经加入会议，还包括：

获取用户在会议中的角色信息；

根据会议状态生成会议操作提示信息和语音输入界面，包括：

根据会议状态和角色信息，生成会议操作提示信息和语音输入界面。

在一种可能的实现方式中，根据会议状态和用户的身份信息确定用户的类型，包括：

根据用户的身份信息获取用户的历史会议记录，历史会议记录包括下列数据中的至少一项：不同会议控制任务的最近一次发生时间、任务累计使用次数和任务成功率；

根据会议状态和用户的历史会议记录确定用户的类型。

在一种可能的实现方式中，根据会议状态和用户的历史会议记录确定用户的类型，包括：

获取用户的历史会议记录中与会议状态关联的至少一种会议控制任务的数据；

根据至少一种会议控制任务的数据，确定用户的类型。

在一种可能的实现方式中，根据至少一种会议控制任务的数据，确定用户的类型，包括：

针对每种会议控制任务，若该会议控制任务的数据中包括最近一次发生时间、且最近一次发生时间与当前时间之间的时间间隔大于或等于第一预设阈值，和/或，若该会议控制任务的数据中包括任务累计使用次数、且任务累计使用次数小于或等于第二预设阈值，和/或，若该会议控制任务的数据中包括任务成功率、且任务成功率小于或等于第三预设阈值，则确定用户相对于该会议控制任务为生手用户；

针对每种会议控制任务，若该会议控制任务的数据中包括的最近一次发生时间、任务累计使用次数和任务成功率中的至少一种均满足各自对应的预设条件，则确定用户相对于该会议控制任务为熟练用户；其中，最近一次发生时间对应的预设条件为最近一次发生时间与当前时间之间的时间间隔小于第一预设阈值，任务累计使用次数对应的预设条件为任务累计使用次数大于第二预设阈值，任务成功率对应的预设条件为任务成功率大于第三预设阈值。

在一种可能的实现方式中，用户语音指令用于唤醒会议终端后执行会议控制任务，用户语音指令的运行结果包括多个候选对象；根据用户的身份信息、会议终端当前的会议状态和用户语音指令，生成与用户匹配的用户界面信息，包括：

根据用户的身份信息对多个候选对象进行排序，生成与用户匹配的用户界面信息。

在一种可能的实现方式中，根据用户的身份信息对多个候选对象进行排序，生成与用户匹配的用户界面信息，包括：

获取各候选对象与用户的身份信息之间的相关度；

根据各相关度，对多个候选对象进行排序，生成与用户匹配的用户界面信息。

在一种可能的实现方式中，根据语音信息获取用户语音指令，包括：

对语音信息进行语义理解，生成用户语音指令；

或者，

向服务器发送语音信息；

接收服务器发送的用户语音指令，用户语音指令为服务器对语音信息进行语义理解后生成的。

在一种可能的实现方式中，还包括：

在接收用户输入会议终端的语音信息时，采集用户的头像；

根据用户的声音获取用户的身份信息，包括：

根据用户的声音和头像获取用户的身份信息。

在一种可能的实现方式中，根据用户的声音和头像获取用户的身份信息，包括：

根据用户的声音确定用户相对于会议终端的位置；

根据用户相对于会议终端的位置，采集用户的人脸信息；

根据用户的人脸信息和人脸信息库，确定用户的身份信息。

在一种可能的实现方式中，根据用户的声音和头像获取用户的身份信息，还包括：

根据用户的声音获取用户的声纹信息；

根据用户的声纹信息和声纹信息库，确定用户的身份信息。

第二方面，本申请实施例提供一种语音用户界面的显示装置，包括：

接收模块，用于接收用户输入会议终端的语音信息时，采集用户的声音；语音信息包括语音唤醒词或以语音唤醒词开头的语音信息；

第一获取模块，用于根据用户的声音获取用户的身份信息；

第二获取模块，用于根据语音信息获取用户语音指令；

生成模块，用于根据用户的身份信息、会议终端的会议状态和用户语音指令，生成与用户匹配的用户界面信息；

显示模块，用于显示用户界面信息。

在一种可能的实现方式中，用户语音指令用于唤醒会议终端；生成模块，包括：

第一确定单元，用于根据会议状态和用户的身份信息确定用户的类型，用户的类型用于指示用户通过输入语音信息完成会议控制任务的熟悉程度；

第一生成单元，用于若用户的类型指示用户为生手用户，则根据会议状态生成会议操作提示信息和语音输入界面。

在一种可能的实现方式中，生成模块还包括：

第二生成单元，用于若用户的类型指示用户为熟练用户，则生成语音输入界面。

在一种可能的实现方式中，若会议状态指示用户已经加入会议，生成模块还包括：

第一获取单元，用于获取用户在会议中的角色信息；

第一生成单元具体用于：

在一种可能的实现方式中，第一确定单元，包括：

第一获取子单元，用于根据用户的身份信息获取用户的历史会议记录，历史会议记录包括下列数据中的至少一项：不同会议控制任务的最近一次发生时间、任务累计使用次数和任务成功率；

确定子单元，用于根据会议状态和用户的历史会议记录确定用户的类型。

在一种可能的实现方式中，确定子单元具体用于：

根据至少一种会议控制任务的数据，确定用户的类型。

在一种可能的实现方式中，确定子单元具体用于：

在一种可能的实现方式中，用户语音指令用于唤醒会议终端后执行会议控制任务，用户语音指令的运行结果包括多个候选对象；生成模块，包括：

第三生成单元，用于根据用户的身份信息对多个候选对象进行排序，生成与用户匹配的用户界面信息。

在一种可能的实现方式中，第三生成单元，包括：

第二获取子单元，用于获取各候选对象与用户的身份信息之间的相关度；

生成子单元，用于根据各相关度，对多个候选对象进行排序，生成与用户匹配的用户界面信息。

在一种可能的实现方式中，第二获取模块具体用于：

对语音信息进行语义理解，生成用户语音指令；

或者，

向服务器发送语音信息；

在一种可能的实现方式中，接收模块，还用于：

在接收用户输入会议终端的语音信息时，采集用户的头像；

第一获取模块，具体用于：根据用户的声音和头像获取用户的身份信息。

在一种可能的实现方式中，第一获取模块，包括：

第二确定单元，用于根据用户的声音确定用户相对于会议终端的位置；

采集单元，用于根据用户相对于会议终端的位置，采集用户的人脸信息；

第三确定单元，用于根据用户的人脸信息和人脸信息库，确定用户的身份信息。

在一种可能的实现方式中，第一获取模块，还包括：

第二获取单元，用于根据用户的声音获取用户的声纹信息；

第四确定单元，用于根据用户的声纹信息和声纹信息库，确定用户的身份信息。

第三方面，本申请实施例提供一种会议终端，包括：处理器、存储器和显示器；

其中，存储器，用于存储程序指令；

显示器，用于根据处理器的控制显示用户界面信息；

处理器，用于调用并执行存储器中存储的程序指令，当处理器执行存储器存储的程序指令时，会议终端用于执行上述第一方面的任意实现方式的方法。

第四方面，本申请实施例提供一种芯片***，该芯片***包括处理器，还可以包括存储器，用于实现上述第一方面的任意实现方式的方法。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

第五方面，本申请实施例提供一种程序，该程序在被处理器执行时用于执行上述第一方面的任意实现方式的方法。

第六方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面的任意实现方式的方法。

第七方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述第一方面的任意实现方式的方法。

附图说明

图1为本申请实施例适用的会议***的结构示意图；

图2为本申请实施例涉及的会议***中软件模块的示意图；

图3为本申请实施例一提供的语音用户界面的显示方法的流程图；

图4为本申请实施例二提供的语音用户界面的显示方法的流程图；

图5为本申请实施例二提供的语音用户界面在一种场景下的示意图；

图6为本申请实施例二提供的语音用户界面在另一种场景下的示意图；

图7为本申请实施例二提供的帮助提示区的示意图；

图8为本申请实施例二提供的历史会议记录的示意图；

图9为本申请实施例三提供的语音用户界面在一种场景下的示意图；

图10为本申请实施例三提供的语音用户界面在另一种场景下的示意图；

图11为本申请实施例三提供的语音用户界面在又一种场景下的示意图；

图12为本申请实施例提供的语音用户界面的显示装置的结构示意图；

图13为本申请实施例提供的会议终端的结构示意图。

具体实施方式

图1为本申请实施例适用的会议***的结构示意图。如图1所示，会议***可以包括：会议终端100和服务器。可选的，服务器可以包括本地服务器200和远端服务器300中的至少一种。远端服务器300的类型可以为传统服务器或者云服务器。会议终端100与本地服务器200之间、会议终端100与远端服务器300之间、本地服务器200与远端服务器300之前均可以进行通信。通信方式可以为有线通信或者无线通信。由于会议终端100的计算能力通常有限，而服务器具有强大的计算能力。因此，会议终端100通过与服务器之间的通信，可以弥补、协助会议终端100的数据处理。

会议***中的各个设备可以预先安装软件程序或者应用程序(Application，APP)，通过语音识别技术和语义理解技术，实现用户与会议***之间的语音交互任务。

需要说明的是，本申请实施例对于会议***中会议终端100和服务器的数量不做限定。

会议终端100可以包括：声音采集设备、声音播放设备、拍摄设备、存储器和处理器，等等。其中，声音采集设备用于获取用户输入的语音。拍摄设备可以采集会议环境中的图像或者视频。声音播放设备可以播放语音交互任务结果中的语音部分。可选的，会议终端100还可以包括收发器。所述收发器用于与其他设备进行通信，传输数据或者指令。可选的，会议终端100还可以包括显示屏。显示屏用于显示语音交互任务结果中的可显示部分。可选的，若会议终端100本身不具有显示屏，会议终端100还可以与外部的显示设备进行数据传输，已使显示设备显示语音交互任务结果中的可显示部分。

下面通过示例对语音交互任务进行说明。

在本申请的一些实施方式或者场景中，语音交互任务也可以称为语音任务、会议控制任务，等等。本申请实施例对于语音交互任务实现的功能不做限定。

例如，用户对处于监听状态的会议终端说出语音唤醒词“小微”。语音交互任务可以为唤醒会议终端。该任务执行后，会议终端从监听状态进入待机状态，以等待用户继续输入语音。此时，会议终端的显示屏上可以显示语音输入窗口界面。

又例如，用户对处于会议中的会议终端说出“小微，请呼叫用户A”。语音交互任务可以为唤醒会议终端后发起呼叫。该任务执行后，会议终端可以被唤醒，并执行呼叫用户A。此时，会议终端的显示屏上可以显示正在呼叫用户A的界面。

需要说明的是，本申请实施例对于会议终端100的形状和产品类型不做限定。

需要说明的是，本申请实施例对于会议终端100中各个部件的实现方式不做限定。例如，声音采集设备可以包括麦克风或者麦克风阵列。声音播放设备可以包括喇叭或者扬声器。拍摄设备可以为具有不同像素的摄像头。

下面从软件层面对会议***进行说明。

示例性的，图2为本申请实施例涉及的会议***中软件模块的示意图。其中，麦克风阵列、扬声器和显示屏为硬件模块。

如图2所示，通过麦克风阵列可以获取用户输入的语音。例如，“小微，请呼叫用户A”。语音识别引擎20可以对语音进行处理，将语音转换为文字。语义理解引擎21可以获取文字包含的含义，将文字解析为意图。在本示例中，用户的意图为呼叫A。之后，对话管理模块22输出业务可识别的、可执行的指令。需要说明的是，在本申请的一些实施方式或者场景中，指令也可以称为语音指令、用户语音指令、会议指令、会议控制指令，等等。中控模块23获取到指令后，执行该指令，获得执行结果。执行结果中如果包括需要语音播放的部分，则通过语音合成引擎28的处理，通过扬声器进行播放。执行结果中如果包括需要屏幕显示的部分，则通过图形用户界面模块29的处理，通过显示屏进行显示。

在本申请实施例中，执行指令时，可以同时考虑用户类型、用户身份和会议状态。基于上述因素执行该指令，可以获得与用户类型、用户身份和会议状态匹配的指令运行结果。提升了界面显示的灵活性，提升了用户感受。

具体的，身份识别引擎24可以利用声源定位技术、声源跟踪技术、声纹识别技术、人脸识别技术和唇动识别技术等中的至少一种技术，在用户信息数据库27中获取用户的身份信息。身份识别引擎24将用户的身份信息输出给中控模块23。

身份类型判定单元25可以确定用户的类型。用户的类型用于指示用户通过输入语音完成会议控制任务的熟练程度。需要说明的是，针对不同的会议控制任务，同一个用户的类型可能不同。例如，用户B经常组织会议，那么，对于进入会议、发起会议、将参会人员加入会议等会议控制任务，用户B可能为熟练用户。但是，如果用户B只是组织会议，不参加后续的会议，那么，对于结束会议、会议进行中的屏幕共享或观看会场等会议控制任务，用户B可能为生手用户。身份类型判定单元25将用户的类型输出给中控模块23。

提示信息管理单元26可以根据会议状态向中控模块23推送不同的提示信息。

最终，中控模块23根据身份识别引擎24、身份类型判定单元25、提示信息管理单元26和会话管理模块22的输出，执行指令获得执行结果。

需要说明的是，本申请实施例涉及的会议***，可以实现图2所示各个模块实现的功能。但是，对于模块的具体划分不做限定，图2中各个模块的划分和名称仅是一种示例。而且，本申请实施例对于图2中各个模块的设置位置不做限定。例如，语音识别引擎20、语义理解引擎21、对话管理模块22、身份类型判定单元25、身份识别引擎24可以设置在会议终端、本地服务器或者远端服务器上。中控模块23、语音合成引擎28、图形用户界面模块29可以设置在会议终端上。

下面以具体实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明，本申请说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图3为本申请实施例一提供的语音用户界面的显示方法的流程图。本实施例提供的语音用户界面的显示方法，执行主体可以为语音用户界面的显示装置或者会议终端。如图3所示，本实施例提供的语音用户界面的显示方法，可以包括：

S301、接收用户输入会议终端的语音信息时，采集用户的声音。

其中，语音信息包括语音唤醒词或以语音唤醒词开头的语音信息。

具体的，用户与会议终端进行语音交互之前，需要首先通过语音唤醒词唤醒会议终端。用户输入的语音信息，可以仅包括语音唤醒词。例如，“小微”。也可以是以语音唤醒词开头的语音信息。例如，“小微，请呼叫用户A”、“小微，请共享会议室B的屏幕”、“小微，我要结束会议”，等等。会议终端上设置有声音采集设备。在用户向会议终端输入语音信息的同时，会议终端可以采集用户的声音。

可选的，会议终端上可以设置有拍摄设备。在用户向会议终端输入语音信息的同时，会议终端可以采集用户的头像。

需要说明的是，本实施例对于语音唤醒词的实现方式不做限定。

S302、根据用户的声音获取用户的身份信息。

具体的，在接收用户输入的语音信息时，同时采集用户的声音。由于用户的声音是非常具有辨识度的信息，通过用户的声音可以实时获取用户的身份信息，提升了获取用户身份信息的时效性。

之后，可以根据用户的身份信息，确定用户是否为合法用户，以及为用户定制个性化的会议显示界面。例如，对于不同部门的用户，可以按照不同的显示风格显示界面。

可选的，用户的身份信息可以包括下列中的至少一项：

姓名、性别、年龄、毕业时间、工作经历、入职时间、工作部门、工号、工位、座机号码、手机号码、目前是否出差、出差地点、兴趣爱好，等等。

可选的，若接收用户输入会议终端的语音信息时，还采集了用户的头像，S302，根据用户的声音获取用户的身份信息，可以包括：

根据用户的声音和头像获取用户的身份信息。

具体的，用户的头像也是非常具有辨识度的信息。同时利用用户的声音和头像一起获取用户的身份信息，进一步提升了用户身份信息的准确性。尤其是对于使用会议终端的人数众多且人员变化较为频繁的场景，例如，员工数量很多的大型企业。

S303、根据语音信息获取用户语音指令。

具体的，会议终端获取用户输入的语音信息之后，可以对语音进行语音识别和语义理解，获取用户语音指令。所述用户语音指令可以被会议终端执行。

需要说明的是，在本实施例中，对于S302和S303的执行顺序不做限定。例如，可以前后执行，也可以同时执行。

S304、根据用户的身份信息、会议终端的会议状态和用户语音指令，生成与用户匹配的用户界面信息。

S305、显示用户界面信息。

具体的，用户的身份信息不同、会议状态不同、用户语音指令不同，与用户匹配的用户界面信息就可能不同。

下面通过示例进行说明。

在一个示例中，用户的毕业时间为2018年7月，用户的入职时间为2018年8月。当前为2018年11月。说明该用户是刚刚毕业的入职3个月的新员工。假设，会议终端的会议状态为监听状态。用户语音指令用于唤醒会议终端。那么，会议终端由监听状态进入待机状态后，显示的与用户匹配的用户界面信息可以包括与进入会议相关的提示信息。

在另一个示例中，用户的入职时间为2014年。当前为2018年。说明该用户是已经工作了4年的员工。可以确定该用户熟悉会议流程。在与上个示例同样的场景下，当会议终端由监听状态进入待机状态后，可以不显示任何提示信息，仅显示语音输入窗口。

其中，会议状态用于指示会议或者会议终端的执行阶段和执行状态。本实施例对于会议状态的具体分类不做限定。

可选的，会议状态可以包括下列中的至少一种：未加入会议、已加入会议、会议中正在共享屏幕、会议中观看会场，等等。

可见，本实施例提供的语音用户界面的显示方法，在接收用户输入会议终端的语音信息时，采集用户的声音。根据用户输入的语音信息可以获取用户语音指令。根据用户的声音可以实时获取用户的身份信息。进而，根据用户的身份信息、用户语音指令和会议终端当前的会议状态，可以显示与用户匹配的用户界面信息。由于考虑了用户的身份信息，可以识别出不同用户对会议的使用需求，针对性的生成用户界面信息，满足了不同用户对于会议***的不同需求，提升了用户界面信息显示的多样性，提升了用户对于会议***的使用感受。

可选的，S302中，根据语音信息获取用户语音指令，可以包括：

根据用户的声音获取用户的声纹信息。

根据用户的声纹信息和声纹信息库，确定用户的身份信息。

具体的，可以采用声纹识别技术等获取用户的声纹信息，进而在声纹信息库中查找匹配，确定用户的身份信息。

可选的，声纹信息库可以周期更新。

可选的，根据用户的声音和头像获取用户的身份信息，可以包括：

根据用户的声音确定用户相对于会议终端的位置。

根据用户相对于会议终端的位置，采集用户的人脸信息。

根据用户的人脸信息和人脸信息库，确定用户的身份信息。

具体的，可以采用声源跟踪技术、声源定位技术或者唇动识别技术等，确定用户相对于会议终端的位置。进而，在拍摄设备采集的图像或者视频中，根据用户相对于会议终端的位置，采用人脸识别技术等采集该用户的人脸信息。之后，根据用户的人脸信息在人脸信息库中查找匹配，确定用户的身份信息。

可选的，人脸信息库可以周期更新。

可选的，用户相对于会议终端的位置可以包括用户相对于会议终端的方向。

可选的，S302中，根据用户的声音和头像获取用户的身份信息，还可以包括：

根据用户的声音获取用户的声纹信息。

根据用户的声纹信息和声纹信息库，确定用户的身份信息。

在该种实现方式中，获取用户的声纹信息后，可以在声纹信息库中查找匹配，确定用户的身份信息。由于基于用户的声纹特征和人脸匹配一起确定用户的身份信息，进一步提升了用户身份信息的准确性。

可选的，S303中，根据语音信息获取用户语音指令，包括：

对语音信息进行语义理解，生成用户语音指令。

或者，

向服务器发送语音信息。

具体的，在一种实现方式中，会议终端自身可以进行语音识别和语义理解，根据用户输入的语音信息生成用户语音指令。简化了获取用户语音指令的处理流程。

在另一种实现方式中，会议终端与服务器之间可以进行数据传输，由服务器对用户输入的语音信息进行语音识别和语义理解。服务器将用户语音指令返回给会议终端即可。降低了会议终端的硬件配置，易于实现。

本实施例提供一种语音用户界面的显示方法，包括：接收用户输入会议终端的语音信息时，采集用户的声音，根据用户的声音获取用户的身份信息，根据语音信息获取用户语音指令，根据用户的身份信息、会议终端的会议状态和用户语音指令，生成与用户匹配的用户界面信息，显示用户界面信息。本实施例提供的语音用户界面的显示方法，在接收用户输入的语音信息时，采集用户的声音。根据用户的声音可以实时获取用户的身份信息。由于考虑了用户的身份信息、会议终端的会议状态和用户希望执行的语音交互任务，可以识别出不同用户对会议的使用需求，针对性的生成用户界面信息，满足了不同用户对于会议***的不同需求，提升了用户界面信息显示的多样性，提升了用户对于会议***的使用感受。

图4为本申请实施例二提供的语音用户界面的显示方法的流程图。本实施例提供的语音用户界面的显示方法，在图3所示实施例的基础上，提供了用户语音指令用于唤醒会议终端的场景下，语音用户界面的显示方法的一种实现方式。

如图4所示，用户语音指令用于唤醒会议终端。S304，根据用户的身份信息、会议终端的会议状态和用户语音指令，生成与用户匹配的用户界面信息，可以包括：

S401、根据会议状态和用户的身份信息确定用户的类型。

其中，用户的类型用于指示用户通过输入语音信息完成会议控制任务的熟悉程度。

S402、若用户的类型指示用户为生手用户，则根据会议状态生成会议操作提示信息和语音输入界面。

S403、若用户的类型指示用户为熟练用户，则生成语音输入界面。

具体的，对于同一个用户而言，会议状态不同，用户通过输入语音信息完成会议控制任务的熟悉程度可能不同。当确定用户为生手用户时，可以生成会议操作提示信息和语音输入界面。通过会议操作提示信息，可以对生手用户起到很好的会议引导作用，提升了新手用户输入语音的效率和准确率，同时提升了新手用户完成会议控制任务的成功率。满足了新手用户的会议需求。当确定用户为熟练用户时，是不需要提示引导的。此时，仅生成语音输入界面。用户可以直接输入语音完成相应的会议控制任务。由于节约了显示会议操作提示信息的时间和步骤，节省了引导流程，提升了熟练用户完成会议控制任务的效率。满足了熟练用户的会议需求。提升了用户感受。

下面通过具体示例进行说明。

可选的，在一个示例中，图5为本申请实施例二提供的语音用户界面在一种场景下的示意图，适用于新手用户。

如图5左侧所示，当前显示的语音用户界面为监听画面。需要说明的是，监听画面在不同的会议状态下可能不同。本示例对于监听画面不做限定。当会议终端接收到语音唤醒词后，如图5右侧所示，语音用户界面可以包括帮助提示区101和语音输入界面102。帮助提示区101中可以显示会议操作提示信息。

需要说明的是，本示例对于帮助提示区101和语音输入界面102的显示位置、显示内容和显示风格不做限定。

可选的，帮助提示区101可以显示在语音用户界面的醒目区域，便于新手用户看到。

可选的，在另一个示例中，图6为本申请实施例二提供的语音用户界面在另一种场景下的示意图，适用于熟练用户。

如图6左侧所示，当前显示的语音用户界面为监听画面。监听画面可以参见图5的说明。当会议终端接收到语音唤醒词后，如图6右侧所示，语音用户界面可以包括语音输入界面102。相比于图5右侧的语音用户界面，对于熟练用户而言，本示例的语音用户界面更加简单，没有冗余的提示信息，提升了熟练用户的会议感受。

可选的，本实施例提供的语音用户界面的显示方法，若会议状态指示用户已经加入会议，还可以包括：

获取用户在会议中的角色信息。

相应的，S402中，根据会议状态生成会议操作提示信息和语音输入界面，可以包括：

具体的，对于一个会议，从创建会议开始直至会议结束的整个过程中，会议状态可以有多种。不同的会议状态涉及的会议控制任务也可能不同。当用户已经加入会议，用户在会议中的角色也可以有多种。例如，会议***、非会议***。本实施例对于用户的会议中的角色划分不做限定。

因此，根据不同的会议状态，如果会议状态指示用户已经加入会议，根据会议状态和用户在会议中的角色信息，生成会议操作提示信息和语音输入界面，进一步提升了提示信息与用户的匹配度，提升了用户对于会议***的使用感受。

下面通过具体示例进行说明。

图7为本申请实施例二提供的帮助提示区的示意图。在图5所示示例的基础上，针对不同的会议状态、不同的角色信息对帮助提示区进行说明。

如图7中(a)所示，会议状态为：未入会。会议操作提示信息可以包括帮助提示区101中包括的信息。

如图7中(b)所示，会议状态为：已入会，多点会议，互动式语音应答(Interactive Voice Response，IVR)播报会议结束提醒之前。用户在会议中的角色信息为：会议***。会议操作提示信息可以包括帮助提示区中包括的信息。

将(a)场景与(b)场景进行比较，可见，当用户未入会时，涉及的会议控制任务可以包括“加入会议”，不会涉及“退出会议”。但是，如果用户已入会，将不会涉及“加入会议”，可能涉及“退出会议”。

如图7中(c)所示，会议状态为：已入会，多点会议，IVR播报会议结束提醒之后。用户在会议中的角色信息为：会议***。会议操作提示信息可以包括帮助提示区中包括的信息。

如图7中(d)所示，会议状态为：已入会，多点会议。用户在会议中的角色信息为：非会议***。会议操作提示信息可以包括帮助提示区中包括的信息。

如图7中(e)所示，会议状态为：已入会，点对点会议。由于是点对点会议，不涉及用户在会议中的角色信息。会议操作提示信息可以包括帮助提示区中包括的信息。

如图7中(f)所示，会议状态为：非语音发起的点对点呼叫，正在呼叫。会议操作提示信息可以包括帮助提示区中包括的信息。

可选的，S401中，根据会议状态和用户的身份信息确定用户的类型，可以包括：

根据用户的身份信息获取用户的历史会议记录，历史会议记录包括下列数据中的至少一项：不同会议控制任务的最近一次发生时间、任务累计使用次数和任务成功率。

根据会议状态和用户的历史会议记录确定用户的类型。

下面结合图8进行说明。

图8为本申请实施例二提供的历史会议记录的示意图。如图8所示，历史会议记录库中存储有用户的历史会议记录。针对一个具体的用户，例如，用户1。用户1的历史会议记录包括多个会议控制任务的数据。例如，任务1～任务n。针对用户1的每个任务，可以包括下列中的至少一项：最近一次发生时间、任务累计使用次数和任务成功率。其中，最近一次发生时间与当前时间越近、任务累计使用次数越多、任务成功率越高，说明用户对该会议控制任务越熟悉。反之，最近一次发生时间与当前时间越远、任务累计使用次数越少、任务成功率越低，说明用户对该会议控制任务越不熟悉。根据会议状态和用户的历史会议记录可以确定用户的类型。

需要说明的是，本实施例对于历史会议记录库中记录数据的方式不做限定。例如，可以采用表格的形式存储数据。

可选的，历史会议记录库可以周期性更新。

可选的，根据会议状态和用户的历史会议记录确定用户的类型，可以包括：

获取用户的历史会议记录中与会议状态关联的至少一种会议控制任务的数据。

根据至少一种会议控制任务的数据，确定用户的类型。

具体的，对于一个会议，从创建会议开始直至会议结束的整个过程中，会议状态可以有多种。不同的会议状态涉及的会议控制任务也可能不同。通过对与会议状态关联的至少一种会议控制任务的数据确定用户的类型，进一步提高了确定用户类型的准确性。

可选的，根据至少一种会议控制任务的数据，确定用户的类型，可以包括：

针对每种会议控制任务，若该会议控制任务的数据中包括最近一次发生时间、且最近一次发生时间与当前时间之间的时间间隔大于或等于第一预设阈值，和/或，若该会议控制任务的数据中包括任务累计使用次数、且任务累计使用次数小于或等于第二预设阈值，和/或，若该会议控制任务的数据中包括任务成功率、且任务成功率小于或等于第三预设阈值，则确定用户相对于该会议控制任务为生手用户。

具体的，在确定用户针对一个会议控制任务为生手用户的条件上，对于最近一次发生时间、任务累计使用次数和任务成功率，只要其中存在一种数据满足其对应的用户为生手用户的条件，就可以确定用户为生手用户。

例如，如果会议控制任务的数据中包括最近一次发生时间和任务成功率。在一种实现方式中，最近一次发生时间与当前时间之间的时间间隔大于或等于第一预设阈值。任务成功率大于第三预设阈值。由于最近一次发生时间满足其对应的用户为生手用户的条件，即使任务成功率不满足其对应的用户为生手用户的条件，也确定该用户为生手用户。

需要说明的是，本实施例对于第一预设阈值、第二预设阈值、第三预设阈值的具体取值不做限定。

需要说明的是，若确定用户为生手用户使用的数据种类为多种，对于判断各种数据是否满足对应的用户为生手用户条件的执行顺序不做限定。

针对每种会议控制任务，若该会议控制任务的数据中包括的最近一次发生时间、任务累计使用次数和任务成功率中的至少一种均满足各自对应的预设条件，则确定用户相对于该会议控制任务为熟练用户。其中，最近一次发生时间对应的预设条件为最近一次发生时间与当前时间之间的时间间隔小于第一预设阈值，任务累计使用次数对应的预设条件为任务累计使用次数大于第二预设阈值，任务成功率对应的预设条件为任务成功率大于第三预设阈值。

具体的，在确定用户针对一个会议控制任务为熟练用户的条件上，对于最近一次发生时间、任务累计使用次数和任务成功率，必须所有的数据均满足用户为生手用户的条件，才可以确定用户为熟练用户。

例如，如果会议控制任务的数据中包括最近一次发生时间和任务成功率，只有在最近一次发生时间与当前时间之间的时间间隔小于第一预设阈值，且，任务成功率大于第三预设阈值时，才可以确定用户针对该会议控制任务为熟练用户。

又例如，如果会议控制任务的数据中包括最近一次发生时间、任务累计使用次数和任务成功率，只有在最近一次发生时间与当前时间之间的时间间隔小于第一预设阈值，且，任务累计使用次数大于第二预设阈值，且，任务成功率大于第三预设阈值时，才可以确定用户针对该会议控制任务为熟练用户。

需要说明的是，若确定用户为熟练用户使用的数据种类为多种，对于判断各种数据是否满足对应的用户为熟练用户条件的执行顺序不做限定。

本实施例提供一种语音用户界面的显示方法，根据会议状态和用户的身份信息确定用户的类型。若用户的类型指示用户为生手用户，则根据会议状态生成会议操作提示信息和语音输入界面。若用户的类型指示用户为熟练用户，则生成语音输入界面。对于生手用户，通过会议操作提示信息，可以对生手用户起到很好的引导作用，提升了新手用户输入语音的效率和准确率，提升了完成会议控制任务的成功率。对于熟练用户，避免显示冗余的提示信息，节省了引导流程，提升了熟练用户完成会议控制任务的效率。满足了不同用户对于会议***的不同需求，提升了用户感受。

本申请实施例三还提供一种语音用户界面的显示方法。本实施例在图3所示实施例的基础上，提供了用户语音指令用于唤醒会议终端后执行会议控制任务的场景下，语音用户界面的显示方法的一种实现方式。

在本实施例中，用户语音指令用于唤醒会议终端后执行会议控制任务。若用户语音指令的运行结果包括多个候选对象。S304，根据用户的身份信息、会议终端当前的会议状态和用户语音指令，生成与用户匹配的用户界面信息，可以包括：

下面通过示例进行说明。

假设，用户1输入的语音为“小微，呼叫李军”。生成的用户语音指令用于唤醒会议终端后呼叫李军。但是公司中有多个李军。而且，由于用户输入的是语音，与“李军”语音相同的名字有很多，例如，李俊、李君，等等。此时，用户语音指令的运行结果包括多个候选对象。需要根据用户的身份信息对多个候选对象进行排序，生成与用户匹配的用户界面信息。从而提升显示的候选结果与用户的匹配度，提升了用户感受。

可选的，根据用户的身份信息对多个候选对象进行排序，生成与用户匹配的用户界面信息，可以包括：

获取各候选对象与用户的身份信息之间的相关度。

下面通过示例进行说明。

可选的，在一个示例中，图9为本申请实施例三提供的语音用户界面在一种场景下的示意图。如图9所示，用户1想要呼叫李军。用户1的部门为部门1。首先，将与“李军”名字相同的用户筛选出来，认为名字相同的相关度更高。将名字不同的用户排在后面。然后，对于多个“李军”，可以按照部门的相关度，将与用户1相同部门的“李军”排在前面。得到最终的排序。

可选的，在另一个示例中，图10为本申请实施例三提供的语音用户界面在另一种场景下的示意图。如图10所示，用户2想要呼叫李军。用户2的部门为部门3。首先，将与用户2部门相同的用户筛选出来，认为部门相同的相关度更高。将名字不同的用户排在后面。然后，对于部门3中的多个候选用户，将与“李军”名字相同的用户排在前面。得到最终的排序。

可选的，若用户语音指令的运行结果唯一，则直接显示用户界面信息。

下面通过示例进行说明。

可选的，图11为本申请实施例三提供的语音用户界面在又一种场景下的示意图。如图11所示，如果公司中只有一个“李军”，则直接拨打李军的电话，并显示呼叫“李军”的界面。

本实施例提供一种语音用户界面的显示方法，当用户语音指令用于唤醒会议终端后执行会议控制任务，若用户语音指令的运行结果包括多个候选对象，则根据用户的身份信息对多个候选对象进行排序，生成与用户匹配的用户界面信息。提升了显示的候选结果与用户的匹配度，提升了用户感受。

图12为本申请实施例提供的语音用户界面的显示装置的结构示意图。如图12所示，本实施例提供的语音用户界面的显示装置120可以包括：接收模块1201、第一获取模块1202、第二获取模块1203、生成模块1204和显示模块1205。

其中，接收模块1201，用于接收用户输入会议终端的语音信息时，采集所述用户的声音；所述语音信息包括语音唤醒词或以所述语音唤醒词开头的语音信息；

第一获取模块1202，用于根据所述用户的声音获取所述用户的身份信息；

第二获取模块1203，用于根据所述语音信息获取用户语音指令；

生成模块1204，用于根据所述用户的身份信息、会议终端的会议状态和所述用户语音指令，生成与所述用户匹配的用户界面信息；

显示模块1205，用于显示所述用户界面信息。

在一种可能的实现方式中，所述用户语音指令用于唤醒所述会议终端；所述生成模块1204，包括：

第一确定单元，用于根据所述会议状态和所述用户的身份信息确定所述用户的类型，所述用户的类型用于指示所述用户通过输入语音信息完成会议控制任务的熟悉程度；

第一生成单元，用于若所述用户的类型指示所述用户为生手用户，则根据所述会议状态生成会议操作提示信息和语音输入界面。

在一种可能的实现方式中，所述生成模块1204还包括：

第二生成单元，用于若所述用户的类型指示所述用户为熟练用户，则生成语音输入界面。

在一种可能的实现方式中，若所述会议状态指示所述用户已经加入会议，所述生成模块1204还包括：

第一获取单元，用于获取所述用户在所述会议中的角色信息；

所述第一生成单元具体用于：

根据所述会议状态和所述角色信息，生成所述会议操作提示信息和所述语音输入界面。

在一种可能的实现方式中，所述第一确定单元，包括：

第一获取子单元，用于根据所述用户的身份信息获取所述用户的历史会议记录，所述历史会议记录包括下列数据中的至少一项：不同会议控制任务的最近一次发生时间、任务累计使用次数和任务成功率；

确定子单元，用于根据所述会议状态和所述用户的历史会议记录确定所述用户的类型。

在一种可能的实现方式中，所述确定子单元具体用于：

获取所述用户的历史会议记录中与所述会议状态关联的至少一种会议控制任务的数据；

根据所述至少一种会议控制任务的数据，确定所述用户的类型。

在一种可能的实现方式中，所述确定子单元具体用于：

针对每种会议控制任务，若该会议控制任务的数据中包括最近一次发生时间、且最近一次发生时间与当前时间之间的时间间隔大于或等于第一预设阈值，和/或，若该会议控制任务的数据中包括任务累计使用次数、且任务累计使用次数小于或等于第二预设阈值，和/或，若该会议控制任务的数据中包括任务成功率、且任务成功率小于或等于第三预设阈值，则确定所述用户相对于该会议控制任务为生手用户；

针对每种会议控制任务，若该会议控制任务的数据中包括的最近一次发生时间、任务累计使用次数和任务成功率中的至少一种均满足各自对应的预设条件，则确定所述用户相对于该会议控制任务为熟练用户；其中，最近一次发生时间对应的预设条件为最近一次发生时间与当前时间之间的时间间隔小于所述第一预设阈值，任务累计使用次数对应的预设条件为任务累计使用次数大于所述第二预设阈值，任务成功率对应的预设条件为任务成功率大于所述第三预设阈值。

在一种可能的实现方式中，所述用户语音指令用于唤醒所述会议终端后执行会议控制任务，所述用户语音指令的运行结果包括多个候选对象；所述生成模块1204，包括：

第三生成单元，用于根据所述用户的身份信息对所述多个候选对象进行排序，生成与所述用户匹配的用户界面信息。

在一种可能的实现方式中，所述第三生成单元，包括：

第二获取子单元，用于获取各候选对象与所述用户的身份信息之间的相关度；

生成子单元，用于根据各所述相关度，对所述多个候选对象进行排序，生成与所述用户匹配的用户界面信息。

在一种可能的实现方式中，所述第二获取模块1203具体用于：

对所述语音信息进行语义理解，生成所述用户语音指令；

或者，

向服务器发送所述语音信息；

接收所述服务器发送的所述用户语音指令，所述用户语音指令为所述服务器对所述语音信息进行语义理解后生成的。

在一种可能的实现方式中，接收模块1201，还用于：

在接收用户输入会议终端的语音信息时，采集用户的头像；

第一获取模块1202，具体用于：根据用户的声音和头像获取用户的身份信息。

在一种可能的实现方式中，所述第一获取模块1202，包括：

第二确定单元，用于根据所述用户的声音确定所述用户相对于所述会议终端的位置；

采集单元，用于根据所述用户相对于所述会议终端的位置，采集所述用户的人脸信息；

第三确定单元，用于根据所述用户的人脸信息和人脸信息库，确定所述用户的身份信息。

在一种可能的实现方式中，所述第一获取模块1202，还包括：

第二获取单元，用于根据所述用户的声音获取所述用户的声纹信息；

第四确定单元，用于根据所述用户的声纹信息和声纹信息库，确定所述用户的身份信息。

本申请实施例提供的语音用户界面的显示装置，可以用于执行本申请上述语音用户界面的显示方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本申请实施例提供的会议终端的结构示意图。如图13所示，本实施例提供的会议终端130可以包括：处理器1301、存储器1302和显示器1303；

其中，所述存储器1302，用于存储程序指令；

所述显示器1303，用于根据所述处理器1301的控制显示用户界面信息；

所述处理器1301，用于调用并执行所述存储器1302中存储的程序指令，当所述处理器1301执行所述存储器1302存储的程序指令时，所述会议终端用于执行本申请上述语音用户界面的显示方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

可以理解的是，图13仅仅示出了会议终端的简化设计。在其他的实施方式中，会议终端还可以包含任意数量的收发器、处理器、存储器和/或通信单元等，本申请实施例中对此并不作限制。此外，会议终端中还可以包括麦克风、扬声器、按键等功能单元。

本申请实施例还提供一种芯片***，该芯片***包括处理器，还可以包括存储器，用于实现本申请上述语音用户界面的显示方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

本申请实施例还提供一种程序，该程序在被处理器执行时用于执行本申请上述语音用户界面的显示方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请上述语音用户界面的显示方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行本申请上述语音用户界面的显示方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例中涉及的处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例中涉及的存储器可以是非易失性存储器，比如硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述各实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

Claims

一种语音用户界面的显示方法，其特征在于，包括：

接收用户输入会议终端的语音信息时，采集所述用户的声音；所述语音信息包括语音唤醒词或以所述语音唤醒词开头的语音信息；

根据所述用户的声音获取所述用户的身份信息；

根据所述语音信息获取用户语音指令；

根据所述用户的身份信息、会议终端的会议状态和所述用户语音指令，生成与所述用户匹配的用户界面信息；

显示所述用户界面信息。
根据权利要求1所述的方法，其特征在于，所述用户语音指令用于唤醒所述会议终端；所述根据所述用户的身份信息、会议终端的会议状态和所述用户语音指令，生成与所述用户匹配的用户界面信息，包括：

根据所述会议状态和所述用户的身份信息确定所述用户的类型，所述用户的类型用于指示所述用户通过输入语音信息完成会议控制任务的熟悉程度；

若所述用户的类型指示所述用户为生手用户，则根据所述会议状态生成会议操作提示信息和语音输入界面。
根据权利要求2所述的方法，其特征在于，还包括：

若所述用户的类型指示所述用户为熟练用户，则生成语音输入界面。
根据权利要求2所述的方法，其特征在于，若所述会议状态指示所述用户已经加入会议，还包括：

获取所述用户在所述会议中的角色信息；

所述根据所述会议状态生成会议操作提示信息和语音输入界面，包括：

根据所述会议状态和所述角色信息，生成所述会议操作提示信息和所述语音输入界面。
根据权利要求2-4任一项所述的方法，其特征在于，所述根据所述会议状态和所述用户的身份信息确定所述用户的类型，包括：

根据所述用户的身份信息获取所述用户的历史会议记录，所述历史会议记录包括下列数据中的至少一项：不同会议控制任务的最近一次发生时间、任务累计使用次数和任务成功率；

根据所述会议状态和所述用户的历史会议记录确定所述用户的类型。
根据权利要求5所述的方法，其特征在于，所述根据所述会议状态和所述用户的历史会议记录确定所述用户的类型，包括：

获取所述用户的历史会议记录中与所述会议状态关联的至少一种会议控制任务的数据；

根据所述至少一种会议控制任务的数据，确定所述用户的类型。
根据权利要求6所述的方法，其特征在于，所述根据所述至少一种会议控制任务的数据，确定所述用户的类型，包括：

针对每种会议控制任务，若该会议控制任务的数据中包括最近一次发生时间、且最近一次发生时间与当前时间之间的时间间隔大于或等于第一预设阈值，和/或，若该会议控制任务的数据中包括任务累计使用次数、且任务累计使用次数小于或等于第二预设阈值，和/或，若该会议控制任务的数据中包括任务成功率、且任务成功率小于或等于第三预设阈值，则确定所述用户相对于该会议控制任务为生手用户；

针对每种会议控制任务，若该会议控制任务的数据中包括的最近一次发生时间、任务累计使用次数和任务成功率中的至少一种均满足各自对应的预设条件，则确定所述用户相对于该会议控制任务为熟练用户；其中，最近一次发生时间对应的预设条件为最近一次发生时间与当前时间之间的时间间隔小于所述第一预设阈值，任务累计使用次数对应的预设条件为任务累计使用次数大于所述第二预设阈值，任务成功率对应的预设条件为任务成功率大于所述第三预设阈值。
根据权利要求1所述的方法，其特征在于，所述用户语音指令用于唤醒所述会议终端后执行会议控制任务，所述用户语音指令的运行结果包括多个候选对象；所述根据所述用户的身份信息、会议终端当前的会议状态和所述用户语音指令，生成与所述用户匹配的用户界面信息，包括：

根据所述用户的身份信息对所述多个候选对象进行排序，生成与所述用户匹配的用户界面信息。
根据权利要求8所述的方法，其特征在于，所述根据所述用户的身份信息对所述多个候选对象进行排序，生成与所述用户匹配的用户界面信息，包括：

获取各候选对象与所述用户的身份信息之间的相关度；

根据各所述相关度，对所述多个候选对象进行排序，生成与所述用户匹配的用户界面信息。
根据权利要求1-9任一项所述的方法，其特征在于，所述根据所述语音信息获取用户语音指令，包括：

对所述语音信息进行语义理解，生成所述用户语音指令；

或者，

向服务器发送所述语音信息；

接收所述服务器发送的所述用户语音指令，所述用户语音指令为所述服务器对所述语音信息进行语义理解后生成的。
根据权利要求1-10任一项所述的方法，其特征在于，还包括：

在所述接收用户输入会议终端的语音信息时，采集所述用户的头像；

所述根据所述用户的声音获取所述用户的身份信息，包括：

根据所述用户的声音和头像获取所述用户的身份信息。
根据权利要求11所述的方法，其特征在于，所述根据所述用户的声音和头像获取所述用户的身份信息，包括：

根据所述用户的声音确定所述用户相对于所述会议终端的位置；

根据所述用户相对于所述会议终端的位置，采集所述用户的人脸信息；

根据所述用户的人脸信息和人脸信息库，确定所述用户的身份信息。
根据权利要求12所述的方法，其特征在于，所述根据所述用户的声音和头像获取所述用户的身份信息，还包括：

根据所述用户的声音获取所述用户的声纹信息；

根据所述用户的声纹信息和声纹信息库，确定所述用户的身份信息。
一种会议终端，其特征在于，包括：处理器、存储器和显示器；

其中，所述存储器，用于存储程序指令；

所述显示器，用于根据所述处理器的控制显示用户界面信息；

所述处理器，用于调用并执行所述存储器中存储的程序指令，当所述处理器执行所述存储器存储的程序指令时，所述会议终端用于执行如权利要求1至13中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至13中任一项所述的方法。