CN105718239A

CN105718239A - 一种语音输入的方法和装置

Info

Publication number: CN105718239A
Application number: CN201610054745.5A
Authority: CN
Inventors: 赵毅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-06-29
Anticipated expiration: 2036-01-27
Also published as: CN105718239B

Abstract

本发明提供了一种语音输入的方法和装置，其中方法包括：进入语音输入功能界面后，在所述语音输入功能界面上展现输入文本推荐列表；其中所述输入文本推荐列表是根据用户历史语音输入的识别结果生成的。本发明使得用户能够在进入语音输入功能界面后，直接从输入文本推荐列表中选择输入文本。若输入文本推荐列表中已经存在用户原本通过语音输入的内容，则不必重复进行语音输入，提高了输入效率；另外，也方便了一些非私密环境或不方便说话的环境中使用。

Description

一种语音输入的方法和装置

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种语音输入的方法和装置。

【背景技术】

随着智能设备的迅速发展，文本输入已经渐渐不能满足人们解放双手的诉求，语音输入和基于语音输入的语音搜索成为人与智能设备交互的重要方式之一。

目前，当用户需要进行语音输入时，需要先进入语音输入功能界面，如图1中所示，通过长按语音输入功能按键来记录语音内容，释放按键后对语音内容进行识别或进行进一步的搜索。然而，用户每次进行语音输入时，都需要说出来准确的语音内容，即便用户以往已经输入过相同的语音内容，甚至经常输入相同的语音内容，仍需要再次通过长按语音输入的功能按键并输入语音内容。一方面，这种输入方式效率较低，需要用户重复输入相同的语音内容；另一方面，也对语音输入功能的使用环境带来限制，例如在一些公共汽车、咖啡馆等非私密环境，或者在会议中、课堂上等不方便说话的环境，就无法进行有效地语音输入。

【发明内容】

有鉴于此，本发明提供了一种语音输入的方法和装置，以便于提高输入效率，并降低对语音输入功能的使用环境的限制。

具体技术方案如下：

本发明提供了一种语音输入的方法，该方法包括：

进入语音输入功能界面后，在所述语音输入功能界面上展现输入文本推荐列表；其中所述输入文本推荐列表是根据用户历史语音输入的识别结果生成的。

根据本发明一优选实施方式，该方法还包括：

根据用户历史语音输入的识别结果，生成输入文本推荐列表；或者，

从服务端获取根据用户历史语音输入的识别结果生成的输入文本推荐列表。

根据本发明一优选实施方式，根据用户历史语音输入的识别结果，生成输入文本推荐列表包括：

获取历史语音输入的识别结果记录；

依据所述用户在最近一段时间的历史语音输入的识别结果出现次数、所述用户在当前同一时段的历史语音输入的识别结果出现次数、所述用户在当前同一地点的历史语音输入的识别结果出现次数、所有用户在最近一段时间的历史语音输入的识别结果的热门程度、在当前同一地点所有用户的历史语音输入的识别结果的热门程度以及在当前同一时段所有用户的历史语音输入的识别结果的热门程度中的至少一个因素，对历史语音输入的识别结果进行排序；

选取排在前M个的历史语音输入的识别结果，构成所述输入文本推荐列表，其中M为预设的正整数。

根据本发明一优选实施方式，该方法还包括：

所述输入文本推荐列表中的其中一个输入文本处于选中状态。

根据本发明一优选实施方式，该方法还包括：

获取到用户切换输入文本的操作时，切换所述输入文本推荐列表中的另一个输入文本处于选中状态；

其中，在同一时间所述输入文本推荐列表中只能存在一个输入文本处于选中状态。

根据本发明一优选实施方式，所述获取到用户切换输入文本的操作时，切换所述输入文本推荐列表中的另一个输入文本处于选中状态包括：

获取到触发处于语音输入状态的用户操作且输入的语音质量未达到识别要求的时长达到预设时长，则按顺序或者随机切换所述输入文本推荐列表中的下一个输入文本处于选中状态；或者，

获取到用户点选所述输入文本推荐列表中处于未选中状态的输入文本，则切换用户点选的输入文本处于选中状态。

根据本发明一优选实施方式，该方法还包括：

当获取到触发输入文本输入的操作时，输入当前处于选中状态的输入文本。

根据本发明一优选实施方式，所述获取到触发输入文本输入的操作包括：

获取到结束处于语音输入状态的用户操作时输入的语音质量仍未达到识别要求。

根据本发明一优选实施方式，该方法还包括：

获取到触发处于语音输入状态的用户操作且输入的语音质量达到识别要求，则在获取到结束处于语音输入状态的用户操作时，对输入的语音进行识别并输入识别结果。

根据本发明一优选实施方式，触发处于语音输入状态的用户操作包括：按住所述语音输入功能界面上的语音输入功能按钮；

结束处于语音输入状态的用户操作包括：松开所述语音输入功能按钮。

本发明还提供了一种语音输入的装置，该装置包括：

推荐单元，用于进入语音输入功能界面后，在所述语音输入功能界面上展现输入文本推荐列表；

其中所述输入文本推荐列表是根据用户历史语音输入的识别结果生成的。

根据本发明一优选实施方式，该装置还包括：生成单元或获取单元；

所述生成单元，用于根据用户历史语音输入的识别结果，生成输入文本推荐列表；

所述获取单元，用于从服务端获取根据用户历史语音输入的识别结果生成的输入文本推荐列表。

根据本发明一优选实施方式，所述生成单元，具体用于：

获取历史语音输入的识别结果记录；

根据本发明一优选实施方式，该装置还包括：

选中单元，用于使所述输入文本推荐列表中的其中一个输入文本处于选中状态。

根据本发明一优选实施方式，所述选中单元，还用于获取到用户切换输入文本的操作时，切换所述输入文本推荐列表中的另一个输入文本处于选中状态；

根据本发明一优选实施方式，所述选中单元，具体用于：

根据本发明一优选实施方式，该装置还包括：

第一输入单元，用于当获取到触发输入文本输入的操作时，输入当前处于选中状态的输入文本。

根据本发明一优选实施方式，所述第一输入单元获取到结束处于语音输入状态的用户操作时输入的语音质量仍未达到识别要求，则确定获取到触发输入文本输入的操作。

根据本发明一优选实施方式，该装置还包括：

第二输入单元，用于获取到触发处于语音输入状态的用户操作且输入的语音质量达到识别要求，则在获取到结束处于语音输入状态的用户操作时，对输入的语音进行识别并输入识别结果。

由以上技术方案可以看出，本发明利用用户的历史语音输入的识别结果生成输入文本推荐列表，并在语音输入功能界面上展现，使得用户能够在进入语音输入功能界面后，直接从输入文本推荐列表中选择输入文本。若输入文本推荐列表中已经存在用户原本通过语音输入的内容，则不必重复进行语音输入，提高了输入效率；另外，也方便了一些非私密环境或不方便说话的环境中使用。

【附图说明】

图1为现有技术提供的语音输入功能界面的示意图；

图2为本发明实施例提供的一种方法流程图；

图3a为本发明实施例提供的一种语音输入功能界面的示意图；

图3b为本发明实施例提供的一种选中状态的示意图；

图3c为本发明实施例提供的一种切换处于选中状态的输入文本的示意图；

图3d为本发明实施例提供的一种语音输入的结果示意图；

图3e为本发明实施例提供的另一种语音输入的结果示意图；

图4为本发明实施例提供的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在本发明中，为了提高用户的语音输入效率以及适用于不方面进行语音输入的环境，进入语音输入功能界面后，在语音输入功能界面上展现输入文本推荐列表，其中该输入文本推荐列表是根据用户历史语音输入的识别结果生成的。以便用户能够选择输入文本推荐列表中的输入文本进行输入。

下面结合一个实施例对上述方法进行详细描述。图2为本发明实施例提供的一种方法流程图，如图2所示，该方法可以包括以下步骤：

在201中，根据用户历史语音输入的识别结果，生成输入文本推荐列表。

需要说明的是，本步骤可以是预先执行的步骤，也可以是进入语音输入功能界面后实时执行的步骤，在本实施例中以预先执行为例。

另外，本步骤可以存在但不限于两种实现方式：

第一种实现方式：由语音输入的客户端生成输入文本推荐列表。

在语音输入的客户端，可以执行以下处理：

首先，获取历史语音输入的识别结果记录。该记录可以是客户端进行的记录，也可以是服务端进行的记录，然后客户端向服务端获取。也可以是客户端记录该用户的历史语音输入的识别结果，服务端记录所有用户的是语音输入的识别结果。记录中除了包括用户ID和语音输入的识别结果信息之外，还可以包括诸如输入时间、输入地点等属性信息。

然后，依据一些因素对历史语音输入的识别结果进行排序。在排序时考虑的因素可以包括但不限于以下因素中的一种或任意组合：

因素1：该用户在最近一段时间的历史语音输入的识别结果出现次数。通过该因素，可以将用户在最近一段时间频繁输入的语音的识别结果推荐给用户。需要说明的是，在输入文本推荐列表中包含的是输入语音的识别结果，是文本的形式，这样能够直观地给用户查看。所述一段时间可以是一周、一个月、一年等等，可以根据需求灵活设置。例如用户在最近一周内频繁通过语音输入的方式输入“北京天气”来查看北京的天气状况，则可以将该“北京天气”放入输入文本推荐列表。

因素2：该用户在当前同一时段的历史语音输入的识别结果出现次数。通过该因素，能够将用户在同一时段频繁输入的语音的识别结果推荐给用户。例如，用户在每天早上8:00～9:00都会通过语音输入的方式输入“水木社区”来浏览论坛，当该用户在早上8:00～9:00的时段内打开语音输入功能界面时，就可以将“水木社区”放入输入文本推荐列表。

因素3：该用户在当前同一地点的历史语音输入的识别结果出现次数，其中用户当前所在的地点信息可以通过调用用户设备的定位API来获取。通过该因素，能够将用户在同一地点频繁输入的语音的识别结果推荐给用户。例如，用户到达某一高速收费站入口附近时，常常通过语音输入的方式输入“百度地图”来查看高速拥堵状况，那么当该用户到达该高速收费站入口附近并打开语音输入功能界面时，就可以将“百度地图”放入输入文本推荐列表。

因素4：所有用户在最近一段时间的历史语音输入的识别结果的热门程度。客户端能够从服务端获取所有用户在最近一段时间输入的比较热门的语音输入的识别结果，将其中的一个或多个识别结果放入输入文本推荐列表。例如最近一段时间内《芈月传》比较热门，很多用户通过语音输入的方式输入“芈月传”来查看视频，那么当用户打开语音输入功能界面时，就可以将“芈月传”放入输入文本推荐列表。

因素5：在当前同一地点所有用户的历史语音输入的识别结果的热门程度。客户端能够从服务端获取所有用户在同一地点输入的比较热门的语音输入的识别结果，将其中的一个或多个识别结果放入输入文本推荐列表。同样，用户当前所在的地点信息可以通过调用用户设备的定位API来获取。例如某一地点比较偏僻，通常用户在该地点进行语音输入时都会输入“**打车”来使用打车软件，那么当用户在该地点打开语音输入功能界面时，就可以将“**打车”放入输入文本推荐列表。

因素6：在当前同一时段所有用户的历史语音输入的识别结果的热门程度。客户端能够从服务端获取所有用户在同一时段输入的比较热门的识别结果，将其中的一个或多个识别结果放入输入文本推荐列表。例如很多用户在早上7:00～8:00之间进行语音输入时会输入“天气预报”来查看天气状况，那么当用户在该时间段内打开语音输入功能界面时，就可以将“天气预报”放入输入文本推荐列表。

当然，本发明并不限于上述6中因素，还可以采用其他因素来对历史语音输入的识别结果进行排序，在此不再一一穷举。另外，当采用多于一种因素进行排序时，可以采用加权的方式计算各历史语音输入的识别结果的分值，依据分值进行排序。

最后，将排在前M个的历史语音输入的识别结果构成输入文本推荐列表，M为预设的正整数。

第二种实现方式，由服务端生成输入文本推荐列表，然后下发给语音输入的客户端，供客户端在呈现语音输入功能界面时使用。这种实现方式所采用的方法和考虑的因素与第一种实现方式类似，不同之处在于，当考虑地点因素时，服务端需要从客户端获取用户的位置信息。

在202中，获取到进入语音输入功能界面的指令后，在语音输入功能界面上展现输入文本推荐列表。

例如图3a中所示，当用户进入到语音输入功能界面后，在语音输入功能界面上展现出几个推荐的输入文本：“天气预报”、“水木社区”、“**打车”、“PM2.5”。

用户可以从输入文本推荐列表中选择一个输入文本完成输入，用户可以通过长按某输入文本的方式选择输入文本。但为了更好地与现有的语音输入界面上的功能相适应，本发明提供了一种优选的选择方式，下面进行详述。

为了方便用户选择输入文本，可以在展现时默认使输入文本推荐列表中的其中一个输入文本处于选中状态。例如默认第一个输入文本处于选中状态。在指示选中状态时，可以采用多种突出显示方式，例如加粗字体、加大字体、加框等等。如图3b中所示，当用户进入语音输入功能界面时，默认第一个输入文本“天气预报”处于选中状态，指示选中状态的方式为加框。

但很多情况下，用户并不会选择默认处于选中状态的输入文本进行输入，因此会产生切换输入文本的需求。在203中，当获取到用户切换输入文本的操作时，切换输入文本推荐列表中的另一个输入文本处于选中状态，在同一时间输入文本推荐列表中只能存在一个输入文本处于选中状态。

其中用户切换输入文本的操作方式可以多种多样，在此列举以下两种：

第一种方式：获取到用户点选输入文本推荐列表中处于未选中状态的输入文本，则切换至用户点选的输入文本处于选中状态。这种方式比较容易理解。但为了更好地与现有语音输入功能界面相适应，优选第二种方式。

第二种方式：获取到触发处于语音输入状态的用户操作且输入的语音质量未达到识别要求的时长达到预设时长，则按顺序或者随机切换输入文本推荐列表中的下一个输入文本处于选中状态。例如用户按住语音输入功能按钮，这样就触发客户端处于语音输入状态，但收录的语音质量并未达到识别要求，例如语音强度不足或者语音清晰度不足等，说明用户并未输入语音，当这种状况达到一定的预设时长，例如1s，则切换下一个输入文本处于选中状态，如图3c中所示，切换“水木社区”处于选中状态。若用户持续按住语音输入功能按钮不放且输入的语音质量未达到识别要求的时长再次达到1s，即用户一共按住2s，那么继续切换下一个输入文本处于选中状态。

在204中，当获取到触发输入文本输入的操作时，输入当前处于选中状态的输入文本。其中触发输入文本输入的操作可以是结束处于语音输入状态的用户操作时输入的语音质量仍未达到识别要求。例如，用户按住语音输入功能按钮且输入的语音质量未达到识别要求，当用户松开语音输入功能按钮时就可以触发输入当前处于选中状态的输入文本。

根据客户端种类的不同，输入当前处于选中状态的输入文本后所触发的功能并不相同。例如，对于即时通信类客户端，该客户端可以包含语音输入功能，通过上述方式，若用户在图3c所示时机松开语音输入功能按钮，就转至图3d所示的界面，即“水木社区”作为一条输入消息。

再例如，对于搜索类客户端，该客户端可以包含语音输入功能，通过上述方式，若用户在图3c所示时机松开语音输入功能按钮，就转至图3e所示的界面，即“水木社区”作为query后得到的搜索结果。

以上是对本发明所提供方法进行的详细描述，下面结合实施例对本发明所提供的装置进行描述。

图4为本发明实施例提供的装置结构图，如图4所示，该装置可以包括：推荐单元01，还可以包括生成单元02或获取单元(图中未示出)；还可以进一步包括选中单元03、第一输入单元04和第二输入单元05。各组成单元的主要功能如下：

推荐单元01负责进入语音输入功能界面后，在语音输入功能界面上展现输入文本推荐列表；其中输入文本推荐列表是根据用户历史语音输入的识别结果生成的。

其中，输入文本推荐列表可以是该装置生成的，也可以是服务端生成后下发给该装置的。另外，输入文本推荐列表可以是预先生成的，也可以是在进入语音输入功能界面后实时生成的。

若输入文本推荐列表是装置生成的，那么该装置中的生成单元02根据用户历史语音输入的识别结果，生成输入文本推荐列表。

具体地，生成单元02可以获取历史语音输入的识别结果记录；依据用户在最近一段时间的历史语音输入的识别结果出现次数、用户在当前同一时段的历史语音输入的识别结果出现次数、用户在当前同一地点的历史语音输入的识别结果出现次数、所有用户在最近一段时间的历史语音输入的识别结果的热门程度、在当前同一地点所有用户的历史语音输入的识别结果的热门程度以及在当前同一时段所有用户的历史语音输入的识别结果的热门程度中的至少一个因素，对历史语音输入的识别结果进行排序；选取排在前M个的历史语音输入的识别结果，构成输入文本推荐列表，其中M为预设的正整数。

若输入文本推荐列表是服务端生成的，那么获取单元从服务端获取根据用户历史语音输入的识别结果生成的输入文本推荐列表。服务端生成输入文本推荐列表的方式与上述生成单元02生成输入文本推荐列表的方式类似，在此不再赘述。

为了方便用户选择输入文本，选中单元03可以使输入文本推荐列表中的其中一个输入文本处于选中状态。例如在进入语音输入功能界面时可以默认第一个输入文本处于选中状态。在指示选中状态时，可以采用多种突出显示方式，例如加粗字体、加大字体、加框等等。

但很多情况下，用户并不会选择默认处于选中状态的输入文本进行输入，因此会产生切换输入文本的需求。选中单元03获取到用户切换输入文本的操作时，可以切换输入文本推荐列表中的另一个输入文本处于选中状态；其中，在同一时间输入文本推荐列表中只能存在一个输入文本处于选中状态。

其中用户切换输入文本的操作方式可以多种多样，在此列举一下两种：

第一种方式：选中单元03获取到触发处于语音输入状态的用户操作且输入的语音质量未达到识别要求的时长达到预设时长，则按顺序或者随机切换输入文本推荐列表中的下一个输入文本处于选中状态。

第二种方式：选中单元03获取到用户点选输入文本推荐列表中处于未选中状态的输入文本，则切换用户点选的输入文本处于选中状态。

优选上述第一种方式。

当获取到触发输入文本输入的操作时，第一输入单元04，输入当前处于选中状态的输入文本。其中第一输入单元04获取到结束处于语音输入状态的用户操作时输入的语音质量仍未达到识别要求，则可以确定获取到触发输入文本输入的操作。

若获取到触发处于语音输入状态的用户操作且输入的语音质量达到识别要求，则第二输入单元05可以确认用户确实有语音输入需求，是在输入语音，因此在获取到结束处于语音输入状态的用户操作时，对输入的语音进行识别并输入识别结果。

上述的触发处于语音输入状态的用户操作可以包括：按住语音输入功能界面上的语音输入功能按钮；结束处于语音输入状态的用户操作可以包括：松开语音输入功能按钮。

本发明实施例提供的上述装置可以是位于用户终端的应用，或者还可以为位于用户终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit，SDK)等功能单元，本发明实施例对此不进行特别限定。

由以上描述可以看出，本发明提供的方法和装置可以具备以下优点：

1)本发明利用用户的历史语音输入的识别结果生成输入文本推荐列表，并在语音输入功能界面上展现，使得用户能够在进入语音输入功能界面后，直接从输入文本推荐列表中选择输入文本。若输入文本推荐列表中已经存在用户原本通过语音输入的内容，则不必重复进行语音输入，提高了输入效率；另外，也方便了一些非私密环境或不方便说话的环境中使用。

2)本发明中能够在语音模式下，根据用户的最近的语音输入记录、用户特定时段的语音输入记录、用户特定地点的语音输入记录、当前设备的一些热门语音输入等来生成输入文本推荐列表，尽可能地迎合用户的语音输入需求。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音输入的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

3.根据权利要求2所述的方法，其特征在于，根据用户历史语音输入的识别结果，生成输入文本推荐列表包括：

获取历史语音输入的识别结果记录；

4.根据权利要求1所述的方法，其特征在于，该方法还包括：

5.根据权利要求4所述的方法，其特征在于，该方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取到用户切换输入文本的操作时，切换所述输入文本推荐列表中的另一个输入文本处于选中状态包括：

7.根据权利要求4所述的方法，其特征在于，该方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述获取到触发输入文本输入的操作包括：

9.根据权利要求1所述的方法，其特征在于，该方法还包括：

10.根据权利要求6、8或9所述的方法，其特征在于，触发处于语音输入状态的用户操作包括：按住所述语音输入功能界面上的语音输入功能按钮；

11.一种语音输入的装置，其特征在于，该装置包括：

12.根据权利要求11所述的装置，其特征在于，该装置还包括：生成单元或获取单元；

13.根据权利要求12所述的装置，其特征在于，所述生成单元，具体用于：

获取历史语音输入的识别结果记录；

14.根据权利要求11所述的装置，其特征在于，该装置还包括：

15.根据权利要求14所述的装置，其特征在于，所述选中单元，还用于获取到用户切换输入文本的操作时，切换所述输入文本推荐列表中的另一个输入文本处于选中状态；

16.根据权利要求15所述的装置，其特征在于，所述选中单元，具体用于：

17.根据权利要求14所述的装置，其特征在于，该装置还包括：

18.根据权利要求17所述的装置，其特征在于，所述第一输入单元获取到结束处于语音输入状态的用户操作时输入的语音质量仍未达到识别要求，则确定获取到触发输入文本输入的操作。

19.根据权利要求11所述的装置，其特征在于，该装置还包括：

20.根据权利要求16、18或19所述的装置，其特征在于，触发处于语音输入状态的用户操作包括：按住所述语音输入功能界面上的语音输入功能按钮；