CN111556197B

CN111556197B - 语音助手的实现方法、装置及计算机存储介质

Info

Publication number: CN111556197B
Application number: CN202010337041.5A
Authority: CN
Inventors: 张浩波
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2022-06-03
Anticipated expiration: 2040-04-26
Also published as: CN111556197A

Abstract

本公开是关于一种语音助手的实现方法、装置及计算机存储介质，涉及终端设备的智能语音技术。本公开提供一种语音助手的实现方法，应用于终端设备中，包括：从终端设备正在进行的通话业务的音频流中，检测用于唤醒语音助手的音频信息；当检测到音频信息时，唤醒语音助手；检测到语音指令时，识别语音指令触发的操作任务的类型为语音播报结果类型时，根据操作任务的内容进行对应操作，并将操作结果以音频格式***通话业务的音频流中进行播报；识别出操作任务的类型为数据处理类型时，根据操作任务的内容进行对应的数据处理操作。本实施例技术方案丰富了语音助手的应用场景，提高了用户使用语音助手的体验感。

Description

语音助手的实现方法、装置及计算机存储介质

技术领域

本公开涉及终端设备的智能语音技术，尤其涉及一种语音助手的实现方法、装置及计算机存储介质。

背景技术

智能语音助手在手机、轿车和电视等设备中有很多的应用。相关技术中，智能语音助手一般利用语音识别ASR(Automatic Speech Recognition)、语音合成TTS(TextToSpeech)、自然语言处理NLP(Natural Language Processing)及声纹识别等技术，实现对使用者输入的语音形式信息进行意图识别及意图处理。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音助手的实现方法、装置及计算机存储介质。

根据本公开实施例的第一方面，提供一种语音助手的实现方法，应用于终端设备中，包括：

从终端设备正在进行的通话业务的音频流中，检测用于唤醒语音助手的音频信息；

当检测到所述音频信息时，唤醒语音助手；

所述语音助手检测到语音指令时，识别所述语音指令触发的操作任务的类型，所述操作任务的类型包括语音播报结果类型和数据处理类型；

所述操作任务的类型为语音播报结果类型时，根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中进行播报；

所述操作任务的类型为数据处理类型时，根据所述操作任务的内容进行对应的数据处理操作。

其中，在上述语音助手的实现方法中，所述识别所述语音指令触发的操作任务的类型，包括：

确定所述语音指令触发的操作任务属于预设的第一类任务时，识别所述语音指令触发的操作任务的类型为语音播报结果类型，所述第一类任务至少包括智能语音输出和/或会议主持；

确定所述语音指令触发的操作任务属于预设的第二类任务时，识别所述语音指令触发的操作任务的类型为数据处理类型，所述第二类任务至少包括多媒体信息传输、文本记录和通话录音中的任一种。

其中，在上述语音助手的实现方法，还包括：

唤醒所述语音助手后，检测所述终端设备正在进行的通话业务的类型，所述通话业务的类型包括一对一通话类型和一对多通话类型；

所述根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中进行播报，包括：

所述通话业务的类型为一对一通话类型或一对多通话类型时，若确定所述操作任务为智能语音输出时，提取所述操作任务的内容包含的关键词，确定所述关键词对应的智能语音输出信息，将所述智能语音输出信息转换为音频数据，并***所述通话业务的音频流中进行播报；

所述通话业务的类型为一对多通话类型时，若确定所述操作任务为会议主持，则根据所述操作任务的内容将预设的会议流程信息转换为音频数据，并***所述通话业务的音频流中进行播报。

其中，在上述语音助手的实现方法中，所述根据所述操作任务的内容进行对应的数据处理操作，包括：

确定所述操作任务为信息传输时，根据所述操作任务的内容与通话业务的对端进行数据传输；

确定所述操作任务为文本记录时，调用预设的具备有文本记录功能的应用，将所述操作任务的内容存储至预设位置中；

确定所述操作任务为通话录音时，调用预设的具备录音功能的应用，根据所述操作任务的内容对所述通话业务的音频流进行录音操作。

其中，在上述语音助手的实现方法，还包括：

预先存储智能语音输出与关键词的映射信息；

其中，将关键词存储为索引，将与所述关键词对应的智能语音输出信息存储为该索引对应的输出值。

根据本公开实施例的第二方面，提供一种语音助手的实现装置，所述装置包括：

第一检测模块，用于从终端设备正在进行的通话业务的音频流中，检测用于唤醒语音助手的音频信息；

唤醒模块，用于在检测到所述音频信息时，唤醒语音助手；

识别模块，用于在所述语音助手检测到语音指令时，识别所述语音指令触发的操作任务的类型，所述操作任务的类型包括语音播报结果类型和数据处理类型；

第一处理模块，用于在所述操作任务的类型为语音播报结果类型时，根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中进行播报；

第二处理模块，用于在所述操作任务的类型为数据处理类型时，根据所述操作任务的内容进行对应的数据处理操作。

其中，上述语音助手的实现装置中，所述识别模块，包括：

第一类型识别子模块，用于在确定所述语音指令触发的操作任务属于预设的第一类任务时，识别所述语音指令触发的操作任务的类型为语音播报结果类型，所述第一类任务至少包括智能语音输出和/或会议主持；

第二类型识别子模块，用于在确定所述语音指令触发的操作任务属于预设的第二类任务时，识别所述语音指令触发的操作任务的类型为数据处理类型，所述第二类任务至少包括多媒体信息传输、文本记录和通话录音中的任一种。

其中，上述语音助手的实现装置，还包括：

第二检测模块，用于唤醒所述语音助手后，检测所述终端设备正在进行的通话业务的类型，所述通话业务的类型包括一对一通话类型和一对多通话类型；

所述第一处理模块，包括：

智能语音输出处理子模块，用于在所述通话业务的类型为一对一通话类型或一对多通话类型时，若确定所述操作任务为智能语音输出，则提取所述操作任务的内容包含的关键词，确定所述关键词对应的智能语音输出信息，将所述智能语音输出信息转换为音频数据，并***所述通话业务的音频流中进行播报；

会议主持处理子模块，用于在所述通话业务的类型为一对多通话类型时，若确定所述操作任务为会议主持，则根据所述操作任务的内容将预设的会议流程信息转换为音频数据，并***所述通话业务的音频流中进行播报。

其中，上述语音助手的实现装置中，所述第二处理模块，包括：

信息传输子模块，用于在确定所述操作任务为信息传输时，根据所述操作任务的内容与通话业务的对端进行数据传输；

文本存储子模块，用于在确定所述操作任务为文本记录时，调用预设的具备有文本记录功能的应用，将所述操作任务的内容存储至预设位置中；

录音子模块，用于在确定所述操作任务为通话录音时，调用预设的具备录音功能的应用，根据所述操作任务的内容对所述通话业务的音频流进行录音操作。

其中，上述语音助手的实现装置，还包括：

设置模块，用于预先存储智能语音输出与关键词的映射信息；

根据本公开实施例的第三方面，提供一种语音助手的实现装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

当检测到所述音频信息时，唤醒语音助手；

在所述语音助手检测到语音指令时，识别所述语音指令触发的操作任务的类型，所述操作任务的类型包括语音播报结果类型和数据处理类型；

所述操作任务的类型为语音播报结果类型时，根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中；

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行一种语音助手的实现方法，所述方法包括：

当检测到所述音频信息时，唤醒语音助手；

本公开的实施例提供的技术方案可以包括以下有益效果：

本实施例技术方案在通话过程中调用语音助手，并通过增加的用户语音触发的操作任务的类型，为用户提供语音播报结果类型和数据处理类型的服务。从而方便用户通过语音触发各种操作任务，丰富了语音助手的应用场景，提高了用户使用语音助手的体验感。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音助手的实现方法的流程图。

图2是根据一示例性实施例示出的一种语音助手的实现方法的流程图。

图3是根据一示例性实施例示出的一种语音助手的实现装置的框图。

图4是根据一示例性实施例示出的一种语音助手的实现装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音助手的实现方法的流程图。该方法可应用于终端设备中，包括如下操作：

步骤S101，从终端设备正在进行的通话业务的音频流中，检测用于唤醒语音助手的音频信息；

步骤S102，当检测到音频信息时，唤醒语音助手；

步骤S103，语音助手检测到语音指令时，识别语音指令触发的操作任务的类型，操作任务的类型包括语音播报结果类型和数据处理类型；

步骤S104，操作任务的类型为语音播报结果类型时，根据操作任务的内容进行对应操作，并将操作结果以音频格式***通话业务的音频流中进行播报；

步骤S105，操作任务的类型为数据处理类型时，根据操作任务的内容进行对应的数据处理操作。

上述步骤S101中，终端设备正在进行的通话业务，可以包括各种包含有音频数据的通话业务。例如，移动语音电话业务、移动可视电话业务。以及各种即时通讯应用中包含有音频数据的通话，如视频通话、语音通话、多人语音通话、多人视频通话等。通话业务的音频流为当前的通话业务中所包括的上下行音频流。

本文中，用于唤醒语音助手的音频信息可以包括多种形式。例如，可以是预设的唤醒词，用于唤醒语音助手。此时，上述步骤S101的操作，可以通过语音助手的唤醒词检测模块，从终端设备正在执行的通话业务的音频流中，检测预设的唤醒词，从而确定是否唤醒语音助手。

上述步骤S102中，语音助手检测的语音指令，可以是从终端设备正在执行的通话业务的上行音频流中检测到的，即此时语音助手检测到的语音指令的发起方是终端设备的使用者。也可以从终端设备正在执行的通话业务的下行音频流中检测到语音指令，即此时语音助手检测到的语音指令的发起方是与终端设备正在通话的对端的用户。语音指令触发的操作任务的类型可以指示，语音助手触发的操作任务的操作结果的反馈方式，从而决定语音助手的后续处理流程。例如，操作任务的类型为语音播报结果类型时，指示语音助手触发的操作任务的操作结果的可以通过语音播报的形式反馈，此时语音助手可以按照常规的处理的方式，即步骤S104的操作即可。又如，操作任务的类型为数据处理类型时，指示语音助手触发的操作任务的操作结果无需语音播报，此时语音助手需要涉及数据处理操作，即步骤S105的操作。

本实施例中，在步骤S105中，处理的数据的格式可以包括图片、文本和音频等格式。涉及的数据处理可以是对终端设备本地的数据处理，也可以是与远端进行的数据共享处理。例如，用户发起的语音指令触发的操作任务为，创建日志文本等，则可以根据语音指令在终端设备本地创建并存储日志文本。又如，用户发起的语音指令触发的操作任务为，与通话对端共享指定文本的操作，则可以通过终端设备与通话业务的对端之间的网络连接，将语音指令指定共享的文本与通话的对端进行共享传输。终端设备与通话业务的对端之间的网络连接可以是在通话业务之前已建立的，也可以是在语音助手检测到语音指令后，根据语音指令触发的操作任务实时建立的。又如，用户发起的语音指令触发的操作任务为，向远端的用户端或服务端传输数据时，可以向用户指定的远端传输用户指定的数据。

另外，在非通话的场景中也可以对操作任务的类型不进行区分。即唤醒语音助手时，可以在先检测是否正在进行通话业务，如果正在进行通话业务，则可以按照上述步骤S103至步骤S105进行操作即可。如果检测当前未进行通话业务，则无需识别语音指令触发的操作任务的类型，而直接根据识别出的操作任务以及操作任务的内容进行对应处理即可。

从上述实施例可以看出，本文技术方案可以在通话过程中调用语音助手，从而方便用户通过语音触发各种操作任务，丰富了语音助手的应用场景，提高了用户使用语音助手的体验感。并且，本文技术方案提供的语音助手增加了用户语音触发的操作任务的类型，从而可以根据操作任务的类型选择不同的处理方式进行操作，即可以将操作结果通过音频方式***通话音频中以向用户语音播报操作结果，或者进行对应的数据处理操作，而无需向用户语音播报操作结果。可见，本实施例在不影响正常通话业务的基础上，语音助手可以为用户提供语音播报结果类型和数据处理类型的服务，提高了用户体验。

本实施例还提供一种语音助手的实现方法，其中，识别语音指令触发的操作任务的类型，包括：

确定语音指令触发的操作任务属于预设的第一类任务时，识别语音指令触发的操作任务的类型为语音播报结果类型，第一类任务至少包括智能语音输出和/或会议主持；

确定语音指令触发的操作任务属于预设的第二类任务时，识别语音指令触发的操作任务的类型为数据处理类型，第二类任务至少包括信息传输、文本记录和通话录音中的任一种。

其中，可以利用语音助手中的NLP(Natural Language Processing，自然语言处理)功能识别语音指令触发的操作任务，从而确定该操作任务属于第一类任务还是第二类任务。

第一类任务用于划分需要语音播报结果的任务。即识别语音指令触发的操作任务属于第一类任务时，需要将该操作任务的操作结果转换为音频格式，从而以语音播报方式通知用户操作结果。例如，用户在通话过程中，可能有即时查询信息的需求，因此，可以将智能语音输出设置为第一类任务。这样，在通话过程中，用户唤醒语音助手后，语音助手检测到智能语音输出任务，可以为用户及时地语音播报用户所要查询的内容，节省用户的时间成本，且不影响用户的通话操作。又如，用户在多方通话过程中，可能有会议主持的需求，此时，用户需要通知参与通话的所有用户的会议流程，因此，可以将会议流程信息以语音播报的方式进行播报，从而通知参与多方通话的所有用户当前会议的进度等信息。简化多方通话中的用户操作，并及时提示通话进展，提高用户使用多方通话的体验。

第二类任务用于划分数据处理类任务，即这些任务无需语音播报结果。其与第一类任务为不同的操作任务。例如，信息传输、文本记录和通话录音等均是对数据的处理，这些数据处理操作的结果无需语音播报，这样将不会影响正在进行的通话业务。

本实施例中，第一类任务和第二类任务的定义可以是语音助手的操作***默认的，即语音助手的初始配置中，设置有第一类任务所包含的一种或多种操作任务，以及第二类任务所包含的的一种或多种操作任务。也可以根据用户需求，由用户自主设置第一类任务和第二类任务。可见，对于不同的终端设备，其语音助手所涉及的第一类任务和第二类任务的划分可能相同，也可能不相同。且对于同一终端设备，其语音助手所所涉及的第一类任务和第二类任务的划分可能会发生变化。这样，对于语音指令触发的操作任务而言，其对应的类型就会随着第一类任务和第二类任务的划分变化而变化。例如，通话双方需要完成一笔利用***支付的购物操作，即语音助手检测到语音指令为“告诉他我的银行***是什么”的操作任务时，语音助手需要第一类任务和第二类任务的划分来确定此操作任务的类型。即当前第一类任务中包含了此操作任务时，则会以语音播报方式在通话中告诉对端交易的银行卡信息。可以减少用户的触控操作，达到及时向对端告知银行卡信息的效果，提高沟通效率。若当前第二类任务中包含了此操作任务，则会在通话中，以文字或音频消息等非语音播报的方式向对端发送银行卡信息。这样可以提高用户信息安全，并减少用户的触控操作。

可见，本实施例，通过预先定义的第一类任务及第二类任务，将语音助手检测到的操作任务划分成不同的类型，从而根据不同的类型选择对应的处理方式，在通话过程中合理地增加语音助手功能，优化了智能语音操作的效果。

本实施例还提供一种语音助手的实现方法，该方法还包括：

唤醒语音助手后，检测终端设备正在进行的通话业务的类型，通话业务的类型包括一对一通话类型和一对多通话类型；

根据操作任务的内容进行对应操作，并将操作结果以音频格式***通话业务的音频流中进行播报，包括：

通话业务的类型为一对一通话类型或一对多通话类型时，若确定操作任务为智能语音输出时，提取操作任务的内容包含的关键词，确定关键词对应的智能语音输出信息，将智能语音输出信息转换为音频数据，并***通话业务的音频流中进行播报；

通话业务的类型为一对多通话类型时，若确定操作任务为会议主持，则根据操作任务的内容将预设的会议流程信息转换为音频数据，并***通话业务的音频流中进行播报。

其中，可以利用语音助手中的声纹识别功能识别出参与通话的用户数目，从而确定通话业务的类型。对于一对一通话而言，用户发起的第一类任务可以包括智能语音输出。而对于一对多通话，用户发起的第一类任务则可以包括智能语音输出和/或会议主持。

确定通话业务的类型为一对一通话类型或一对多通话类型时，可以利用语音助手中的NLP功能，识别出用户输入的语音指令触发智能语音输出任务。此时，可以从操作任务的内容中识别出关键词，查询该关键词对应的智能语音输出信息，将所查询到的智能语音输出信息转换为音频数据，并***通话业务的音频流中进行播报即可。可见，本实施例，利用不同的关键词可以触发不同的信息查询，在通话过程中，及时向用户通知所需的信息，提高用户个性化需求。

在确定通话业务的类型为一对多通话类型时，可以利用语音助手中的NLP功能，识别出用户输入的语音指令触发会议主持任务。此时，可以认为需要通知参与通话的所有用户的会议流程。因此，可以提取预先设定的会议流程信息，利用语音助手中的文本转音频功能将会议流程信息转换为音频格式的会议流程信息，***通话业务的音频流中，从而以语音播报的方式通知参与多方通话的所有用户当前会议的进度等信息。其中，会议流程信息中可以包括多个项目信息，此时，按照多个项目信息的先后排序，将多个项目信息依次转换为音频格式的项目信息，并依次***通话业务的音频流中进行播报。在依次播报项目信息时，可以通过预设的会议流程触发音频信息(例如语音“会议流程”)与语音指令“下一项”的组合，触发进入下一项目信息的语音播报操作，来完成主持会议的任务。可见，本实施例简化了多方通话中的用户操作，并及时提示通话进展，提高了用户使用多方通话的体验。

本实施例还提供一种语音助手的实现方法，其中，根据操作任务的内容进行对应的数据处理操作，包括：

确定操作任务为信息传输时，根据操作任务的内容与通话业务的对端进行数据传输；

确定操作任务为文本记录时，调用预设的具备有文本记录功能的应用，将操作任务的内容存储至预设位置中；

确定操作任务为通话录音时，调用预设的具备录音功能的应用，根据操作任务的内容对通话业务的音频流进行录音操作。

其中，操作任务为信息传输时，在通话各方都支持通话中网络传输功能，此时，可以通过终端设备与通话业务的对端之间的网络链接，根据操作任务的内容与通话业务的对端进行数据传输。在将数据传输给通话对端时，还可以由对端的多媒体功能应用进行展示。终端设备与通话业务的对端之间的网络链接可以是在通话业务之前已建立的，也可以是在语音助手检测到语音指令后，根据语音指令触发的操作任务实时建立的。其中，涉及的数据传输，可以是单向或双向传输，即可以是触发信息传输任务的用户向通话对端传输数据，可以是通话方之间进行数据交换。而当正在进行的通话业务的类型为一对多通话时，还可以根据语音助手检测到的语音指令中指示的传输对象，向通话中的一个或多个用户进行数据传输。这样，可以在通话场景下，实现通话用户之间的数据共享，降低通话方之间的沟通成本，提高沟通效率。

确定操作任务为文本记录时，可以调用预设的具备有文本记录功能的应用进行操作。例如，预设的具备有文本记录功能的应用可以是日历日程安排功能应用，此时，可以将时间和操作任务的内容(即记录内容)记录到日历日程中并存储。日历日程的存储位置即为预设位置。又如，预设的具备有文本记录功能的应用可以是备忘录，此时，可以将操作任务的内容(即存储内容)存储为备忘录的一条记录。该备忘录的存储位置即为预设位置。可见，本实施例可以通过语音指令触发文本记录操作，从而减少用户在通话过程中的触控操作，解放用户的双手，提高信息利用率。

确定操作任务为通话录音时，可以调用预设的具备录音功能的应用进行操作。例如，预设的具备录音功能的应用可以是移动终端自带的录音机应用。此时，识别操作任务的内容包括“开始通话录音”时，调用录音机应用开始进行通话录音操作。当识别操作任务的内容包括“结束通话录音”时，调用录音机应用结束通话录音操作，并将最近一次开开始通话录音操作时刻开始至结束通话录音操作时刻为止，所录制的通话录音数据存储为当前通话的一条通话录音记录。可见，本实施例在通话过程中，可以通过语音指令触发通话录音操作，减少用户在通话过程中的触控操作，并及时满足用户的通话录音需求，提高用户体验。

本实施例还提供一种语音助手的实现方法，该方法还包括：

预先存储智能语音输出与关键词的映射信息；

其中，将关键词存储为索引，将与关键词对应的智能语音输出信息存储为该索引对应的输出值。

本实施例中，智能语音输出与关键词的映射信息，可以是按照用户操作进行预先存储的。

将关键词存储为索引，将与关键词对应的智能语音输出信息存储为该索引对应的输出值的方式可以包括多种方式。例如，采用key-value(键值对)的结构存储智能语音输出与关键词的映射信息。假设，用户预先存储“第一地址与某某街道某某号楼”的映射关系。其中，“第一地址”为key，某某街道某某号楼为value。这样，在通话过程中，语音助手识别出语音指令触发的操作任务中包括有查询“第一地址”的内容时，即可将“第一地址”做为关键词(即value)，查询其对应的值，即“某某街道某某号楼”。之后，将“某某街道某某号楼”转换为音频数据，并***通话业务的音频流中进行播报。

可见，本实施例，可以根据用户需求，利用不同的关键词触发不同的信息查询，实现用户个性化的语音操作设置。

图2是根据一示例性实施例示出的一种语音助手的实现方法的流程图。该方法以Android操作***为例，说明终端设备在通话中调用语音助手的过程。该过程如图2所示，包括如下操作：

步骤S201，终端设备在执行通话业务的过程中，获取通话上下行音频流，从中实时检测语音助手的唤醒词。

该步骤中，可以利用语音助手应用功能的唤醒词检测模块检测唤醒词，即预设的用于唤醒语音助手的音频信息。

其中，终端设备正在进行的通话业务，可以包括各种类型的包含有通信音频的业务。例如移动语音通信业务、移动视频通话业务等。即时通讯应用中的各种包含有通信音频的业务，如微信视频通话、语音通话、多人电话会议等。

从通话上下行音频流中，检测唤醒词时，只要从通话上行或下行音频流中检测到唤醒词即可。

步骤S202，当检测到唤醒词时，唤醒语音助手，开始进行声纹识别，记录唤醒语音助手的用户及正在进行的通话业务的类型。

该步骤中，可以利用语音助手应用功能的声纹识别模块进行声纹识别。本文中，通过声纹识别可以确定输入唤醒词的用户，即可将该用户记录为操作任务的发起方。另外，通话业务的类型可以是一对一通话，也可以是一对多通话。此时，可以通过声纹识别，确定当前通话的参与人数，即确定通话业务的类型。根据通话业务的类型可以确定后续操作中，操作任务的类型。

步骤S203，实时检测语音指令，当检测到语音指令时，识别语音指令触发的操作任务的类型和内容，如果操作任务的类型为语音播报结果类型，进入步骤S204，如果操作任务的类型为数据处理类型，进入步骤S205。

上述步骤S203的操作，可以利用语音助手应用功能的各种功能模块来实施。例如，可以在检测到语音指令时，利用ASR(Automatic Speech Recognition自动语音识别)模块识别语音指令，将语音指令转换为文本格式。当VAD(Voice Activity Detection，语音活动检测)模块判断语音指令结束后，将文本格式的语音指令发送给NLP(NaturalLanguageProcessing，自然语言处理)模块，识别语音指令所触发的操作任务的类型和内容。

其中，识别语音指令触发的操作任务的类型时，可以根据预先设置第一类任务和第二类任务来区分。即识别出的操作任务属于预先设置的第一类任务时，即可确定此操作任务的类型为语音播报结果类型。识别出的操作任务属于预先设置的第二类任务时，即可确定此操作任务的类型为数据处理类型。

步骤S204，根据操作任务的内容生成对应音频格式的操作结果，将音频格式的操作结果***正在进行的通话业务的音频流中，返回步骤S201。

该步骤中，可以利用语音助手应用功能的TTS(ext To Speech，文本转语音)模块，生成音频格式的操作结果。

其中，在步骤S202中，记录了唤醒语音助手的用户，因此，可以根据用户需要将操作结果播入该用户对应的音频流中，避免发起方以外的用户获取到操作结果。例如，唤醒语音助手的用户为终端设备的使用者，则可以将音频格式的操作结果***通话业务的下行音频流中，这样，通话业务的对端将无法接听到语音播报的操作结果。当然，用户需要与通话业务的对端共享语音播报的的操作结果时，可以将音频格式的操作结果同时***通话业务的上下行音频流中，这样，通话的双方均可以接听到语音播报的操作结果。

步骤S205，根据操作任务的内容进行对应的数据处理，返回步骤S201。。

该步骤中，可以根据操作任务本身来确定数据处理的方式。例如，操作任务为信息传输时，可以先与共享方(例如通话业务的对端)建立网络链接，再将操作任务的内容作为共享对象，通过已建立的网络链接传输给共享方实现共享。其中，根据步骤S202中，记录了正在进行的通话业务的类型。因此，当通话业务的类型为一对多通话时，可以根据用户需求，与正在通话的某一个或多个对端进行信息传输。

又如，操作任务为文本记录时，可以调用预设的具备有文本记录功能的应用，将操作任务的内容存储至预设位置中。此时，根据用户需求，还可以以文本信息的方式提示用户文本记录已完成。

图3根据一示例性实施例示出的一种语音助手的实现装置的框图。如图3所示，该装置至少包括第一检测模块31、唤醒模块32、识别模块33、第一处理模块34和第二处理模块35。

第一检测模块31，被配置为，从终端设备正在进行的通话业务的音频流中，检测用于唤醒语音助手的音频信息；

唤醒模块32，被配置为，在检测到音频信息时，唤醒语音助手；

识别模块33，被配置为，在语音助手检测到语音指令时，识别语音指令触发的操作任务的类型，操作任务的类型包括语音播报结果类型和数据处理类型；

第一处理模块34，被配置为，在操作任务的类型为语音播报结果类型时，根据操作任务的内容进行对应操作，并将操作结果以音频格式***通话业务的音频流中进行播报；

第二处理模块35，被配置为，在操作任务的类型为数据处理类型时，根据操作任务的内容进行对应的数据处理操作。

本实施例还提供一种语音助手的实现装置，该装置中，识别模块，包括：

第一类型识别子模块，被配置为，在确定语音指令触发的操作任务属于预设的第一类任务时，识别语音指令触发的操作任务的类型为语音播报结果类型，第一类任务至少包括智能语音输出和/或会议主持；

第二类型识别子模块，被配置为，在确定语音指令触发的操作任务属于预设的第二类任务时，识别语音指令触发的操作任务的类型为数据处理类型，第二类任务至少包括多媒体信息传输、文本记录和通话录音中的任一种。

本实施例还提供一种语音助手的实现装置，该装置还包括：

第二检测模块，被配置为，唤醒语音助手后，检测终端设备正在进行的通话业务的类型，通话业务的类型包括一对一通话类型和一对多通话类型；

第一处理模块，包括：

智能语音输出处理子模块，被配置为，在通话业务的类型为一对一通话类型或一对多通话类型时，确定操作任务为智能语音输出，则提取操作任务的内容包含的关键词，确定关键词对应的智能语音输出信息，将智能语音输出信息转换为音频数据，并***通话业务的音频流中进行播报；

会议主持处理子模块，被配置为，在通话业务的类型为一对多通话类型时，若确定操作任务为会议主持，则根据操作任务的内容将预设的会议流程信息转换为音频数据，并***通话业务的音频流中进行播报。

本实施例还提供一种语音助手的实现装置，该装置中，第二处理模块，包括：

信息传输子模块，被配置为，在确定操作任务为信息传输时，根据操作任务的内容与通话业务的对端进行数据传输；

文本存储子模块，被配置为，在确定操作任务为文本记录时，调用预设的具备有文本记录功能的应用，将操作任务的内容存储至预设位置中；

录音子模块，被配置为，在确定操作任务为通话录音时，调用预设的具备录音功能的应用，根据操作任务的内容对通话业务的音频流进行录音操作。

本实施例还提供一种语音助手的实现装置，该装置还包括：

设置模块，被配置为，预先存储智能语音输出与关键词的映射信息；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种语音助手的实现方法装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***，一个或多个电源，及其他与为装置400生成、管理和分配电源相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音助手的实现方法，包括：

当检测到音频信息时，唤醒语音助手；

语音助手检测到语音指令时，识别语音指令触发的操作任务的类型，操作任务的类型包括语音播报结果类型和数据处理类型；

操作任务的类型为语音播报结果类型时，根据操作任务的内容进行对应操作，并将操作结果以音频格式***通话业务的音频流中播报；

操作任务的类型为数据处理类型时，根据操作任务的内容进行对应的数据处理操作。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音助手的实现方法，应用于终端设备中，其特征在于，包括：

当检测到所述音频信息时，唤醒语音助手；

唤醒所述语音助手后，通过声纹识别方式检测所述终端设备正在进行的通话业务的类型，所述通话业务的类型包括一对一通话类型和一对多通话类型；

所述语音助手检测到语音指令时，识别所述语音指令触发的操作任务的类型，所述操作任务的类型包括语音播报结果类型和数据处理类型；所述操作任务的类型指示操作任务的操作结果的反馈方式；

所述操作任务的类型为语音播报结果类型时，根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中进行播报；所述通话业务的音频流包括通话业务中的上行音频流和/或下行音频流；

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音指令触发的操作任务的类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述操作任务的内容进行对应的数据处理操作，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

预先存储智能语音输出与关键词的映射信息；

6.一种语音助手的实现装置，其特征在于，包括：

唤醒模块，用于在检测到所述音频信息时，唤醒语音助手；

第二检测模块，用于唤醒所述语音助手后，通过声纹识别方式检测所述终端设备正在进行的通话业务的类型，所述通话业务的类型包括一对一通话类型和一对多通话类型；

识别模块，用于在所述语音助手检测到语音指令时，识别所述语音指令触发的操作任务的类型，所述操作任务的类型包括语音播报结果类型和数据处理类型；所述操作任务的类型指示操作任务的操作结果的反馈方式；

第一处理模块，用于在所述操作任务的类型为语音播报结果类型时，根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中进行播报；所述通话业务的音频流包括通话业务中的上行音频流和/或下行音频流；

7.根据权利要求6所述的装置，其特征在于，所述识别模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述第一处理模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述第二处理模块，包括：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

11.一种语音助手的实现装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

当检测到所述音频信息时，唤醒语音助手；

在所述语音助手检测到语音指令时，识别所述语音指令触发的操作任务的类型，所述操作任务的类型包括语音播报结果类型和数据处理类型；所述操作任务的类型指示操作任务的操作结果的反馈方式；

所述操作任务的类型为语音播报结果类型时，根据所述操作任务的内容进行对应操作，并将操作结果以音频格式***所述通话业务的音频流中；所述通话业务的音频流包括通话业务中的上行音频流和/或下行音频流；

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行一种语音助手的实现方法，所述方法包括：

当检测到所述音频信息时，唤醒语音助手；