CN110111795A

CN110111795A - 一种语音处理方法及终端设备

Info

Publication number: CN110111795A
Application number: CN201910330337.1A
Authority: CN
Inventors: 周泽
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-09
Anticipated expiration: 2039-04-23
Also published as: CN110111795B

Abstract

本发明实施例提供了一种语音处理方法及终端设备，涉及通信技术领域，以解决常见的语音处理方式都是基于用户主动发起的，从而导致人与终端，或者终端与终端之间交流受限的问题。其中，所述语音处理方法，包括：采集终端设备所处目标场景中的N个发声对象的N个语音数据；基于所述语音数据，确定每个发声对象的发声意图信息；获取所述目标场景的场景关联信息；基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。本发明实施例中的语音处理方法应用于终端设备中。

Description

一种语音处理方法及终端设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种语音处理方法及终端设备。

背景技术

随着科技的发展，人们的生活越来越智能化。交流形式不再局限于人与人之间的口耳交流，而是逐渐发展为人与终端之间的交流方式、终端与终端之间的交流方式，等等。

例如，智能手机中的人工智能(Artificial Intelligence，简称AI)助理能够识别用户发出的语音，并对识别的语音进行相应的处理，从而输出相关内容，实现与用户之间的交流，从而帮助用户解决一些问题。

目前，常见的语音处理方式都是基于用户主动发起的，从而导致人与终端，或者终端与终端之间交流受限。

发明内容

本发明实施例提供一种语音处理方法，以解决常见的语音处理方式都是基于用户主动发起的，从而导致人与终端，或者终端与终端之间交流受限的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音处理方法，应用于终端设备，包括：采集所述终端设备所处目标场景中的N个发声对象的N个语音数据；基于所述语音数据，确定每个发声对象的发声意图信息；获取所述目标场景的场景关联信息；基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

第二方面，本发明实施例还提供了一种终端设备，包括：语音数据采集模块，用于采集所述终端设备所处目标场景中的N个发声对象的N个语音数据；发声意图确定模块，用于基于所述语音数据，确定每个发声对象的发声意图信息；关联信息获取模块，用于获取所述目标场景的场景关联信息；帮助信息输出模块，用于基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

优选地，所述发声意图确定模块包括：意图类型确定单元，用于基于所述语音数据，确定每个发声对象的发声意图类型；意图信息确定单元，用于基于所述发声意图类型，确定每个发声对象的发声意图信息；其中，所述发声意图类型包括以下至少一项：生活服务类型、影视类型、百科类型、文学类型。

优选地，所述发声意图确定模块包括：分析单元，用于对所述语音数据进行特征分析，得到每个发声对象的发声意图信息；其中，所述特征分析包括以下至少一项：语义分析、情感分析、类别分析、场景分析、声源分析、匹配分析、逻辑分析。

优选地，所述关联信息获取模块包括：环境特征信息获取单元，用于基于所述语音数据，获取所述目标场景的环境特征信息；其中，所述环境特征信息包括以下至少一项：环境属性信息、场景类型信息；人物特征信息获取单元，用于采集每个发声对象的图像信息，并基于每个发声对象的图像信息获取每个发声对象的人物特征信息；其中，所述人物特征信息包括以下至少一项：基本信息、属性信息、兴趣偏好信息、交流习惯信息、生理特征信息、行为习惯信息、知识储备信息；其中，所述目标场景的场景关联信息包括所述目标场景的环境特征信息和每个发声对象的人物特征信息。

优选地，所述帮助信息输出模块包括：匹配单元，用于基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，分别匹配公共网络信息和本地存储信息；处理单元，用于基于预存的知识图谱，对所述公共网络信息和所述本地存储信息进行数据处理；输出单元，用于基于数据处理后的所述公共网络信息和所述本地存储信息，输出与目标发声对象关联的目标帮助信息；其中，基于预存的知识图谱进行的数据处理包括以下至少一项：自学习处理、自升级处理、智能预测处理、筛选处理。

优选地，所述帮助信息输出模块包括以下至少一项：播放单元，用于通过播放语音的方式，输出与目标发声对象关联的目标帮助信息；显示单元，用于通过显示画面的方式，输出与目标发声对象关联的目标帮助信息；其中，所述目标帮助信息包括图像信息和文字信息中的至少一项。

优选地，所述帮助信息输出模块包括以下至少一项：终端输出单元，用于通过终端，输出与目标发声对象关联的目标帮助信息；非终端输出单元，用于通过空气传播，输出与目标发声对象关联的目标帮助信息。

第三方面，本发明实施例还提供了一种终端设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述语音处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述语音处理方法的步骤。

在本发明实施例中，终端设备可在所处的目标场景进行全场景的语音数据自动收录采集，从而可采集到目标场景中的N个发声对象的N个语音数据，进一步对采集到的所有语音数据进行智能分析处理，进而基于语音数据，可确定每个发声对象的发声意图信息。与此同时，终端设备可获取目标场景的场景关联信息，例如，目标场景中的一些特征信息、发声对象的一些人物信息等，从而结合每个发声对象的发声意图信息，可判断出其中的某些发声对象的发声意图信息指示为：需求与终端设备之间进行交流，以获取终端设备的帮助，进而终端设备基于指定的目标发声对象的发声意图信息，结合目标场景的场景关联信息、以及目标场景中其他发声对象的发声意图信息，向目标发声对象输出与目标发声对象关联的目标帮助信息。可见，基于本实施例中的语音处理方法，用户无需针对地主动向终端设备发起交流，终端设备可自动收录、分析场景中的各个语音数据，从而由终端设备主动进行语音处理，并向用户发起交流，进而使得人与终端之间的交流畅通无阻，不再受到用户主动触发形式的局限；进一步地，本实施例扩展至终端与终端之间，双方终端分别主动进行语音处理，并向对方发起交流，也不再局限于终端用户主动触发形式的局限。除此之外，本实施例的语音处理方法所应用的终端设备的形式、数量，以及所应用的场景等均无限制，使得终端与终端、终端与人之间的交流随时发生，应用更多广泛。

附图说明

图1是本发明实施例的语音处理方法的流程图之一；

图2是本发明实施例的语音处理方法的流程图之二；

图3是本发明实施例的语音处理方法的流程图之三；

图4是本发明实施例的语音处理方法的流程图之四；

图5是本发明实施例的语音处理方法的流程图之五；

图6是本发明实施例的语音处理方法的流程图之六；

图7是本发明实施例的语音处理方法的流程图之七；

图8是本发明实施例的语音处理方法的输出信息的示意图；

图9是本发明实施例的终端设备的框图之一；

图10是本发明实施例的终端设备的框图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，示出了本发明一个实施例的语音处理方法的流程图，应用于终端设备，包括：

步骤110：采集终端设备所处目标场景中的N个发声对象的N个语音数据。

在该步骤中，可预设终端设备的逻辑助理，逻辑助理优选为终端设备自带的功能程序，类似于AI助理。优选地，预设方式包括用户手动设置和出厂自动设置。基于对终端设备的逻辑助理的预设，使终端设备具有采集终端设备所处目标场景中的N个发声对象的N个语音数据的功能。

优选地，目标场景为任一场景，例如，辩论会场景等。终端设备在目标场景中，24小时自动采集目标场景中的语音数据，以达到自动收录环境中的声音的目的。

在本实施例中，一方面，解除了交流中的终端限制。本实施例的终端设备不再局限于与语音关联性较强的终端类型，而是将与语音关联性较弱的终端设备也参与进来，使更多的终端设备能够进行语音的采集、处理、输出等，以使更多的终端设备具有主动交流能力。示例性地，本实施例中的终端设备包括手机、电视、耳机、音箱、电饭锅、冰箱、马桶等任何设备。

另一方面，本实施例解除交流中的场景限制。在上述硬件拓展的基础上，相应扩展了目标场景的类型，丰富交流应用场景，避免交流应用场景割裂、机械的现象。示例性地，本实施例中的目标场景为辩论会场景，终端设备可在辩论会中实时采集各个发声对象发出的语音数据，包括正方发言内容、反方发言内容等。

因此，本实施例至少在终端和场景中，解除了对交流限制，从而提高终端设备语音处理功能的使用率。

其中，步骤110中的“N”为正整数，至少包括一个发声对象。优选地，为了全面激活终端设备的语音处理功能，提高终端设备主动发起交流的概率，“N”优选表示目标场景中的所有发声对象的数量。

进一步地，在“N个发声对象的N个语音数据”中，两处“N”所表示的数值对应，即将一个发声对象发出的所有语音数据看作是一个语音数据；或者，两处“N”所表示的数值不对应，即将一个发声对象发出的语音数据可看作是多个语音数据。

步骤120：基于语音数据，确定每个发声对象的发声意图信息。

因步骤110采集的语音数据繁多、杂乱，因此在该步骤中，需要对采集的语音数据进行智能化地全方位分析处理，以达到整理、归类、深入研究等目的。

例如，基于采集到的语音数据，判断语音数据对应发声对象的一些情况，从而判断所采集的语音数据可能是哪种人物角色发出的、出于什么目的发出的，等等。

又如，基于采集到的语音数据，提取语音数据中的关键信息，关键信息不限于关键字、关键话术等，从而对采集到的语音数据进行语义分析。

示例性地，本实施例中的目标场景为辩论会场景，对采集到的语音数据进行语义、情感、逻辑等分析处理，从而基于分析结果至少可得到辩题信息、双方辩题态度等，再进一步对双方辩题态度进行收集、梳理，便于提取一辩选手的基本态度立场和论点支撑。具体地，对采集到的语音数据进行分析处理，得到辩题为“路上遇见摔倒老人该不该帮忙”、正方观点支持帮忙、反方反对帮忙。

进一步地，对采集的语音数据进行分析处理，包括对语音数据对应的发声对象的发声意图解析处理，以获取不同发声对象的发声意图，确定每个发声对象的发声意图信息。

示例性地，本实施例中的目标场景为辩论会场景，基于对语音数据的分析，一方面得到反方辩论思路是：不能直接帮助，因为出于自身保护，防止被碰瓷，应该通过拨打报警电话进行求助即可，并且从道德上并没有规定一定要自己帮助。进一步分析反方辩论思路，对反方辩论思路进行信息分类和来源等分析处理，可得到：反方结合社会热点资讯，给出反方辩论思路偏向于强化自我保护。而另一方面基于分析得到：正方针对反方提出的自我保护方面没办法突破，处于焦灼状态，因此可以判断出正方发声意图信息指示为：需要合理的证据突破反方辩论思路。

步骤130：获取目标场景的场景关联信息。

示例性地，从环境方面出发，场景关联信息包括如场景类型，如目标场景为家庭聚会、论文答辩、演讲等。

示例性地，从发声方面出发，场景关联信息包括如人物特征，如发声对象为老人、学生等。

在该步骤中，基于获取的目标场景的场景关联信息，可对当前的整体情况进行综合评估，以分别了解各个发声对象的实际情况，同时将多个发声对象之间的关系进行关联，便于结合当前的目标场景对每个发声对象的发声意图信息进行解析。

步骤140：基于每个发声对象的发声意图信息和目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

优选地，本实施例中的终端设备可针对性地服务于目标场景中的指定发声对象。例如，终端设备为个人所拥有的智能手机，从而智能手机可实时采集目标场景中多个发声对象的语音数据，并确定多个发声对象的发声意图信息，但仅针对智能手机的持有者输出帮助信息。

优选地，本实施例中的终端设备可全面性地服务于目标场景中的各个发声对象。例如，终端设备为公共场所内的设备，从而终端设备可实时采集目标场景中多个发声对象的语音数据，并确定多个发声对象的发声意图信息，基于各个发声对象的发声意图信息，在其中的某些发声对象的发声意图信息指示为寻求帮助时，向这些发声对象输出帮助信息。

因此，该步骤中的目标发声对象可特定，也可根据实际情况而定。

示例性地，本实施例中的目标场景为辩论会场景，终端设备可针对性地服务于正方，则仅在正方的发声意图信息指示为需要帮助的情况下，为正方提供帮助，因此该步骤中的目标发声对象就是正方。对应在步骤120中，可全面分析所有语音数据，以确定各个发声对象的发声意图信息，但分析的目的在于及时向正方输出与正方的发声意图信息相关的目标帮助信息。

示例性地，本实施例中的目标场景为辩论会场景，终端设备可全面服务于正方和反方，则在正方或者反方的发声意图信息指示为需要帮助的情况下，可为对应方提供帮助，因此该步骤中的目标发声对象可以是正方，也可以是反方。

可参考地，根据正方、反方的发言速度、发言内容等，来确定正方或者反方是否满足终端设备输出帮助信息的条件。

众所周知，人类的语言交流，从最初的拟音到语言的内容进化，从最初的人与人口耳交流，到人对物的语言转录与广传播，再到物对人的传递与简易人工智能方式进化。趋势上，语言交流的信息容量更大，逻辑更复杂，传递方式更多，传播速率更快。但参杂了物的辅助，虽然经历了转录到轻人工智能，但最终还是逻辑上有很大限制，而语音助理只是搜索引擎的另一种触发方式，缺乏人类思考的逻辑特性。

而引起上述现象的限制原因来源包括：应用面窄。目前只集中在如手机、电视等智能终端上面，脱离了终端就回归到原始人与人口耳交流的情景，应用终端受限，对应应用场景也受限。

而在本发明实施例中，语音处理方法应用于各种终端设备，从而解除现有技术中的终端限制；对应地，基于各种终端设备可应用于各种场景，从而解除现有技术中的场景限制。

进一步地，引起上述现象的限制原因来源还包括：交互不自然。一般依靠用户主动触发，输入搜索源。用户体验感偏向与机器的交流感，且触发时机不自然，导致丢失很多有价值信息。

而在本发明实施例中，语音处理方法不再局限于用户主动触发的形式，终端设备对于语音环境进行24小时的语音数据采集收录，并进行语音处理，在必要时主动发起交流，使用户体验到与人之间的交流感，交互更加自然、全面，避免用户尴尬，使得用户与终端设备之间交流的机会提高，从而提高用户对终端设备的使用率。同时基于终端设备全面的智能分析处理，可获取更多的有价值信息，以提供给用户更多的辅助。

在图1所示实施例的基础上，图2示出了本发明另一个实施例的语音处理方法的流程图，步骤120包括：

步骤1201：基于语音数据，确定每个发声对象的发声意图类型。

在不同的场景中，场景内发声对象的发声意图类型相差较大，因此为了深入发声对象的发声意图，可结合目标场景对发声意图进行归类处理，或者，可直接在步骤120的发声意图解析处理中，对意图进行归类处理。

步骤1202：基于发声意图类型，确定每个发声对象的发声意图信息。

其中，发声意图类型包括以下至少一项：生活服务类型、影视类型、百科类型、文学类型。

发声意图类型如生活服务、影视、百科、文学等，还可做进一步地细化。通常，目标场景中的N个发声对象的发声意图同属于一种发声意图类型。

在该步骤中，在大致明确了发声对象的发声意图所属的类型后，可围绕发声意图进行拓展，以获取发声对象的发声意图信息，发声意图信息用于指示出发声对象的发声意图。

例如，发声对象的发声意图信息指示为：发声对象需要终端设备提供交流辅助。

在本实施例中，在确定每个发声对象的发声意图信息之前，首先根据目标场景中采集的语音数据，对每个发声对象的发声意图进行归类，在确定该场景中的发声意图类型后，终端设备在确定每个发声对象的发声意图信息时，就会锁定在一个范围内记性分析处理，从而确定的发声意图信息的准确率较高，贴合实际，进而终端设备基于发声意图信息判断是否发起主动交流的准确率也较高，避免不必要的误交流到干扰用户；同时，终端设备基于发声意图信息输出的目标帮助信息的准确率也较高，更能满足目标发声对象的需求，使得人与物、物与物之间的交流更加畅通、自然。

在图1所示实施例的基础上，图3示出了本发明另一个实施例的语音处理方法的流程图，步骤120包括：

步骤1203：对语音数据进行特征分析，得到每个发声对象的发声意图信息。

其中，特征分析包括以下至少一项：语义分析、情感分析、类别分析、场景分析、声源分析、匹配分析、逻辑分析。

本发明针对现有的语音助手交流限制的问题，突破了信息收录的局限，基于实际场景需求，自然触发。而基于本实施例的目的在于，提供了多种语音数据的特征分析处理方式，以准确得到每个发声对象的发声意图信息，再基于每个发声对象的发声意图信息，开启终端设备的主动交流模式，从而实现终端与终端、终端与人之间的无限制交流。当然了，本实施例中仅是示例性地展示了一部分特征分析处理方式，而更多的特征分析处理方式以实现本发明目的为准，在此不作限定。

在图1所示实施例的基础上，图4示出了本发明另一个实施例的语音处理方法的流程图，步骤130包括：

步骤1301：基于语音数据，获取目标场景的环境特征信息；其中，环境特征信息包括以下至少一项：环境属性信息、场景类型信息。

优选地，步骤130中获取的目标场景的场景关联信息包括目标场景的环境特征信息和每个发声对象的人物特征信息。

因此，在本实施例的步骤1301中，基于语音数据，获取目标场景的环境属性信息，具体如当前语音环境在于情感交流、论述、述职报告等，对应场景类型信息如家庭聚会、辩论会、员工大会等，从而基于目标场景的环境特征信息，对特定环境确认后，有助于制定大致需要提供的帮助信息分类。

示例性地，获取目标场景的环境特征信息包括的关键内容如辩论、正反、反方、论据等，从而可以判断出目标场景为辩论会场景，在当前场景中，终端设备需要输出帮助信息的方向大致为：受助者辩论思路和论据，且需要基于攻辩者观点和论据寻找破绽，采取快速搜寻与适时提供帮助的策略。

步骤1302：采集每个发声对象的图像信息，并基于每个发声对象的图像信息获取每个发声对象的人物特征信息；其中，人物特征信息包括以下至少一项：基本信息、属性信息、兴趣偏好信息、交流习惯信息、生理特征信息、行为习惯信息、知识储备信息。

步骤1302可与步骤1301同步进行，也可参考步骤1301中的信息进行采集和获取。

在该步骤中，采集每个发声对象的图像信息，并根据发声对象的图像信息识别发声对象，以获取发声对象的基本信息、属性信息、兴趣偏好信息、交流习惯信息、生理特征信息、行为习惯信息、知识储备信息等多方面的人物特征信息，有助于制定大致需要提供的帮助信息分类。

表1

参见表1，示例性地，在辩论会场景中，采集正反方8名辩论者以及评委们的图像信息后，可获取到正反方8名辩论者以及评委们的人物特征信息，找出价值信息点。如，反辩1的兴趣偏好是看文史类的书籍，则避免用文史类论据进行攻击；反辩2的交流习惯是反应快速、语速快，容易产生逻辑错误，则可以计时攻辩时候，尽可能打破其陈述节奏，并导致其关注点分散而产生错误；反辩3的法律条规知识储备丰富，则避免从法律角度进行剖析，导致进入对方擅长点；评委A的家里有年长留守者，且行动不方便，新事物接受能力差，则可以引用和评委类似经历的模拟案例，唤起评委的认同感。

在该步骤中，结合发声对象的图像信息获取发声对象的基本信息、属性、兴趣偏好、知识储备、习惯交流方式、生理、物理特性(音调、音色、情绪、身体健康指数)等人物特征信息，进行真实语义识别与匹配，基于目标发声对象的实际需求，触发多形式的目标帮助信息输出。

在现有技术中，引起上述交流受限现象的原因来源还包括：交互方式只在拟音方面采用真人语音片段进行模拟组合，一定程度上降低了机器发音的生硬，但始终未做到语音、语调、语气甚至音色的补充，语音内容的理解与传达始终停留在字面意思。

而在本实施例中，在输出目标帮助信息之前，基于目标发声对象的人物特征信息准备目标帮助信息，从而输出的目标帮助信息结合了目标发声对象的人物特征信息中包含的语音、语调、语气甚至音色等补充，从而解除现有技术中的机器发音限制。

在本实施例中，至少从环境和人物这两方面获取目标场景的场景关联信息，以结合各个发声对象的发声意图信息，为目标发声对象着手准备目标帮助信息。在结合了发声对象的图像信息、目标场景的环境特征信息的基础上，终端设备全场景长时间段语音内容进行真实语义识别与匹配，可有效提高触发交流的判断依据质量，使得终端设备触发主动交流后输出的目标帮助信息具有定制化和人性化。从而在触发方式、终端设备、应用场景多方面解除交流限制的基础上，还进一步在交流内容方面解除限制。

在图1所示实施例的基础上，图5示出了本发明另一个实施例的语音处理方法的流程图，步骤140包括：

步骤1401：基于每个发声对象的发声意图信息和目标场景的场景关联信息，分别匹配公共网络信息和本地存储信息。

本步骤的主要目的在于：基于每个发声对象的发声意图信息和目标场景的场景关联信息，分别在公共网络和本地存储中准备大量相关素材，建立素材集合，从而终端设备可基于素材集合输出目标帮助信息。

在该步骤中，终端设备可以通过网络连接方式，从其它终端设备或者云端提取互联网中的相关内容，再进行筛选、提取，从而匹配到基于每个发声对象的发声意图信息和目标场景的场景关联信息相关的公共网络信息。

同时，终端设备还可以结合在采集到前环境中语境内容，再进行筛选、提取，从而匹配到基于每个发声对象的发声意图信息和目标场景的场景关联信息相关的本地存储信息。

步骤1402：基于预存的知识图谱，对公共网络信息和本地存储信息进行数据处理。

其中，基于预存的知识图谱进行的数据处理包括以下至少一项：自学习处理、自升级处理、智能预测处理、筛选处理。

在该步骤中，基于预存的知识图谱，结合发声对象的发声意图信息，获取发声对象的特点，并通过自学习、自升级、智能预测、筛选等方式对步骤1401匹配到的公共网络信息和本地存储信息进行数据处理，以形成针对发声对象的定制化素材集合。

示例性地，本实施例中的目标场景为辩论会场景，基于分析得到：反方对社会养老方面知识缺乏，同时整个交流过程一直强调从法律法规和自我保护的角度去否认需要帮助摔倒老人。进一步地，结合互联网和当前语境，以辅助正为出发点，经信息筛选、自学习、自升级、智能预测等优化处理，可以得到如下信息：避开法律和自我保护点，从社会案例养老和公德心为出发，强调冒一点可能不存在的风险，可弘扬社会正气、提升正气人民素质角度、强化善小而为之的重大意义，同时结合评委实际经历类似的案例，唤起评委的共鸣。因此，可将这些信息列为辅助正方的素材，定制化建立并完善素材集合，进一步地，再基于正方辩论者的语言和行为习惯等人物特征信息，输出帮助信息。

步骤1403：基于数据处理后的公共网络信息和本地存储信息，输出与目标发声对象关联的目标帮助信息。

在现有技术中，引起上述交流受限现象的限制原因来源还包括：

技术不成熟，目前的语言助理采集方式通过关键字或者话术模板进行槽位匹配，然后到有限的内容库中匹配，即便提升语义识别能力与意图拓展，但还只是停留在关键字和标准话术上面进行优化，对于非主动输入和其他通道的信息没有纳入考虑，导致输出的内容片面、命中率不高，判断依据不充足且返回内容价值不大。

模板固定，固定的输入与输出模板以及拟音式的交互，话术模板与服务内容都用模板化的形式识别和表现，受模板本身的限制，就带来了识别精度不够，输出内容不够多样化，海量的内容库，也只能通过有限表达方式输出，大大降低了内容的质量，导致语音助理显得很呆板，且信息呈现后很难有连贯自然的更多组合服务输出，出现场景断裂。即便增加信息服务库内容、采用真人语音片段录音组合、拓展终端的涉及面依然无法解决这种轻人工智能所带来的呆板、不实用的境况。

在本实施例中，突破了关键字、话术模板的限制，同时无特定输入、输出模板，突破了模板限制。在帮助信息的素材准备中，突破了现有互联网储备，而是进一步基于受助者的习惯接收方式、用语习惯、理解知识面等个性化的特征信息准备特定属性的帮助服务素材内容，更多的偏向于自定义、个人偏好的趋势，理解成本降低。同时，对准备的素材内容进行了升级、自学习、自升级、智能预测等处理，使素材更加具有逻辑性、原创性，避免低质量、无意义的素材出现，适合被帮助者的需求，利用价值更高，从而交互方式更加自然、有效。可见，本实施例从丰富素材集合的角度考虑，带来了本质的提升，从而解除了素材对交流的限制。

在图1所示实施例的基础上，图6示出了本发明另一个实施例的语音处理方法的流程图，步骤140包括以下至少一项：

步骤1404：通过播放语音的方式，输出与目标发声对象关联的目标帮助信息。

步骤1405：通过显示画面的方式，输出与目标发声对象关联的目标帮助信息。

本实施例示例性地提供了两种输出目标帮助信息的方式。一方面，在步骤1404中，可通过播放语音的方式输出，从而目标发声对象可基于听觉获得目标帮助信息；另一方面，在步骤1405中，可通过显示画面的方式输出，从而目标发声对象可基于视觉和听觉获得目标帮助信息。具体地，可根据目标发声对象的实际需求，或者目标场景中提供的输出条件等，来选择最优的输出形式，不同的形式可带来不同的体验，从而解除终端与终端、终端与人之间的交流体验单一的限制。

其中，目标帮助信息包括图像信息和文字信息中的至少一项。

进一步地，图像信息包括视频和图片。

优选地，在播放语音的输出方式中，更适用于文字信息和图像信息中的视频；而显示画面的输出方式中，均适用于图像信息和文字信息。

具体地，在播放语音的输出方式中，可借助于耳机、扬声器等终端来实现；在显示画面的输出方式中，可借助于投影仪、电视等终端来实现。

在图1所示实施例的基础上，图7示出了本发明另一个实施例的语音处理方法的流程图，步骤140包括以下至少一项：

步骤1406：通过终端，输出与目标发声对象关联的目标帮助信息。

步骤1407：通过空气传播，输出与目标发声对象关联的目标帮助信息。

优选地，发声意图信息还用于指示发声对象期望的帮助信息输出方式。

在本实施例中，可基于各个发声对象的发声意图信息，得到发声对象期望的帮助信息输出方式，进行定制化输出，从而针对目标发声对象的发声意图，决定不同的帮助信息输出形式，与目标发声对象进行交流。

在步骤1406中，可基于硬件辅助来实现目标帮助信息的输出。例如，在安静的图书馆里，可通过手机等终端向目标发声对象返回目标帮助信息。

在步骤1407中，提供了一种通过空气震动定向传音方式的输出形式。

参见图8，该示例的语音处理方法应用于发音器，从而发音器通过空气震动方式将帮助信息向受助者(目标发声对象)传递到受助者耳中，与受助者进行实时的配合，而受助者无需借助终端去接收帮助信息。

可见，本实施例中的交流方式不再局限于硬件辅助，触发与反馈都不依赖于硬件设备，帮助信息可直接通过基础发音器，进行空气震动与拟音，定向传递目标发声对象。

示例性地，本实施例中的目标场景为辩论会场景，利用全场空气震动，定向传播给目标发声对象，不打扰周边人。具体地，可基于采集目标发声对象的语音数据的途径，沿原路径返回帮助信息。

在本实施例中，在终端与终端、终端与人之间的交流触发时机不再简单被动的基础上，不单单依赖与智能终端的支持，更是能够通过多种输出形式，定向输出到受助者的合适接收通道里，从而进一步减少终端与终端、终端与人之间的交流限制。

在更多的实施例中，本发明的这种语言环境下逻辑助理还可以用在人格化的助理实例里。例如，为留守老人提供过世或者不在身边亲人特性的情感交流辅助，如模仿思念人的语气、音色、知识和经验，仿真模拟进行人工智能交流。

在其他交流场景，如知识问答，可以通过答题者的答题节奏和答题质量，推断是否需要帮助，并结合具体难题进行问题答案的搜集与整理，呈现给答题者，用符合答题者的思维方式和表达习惯做答案陈述或者重要内容辅助记忆。

图9示出了本发明另一个实施例的终端设备的框图，包括：

语音数据采集模块10，用于采集终端设备所处目标场景中的N个发声对象的N个语音数据；

发声意图确定模块20，用于基于语音数据，确定每个发声对象的发声意图信息；

关联信息获取模块30，用于获取目标场景的场景关联信息；

帮助信息输出模块40，用于基于每个发声对象的发声意图信息和目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

优选地，发声意图确定模块20包括：

意图类型确定单元，用于基于语音数据，确定每个发声对象的发声意图类型；

意图信息确定单元，用于基于发声意图类型，确定每个发声对象的发声意图信息；

优选地，发声意图确定模块20包括：

分析单元，用于对语音数据进行特征分析，得到每个发声对象的发声意图信息；

优选地，关联信息获取模块30包括：

环境特征信息获取单元，用于基于语音数据，获取目标场景的环境特征信息；其中，环境特征信息包括以下至少一项：环境属性信息、场景类型信息；

人物特征信息获取单元，用于采集每个发声对象的图像信息，并基于每个发声对象的图像信息获取每个发声对象的人物特征信息；其中，人物特征信息包括以下至少一项：基本信息、属性信息、兴趣偏好信息、交流习惯信息、生理特征信息、行为习惯信息、知识储备信息；

其中，目标场景的场景关联信息包括目标场景的环境特征信息和每个发声对象的人物特征信息。

优选地，帮助信息输出模块40包括：

匹配单元，用于基于每个发声对象的发声意图信息和目标场景的场景关联信息，分别匹配公共网络信息和本地存储信息；

处理单元，用于基于预存的知识图谱，对公共网络信息和本地存储信息进行数据处理；

输出单元，用于基于数据处理后的公共网络信息和本地存储信息，输出与目标发声对象关联的目标帮助信息；

优选地，帮助信息输出模块40包括以下至少一项：

播放单元，用于通过播放语音的方式，输出与目标发声对象关联的目标帮助信息；

显示单元，用于通过显示画面的方式，输出与目标发声对象关联的目标帮助信息；

优选地，帮助信息输出模块40包括以下至少一项：

终端输出单元，用于通过终端，输出与目标发声对象关联的目标帮助信息；

非终端输出单元，用于通过空气传播，输出与目标发声对象关联的目标帮助信息。

本发明实施例提供的终端设备能够实现图1至图8的方法实施例中终端设备实现的各个过程，为避免重复，这里不再赘述。

图10为实现本发明各个实施例的一种终端设备的硬件结构示意图，该终端设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器1010、以及电源111等部件。本领域技术人员可以理解，图10中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，传感器105，用于采集终端设备所处目标场景中的N个发声对象的N个语音数据；

处理器1010，用于基于语音数据，确定每个发声对象的发声意图信息；获取目标场景的场景关联信息；基于每个发声对象的发声意图信息和目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1010处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信***与网络和其他设备通信。

终端设备通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与终端设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

终端设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可基于环境光线的明暗来调节显示面板1061的亮度，接近传感器可在终端设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1010，接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010基于触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图10中，触控面板1071与显示面板1061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与终端设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备100内的一个或多个元件或者可以用于在终端设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储基于手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1010是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

终端设备100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理***与处理器1010逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，终端设备100包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种终端设备，包括处理器1010，存储器109，存储在存储器109上并可在所述处理器1010上运行的计算机程序，该计算机程序被处理器1010执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音处理方法，应用于终端设备，其特征在于，包括：

采集所述终端设备所处目标场景中的N个发声对象的N个语音数据；

基于所述语音数据，确定每个发声对象的发声意图信息；

获取所述目标场景的场景关联信息；

基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据，确定每个发声对象的发声意图信息，包括：

基于所述语音数据，确定每个发声对象的发声意图类型；

基于所述发声意图类型，确定每个发声对象的发声意图信息；

其中，所述发声意图类型包括以下至少一项：生活服务类型、影视类型、百科类型、文学类型。

3.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据，确定每个发声对象的发声意图信息，包括：

对所述语音数据进行特征分析，得到每个发声对象的发声意图信息；

其中，所述特征分析包括以下至少一项：语义分析、情感分析、类别分析、场景分析、声源分析、匹配分析、逻辑分析。

4.根据权利要求1所述的方法，其特征在于，所述获取所述目标场景的场景关联信息，包括：

基于所述语音数据，获取所述目标场景的环境特征信息；其中，所述环境特征信息包括以下至少一项：环境属性信息、场景类型信息；

采集每个发声对象的图像信息，并基于每个发声对象的图像信息获取每个发声对象的人物特征信息；其中，所述人物特征信息包括以下至少一项：基本信息、属性信息、兴趣偏好信息、交流习惯信息、生理特征信息、行为习惯信息、知识储备信息；

其中，所述目标场景的场景关联信息包括所述目标场景的环境特征信息和每个发声对象的人物特征信息。

5.根据权利要求1所述的方法，其特征在于，所述基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息，包括：

基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，分别匹配公共网络信息和本地存储信息；

基于预存的知识图谱，对所述公共网络信息和所述本地存储信息进行数据处理；

基于数据处理后的所述公共网络信息和所述本地存储信息，输出与目标发声对象关联的目标帮助信息；

6.根据权利要求1所述的方法，其特征在于，所述输出与目标发声对象关联的目标帮助信息，包括以下至少一项：

通过播放语音的方式，输出与目标发声对象关联的目标帮助信息；

通过显示画面的方式，输出与目标发声对象关联的目标帮助信息；

其中，所述目标帮助信息包括图像信息和文字信息中的至少一项。

7.根据权利要求1所述的方法，其特征在于，所述输出与目标发声对象关联的目标帮助信息，包括以下至少一项：

通过终端，输出与目标发声对象关联的目标帮助信息；

通过空气传播，输出与目标发声对象关联的目标帮助信息。

8.一种终端设备，其特征在于，包括：

语音数据采集模块，用于采集所述终端设备所处目标场景中的N个发声对象的N个语音数据；

发声意图确定模块，用于基于所述语音数据，确定每个发声对象的发声意图信息；

关联信息获取模块，用于获取所述目标场景的场景关联信息；

帮助信息输出模块，用于基于每个发声对象的发声意图信息和所述目标场景的场景关联信息，输出与目标发声对象关联的目标帮助信息。

9.一种终端设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音处理方法的步骤。