CN111696536B

CN111696536B - 语音处理方法、装置和介质

Info

Publication number: CN111696536B
Application number: CN202010507500.XA
Authority: CN
Inventors: 王颖; 李健涛; 张丹; 刘宝; 张硕; 杨天府; 梁宵; 荣河江; 李鹏翀
Original assignee: Beijing Sogou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Intelligent Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-10-27
Anticipated expiration: 2040-06-05
Also published as: CN111696536A

Abstract

本发明实施例提供了一种语音处理方法和装置、一种用于语音处理的装置，其中的方法应用于服务端，具体包括：接收模块，用于接收耳机装置采集的、对话的语音数据；所述对话的参与方包括：至少两个通话用户；确定模块，用于确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息、和/或、情绪信息得到；发送模块，用于在对话过程中、和/或、在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息。本发明实施例能够提升本次对话或后续对话的对话质量。

Description

语音处理方法、装置和介质

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音处理方法和装置、一种机器可读介质。

背景技术

作为最自然的交流沟通方式之一，语音被广泛应用于语音对话、语音社交、k歌(Karaok TV)、直播、游戏、视频录制等语音处理场景。

目前，通常直接将采集的语音用于语音处理场景。例如，向通信对端发送采集的语音；又如，在视频中携带采集的录音等。

在实际应用中，可能存在用户对采集的语音不满意的情形，此种情况下用户将存在美化语音的需求。例如，有些用户希望通过美化语音，实现打动听众、增强自信的目的。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置及用于语音处理的装置，本发明实施例可以提升本次对话或后续对话的对话质量。

为了解决上述问题，本发明公开了一种语音处理方法，包括：

接收耳机装置采集的、对话的语音数据；所述对话的参与方包括：至少两个通话用户；

确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息、和/或、情绪信息得到；

在对话过程中、和/或、在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息。

另一方面，本发明实施例公开了一种语音处理装置，包括：

接收模块，用于接收耳机装置采集的、对话的语音数据；所述对话的参与方包括：至少两个通话用户；

确定模块，用于确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息、和/或、情绪信息得到；

发送模块，用于在对话过程中、和/或、在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。

本发明实施例包括以下优点：

本发明实施例的服务端可以在对话过程中、和/或、在对话结束后，输出提示信息。由于上述提示信息可以为依据语音数据对应的语义信息、和/或、情绪信息得到，故上述提示信息可以提示用户在对话过程中出现的问题，使得用户在对话过程中及时改善问题，因此能够提升本次对话的对话质量；或者，可以使用户在对话结束后改善问题，以提升后续对话的对话质量。

并且，本发明实施例的提示信息可以提示对话的相关信息，如第二用户针对第一用户的评价信息、或第二用户的信任信息、或对话质量信息等，可以使用户了解对话的情况，以帮助用户决策对话相关的事务。

例如，在面试场景下，假设第一用户为求职者、第二用户为面试官，则面试官对求职者的评价信息，可以使求职者了解更多的面试信息，进而可以帮助求职者判断面试成功的概率。假设第一用户为面试官、第二用户为求职者，则求职者的信息信息，可以使面试官了解求职者的可信度，进而可以帮助面试官更好地对求职者进行评价。

又如，在采访场景下，对话质量信息可以帮助采访者了解采访质量和积累采访经验，以提升后续采访的采访质量。

再如，在演讲练习场景下，对话的相关信息可以帮助用户了解自身在演讲过程中的不足，如时段1语速过快、时段2卡壳等，进而提升后续演讲练习的质量。

附图说明

图1是本发明实施例的一种语音处理方法的流程的示意；

图2是本发明的一种语音处理方法实施例的步骤流程图；

图3是本发明的一种语音处理装置的结构框图；

图4是本发明的一种用于语音处理的装置1300的框图；及

图5是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例可以适用于对话场景。对话场景可以包括：基于通信的对话场景，如基于运营商的对话场景、或者基于网络的对话场景。或者，对话场景可以包括：现场的对话场景，如面对面的采访场景等。

根据对话涉及的领域的不同，对话场景可以包括：面试场景、采访场景、商务沟通场景、演讲练习场景等。

根据对话类型的不同，对话场景可以包括：语音对话场景、或者视频对话场景等，可以理解，本发明实施例对于具体的对话场景不加以限制。

本发明实施例提供了一种语音处理方案，该方案可由服务端执行，该方案具体包括：接收耳机装置采集的、对话的语音数据；所述对话的参与方具体包括：至少两个通话用户；确定所述语音数据对应的提示信息；所述提示信息可以为依据所述语音数据对应的语义信息、和/或、情绪信息得到；在对话过程中、和/或、在对话结束后，向耳机装置发送上述提示信息，以使耳机装置输出所述提示信息。

本发明实施例的服务端可以接收对话的语音数据。上述语音数据可以包括：至少一个参与方的语音数据。

本发明的一种实施例中，参与方可以包括：第一用户和第二用户。第一用户可以指佩戴耳机装置的本端用户。第二用户可以指对端用户，第二用户可以佩戴或不佩戴耳机装置。

当然，除了第一用户和第二用户之外，参与方还可以包括：第三用户和第四用户等。

本发明实施例的服务端可以在对话过程中、和/或、在对话结束后，输出提示信息。由于上述提示信息为依据语音数据对应的语义信息、和/或、情绪信息得到，上述提示信息可以提示用户在对话过程中出现的问题，使得用户在对话过程中及时改善问题，因此能够提升本次对话的对话质量；或者，可以使用户在对话结束后改善问题，以提升后续对话的对话质量。

本发明实施例的提示信息可以提示对话的相关信息，如第二用户针对第一用户的评价信息、或第二用户的信任信息、或对话质量信息等，可以使用户了解对话的情况，以帮助用户决策对话相关的事务。

本申请实施例的提示信息可以针对通话中的任意参与方。例如，第一用户的耳机装置，可以获得针对第一用户的提示信息，并提供给第一用户。或者，第一用户的耳机装置，可以获得针对第二用户的提示信息，并提示给第二用户。

本发明实施例的耳机装置可以为头戴式耳机，如蓝牙耳机、运动耳机、真无线立体(TWS，True Wireless Stereo)耳机等，也可以称为人工智能(AI， ArtificialIntelligence)耳机。

可选地，耳机装置可以包括多个麦克风阵元、处理器和扬声器。

多个麦克风阵元可以拾取预设角度范围内的语音数据。处理器用于确定语音数据对应提示信息。

根据一种实施例，耳机装置的处理器可以对语音数据进行处理，以得到提示信息。

根据另一种实施例，受到耳机装置的体积的限制，可以将对语音数据进行处理的任务交由外界设备，以减小耳机装置的体积。相应地，耳机装置的处理器可以与外界设备进行数据交互，以得到外界设备处理得到的提示信息。扬声器用于播放声音，如对提示信息进行播放。

外界设备可以包括：终端、和/或、耳机收纳装置。当然，外界设备可以包括：服务端。

可选地，上述终端可以包括：智能手机、平板电脑、电子书阅读器、 MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音箱等等。可以理解，本发明实施例对于具体的终端不加以限制。

耳机收纳装置可用于收纳耳机装置。可选地，耳机收纳装置还用于向耳机装置提供电量。本发明实施例的耳机收纳装置还可用于从耳机装置接收语音数据，对语音数据进行处理，以得到提示信息。

在实际应用中，耳机收纳装置可以为耳机收纳盒。耳机装置与耳机收纳装置可以单独出售，或者成套出售。

本发明实施例中，耳机装置与外界设备之间的连接方式可以包括：有线连接方式、或无线连接方式。上述连接方式具体包括但不限于：物理连接、蓝牙连接、红外连接或者WIFI(无线保真，Wireless Fidelity)连接等。可以理解，本发明实施例对于耳机装置与外界设备之间的具体连接方式不加以限制。

在本发明的一种可选实施例中，作为耳机装置的外界设备，耳机收纳装置可以设置有处理芯片，该处理芯片可以利用本发明实施例的语音处理方法，对语音数据进行处理。

在本发明的另一种可选实施例中，作为耳机装置的外界设备，耳机收纳装置将对语音数据进行处理的任务交由服务端。具体地，耳机收纳装置与服务端进行数据交互，例如，耳机收纳装置可以向服务端发送耳机装置采集的语音数据，以使服务端对语音数据进行处理；耳机收纳装置还可以向耳机装置发送处理得到的提示信息。

参照图1，示出了本发明实施例的一种语音处理***的结构示意图，具体包括：耳机装置101、耳机收纳装置102、服务端103和移动终端104。

其中，耳机装置101与耳机收纳装置102通过蓝牙连接，耳机装置101 与移动终端104通过蓝牙连接。

在第一用户使用移动终端104的过程中，第一用户佩戴耳机装置101，可以通过耳机装置101收音和发声。

耳机收纳装置102具备移动联网和无线联网能力，可以与服务端103进行数据交互。例如，耳机收纳装置102可以接收耳机装置采集的语音数据，并向服务端103发送语音数据；以及耳机收纳装置102可以向耳机装置发送服务端103处理得到的提示信息。

本发明实施例中，可选的是，耳机装置102的两侧分别设置有第一处理器和第二处理器，其中，第一处理器用于与耳机收纳装置102进行数据交互，第二处理器用于与移动终端104进行数据交互。

例如，在使用移动终端104进行对话的过程中，耳机装置101可以采集参与方的语音数据，耳机装置101可以实时性地确定语音数据对应的提示信息，并向第一用户输出提示信息。

本发明实施例中，可选的是，耳机装置101可以对提示信息进行播放，以使用户根据提示信息改善自身在对话中的问题。

本发明实施例中，可选的是，耳机装置101可以包括第一侧和第二侧，第一侧用于播放语音数据，第二侧用于播放提示信息。当然，本发明实施例对于语音数据和提示信息的具体播放侧不加以限制。

方法实施例一

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，应用于服务端，具体可以包括如下步骤：

步骤201、接收耳机装置采集的、对话的语音数据；上述对话的参与方具体包括：至少两个通话用户；

步骤202、确定上述语音数据对应的提示信息；上述提示信息可以为依据上述语音数据对应的语义信息、和/或、情绪信息得到；

步骤203、在对话过程中、和/或、在对话结束后，向耳机装置发送上述提示信息，以使耳机装置输出上述提示信息。

步骤201中，耳机装置可以利用麦克风阵元，采集参与方产生的语音数据，并向服务端发送上述语音数据。耳机装置与服务端之间可以直接通信或者间接通信。

步骤202中，服务端可以对语音数据进行处理，以得到提示信息。

由于上述提示信息可以为依据语音数据对应的语义信息、和/或、情绪信息得到，故上述提示信息可以提示用户在对话过程中出现的问题。

语义信息是信息的表现形式之一，指能够消除事物不确定性的有一定意义的信息。本发明实施例中，可以对语音数据进行语义分析，以得到对应的语义信息。可用的语义分析方法可以包括：关键词提取方法、句子成分分析方法、或者机器学习方法等，可以理解，本发明实施例对于具体的语义分析方法不加以限制。

本发明实施例中，可选的是，可以利用语音识别方法，将语音数据转换为对话文本，并对上述对话文本进行语义分析，以得到对应的语义信息。

本发明实施例中，可选的是，可以依据对话身份信息，识别对话文本中的第一对话文本和第二对话文本，并确定第一对话文本和第二对话文本分别对应的第一语义信息和第二语义信息。其中，第一对话文本和第二对话文本可以对应不同的对话身份信息，例如，第一对话文本对应第一用户，第二对话文本对应第二用户等。

本发明实施例中，可选的是，可以利用声纹识别方法，确定对话身份信息。声纹识别方法是一种根据语音波形中反映发声用户生理和行为特征的语音参数，来识别待测语音话者身份的方法。由于不同的用户对于不同的声纹，因此可以利用声纹识别方法，确定不同的对话身份信息。

在本发明的一种可选实施例中，语义信息表明，任一参与方的语音数据与所述语音数据对应的主题不匹配，则可以向任一参与方输出对应的提示信息。

主题是指语音数据所要表现的中心思想，泛指主要内容。可以采用主题分析方法，确定主题数据对应的主题。可以理解，语音数据可以包括至少一个主题。

例如，按照时间对语音数据进行分析，不同的时间可以对应不同的主题。又如，按照对话身份信息对语音数据进行分析，不同的对话身份信可以对应不同的主题。

例如，在采访场景下，采访者设定了若干主题，并计划按照设定的主题引导对话；然而，在实际的对话过程中，被采访者的语音数据与采访者设定的主题不匹配，则可以向采访者输出对应的提示信息，以使采访者根据需求切换主题。

又如，在面试场景下，面试官设定了若干主题，并计划按照设定的主题引导对话；然而，在实际的对话过程中，求职者的语音数据与面试者设定的主题不匹配，则可以向求职者输出对应的提示信息，以使求职者根据实际情况调整自身的语音内容。或者，可以向面试官输出对应的提示信息，以使面试官根据需求切换主题。

本发明实施例中，情绪是指人有喜、怒、哀、乐、惧等心理体验，这种体验是人对客观事物的态度的一种反映。情绪具有肯定和否定的性质。能满足人的需要的事物会引起人的肯定性质的体验，如快乐、满意等；不能满足人需要的事物会引起人的否定性质的体验，如愤怒、憎恨、哀怨等。

在本发明的一种可选实施例中，情绪信息可以包括：正面情绪、或者负面情绪，其中，正面情绪具有建设性和积极性，负面情绪具有破坏性和消极性。其中，负面情绪可以包括但不限于：着急、焦虑、紧张、愤怒、沮丧、悲伤、痛苦、无聊等。正面情绪可以包括但不限于：开心、乐观、自信、欣赏、放松等。可选地，情绪信息还可以包括：中性情绪，中性情绪可以包括但不限于：平静等。

本发明实施例中，可选的是，所述情绪信息可以为依据所述语音数据对应的语音特征得到；和/或

所述情绪信息为对用户的体感数据进行分析得到。

语音特征可以表征语音方面的特征。所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

例如，在处于紧张状态的情况下，发音器官的正常颤动被抑制，此时说话时，发音的颤动不能人为的随意控制，因此可通过监测用户的语音特征获得用户的情绪信息。

本发明实施例可以利用语音特征与情绪信息之间的映射关系，确定用户的情绪信息。

需要说明的是，本发明实施例中，可以通过数据表表征映射关系，也即，可以通过数据表保存映射关系对应的字段。或者，可以通过数据分析器表征输入数据与输出数据之间的映射关系。相对应地，上述方法还可以包括：对训练数据进行训练，以得到数据分析器；所述数据分析器可用于表征输入数据与输出数据之间的映射关系。

本申请一个可选实施例中，可基于训练数据对数学模型进行训练，以得到数据分析器。

本发明实施例中的训练数据可以包括：对话数据，该对话数据可以为语音对话场景或视频对话场景下得到的对话数据，以提高训练数据与语音对话场景或视频对话场景之间的匹配度。

本发明实施例中，可选的是，可以依据领域，对对话数据进行区分。领域具体指一种特定的范围。本发明实施例可以依据对话的应用场景的不同，得到不同的领域。例如，领域可以包括：面试领域、采访领域、商务沟通领域、社交领域、演讲练习领域等。

本发明实施例中，可选的是，对话数据可以包括：第一用户对应的对话数据，当然，对话数据可以包括：除了第一用户之外的用户对应的对话数据。

数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型，数学模型是针对参照某种事物***的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合，通过这些方程定量地或定性地描述***各变量之间的相互关系或因果关系。除了用方程描述的数学模型外，还有用其他数学工具，如代数、几何、拓扑、数理逻辑等描述的模型。其中，数学模型描述的是***的行为和特征而不是***的实际结构。其中，可采用机器学习、深度学习方法等方法进行数学模型的训练，机器学习方法可包括：线性回归、决策树、随机森林等，深度学习方法可包括：卷积神经网络(CNN， Convolutional Neural Networks)、长短期记忆网络(LSTM，LongShort-Term Memory)、门控循环单元(GRU，Gated Recurrent Unit)等。

假设强度特征的单位为分贝，则可以针对分贝，确定情绪信息对应的预设阈值范围。例如，人说话时声音分贝通常为50分贝左右，因此可设定预设阈值范围包括0-40分贝、41-60分贝和61-80分贝，其中，预设阈值范围 0-40分贝对应的情绪信息为“沮丧”、“紧张”或“抑郁”等，预设阈值范围41-60分贝对应的情绪信息为“中性”，预设阈值范围61-80分贝对应的情绪信息为“激动”、“愤怒”或“烦躁”等。_

体感，或称躯体感觉，是触觉、压觉、温觉、痛觉和本体感觉(关于肌肉和关节位置和运动、躯体姿势和运动以及面部表情的感觉)的总称。用户的体感数据可以包括：体温数据、脉搏数据、图像数据和肢体数据中的至少一种。

本发明实施例中，所述体感数据可以为依据耳机装置采集获得。可选地，耳机装置可以外置或内置有传感器，以通过传感器采集用户的体感数据。

例如，耳机装置的内部设置有运动传感器，以采集用户头部的动作信息。动作信息的例子可以包括：“摇头”、“点头”等。

又如，耳机装置的内部设置有图像传感器，以从图像中获得用户的表情信息。表情信息的例子可以包括：“微笑”、“皱眉”、“撇嘴”等。

本发明实施例可以利用体感数据与情绪信息之间的映射关系，确定用户的情绪信息。

以体感数据为体温数据为例，由于情绪变化带动体温变化是一种身体调节的反射，因此可通过监测用户的体温数据来获得用户的情绪信息。例如，人的正常体温范围为36℃～37℃，当用户激动或者愤怒时，体温会相应上升，当用户沮丧或情绪低落时，体温会相应地下降。因此，可设定预设阈值范围包括35.5℃～35.9℃、36℃～37℃和37.1℃～37.5℃，其中，预设阈值范围 35.5℃～35.9℃对应的情绪信息为“沮丧”、“紧张”或“抑郁”，预设阈值范围36℃～37℃对应的情绪信息为“中性”，预设阈值范围37.1℃～37.5℃对应的情绪信息为“激动”、“愤怒”或“烦躁”。

以体感数据为脉搏数据为例，由于脉搏跳动与人的情绪有密切关系，当人处于激动或愤怒时，心脏的变化会导致脉搏的频率加快，当人处于睡眠状态或情绪平稳时，脉搏基本处于缓慢有节律的跳动状态等等，因此可通过监测用户的脉搏数据来获得用户的情绪信息。例如，可以设定预设阈值范围包括50-60次/分钟、61-100次/分钟和101-130次/分钟，其中，预设阈值范围50-60次/分钟对应的情绪信息为“情绪低落”或“抑郁”；预设阈值范围61-100次/分钟对应的情绪信息为“中性”；预设阈值范围101-130次 /分钟对应的情绪状态信息为“激动”或“紧张”等。

本发明实施例在第一用户的情绪信息为预设情绪信息的情况下，可以得到对应的情绪提示信息，以提示用户调整情绪以得到较好的情绪状态。

预设情绪信息可以为依据第一用户的历史语音数据得到，历史语音数据可以为本次通话之前的语音数据。

在本发明的一种可选实施例中，用户可以指定一种历史语音数据，该历史语音数据中可以包括：用户不满意的情绪信息，则本发明实施例可以将从用户指定的历史语音数据中确定出用户不满意的情绪信息，作为预设情绪信息。例如，可以接收用户不满意的情绪信息对应的历史语音数据，并对该历史语音数据进行分析，以得到对应的预设情绪信息。

在本发明的另一种可选实施例中，可以在一次对话结束后，接收用户针对该对话的评价信息，并依据该评价信息，从对话对应的历史语音数据中获取目标历史语音数据，进而依据目标历史语音数据对应的情绪信息，得到预设情绪信息。例如，评价信息可以包括：“满意”或“不满意”等，可以将“不满意”的评价信息对应的历史语音数据，作为目标历史语音数据。可以理解，本发明实施例对于具体的预设情绪信息及其对应的确定方式不加以限制。

本发明实施例的提示信息可以包括如下信息中的至少一种：

提示信息1、第二用户针对第一用户的评价信息；

提示信息2、第二用户的信任信息；

提示信息3、情绪提示信息；

提示信息4、节奏提示信息；

提示信息5、对话质量信息；

提示信息6、对话气氛信息。

对于提示信息1，第二用户针对第一用户的评价信息可以表征第二用户对于第一用户的满意度。上述评价信息可以满足面试场景、采访场景、商务沟通场景等对话场景下、用户的信息需求，可以便于用户对对话场景相关的事务进行规划。

在本发明的一种可选实施例中，上述方法还可以包括：依据所述语音数据中第二语音数据对应的语义信息、和/或、第二用户的情绪信息，确定第二用户针对第一用户的评价信息；所述第二语音数据与所述第二用户相应。

本发明实施例中可选的是，评价信息可以包括：中性评价信息、正向评价信息和负向评价信息等。

根据一种实施例，可以利用语义信息与评价信息之间的映射关系，确定语义信息对应的评价信息。

可选地，语义信息可以包括：关键词。例如，若语义信息包括：“很好”、“好极了”、“满意”等正向关键词，则可以得到正向评价信息。又如，若语义信息包括：“抱歉”、“遗憾”等负向关键词，则可以得到负向评价信息。

可选地，可以第二语音数据对应的第二语义信息与第一语音数据对应的第一语义信息之间的匹配度信息，确定评价信息。例如，若匹配度信息小于匹配度阈值，则评价信息可以为负向评价信息；又如，若匹配度信息大于匹配度阈值，则评价信息可以为正向评价信息等。

根据另一种实施例，可以利用情绪信息与评价信息之间的映射关系，确定情绪信息对应的评价信息。通常负面情绪信息对应负向评价信息，正面情绪信息对应正向评价信息，中性情绪信息对应中性评价信息。

需要说明的是，第二用户对应的语义信息可以为至少一种，第二用户的情绪信息可以为至少一种，本发明实施例可以针对当前的一种语义信息或一种情绪信息，得到相应的评价信息。或者，本发明实施例可以综合利用多种语义信息或多种情绪信息，得到相应的评价信息；例如，可以对多种语义信息或多种情绪信息进行融合，并依据得到的融合结果，得到对应的评价信息。

本发明实施例可以综合利用第二语义信息和第二用户的情绪信息，确定第二用户针对第一用户的评价信息。具体地，可以利用第二语义信息得到语义评价信息，以及，可以利用第二用户的情绪信息得到情绪评价信息，并依据语义评价信息和情绪评价信息，得到评价信息。

根据一种实施例，若语义评价信息和情绪评价信息相匹配，则对语义评价信息和情绪评价信息进行融合，得到评价信息。

根据另一种实施例，若语义评价信息和情绪评价信息不匹配，则依据情绪评价信息得到评价信息。由于情绪的真实性通常高于语言的真实性，故本发明实施例可以认为情绪评价信息的优先级高于语义评价信息的优先级，则两者不匹配的情况下，舍弃语义评价信息，保留情绪评价信息。

例如，在面试场景下，面试官向求职者提问，求职者回答，假设面试官在听到求职者针对某个问题的回答后，发送的语音中包括“好的”，但对应的头部动作为“摇头”，则可以认为此种情况下面试官的评价信息为负向评价信息。

又如，在商务沟通场景或社交场景下，第二用户发送的语音中包括“常联系”或“过几天后给你电话”，但对应的头部动作为“摇头”、面部表情为“皱眉”或“撇嘴”，则可以认为此种情况下第二用户的评价信息为负向评价信息。

需要说明的是，除了第二用户针对第一用户的评价信息之外，提示信息还可以包括：评价信息对应的理由信息，该理由信息可以包括：第二用户的语音信息及其对应的情绪信息。例如，在面试场景下，评价信息为负向评价信息，理由信息包括：面试官在说“好的”的过程中产生了“摇头”动作等。又如，在商务沟通场景下，评价信息为正向评价信息，理由信息包括：对方在对话过程中全程面带微笑等。

对于提示信息2，第二用户的信任信息可以表征第二用户的可信度。信任信息可以包括：可信、不可信或中性等。

本发明实施例中，可选的是，可以依据第二用户的情绪信息，以及情绪信息与信任信息之间的映射关系，确定第二用户的信任信息。

本发明实施例可以预先建立情绪信息与信任信息之间的映射关系。例如，正面情绪对应可信，负面情绪对应不可信，中性情绪对应中性等。情绪信息与信任信息之间的映射关系可由用户设定，或者，可以对对话语料进行分析，以得到情绪信息与信任信息之间的映射关系。

在本发明的一种应用示例中，在面试场景下，求职者在回答面试官提出的某个问题的过程中，求职者发生了情绪的变化，例如情绪信息从第一情绪信息变为第二情绪信息，且第二情绪信息为紧张或焦躁，则可以说明求职者撒谎的概率较高，因此可以认为求职者的可信信息为不可信。紧张对应的体感数据可以包括：表情为假笑、双手紧握、或者触摸身体部位等。

需要说明的是，除了信任信息之外，提示信息还可以包括：信任信息对应的理由信息，该理由信息可以包括：第二用户的语音信息及其对应的情绪信息，例如，提问者回答问题“xxx”的过程中突然变得紧张焦躁起来。

对于提示信息3，可以在第一用户的情绪信息为预设情绪信息的情况下，得到对应的情绪提示信息，以提示第一用户调整情绪。

对于提示信息4，节奏提示信息可以包括：对话过程中主题的完成信息。

可选地，若任一参与方的语音数据与所述语音数据对应的主题不匹配、和/或、所述语音数据对应主题的持续时长超过第一预设时长，则得到对应的节奏提示信息。

其中，任一参与方的语音数据与所述语音数据对应的主题不匹配，将会影响主题的完成进度，因此可以输出对应的节奏提示信息。例如，在采访场景下，若被采访者针对某主题的语音数据与该主题不匹配，则可以提示采访者更换主题。又如，在面试场景下，提问者针对某主题的语音数据与该主题不匹配，则可以提示提问者换个角度回答问题。

语音数据对应主题的持续时长超过第一预设时长，可以提示用户加快对话速度。例如，采访场景下，采访者针对一个主题设定了第一预设时长，则在该主题的持续时长超过第一预设时长的情况下，可以提示采访者加快速度。

可选地，节奏提示信息可以包括：第一用户的语速信息等。例如，可由第一用户设定语速阈值，则在第一用户的语速信息与该语速阈值不匹配的情况下，可以提供对应的节奏提示信息。

可选地，节奏提示信息可以包括：第一用户的语言连续性信息等。例如，第一用户在说一句话的过程中出现了字词的中断问题，或者，第一用户的一句话与下一句话之间出现了较长的中断问题等，可以提示对应的问题，并给出相应的鼓励信息，如“加油”等。

本发明实施例中，可选的是，可以利用数据分析器确定第一用户的语言连续性信息，数据分析器的输入数据可以为：第一用户的语音数据，数据分析器的输出数据可以为第一用户的语言连续性信息。

对于提示信息5，对话质量信息可用于表征对话的质量。对话的质量可以帮助用户积累对话经验及克服对话问题，进而提升后续对话的对话质量。

可选地，所述对话质量信息，可以包括如下信息中的至少一种：

所述语音数据包含主题的完成比例信息；例如，完成主题的数量与所有主题的数量之间的比值；

所述语音数据包含主题的完成时间信息；例如，一个或多个主题的完成时间信息；

语音质量信息；以及

所述语音数据的逻辑性信息。

语音质量信息可以包括：语速信息、或语言连续性信息等。例如，语音质量信息可以包括：您在xx分xx秒时出现了卡壳，其他时间的语言非常流畅；或者，您在时段1的语速过快，您在时段3的语速过慢，其他时段的语速标准，等。

语音数据的逻辑性信息可以表征语音数据在对话过程中的关联性或紧凑性。该逻辑性信息可以包括：句子与句子之间的关联性，第一语音数据与第二语音数据之间的关联性，主题之间的关联性等。例如，采访者在完成第一主题后，没有任何过渡，直接进入第二主题，则可以认为逻辑性较差。又如，求职者在回答问题的过程中，讲的前后两句话之间没有任何关联，则可以认为逻辑性较差，等。

在实际应用中，可以利用数据分析器确定该逻辑性信息。可以理解，本发明实施例对于逻辑性信息对应的具体确定方式不加以限制。

对于提示信息6，可选地，可以依据第一用户和第二用户分别对应的情绪信息，确定对话气氛信息。例如，第一用户和第二用户均对应正向情绪信息，则可以认为对话气氛信息为“愉快”、或“融洽”等。又如，任一参与方对应负向情绪信息，则可以认为对话气氛信息为“不融洽”等。

步骤203中，所述输出所述提示信息，具体包括：

在对话过程中、和/或、在对话结束后，向耳机装置对应的耳机收纳装置所述提示信息，以使耳机收纳装置向耳机装置发送提示信息；和/或

在对话过程中、和/或、在对话结束后，向耳机装置对应的终端发送所述提示信息。

向终端发送上述提示信息，可以使终端对提示信息进行播放或展示。需要说明的是，本发明实施例的提示信息可以针对第一用户，可以不向第二用户发送提示信息；当然，也可以获得针对第二用户的提示信息，并向第二用户发送提示信息。

在本发明的一种可选实施例中，可以从语音数据中提取事件关键字，依据所述事件关键字建立提醒的事件内容，创建相应的备忘信息。例如，事件可以包括：“停车位置”、“***抬头”等。

本发明实施例可以支持针对备忘信息的搜索。例如，“我的车停哪了？”用于搜索“停车位置”；“***抬头是什么？”用于搜索“***抬头”等。

在本发明的一种可选实施例中，可以从语音数据中提取事件关键字，及与所述事件关键字相关联的触发条件关键字；依据所述触发条件关键字建立提醒的触发条件，依据所述事件关键字建立提醒的事件内容，创建相应的提醒，以提高提醒的准确性和智能性。

例如，针对语音数据包括：“我稍后回给您”，得到的提醒的事件内容可以为“回电话”，触发条件可以为“稍后”。

在本发明的一种可选实施例中，可以依据搜索请求，对语音数据进行语音搜索。语音搜索的维度可以包括但不限于如下维度中的至少一种：对话身份、对话时间、对话地点、对话关键词等。例如，搜索请求为“上周和王总讨论xx事件的录音”，其中可以包括：对话时间“上周”、对话身份“王总”、对话关键词“xx事件”等。可以对语音数据进行语义分析，以得到对话关键词，可以理解，本发明实施例对于对话关键词的具体确定方式不加以限制。

综上，本发明实施例的语音处理方法，耳机装置可以在对话过程中、和 /或、在对话结束后，输出提示信息。由于上述提示信息可以为依据语音数据对应的语义信息、和/或、情绪信息得到，故上述提示信息可以提示用户在对话过程中出现的问题，使得用户在对话过程中及时改善问题，因此能够提升本次对话的对话质量；或者，可以使用户在对话结束后改善问题，以提升后续对话的对话质量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种语音处理装置实施例的结构框图，应用于服务端，该装置具体可以包括：

接收模块301，用于接收耳机装置采集的、对话的语音数据；上述对话的参与方可以包括：至少两个通话用户；

确定模块302，用于确定上述语音数据对应的提示信息；上述提示信息为依据上述语音数据对应的语义信息、和/或、情绪信息得到；

发送模块303，用于在对话过程中、和/或、在对话结束后，向耳机装置发送上述提示信息，以使耳机装置输出上述提示信息。

可选地，上述情绪信息为依据上述语音数据对应的语音特征得到；和/ 或

上述情绪信息为对用户的体感数据进行分析得到，上述体感数据为依据耳机装置采集获得。

可选地，上述语音特征可以包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

可选地，上述提示信息可以包括如下信息中的至少一种：

第二用户针对第一用户的评价信息；

第二用户的信任信息；

情绪提示信息；

节奏提示信息；

对话质量信息；

对话气氛信息。

可选地，上述装置还可以包括：

评价信息确定模块，用于依据上述语音数据中第二语音数据对应的语义信息、和/或、第二用户的情绪信息，确定第二用户针对第一用户的评价信息；上述第二语音数据与上述第二用户相应。

可选地，上述装置还可以包括：

信任信息确定模块，用于依据第二用户的情绪信息、以及情绪信息与信任信息之间的映射关系，确定第二用户的信任信息。

可选地，上述装置还可以包括：

情绪提示信息确定模块，用于在第一用户的情绪信息为预设情绪信息的情况下，得到对应的情绪提示信息。

可选地，上述装置还可以包括：

节奏提示信息确定模块，用于若任一参与方的语音数据与上述语音数据对应的主题不匹配、和/或、上述语音数据对应主题的持续时长超过第一预设时长，则得到对应的节奏提示信息。

可选地，上述对话质量信息，可以包括如下信息中的至少一种：

上述语音数据包含主题的完成比例信息；

上述语音数据包含主题的完成时间信息；

语音质量信息；以及

上述语音数据的逻辑性信息。

可选地，上述装置还可以包括：

对话气氛信息确定模块，用于依据第一用户和第二用户分别对应的情绪信息，确定对话气氛信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于语音处理的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出 (I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理***，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310 包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300 的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320 执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是 ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种语音处理方法，所述方法包括：接收耳机装置采集的、对话的语音数据；所述对话的参与方包括：至少两个通话用户；确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息、和/或、情绪信息得到；在对话过程中、和/或、在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息。

图5是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器 (central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质 1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质 1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种语音处理方法，应用于服务端，所述方法包括：

A2、根据A1所述的方法，所述情绪信息为依据所述语音数据对应的语音特征得到；和/或

所述情绪信息为对用户的体感数据进行分析得到，所述体感数据为依据耳机装置采集获得。

A3、根据A2所述的方法，所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

A4、根据A1所述的方法，所述提示信息包括如下信息中的至少一种：

第二用户针对第一用户的评价信息；

第二用户的信任信息；

情绪提示信息；

节奏提示信息；

对话质量信息；

对话气氛信息。

A5、根据A4所述的方法，所述方法还包括：

依据所述语音数据中第二语音数据对应的语义信息、和/或、第二用户的情绪信息，确定第二用户针对第一用户的评价信息；所述第二语音数据与所述第二用户相应。

A6、根据A4所述的方法，所述方法还包括：

依据第二用户的情绪信息、以及情绪信息与信任信息之间的映射关系，确定第二用户的信任信息。

A7、根据A4所述的方法，所述方法还包括：

在第一用户的情绪信息为预设情绪信息的情况下，得到对应的情绪提示信息。

A8、根据A4所述的方法，所述方法还包括：

若任一参与方的语音数据与所述语音数据对应的主题不匹配、和/或、所述语音数据对应主题的持续时长超过第一预设时长，则得到对应的节奏提示信息。

A9、根据A4所述的方法，所述对话质量信息，包括如下信息中的至少一种：

所述语音数据包含主题的完成比例信息；

所述语音数据包含主题的完成时间信息；

语音质量信息；以及

所述语音数据的逻辑性信息。

A10、根据A4所述的方法，所述方法还包括：

依据第一用户和第二用户分别对应的情绪信息，确定对话气氛信息。

本发明实施例公开了B11、一种语音处理装置，应用于服务端，所述装置包括：

B12、根据B11所述的装置，所述情绪信息为依据所述语音数据对应的语音特征得到；和/或

B13、根据B12所述的装置，所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

B14、根据B11所述的装置，所述提示信息包括如下信息中的至少一种：

第二用户针对第一用户的评价信息；

第二用户的信任信息；

情绪提示信息；

节奏提示信息；

对话质量信息；

对话气氛信息。

B15、根据B14所述的装置，所述装置还包括：

评价信息确定模块，用于依据所述语音数据中第二语音数据对应的语义信息、和/或、第二用户的情绪信息，确定第二用户针对第一用户的评价信息；所述第二语音数据与所述第二用户相应。

B16、根据B14所述的装置，所述装置还包括：

B17、根据B14所述的装置，所述装置还包括：

B18、根据B14所述的装置，所述装置还包括：

节奏提示信息确定模块，用于若任一参与方的语音数据与所述语音数据对应的主题不匹配、和/或、所述语音数据对应主题的持续时长超过第一预设时长，则得到对应的节奏提示信息。

B19、根据B14所述的装置，所述对话质量信息，包括如下信息中的至少一种：

所述语音数据包含主题的完成比例信息；

所述语音数据包含主题的完成时间信息；

语音质量信息；以及

所述语音数据的逻辑性信息。

B20、根据B14所述的装置，所述装置还包括：

本发明实施例公开了C21、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C22、根据C21所述的装置，所述情绪信息为依据所述语音数据对应的语音特征得到；和/或

C23、根据C22所述的装置，所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

C24、根据C21所述的装置，所述提示信息包括如下信息中的至少一种：

第二用户针对第一用户的评价信息；

第二用户的信任信息；

情绪提示信息；

节奏提示信息；

对话质量信息；

对话气氛信息。

C25、根据C24所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C26、根据C24所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C27、根据C24所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C28、根据C24所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C29、根据C24所述的装置，所述对话质量信息，包括如下信息中的至少一种：

所述语音数据包含主题的完成比例信息；

所述语音数据包含主题的完成时间信息；

语音质量信息；以及

所述语音数据的逻辑性信息。

C30、根据C24所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例公开了D31、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A10中一个或多个所述的方法。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，应用于服务端，所述方法应用于面试场景或采访场景，包括：

确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息和情绪信息得到；

在对话过程中、以及在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息；所述提示信息包括：第二用户针对第一用户的评价信息、第二用户针对第一用户的信任信息以及对话质量信息；所述信任信息为根据第一用户的情绪变化得到；所述对话质量信息包括：所述语音数据包含主题的完成比例信息、以及所述语音数据包含主题的完成时间信息；

依据所述语音数据中第二语音数据对应的语义信息、以及第二用户的情绪信息，确定第二用户针对第一用户的评价信息；所述第二语音数据与所述第二用户相应；所述情绪信息为对用户的体感数据进行分析得到，所述体感数据包括：用户头部的动作信息和用户的面部表情；

其中，所述确定第二用户针对第一用户的评价信息，包括：利用第二语音数据对应的语义信息得到语义评价信息，以及，利用第二用户的情绪信息得到情绪评价信息；若语义评价信息和情绪评价信息相匹配，则对语义评价信息和情绪评价信息进行融合，得到所述评价信息；若语义评价信息和情绪评价信息不匹配，则依据情绪评价信息得到评价信息。

2.根据权利要求1所述的方法，其特征在于，所述情绪信息为依据所述语音数据对应的语音特征得到；和/或

所述体感数据为依据耳机装置采集获得。

3.根据权利要求2所述的方法，其特征在于，所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

4.根据权利要求1所述的方法，其特征在于，所述提示信息还包括如下信息中的至少一种：

情绪提示信息；

节奏提示信息；

对话气氛信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

依据第二用户的情绪信息、以及情绪信息与信任信息之间的映射关系，确定第二用户针对第一用户的信任信息。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.根据权利要求4所述的方法，其特征在于，所述对话质量信息，还包括如下信息中的至少一种：

语音质量信息；以及

所述语音数据的逻辑性信息。

9.根据权利要求4所述的方法，其特征在于，所述方法还包括：

10.一种语音处理装置，其特征在于，应用于服务端，所述装置应用于面试场景或采访场景，包括：

确定模块，用于确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息和情绪信息得到；

发送模块，用于在对话过程中、以及在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息；所述提示信息包括：第二用户针对第一用户的评价信息、第二用户针对第一用户的信任信息、以及对话质量信息；所述信任信息为根据第一用户的情绪变化得到；所述对话质量信息包括：所述语音数据包含主题的完成比例信息、以及所述语音数据包含主题的完成时间信息；

评价信息确定模块，用于依据所述语音数据中第二语音数据对应的语义信息、以及第二用户的情绪信息，确定第二用户针对第一用户的评价信息；所述第二语音数据与所述第二用户相应；所述情绪信息为对用户的体感数据进行分析得到，所述体感数据包括：用户头部的动作信息和用户的面部表情；

11.根据权利要求10所述的装置，其特征在于，所述情绪信息为依据所述语音数据对应的语音特征得到；和/或

所述体感数据为依据耳机装置采集获得。

12.根据权利要求11所述的装置，其特征在于，所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

13.根据权利要求10所述的装置，其特征在于，所述提示信息还包括如下信息中的至少一种：

情绪提示信息；

节奏提示信息；

对话气氛信息。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

信任信息确定模块，用于依据第二用户的情绪信息、以及情绪信息与信任信息之间的映射关系，确定第二用户针对第一用户的信任信息。

15.根据权利要求13所述的装置，其特征在于，所述装置还包括：

16.根据权利要求13所述的装置，其特征在于，所述装置还包括：

17.根据权利要求13所述的装置，其特征在于，所述对话质量信息，还包括如下信息中的至少一种：

语音质量信息；以及

所述语音数据的逻辑性信息。

18.根据权利要求13所述的装置，其特征在于，所述装置还包括：

19.一种用于语音处理的装置，其特征在于，所述装置应用于面试场景或采访场景，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

在对话过程中、以及在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息；所述提示信息包括：第二用户针对第一用户的评价信息、第二用户针对第一用户的信任信息、以及对话质量信息；所述信任信息为根据第一用户的情绪变化得到；所述对话质量信息包括：所述语音数据包含主题的完成比例信息、以及所述语音数据包含主题的完成时间信息；

20.根据权利要求19所述的装置，其特征在于，所述情绪信息为依据所述语音数据对应的语音特征得到；和/或

所述体感数据为依据耳机装置采集获得。

21.根据权利要求20所述的装置，其特征在于，所述语音特征包括如下特征中的至少一种：语气特征、节奏特征、以及强度特征。

22.根据权利要求19所述的装置，其特征在于，所述提示信息还包括如下信息中的至少一种：

情绪提示信息；

节奏提示信息；

对话气氛信息。

23.根据权利要求22所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

24.根据权利要求22所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

25.根据权利要求22所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

26.根据权利要求22所述的装置，其特征在于，所述对话质量信息，还包括如下信息中的至少一种：

语音质量信息；以及

所述语音数据的逻辑性信息。

27.根据权利要求22所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

28.一种机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至9中一个或多个所述的方法。