CN107644646A

CN107644646A - 语音处理方法、装置以及用于语音处理的装置

Info

Publication number: CN107644646A
Application number: CN201710892705.2A
Authority: CN
Inventors: 陈小帅; 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-01-30
Anticipated expiration: 2037-09-27
Also published as: CN107644646B

Abstract

本发明提供了语音处理方法、装置以及用于语音处理的装置，其中一种语音处理方法包括：响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据；响应于对所述文本数据的编辑，获取编辑后的文本数据；将所述编辑后的文本数据对应的语音片段数据合成为目标语音数据。采用本发明实施例，基于文本数据进行修改更方便有些不方便输入语音的应用环境，可以满足用户在聊天时的语音发送需求和对语音的编辑需求，提升用户体验。

Description

语音处理方法、装置以及用于语音处理的装置

技术领域

本发明涉及输入法技术领域，特别涉及语音处理方法、装置，用于语音处理的装置，以及计算机可读介质。

背景技术

随着互联网技术的飞速发展，用户使用智能终端进行信息交互的方式越来越普通，越来越多的用户使用聊天软件的语音聊天功能。在用户进行语音聊天的时候，用户可以通过触发聊天软件的语音发送按钮来对自己的语音进行语音，并在松开语音发送按钮的时候，聊天软件会将语音自动发送给其他用户。

发明内容

但是发明人在研究过程中发现，现有的聊天软件对用户的语音都是自动发送的，即用户松开对语音发送按钮的触摸后，用户说话的语音就会自动发送出去，虽然在用户说错的情况下，用户也可以将2分钟之内的语音进行撤回，但是用户却无法对自己的语音进行编辑。此外，用户在接收到其他用户发送的语音后，如果自己所处的环境比较安静或者不能发出声音例如开会或者听讲座等，那么用户就无法发送相同或者类似内容的、自己的语音。

基于此，本发明提供了一种语音处理方案，用于对用户需要发送的语音或者用户选中的语音进行语音识别，并将识别结果的文本数据展示给用户，供用户对文本数据进行编辑，并通过将用户编辑后的文本数据生成对应的目标语音数据，从而实现用户自己发出声音即可生成用户的语音数据；或者还可以在用户选中其他用户的语音数据的情况下，实现将其他用户的语音数据转化为自己的语音的功能，从而更方便用户在各种不适合发出声音的应用场景下发生语音，不仅提高用户的聊天效率，也进一步提升用户的聊天体验。

本发明还提供了一种语音处理装置，用以保证上述方法在实际中的实现及应用。

本发明实施例提供了一种语音处理方法，该方法包括：

响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据；

响应于对所述文本数据的编辑，获取编辑后的文本数据；

将所述编辑后的文本数据对应的语音片段数据合成为目标语音数据。

其中，所述响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据，包括：

响应于选中初始语音数据，将所述初始语音数据识别为完整文本数据；

对所述完整文本数据进行分词得到分词文本数据。

其中，所述将编辑后的文本数据对应的语音片段数据合成为目标语音数据，包括：

从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据；所述语音库用于保存分词文本数据、语音片段数据以及两者的对应关系；

按照所述编辑后的分词文本数据的显示顺序，将获取的语音片段数据合成为目标语音数据。

其中，所述初始语音数据为第一用户的语音，所述目标语音数据为第二用户的语音；则所述从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据，包括：

从预设的语音库中查找所述编辑后的分词文本数据对应的、第二用户的语音片段数据；

相应的，所述将编辑后的文本数据对应的语音片段数据合成为目标语音数据，包括：

按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第二用户的语音数据合成为目标语音数据。

其中，所述方法还包括：

对于各编辑后的分词文本数据，判断是否查找到对应的第二用户的语音数据，如果全部能查找到，则执行按照所述编辑后的分词结果数据的先后顺序，将所述查找的、第二用户的语音数据合成为目标语音数据；

如果不能全部查找到，则将该编辑后的分词文本数据对应的第一用户的语音片段数据，和，查找到的第二用户的语音片段数据，按照编辑后的分词文本数据的显示顺序，合成为目标语音数据。

其中，所述初始语音数据和所述目标语音数据为第一用户的语音；则所述从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据，包括：

从预设的语音库中查找所述编辑后的分词文本数据对应的、第一用户的语音片段数据；

按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第一用户的语音片段数据合成为目标语音数据。

其中，所述编辑包括：删除、增加、修改和/或替换。

其中，所述方法还可以包括：将所述目标语音数据发送至接收方。

本发明实施例还提供了一种语音处理方法，该方法包括：

接收待处理的原始语音数据；

响应于针对所述原始语音数据的补充文本数据的触发，查找所述补充文本数据对应的补充语音数据；

将所述原始语音数据和补充语音数据合成为目标语音数据。

其中，所述响应于针对所述原始语音数据的补充文本数据的触发，查找所述补充文本数据对应的补充语音数据，包括：

响应于针对所述原始语音数据的补充文本数据的触发，获取所述补充文本数据；

对所述补充文本数据进行分词得到分词文本数据；

从预设的语音库中分别查找所述分词文本数据对应的语音片段数据，所述语音库用于保存分词文本数据、语音片段数据以及两者的对应关系。

其中，所述将所述原始语音数据和补充语音数据合成为目标语音数据，包括：

按照所述分词文本数据的显示顺序，将查找到的语音片段数据进行合成得到补充语音数据；

根据所述原始语音数据和补充语音数据的语义关系，将所述原始语音数据和所述补充语音数据合成为目标语音数据。

本发明实施例还提供了一种语音处理装置，该装置包括：

语音识别单元，用于响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据；

获取单元，用于响应于对所述文本数据的编辑，获取编辑后的文本数据；

合成单元，用于将所述编辑后的文本数据对应的语音片段数据合成为目标语音数据。

其中，所述语音识别单元包括：

识别子单元，用于响应于选中初始语音数据，将所述初始语音数据识别为完整文本数据；以及，分词子单元，用于对所述完整文本数据进行分词得到分词文本数据。

其中，所述合成单元包括：

获取子单元，用于从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据；所述语音库用于保存分词文本数据与语音数据的对应关系；以及，合成子单元，用于按照所述编辑后的分词文本数据的显示顺序，将获取的语音片段数据合成为目标语音数据。

其中，所述初始语音数据为第一用户的语音，所述目标语音数据为第二用户的语音；则所述获取单元用于：

从预设的语音库中查找所述编辑后的分词文本数据对应的、第二用户的语音片段数据；相应的，所述合成单元503可以用于：按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第二用户的语音数据合成为目标语音数据。

其中，所述合成单元还包括：

判断子单元，用于对于各编辑后的分词文本数据，判断是否查找到对应的第二用户的语音数据；第一处理子单元，用于如果全部能查找到，则执行按照所述编辑后的分词结果数据的先后顺序，将所述查找的、第二用户的语音数据合成为目标语音数据；以及，第二处理子单元，用于如果不能全部查找到，则将该编辑后的分词文本数据对应的第一用户的语音片段数据，和，查找到的第二用户的语音片段数据，按照编辑后的分词文本数据的显示顺序，合成为目标语音数据。

其中，所述初始语音数据和所述目标语音数据为第一用户的语音；则所述查找单元用于：从预设的语音库中查找所述编辑后的分词文本数据对应的、第一用户的语音片段数据；相应的，所述合成单元用于：按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第一用户的语音片段数据合成为目标语音数据。

其中，所述编辑操作可以包括：删除、增加、修改和/或替换操作。

其中，所述语音处理装置还包括：

发送单元，用于将所述目标语音数据发送至接收方。

本发明实施例还提供了一种语音处理装置，该装置包括：

接收单元，用于接收待处理的原始语音数据；

查找单元，用于响应于针对所述原始语音数据的补充文本数据的触发，查找所述补充文本数据对应的补充语音数据；

合成单元，用于将所述原始语音数据和补充语音数据合成为目标语音数据。

其中，所述查找单元包括：

获取子单元，用于响应于针对所述原始语音数据的补充文本数据的触发，获取所述补充文本数据；分词子单元，用于对所述补充文本数据进行分词得到分词文本数据；查找子单元，用于从预设的语音库中分别查找所述分词文本数据对应的语音片段数据，所述语音库用于保存分词文本数据、语音片段数据以及两者的对应关系。

其中，所述合成单元包括：

第一合成子单元，用于按照所述分词文本数据的显示顺序，将查找到的语音片段数据进行合成得到补充语音数据；第二合成子单元，用于根据所述原始语音数据和补充语音数据的语义关系，将所述原始语音数据和所述补充语音数据合成为目标语音数据。

本发明实施例还提供了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

响应于对所述文本数据的编辑，获取编辑后的文本数据；

接收待处理的原始语音数据；

将所述原始语音数据和补充语音数据合成为目标语音数据。

本发明实施例还提供了一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述的一个或多个语音处理方法。

在本发明实施例中，不仅方便用户在聊天过程中不需要自己重复初始语音数据的内容就可以发送语音，并且，基于文本数据进行修改更方便有些不方便输入语音的应用环境，满足用户在聊天时的语音发送需求和对语音的编辑需求，提升用户体验。此外，本发明实施例还可以对初始语音数据的完整文本数据进行分词后得到分词文本数据，从而实现用户对分词的片段级操作，从而快速对初始语音数据进行修改，提升合成目标语音数据的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音处理方法实施例的流程图；

图2a和图2b是本发明实施例的显示界面的示例性示意图；

图3是本发明的另一种语音处理方法实施例的流程图；

图4是本发明的又一种语音处理方法实施例的流程图；

图5是本发明的语音处理装置实施例的结构框图；

图6是本发明中根据一示例性实施例示出的一种用于语音处理的装置800的框图；

图7是本发明实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参考图1，示出了本发明一种语音处理方法实施例的流程图，本实施例可以包括以下步骤：

步骤101：响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据。

在本实施例中，初始语音数据可以是用户在使用终端和其他用户聊天时触发的语音数据。例如，用户A使用智能手机的聊天软件向用户B发送语音数据，在用户A的一条语音数据触发完成(例如，说完一句话之后开始停顿，就可以认为触发了一条语音数据)，且还未向用户B发送之前，本发明实施例可以截获到该条语音数据，并对该条语音数据进行语音识别，从而得到该条语音数据对应的文本数据。当然，在实际应用中，初始语音数据还可以是用户A保存在终端中自己的语音数据，或者，用户A接收到的或者保存的其他用户的语音数据，等等。因此，本发明实施例中对初始语音数据的来源不做限定。

具体的，在实际应用中可以采用基于动态时间规整(Dynamic Time Warping)的算法，基于参数模型的隐马尔可夫模型(HMM)的方法，基于非参数模型的矢量量化(VQ)的方法，或者，基于人工神经网络(ANN)的算法和混合算法等。采用哪一种语音识别方法并不影响本发明的实现，因此本领域技术人员可以自主选择。

具体的，步骤101在实现时可以包括以下步骤A1～步骤A2：

步骤A1：响应于选中初始语音数据，将所述初始语音数据识别为完整文本数据。

在本实施例中，对于截获到的用户A的语音数据进行语音识别并得到相对应的完整文本数据之后，将完整文本数据可以展示于弹出的一个显示界面上。具体的，该显示界面可以不同于用户A使用的聊天软件的聊天界面。例如，对用户A的初始语音数据进行识别得到的完整文本数据为：“星期二下午几点参加聚会啊”，则参考图2a所示，为一个在显示界面上展示完整文本数据的示例性示意图。在图2a中，用户A和用户B(姓名为张三)的聊天界面201可以用于展示两者之间的对话内容，而对用户A的初始语音数据识别出的文本数据进行展示的显示界面202，则可以是不同于聊天界面201的另一个界面，在显示界面202上的展示内容即是步骤101识别得到的文本数据，方便用户A查看后对该文本数据进行编辑。

步骤A2：对所述完整文本数据进行分词得到分词文本数据。

在实际应用中，为了方便用户对初始语音数据对应的文本进行编辑，本步骤可以先对完整文本数据进行分词得到分词文本数据，再将分词文本数据进行展示。例如，对完整文本数据“星期二下午几点参加聚会啊”进行分词可以得到“星期二”、“下午”、“几点”、“参加”、“聚会”的分词文本数据。参考图2b所示，为在显示界面202上展示分词文本数据的示例性示意图，在图2b中，各个分词按照用户A说话的先后顺序，依次从上到下分别进行展示。当然，也可以采用其他顺序方式进行展示，只要能够将各个分词文本数据的展示顺序，与初始语音数据的发音顺序相互对应即可。

需要说明的是，图2a和图2b都是为了详细说明步骤101和步骤102的而举出的示例性数据，不应将其理解为本发明实施例的限定。图2a和图2b中聊天界面201用何种方式展示两个用户之间的聊天记录，或者显示界面202用何种方式展示完整文本数据或者分词文本数据都可以，这并不影响本发明实施例的实现。

步骤102：响应于对所述文本数据的编辑，获取编辑后的文本数据。

在本步骤中，用户A可以在显示界面202上对展示的完整文本数据或者分词文本数据进行编辑。例如，以对分词文本数据进行编辑为例，用户将图2b所示的分词文本数据删除了“星期二”和“参加”两个分词结果数据，其他分词文本数据的顺序保持不变；或者，增加了分词文本数据“在哪”，则原来的分词文本数据对应的完整文本数据就为“星期二下午几点在哪参加聚会啊”。当然，在实际应用中，除了删除和增加的操作，用户还可以对各个分词结果数据进行修改(例如用户将分词“星期二”修改为“周二”)、调整各个分词结果数据的顺序(流入，用户将分词“几点”和“在哪”调换了顺序)等操作，在本实施例中就不再一一进行举例示意。

步骤103：将所述编辑后的文本数据对应的语音片段数据合成为目标语音数据。

在实际应用中，可以预先生成一个语音库，语音库可以用于保存分词文本数据、语音片段数据以及两者的对应关系。其中，语音库保存的语音片段数据可以是用户A的语音片段数据，当然，也可以是其他用户的语音片段数据。可以理解的是，本发明实施例在收集用户A的各个语音片段数据的时候，可以预先获取用户A的语音片段数据，例如，提供各个分词文本让用户A进行朗读并保存用户的各个语音片段数据；或者，也可以通过用户A和其他用户进行语音聊天时的语音数据进行学习，从而得到用户A的各个语音片段数据。

具体的，本步骤的实现具体可以包括步骤B1～步骤B2：

步骤B1：从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据。

在用户A对各个分词文本数据编辑完成之后，用户A可以通过触发图2a或图2b中的触发按钮203来触发生成新的目标语音数据的操作。响应于用户的触发操作，本发明实施例可以获取用户编辑后的分词文本数据，例如图2b中的“下午”、“几点”和“聚会”，且能通过显示界面202中各个分词文本数据的展示顺序得到对应的各个语音片段数据的先后顺序，即“下午”是第一个语音片段数据，“几点”是第二个语音片段数据，“聚会”是第三个语音片段数据。

可以理解的是，需要说明的是，如果语音库中保存的只有用户A的语音片段数据，则本步骤中获取到的就是用户A的语音片段数据。而如果还有保存其他用户的语音片段数据的语音库，也可以由用户A增加一些分词文本数据，然后从语音库获取增加的分词文本数据对应的、其他用户的语音片段数据，来和自己的部分或全部初始语音数据组合成目标语音数据。

步骤B2：按照所述编辑后的分词结果数据的显示顺序，将获取的语音片段数据合成为目标语音数据。

然后按照编辑后的分词结果数据在显示界面上进行显示的先后顺序，来将各个分词文本数据分别对应的语音片段数据合成为新的目标语音数据，即“下午几点聚会”。那么，在用户A触发了触发按钮203之后，按照编辑后的各个分词文本数据进行显示的先后顺序，将对应的语音片段数据合成为目标语音数据。仍以步骤B1中的数据为例，即生成“下午几点聚会”的语音。

在实际应用中，生成了目标语音数据后，用户A还可以再将该目标语音数据发送至给与其进行聊天的用户B或者发送至聊天群中，等等，则步骤103之后还可以包括步骤104：

步骤104：将所述目标语音数据发送至接收方。

在本步骤中，将步骤103生成的新的目标语音数据发送至接收方，即用户B。当然，在实际应用中，接收方也可以不是与用户A正在聊天的用户B，还可以是用户C，或者其他群用户等，用户A可以将生成的目标语音数据发送给其他任何用户，本发明实施例对此不作限定。

可见，在本发明实施例中，在用户聊天的过程中，为了方便用户对自己触发的语音数据或者已有的其他用户的语音数据进行编辑，可以对用户选中的初始语音数据进行语音识别，并在用户对文本数据的内容进行编辑后，例如，删除或增加部分文本内容，或者调整部分文本内容的顺序等等，后续再将用户编辑后的文本数据生成一个新的、不同于初始语音数据的目标语音数据。因此，本发明实施例不仅方便用户在聊天过程中不需要自己重复初始语音数据的内容就可以发送语音，并且，基于文本数据进行修改更方便有些不方便输入的应用环境，满足用户在聊天时的语音发送需求和对语音的编辑需求，提升用户体验。

此外，本发明实施例还可以将语音识别得到的完整文本数据或分词文本数据进行展示，从而实现用户对分词文本数据的片段级操作，从而实现用户快速对初始语音数据进行修改，提升合成目标语音数据的效率。

参考图3，示出了本发明另一种语音处理方法实施例的流程图，本实施例可以包括以下步骤：

步骤301：响应于第二用户选中第一用户的初始语音数据，对所述第一用户的初始语音数据进行语音识别得到对应的完整文本数据。

本实施例与上一个实施例的不同之处在于，本实施例中，是用户A对另一个用户B的语音数据进行编辑，从而将用户B的语音数据转化为自己的语音数据。假设第一用户为用户B，用户A则为第二用户。首先，用户A与用户B在使用聊天软件进行聊天，第一用户即用户B向用户A发了一段初始语音数据，然后用户A接收到该初始语音数据之后，选中用户B的初始语音数据，本发明实施例响应于用户A的选中操作，对初始语音数据进行语音识别得到对应的文本数据。

可以理解的是，用户A可以通过长按、双击或者3D-touch的重按方式选中用户B发送的初始语音数据。具体通过何种方式选中用户B的初始语音数据都不影响本发明实施例的实现。

步骤302：将所述完整文本数据的分词文本数据进行展示。

接着将用户B的初始语音数据对应的完整文本数据进行分词，得到分词文本数据，并将分词文本数据展示于显示界面上。例如，用户B向用户A发送的初始语音数据进行识别之后，对应的完整文本数据为“老张，让你们组同学，马上来8楼会议室开会”，对该完整文本数据进行分词之后得到分词文本数据：“老张”、“让”、“你们”、“组”、“同学”、“马上”、“来”、“8楼”、“会议室”、“开会”，而用户A现在可能不方便发语音，所以选中用户B的初始语音数据，从而触发对应的分词文本数据显示给自己。

步骤303：响应于第二用户对所述分词文本数据的编辑，获取编辑后的分词文本数据。

在本步骤中，用户A可以对显示界面上显示的各个分词结果数据进行编辑。用户A可以根据需要对显示的分词结果数据进行编辑。例如，用户A删除了分词结果数据：“老张”、“让”、“你们”、“组”、“同学”，而且没有调整各个分词结果数据之间的顺序，则编辑后的分词结果数据就为：“马上”、“来”、“8楼”、“会议室”、“开会”。在实际应用中，用户A也可以通过拖拽等方式调整多个分词结果数据之间的先后顺序。

步骤304：从预先建立的语音库中，查找与所述编辑后的分词文本数据对应的、第二用户的语音片段数据。

在本实施例中，假设对于用户A已经预先建立一个语音库，该语音库可以用于保存用户A的各个语音片段数据、各个分词文本数据以及两者的对应关系。例如，保存了用户A关于分词文本数据“开会”和“开会”的语音片段数据的对应关系，“会议室”的文本内容和语音数据的对应关系，等等。当然，各个语音片段数据和文本内容之间只要是一一对应的映射关系即可，例如，本领域技术人员还可以对各个语音片段数据进行编号，每一个编号都对应唯一的语音片段数据和分词文本数据，等等。

则本步骤就从预先建立的语音库中，查找与分词结果数据“马上”、“来”、“8楼”、“会议室”、“开会”分别对应的、用户A的语音数据。

步骤305：对于各编辑后的分词文本数据，判断是否查找到对应的第二用户的语音片段数据，如果全部能查找到，则进入步骤306，如果不能全部查找到，则进入步骤307。

对于各个编辑后的分词文本数据，即，对于“马上”、“来”、“8楼”、“会议室”、“开会”，分别判断在预设的语音库中是否能查找到全部对应的语音片段数据。如果能全部查找到，可以进入步骤306，如果不能全部查找到，可以进入步骤307。

步骤306：按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第二用户的语音片段数据合成为目标语音数据。

在全部查找到用户A的各个语音数据之后，按照编辑后的分词结果数据的先后顺序，例如，对于分词结果数据“马上”、“来”、“8楼”、“会议室”、“开会”来讲，“马上”的顺序为第一，“来”的顺序为第二，以此类推，最后一个的分词结果数据为“开会”，将用户A的各个语音数据按照前后顺序进行合成，从而得到目标语音数据，即用户A针对“马上来8楼会议室开会”的语音数据。用户A还可以将自己合成的目标语音数据转发给目标用户，例如，需要去会议室开会的用户C和用户D。

步骤307：将该编辑后的分词文本数据对应的第一用户的语音片读数据，和，查找到的第二用户的语音片段数据，按照编辑后的分词文本数据的显示顺序，合成为目标语音数据。

而如果不能全部查找到用户A的语音片段数据，则可以将查找到的用户A的语音片段数据，和未查找到用户A的分词文本数据对应的、用户B的语音片段数据进行合成，从而生成包括用户A的部分语音片段数据和用户B的部分语音片段数据的目标语音数据。例如，在语音库中仅查找到了用户A关于“马上”和“会议室”的语音数据，对于未查找到的分词文本数据“来”、“8楼”、和“开会”仍然可以采用用户B的语音片段数据，接着将这几个分词文本数据按照先后顺序进行合成，得到目标语音数据。

当然，在不能全部查找到用户A的语音片段数据的情况下，也可以全部采用用户B的语音片段数据来生成目标语音数据。本领域技术人员可以预先设置，在此不做限定。

可见，本实施例除了方便用户聊天过程中的语音操作，还可以通过预先收集用户的语音数据，从而可以实现将其他用户的语音数据转化为用户自己的语音数据进行发送，从而让用户无需张口说话即可发送语音数据，满足用户在不方便发送语音数据的环境中也能发送自己语音的需求。

参考图4，示出了本发明又一种语音处理方法实施例的流程图，本实施例可以包括以下步骤：

步骤401：接收待处理的原始语音数据。

在本实施例中，假设用户A接收到了一段用户B的语音数据，例如，可以是用户B的一段发言或者对一个产品的介绍等等，用户A希望对用户B的发言或介绍进行评价或者总结等，则可以将用户B的语音数据作为本实施例的原始语音数据。

步骤402：响应于针对所述原始语音数据的补充文本数据的触发，查找所述补充文本数据对应的补充语音数据。

在本实施例中，和前两个实施例的不同之处在于，可以不将用户B的语音数据转化为完整文本数据或者分词文本数据，而是用户B的原始语音数据保持不变，用户A保留了用户B的全部原始语音数据，用户A针对用户B的发言或者介绍等语音，又补充了自己的观点或者评价等，则用户A可以在编辑界面上输入自己想补充的补充文本数据，然后针对补充文本数据进行分词得到分词文本数据，再在预设的语音库中查找与各分词文本数据对应的语音片段数据，其中，语音库可以用于保存分词文本数据、语音片段数据以及两者的对应关系。

例如，用户B的初始语音数据是对景点“圆明园”的介绍，用户A则可以在提供的编辑界面上输入“以上对圆明园的介绍非常全面且准确，希望大家认真学习记录”，然后对该句子进行分词，得到若干个分词文本数据，并在语音库中直接查找各分词文本数据对应的语音片段数据。当然，也可以不用对补充文本数据进行分词，如果语音库中直接保存有补充文本数据对应的补充语音数据，也可以直接查找得到。当然，这仅仅是一种具体示例，不应将其理解为本发明的限定。

步骤403：将所述原始语音数据和补充语音数据合成为目标语音数据。

接着，如果可以查找到用户A的补充文本数据对应的补充语音数据，可以直接将用户B的原始语音数据和用户A的完整语音数据合成为一段目标语音数据。而如果查找的是用户A的分词文本数据对应的各个语音片段数据，则可以将这多个语音片段数据先合成为用户A的完整语音数据，再将用户B的原始语音数据和用户A的完整语音数据进行拼接，合成为一个同时包括用户B和用户A的语音数据的目标语音数据。

当然，可以理解的是，在合成目标语音数据的时候，可以根据原始语音数据和补充语音数据之间的语义关系，来分别先后合成原始语音数据和补充语音数据，或者分别先后合成补充语音数据和原始语音数据。其中，语义关系可以用于表示原始语音数据和补充语音数据的语音内容之间的逻辑关系。例如，原始语音数据是一段风景介绍，而补充语音数据是对这段风景介绍的评价，则合成目标语音数据时应该将原始语音数据放在补充语音数据的前面；而如果原始语音数据是一位演讲者的演讲，而补充语音数据是对该演讲者的介绍，则可以将补充语音数据放在原始语音数据的前面。

还可以理解的是，如果用户B的原始语音数据有多段，则用户A也可以分别针对这多段原始语音数据进行评价或者总结，同时，将用户B的多段原始语音数据和用户A的多个评价或总结分别进行拼接，形成一个类似用户B和用户A进行对话的目标语音数据。例如，用户B有三段原始语音数据B1、B2和B3，而用户A也分别有针对这三段原始语音数据的评价，分别为A1、A2和A3，则可以将上述语音数据分别按照B1、A1、B2、A2、B3和A3的顺序合成为一段目标语音数据。当然，也可以按照其他顺序来合成目标语音数据，本领域技术人员可以预先设置。

在本实施例中，当前用户针对其他用户的原始语音数据，可以不做修改就将其与自己的语音数据进行合成，从而实现不同用户的语音数据拼接为目标语音数据的目的，并且，还可以分段进行对话形式的拼接，更适合当前用户不方便输入语音的应用场景，提升用户的语音发送体验。

对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述本发明的语音处理方法实施例所提供的方法相对应，参见图5，本发明还提供了语音处理装置实施例，在本实施例中，该装置可以包括：

语音识别单元501，用于响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据。

其中，所述语音识别单元501具体可以包括：

获取单元502，用于响应于对所述文本数据的编辑，获取编辑后的文本数据。

合成单元503，用于将所述编辑后的文本数据对应的语音片段数据合成为目标语音数据。

其中，所述合成单元503具体可以包括：

其中，所述初始语音数据为第一用户的语音，所述目标语音数据为第二用户的语音；则所述获取单元502可以用于：

其中，所述合成单元503还可以包括：

其中，所述初始语音数据和所述目标语音数据为第一用户的语音；则所述查找单元502具体可以用于：从预设的语音库中查找所述编辑后的分词文本数据对应的、第一用户的语音片段数据；相应的，所述合成单元503具体可以用于：按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第一用户的语音片段数据合成为目标语音数据。

其中，所述语音处理装置还可以包括：

发送单元504，用于将所述目标语音数据发送至接收方。

可见，在本发明实施例中，对用户选中的初始语音数据进行语音识别，并在用户对文本数据的内容进行编辑后，例如，删除或增加部分文本内容，或者调整部分文本内容的顺序等等，后续再将用户编辑后的文本数据生成一个新的、不同于初始语音数据的目标语音数据。因此，本发明实施例不仅方便用户在聊天过程中不需要自己重复初始语音数据的内容就可以发送语音，并且，基于文本数据进行修改更方便有些不方便输入的应用环境，满足用户在聊天时的语音发送需求和对语音的编辑需求，提升用户体验。

本发明还提供了另外一种语音处理装置实施例，在本实施例中，该装置可以包括：

接收单元，用于接收待处理的原始语音数据；查找单元，用于响应于针对所述原始语音数据的补充文本数据的触发，查找所述补充文本数据对应的补充语音数据；以及，合成单元，用于将所述原始语音数据和补充语音数据合成为目标语音数据。

其中，所述查找单元具体可以包括：

其中，所述合成单元具体可以包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种语音处理装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音处理方法，所述方法包括：响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据；响应于对所述文本数据的编辑，获取编辑后的文本数据；将所述编辑后的文本数据对应的语音片段数据合成为目标语音数据。

其中，所述响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据，可以包括：

响应于选中初始语音数据，将所述初始语音数据识别为完整文本数据；对所述完整文本数据进行分词得到分词文本数据。

其中，所述将编辑后的文本数据对应的语音片段数据合成为目标语音数据，可以包括：

从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据；所述语音库用于保存分词文本数据、语音片段数据以及两者的对应关系；按照所述编辑后的分词文本数据的显示顺序，将获取的语音片段数据合成为目标语音数据。

所述初始语音数据为第一用户的语音，所述目标语音数据为第二用户的语音；则所述从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据，包括：

其中，所述初始语音数据为第一用户的语音，所述目标语音数据为第二用户的语音；则所述从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据，可以包括：从预设的语音库中查找所述编辑后的分词文本数据对应的、第二用户的语音片段数据；相应的，所述将编辑后的文本数据对应的语音片段数据合成为目标语音数据，可以包括：按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第二用户的语音数据合成为目标语音数据。

其中，所述装置800还可以经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对于各编辑后的分词文本数据，判断是否查找到对应的第二用户的语音数据，如果全部能查找到，则执行按照所述编辑后的分词结果数据的先后顺序，将所述查找的、第二用户的语音数据合成为目标语音数据；如果不能全部查找到，则将该编辑后的分词文本数据对应的第一用户的语音片段数据，和，查找到的第二用户的语音片段数据，按照编辑后的分词文本数据的显示顺序，合成为目标语音数据。

其中，所述初始语音数据和所述目标语音数据为第一用户的语音；则所述从预设的语音库中获取所述编辑后的分词文本数据对应的语音片段数据，可以包括：从预设的语音库中查找所述编辑后的分词文本数据对应的、第一用户的语音片段数据；相应的，所述将编辑后的文本数据对应的语音片段数据合成为目标语音数据，可以包括：按照所述编辑后的分词文本数据的显示顺序，将所述查找的、第一用户的语音片段数据合成为目标语音数据。

其中，所述编辑可以包括：删除、增加、修改和/或替换。

将所述目标语音数据发送至接收方。

图7是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，该方法包括：

响应于对所述文本数据的编辑，获取编辑后的文本数据；

2.根据权利要求1所述的方法，其特征在于，所述响应于选中初始语音数据，对所述初始语音数据进行语音识别得到对应的文本数据，包括：

对所述完整文本数据进行分词得到分词文本数据。

3.根据权利要求2所述的方法，其特征在于，所述将编辑后的文本数据对应的语音片段数据合成为目标语音数据，包括：

4.一种语音处理方法，其特征在于，该方法包括：

接收待处理的原始语音数据；

将所述原始语音数据和补充语音数据合成为目标语音数据。

5.一种语音处理装置，其特征在于，该装置包括：

6.一种语音处理装置，其特征在于，该装置包括：

接收单元，用于接收待处理的原始语音数据；

7.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

响应于对所述文本数据的编辑，获取编辑后的文本数据；

8.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收待处理的原始语音数据；

将所述原始语音数据和补充语音数据合成为目标语音数据。

9.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至3中一个或多个所述的语音处理方法。

10.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求4所述的语音处理方法。