CN106105175B

CN106105175B - 一种多方通话中语音转文本的方法及装置

Info

Publication number: CN106105175B
Application number: CN201580003322.4A
Authority: CN
Inventors: 王细勇; 蒋洪睿; 郑伟军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2019-05-21
Anticipated expiration: 2035-01-30
Also published as: RU2677878C1; US10825459B2; KR101987123B1; JP2018509056A; JP6573676B2; CN106105175A; EP3244600A4; KR20170108121A; US20170372701A1; EP3244600A1; WO2016119226A1; EP3244600B1

Abstract

一种多方通话中语音转文本的方法及装置，涉及通信技术领域，实现省时省力且准确的获取多方通话中语音转换的文本。其中方法包括：服务器接收至少两个终端发送的转文本请求(S201)；服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端的会话相同(S202)；服务器通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流(S203)；服务器将语音流转换为文本(S204)；服务器向多方通话中的终端发送文本(S205)。

Description

一种多方通话中语音转文本的方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种多方通话中语音转文本的方法及装置。

背景技术

随着通信技术的不断发展，电话在日常生活中已不可或缺，电话的功能也越来越多；由于打电话方便快捷，很多重要的商务谈判、工作安排、会议等都通过打电话的方式进行，为了保证通过打电话的方式进行上述工作的可靠性，在语音通话结束后，需要获得通话记录(即通话的文本)。

目前，获得通话的文本的主要方式为：先进行人工录音，然后通过人工听录音，并整理成文本，这样获得的通话的文本的准确度较高，但是费时费力；或者，在通话的过程中，对通话的语音流进行采样，将采样得到的语音流发送给语音识别引擎，语音识别引擎将语音信息转换为文本信息，并将转换的文本发送给用户所使用的终端，该过程无需人工操作，节省人力和时间，但是，由于通过电路域对语音信息采样率为8KHz，语音识别引擎对语音的识别效果差，通过语音识别引擎转换的文本的准确度低。

综上可知，目前没有一种既省时省力又准确的获取多方通话中语音转换的文本。

发明内容

本发明的实施例提供一种多方通话中语音转文本的方法及装置，实现了省时省力且准确的获取多方通话中语音转换的文本。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种多方通话中语音转文本的方法，应用于服务器，所述方法包括：

接收至少两个终端发送的转文本请求；其中，所述转文本请求包括第一标识、第二标识；

向所述至少两个终端分配会话，使得所述至少两个终端中发送的转文本请求中所述第一标识相同或所述第二标识相同的终端的会话相同；

通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，所述多方通话对应一个会话；

将所述语音流转换为文本；

向所述多方通话中的终端发送所述文本。

结合第一方面，在第一方面的第一种可能的实现方式中，所述向所述至少两个终端分配会话，包括：

若数据库包括第一终端发送的转文本请求中的第一标识或第二标识，向所述第一终端分配所述数据库中，与所述第一终端发送的转文本请求中的第一标识或第二标识对应的会话；其中，所述第一终端为所述至少两个终端中的任一个终端；所述数据库包括至少一个会话及与所述至少一个会话对应的终端标识；

若所述数据库中不包括第二终端发送的转文本请求中的第一标识和第二标识，且所述第二终端发送的转文本请求中的第一标识与第三终端发送的转文本请求中的第一标识相同，且所述第二终端发送的转文本请求中的第二标识与所述第三终端发送的转文本请求中的第二标识相同，则向所述第二终端和所述第三终端分配同一个新的会话。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述文本包括所述至少一个终端的标识；或者，所述文本包括所述至少一个终端的标识及用户名。

结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，在所述向所述至少两个终端分配会话之后，所述方法还包括：

若所述分配的会话为新的会话，则将所述分配的会话与所述至少两个终端的标识建立对应关系，并将所述对应关系添加至所述数据库；

若所述分配的会话为所述数据库中的会话，则将所述至少两个终端的标识中未包括于所述数据库的终端的标识添加至所述数据库中与所述分配的会话对应。

结合第一方面或第一方面的第一种可能的实现方式至第一方面的第三种可能的实现方式种的任一项，在第一方面的第四种可能的实现方式中，在所述通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流之后，所述方法还包括：

接收第五终端发送的结束消息；

将所述数据库中，所述第五终端的标识移除；

若在所述数据库中，会话对应的终端的标识为空，则将所述会话从所述数据库中移除。

第二方面，提供一种多方通话中语音转文本的装置，所述装置包括：

第一接收单元，用于接收至少两个终端发送的转文本请求；其中，所述转文本请求包括第一标识、第二标识；

分配单元，用于向所述至少两个终端分配会话，使得所述至少两个终端中发送的转文本请求中所述第一标识相同或所述第二标识相同的终端的会话相同；

第二接收单元，用于通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，所述多方通话对应一个会话；

转换单元，用于将所述语音流转换为文本；

发送单元，用于向所述多方通话中的终端发送所述文本。

结合第二方面，在第二方面的第一种可能的实现方式中，所述分配单元用于：

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述文本包括所述至少一个终端的标识；或者，所述文本包括所述至少一个终端的标识及用户名。

结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述装置还包括：

添加单元，用于若所述分配的会话为新的会话，则将所述分配的会话与所述至少两个终端的标识建立对应关系，并将所述对应关系添加至所述数据库；

所述添加单元还用于，若所述分配的会话为所述数据库中的会话，则将所述至少两个终端的标识中未包括于所述数据库的终端的标识添加至所述数据库中与所述分配的会话对应。

结合第二方面或第二方面的第一种可能的实现方式至第二方面的第三种可能的实现方式种的任一项，在第二方面的第四种可能的实现方式中，所述装置还包括：

第三接收单元，用于接收第五终端发送的结束消息；

移除单元，用于将所述数据库中，所述第五终端的标识移除；

所述移除单元还用于，若在所述数据库中，会话对应的终端的标识为空，则将所述会话从所述数据库中移除。

第三方面，提供一种多方通话中语音转文本的装置，所述装置包括：

第一接收器，用于接收至少两个终端发送的转文本请求；其中，所述转文本请求包括第一标识、第二标识；

处理器，用于向所述至少两个终端分配会话，使得所述至少两个终端中发送的转文本请求中所述第一标识相同或所述第二标识相同的终端的会话相同；

第二接收器，用于通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，所述多方通话对应一个会话；

所述处理器还用于，将所述语音流转换为文本；

发送器，用于向所述多方通话中的终端发送所述文本。

结合第三方面，在第三方面的第一种可能的实现方式中，所述处理器还用于：

结合第三方面或第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述文本包括所述至少一个终端的标识；或者，所述文本包括所述至少一个终端的标识及用户名。

结合第三方面或第三方面的第一种可能的实现方式或第三方面的第二种可能的实现方式，在第三方面的第三种可能的实现方式中，

所述处理器还用于，若所述分配的会话为新的会话，则将所述分配的会话与所述至少两个终端的标识建立对应关系，并将所述对应关系添加至所述数据库；

所述处理器还用于，若所述分配的会话为所述数据库中的会话，则将所述至少两个终端的标识中未包括于所述数据库的终端的标识添加至所述数据库中与所述分配的会话对应。

结合第三方面或第三方面的第一种可能的实现方式至第三方面的第三种可能的实现方式种的任一项，在第三方面的第四种可能的实现方式中，所述装置还包括：

第三接收器，用于接收第五终端发送的结束消息；

所述处理器还用于，将所述数据库中，所述第五终端的标识移除；

所述处理器还用于，若在所述数据库中，会话对应的终端的标识为空，则将所述会话从所述数据库中移除。

本发明实施例提供一种多方通话中语音转文本的方法及装置，接收至少两个终端发送的转文本请求；其中，转文本请求包括第一标识、第二标识；向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端分配的会话相同；通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，多方通话对应一个会话；将语音流转换为文本；向多方通话中的终端发送文本；由于接收到的语音流为通过分组域接收的且采样率大于8KHz的语音流，分组域可以支持采样率高的语音流的传输，对接收到的语音流进行文本转换后得到的文本的准确度高；进一步的，该过程无需人工操作，较为快捷，节省人力和时间；综上可知，通过本发明所提供的方法可以实现省时省力且准确的获取多方通话中语音转换的文本，解决了现有技术中获取多方通话中语音转换的文本要么费时费力，要么不准确的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多方通话中语音转文本的网络架构图；

图2为本发明实施例提供的一种多方通话中语音转文本的方法的流程示意图；

图3为本发明实施例提供的又一种多方通话中语音转文本的方法的流程示意图；

图4为本发明实施例提供的再一种多方通话中语音转文本的方法的流程示意图；

图5为本发明实施例提供的一种多方通话中语音转文本的装置结构示意图；

图6为本发明实施例提供的另一种多方通话中语音转文本的装置结构示意图；

图7为本发明实施例提供的再一种多方通话中语音转文本的装置结构示意图；

图8为本发明实施例提供的再一种多方通话中语音转文本的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为一种多方通话中语音转文本的网络架构图，终端1至终端N建立了一个多方通话，并且终端1至终端N都启动了转文本的功能，在通话的过程中，终端1至终端N将语音流通过分组域发送给服务器，服务器将语音流转换为文本，服务器将文本发送给终端1至终端N。

实施例一

本发明实施例一提供一种多方通话中语音转文本的方法，如图2所示，该方法可以包括：

S201、服务器接收至少两个终端发送的转文本请求；

其中，转文本请求包括第一标识、第二标识；

可选的，服务器可以为运营商提供的服务器或者第三方提供的服务器。

转文本请求可以是在多方通话的过程中，设置在终端上的麦克风(Microphone，简称MIC)被启用时终端自动向服务器发送的；

可选的，设置在终端上的MIC被启用可以通过以下两种方式实现：

方式1、用户在拨打或接通电话时手动启用MIC。

方式2、用户在终端中设置的，当拨打电话或者接通电话时默认启用MIC。

需要说明的是，在实际应用中的过程中，可以根据实际需要设置终端上的MIC被启用的方式，本发明对此不做具体限定。

需要说明的是，转文本请求可以为信令的形式，也可以为消息的形式；本发明对于转文本请求的形式不进行具体限定；当转文本请求为信令形式时，可以为现有存在的信令，也可以为新设置的信令，本发明对于转文本请求的信令的类型也不进行具体限定。

还需要说明的是，转文本请求还可以包括其他的内容，例如，终端的用户名，邮件地址等，这些内容可以是用户在终端中预设的；在实际应用的过程中，可以根据实际需要在转文本请求中添加不同的内容，本发明对转文本请求所包括的具体内容不做限定。

可选的，第一标识和第二标识可以为终端的标识；

其中，通过终端标识可以唯一确定一个终端。

优选的，终端标识为终端的电话号码。

在多方通话的过程中，参与多方通话的终端包括主叫终端和被叫终端，主叫终端是指用户使用的主动向外拨打电话的终端，被叫终端是指用户使用的被动接听电话的终端。

具体的，第一标识可以为主叫终端的标识，相应的，第二标识为被叫终端的标识；或者，第一标识可以为被叫终端的标识，相应的，第二标识为主叫终端的标识。

示例性的，假设电话号码为123的终端1和电话号码为456的终端在通话的过程中(假设是终端1为主叫，终端2为被叫)，当终端1启用了转文本功能时，服务器则收到终端1的转文本请求为<123，456>；当终端2启用了转文本功能时，服务器则收到终端2的转文本请求为<123，456>。

S202、服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端分配的会话相同；

会话是指多方(包括双方)进行电话交流的一个过程，当一个多方通话建立完成，且参与多方通话的各方都已开启通话转文本功能，则为参与该通话的各方所使用的终端分配一个会话。

示例性的，若在一个多方通话中，有10个成员参与，且这10个参与者都已开启通话转文本功能，则为这10个参与者所使用的终端分配一个会话。

服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端分配的会话相同，可以包括以下三种情况：

情况1、服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同且第二标识相同的终端分配的会话相同；

示例性的，服务器接收到终端A的转文本请求1<123，456>，接收到了终端B的转文本请求2<123，456>，服务器为终端A的转文本请求中包括的第一标识123与终端B的转文本请求中包括的第一标识123相同，且终端A的转文本请求中包括的第二标识456与终端B的转文本请求中中包括的第二标识456相同，为终端A和终端B分配相同的会话，使得至少两个终端中发送的转文本请求中第一标识相同且第二标识相同的终端分配的会话相同。

情况2、服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同的会话相同；

示例性的，服务器接收到终端1向服务器发送转文本请求1<100，001>，接收到终端2的转文本请求2<100，002>，转文本请求1和转文本请求2的第一标识相同(都为100)，为终端1和终端2分配相同的会话，使得至少两个终端中发送的转文本请求中第一标识相同的会话相同。

情况3、服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第二标识相同的会话相同；

示例性的，服务器接收到终端1向服务器发送转文本请求1<001，100>，接收到终端2的转文本请求2<002，100>，转文本请求1和转文本请求2的第二标识相同(都为100)，为终端1和终端2分配相同的会话，使得至少两个终端中发送的转文本请求中第二标识相同的会话相同。

S203、服务器通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；

其中，一个多方通话对应一个会话；

分组域是指传输数据业务的链路；通过分组域传输的语音的采样率可以大于8KHz。

采样率，也可以称为采样频率，即每秒钟从连续信号中提取的采样个数，单位为赫兹(Hertz，简称Hz)；

优选的，服务器通过分组域接收参与会话的终端发送的采样率为16千赫兹(KiloHertz，简称KHz)。

需要说明的是，服务器在通过分组域接收参与会话的终端发送的采样率大于8KHz的语音流之前，终端和服务器之间需要建立数据连接，可选的，建立数据连接方式包括但不限于传输控制协议(Transmission Control Protocol，简称TCP)socket连接、超文本传送协议(HTTP-Hypertext transfer protocol，简称HTTP)连接等；通过上述数据连接方式实现在分组域传输终端向服务器发送的语音流。

S204、服务器将语音流转换为文本；

可选的，可以是在服务器上部署的语音识别引擎将语音流转化为通话的文本；

优选的，将语音流转换为通话的文本可以实时的进行。

需要说明的是，服务器将语音流转换为的文本为一个多方通话中的各个参与者的语音流转换后的文本，且文本中包括的内容是按照该多方通话中各个参与者的说话顺序进行排序的。

示例性的，一个多方通话包括3个参与者，分别参与者1、参与者2、参与者3，假设在该多方通话中，参与者1说：“大家认为在什么地方会谈比较合适”，接着参与者2说：“我认为在第一会议室比较合适”，接着参与者3说：“我认为在公司总部比较合适”；则服务器将该多方通话的语音流转换为的文本如下：

“大家认为在什么地方会谈比较合适；

我认为在第一会议室比较合适；

我认为在公司总部比较合适”。

S205、服务器向多方通话中的终端发送文本。

示例性的，假设多方通话中的参与者包括终端1、终端2、终端3；服务器接收终端1、终端2、终端3的语音流，将接收到3个终端的语音流转换为文本，并将文本发送给终端1、终端2、终端3。

可选的，服务器可以通过为每一个会话分配唯一的会话标识来区分不同的会话，且在服务器向至少两个终端分配会话时，将为该会话分配的会话标识发送给该会话的终端；

相应的，服务器通过分组域接收的一个多方通话中至少一个终端发送的采样率大于8KHz的语音流中也可以包括会话标识，以使得服务器进行会话的区分。

本发明实施例提供一种多方通话中语音转文本的方法，服务器接收至少两个终端发送的转文本请求；其中，转文本请求包括第一标识、第二标识；服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端分配的会话相同；通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，多方通话对应一个会话；将语音流转换为文本；向多方通话中的终端发送文本；由于服务器接收到的语音流为通过分组域接收的且采样率大于8KHz的语音流，分组域可以支持采样率高的语音流的传输，对接收到的语音流进行文本转换后得到的文本的准确度高；进一步的，该过程无需人工操作，较为快捷，节省人力和时间；综上可知，通过本发明所提供的方法可以实现省时省力且准确的获取多方通话中语音转换的文本，解决了现有技术中获取多方通话中语音转换的文本要么费时费力，要么不准确的问题。

实施例二

本发明实施例二提供一种多方通话中语音转文本的方法，如图3所示，该方法可以包括：

S301、服务器接收至少两个终端发送的转文本请求；

其中，转文本请求包括第一标识、第二标识。

需要说明的是，S301和S201相同，此处不再进行赘述。

S302、服务器向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端的会话相同；

具体的，服务器向至少两个终端分配会话包括以下两种情况：

情况1、数据库中不包括第二终端发送的转文本请求中的第一标识和第二标识，且第二终端发送的转文本请求中的第一标识与第三终端发送的转文本请求中的第一标识相同，且第二终端发送的转文本请求中的第二标识与第三终端发送的转文本请求中的第二标识相同，则向第二终端和第三终端分配同一个新的会话。

其中，数据库包括至少一个会话及与至少一个会话对应的终端标识；

可选的，数据库可以以表格的形式存储，如表1所示，示意出一种数据库：

表1

会话	终端的标识
		会话1	终端1、终端2
会话2	终端3、终端4、终端5
		会话3	终端8、终端9、终端10、终端11
......	......

需要说明的是，表1只是以表格的形式示意数据库的形式及内容，并不是对数据库的形式及内容的具体限定，当然，数据库也可以以其他的形式存储，也可以包括其他的内容，本发明对此不做具体限定。

示例1，电话号码为111的终端1和电话号码为222的终端2建立了一个通话，且终端1和终端2都启用了通话转文本功能，服务器收到：终端1的转文本请求1<111，222>，终端2的转文本请求2<111，222>；

假设数据库中不包括终端1和终端2发送的转文本请求中的第一标识(111)和第二标识(222)，又由于转文本请求1中的第一标识(111)和转文本请求2中的第一标识(111)相同，转文本请求1中的第二标识(222)和转文本请求2中的第二标识(222)相同，则为终端1和终端2配同一个新的会话4。

情况2、数据库包括第一终端发送的转文本请求中的第一标识或第二标识；

向第一终端分配数据库中，与第一终端发送的转文本请求中的第一标识或第二标识对应的会话；

其中，第一终端为至少两个终端中的任一个终端；

示例2，以情况1中的示例1为基础，在终端1与终端2的通话过程中，终端1又向电话号码为333的终端3拨打电话，使得终端3加入终端1和终端2的多方通话中，假设终端1和终端3都启用了通话转文本功能，服务器收到：终端1的转文本请求3<111，333>，终端3的转文本请求4<111，333>；

由于数据库中包括转文本请求3和转文本请求4中的第一标识(111)，且第一标识(111)对应的会话为会话4，则向终端1和终端3分配数据库中与第一标识(111)对应的会话4。

需要说明的是，在一个多方通话中，假设多方通话是由一个公共终端向多个参与者拨打电话建立的，或者多方通话是由多个参与者向一个公共终端拨打电话建立的，则该公共终端与参与者建立通话后，默认向服务器发送转文本请求，且在一个多方通话的过程中，该公共终端可以只在首次与参与者建立通话时向服务器发送一次转文本请求，服务器也只需为该公共终端分配一次会话。

示例性的，终端1(标识为111)在和公共终端(标识为100)建立一个多方通话后，终端1向服务器发送转文本请求1<111，100>，公共终端服务器发送转文本请求2<111，100>，服务器为终端1和公共终端分配会话1；在该多方通话中，终端2(标识为111)通过向公共终端(标识为100)拨打电话加入该多方通话，则终端2向服务器发送转文本请求1<222，100>，公共终端不再向服务器发送转文本请求，此时，服务器只向终端2分配会话1，不再向公共终端分配会话。

还需要说明的是，转文本请求中还可以包括会议标志位，会议标志位用于指示本次通话的参与方为两方或者多方(大于两方)；当第二终端发送的转文本请求中的第一标识与第三终端发送的转文本请求中的第一标识相同，且第二终端发送的转文本请求中的第二标识与第三终端发送的转文本请求中的第二标识相同，且会议标志位指示本次通话的参与方为两方时，则在为第二终端和第三终端分配会话时，则服务器无需判断数据库中是否包括第二终端和第三终端发送的转文本请求中的第一标识或第二标识，可以直接向第二终端和第三终端分配新的会话。

可选的，可以是用户在拨打电话时通过手动选择会议标志位所指示的内容，也可以是用户将一个电话号码设置为参与方为多方(大于两方)的类型，当用户拨打该电话时，默认选择会议标志位的内容指示参与方为多方(大于两方)；

示例性的，假设电话号码100为一个会议电话的公共号，用户将此电话号码设置为参与方为多方(大于两方)的类型，则用户在拨打该电话时，无需手动选择会议标志位所指示的内容，转文本请求中包括的会议标志位自动指示参与方为多方(大于两方)。

S303、服务器根据分配的会话更新数据库；

具体的，服务器根据分配的会话更新数据库的过程可以包括下述两种情况：

情况1、分配的会话为新的会话，服务器则将分配的会话与至少两个终端的标识建立对应关系，并将对应关系添加至数据库；

情况2、分配的会话为数据库中的会话，则将至少两个终端的标识中未包括于数据库的终端的标识添加至数据库中与分配的会话对应。

示例性的，假设服务器为终端12和终端13分配的会话为新的会话4，则服务器则将会话4与终端12和终端13的标识建立对应关系，并将该对应关系添加至数据库，若原数据库的形式如表1所示，则将该对应关系添加至数据库后，数据库如表2所示；

表2

会话	终端的标识
		会话1	终端1、终端2
会话2	终端3、终端4、终端5
		会话3	终端8、终端9、终端10、终端11
会话4	终端12、终端13
		......	......

进一步的，假设服务器为终端12终端14分配的会话为数据库中的会话4，由于数据库中已经包括了终端12的标识，不包括终端14的标识，则服务器将未包括于数据库的终端的标识(终端14)添加至数据库中与分配的会话对应，添加过终端14的标识后的数据库如表3所示：

表3

会话	终端的标识
		会话1	终端1、终端2
会话2	终端3、终端4、终端5
		会话3	终端8、终端9、终端10、终端11
会话4	终端12、终端13、终端14
		......	......

S304、服务器通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；

其中，多方通话对应一个会话；

需要说明的是，S304和S203相同，此处不再进行赘述。

还需要说明的是，一个多方通话中至少一个终端通过分组域向服务器发送采样率大于8KHz的语音流之前，终端和服务器之间还需要建立数据连接；

可选的，终端和服务器之间建立数据连接，通常由终端发起数据连接请求实现；终端发起的数据连接请求，可以与S301中的转文本请求中合并，作为一个请求，进而在终端和服务器之间建立数据连接，建立数据连接方式包括但不限于传输控制协议TCP socket连接、HTTP连接等，通过上述数据连接，使得服务器接收的语音流可以在分组域上传输。

当然，数据连接请求也可以与转文本请求为两个独立的请求，本发明对此不做具体限定。

还需要说明的是，S303和S304可以顺序执行，也可以同时执行，本发明对此不做具体限定。

S305、服务器将语音流转换为文本；

可选的，文本可以包括至少一个终端的标识；或者，文本可以包括至少一个终端的标识及用户名。

示例性的，用户A在电话号码为111终端(该终端的标识为111)中设置终端的用户名为“小明”；用户B在电话号码为222终端(该终端的标识为222)中设置终端的用户名为“小红”；且在S301中终端向服务器发送的转文本请求中包括了终端的用户名；在用户A和用户B的通话中，用户A说：“我们在什么地方签订合约”，用户B说：“在贵公司签订合约吧”，则在本次通话中，服务器将语音流转换为的文本如下所示：

“小明(111)：我们在什么地方签订合约；

小红(222)：在贵公司签订合约吧”。

S306、服务器向多方通话中的终端发送文本。

可选的，服务器可以是实时向多方通话中的终端发送文本，也可以是按照预设周期发送，也可以是当接收到多方通话中的终端发送的结束消息后发送；

具体的，服务器向多方通话中的终端发送文本的时刻可以包括但不限于以下四种情况：

情况1、服务器按照预设周期向多方通话中的终端发送该周期内的文本；

需要说明的是，在实际应用的过程中，可以根据实际需要设定预设周期，本发明对此不做具体限定。

示例性的，假设多方通话中的终端为终端1、终端2，预设周期为1分钟，则从终端1和终端2开始通话起，每隔一分钟，服务器向终端1和终端2发送这一分钟内对双方进行通话的文本。

情况2、当服务器接收到多方通话中所有终端发送的结束消息以后，向多方通话中所有终端发送文本；

结束消息是指通话结束的消息；

可选的，结束消息可以为挂机请求。

示例性的，假设多方通话中的终端为终端3、终端4、终端5；假设这3个终端同时开始通话，终端3先向服务器发送结束消息，终端4和终端5后向服务器发送结束消息，则当这3个终端都向服务器发送结束消息以后(终端4和终端5向服务器发送结束消息后)，服务器向这3个终端中的每一个终端都发送本次多方通话的文本。

情况3、当服务器接收到多方通话中的所有终端发送的结束消息以后，向多方通话中的各终端发送各终端参与过程中的文本；

示例性的，假设多方通话中的终端为终端6、终端7、终端8；假设这3个终端同时开始通话，终端6通话3分钟以后向服务器发送结束消息，终端7和终端8通话5分钟以后向服务器发送结束消息；

当服务器接收到终端6、终端7、终端8发送的结束消息后，向终端6发送其参与的3分钟内的终端6、终端7、终端8进行通话的文本；向终端7发送其参与的5分钟内的终端6、终端7、终端8通话的文本；向终端8发送其参与的5分钟内的终端6、终端7、终端8进行通话的文本。

情况4、当服务器接收到多方通话中第一终端发送的结束消息以后，仅向第一终端发送该终端参与过程中的文本；

示例性的，假设多方通话中的终端为终端9、终端10、终端11；假设这3个终端同时开始通话，终端9通话3分钟以后向服务器发送结束消息，终端10和终端11通话5分钟以后向服务器发送结束消息；

当服务器接收到终端9发送的结束消息以后，向终端9发送其参与的3分钟内的终端9、终端10、终端11进行通话的文本；

当服务器接收到终端10发送的结束消息以后，向终端10发送其参与的5分钟内的终端9、终端10、终端11进行通话的文本；

当服务器接收到终端11发送的结束消息以后，向终端11发送其参与的5分钟内的终端9、终端10、终端11进行通话的文本。

进一步的，在情况4中，在向第一终端发送该终端参与过程中通话的文本之后，所述方法还可以包括：

向数据库中，第一终端对应的会话所对应的所有终端发送第一终端参与过程中各个终端进行通话的文本；

示例性的，假设多方通话中的终端为终端12和终端13，当服务器收到终端12发送的结束消息，则服务器向终端12和终端13发送终端12参与过程中的终端12和终端13的进行通话的文本。

需要说明的是，上述四种情况只是以示例的形式说明服务器向多方通话中的终端发送文本的时刻，并不是对服务器向多方通话中的终端发送文本的时刻的限定，在实际应用的过程中，可以根据实际需要设定服务器向多方通话中的终端发送文本的时刻，本发明对此具体不做限定。

S307、服务器将接收第五终端发送的结束消息；

S308、服务器将数据库中，第五终端的标识移除；

示例性的，假设在数据库中，会话1对应的终端为终端1、终端2、终端3；服务器接收到终端1发送结束消息(挂断电话)，则服务器将数据库中，终端1的标识移除。

S309、若在数据库中，会话对应的终端的标识为空，则服务器将会话从数据库中移除；

示例性的，假设在数据库中，会话1对应的终端的标识为空，则服务器将第一会话从数据库中移除。

实施例三

本发明实施例三提供一种多方通话中语音转文本的方法的方法；

假设张三使用终端A向使用终端B的李四打电话，终端A的电话号码为123；终端B的电话号码为456；且张三在终端A中设置的终端A的用户名为张三；李四在终端B中设置的终端B用户名为李四；

以服务器和终端A以及终端B的交互过程为例对图3所述的方法进行说明，如图4所示，该方法可以包括：

S401、终端A向服务器发送转文本请求1；

示例性的，终端A在向终端B拨打电话以后，张三启动MIC，并且选择会议标志位指示本次通话为参与方大于两方的通话，则终端A向服务器发送转文本请求1<123，张三，456，TRUE>，表示张三(使用电话号码为123的终端)向使用电话号码为456的终端拨打参与方大于两方的电话。

S402、终端B向服务器发送转文本请求2；

示例性的，李四接通张三拨打的电话，并启动MIC，则终端B向服务器发送转文本请求2<123，456，李四>，表示电话号码为123的终端向电话号码为456的终端拨打电话。

S403、服务器判断转文本请求1和转文本请求2中包括的第一标识相同且第二标识相同，进一步判断转文本请求1中包括的会议标志位指示的参与方是否为大于两方；

若否，则执行S404；

若是，则执行S405。

S404、服务器向终端A和终端B分配新的会话；

示例性的，服务器为终端A和终端B分配新的会话1；

S405、服务器判断数据库中是否包括转文本请求1和转文本请求2中的第一标识或第二标识；

若否，则执行S406；

若是，则执行S408。

S406、服务器向终端A和终端B分配新的会话。

需要说明的是，在S404和S406之后需要执行S407。

S407、服务器则将分配的会话与终端A的标识和终端B的标识建立对应关系，并将对应关系添加至数据库；

示例性的，假设在S404或S406中为终端A和终端B分配的会话为会话1，则建立会话1与终端A的标识(123)和终端B的标识(456)之间的对应关系，并将该对应关系添加至数据库。

S408、服务器向终端A和终端B分配所述数据库中，与终端A和终端B发送的转文本请求中的第一标识或第二标识对应的会话。

示例性的，服务器判断数据库中包括转文本请求1和转文本请求2中的第二标识456(终端B的标识)，且在数据库中第二标识456对应的会话为会话2，则为终端A和终端B分配会话2。

S409、服务器将终端A的标识和终端B的标识中未包括于数据库的终端的标识添加至数据库中与分配的会话对应。

示例性的，服务器判断数据库中包括转文本请求1和转文本请求2中的第二标识456(终端B的标识)，不包括第一标识123(终端A的标识)，且在数据库中第二标识456对应的会话为会话2，则服务器将终端A的标识添加至数据库中与会话2对应。

S410、终端A通过分组域向服务器发送采样率大于8KHz的语音流；

示例性的，终端A通过分组域向服务器发送采样率大于8KHz的语音流：“我们的会议在什么地方举行”。

S411、终端B通过分组域向服务器发送采样率大于8KHz的语音流；

示例性的，终端B通过分组域向服务器发送采样率大于8KHz的语音流：“在公司总部第一会议室”。

S412、服务器将终端A和终端B发送的语音流转换为文本；

示例性的，以S410和S411中的示例为基础，服务器将终端A发送语音流转换为文本如下：

张三(123)：我们的会议在什么地方举行；

李四(456)：在公司总部第一会议室。

S413、终端A向服务器发送结束消息；

示例性的，终端A挂断电话后，向服务器发送结束消息“OVER”。

S414、服务器向终端A发送文本；

示例性的，以S412中的示例为基础，服务器向终端A发送文本如下：

张三(123)：我们的会议在什么地方举行；

李四(456)：在公司总部第一会议室。

S415、服务器将数据库中终端A的标识移除。

S416、终端B向服务器发送结束消息；

示例性的，终端B挂断电话后，向服务器发送结束消息“OVER”。

S417、服务器向终端B发送文本；

示例性的，以S412中的示例为基础，服务器向终端B发送文本如下：

张三(123)：我们的会议在什么地方举行；

李四(456)：在公司总部第一会议室。

S418、服务器将数据库中终端B的标识移除。

S419、服务器判断数据库中，会话对应的终端的标识为空，则将会话从数据库中移除。

示例性的，服务器判断会话3所对应的终端的标识为空，则服务器将会话3从数据库中移除。

实施例四

本发明实施例四提供一种多方通话中语音转文本的装置50，该装置50为上述实施例中所述的服务器的部分或全部，如图5所示，多方通话中语音转文本的装置50可以包括：

第一接收单元501，用于接收至少两个终端发送的转文本请求；其中，转文本请求包括第一标识、第二标识；

分配单元502，用于向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端的会话相同；

第二接收单元503，用于通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，多方通话对应一个会话；

转换单元504，用于将语音流转换为文本；

发送单元505，用于向多方通话中的终端发送文本。

进一步的，分配单元502具体可以用于：

若数据库包括第一终端发送的转文本请求中的第一标识或第二标识，向第一终端分配数据库中，与第一终端发送的转文本请求中的第一标识或第二标识对应的会话；其中，第一终端为至少两个终端中的任一个终端；数据库包括至少一个会话及与至少一个会话对应的终端标识；

若数据库中不包括第二终端发送的转文本请求中的第一标识和第二标识，且第二终端发送的转文本请求中的第一标识与第三终端发送的转文本请求中的第一标识相同，且第二终端发送的转文本请求中的第二标识与第三终端发送的转文本请求中的第二标识相同，则向第二终端和第三终端分配同一个新的会话。

可选的，文本可以包括至少一个终端的标识；或者，文本包括至少一个终端的标识及用户名。

进一步的，如图6所示，多方通话中语音转文本的装置50还可以包括：

添加单元506，用于若分配的会话为新的会话，则将分配的会话与至少两个终端的标识建立对应关系，并将对应关系添加至数据库；

添加单元506还可以用于，若分配的会话为数据库中的会话，则将至少两个终端的标识中未包括于数据库的终端的标识添加至数据库中与分配的会话对应。

第三接收单元507，用于接收第五终端发送的结束消息；

移除单元508，用于将数据库中，第五终端的标识移除；

移除单元508还可以用于，若在数据库中，会话对应的终端的标识为空，则将会话从数据库中移除。

本发明实施例提供一种多方通话中语音转文本的装置50，通过接收至少两个终端发送的转文本请求；其中，转文本请求包括第一标识、第二标识；向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端分配的会话相同；通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，多方通话对应一个会话；将语音流转换为文本；向多方通话中的终端发送文本；由于接收到的语音流为通过分组域接收的且采样率大于8KHz的语音流，分组域可以支持采样率高的语音流的传输，对接收到的语音流进行文本转换后得到的文本的准确度高；进一步的，该过程无需人工操作，较为快捷，节省人力和时间；综上可知，通过本发明所提供的方法可以实现省时省力且准确的获取多方通话中语音转换的文本，解决了现有技术中获取多方通话中语音转换的文本要么费时费力，要么不准确的问题。

实施例五

本发明实施例五提供一种多方通话中语音转文本的装置50，该装置50为上述实施例中所述的服务器中的部分或全部，如图7所示，该多方通话中语音转文本的装置50可以包括：

至少一个处理器701；至少一个通信总线702，用于实现装置之间的连接和相互通信，第一接收器703，第二接收器704，发送器705；

其中，通信总线702可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器701可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

第一接收器703，用于接收至少两个终端发送的转文本请求；其中，转文本请求包括第一标识、第二标识；

处理器701，用于向至少两个终端分配会话，使得至少两个终端中发送的转文本请求中第一标识相同或第二标识相同的终端的会话相同；

第二接收器704，用于通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流；其中，多方通话对应一个会话；

处理器701还可以用于，将语音流转换为文本；

发送器705，用于向多方通话中的终端发送文本。

进一步的，处理器701具体还可以用于：

进一步的，处理器701还可以用于：

若分配的会话为新的会话，则将分配的会话与至少两个终端的标识建立对应关系，并将对应关系添加至数据库；

若分配的会话为数据库中的会话，则将至少两个终端的标识中未包括于数据库的终端的标识添加至数据库中与分配的会话对应。

进一步的，如图8所示，多方通话中语音转文本的装置50还可以包括：

第三接收器706，用于接收第五终端发送的结束消息；

进一步的，处理器701还可以用于，将数据库中第五终端的标识移除；

处理器701还可以用于，若在数据库中，会话对应的终端的标识为空，则将会话从数据库中移除。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多方通话中语音转文本的方法，应用于服务器，其特征在于，所述方法包括：

将所述语音流转换为文本；

向所述多方通话中的终端发送所述文本，

其中，所述向所述至少两个终端分配会话，包括：

2.根据权利要求1所述的方法，其特征在于，所述文本包括所述至少一个终端的标识；或者，所述文本包括所述至少一个终端的标识及用户名。

3.根据权利要求1或2所述的方法，其特征在于，在所述向所述至少两个终端分配会话之后，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，在所述通过分组域接收一个多方通话中至少一个终端发送的采样率大于8KHz的语音流之后，所述方法还包括：

接收第五终端发送的结束消息；

将所述数据库中，所述第五终端的标识移除；

5.一种多方通话中语音转文本的装置，其特征在于，所述装置包括：

转换单元，用于将所述语音流转换为文本；

发送单元，用于向所述多方通话中的终端发送所述文本，

其中，所述分配单元用于：

6.根据权利要求5所述的装置，其特征在于，所述文本包括所述至少一个终端的标识；或者，所述文本包括所述至少一个终端的标识及用户名。

7.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

第三接收单元，用于接收第五终端发送的结束消息；