CN104756473B

CN104756473B - 处理并发语音

Info

Publication number: CN104756473B
Application number: CN201380053617.3A
Authority: CN
Inventors: 瑟奇·拉沙佩勒; 亚历山大·谢尔多斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-09-14
Filing date: 2013-09-13
Publication date: 2017-08-29
Anticipated expiration: 2033-09-13
Also published as: CN104756473A; US20140078938A1; EP2896194B1; EP2896194A2; WO2014043555A3; US9491300B2; US9313335B2; WO2014043555A2; US20170318158A1; US20170048394A1; US20160182728A1; US9742921B2; US10084921B2

Abstract

一种***具有一个或多个处理器和存储器，接收来自会话的第一和第二参与者的语音数据。该***输出第一参与者的语音。当第二参与者的语音在时间上重叠少于第一参与者的语音的末端部分的第一预定阈值量时，该***根据会话的参与者的语音的调整而输出第二参与者的语音。当第二参与者的语音在时间上重叠多于第一参与者的语音的末端部分的第一预定阈值量时，该***丢弃第二参与者的语音。可选地，该***通过延迟第二参与者的语音的输出来调整会话的参与者的语音。

Description

处理并发语音

背景技术

所公开的实施例通常涉及分布式客户端-服务器计算机网络***，并且具体涉及用于处理并发语音的***和方法。每天，都会举行成百上千的会议，特别是电话会议。不像那些现场会议，电话会议的出席者通常从不同地理位置参加并讲话。但是，由于缺乏视觉线索和其他原因，电话会议的出席者更可能在同时或者大约同时讲话，造成同时、并发或以其他方式重叠的讲话。尽管增加了该重叠讲话的可能性，电话会议的用户仍旧期望他们与其他用户通信是有序和有效的。

在会议***中，当许多出席者在同时或大约同时讲话时，讲话者的讲话可能在延长的时期内不会被听见，直到所有“早的”讲话已被输出。延长的延迟通常导致用户挫折和混乱，因为讲话者试图再讲一遍或者确定会议***是否有错误或数据丢失。当讲话频繁被打断时，该情形恶化，并且必须重复许多次才能被完全传递，降低了会议***的有效性。

发明内容

通过下面所述的所公开的***和方法来减少或消除上述的用于处理并发语音的常规方法的问题。

在许多情形下，提供有选择地消除并发语音但仍满足用户的使其讲话被适当处理或传递的感知的***和方法是有利的。特别是，基于一个或多个其他参与者的讲话的属性来有选择地调整特定参与者的讲话的输出，可以增加会议***的有效性，而没有以串行先入先出方式广播大量参与者讲话的伴随成本。

在一些实施例中，在服务器***处执行一种方法，该服务器***具有一个或多个处理器和存储器，所述存储器存储一个或多个程序，用于由所述一个或多个处理器执行，以便执行所述方法。所述方法包括：从会话的第一参与者接收语音数据，从该会话的第二参与者接收语音数据，以及输出第一参与者的语音。所述方法进一步包括：当第二参与者的语音与第一参与者的语音的末端部分在时间上重叠少于第一预定阈值量时，根据对该会话的参与者的语音的调整输出第二参与者的语音，以及当第二参与者的语音与第一参与者的语音的末端部分在时间上重叠多于该第一预定阈值量时，丢弃第二参与者的语音。在一些实施例中，所述方法可选地包括通过延迟第二参与者的语音的输出而根据对该会话的参与者的语音的调整输出第二参与者的语音。

根据一些实施例，一种计算机***(例如客户端***或服务器***)包括一个或多个处理器、存储器和一个或多个程序。所述一个或多个程序存储在存储器中并且被配置为由所述一个或多个处理器执行且所述一个或多个程序包括用于执行上述方法的操作的指令。根据一些实施例，一种非瞬时计算机可读存储介质在其中存储指令，当所述指令被一个或多个处理器执行时，使得计算机***(例如，客户端***或服务器***)执行上述方法的操作。

附图说明

为了更好理解所公开的实施例，下面应该参考实施例的描述，并且结合下面的附图，在附图中，相似的参考标记通篇指代对应的部件。

图1是根据一些实施例图示分布式客户端-服务器***的框图。

图2是根据一些实施例图示客户端***的框图。

图3是根据一些实施例图示服务器***的框图。

图4包括根据一些实施例图示用于处理并发语音的客户端-服务器***的流程图。

图5是根据一些实施例图示处理并发语音的方法的流程图。

图6是根据一些实施例图示处理并发语音的示例的框图。

图7是根据一些实施例图示处理并发语音的第二示例的框图。

图8是根据一些实施例图示处理并发语音的第三示例的框图。

图9是根据一些实施例图示处理并发语音的第四示例的框图。

图10是根据一些实施例图示处理并发语音的第五示例的框图。

具体实施方式

将理解，尽管这里可以使用术语“第一”、“第二”等来描述各种元素，但是这些元素不应被这些术语所限制。这些术语只用于区分一个元素和另一个元素。例如，第一参与者可以被称为第二参与者，并且类似地，第二参与者可以被称为第一参与者，而不会改变描述的含义，只要所有并发的“第一参与者”一致地被改名并且所有并发的“第二参与者”一致地被改名。第一参与者和第二参与者都是参与者，但是他们不是相同的参与者。

这里使用的术语的目的仅仅是描述特定实施例的目的，而不旨在是对权利要求的限制。如实施例的描述和所附权利要求中所使用的，单数形式“一”旨在也包括多数形式，除非上下文另外明确指出。也将理解，这里使用的术语“和/或”指的是并且包括一个或多个相关联的所列项目的任何和所有可能组合。还将理解，术语“包括”和/或“包含”，当在本说明书中使用时，规定所陈述的特征、整数、步骤、操作、元素和/或组件的存在，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合的存在或添加。

如这里使用的术语“如果”可以被解释为意味着“当……时”或“当”或“响应于确定”或“根据确定”或“响应于检测”所陈述的条件前提为真，取决于上下文。类似地，短语“如果确定[所陈述的条件前提为真]”或“如果[所陈述的条件前提为真]”或“当[所陈述的条件前提为真]时”可以被解释为意味着“当确定”或“响应于确定”或“根据确定”或“当检测”或“响应于检测”所陈述的条件前提为真，取决于上下文。

下面描述的实施例包括客户端和服务器***，典型地在分布式客户端-服务器***中互操作，以及处理并发语音的对应方法，其中，并发语音的某些部分被丢弃，或者被调整，以便有效率且有效地处理并发语音。

图1包括图示用于处理并发语音的分布式客户端-服务器***100的框图。分布式客户端-服务器***100包括一个或多个客户端***102(其代表这里被称为“客户端102”)、一个或多个调度服务器***106-A…106-N(其代表这里被称为“调度服务器106”)以及用于将客户端102连接到调度服务器106的通信网络104。通信网络104可选地包括因特网、一个或多个局域网(LAN)、一个或多个广域网(WAN)、其他类型的网络、或者这样的网络的组合。

客户端102可选地包括浏览器150和/或会议应用108。在一些实施例中，会议应用108是浏览器150的一部分。在一些实施例中，浏览器150是通用因特网浏览器(有时被称为web浏览器)，具有用于与会议***的其他用户通信-音频通信和/或视频通信，例如语音的浏览器窗口。web应用用户接口可选地使用由浏览器106呈现的超文本标记语言(HTML)或可扩展标记语言(XML)元素来实现。可替换地，用户与会议***的其他用户经由单机会议应用108来通信。在用户开始她与其他用户经由浏览器150或单机会议应用108的通信(音频和/或视频)之后，客户端102经由通信网络104中继语音数据——在一些实施例中包括音频和/或视频信息(或其一部分)以及对应的元数据(例如时间戳、通信的长度、格式化数据)——到调度服务器106。在一些实施例中，调度服务器106处理语音数据并且可选地将语音数据发射到一个或多个其他调度服务器106以便并行或串行处理。一旦语音数据(包括音频/视频信息和对应元数据)被一个或多个调度服务器106处理，其被发射回一个或多个客户端102，其中，音频和/或视频通信(例如，一个或多个语音)被传递到其各自用户。在一些实施例中，客户端102是电话。在一些实施例中，调度服务器106是以软件(例如，编程包)或硬件(例如，IC芯片)在客户端102上实现的。在一些实施例中，例如，其中，调度服务器106在客户端102上实现，语音数据在客户端102之间被发射，不通过中心化服务器。在一些实施例中，语音在一个客户端102和另一客户端102被不同地输出，例如具有不同的延迟量，或者以不同的速度。

在一些实施例中，在客户端102之间使用一致性算法以从客户端102收集信息，诸如，哪个语音或其一部分在哪个客户端102被传递或被忽略，以及在一个或多个特定客户端102语音被延迟了多长时间。在一些实施例中，根据所收集的信息，一致性算法还向调度服务器106提供一个或多个调度选项(例如，客户端反馈)，可以提供若干客户端102中的最好整体性能。在一些实施例中，一致性算法所收集的信息(包括调度选项)在它们被发射到调度服务器103之后，被存储在调度参数130中，以用于未来语音调度。在一些实施例中，为了避免或最小化可能造成用户混乱的在若干客户端102处传递语音的方式之间的不同，根据一致性算法所提供的信息，调度服务器106动态地调整语音输出。在一些实施例中，调度服务器106动态地调整语音输出，使得客户端102(不断地)收敛到一种状态，在此状态下，至少在多于预定义数量的客户端102处传递任一语音，或者在若干客户端102处传递的语音大致相同(根据输出速度或者语音的次序)。

在一些实施例中，调度服务器106包括前端服务器模块120、音频处理模块122、视频处理模块124、语音识别模块126、语音转录模块128、调度参数130、输出调度模块132和输出调整模块134。在一些实施例中，前端服务器模块120从一个或多个客户端102接收语音数据，将其中继到音频处理模块122、视频处理模块124或二者。在一些实施例中，前端服务器模块120还将从输出调度模块132或输出调整模块134接收到的输出语音发射到一个或多个客户端102用于传递。在一些实施例中，前端服务器模块120还通过将其中的音频/视频信息转换成可以易于被调度服务器106处理的格式而修改语音数据。音频处理模块122从语音数据中提取音频信息，并可选地提取对应的元数据，并且将其发射到输出调度模块132或语音识别模块126。在一些实施例中，视频处理模块124从语音数据中提取视频信息和对应的元数据，并且可选地，将其发射到输出调度模块132或语音识别模块126。在一些实施例中，音频处理模块122和视频处理模块124将音频和/或视频信息以及可选的对应元数据输出到语音识别模块126。在一些实施例中，语音识别模块126使用(在硬件或软件中实现的)语音识别技术来根据语音元数据识别音频和/或视频信息中的字母、单词、短语、术语、句子、语音语气或面部表情的改变等等。在一些实施例中，根据语音元数据，语音转录模块128将音频信息和/或视频信息的音频部分转录成文本。调度参数130包括输出调度信息，诸如语音分类、语音优先级以及讲话者角色。输出调度模块132接收音频和/或视频信息并且根据语音元数据和/或调度参数130在预定时间输出语音。可选地，输出调度模块132至少部分基于从语音识别模块126、语音转录模块128和调度参数130接收到的信息来确定预定输出时间。输出调整模块134可选地调整输出语音，例如添加进一步的延迟、去除现有延迟、加长或缩短语音内的暂停，以及使用一个或多个基音保持算法增加或减少语音速度。在一些实施例中，延迟语音是通过记录语音并且在预定时间间隔后回放记录的语音，可选地以比原始语音更快或更慢的速度，来获取的。

在一些实施例中，当存在多个服务器***(例如，调度服务器106-A…调度服务器106-N)时，来自客户端102的语音数据或者其一部分被发射到两个或更多的调度服务器106用于并行或串行处理和调度输出。在一些实施例中，输出调度模块132(例如，输出调度模块132-A…输出调度模块132N)，在多个服务器***内，互相通信以协调语音输出。在一些实施例中，从客户端102接收的语音数据被分成相等或不同长度的若干部分，并且相同语音的不同部分被发射到不同服务器***，特别是不同音频处理模块122(例如，音频处理模块122-A…音频处理模块122-N)，其中，它们被处理和调度用于输出。

图2是根据一些实施例图示客户端***102(这里也被称为“客户端102”)的框图。客户端102典型包括一个或多个处理单元CPU 202(这里也被称为处理器)、一个或多个网络或其他通信接口204、存储器206、包括显示设备和键盘、鼠标、触摸板、触摸屏或其他输入设备的用户接口205、以及用于互连这些组件的一个或多个通信总线208。通信总线208可选地包括互连并控制***组件之间的通信的电路(有时被称为芯片集)。存储器206典型包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备、或者其他非易失性固态存储设备。存储器206可选地包括远离CPU 202的一个或多个存储设备。存储器206，或可替换地，存储器206内的非易失性存储器设备，包括非瞬时计算机可读存储介质。在一些实施例中，存储器206，或可替换地，非瞬时计算机可读存储介质，存储下面的程序、模块和数据结构或其子集：

·操作***210，其包括用于处理各种基本***服务以及用于执行硬件依赖任务的流程；

·网络通信模块(或指令)212，用于经由一个或多个网络接口204(有线或无线)和一个或多个通信网络104(图1)，诸如因特网、其他广域网、局域网、城域网等将客户端102连接到其他计算机(例如，调度服务器106或其他客户端102)；

·浏览器150，用于加载网页，其可选地包括用于执行或解释会议应用108为嵌入应用网页的代码；

·会议应用108——例如单机会议客户端或web浏览器150中的嵌入程序(例如，互联网浏览器插件)——用于从客户端102向一个或多个调度服务器106发射用户通信(音频和/或视频，例如，语音)，并且从一个或多个调度服务器106接收通信以在客户端102传递；

·通信接口214，用于将包括音频和/或视频信息，以及对应的元数据的语音数据发射到一个或多个调度服务器106，并且经由通信网络104从调度服务器106接收输出语音(音频和/或视频，以及对应的元数据)；以及

·可选地，数据216包括与一个或多个用户通信相关联的、缓存的语音数据(例如，最近接收到或记录的音频/视频信息，对应的元数据、调度信息等等)。

在一些实现中，一个或多个上面标识的元素被存储在一个或多个前述的存储器设备中，并且对应于用于执行上述功能的指令集。上面标识的模块或程序(例如，指令集)不需要实现为单独的软件程序、流程或模块，因此这些模块的各种子集可以在各种实施例中被组合或重新安排。在一些实施例中，存储器206可选地存储上面所标识的模块和数据结构的子集。而且，存储器206可以存储上面没有描述过的额外的模块和数据结构。

图3是根据一些实施例图示会议调度服务器***106(这里也被称为“调度服务器106”)的框图。调度服务器106典型包括一个或多个处理单元CPU 302(这里也被称为处理器)、一个或多个网络或其他通信接口308、存储器306、以及用于互连这些组件的一个或多个通信总线308。通信总线308可选地包括互连并控制***组件之间的通信的电路(有时被称为芯片集)。存储器306包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备、或者其他非易失性固态存储设备。存储器306可选地包括远离CPU 302的一个或多个存储设备。存储器306，或可替换地，存储器306内的非易失性存储器设备，包括非瞬时计算机可读存储介质。在一些实施例中，存储器306，或可替换地，非瞬时计算机可读存储介质，存储下面的程序、模块和数据结构或其子集：

·操作***310，其包括用于处理各种基本***服务以及用于执行硬件依赖任务的流程；

·网络通信模块(或指令)312，用于经由一个或多个网络接口304(有线或无线)和一个或多个通信网络104(图1)，诸如因特网、其他广域网、局域网、城域网等将调度服务器106连接到其他计算机(例如，客户端102或其他调度服务器106)；

·前端服务器模块120，用于接收语音数据和以并行或预定义顺序将其中继到音频处理模块122和/或视频处理模块124，并且将输出语音发射到一个或多个客户端102以用于传递；

·音频处理模块122，用于根据对应元数据来处理语音数据中包括的音频信息，并且将音频信息和/或对应的元数据发射到语音识别模块126以用于将来处理，或者可替换地发射到输出调度模块132以用于输出；

·可选地，视频处理模块124，用于根据对应元数据来处理语音数据中包括的视频信息，并且将视频信息和/或对应的元数据发射到语音识别模块126以用于将来处理，或者可替换地发射到输出调度模块132以用于输出；

·可选地，语音识别模块126，用于根据对应元数据来识别音频和/或视频信息中字母、单词、短语、术语或句子、参会者的语音语气或面部表情的改变等；

·可选地，语音转录模块128，用于根据对应元数据将音频信息和/或视频信息转录成对应文本；

·可选地，调度参数130，其包括关于语音分类、语音/讲话者优先级、讲话者角色、历史参与者行为(例如，参与者通常是慢还是快讲话者，以及参与者是否具有过去长时讲话不被打断的倾向)以及客户端反馈的过去或当前调度信息；

·输出调度模块132，用于在预定时间根据对应元数据输出语音(音频和/或视频信息)，和/或从语音识别模块126、语音转录模块128和调度参数130接收的信息；

·可选地，输出调整模块134，用于调整输出语音，例如，通过添加进一步延迟、去除现有延迟、延长或缩短语音中的暂停、以及使用基音保持算法增加或降低语音速度，如下面参考图7-10更详细所述；以及

·可选地，数据314，其包括与一个或多个用户通信相关联的、缓存的语音数据(例如，最近接收的语音数据、语音等待调度输出等)。

在一些实现中，一个或多个上述标识的元素被存储在一个或多个前述的存储设备中，并且对应于用于执行上述功能的指令集。上面标识的模块或程序(例如，指令集)不需要实现为单独的软件程序、流程或模块，因此这些模块的各种子集可以在各种实施例中被组合或以其他方式重新安排。在一些实施例中，存储器306可选地存储上面所标识的模块和数据结构的子集。而且，存储器306可选地存储上面没有描述过的额外的模块和数据结构。

尽管图3示出了“调度服务器***106”，但是图3更想要的是对可能在服务器集合中出现的各种特征的功能性描述，而不是对这里所述的实施例的结构性示意。实践中，并且如本领域普通技术人员所认识到的，单独示出的项目可以组合并且一些项目可以被分开。例如，在图3中单独示出的一些项目可以在单一服务器上实现，而单一项目可以由一个或多个服务器实现。用于实现“调度服务器***106”的服务器的实际数目以及其中怎样分配特征，将根据实现的不同而变化，并且可选地，部分取决于在峰值使用时期期间以及在平均使用时期期间***必须处理的数据业务的量。

图4包括根据一些实施例图示用于在服务器***处处理从客户端***接收到的并发语音并且输出语音或者其一部分且进行调整的方法的流程图。方法400可选地由存储在非瞬时计算机可读存储介质中且由一个或多个服务器(例如，图3中的调度服务器106)的一个或多个处理器来执行的指令来管理。图4中所示的操作典型地对应于存储在计算机存储器或非瞬时计算机可读存储介质(例如，图3中的调度服务器106的存储器306)中的指令。在一些实现中，非瞬时计算机可读存储介质包括磁盘或光盘存储设备、诸如闪存存储器的固态存储设备、或者其他非易失性存储器设备。在一些实现中，存储在非瞬时计算机可读存储介质上的计算机可读指令包括以下中的一个或多个：源代码、汇编语言代码、对象代码、或者一个或多个处理器所解释或执行的其他指令格式。在各种实施例中，方法400中的一些操作可以被组合和/或一些操作的次序可以从图4中所示的次序而改变。

在一些实施例中，客户端102-A向调度服务器106发送(402)来自会话(例如，在客户端102和调度服务器106之间建立的电话会议会话)的第一参与者的语音数据。在一些实施例中，在预定义阈值时间间隔内(例如，在相同时间或大约相同时间)，客户端102-B还向调度服务器106发送(404)来自会话的第二参与者的语音数据。调度服务器106然后接收来自会话的第一参与者的语音数据(406)和来自会话的第二参与者的语音数据(408)。在一些实施例中，并发语音包括在客户端102处在阈值时间间隔内进行的语音以及由调度服务器106在阈值时间间隔内接收的语音。在一些实施例中，在从第一和第二参与者接收到语音数据之后，调度服务器106还从会话的其他参与者(例如，会话的第三和/或第四参与者)接收(410)语音数据。调度服务器106然后将第一参与者的语音输出(412)到一个或多个客户端102。在一些实施例中，在输出第一参与者的语音之后，客户端102-A(414)和客户端102-B(416)都接收第一参与者的语音。在一些实现中，由客户端102以预定义的顺序接收第一参与者的语音。在一些实施例中，预定义的顺序是至少部分基于调度参数130以及语音数据中包括的元数据(例如，讲话者优先级、讲话者身份、语音的长度等等)来确定。可替换地，在其他实现中，第一参与者的语音由客户端102-A和102-B基本上同时接收。

在一些实施例中，在输出来自第一参与者的语音之后，调度服务器106确定(418)第二参与者的语音是否在时间上重叠多于第一参与者的语音的末端部分的第一预定阈值量。在一些实施例中，如果第二参与者的语音没有(420“否”)在时间上重叠多于第一参与者的语音的末端部分的第一预定阈值量，则调度服务器106根据会话的参与者的语音的调整来输出第二参与者的语音。换句话说，如果第一和第二参与者的语音没有互相重叠，或者重叠小于第一预定阈值，则第二参与者的语音通过调整而输出。在一些实施例中，预定阈值量是阈值段时间，其持续时间选自100毫秒到1000毫秒的范围。在一些实施例中，第一预定阈值量是阈值段时间，其持续时间选自1秒到10秒的范围。在一些实施例中，第一预定阈值量是阈值段时间，其持续时间选自5秒到40秒的范围。在一些实施例中，预定阈值量是10、20、30、40、50、60、70或80毫秒，或者大于1秒。

在一些实施例中，由调度服务器106在时间上调整语音，而没有用户介入。在其他实施例中，由用户和调度服务器106二者来在时间上调整语音。在一些实施例中，用户的在时间上的调整和调度服务器106的在时间上的调整被分配有不同的优先级。当用户的在时间上的调整与调度服务器106的调整相冲突时，高优先级的在时间上的调整推翻低优先级的调整。

在一些实施例中，单个参与者的语音被调整。在其他实施例中，会话的两个或更多参与者的语音被调整。在一些实施例中，第二参与者的语音被在时间上调整；在其他实施例中，第一和第二参与者以外的参与者的语音被调整。在一些实施例中，第一参与者的语音被在时间上调整。在下面参考图7-10更详细描述语音的在时间上的调整。

在一些实施例中，如果第二参与者的语音确实(424“是”)在时间上重叠多于第一参与者的语音的末端部分的第一预定阈值量，则调度服务器106丢弃(426)第二参与者的语音。换句话说，如果第一和第二参与者的语音重叠多于第一预定阈值，则第二参与者的语音被丢弃。在一些实施例中，丢弃语音包括不将语音输出到会话的一个或多个参与者。在其他实施例中，丢弃语音包括将语音输出到会话的一些而非全部参与者——例如，将语音输出到第一或第二参与者以外的参与者，或者将语音输出到原始讲话者，而不输出到会话的其他参与者。该方法增加了会议***的有效性，因为通过有选择地丢弃与其他语音重叠的语音而使并发或重叠的语音被减少或消除。当丢弃的语音输出到其原始讲话者，使得讲话者总是听到(或者观看到)其自己的语音时，该方法还满足了用户的其语音被适当处理的感知。在一些实施例中，预定阈值量是阈值期时间，其持续时间选自100毫秒到1000毫秒的范围。在一些实施例中，第一预定阈值量是阈值段时间，其持续时间选自1秒到10秒的范围。在一些实施例中，第一预定阈值量是阈值段时间，其持续时间选自5秒到40秒的范围。在一些实施例中，第一预定阈值量是10、20、30、40、50、60、70或80毫秒，或者大于1秒。

在一些实施例中，在第二参与者的语音被输出或丢弃之后，调度服务器106将会话的其他参与者的语音(例如，第三参与者的语音)输出(428)到一个或多个客户端102。在其被输出之后，在一些实施例中，其他参与者(例如，第三参与者)的语音被客户端102-A(430)和客户端102-B(432)接收，并且被传递到其各自用户。

在一些实施例中，当第三参与者的语音在时间上至少部分地与第一参与者的语音和第二参与者的语音相重叠时，根据会话的参与者的语音的调整而输出第二参与者的语音包括：当会话中第二参与者的优先级高于第三参与者的优先级时，在第三参与者的语音之前输出第二参与者的语音。换句话说，如果第三参与者的语音重叠第一参与者和第二参与者二者两者的语音，则调度服务器106根据会话的参与者的语音的调整而输出第二参与者的语音，诸如当第二参与者与比第三参与者更高的优先级相关联时(例如，第二参与者被认为是更高优先级的讲话者)在第三参与者的语音之前输出第二参与者的语音。在一些其他实施例中，第二和第三参与者的优先级是基于先入先出(FIFO)、基于角色(例如，主要讲话者、打断讲话者等等)、基于社交网络状态、或投票数而确定的。基于社交网络状态的示例是打断讲话者(例如，第二讲话者、第三讲话者)和第一讲话者之间的关系。在使用社交网络状态基础来确定讲话者优先级的示例中，将首先播放被认为具有与第一讲话者更紧密关系的打断讲话者的语音，将稍后播放或者丢弃其他打断讲话者的语音。在另一示例中，将首先播放被认为具有与会话的参与者整体更紧密关系的打断讲话者的语音，而将稍后播放或丢弃其他打断讲话者的语音。在使用社交网络状态基础确定讲话者优先权的另一示例中，在会话期间接收到会话中其他参与者最多投票(例如，最多“喜欢”)从而将首先播放具有与第一讲话者更紧密关系的打断讲话者的语音，将稍后播放或丢弃其他打断讲话者的语音。在这样的示例中，如果其他人喜欢讲话者在会话期间所说的内容并且肯定投票或赞成讲话者的话，会话中讲话者的优先级可以实际上增加。在一个这样的情况中，参与者可以为另一讲话者投出多于一个投票。在另一种情况中，参与者在会话的每个预定时间间隔中可以为会话的另一讲话者投出多于一个投票(例如，每分钟允许每参与者一个投票)。

应该理解，描述图4中操作的特定次序仅仅是示例性的，并且不旨在表示所述次序是可以执行操作的唯一次序。本领域普通技术人员将认识到各种方式来对这里所述的操作进行重新排序。此外，应该注意：这里所述的关于方法500的(这里结合图5所述的)其他处理的细节还可以相似方式适用于上面结合图4所述的方法400。例如，上面结合方法400所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠可以具有以下一个或多个特征：这里参考方法500所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠。为了简短，这里不再重复这些细节。

图5包括根据特定实施例的表示处理服务器***处的并发语音的方法的流程图。方法500可选地由存储在非瞬时计算机可读存储介质中且可由一个或多个服务器(例如，图3中的调度服务器106)的一个或多个处理器执行的指令控制。在一些实现中，图5中所示的每项操作对应于在计算机存储器或非瞬时计算机可读存储介质(例如，图3中调度服务器106的存储器306)中存储的指令。在一些实现中，非瞬时计算机可读存储介质包括磁盘或光盘存储设备、诸如闪存存储器的固态存储设备、或其他非易失性存储器设备。在一些实现中，非瞬时计算机可读存储介质上存储的计算机可读指令包括以下中的一个或多个：源代码、汇编语言代码、对象代码、或由一个或多个处理器解释或执行的其他指令格式。在各种实施例中，方法500中的一些操作可以被组合和/或一些操作的次序可以从图5中所示的次序而改变。

在一些实施例中，在会议开始之前，根据贝叶斯模型(下面更详细公开)预测会议动态的先验概念(贝叶斯先验)。在一些实施例中，在会议开始之前，基于预测的会议动态，确定一个或多个调度选项。在一些实施例中，在会议开始之前选择将最大化会议***的性能的调度选项。

在一些实施例中，在会议开始之后，调度服务器106首先从会话的第一参与者接收(502)语音数据。在一些实施例中，在从第一参与者接收语音数据之后，调度服务器106还从会话的第二参与者接收(504)语音数据。在一些情形中，第一参与者的语音和第二参与者的语音在时间上互相重叠，并且，如果无调整地输出任一语音，将构成并发语音。如上所讨论，并发语音包括在预定义阈值时间间隔内由不同参与者发出的语音，以及在预定义阈值时间间隔内由调度服务器106接收的语音。在一些实施例中，预定义阈值时间间隔是根据贝叶斯模型计算的。在一些实施例中，贝叶斯模型包括来自语音识别模块(126)、语音转录模块(128)的信息以及语音的定时信息。在一些实施例中，由调度服务器106使用贝叶斯模型来确定在未来会议中或特定参与者的未来语音中可能出现什么，例如，特定参与者可能讲话多长时间，以及估计的若干特定参与者的语音之间重叠的量。在一些实施例中，贝叶斯模型周期性更新为来自上面标识的源的新数据。

在一些实施例中，动态地为各个语音确定预定义阈值时间间隔。在一些实施例中，预定义阈值时间间隔包括调度服务器106决定输出语音或延迟语音直到潜在并发语音到达的一段时间。在一些实施例中，延迟语音的预定义阈值时间间隔是根据来自贝叶斯模型的信息而确定的，使得在调度服务器106决定是否寻找潜在并发语音之前语音仅被延迟(如果需要被延迟的话)尽可能小的量。

在一些实施例中，预定义阈值时间间隔是阈值段时间，其持续时间选自100毫秒到1000毫秒的范围。在一些实施例中，预定义阈值时间间隔是阈值段时间，其持续时间选自1秒到10秒的范围。在一些实施例中，预定义阈值时间间隔是阈值段时间，其持续时间选自5秒到40秒的范围。在一些实施例中，预定义阈值时间间隔是10、20、30、40、50、60、70或80毫秒，或者大于1秒。

在一些实施例中，调度服务器106输出第一参与者的语音(506)。在一些实施例中，第一参与者的语音在其一被接收到就被输出，没有延迟。在一些实施例中，第一参与者的语音被调度服务器106延迟预定义阈值时间间隔，以寻找任何潜在并发语音。在一些实施例中，在第一参与者的语音被延迟的预定义阈值时间间隔内，还接收到第二参与者的语音。在一些实施例中，第一和第二参与者的语音因此被认为是并发的，因为它们都在预定义阈值时间间隔内接收到。

在一些实施例中，在将第一参与者的语音延迟预定义阈值时间间隔之后，在此预定义阈值时间间隔期间没有接收到任何其他语音(例如，无并发语音出现)，将第一参与者的语音增速(“加速”)输出，以最小化任何***有关延迟的感知。在一些实施例中，一个或多个因素——例如来自贝叶斯模型的因素——被用来动态确定(例如，扩大或减小)预定义阈值时间间隔，在此预定义阈值时间间隔期间调度服务器106寻找可能的并发语音。

在一些情形中，当第二参与者的语音在时间上重叠多于第一参与者的语音的末端部分的第一预定义阈值量时，调度服务器106丢弃(512)第二参与者的语音。如上所讨论的，丢弃语音包括不输出语音或者其一部分，以及将语音输出到相同会话的一些而非全部参与者。

在一些其他情形中，当第二参与者的语音在时间上重叠小于第一参与者的语音的末端部分的第一预定阈值量时，调度服务器106根据会话的参与者的语音的调整(例如，由输出调整模块134)输出(508)第二参与者的语音。

在一些实施例中，会话的参与者的语音的调整包括延迟(510)第二参与者的语音的输出。在一些实施例中，延迟第二参与者的语音的输出包括以下中的一个或多个：(1)延迟第二参与者的语音的输出直到已经输出第一参与者的语音(例如，第二参与者的语音在第一参与者的语音之后被输出)；(2)延迟第二参与者的语音的输出直到第一参与者的语音中出现暂停(例如，第二参与者的语音被延迟并在第一参与者的语音中的暂停(有时称为“自由时间”)期间被输出)；(3)根据第二参与者和第一参与者之间的关系来延迟第二参与者的语音的输出(例如，基于与第一和第二参与者相关联的讲话者角色延迟第二参与者的输出)；(4)根据第二参与者的语音的内容的分类来延迟第二参与者的语音的输出，由语音识别模块126和/或语音转录模块128确定(例如，第二参与者的语音是否对第一参与者的语音的回答或澄清，或者第二参与者的语音是否可以被分类为打断语音或主语音、高优先级语音或低优先级语音，参见下面参考图7-10的更多细节)；(5)响应于会话中提示的识别而输出第二参与者的语音(例如，预定义短语，诸如“有问题吗”等，预定义句子，诸如“下一个问题”等，语气的变化，或者参会者面部表情的变化(如果语音包括视频信息))；(6)响应于特定用户输入(例如，用户在浏览器106或会议应用108中显示的“立即输出”按钮上点击，或者用户按下电话或移动电话上的相似按钮)，输出第二参与者的语音。

在其他实施例中，会话的参与者的语音的调整还包括使用输出调整模块134来加快(“加速”)或减慢(“减慢”)第一参与者的语音的输出。在一些实施例，当一些讲话者是慢速讲话者，并且一些其他讲话者是快速讲话者，慢速讲话者的语音被加快大于快速讲话者。在一些实施例中，讲话者是快速讲话者还是慢速讲话者是根据讲话者的语音的转录而确定的。在一些实施例中，讲话者是快速讲话者还是慢速讲话者是通过为讲话者记录的档案基于讲话者过去的语音而确定的。在一些实施例中，以某种方式(例如，由于语音具有较低优先级的音素)延迟的语音以增加的速度(“加速”)被输出以最小化用户关于延迟的感知。

在一些实施例中，对第一参与者的语音的输出“加速”或“减速”是通过使用音频时间标度-基音修改算法对第一参与者的语音加快或减速，或者(ii)通过缩短或去除语音内的一个或多个暂停而获得的。在一些其他实施例中，会话的参与者的语音的调整进一步包括(i)当第一参与者的语音的长度超过预定时间阈值时，切断第一参与者的语音，以及(ii)当已经切断第一参与者的语音时，输出第二参与者的语音。换句话说，长语音至少暂时会被切断，以便输出已被延迟太长的另一语音。在一些实施例中，预定时间阈值是范围在100毫秒到1000毫秒的时间量。在一些实施例中，预定时间阈值是一段时间，其持续时间选自1秒到10秒的范围。在一些实施例中，预定时间阈值是5秒到40秒的范围。在一些实施例中，预定时间阈值是10、20、30、40、50、60、70或80毫秒，或者大于1秒。

应该理解，描述图5中操作的特定次序仅仅是示例性的，并且不旨在指示所述次序是可以执行操作的唯一次序。本领域普通技术人员将认识到各种方式来对这里所述的操作进行重新排序。此外，应该注意：这里所述的关于方法500的(这里结合图5所述的)其他处理的细节还可以相似方式适用于上面结合图4所述的方法400。例如，上面参考方法500所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠可以具有以下中的一个或多个特征：这里参考方法400所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠。为了简短，这里不再重复这些细节。

图6图示了根据一些实施例处理并发语音的示例。如图6中所示，四个讲话者(讲话者1-4)通过一个或多个客户端102在相同或大约相同时间(时间＝T1)讲话。来自讲话者1-4的语音数据(SP 1-4)——包括音频和/或视频信息，以及对应元数据——然后被发射到调度服务器106。调度服务器106处理语音数据并且有调整或无调整地输出语音。

如图6中所示，SP 1(讲话者1的语音)在时间＝T2或大约在该时间输出。在一些实施例中，T2等于T1。换句话说，SP 1当被接收时输出(例如，没有延迟)。在其他实施例中，T2在T1之后。在一些情形中，T1和T2之间的时间间隔来自非人工延迟(或内在延迟)，诸如网络等待时间(诸如通信网络104(图1)内的等待时间)，和/或设备等待时间(诸如调度服务器106或客户端102内的处理等待时间)。在其他情形中，T1和T2之间的时间间隔来自人工延迟，诸如调度服务器106有意或故意增加的延迟。

在SP 1的输出之后，也输出SP 2(讲话者2的语音)。在这个示例中，在SP 1之后立即输出SP 2，例如，以最小化***空闲，或者获取特定通信用途，诸如保持语音之间的连贯。在其他实施例中，在SP 1的结尾和SP 2的开始之间添加人工延迟，例如，以提供清晰度。

如图6中所示，在输出SP 2之后，SP 3和SP 4在同时或大约同时输出，作为并发或重叠语音。在一些实施例中，允许预定义程度的并发或重叠，例如，当语音音量高时，以便增加吞吐量。在一些实施例中，预定义程度的并发是可修改的，由客户端102的用户通过浏览器106或会议应用108中显示的接口控件(例如，按钮)，或者由调度服务器106，根据调度参数130和/或语音元数据来控制。参看图6，在一些可替换实施例中，丢弃SP 3或SP 4。

图7图示了根据一些实施例处理并发语音的第二示例。在这个示例中，为了处理并发语音，根据语音元数据延迟或丢弃特定语音。

如图7中所示，三个讲话者(讲话者1-3)在同时或大约同时讲话(时间＝T1)。来自讲话者1-3的语音数据(SP 1-3)——包括音频和/或视频信息，以及对应元数据——被发射到调度服务器106。调度服务器106处理语音数据，并且以各种调整输出对应语音。

基于所接收到的语音数据，调度服务器106将SP 2(来自讲话者2的语音)分类为主语音。根据这个分类，SP 2首先被输出，没有调整(例如，原样)。在一些实施例中，语音的分类至少部分地基于语音数据。例如，如果语音的内容包括满足预定义重要准则集的术语，则语音被分类为主语音。在另一示例中，如果语音元数据包括满足预定义重要准则集合的信息(例如，语音的长度或语音的定时)，则语音被分类为主语音。在其他实施例中，语音分类根据语音数据而做出，诸如基于预先存在的讲话者之间的关系。例如，SP 2被分类为主语音，因为讲话者2在组织中是讲话者1和3的上级。

在SP 2的输出之前或期间，调度服务器106将SP 1分类为打断语音，因为SP 2重叠SP 1即主语音的较早部分。在一些实施例中，打断语音被丢弃或延迟，直到检测到主语音内的暂停。这里，因为SP 1不包括暂停，而且因为SP 2重叠SP 1的较早部分(打断SP 1“太早”)，SP 2被丢弃(被示为“X”)。

在一些实施例中，在预定的语音管理策略集合下，语音被调度服务器106丢弃。在一些实施例中，语音管理策略集合包括确定语音为打断语音且重叠主语音的较早部分(例如，打断太早)。在其他实施例中，语音管理策略包括确定语音被延迟了多于预定时间量。在实现中，当语音处于用于调度输出的队列中，语音管理策略包括确定语音处于输出队列中已多于预定时间量。换句话说，当语音被认为“旧”时就被丢弃。在一些情形中，旧语音被丢弃是因为其可能由于会谈焦点的推移而已变得与会话无关。在一些实施例中，当语音被延迟多于1秒、多于5秒、多于10秒、多于20秒或多于1分钟时就被认为是旧的。

在一些实施例中，语音还响应于特定用户输入，诸如用户点击浏览器106或会议应用108中的“丢弃”按钮，而被丢弃。在一些情形中，通过防止重要语音在早期阶段被打断从而不必在其完全传递之前被重复，丢弃语音增加了通信有效性和语音清晰度。

在SP 2的输出之前或期间，调度服务器106还确定SP 3重叠SP 2的较后部分。根据这一确定，SP 3在SP 2之后调整输出。在这个示例中，调度服务器106有意地或故意地使SP3(讲话者3的语音)的输出延迟时间间隔DLY1(702)。在一些实施例中，有意添加的延迟量与语音的内容或分类成比例。例如，重要语音和打断语音之间希望具有更大的延迟，以便向听众给出足够时间来消化重要语音的内容。但是，在另一示例中，在陈述与对其的澄清之间希望具有较小的延迟或没有延迟，以便最小化混淆。

图8图示了根据一些实施例处理并发语音的第三示例。在这个示例中，根据讲话者角色，并且通过修改后的延迟，处理并发语音。

如图8中所示，具有不同角色的四个讲话者——主讲话者、打断讲话者、高优先级讲话者和低优先级讲话者——在同时或大约同时(时间＝T1)讲话。在一些实施例中，讲话者角色是独立于语音数据而确定的，例如基于预先存在的讲话者之间的关系。在其他实施例中，至少部分地基于语音数据，诸如语音的内容、与语音相关联的时间戳、语音的长度和语音的分类而确定讲话者角色。在一些实施例中，语音优先级是从讲话者角色或讲话者优先级导出的。

在图8中所示的示例中，SP 2(主讲话者的语音)被接收和输出，而没有调整。SP 1(打断讲话者的语音)被丢弃(“X”)，因为其通过重叠SP 2的较早部分而与主讲话者相干扰。

在一些实施例中，具有与预定义阈值优先级相等或更高的优先级的语音不被丢弃，即使该语音重叠主语音。例如，SP 3(高优先级讲话者的语音)不被丢弃，尽管SP 3(像SP1)也重叠SP 2的一部分。因为SP 3来自高优先级的讲话者，调度服务器106在SP 2之后输出SP 3，而不是丢弃SP 3。类似地，SP 4(低优先级讲话者的语音)也不被丢弃。在一些实施例中，较高优先级语音在较低优先级语音之前输出。例如，SP 4在SP 3之后被输出，因为SP 3比SP 4具有更高优先级。

在一些实施例中，根据确定主语音超过预定长度，在主语音之后输出的语音通过缩短其中所包括的延迟而调整(例如，去除主语音内的暂停)。在一个这样的示例中，SP 3和SP 4都包括暂停：分别是DLY 3(802)和DLY 4(804)。因为SP 3和SP 4都在SP 2(主语音)之后输出，并且SP 2超过预定阈值长度，SP 3和SP 4内的暂停——DLY 3(802)和DLY 4(804)——分别被缩短为DLY 3’(806)和DLY 4’(808)。该方法不仅通过丢弃打断语音而增加了语音清晰度，而且通过在低优先级语音之前输出高优先级语音而增强了用户体验。在一些实施例中，预定阈值长度是范围在100毫秒到1000毫秒的时间量。在一些实施例中，预定阈值长度是一段时间，其持续时间选自1秒到10秒的范围。在一些实施例中，预定阈值长度的范围为5秒到40秒。在一些实施例中，预定阈值长度为10、20、30、40、50、60、70或80毫秒，或者大于1秒。

在一些实施例中，在客户端102处，浏览器150或会议应用108的用户接口(“UI”)根据讲话者角色而被确定。例如，在一些实现中，主讲话者的用户接口包括“丢弃”按钮，当被点击时，丢弃另一讲话者的正在进行的语音(由此使得主讲话者能够在主讲话者觉得合适的任何时候打断其他讲话者)。在一些实现中，根据确定讲话者被分类为打断讲话者或低优先级讲话者，该讲话者的浏览器150或会议应用108中的“丢弃”按钮变得不可用(例如，“变灰”)，由此避免打断讲话者或低优先级讲话者能干扰主讲话者或高优先级讲话者的情形。

在一些实施例中，浏览器150或会议应用108的用户接口还包括一个或多个用户控件，所述一个或多个用户控件提供会议***的使用信息和/或会话中参与者或语音的状态信息。在一些实现中，使用信息包括：当前等待输出的语音的数量(例如，输出队列的大小)。在一些实施例中，包括使用信息的转换。例如，输出队列的大小被转换并显示为当前等待输出的语音的总长度(例如，当输出队列接近满时为10秒，或当队列接近空时为10毫秒)。

会话中参与者或语音的状态信息在一些实现中包括：延迟语音在输出队列中的位置(例如，在延迟语音之前相同输出队列中语音的数目)，被延迟特定讲话者语音的数目(例如，对于低优先级讲话者，语音的数目或长度被延迟)，指示未来语音是否将“覆写”特定参与者的延迟语音的信息(例如，表示低优先级讲话者的图标上的闪红灯，表示如果参会者现在讲话，特定参与者的语音将使得低优先级讲话者的延迟语音被进一步延迟或甚至丢弃)，指示延迟的语音是否正被丢弃的信息(例如，快闪红灯指示延迟的语音正被丢弃)，指示当前被延迟的参与者的语音的数目接近或已经超出阈值数目的信息(例如，计数器或进度条，指示输出队列有多么“拥挤”)，指示未来语音将被延迟的可能性的信息(例如，慢速闪黄灯指示，如果参与者现在讲话，参与者的语音将可能被延迟)，以及指示实时转录是否可用于会议***的参与者的信息(例如，“聊天窗口中的转录”按钮是否可点击或“变灰”)。

提供使用或状态信息(或反馈)的用户控件的显示减少用户挫折，因为用户变得知道其语音的状态，和/或相同会话中其他参与者的语音的状态，由此增强会议***的用户体验。

图9图示了根据一些实施例处理并发语音的第四示例。在这个示例中，根据讲话者角色来处理并发语音，并且具有重叠输出。

在图9中所示的示例中，两个讲话者，主讲话者和打断讲话者，在同时或大约同时讲话。语音数据被发射到调度服务器106以处理和调度输出。如上所讨论的，可以至少部分地基于语音数据或独立于语音数据来确定讲话者角色和语音优先级。

在这个示例中，因为SP 1是来自主讲话者的语音，所以SP 1先输出并且没有修改或调整。根据确定SP 1的长度超过预定阈值长度且在SP 1内没有暂停，SP 2(来自打断讲话者的语音)与SP 1的一部分并发输出。换句话说，在主讲话者已被讲出太长而没有暂停或要停止的迹象的情形中，另一讲话者的语音可以被输出，尽管其将重叠主语音的一部分。这个方法确保来自讲话者的语音，而不管其优先级，在用户可接受的时段内总是能听到。

但是，输出具有延迟和调整的SP 2作为SP 2’。如图9中所示，SP 2延迟DLY 2(902)输出。在一些实施例中，延迟包括一段时间，调度服务器106在这段时间上试图检测正在进行的语音内的暂停。在其他实施例中，延迟包括一段时间，调度服务器106保留这段时间用于未打断的主语音，使得主语音的至少较早部分以及有时也是重要部分，被没有重叠或打断地传递。

在根据图9中呈现的示例的一些实施例中，SP 2也调整到其速度而输出。在图9，调度服务器106使用输出调整模块134增加SP 2的速度。SP 2使用基音保持算法在短于其正常长度的时段中输出(有时也称为“收缩”)。

还如图9中所示，在重叠期间(904)，语音SP 1和SP 2’并发输出。在SP 2’被输出之后，SP 1继续无调整地被输出。

在一些实施例中，添加到打断语音的延迟，例如DLY 2(902)，是至少部分地基于与语音相关联的语音数据或可替换地，独立于语音数据，而确定的。例如，如果SP 2的语音识别分析指出SP 2表示具体涉及还没输出的SP 1的较后部分的问题，SP 2被延迟，例如，不输出，直到SP的较后部分被输出，以提升效率和清晰度。在其他实现中，添加到打断语音的延迟是根据预先存在的讲话者之间的关系而确定的。例如，当打断讲话者是主讲话者(例如，普通雇员)的上级(例如，经理)时，比起打断讲话者与主讲话者对等时，SP 2被较少延迟。

在一些实施例中，至少部分地基于语音数据或者可替换地，独立于语音数据，而确定重叠(904)。在一些实现中，重叠(904)对应于并非预定义重要准则集合的主语音的一部分。换句话说，SP 2’被允许与主语音SP 1的较不重要部分相重叠。在一些实现中，重叠(904)与语音的长度成比例或成反比例。例如，重叠(904)的长度是主语音的长度的预定百分比，或者打断语音的长度的预定百分比，或者二者。

图10图示了根据一些实施例处理并发语音的第五示例。在这个示例中，根据语音上下文和/或分类来处理并发语音。

在图10中所示的示例中，三个讲话者在同时或大约同时讲话。语音数据被发射给调度服务器106进行处理和调度输出。在应用语音识别和/或语音转录技术(例如分别在语音识别模块126和语音转录模块128)之后，语音SP 1-3被分类为三个类别：主语音、澄清语音和询问语音。在一些实施例中，讲话者角色根据语音分类来分配。

在一些实施例中，不同类别的语音被分配有不同的优先级，并且其输出至少部分地基于其各自优先级而被调整。在一些情形中，主语音类别中的语音被分配有比其他类别中的语音更高的优先级，因为主语音被认为比问题或澄清更重要。在其他情形中，澄清语音类别中的语音被分配有比询问语音类别中的语音更高的优先级，因为澄清有时直接解决了问题，并因此应该在问题之前被输出以减小冗余。

在图10中所示的示例中，主语音SP 1包括由暂停DLY 1(1002)分隔的两个部分。主语音的第一部分被输出，而没有延迟或调整。在检测到澄清语音SP 2涉及SP 1的第一部分(例如，通过澄清其中使用的术语)之后，在SP 1的暂停例如DLY 1(1002)期间，澄清语音SP2被调整输出，作为SP 2’。因为SP 2的长度超过暂停的长度，所以SP 2的速度增加，使用基音保持算法，使得SP 2’在暂停DLY 1(1002)内完全被输出。

在输出了调整后的澄清语音SP 2’之后，输出主语音SP 1的第二部分，也进行调整。SP 1的第二部分也被“加速”。在输出SP 1的第二部分之后，询问语音SP 3也被以增加的速度输出作为SP 3’。

在一些实施例中，语音或其一部分根据提供语音上下文的其他语音的内容而被调整。例如，主语音SP1的第二部分，包括类似于SP 2’的澄清，被加速，因为主语音SP 1的第二部分由于澄清语音SP 2’的先前输出而已变得不重要，并且不需要被重复或详述。

在一些实施例中，询问语音也可根据另一语音的内容(例如，语音上下文)来调整。例如，当询问语音的一部分中包括的问题已经被先前的语音回答或解决了时，询问语音的对应部分被加速以减少冗余并增加吞吐量。

在一些实施例中，询问语音的输出被延迟多于澄清语音和主语音。换句话说，在一些实施例中，询问语音不被输出，直到主语音和/或澄清语音被输出。该方法可以增加整体有效性，因为在一些情形中，询问语音中包括的问题在澄清语音或主语音的稍后部分中被回答。在其他实施例中，当询问语音包括需要被解决或被公开尽可能早的重要问题时，询问语音在澄清语音或主语音的一部分之前被输出。

已经结合具体实施例描述了前面的描述，目的是解释。但是，上面的说明性讨论不旨在是穷尽的或者限制发明到所公开的精确形式。考虑到上述教导，许多修改和变形都是可能的。实施例被选取和描述以便最佳地解释发明的原理及其实践应用，由此使得本领域其他技术人员能够最佳地利用本发明和具有各种修改的各种实施例，以适应于所预期的特定使用。

Claims

1.一种用于处理并发语音的方法，包括：

在包括一个或多个处理器和存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的***处：

从会话的第一参与者接收语音数据；

从所述会话的第二参与者接收语音数据；

确定所述第二参与者的语音是否与所述第一参与者的语音在时间上重叠，其中

当所述第二参与者的语音不与所述第一参与者的语音在时间上重叠时，输出所述第一参与者的语音，并且然后输出所述第二参与者的语音，

当所述第二参与者的语音与所述第一参与者的语音在时间上重叠时，确定所述第二参与者的语音与所述第一参与者的语音重叠的量，其中

当所述重叠少于所述第一参与者的语音的末端部分的第一预定阈值量时，根据对所述会话的一个或多个参与者的语音的调整输出所述第一参与者的语音，并且然后输出所述第二参与者的语音，根据对所述会话的所述一个或多个参与者的语音的调整输出所述第二参与者的语音包括延迟所述第二参与者的语音的输出；以及

当所述重叠多于所述第一参与者的语音的末端部分的所述第一预定阈值量时，输出所述第一参与者的语音，并且选择性地丢弃所述第二参与者的语音。

2.如权利要求1所述的方法，其中，延迟所述第二参与者的语音的输出包括：延迟所述第二参与者的语音的输出，直到已经输出所述第一参与者的语音。

3.如权利要求1所述的方法，其中，延迟所述第二参与者的语音的输出包括：延迟所述第二参与者的语音的输出，直到所述第一参与者的语音中出现暂停。

4.如权利要求1所述的方法，其中，延迟所述第二参与者的语音的输出包括：根据所述第二参与者和所述第一参与者之间的关系来延迟所述第二参与者的语音的输出。

5.如权利要求1所述的方法，其中，延迟所述第二参与者的语音的输出包括：根据所述第二参与者的语音的内容的分类来延迟所述第二参与者的语音的输出。

6.如权利要求5所述的方法，其中，所述第二参与者的语音的内容的分类是通过语音识别和对所述第二参与者的语音的内容的转录来完成的。

7.如权利要求1所述的方法，其中，延迟所述第二参与者的语音的输出包括：响应于在所述会话中识别到提示而输出所述第二参与者的语音。

8.如权利要求2-7中任何一项所述的方法，其中，延迟所述第二参与者的语音的输出包括：响应于用户输入而输出所述第二参与者的语音。

9.如权利要求1-7中任何一项所述的方法，其中，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音包括：加速所述第一参与者的语音。

10.如权利要求9所述的方法，其中，加速所述第一参与者的语音包括：使用音频时间标度-基音修改算法来加快所述第一参与者的语音。

11.如权利要求9所述的方法，其中，加速所述第一参与者的语音包括：缩短或去除所述第一参与者的语音内的一个或多个暂停。

12.如权利要求1-7中任何一项所述的方法，其中，对所述会话的参与者的语音的调整包括：(i)当所述第一参与者的语音的长度超出预定时间阈值时，切断所述第一参与者的语音，以及(ii)当所述第一参与者的语音已被切断时，输出所述第二参与者的语音。

13.如权利要求1-7中任何一项所述的方法，所述方法进一步包括：

从所述会话的第三参与者接收语音数据，其中，所述第三参与者的语音至少部分地与所述第一参与者的语音和所述第二参与者的语音在时间上重叠；以及

对所述会话的一个或多个参与者的语音的调整进一步包括：当所述会话中所述第二参与者的优先级高于所述第三参与者的优先级时，在所述第三参与者的语音之前输出所述第二参与者的语音。

14.如权利要求13所述的方法，其中，所述第二参与者的优先级和所述第三参与者的优先级是基于FIFO、基于角色、基于社交网络状态或投票数来确定的。

15.一种服务器***，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中并且被配置成由所述一个或多个处理器执行，所述一个或多个程序包括指令，所述指令用于：

从会话的第一参与者接收语音数据；

从所述会话的第二参与者接收语音数据；

当所述第二参与者的语音不与所述第一参与者的语音在时间上重叠时，输出所述第一参与者的语音，并且然后输出所述第二参与者的语音，以及

16.如权利要求15所述的服务器***，其中，延迟所述第二参与者的语音的输出包括：延迟所述第二参与者的语音的输出，直到已经输出所述第一参与者的语音。

17.如权利要求15所述的服务器***，其中，延迟所述第二参与者的语音的输出包括：延迟所述第二参与者的语音的输出，直到所述第一参与者的语音中出现暂停。

18.如权利要求15所述的服务器***，其中，延迟所述第二参与者的语音的输出包括：根据所述第二参与者和所述第一参与者之间的关系来延迟所述第二参与者的语音的输出。

19.如权利要求15所述的服务器***，其中，延迟所述第二参与者的语音的输出包括：根据所述第二参与者的语音的内容的分类来延迟所述第二参与者的语音的输出。

20.如权利要求19所述的服务器***，其中，所述第二参与者的语音的内容的分类是通过语音识别和对所述第二参与者的语音的内容的转录来完成的。

21.如权利要求15所述的服务器***，其中，延迟所述第二参与者的语音的输出包括：响应于在所述会话中识别到提示而输出所述第二参与者的语音。

22.如权利要求16-21中任何一项所述的服务器***，其中，延迟所述第二参与者的语音的输出包括：响应于用户输入而输出所述第二参与者的语音。

23.如权利要求15-21中任何一项所述的服务器***，其中，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音包括：加速所述第一参与者的语音。

24.如权利要求23所述的服务器***，其中，加速所述第一参与者的语音包括：使用音频时间标度-基音修改算法来加快所述第一参与者的语音。

25.如权利要求24所述的服务器***，其中，加速所述第一参与者的语音包括：缩短或去除所述第一参与者的语音内的一个或多个暂停。

26.如权利要求15-21中任何一项所述的服务器***，其中，对所述会话的参与者的语音的调整包括：(i)当所述第一参与者的语音的长度超出预定时间阈值时，切断所述第一参与者的语音，以及(ii)当所述第一参与者的语音已被切断时，输出所述第二参与者的语音。

27.如权利要求15-21中任何一项所述的服务器***，所述***进一步包括：

根据对所述会话的参与者的语音的调整输出所述第二参与者的语音包括：当所述会话中所述第二参与者的优先级高于所述第三参与者的优先级时，在所述第三参与者的语音之前输出所述第二参与者的语音。

28.如权利要求27所述的服务器***，其中，所述第二参与者的优先级和所述第三参与者的优先级是基于FIFO、基于角色、基于社交网络状态或投票数来确定的。