CN112655036A

CN112655036A - 用于记录源媒体项目的口译的***

Info

Publication number: CN112655036A
Application number: CN201980056476.8A
Authority: CN
Inventors: S·卡里瓦特; X·德唐德
Original assignee: Taylor Wake Education Co
Current assignee: Taylor Wake Education Co
Priority date: 2018-08-30
Filing date: 2019-08-14
Publication date: 2021-04-13
Anticipated expiration: 2039-08-14
Also published as: CN112655036B; EP3618039A1; EP3618039B1; WO2020043493A1

Abstract

一种用于记录源媒体项目(131，141)的口译(151)的***，该***适于在将源媒体项目(131，141)从教师计算机(101)流传输到网络连接到教师计算机(101)的多个学生计算机(111，112，113)时训练学生口译员，包括：‑记录模块(201)，被配置为以固定长度或固定尺寸的块(351‑35i；331‑33k)记录在源媒体项目(131，141)的播出期间由学生计算机(111)捕获的学生语音(MIC)和/或图像(CAM)，以便为每个块(351‑35i；331‑33k)生成包括时间戳和在块(351‑35i；331‑33k)中记录的至少一个语音样本或图像帧的索引的元数据(361‑36i；341‑34k)，并与块(351‑35i；331‑33k)相关地存储元数据(361‑36i；341‑34k)；以及‑后处理模块(202)，被配置为从块(351‑35i；331‑33k)组成源媒体项目(131，141)的口译(151)，并在组成口译(151)时基于元数据(361‑36i；341‑34k)添加或删除音频样本/视频帧(C0)，使得口译(151)与源媒体项目(131，141)连续同步。

Description

用于记录源媒体项目的口译的***

技术领域

本发明一般而言涉及一种用于记录学生对源媒体项目的口译(interpretation)的***。源媒体项目与从教师计算机流传输到一个或几个学生计算机的音频和/或视频源项目对应。在播出源媒体项目期间记录学生的口译和源媒体项目，使得能够在以后回顾和评估口译。

背景技术

在基于PC(个人计算机)的语言翻译或口译训练平台中，音频和/或视频源项目从教师PC流传输到各个学生的多个学生PC，每个学生必须在音频和/或视频源播出的同时对其进行口译。流传输的音频和/或视频源项目可以由教师从包含训练素材的数据库中选择，或者可以从互联网中选择。例如，教师可以选择从教师PC流传输到学生PC的YouTube视频，以供学生口译。

为了能够回顾、讨论和评估不同学生的口译，在播出源项目期间使用例如学生PC的麦克风和/或网络摄像头记录学生语音和/或图像。为了能够以后可靠且客观地评估学生，记录学生语音和/或图像的稳健性至关重要。

当前，可用这样的***，其中将从教师PC流传输到学生PC的源媒体项目记录在所有学生PC上，以使其与学生语音和/或图像的本地记录同步。这种记录表示必须临时存储在学生PC上并且必须传输回教师PC进行评估的巨大文件。

除了源媒体项目的记录和学生语音/图像的记录表示消耗大量学生PC和网络资源的巨大文件这一事实以外，在记录期间和/或在记录的同步期间还会发生许多错误。例如，网络故障(glitches)或伪影可能影响源媒体项目在学生PC上的记录。网络故障或伪影还可以阻碍记录从学生PC到教师PC的传输。在学生PC上运行的本地进程(例如，防火墙、病毒扫描器等)可能限制可用的处理能力或存储容量，因此可能延迟或打断源媒体项目的记录或学生语音/图像的记录。上面存储记录的学生PC的硬盘可能会被其它进程占用数秒，其结果是记录中的学生语音/图像可能偏移数秒，而对口译的评估通常要求口型同步准确度，即，源媒体项目与口译员的语音/图像之间同步的毫秒准确度。总之，不能充分控制和依赖学生PC环境以及教师PC与学生PC之间的网络来实现稳健的源媒体项目和口译的记录以及同步。

申请人Televic Education NV的标题为“Conference System for the Trainingof Interpreters”的国际专利申请WO 2017/106939 A1描述了一种用于训练和评估学生口译员的***。该***包括教师单元(125)、学生单元(145a-145c)和数字网络(WO 2017/106939 A1中所谓的第二数字网络，由图1中的点线表示)。教师单元和学生单元可以是标准的PC。教师单元记录源信号以及由学生单元捕获并从中获得的语音/视频图像。在评估学生时将记录的源信号与学生语音/图像同步的问题在第5页第26-32行和第9页第31-34行中提到，但是WO 2017/106939 A1未能公开对这个同步问题的技术解决方案。此外，WO 2017/106939 A1在第12页第1-8行中假设网络具有足够的容量。因此，在WO 2017/106939 A1中忽略了许多可能妨碍或延迟源信号和学生语音/图像的传输和/或记录的网络伪像。

卢森堡专利申请LU91549A2描述了用于会议口译的学生的使用个人计算机的另一种电子学习***。从LU91549A2已知的***允许教师从数据库中选择源项目并将该源项目流传输到学生PC。源项目可以集中记录，或者可以本地记录在学生PC中。学生可以选择同步口译(在播出源媒体项目时讲话)或连续口译(首先观看源媒体项目，然后进行口译)。在学生选择同步口译的情况下，应在学生PC本地记录的语音信号上加上时间戳，以便使本地记录的语音信号与源项目同步播出。如在段落[0011]中提到的，从LU91549A2已知的***还依赖于专用播放器，该播放器在回放源项目时使音频通道之一(例如，PC扬声器、耳机的左耳、耳机的右耳等)静音，并将静音的信号替换为同步记录的学生语音以进行评估。

LU91549A2认识到学生PC处的资源消耗问题并通过在学生PC处不记录学生视频图像-仅本地记录学生语音-以及通过将在学生PC处本地记录的音频文件的数量限制到9(参见[0072])来缓解这个问题。此后，必须通过将语音记录传送到中央存储装置来释放本地存储资源。

但是，LU91549A2似乎没有认识到可能会妨碍或延迟源项目的传输以及学生语音的本地或集中记录的可能的网络或PC问题。即使LU91549A2中分配给本地学生语音记录的时间戳能够使学生语音和源媒体项目的开始同步，它也没有教导他们如何根据学生的客观评估要求使学生语音与源项目连续同步。

标题为“Reproducing Apparatus and Method,and Recording Medium”的加拿大专利申请CA2725177A1涉及一种用于再现被分别添加了子音频数据的静止图像(例如，可浏览的幻灯片放映)的***和方法。CA 2725 177 A1解决了在使用常规再现技术时无法避免的在静止图像的反向和正向播放期间防止背景音乐的再现中断的问题(参见第8页第22-27行)。CA 2725 177 A1指出的常规再现技术是从MPEG标准已知的用于同步在单个MPEG文件中编码的视频数据和音频数据的再现的机制。这个机制在CA 2725 177 A1的第1-7页上有描述并且它依赖于三个时间戳：ATS，在接收方侧确定何时将所谓的TS分组转发到解码器以解复用成视频分组和音频分组；DTS，确定何时解码视频分组；以及PTS，确定何时解码音频分组。PTS还被用于同步视频数据和音频数据的再现。

发明内容

本发明的一个目的是公开一种用于记录由一个或几个学生口译员进行的对源媒体项目的口译的***，该***减轻了现有解决方案中一个或几个上面识别出的问题。更特别地，一个目的是公开一种允许更健壮的记录学生语音/图像并将其与用作口译任务的源媒体项目同步的***，以便能够更可靠和客观地评估学生对源媒体项目的口译。

根据本发明，以上目的是通过一种由权利要求1定义的用于记录源媒体项目的口译的***来实现的，该***适用于在将源媒体项目从教师计算机流传输到网络连接到教师计算机的多个学生计算机时训练学生口译员，该***包括：

-记录模块，被配置为以固定长度或固定尺寸的块记录在源媒体项目的播出期间由学生计算机捕获的学生语音和/或图像，以便为每个块生成包括时间戳和在块中记录的至少一个语音样本或图像帧的索引的元数据，并与块相关地存储元数据；以及

-后处理模块，被配置为从块组成源媒体项目的口译，并在组成口译的同时基于元数据添加或删除音频样本/视频帧，使得该口译与源媒体项目连续同步。

因此，在所谓的同步口译中在播出源媒体项目期间由学生计算机捕获的学生语音和/或图像的记录在多个块中完成。可以使用学生PC的内置麦克风来捕获语音。除学生语音之外，还可以使用例如学生PC中的内置网络摄像头来捕获图像。在为聋哑或听力困难的人以手语进行口译的情况下，可以只捕获学生的图像而无需捕获语音。每个块具有预定的有限时间长度(例如预定的秒数)或预定的有限尺寸(例如预定数量的样本)。通过在多个块中记录学生语音和/或图像，消除了由于暂时的PC故障而丢失完整口译记录的风险。每个块应存储为单独的文件。在记录期间，不仅将学生语音和/或图像存储在块中，而且还与每个块相关地存储附加元数据。附加元数据至少包括时间戳和记录在相关块中的语音样本(或多个语音样本)的索引或视频帧(或多个视频帧)的索引。每个块的附加元数据还可以包括报头，该报头包含记录名称、类型、状态和特定于音频或视频的信息(如编码率(以位/秒或bps为单位)、采样率(以帧/秒或fps为单位)、宽度和高度等)。将学生语音和/或图像记录在块中以及生成和存储与每个块相关的元数据被认为共同构成了预处理。时间戳和索引将稍后在后处理步骤中使用，在后处理步骤中，将包括学生语音和/或图像的所记录的音频和/或视频块分别合并为与作为口译任务的源媒体项目连续同步的单个音频文件和/或单个视频文件。通过分析与块相关存储为元数据的时间戳和索引，以及通过在每次所记录的时间戳和索引之间存在不匹配时在块之间添加或删除音频样本和/或视频帧，获得连续同步。如果例如由于占用学生PC资源的进程而未捕获3个语音样本，那么与下一个记录的块相关存储的时间戳可以是TS＝5，而对应的音频样本索引可以是I＝2。在将记录的块合并到单个音频文件中后，时间戳值TS＝5指示必须在将具有索引I＝2的所记录的语音样本添加到音频文件之前***3个音频样本。因此，后处理添加或删除音频样本和/或视频帧，以便获得具有正确长度的学生口译的记录，与源媒体项目连续同步，并且如果多个学生同时对流传输的源媒体项目进行口译，那么与其他学生的口译连续同步。

注意的是，在本发明的上下文中，语音样本或学生语音样本是表示在某个时间点由麦克风(例如，学生PC中的内置麦克风)捕获的学生语音的值或值的集合。音频样本是表示在某个时间点的声音的值或值的集合。音频样本可以与学生语音对应，但不一定必须与学生语音对应。它可以表示任何其它记录的或人工合成的声音，例如静音。

类似地，注意的是，在本发明的上下文中，图像、图像帧或学生图像是表示在某个时间点由相机(例如，学生PC中的内置网络摄像头)捕获的学生图片的数字值的集合。另一方面，视频帧是表示在某个时间点的图片的数字值的集合。视频帧可以与学生图像对应，但不一定必须与学生图像对应。它可以表示任何其它记录的或人工合成的图片，例如空白图片。

在本发明的上下文中，术语“连续同步”意味着由记录的学生语音和/或图像块组成的学生口译具有与源媒体项目的时间长度对应的总时间长度，并且所组成的学生口译中每个记录的固定长度的块或固定尺寸的块与源媒体项目的对应部分在时间上对准，是在记录该块的时间点处由学生PC播出的源媒体项目的部分。

在由权利要求2定义的用于记录源媒体项目的口译的***的实施例中，记录模块和后处理模块由学生计算机托管，并且该***还包括：

-在学生计算机中的上传模块，被配置为将口译上传到所述教师计算机。

实际上，生成学生语音和/或图像的块、生成元数据并与这些块相关存储元数据的记录模块可以由学生计算机托管。但是，可替代地或附加地，可以将由集成在学生计算机中的麦克风和/或网络摄像头捕获的学生语音和/或图像流传输或上传到教师计算机或托管记录模块以进行预处理或记录模块的部分的另一个中央***。在学生计算机中本地预处理所捕获的学生语音和/或图像带来的优势是，生成的块不受任何上行链路网络故障的影响，但是要求学生计算机具有足够的资源可用于预处理。例如，当中央***是被配置为具有尽可能少的资源饥饿进程的高性能专用***时，在教师计算机或在另一个中央***中集中地预处理捕获的学生语音和/或图像可能不太容易受到资源短缺的影响，但是在上传学生语音和/或图像期间可能遭受上行链路网络故障，从而导致丢失块。

类似地，从存储的块和相关的元数据组成学生口译的后处理模块可以由学生计算机托管。在这种情况下，学生计算机必须托管能够将本地生成的学生口译上传到教师计算机或另一个中央***的上传模块。但是，可替代地，可以在教师计算机或另一个中央***中集中组织后处理。在后一种情况下，教师计算机或中央***中的后处理模块必须或者从集中式预处理模块、或者从学生计算机中的分散式预处理模块或者从其中临时存储块和元数据的存储设施(例如服务器或云存储)获得块和相关的元数据。

在由权利要求3定义的用于记录源媒体项目的口译的***的实施例中，每个块具有N个视频帧的长度，N是大于零的正整数。

因此，优选地，如果在播出源媒体项目的同时记录学生图像，那么将捕获的学生图像记录在块中，每个块包含相同整数量的N个视频帧。例如，每个块可以包含一个视频帧，即，在某个时间点处由网络摄像头制作的单个图像，或者-更现实地-每个块可以包含与在由网络摄像头的帧速率确定的一千个连续时间点处由网络摄像头制作的一千个连续图像对应的一千个视频帧。例如，一分钟的视频块通常包括大约900个视频帧。在此类实施例中，每个块具有相同的时间长度，但不一定具有相同的尺寸，因为视频帧的尺寸取决于其编码。

在由权利要求4指定的用于记录源媒体项目的口译的***的实施例中，N是可配置的。

因此，根据本发明的***的高级实施例使用户或管理员能够配置当表达为视频帧的量时的块的长度。可以在预处理要求与后处理要求之间的折衷中选择块的长度。较短的块长度增加了预处理要求，因为创建和存储的较短的块较多，并且生成的元数据较多。但是，损坏的记录将具有较短的长度，因此降低了其恢复的后处理要求。类似地，较大的块长度减少了预处理要求，因为创建和存储的块较少，并且生成的必须随后处理的元数据较少。但是，在记录损坏的情况下，这种较长的块的恢复所需的后处理将较高。

在由权利要求5指定的用于记录源媒体项目的口译的***的实施例中，每个块具有M个音频样本的长度，M是大于零的正整数。

因此，优选地，如果在播出源媒体项目的同时记录学生语音，那么捕获的学生语音被记录在块中，每个块包含相同整数量的M个音频样本。例如，每个块可以包含一百万个音频样本，这些音频样本与在由模数转换器的音频采样率确定的一百万个连续时间点处由内置麦克风捕获的声波的一百万个连续离散时间样本对应。例如，1分钟的音频块通常包含大约130万个样本。在这样的实施例中，每个块具有相同的时间长度，并且还具有由模数转换器的采样宽度或位深度(即，每个音频样本的位数)确定的相同尺寸。

在由权利要求6指定的用于记录源媒体项目的口译的***的实施例中，M是可配置的。

实际上，根据本发明的***的高级实施例使用户或管理员能够配置当表达为音频样本的量时的块的长度。可以在预处理要求与后处理要求之间的折衷中选择块的长度。较短的块长度增加了预处理要求，因为创建和存储的较短的块较多，并且生成的元数据较多。但是，损坏的记录将具有较短的长度，因此降低了其恢复的后处理要求。类似地，较大的块长度减少了预处理要求，因为创建和存储的块较少，并且生成的必须随后处理的元数据较少。但是，在记录损坏的情况下，这种较长的块的恢复所需的后处理将较高。

在由权利要求7定义的用于记录源媒体项目的口译的***的实施例中，在组成口译时添加的视频帧是先前视频帧的重复视频帧。

在块包括学生图像的情况下，可以在后处理期间通过添加视频帧来恢复丢失的块或损坏的块，使得总体口译保持与源媒体项目连续同步。在***的优选实施例中，在后处理期间添加的视频帧与先前的视频帧对应。以这种方式，由于这种重复的视频帧将具有的唯一效果是形成学生口译的一部分的视频记录的停顿，因此在对学生口译的回顾和评估期间对用户体验的影响被最小化。而且，当重复帧的量有限时，停顿对于用户来说是不明显的。

在由权利要求8指定的用于记录源媒体项目的口译的***的实施例中，在组成口译时添加的音频样本是无声的音频样本。

在块包括学生语音样本的情况下，可以在后处理期间通过添加音频样本来恢复丢失的块或损坏的块，使得总体口译保持与源媒体项目连续同步。在***的优选实施例中，在后处理期间添加的音频样本与无声的样本对应。以这种方式，由于这种无声的音频样本将具有的唯一效果是暂时没有任何声音，因此在对学生口译的回顾和评估期间对用户体验的影响被最小化。

由权利要求9定义的用于记录源媒体项目的口译的***的实施例还包括：

-在教师计算机中的源记录模块，该源记录模块被配置为记录源媒体项目。

由于进行了其中生成块和生成并与每个块一起存储元数据(包括时间戳和索引)的预处理，不再需要在学生计算机中记录源媒体项目。源媒体项目可以集中记录在教师计算机中，并且这种中央记录可以在以后的任何时间点处被用来评估学生口译，因为通过后处理从块和元数据生成的学生口译与这种集中记录的源媒体项目连续同步。因此，大大降低了学生计算机的处理和存储容量要求。而且，在评估学生口译期间，可以使用源媒体项目的质量更高的中央记录，该记录不会因网络故障而损坏。另一个优点是在评估之前不必将本地记录的源媒体项目从学生计算机上传到教师计算机。因此，也降低了上传带宽要求。

由权利要求10定义的用于记录对源媒体项目的口译的***的实施例还包括：

-在每个学生计算机中的同步模块，被配置为将时间戳与教师计算机处可用的教师时间戳同步。

因此，在本发明的其中源媒体项目被集中记录而学生口译被本地记录在学生计算机中的实施方式中，网络范围时间同步机制确保所有存储的时间戳都被同步。因此，每个学生计算机必须配备同步模块，以使其时间戳与教师计算机处可用的时钟或时间戳同步。

在由权利要求11指定的用于记录源媒体项目的口译的***的实施例中，同步模块被配置为：

-从学生计算机向教师计算机发送第一消息，该第一消息包括从学生计算机时钟导出的学生时间戳Ts；

-接收来自教师计算机的第二消息，该第二消息响应第一消息而被发送，该第二消息包括从教师计算机时钟导出的教师时间戳Tt；

-测量发送第一消息和接收第二消息之间的往返时间RTT；以及

-将学生计算机时钟与教师计算机时钟之间的同步补偿确定为Tt-Ts-RTT/2。

因此，可以通过消息传递和定时来实现同步。学生计算机中的同步模块发送其中嵌入其时间戳Ts的第一消息，并且测量这个第一消息的发送与来自教师计算机的答复消息的接收之间的时间RTT。测得的时间RTT与消息在学生计算机和教师计算机之间来回行进的往返时间对应。如果接收到的消息包含教师计算机的时间戳Tt，那么这个时间戳在根据学生计算机时钟的时间Ts+RTT/2处生成并嵌入答复消息中。在本文中，假设第一消息从学生计算机到教师计算机的行进时间等于从教师计算机到学生计算机的行进时间。如果从接收到的消息中提取出的教师计算机的时间戳Tt与Ts+RTT/2不同，那么这个差异必须由教师计算机中的同步模块进行补偿。换句话说，学生计算机中的同步模块应用等于Tt-(Ts+RTT/2)＝Tt-Ts-RTT/2的同步补偿。这个同步补偿被添加到其自己的时间戳Ts，并且如此校正的时间戳被用于生成与块相关存储的元数据。

在由权利要求12指定的用于记录源媒体项目的口译的***的替代实施例中，同步模块被配置为：

-从学生计算机向教师计算机发送第一消息，该第一消息包括在传输第一消息时从学生计算机时钟导出的学生时间戳Ts1；

-接收来自教师计算机的第二消息，该第二消息响应第一消息而被发送，该第二消息包括在传输第二消息时从教师计算机时钟导出的教师时间戳Tt2和由教师计算机确定为在由教师计算机接收第一消息时从教师计算机时钟导出的教师时间戳Tt1与第一消息中的学生时间戳Ts1之间的差Tt1-Ts1的第一差值delta1；

-将第二差值delta2确定为第二消息中的教师时间戳Tt2与在接收第二消息时从学生计算机时钟导出的学生时间戳Ts2之间的差值Tt2-Ts2；以及

-将学生计算机时钟与教师计算机时钟之间的同步补偿确定为(delta1+delta2)/2。

实际上，上述基于往返时间RTT的同步机制假设教师计算机在接收到来自学生计算机的第一消息时即时答复。在这个不要求即时答复的替代实施方式中，学生计算机中的同步模块发送其中嵌入其时间戳Ts的第一消息。在接收到这个第一消息时，教师计算机中的同步模块将其时间戳Tt与接收到的学生计算机时间戳Ts之间的差异存储为delta1＝Tt-Ts。这个差异delta1包括教师计算机与学生计算机之间的时钟差以及第一消息从学生计算机到教师计算机的行进时间。教师计算机的同步模块随后发送其中嵌入新的时间戳Tt以及计算出的差异delta1的第二消息。在接收到这个第二消息时，学生计算机中的同步模块将接收到的时间戳Tt与新时间戳Ts之间的差异存储为delta2＝Tt-Ts。这个delta2再次包括时钟差和行进时间，但是由于行进方向现在相反，因此增加的行进时间将反向影响计算机时钟差。假设两个方向上的行进时间相等，那么学生计算机时钟与教师计算机时钟之间的实际计算机时钟差可以准确地估计为(delta1+delta2)/2。例如，假设计算机时钟差为10秒，并且学生计算机和教师计算机之间的消息行进时间为1秒。学生计算机同步模块发送具有时间戳Ts＝10:00:00的消息。教师计算机同步模块在本地时间戳Tt＝10:00:10+00:00:01＝10:00:11处接收该消息，因此计算出第一差值delta1＝Tt-Ts＝00:00:11。教师计算机同步模块发送嵌入有时间戳Tt＝10:00:30和delta1＝00:00:11的答复消息。学生计算机同步模块在本地时间戳Ts＝10:00:20+00:00:01＝10:00:21处接收消息，因此计算出第二差值delta2＝Tt-Ts＝00:00:09。最后，学生计算机同步模块将同步补偿计算为delta＝(delta1+delta2)/2＝00:00:10。这个同步机制对教师计算机接收第一消息与教师计算机发送答复消息之间的任何延迟都不敏感。

除了由权利要求1定义的用于记录源媒体项目的口译的***之外，本发明还涉及一种用于记录源媒体项目的口译的对应方法，该方法适于在从教师计算机向网络连接到教师计算机的多个学生计算机流传输源媒体项目时训练学生口译员，该方法由权利要求13定义，包括：

-以固定长度或固定尺寸的块记录在源媒体项目的播出期间由学生计算机捕获的学生语音和/或图像；

-为每个块生成包括时间戳和在块中记录的至少一个语音样本或图像帧的索引的元数据；

-与块相关地存储元数据；以及

-从块组成源媒体项目的口译，并在组成口译时基于元数据添加或删除音频样本/视频帧，使得该口译与源媒体项目连续同步。

附图说明

图1例示了PC环境，其中已经部署了根据本发明的用于记录学生口译员对源媒体项目的口译的***的实施例；

图2是根据本发明的用于记录学生口译员对源媒体项目的口译的***的实施例的功能框图；

图3例示了根据本发明的用于记录学生口译员对源媒体项目的口译的***的实施例中的预处理；

图4例示了根据本发明的用于记录学生口译员对源媒体项目的口译的***的实施例中的后处理；

图5例示了根据本发明的用于记录学生口译员对源媒体项目的口译的***的实施例中的预处理和后处理；以及

图6例示了用于实现根据本发明的实施例的方法和设备的合适计算***600。

具体实施方式

在图1中，教师计算机101经由相应的链路121、122和123连接到学生计算机111、112和113。可以通过有线或无线局域网(LAN)连接来实现教师计算机101与学生计算机111、112、113之间的连接。当教师计算机和学生计算机位于单个房间(例如，训练中心的教室)中时，可以是这种情况。可替代地，实现教师计算机101与相应的学生计算机111、112、113之间的连接性的链路121、122、123中的一个或几个可以部分地在公共广域网(例如，互联网)上运行。例如，如果学生计算机中的一个或几个位于家里以使学生口译员能够远程参与训练练习，那么可以是这种情况。在训练练习期间，教师选择源媒体项目S，例如Youtube电影。如箭头131、132和133所指示的，这个源媒体项目S被流传输到不同的学生计算机111、112、113。由于网络故障或伪影，流传输的源媒体项目S以受影响的形式到达相应的学生计算机111、112、113。第一学生计算机111接收到流传输的源媒体项目S的第一版本S1或141，第二学生计算机112接收到流传输的源媒体项目S的第二版本S2或142，第三学生计算机接收到流传输的源媒体项目S的第三版本S3或143。请求使用相应计算机111、112和113的学生口译员在源媒体项目播出时对其进行口译。如箭头151、152和153所指示的，将学生口译员的口译I1，I2和I3记录并上传到教师计算机101。由于在学生计算机111、112和113上运行的本地进程(例如，病毒扫描器、防火墙等)，由这些计算机接收的源媒体项目S1、S2和S3的播出以及使用集成或连接的硬件(例如，网络摄像头、麦克风、耳机等)对口译I1、I2和I3的记录可能被打断或延迟。另外，网络链路121、122和122上的口译I1、I2和I3的上传可能再次受到网络故障或伪像的影响。出于评估的目的，教师必须能够与源媒体项目同步播出所记录的口译I1、I2、I3，无论是原始版本S还是由相应学生计算机111、112、113接收到并以此作为相应口译I1、I2和I3的基础的版本S1、S2、S3。对口译I1、I2、I3的客观评估要求在毫秒范围内的同步准确度。由于这里上面提到的许多可能的伪影来源，无法依靠图1所示的学生PC环境进行稳健的源项目流传输，以及口译记录和同步。出于这个原因，已经在图1的PC网络环境中部署了根据本发明的用于记录源媒体项目的口译的***。这个***的功能组件由图2例示。

图2示出了预处理器201或记录模块以及后处理器202，它们共同构成根据本发明的用于记录源媒体项目的口译的***的实施例。图2还示出了相机203和麦克风204，其输出由预处理器201使用。相机203和麦克风204可以例如与学生计算机111的内置相机和学生计算机111的内置麦克风对应。图2还进一步示出了块存储装置205。这个块存储装置205表示其中存储由预处理器201产生的信息的存储器。块存储装置205可以例如与形成学生计算机111的一部分的硬盘、形成教师计算机101的一部分的硬盘、或者集成于或连接到学生计算机111的任何其它存储器或者集成于或连接到教师计算机中的任何其它存储器(例如USB盘、服务器、云存储装置等)对应。注意的是，块存储装置205由根据本发明的***使用，但不一定形成该***的一部分。

预处理器201，在全文和权利要求书中也被称为记录模块，包括块生成器211、元数据生成器212、时间戳单元213、索引单元214和同步单元215。块生成器211被配置为接收来自相机203和麦克风204的输出流，并且将这些流划分为块，这些块是具有固定长度或固定尺寸的片段，以存储在块存储装置205中。元数据生成器212与块生成器211交互并且被配置成为每个块生成元数据，该元数据也存储在块存储装置205中。由元数据生成器212为每个块组成的元数据至少包括从时间戳单元213接收的时间戳和从索引单元214接收的索引。由时间戳单元213生成的时间戳被网络同步，这意味着它通过同步单元215在教师计算机与学生计算机之间同步。由索引单元214生成的索引可以例如是从麦克风204接收并被集成在块中的第一音频样本的索引号，或者它可以是从相机203接收并被集成在块中的视频帧的索引号。

后处理器202包括元数据分析器221和添加/删除单元222。元数据分析器221被配置为从块存储装置205获得块及其相关联的元数据。添加/删除单元222使用元数据分析器221的输出来组成学生口译，并且向从块存储装置中提取出的块添加和/或删除音频样本或视频帧，以便产生与作为口译的基础的源媒体项目连续同步的口译。

注意的是，预处理器201和后处理器202都可以位于教师计算机101中。但是，优选地，至少预处理器201由学生计算机111、112、113托管。然后，后处理器202可以由教师计算机101托管，或者可以由学生计算机111、112、113托管，这取决于这些相应计算机中的可用处理资源。

图3更详细地例示了预处理器201的操作。假设预处理器201由接收并播出源媒体项目S1的学生计算机111托管。在播出源媒体项目S1的同时，预处理器201记录源媒体项目S1以及由学生计算机111中集成的网络摄像头捕获的学生图像CAM和由学生计算机111的内置麦克风捕获的学生语音MIC。源媒体项目S1被拆分为块S1C1或311，S1C2或312，S1C3或313，S1C4或314，...，S1Cn或31n。这些块各自具有相同的时间长度，例如在学生计算机111处源媒体项目S1的1分钟播出时间。对于块311...31n中的每一个，预处理器201生成相关联的元数据。元数据由在相关联的块被记录时在学生计算机111中本地生成的时间戳和指示在相关联的块中记录的视频帧的索引组成。以这种方式，与第一源媒体项目块311相关联地生成元数据S1M1或321，与第二源媒体项目块312相关联地生成元数据S1M2或322，与第三源媒体项目块313相关联地生成元数据S1M3或323，与第四源媒体项目块314相关联地生成元数据S1M4或324，...，与第n个源媒体项目块31n相关联地生成元数据S1Mn或32n。源媒体项目块311...31n在n个不同文件中本地存储在学生计算机111中。而且，生成的元数据321...32n也在n个不同文件中本地存储在学生计算机111中。注意的是，在替代实施方式中，可以将块及其相关联的元数据存储在单个文件中，而不是存储在两个分开的文件中。以类似的方式，由预处理器201将学生图像CAM拆分为块C1C1或331，C1C2或332，C1C3或333，C1C4或334，...，C1Cn或31k。这些块也具有相同的时间长度，即，在以上示例中为1分钟。对于块331...33k中的每一个，预处理器201生成相关联的元数据。元数据由在相关联的块被记录时在学生计算机111中本地生成的时间戳和指示在相关联的块中记录的视频帧的索引组成。以这种方式，与第一学生图像块331相关联地生成元数据C1M1或341，与第二学生图像块332相关联地生成元数据C1M2或342，与第三学生图像块333相关联地生成元数据C1M3或343，与第四学生图像块334相关联地生成元数据C1M4或344，...，并且与第k个学生图像块33k相关联地生成元数据C1Mk或33k。注意的是，学生图像块的数量k可以与源媒体项目块的数量n不同，这是因为可以防止学生计算机111由于在学生计算机111上运行并占用其资源的各种进程而记录某些块。学生图像块331...33k在k个不同文件中本地存储在学生计算机111中。而且，生成的元数据341...34k在k个不同文件中本地存储在学生计算机111中。再次注意的是，在替代实施方式中，可以将块及其相关联的元数据存储在单个文件中，而不是存储在两个分开的文件中。另外，类似地，由预处理器201将学生语音MIC拆分为块M1C1或351，M1C2或352，M1C3或353，M1C4或354，...，M1Ci或35i。这些块也具有相同的时间长度，即，1分钟。对于块351...35i中的每一个，预处理器201生成相关联的元数据。元数据由在相关联的块被记录时在学生计算机111中本地生成的时间戳和指示在相关联的块中记录的音频样本的索引组成。以这种方式，与第一学生语音块351相关联地生成元数据M1M1或361，与第二学生语音块352相关联地生成元数据M1M2或362，与第三学生语音块353相关联地生成元数据M1M3或363，与第四学生语音块354相关联地生成元数据M1M4或364，...，并且与第i个学生语音块35i相关联地生成元数据M1Mi或36i。注意的是，学生语音块的数量i可以与学生图像块的数量k和/或源媒体项目块的数量n不同，这是因为可以防止学生计算机111由于在学生计算机111上运行并占用其资源的各种进程而记录某些块。学生语音块351...35i在i个不同文件中本地存储在学生计算机111中。而且，生成的元数据361...36i在i个不同文件中本地存储在学生计算机111中。再次注意的是，在替代实施方式中，可以将块及其相关联的元数据存储在单个文件中，而不是存储在两个分开的文件中。

图4例示了后处理器202的操作。假设后处理器202由学生计算机111托管，并在源媒体项目块311...31n及其相应的相关联的元数据文件321...32n、学生图像块331...33k及其相应的相关联的元数据文件341...34k、学生语音块351...35i及其相应的相关联的元数据文件361...36i上操作。后处理器202中的元数据分析器221分析元数据文件321...32n。在分析元数据文件321...32n后，添加/删除单元222添加或删除样本或帧，并将来自源媒体项目块311...31n的样本或帧与添加/删除的样本或帧组合为单个文件411。在图4的示例中，假设样本或帧被添加到由预处理器201记录的n个块S1C1...S1Cn或从其删除，其结果是组成了源媒体项目文件411。在分析元数据文件341...34k后，添加/删除单元222将帧添加到学生图像块331...33k或从其删除，其结果是组成另一个单个文件431。如此组成的文件431具有等于文件411的长度的长度，所添加的帧表示它们已添加于其后的相应帧的重复，并且帧已经***到文件431中的位置处，使得在文件431和文件411之间实现了连续同步。换句话说，预处理器201以完全相同的时间戳记录文件411和431中的对应位置处的帧，使得当同步播出时，在播出源媒体项目的特定部分时记录的学生图像被同时可视化，从而实现学生的客观评估。在分析元数据文件361...36i后，添加/删除单元222将样本添加到学生语音块351...35i或从其删除，其结果是组成另一个单个文件451。如此组成的文件451具有等于文件411和431的长度的长度。添加的样本表示无声样本，即，填充有无声的音频样本的样本，并且添加的样本已经***到文件451中的位置，使得在文件451与文件411和431之间实现连续同步。换句话说，预处理器201以完全相同的时间戳记录文件411、431和451中的对应位置处的样本或帧，使得当同步播出时，在播出源媒体项目的特定部分时记录的学生图像和学生语音被同时可视化并使得可听，从而实现学生的客观评估。本地生成的源媒体项目文件411、学生图像文件431和学生语音文件451共同形成了学生口译I1，该口译在图1中从学生计算机111上传到教师计算机101。以类似的方式，口译I2在学生计算机112中本地生成并上传到教师计算机101，口译I3在学生计算机113中本地生成并上传到教师计算机101。由于学生计算机111、112、113中的预处理器201的相应实例化所使用的网络范围同步的时间戳，所有口译I1，I2和I3都被连续同步。

图5例示了在具体示例情况下的预处理器201和后处理器202的操作，其中假设预处理器201和后处理器202由学生计算机111托管，源媒体项目S1由该学生计算机111接收并在播出源媒体项目S1时与由学生计算机111的内置麦克风捕获的学生语音MIC一起被记录。预处理器201将源媒体项目S1拆分为块S1C1或511，S1C2或512，S1C3或513，...以及S1Cn或51n。这些块511-511n包含源媒体项目S1的相等时间长度的部分，例如，由学生计算机播出单个视频帧的时间长度。注意的是，这是个简化的理论示例，因为在实际的实施方式中，可以预期块的长度应跨越多个视频帧，例如具有与大约1000个视频帧对应的1分钟的长度。对于块511-51n中的每一个，生成由在播出对应的块时由时间戳单元213生成的时间戳TS以及由索引单元214生成并表示对应的块中的视频帧的序列号的索引I组成的元数据。在图5中，假设接收到的源媒体项目S1被划分为块511-51n，并且这些块由学生计算机111无中断地播出。因此，与第一块511相关联地生成的元数据521包括时间戳TS＝1和索引I＝1，与第二块512相关联地生成的元数据522包括时间戳TS＝2和索引I＝2，与第三块513相关联地生成的元数据523包括时间戳TS＝3和索引I＝3，...，并且与第n块51n相关联地生成的元数据52n包括时间戳TS＝n和索引I＝n。以类似的方式，预处理器201将捕获的学生语音MIC拆分为块M1C1或551，M1C2或552，M1C3或553，...以及M1Ci或55i。这些块551-55i也具有相同的时间长度，例如与视频帧的时间长度对应的预定数量的音频样本。对于块551...55i中的每一个，预处理器201生成相应的元数据561...56i。元数据561...56i由在捕获对应的块时由时间戳单元213生成的时间戳值TS以及由索引单元214生成并与记录在对应的块中的第一音频样本的序列号对应的索引号I组成。在图5中，已经假设某些音频样本未被记录，例如因为学生计算机111的资源不足。在时间TS＝1处第一块551被记录，并且其第一音频样本具有索引I＝1。在时间TS＝2处没有音频样本被记录。因此，第二块552在时间TS＝3处被记录，并且其第一音频样本具有索引I＝g。在时间TS＝4处和TS＝5处没有音频样本被记录。因此，第三块553在时间TS＝6处被记录，并且其第一音频样本具有索引I＝h。第i个块M1Ci在时间TS＝n(即，也是源媒体项目的最后一个块51n被播出的时间)处被记录，并且其第一音频样本具有索引i。虽然未在图5中示出，但是源媒体项目S1的块511...51n及其相应的相关联的元数据521...52n作为分开的文件被存储在块存储装置205中。类似地，学生语音MIC的块551...55i及其相关联的元数据561...56i作为分开的文件被存储在块存储装置205中。后处理器202从块存储装置205中提取块及其相关联的元数据。后处理器202中的元数据分析器221分析元数据521-52n，并由此得出结论，在记录的用于源媒体项目的块中没有视频帧丢失。因此，元数据分析器221指示添加/删除单元222从记录的块511-51n组成单个文件511，而不添加/删除任何视频帧。后处理器202中的元数据分析器221还分析元数据561-56i，并由此得出结论，在时间TS＝2、TS＝4、TS＝5等处音频样本丢失。元数据分析器221因此指示添加/删除单元222从记录的学生语音块551-55n组成单个文件551，其中在时间TS＝2处(即，在样本M1C1和M1C2之间)***无声的音频样本C0，在时间TS＝4和TS＝5处(即，在样本M1C2和M1C3之间)***无声的样本C0，等等。还应注意的是，无声的音频样本也可以添加在块内学生语音样本丢失和/或损坏的语音样本可以被删除处。以这种方式，组成音频文件551，其具有等于媒体文件511的时间长度的时间长度，并且其中所有记录的学生语音样本都与在这些学生语音样本被记录的时间播出的媒体文件511的部分连续同步。学生计算机111将这样组成的媒体文件511和音频文件551上传到教师计算机101，以评估学生口译员。

图6示出了合适的计算***600，其使得能够实现根据本发明的用于记录源媒体项目的口译的***和方法的实施例。计算***600一般可以被形成为合适的通用计算机，并且包括总线610、处理器602、本地存储器604、一个或多个可选的输入接口614、一个或多个可选的输出接口616、通信接口612、存储元件接口606和一个或多个存储元件608。总线610可以包括一个或多个导体，其允许计算***600的组件之间的通信。处理器602可以包括解释和执行编程指令的任何类型的常规处理器或微处理器。本地存储器604可以包括存储信息和指令以供处理器602执行的随机存取存储器(RAM)或另一种类型的动态存储设备，和/或存储静态信息和指令以供处理器602使用的只读存储器(ROM)或另一种类型的静态存储设备。输入接口614可以包括允许操作者或用户向计算设备600输入信息的一种或多种常规机构，诸如键盘620、鼠标630、笔、语音识别和/或生物识别机构、相机等。输出接口616可以包括向操作者或用户输出信息的一种或多种常规机构，诸如显示器640等。通信接口612可以包括任何类似收发器的机构，诸如例如使计算***600能够与其它设备和/或***(例如与其它计算设备681、682、683)通信的一个或多个以太网接口。计算***600的通信接口612可以借助于局域网(LAN)或广域网(WAN)(诸如例如互联网)连接到这样的另一个计算***。存储元件接口606可以包括存储接口，诸如例如用于将总线610连接到一个或多个存储元件608(诸如一个或多个本地盘(例如，SATA磁盘驱动器))的串行高级技术附件(SATA)接口或小型计算机***接口(SCSI)，并控制数据到这些存储元件608的读和写。虽然上面的(一个或多个)存储元件608被描述为本地盘，但一般而言任何其它合适的计算机可读介质(诸如可移动磁盘、光学存储介质(诸如CD或DVD-ROM盘)、固态驱动器、闪存卡等)都可以被使用。注意的是，根据本发明的整个方法可以例如在云***中或管理中心中的服务器上被集中地执行，或者可以在(例如由用户穿戴的)远程电子设备上部分地执行并在中央服务器上部分地执行。因此，计算***600可以与中央可用的处理***或电子设备中可用的处理***对应。

虽然已经通过参考具体实施例说明了本发明，但是对于本领域技术人员而言清楚的是，本发明不限于前述说明性实施例的细节，并且本发明可以在不脱离其范围的情况下以各种改变和修改来实施。因此，给出的实施例在所有方面都应被认为是说明性的而不是限制性的，本发明的范围由所附权利要求书而不是前述描述来指示，因此，落入权利要求书的含义和范围内的所有改变都意在被包含在其中。换句话说，预期覆盖落入基本底层原理的范围内并且在本专利申请中要求保护其基本属性的任意和所有修改、变化或等同物。此外，本专利申请的读者将理解的是，词语“包括”或“包含”不排除其它元件或步骤，词语“一”或“一个”不排除多个，并且单个元件(诸如计算机***、处理器或另一个集成单元)可以履行权利要求书中阐述的几个部件的功能。权利要求书中的任何附图标记都不应被解释为限制相关的相应权利要求。用于说明书或权利要求书中时，术语“第一”、“第二”、“第三”、“a”、“b”、“c”等被引入以区分相似的元件或步骤，并且不一定描述顺序或时间次序。类似地，术语“顶部”、“底部”、“上方”、“下方”等出于描述的目的被引入，并且不一定表示相对位置。应该理解的是，在适当的情形下，这样使用的术语是可互换的，并且本发明的实施例能够根据本发明以其它顺序或以与上面描述或说明的(一个或多个)定向不同的定向来操作。

Claims

1.一种用于记录源媒体项目(131，141)的口译(151)的***，所述***适于在将所述源媒体项目(131，141)从教师计算机(101)流传输到网络连接到所述教师计算机(101)的多个学生计算机(111，112，113)时训练学生口译员，所述***包括：

-记录模块(201)，被配置为以固定长度或固定尺寸的块(351-35i；331-33k)记录在所述源媒体项目(131，141)的播出期间由学生计算机(111)捕获的学生语音(MIC)和/或图像(CAM)，以便为每个块(351-35i；331-33k)生成包括时间戳和在所述块(351-35i；331-33k)中记录的至少一个语音样本或图像帧的索引的元数据(361-36i；341-34k)，并与所述块(351-35i；331-33k)相关地存储所述元数据(361-36i；341-34k)；以及

-后处理模块(202)，被配置为从所述块(351-35i；331-33k)组成所述源媒体项目(131，141)的所述口译(151)，并在组成所述口译(151)时基于所述元数据(361-36i；341-34k)添加或删除音频样本/视频帧(C0)，使得所述口译(151)与所述源媒体项目(131，141)连续同步。

2.根据权利要求1所述的用于记录源媒体项目(131，141)的口译(151)的***，其中所述记录模块(201)和所述后处理模块(202)由所述学生计算机(111)托管，所述***还包括：

-在所述学生计算机(111)中的上传模块，被配置为将所述口译(151)上传到所述教师计算机(101)。

3.根据权利要求1或权利要求2所述的用于记录源媒体项目(131，141)的口译(151)的***，其中每个块(331-33k)具有N个视频帧的长度，N是大于零的正整数。

4.根据权利要求3所述的用于记录源媒体项目(131，141)的口译(151)的***，其中N是可配置的。

5.根据权利要求1或权利要求2所述的用于记录源媒体项目(131，141)的口译(151)的***，其中每个块(351-35i)具有M个音频样本的长度，M是大于零的正整数。

6.根据权利要求5所述的用于记录源媒体项目(131，141)的口译(151)的***，其中M是可配置的。

7.根据前述权利要求中的一项所述的用于记录源媒体项目(131，141)的口译(151)的***，其中在组成所述口译时添加的所述视频帧是先前视频帧的重复视频帧。

8.根据前述权利要求中的一项所述的用于记录源媒体项目(131，141)的口译(151)的***，其中在组成所述口译时添加的所述音频样本是无声的音频样本(C0)。

9.根据前述权利要求中的一项所述的用于记录源媒体项目(131，141)的口译(151)的***，还包括：

-在所述教师计算机(101)中的源记录模块，所述源记录模块被配置为记录所述源媒体项目(131)。

10.根据权利要求9所述的用于记录源媒体项目(131，141)的口译(151)的***，还包括：

-在每个学生计算机(111)中的同步模块(215)，被配置为将所述时间戳与在所述教师计算机处可用的教师时间戳同步。

11.根据权利要求10所述的用于记录源媒体项目(131，141)的口译(151)的***，其中所述同步模块(215)被配置为：

-从所述学生计算机(111)向所述教师计算机(101)发送第一消息，所述第一消息包括从学生计算机时钟导出的学生时间戳Ts；

-接收来自所述教师计算机(101)的第二消息，该第二消息响应所述第一消息而被发送，所述第二消息包括从教师计算机时钟导出的教师时间戳Tt；

-测量所述第一消息的发送与所述第二消息的接收之间的往返时间RTT；以及

-将所述学生计算机时钟与所述教师计算机时钟之间的同步补偿确定为Tt-Ts-RTT/2。

12.根据权利要求10所述的用于记录源媒体项目(131，141)的口译(151)的***，其中所述同步模块(215)被配置为：

-从所述学生计算机(111)向所述教师计算机(101)发送第一消息，所述第一消息包括在传输所述第一消息时从学生计算机时钟导出的学生时间戳Ts1；

-接收来自所述教师计算机(101)的第二消息，该第二消息响应所述第一消息而被发送，所述第二消息包括在传输所述第二消息时从教师计算机时钟导出的教师时间戳Tt2和由所述教师计算机(101)确定为在由所述教师计算机(101)接收所述第一消息时从所述教师计算机时钟导出的教师时间戳Tt1与所述第一消息中的所述学生时间戳Ts1之间的差Tt1-Ts1的第一差值delta1；

-将第二差值delta2确定为所述第二消息中的所述教师时间戳Tt2与在接收所述第二消息时从所述学生计算机时钟导出的学生时间戳Ts2之间的差值Tt2-Ts2；以及

-将所述学生计算机时钟与所述教师计算机时钟之间的同步补偿确定为(delta1+delta2)/2。

13.一种用于记录源媒体项目(131，141)的口译(151)的方法，该方法适于在将所述源媒体项目(131，141)从教师计算机(101)流传输到网络连接到所述教师计算机(101)的多个学生计算机(111，112，113)时训练学生口译员，所述方法包括：

-以固定长度或固定尺寸的块(351-35i；331-33k)记录在所述源媒体项目(141)的播出期间由学生计算机(111)捕获的学生语音(MIC)和/或图像(CAM)；

-为每个块(351-35i；331-33k)生成包括时间戳和在所述块(351-35i；331-33k)中记录的至少一个语音样本或图像帧的索引的元数据(361-36i；341-34k)；

-与所述块(351-35i；331-33k)相关地存储所述元数据(361-36i；341-34k)；以及

-从所述块(351-35i；331-33k)组成所述源媒体项目(131)的所述口译(151)，并在组成所述口译(151)时基于所述元数据(361-36i；341-34k)添加/删除音频样本/视频帧(C0)，使得所述口译(151)与所述源媒体项目(131，141)连续同步。