CN103875241A

CN103875241A - 用于在传输数字图像时间序列时处理干扰的方法

Info

Publication number: CN103875241A
Application number: CN201280050174.8A
Authority: CN
Inventors: J.施瓦策
Original assignee: Unification Ltd Liability LP
Current assignee: Unification Ltd Liability LP; Unify GmbH and Co KG
Priority date: 2012-07-25
Filing date: 2012-07-25
Publication date: 2014-06-18
Anticipated expiration: 2032-07-25
Also published as: EP2745510A1; US20140232812A1; EP2745510B1; CN103875241B; US9300907B2; WO2014015884A1

Abstract

在一种用于在从发送器(S)传输数字图像时间序列(I)到至少一个接收器(R)时处理干扰的方法中，其中，待传输的图像至少暂时显示讲话者的面部，所述时间序列的由于干扰而不能够被解码或不能够以满意的方式解码的图像在所述接收器侧上由合成图像(P)取代。所述合成图像借助声音数据(LD)产生，所述声音数据通过声音识别从讲话者的数字语音数据(SD)中被提取或已经被提取，其中，所述数字语音数据与所述数字图像数据(I)一起被传输或已经被传输。

Description

用于在传输数字图像时间序列时处理干扰的方法

本发明涉及一种用于在传输数字图像时间序列时处理干扰的方法。

在通过传输信道传输数字图像时间序列时，即例如在通过电话线路、数据通信线路或通过无线电连接、例如在视频电话中传输视频数据时，将图像数据以数字形式从发送器向一个或多个接收器传输。经常，譬如在视频电话中那样，与图像数据一起也传输音频数据。那么，音频数据经常主要由语音数据、即由在所传输的图像中显示的人所产生的语音信号的数字表示组成。

由于从传统电话到因特网电话（也称作IP语音或VoIP）的技术变迁，增值服务迅速变得重要，所述增值业务要求通信参与者之间增加的带宽需求。在此可以涉及实时性业务（例如，借助高质量的编解码器的音频传输）和/或视频电话，或涉及无实时性要求的并行通信机制，如所谓的“消息传递”或所谓的“聊天”。在这种增值业务中可能通过以下方式造成问题：在通信伙伴之间增加的带宽必须在整个通信时间期间可用。但是，此要求并不总是能够被保证，尤其是在移动通信伙伴依赖于无线数据通信时并不总是能够被保证。因而，例如在火车行驶期间可能发生：首先足够的带宽可供音频通信与视频通信使用，而此后不久，由于网络连接的品质下降，实施音频通信与视频通信所需的带宽短暂不可用。

为了在可用带宽和发生的干扰方面考虑由所使用的传输信道特性所表征的限制，通常对待传输的图像数据与语音数据进行“编码”。所谓的编码经常通过不相干性减少和通过冗余减少而引起待传输的数据量减少。为了能够保护（很大程度上）无冗余的有用数据以防传输时的错误，通常又补充一定量的冗余，所述冗余采取所谓的纠错码的形式。

在音频传输时能够通过切换到高度压缩的编解码器来动态地对可用带宽的降低作出反应。然而，在视频传输领域中，由于用于可使用的运动图像传输的显著最小带宽，这只在非常有限的程度上是可能的。如果可用带宽低于特定的值，则如今一般而言调整图像传输，并且根据通信端点中的实现–或者完全不再显示图像或显示必要时本地现有的联系人照片。该行为方式在视频会议的情况下尤其不能令人满意，这是因为具有过小带宽的参与者在这些情况下无图像传输地参与会议，由此他们没有被充分地感知并且变成二等会议参与者。

在此，一种动态地依赖于可用带宽而对所使用的视频编解码器或图像分辨率进行的选择可能能够提供纠正。

尽管有这些措施，然而仍不能够或不总是能够实现这种传输***的无故障运行。因此，本发明所基于的任务是，在可能发生的干扰方面尽可能改善用于数字图像时间序列的传输***的特性。

为了完成所述任务，本发明提供一种用于在从发送器传输数字图像时间序列到至少一个接收器时处理干扰的方法，其中，待传输的图像至少暂时显示讲话者的面部，并且其中，所述时间序列的由于干扰而不能够解码或不能够以满意的方式解码的一个或多个图像在接收器侧上或在至接收器的路径上由一个合成图像或多个合成图像取代。所述一个合成图像或所述多个合成图像借助声音数据被选择或被产生或已经被选择或已经被产生，所述声音数据通过声音识别从讲话者的数字语音数据中被提取或已经被提取，其中，所述数字语音数据与数字图像数据一起被传输或已经被传输。

与本发明的描述相关联地，数字图像时间序列可以理解为序列I（1）、I（2）、...、I（n-1）、I（n）、I（n+1）、...，在所述序列中，所述序列的每个元素I（n）是一个数字图像，其中，所述序列索引n是自然数，并且定义了时间顺序关系。因此，该序列的相继图像对应于相继的时间点。序列的每个元素是一个数字图像，即对应于多个数字图像值的二维排列的数据结构，或能够被转换成数字图像值的这种二维排列，或能够通过数字图像值的这种二维排列至少近似地来表示，其中所述多个数字图像值也称作像素。

以经编码的形式，这种数字图像时间序列经常采用其它构造。为了减少待传输的数据量，经常不对图像序列的元素单独编码，而是使用所谓的预测方法，所述预测方法根据数字图像时间序列的先前和/或随后的图像来计算中间图像，所述中间图像与经单独编码的图像相比经常具有显著较小的数据量并且接收器借助解码能够根据它们来重新计算各个图像的序列。在此处存在的上下文中，术语数字图像时间序列应理解为这些经编码的、未经编码的或经解码的图像序列的所有可能形式。

在此上下文中，数字图像时间序列的传输应理解为以下每一种方法：在所述方法中，从发送器向至少一个接收器传输数字图像时间序列。这种传输的重要例子是视频电话服务、视频流播、数字电视和类似的方法。数字图像时间序列的传输在此上下文中也称作视频传输。

在此上下文中，数字图像时间序列的发送器应理解为以下每种设备：所述设备构成传输数字图像时间序列的出发点。这种发送器的重要例子是可视电话、视频摄像机或所谓的智能手机，其具有至用于传输数字图像时间序列的传输信道的接入，即例如具有至电话网络的接入、因特网接入或具有至（无线的）计算机网络的接入。

在此上下文中，数字图像时间序列的接收器应理解为以下每种设备：所述设备构成传输数字图像时间序列的终点。这种接收器的重要例子是可视电话、计算机屏幕或所谓的智能手机，其具有至用于传输数字图像时间序列的传输信道的接入，即例如具有至电话网络的接入、因特网接入或具有至（无线的）计算机网络的接入。

在此上下文中，至少暂时显示讲话者的面部的数字图像时间序列应理解为以下图像序列：在所述图像序列中，多个相继的图像从语音信号出发，显示人面部或人面部的部分，优选还有其它或至少面部的嘴部，所述语音信号作为数字语音数据与数字图像时间序列一起传输。例如在视频电话服务中经常传输这种图像序列和所属的语音数据。

在此上下文中，干扰、尤其是在数字图像时间序列传输时的干扰应理解为一种过程或结果，所述过程或结果不利地影响所传输图像序列的、尤其是数字图像时间序列的传输和/或再现。这种干扰的例子是数据丢失或传输错误。这种干扰可以是由可用带宽的暂时减少引起的，因此所述干扰在其侧可以理解为在这个意义上的干扰。这种干扰的另一个例子是发生在移动通信中的干扰，其中，处于运动中的接收器（例如行驶的汽车中或火车行驶期间）在不同的无线电单元之间运动，并且由此遭遇连续波动的链路质量。

在此上下文中，解码应理解为以下每一个过程：所述过程根据经编码的图像序列重建原始图像序列。视频解码方法的一个重要的例子是根据MPEG-4标准的方法。

在此上下文中，合成图像应理解为以下数字图像：所述数字图像不是通过或不是仅仅通过对所传输经编码数字图像时间序列进行解码来确定的，而是借助另外的数据、尤其是语音数据来根据至少一个经解码的图像或根据经编码的数字图像时间序列确定的，以便取代至少一个数字图像，在无另外数据的这种辅助的情况下不能够确定或不能够以令人满意的质量确定所述至少一个图像。在此上下文中，也将合成图像时间序列称作运动图像模拟。

在此上下文中，表达方式——据此数字语音数据与数字图像数据“一起”被传输或已经被传输——也包括这种情况：在所述情况中语音数据与图像数据同时但在不同的路径上传送。

优选地设置，在对于视频传输来说带宽短暂或持续不充分的情况下基于语音连接的实时声音分析来生成对话者（接收器）的运动图像模拟。优选一直显示所述运动图像模拟直到足够的带宽可供视频传输使用。对此优选需要对用于视频传输的通信连接进行连续带宽监视。一旦带宽对于所选择的应用、优选对于视频电话不再足够，则使用根据本发明的运动图像模拟，即未传输的图像由合成图像来取代，其方式是，优选切换到运动图像模拟上。

优选地，根据本发明的运动图像模拟基于讲话者或者其面部的至少一个数字图像，所述至少一个数字图像优选存储在接收器处。在此，优选涉及在带宽还不足够的时间点已经被传输的图像。但也可以涉及当前通信连接的所谓的快照、提前传输的静止图像，或涉及讲话者的多个提前传输的静止图像。替代地，也可以涉及已经在接收器处存在的联系人照片，所述联系人照片可以通过消息传递服务或通过所谓的社交网络来获得。

优选根据在接收器处存在的多个此类图像或根据在接收器中存在的一个此类图像来计算经修改的合成图像的时间序列，所述经修改的合成图像优选模仿或仿造各个声音的发音时的典型面部特征。对此，优选首先将静止图像或另外的图像作为用于确定合成图像的图像的基础来分析，也就是说，优选对合适的或必要的固定点——例如眼睛、眉毛、鼻子、嘴巴、嘴唇等定位。优选对于每一个从语音数据提取的声音计算合成图像。

优选地，与语音连接步骤一致地、优选在尽可能好地遵守实时性要求的情况下对所接收或发送的音频流、也就是说语音数据的数据流进行声音分析（或声音数据提取）。在此，音频数据到忠实于声音的音频格式（忠实于声音的编解码器）的转码是必要的或有用的。然后优选地使用与所提取的声音相应的合成图像或提取的声音的或与所提取的声音序列相应的合成图像的时间序列用于在接收器中的再现，直到识别随后的声音或随后的所提取的声音序列。在此，为了质量改善优选还根据两个声音图像来计算附加的过渡图像。因此，在接收器侧上形成以下印象，好像通信伙伴（即讲话者）的视频图像与现有的语音连接同步地优选无干扰或低干扰地传输，不过所述传输实际上是受干扰的，有可能所受的干扰使得在这些时间期间实际上不能够实现对实际所传输视频图像的再现。

通过这种方式，通过根据本发明的措施解决以下问题：所述问题在视频电话服务中传输带宽波动的情况下尤其由于媒体破坏（Medienbruch）（例如图像丢失）可能出现。另外通信参与者处的感受、尤其是在视频会议中另外通信参与者处的感受得到重要改善。

优选在真实的视频通电话期间录制并且在如下状况中再次反映声音图像呈现——而不是计算所述声音图像呈现：在所述状况中恰恰没有足够的带宽可供使用，尤其在所述状况中讲话者恰恰没有足够的带宽。声音图像呈现也能够优选地由会议参与者自身例如借助合适的软件应用程序建立并且提供用于联系人的下载。根据本发明的方法可以有选择地应用在每个通信端点中，所述通信端点希望使用与此相关的性能特征或者集中应用在视频会议服务器中，所述视频会议服务器将各个视频流和运动图像模拟聚合成一个单一的视频流。

在此上下文中，语音数据应理解为数字音频数据的伴随视频传输的数据流。通常以经编码的形式传输这些音频数据，以便将这些音频数据的传输所需的带宽保持得尽可能的低。

在此上下文中，声音数据应理解为数字数据的优选的符号序列，其中，每个序列元素或符号优选表示一种声音、即一个音素或一个声音串。优选地，声音或声音串借助语音字母表来表征，例如借助国际的语音字母表IPA（在***在页面“国际字母表”（免费的百科全书，处理状态：2012年6月16日，20:28 UTC，URL：http://de.wiki-pedia.org/w/index.php?title=Internationales_Phonetisches_Alphabet&oldid=104470080（访问：2012年7月2日，19:37 UTC）中）或借助SAMPA——IPA的子集——来表征，在所述SAMPA中使用7位ASCII字符。

在此上下文中，声音识别或声音数据提取应理解为用于根据语音数据获取声音数据的方法。这种方法的一个例子在Harald Finster和Jürgen W. Meyer（1990年）的出版物《借助多层神经网络从运行文本的自动声音识别（Automatische Lauterkennung aus flie?endem Text mit Hilfe mehrschichtiger Neuronaler Netze）》、在“第7届信号理论的亚琛研讨会ASST '90：Modellgestützte Signalverarbeitung（ASST '90）”，Walter Ameling（主编），施普林格出版社，英国伦敦，第299-304页中描述。对语音识别当前状态的介绍性概述在***中的页面“语音识别”（免费的百科全书，处理状态2012年6月20日，09:35 UTC，URL：http://de.wikipedia.org/w/index.php?title=Spracherkennung&oldid=1 04595052（访问：2012年7月2日，19:48 UTC））上找到。

在此上下文中，表达方式“被或已经被”或类似的表达方式应意味着，根据本发明的所选择的实施方式或者在实时条件下在相关的数据传输期间执行或者在相关的数据传输之前的时间点实施相关的过程或方法步骤。因此，尤其声音数据或合成图像尤其可以在传输图像序列期间实时地被产生，或者声音数据或合成图像可以提前已经被产生，并且必要时也提前已经被传输到接收器上。

优选设置一种方法，其中，对所述传输的干扰由可用数据速率的暂时降低引起或已经被可用数据速率的暂时降低引起。可用的数据速率的暂时降低因此是在此考虑的意义上的传输干扰的可能的重要原因，但不是唯一可能的原因。可能的另外原因是通过外部的干扰影响——例如电磁干扰场或对于电磁波不利的传播条件引起的传输错误。

在此上下文中，可用数据速率和/或可用带宽应理解为以下数据速率和/或带宽：所述数据速率和/或带宽可供给定的传输信道中的通信连接使用，所述通信连接必要时必须与另外的通信连接一起共享所述传输信道。

优选设置一种方法，其中，至少一个合成图像在所述接收器侧上、优选在视频数据的传输期间或之前被选择或被产生或已经被选择或已经被产生。

在此上下文中，表达方式“在接收器侧上”应意味着，相关的过程和/或设备在发送器与接收器之间的传输路线的端部处运行或者设置。

优选设置一种方法，其中，至少一个合成图像在传输期间被产生。通过这种方式可能的是，提供所述合成图像，而无需准备措施。表达方式“在传输期间”或者“在传输路径上”或者“在至接收器的路径上”或者“在发送器和接收器之间的传输路径上”在此处存在的上下文中应意味着，与此相关的过程实时地和/或在由发送器发送之后并在由接收器接收之前进行。

优选设置一种方法，其中，在所述接收器侧上在所述传输期间从所述语音数据提取声音数据。

优选设置一种方法，其中，在所述接收器侧上，至少一个讲话者的合成图像的库优选在视频数据的传输期间或之前被创建或已经被创建。

在此上下文中，合成图像的库应理解为多个合成图像，所述多个合成图像被存储或已经被存储在用于存储数字图像数据的设备中。优选在这种库的图像和可能的声音之间存在一种配属关系，所述可能的声音能够通过声音数据提取而从存储器的语音数据中提取，借助所述配属关系能够确定库中至少一个与声音匹配的合成图像。这种库的图像可以在视频数据传输的第一阶段中通过用于产生合成图像的设备来产生并存储在库中，以便在视频数据传输的第二阶段中通过用于选择合成图像的设备根据所提取的声音数据来选择并且替代原始图像来传输。

优选设置一种方法，其中，至少一个合成图像在所述发送器与接收器之间的传输路径上、优选在所述视频数据的传输期间或之前被产生或已经被产生。通过这种方式可能的是，与如下发送器和/或接收器相关联地应用本发明，所述发送器和/或接收器不必通过本发明特定的方式来配备。

优选设置一种方法，其中，在所述发送器与接收器之间的传输路径上在所述传输期间从所述语音数据提取声音数据。通过这种方式可能的是，与如下发送器和/或接收器相关联地应用本发明，所述发送器和/或接收器不必通过本发明特定的方式配备。

优选设置一种方法，其中，至少一个讲话者的合成图像的库在所述发送器与接收器之间的传输路径上、优选在所述视频数据的传输期间或之前被创建或已经被创建。通过这种方式可能的是，与如下发送器和/或接收器相关联地应用本发明，所述发送器和/或接收器不必通过本发明特定的方式配备。此外，不必在多个终端设备上创建和存储库。

根据本发明，通信设备具有用于实施根据本发明的方法、优选根

下面，根据优选的实施例和借助附图更详细地描述本发明。

在此示出：

图1以示意性的方式示出本发明的第一优选实施例，

图2以示意性的方式示出本发明的第二优选实施例，

图3以示意性的方式示出本发明的第三优选实施例。

根据本发明的方法用于在从发送器S传输数字图像时间序列I到至少一个接收器R时处理干扰。

在此，待传输的图像至少暂时显示讲话者的面部。所述时间序列的由于干扰而不能够被解码或不能够以满意的方式解码的一个或多个图像在接收器侧上或在至接收器的路径上由一个合成图像P或多个合成图像取代。所述合成图像借助声音数据LD被选择或者已经被选择或者被产生或已经被产生，所述声音数据通过声音识别或声音提取从讲话者的数字语音数据SD中被提取或已经被提取，其中，所述数字语音数据与数字图像数据I一起被传输或已经被传输。

在图1中所示的本发明实施例中，发送器S将图像数据I与语音数据SD一起向接收器R传输。尤其在视频电话服务的情况下，运动图像I（也称作视频流）显示讲话者，所述讲话者的语音信号通过麦克风记录、数字化并且优选以语音数据SD形式编码地传输。

如果现在尤其由于可用数据速率或带宽的暂时降低而发生对传输的干扰，则该图像序列I的图像或一些图像由合成图像P取代。对此，在接收器的输出端处在接收器R中设置混合器M，所述混合器代替输出原始图像序列I而输出混合的图像序列P、I，其中，所述原始图像I中的各个或多个图像已经由合成图像P取代。语音数据优选不变地输出。

在图1中所示的本发明实施例中，在接收器R侧上，合成图像P被产生或被选择。对此，设置用于在接收器R中产生或选择合成图像的设备PG，所述设备根据声音数据来选择或产生合成图像P。在由设备PG来选择合成图像的情况下，在接收器中存储多个合成图像，设备PG根据声音数据从所述多个合成图像中选择合成图像。所述多个合成图像优选地在较早的时间点已经由设备PG产生或由接收器R接收。合成图像到接收器中的传输可以通过与稍后进行视频传输的通信连接相同的通信连接进行；但合成图像到接收器中的传输也可以通过另一通信传输进行，例如通过提供这种图像的社交网络。

对此替代地，至少一个合成图像P在图像序列I的传输期间由设备PG产生。在任何情况下都根据声音数据LD进行合成图像的产生或选择，这是因为合成图像应适合声音数据，讲话者的在合成图像中所示的合成面部表情（Gesichtsdrücke）因此应适合讲话者的语音数据的同时再现的声音。

在图1中，优选在接收器R侧上在传输期间从语音数据SD提取声音数据LD。对此，在接收器中进行声音数据提取LDE。

优选在接收器R侧上在视频数据I的传输期间或者之前至少一个讲话者的合成图像P的库L被创建或者已经被创建。

在图2中所示的本发明实施例中，在发送器S中进行声音数据提取LDE。因此，发送器S除了视频数据I和语音数据SD之外还向接收器R传输声音数据LD。

在图3中所示的本发明实施例中，至少一个合成图像优选在发送器S与接收器之间的传输路径TC上在视频数据的传输期间或者之前被产生或被选择或者已经被产生或已经被选择。因此，在所述实施例中，在从发送器S到接收器R的传输路径的设备TC中设置用于产生或选择合成图像的设备PG以及声音数据提取LDE。在所述实施例中，还在发送器与接收器之间的传输路径上在传输期间从语音数据SD提取声音数据PD。

至少一个讲话者的合成图像的库L优选在发送器与接收器之间的传输路径上在视频数据的传输期间或之前被创建或者已经被创建。

在此描述的本发明实施例的各个特征或多个特征可以由专业人员以不同的方式彼此组合，以便获得在此不能穷尽地描述的另外实施例。

参考标记列表

S　　　　发送器

R　　　　接收器

I　　　　待传输的数字图像

P　　　　合成图像

SD　　　语音数据

LD　　　声音数据

LDE　　从语音数据提取声音数据

PG　　　合成图像的产生或选择

M　　　混合器

TC　　　传输路径、传输设备

L　　　库。

Claims

1. 一种用于在从发送器(S)传输数字图像时间序列(I)到至少一个接收器(R)时处理干扰的方法，其中，待传输的图像至少暂时显示讲话者的面部，其特征在于，所述时间序列的由于干扰而不能够被解码或不能够以满意的方式解码的一个或多个图像在所述接收器侧上或在至所述接收器的路径上由一个合成图像(P)或者由多个合成图像取代，所述合成图像借助声音数据(LD)被选择或被产生或已经被选择或已经被产生，所述声音数据通过声音识别而从所述讲话者的数字语音数据(SD)中被提取或已经被提取，其中，所述数字语音数据与所述数字图像数据(I)一起被传输或已经被传输。

2. 根据权利要求2所述的方法，其特征在于，对所述传输的干扰由可用数据速率的暂时降低引起或已经由可用数据速率的暂时降低引起。

3. 根据以上权利要求中任一项所述的方法，其特征在于，至少一个合成图像(P)在所述接收器(R)侧上被产生或已经被产生。

4. 根据以上权利要求中任一项所述的方法，其特征在于，在所述传输期间产生至少一个合成图像(P)。

5. 根据以上权利要求中任一项所述的方法，其特征在于，在所述接收器(R)侧上在所述传输期间从所述语音数据(SD)提取声音数据(PD)。

6. 根据以上权利要求中任一项所述的方法，其特征在于，至少一个讲话者的合成图像(P)的库(L)在所述接收器(R)侧上被创建或已经被创建。

7. 根据以上权利要求中任一项所述的方法，其特征在于，至少一个合成图像(P)在所述发送器(S)与接收器(R)之间的传输路径(TC)上被产生或已经被产生。

8. 根据以上权利要求中任一项所述的方法，其特征在于，在所述发送器与接收器之间的传输路径上在所述传输期间从所述语音数据(SD)提取声音数据(PD)。

9. 根据以上权利要求中任一项所述的方法，其特征在于，至少一个讲话者的合成图像的库在所述发送器与接收器之间的传输路径上被创建或已经被创建。

10. 一种通信设备，所述通信设备具有用于实施根据以上权利要求中任一项所述的方法的装置。

11. 根据权利要求10所述的通信设备，所述通信设备具有用于从语音数据(SD)提取声音数据(LD)的装置(LDE)。

12. 根据权利要求11所述的通信设备，所述通信设备具有用于根据声音数据(LD)以及根据待传输的或待接收的数字图像数据(I)来产生合成图像(P)的装置(PG)。