CN1328891C

CN1328891C - 一种ip网络环境下的语义完整性保障的方法

Info

Publication number: CN1328891C
Application number: CNB2004100885942A
Authority: CN
Inventors: 傅群; 杨劲松; 施健标; 焉勇
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2004-11-09
Filing date: 2004-11-09
Publication date: 2007-07-25
Anticipated expiration: 2024-11-09
Also published as: CN1604572A

Abstract

本发明公开了一种在IP网络环境下的语义完整性保障的方法，即在语音数据发送端以时间长度划分、封装语音数据包；在语音数据接收端缓冲的语音数据包达到延时数目后，严格按照该延时数目缓冲、播放语音数据；对于迟到或者丢失的语音数据包以噪音数据代替；当连续迟到或者丢失的语音数据包数目累积超过第一临界数值时，则停止语音数据接收端的语音播放线程，等待缓冲的数据包数目积累到延时数目后，再启动语音播放线程；在语音播放的过程中，语音数据包的缓冲位置领先于播放位置的长度超过第二临界数值时，则立即将语音播放线程中的指针跳跃到指定位置，使得语音数据包缓冲数目等于延时数目，并在此期间产生一段噪音数据，以提示用户数据遭到破坏。

Description

一种IP网络环境下的语义完整性保障的方法

技术领域

本发明涉及了一种IP网络环境下的语义完整性保障技术，即在IP网络不可靠的传输协议下，仍然能够有效保证语义完整性的方法。

背景技术

随着计算机网络的飞速发展，基于计算机网络技术的语音传输***的应用也越来越广泛。由于语音传输的实时性，使得其对计算机网络的传输速率、网络状况有着很高的要求。

然而，目前基本上么少有计算机网络能达到这么高的要求。另一方面，计算机网络通信信道是多用户共享的，信道共享就使得计算机网络信道时忙时闲，也就是信道状况时好时坏，这就进一步影响了语音传输***的性能、效果。

在网络情况较差的情况下，如果不采取某种措施加以控制，实时语音传输***可能存在许多问题。表现在：

(1)网络时延长，***实时性差。在计算机网络较为繁忙的情况下，从发送站到接收发送的语音数据在传输过程中的每一个结点，都可能因为该结点较为繁忙而等待较长的时间。或者由于某段网络较差，而不得不选择其它的物理线路较长的路由，这就可能导致数据包到达有较大的延迟，这会引起***实时性较差的问题，在接收端收听到的语音可能是发送端在很长时间以前所发送的。

(2)接收端语音播放不流畅。在计算机网络性能不大稳定的情况下，在某一时段，网络状况较好时，数据包到达接收端的时延可能很小；在另一时段，网络状况较差时，数据包到达接收端的时延可能相对较大，如果在接收端不加以处理，则在播放时，便会产生时断时续的语音，造成语音播放不流畅。

(3)数据丢失时，所传送语音的语义完整性较差。在大部分计算机网络中，如果网络***状况较差、出现网络堵塞时，其中的某些结点可能会有选择地丢弃掉某些数据包，如果语音数据包被丢弃掉的话，由于语音传输的连续性和实时性，可能不会在发送端重新发送这些被丢弃的数据包，使得接收端收到的数据包不是完整的、连续的，从而可能使得收到的语音数据失去语义的完整性，引发语义错误。

举例来讲：假如要传送这样的一段语音“进入……名单的企业有微软、IBM、戴尔、SUN等公司”。假如有一个数据包传输“戴尔”这两个音，在网络中被丢弃，那么在接收端收到的语音便是“进入……名单的企业有微软、IBM、SUN”等公司。这样便失去了语义的完整性。语音的语义完整性是很重要的，如果接收端收到的语音是不完整的，有歧义的，便很有可能引起误会。

由于语音传输对网络性能的依赖性太强，一个好的语音传输***必须考虑在网络较差的情况下所可能引发的前述各种问题。为了克服这些问题，就必须对接收端的处理播放软件加以改进，以使得在出现网络问题时，能够最大限度地提供实时、流畅的语音，并在语音数据丢失、语义完整性出现问题时，能够提醒用户。

为了克服上述的问题，可以在接收端对接收到的数据进行一些处理，以提供更好的服务。目前可供采取的主要方法主要为

(1)数据缓冲法。这是早期传输***用得比较普遍的方法。如果在网络较差的情况下，用户听到的语音是并不是连续的，而是时断时续的，在这种情况下，用户就会感到很难受。基于用户的这种需要，数据缓冲法主要致力于保障语音的连续、流畅。

数据缓冲法的主要思想是：在接收端，处理程序将接收到的数据错不是立即拆包、解码、播放，而是先放到一个***缓冲区中，当缓冲区中数据包的数目达到某个值M时，便可以一次性地对所有数据解码、播放。在***进行数据缓冲时，***给用户播放的是静音，并显示给用户“正在缓冲”的提示。

其中，M的值可以由***根据网络状况自行决定。当网络情况较好时，就将M设为一个较大的值，这样一次播放较长的语音，以使得语音听起来更加流畅。当网络情况较差时，为了使用户不至于长时间地空等，可将M设为一个较小值，以保证***的实时性。

数据缓冲方法从用户的角度出发，即保障了接收端语音的流畅性，又兼顾了接收端语音的实时性。然而，数据缓冲方法也存在很多缺点。首先，数据缓冲法由于缓冲区的大小是不定的，这往往需要一个较大的缓冲区来进行工作，消耗了***很大一部分内存资源。其次，在数据缓冲法中，M值的设置非常关键，对M值设置的合理与否将直接影响到***的好坏，如何把握、控制M的值，是一个难题。另外，由于数据包的缓冲，可能使得***的实时性并不是很强。尤为重要的是，数据缓冲法并没有考虑到“语义完整性”这一问题，不完整的语音使得用户在收听语音时，很有可能会产生错误的理解。(2)实时播放***。在某些语音传输***中，对语音的实时性要求非常严格，发送端所发出的数据必须严格在***所允许的时间内接收并播放。另一方面，计算机网络的发展使得网络中传输数据的速率越来越高。百兆、千兆甚至是TB级的网络相继出现并普及，这使得网络状况有了很大的改善。这样，在许多情况下，实时播放便足以满足用户的需要。

实时播放***主要方法是：A.在发送端以等长的时间T划分要发送的数据。T视***的要求而定，可以很短，也可以较长。B.将要发送的数据编号、打包并发送。C.在接收端，要将所接收到的数据不进行缓冲，或者进行很短时间(毫秒级)的缓冲后，进行播放。如果出现个别数据包迟到的情况，则以相应长度的静音表示。D.当接收到迟到的数据包时，由于该数据包的上下文相关数据包已经播放，可以直接将其丢弃。

实时播放***充分保障了语音传输***的实时性。在大部分的情况下，实时播放***取得了很好的效果。然而，如果出现了网络较差的情况，实时播放***在接收端播放出的语音就便得时断时续起来，这与“数据缓冲方法”是相悖的。

另外，由于实时播放***仅是简单地将迟到的数据包丢弃，并代之以静音，而出现静音时，用户很可以会将其误认为是说话者的停顿，而不会想到是出现了数据丢失，可能收到错误语音。显然也不能保障语义的完整性。

发明内容

本发明的目的是：针对现有技术的不足，提供一种在IP网络不可靠的传输协议下，仍然能够有效保证语义完整性的方法。

为了解决上述技术问题，本发明所采取的技术方案是：一种在IP网络环境下的语义完整性保障的方法，包括如下步骤：

步骤一、在语音数据发送端预先设定时间长度的值，并以所述时间长度划分、封装语音数据包；

步骤二、在语音数据接收端预先设定延时数目的值，当语音数据接收端缓冲的语音数据包达到所述延时数目后，按照该延时数目缓冲、播放语音数据；

步骤三、对于迟到或者丢失的语音数据包以噪声数据代替；

步骤四、在语音数据接收端预先设定第一临界数值，当连续迟到或者丢失的语音数据包数目累积超过所述第一临界数值时，则停止语音数据接收端的语音播放线程，等待缓冲的数据包数目积累到所述延时数目后，再启动语音播放线程；

步骤五、在语音数据接收端预先设定第二临界数值，在语音播放的过程中，当语音数据包的缓冲位置领先于播放位置的长度超过所述第二临界数值时，则立即将语音播放线程中的指针跳跃到指定位置，使得语音数据包缓冲数目等于所述延时数目，并在此期间产生一段噪音数据。

所述用于语音数据发送端划分、封装语音数据包的时间长度的取值范围可以在50毫秒到150毫秒之间。

所述语音数据接收端预先设定的延时数目的值可以为使得语音延时在0.5秒到1秒之间。

所述第一临界数值的取值范围可以为使得语音的累积时间在0.5秒到2秒之间。

所述第二临界数值可以大于所述延时数目。

在上述技术方案中，本发明由于在语音发送端以等长的时间划分要发送的数据，并使语音数据接收端不论是在正常播放的情况下，还是在出现数据包迟到或丢失的情况下，或者在语音数据包的缓冲位置大大超过语音播放位置的情况下，都严格按照以确定的延时数目缓存和播放所接收的语音数据包，从而可以严格保证语音数据的实时性和匀速性。同时，在保证语言数据的实时性和匀速性的前提下，为了进一步保证语义的完整性，本发明采用将语音接收端发现丢失或者迟到的数据包时，产生噪声的方法提示用户该段语音发生问题，从而避免歧义的发生。因此相对现有技术，本发明不仅具有语音播放实时、流畅的特点，还具有可有效保证语义完整的特点。

具体实施方式

下面将结合具体实施例对本发明作进一步详细说明。

本发明所提供的一种在IP网络环境下的语义完整性保障方法，包括如下步骤：

步骤一、在语音数据发送端预先设定时间长度L的值，该时间长度L取值范围在50毫秒到150毫秒之间。在语音数据发送端以该时间长度L划分、封装语音数据包。

步骤二、在语音数据接收端预先设定延时数目T的值。为了保证语音沟通的流畅性，语音数据接收端缓冲的语音数据包数目T的取值范围为使得语音延时在0.5秒到1秒之间。在语音数据接收端缓冲的语音数据包达到延时数目T之后，严格按照该延时数目T缓冲、播放语音数据。

步骤三、对于迟到或者丢失的语音数据包则以噪音数据代替。

步骤四、在语音数据接收端预先设定第一临界数值M。当连续迟到或者丢失的语音数据包数目累积超过所述第一临界数值M时，则停止语音数据接收端的语音播放线程，等待缓冲的数据包数目积累到所述延时数目T之后，再启动语音播放线程。

为了保证***响应的灵敏性，连续迟到或者丢失的语音数据包数目累积第一临界数值M的取值范围为使得语音的累积时间在0.5秒到2秒之间。

步骤五、在语音数据接收端预先设定第二临界数值N，所述第二临界数值N大于所述延时数目T。当在语音播放的过程中，语音数据包的缓冲位置领先于播放位置的长度超过所述第二临界数值N时，则立即将语音播放线程中的指针跳跃到指定位置，使得语音数据包缓冲数目等于所述延时数目T，并在此期间产生一段噪音数据，以提示用户数据遭到破坏。

通过这种方法即可达到在IP网络不可靠的传输协议下，仍然能够有效保证语义完整性的目的。

以上仅为本发明的一种具体实施例。实际应用中，还可根据本发明的构思作出相应的改变，已达到同样的功能和效果，如对于迟到或者丢失的语音数据包以噪音数据代替的做法，亦可采用鸣钟等其它提示声音数据代替。因此，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1、一种在IP网络环境下的语义完整性保障的方法，包括如下步骤：

步骤三、对于迟到或者丢失的语音数据包以噪声数据代替；

步骤五、在语音数据接收端预先设定第二临界数值，所述第二临界数值大于所述延时数目，在语音播放的过程中，当语音数据包的缓冲位置领先于播放位置的长度超过所述第二临界数值时，则立即将语音播放线程中的指针跳跃到指定位置，使得语音数据包缓冲数目等于所述延时数目，并在此期间产生一段噪音数据。

2、如权利要求1所述在IP网络环境下的语义完整性保障的方法，其特征在于：所述用于语音数据发送端划分、封装语音数据包的时间长度的取值范围在50毫秒到150毫秒之间。

3、如权利要求1或2所述在IP网络环境下的语义完整性保障的方法，其特征在于：所述语音数据接收端预先设定的延时数目的值为使得语音延时在0.5秒到1秒之间。

4、如权利要求3所述在IP网络环境下的语义完整性保障的方法，其特征在于：所述第一临界数值的取值范围为使得语音的累积时间在0.5秒到2秒之间。