KR20070001267A

KR20070001267A - 음성 통신 방법 및 장치

Info

Publication number: KR20070001267A
Application number: KR1020067023532A
Authority: KR
Inventors: 히로아키 데이; 가즈노리 오자와; 다츠야 나카자와; 가즈히로 고야마
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2004-04-09
Filing date: 2005-04-08
Publication date: 2007-01-03
Also published as: WO2005099243A1; JPWO2005099243A1; JP4367657B2; US20070223660A1; CN1947407A; EP1742455A1

Abstract

음성 통신 장치 (201) 에 복수의 부호화부 및 복호부를 구비하고, 이용 가능한 전송 대역, 또는 유저의 음질 요구 및 지연 요구에 대응하여 부호화 방식을 스위칭한다. 수신한 음성 부호화 데이터는 그 데이터에 부가된 부호화 방식 식별자 또는 통신 상대의 음성 통신 장치에 기초하여 최적의 복호부를 선택하여 복호한다.

음성 통신 방법, 음성 통신 장치

Description

음성 통신 방법 및 장치{AUDIO COMMUNICATION METHOD AND DEVICE}

기술분야

본 발명은 네트워크를 통해 음성을 송수신하기 위한 음성 통신 방법 및 장치에 관한 것이다.

배경기술

최근, 네트워크를 통해 패킷에 의해 음성 데이터가 송수신되는, 소위 VoIP (Voice over IP) 라 불리는 음성 통신이 넓게 사용되고 있다. 이러한 음성 통신은 (음악, 다양한 효과음 등을 포함하는) 음성을 소정의 부호화 방식으로 부호화하고, 그 부호화된 음성 데이터를 송수신하여, 넓은 전송 대역을 점유하지 않고서도 음질 열화가 적은 통신을 가능하게 한다.

음성 부호화 방식의 대표적인 예로서, G.711, G.729, AMR-NB (Adaptive Multi Rate-Narrow Band), AMR-WB (Adaptive Multi Rate-Wide Band), MPEG (Moving Picture Experts Group)-4 ACC (Advanced Audio Codec) 등이 알려져 있다. 이들 부호화 방식에 따라 부호화된 음성 데이터 (이하, 음성 부호화 데이터라 한다) 를 배분하는 기술이 패킷 교환 방식을 채용하는 IP (Internet Protocol) 네트워크를 이용하는 VoIP 이다 (예를 들어, 일본 공개특허공보 제 2004-072242 호 참조). VoIP 는 PHS (Personal Handyphone System) 나 휴대 전화망 등의 이동통신 시스템에서 급속히 보편화될 것으로 예상된다.

또한, 데이터의 송수신에 패킷 교환 방식의 네트워크를 이용하는 경우, 수신측에서는 패킷의 도착 요동 (fluctuation; 지터) 가 발생한다. 음성 통신 장치에서는, 이 지터를 흡수하기 위해 수신 데이터를 일시적으로 축적하는 버퍼가 필요하게 된다. 이 패킷의 사이즈가 클 경우, 더 큰 지터에도 대응 가능하지만, 음성을 재생하기까지 시간이 필요하기 때문에 음성 통신의 지연이 더 길어지게 된다. 한편, 버퍼 사이즈를 작게 하면, 지연은 짧아지게 되지만, 지터를 충분히 흡수할 수 없기 때문에, 재생한 음성이 단절되는 문제가 발생한다. 버퍼의 제어 방법으로서는, 예를 들어, 버퍼에 축적된 패킷 데이터량이 미리 설정된 임계치를 초과하는 경우에 복호 처리를 정지하는 방법 (일본 공개특허공보 제 2002-204258 호 참조), 및 수신측에서 복호 처리의 주기를 조정하는 방법이 알려져 있다 (일본 공개특허공보 제 2003-087318 호 참조). 또한, 수신측으로부터의 통지에 따라 송신측에서 패킷의 송신 주기를 조정하는 방법도 있다 (일본 공개특허공보 제 2003-249977 호 참조).

전술한 VoIP 기술을 이용한 음성 통신에서는, 부호화 처리의 속도인 부호화 비트 레이트의 변경이 가능하지만, 1 세션 당 사용되는 부호화 방식이 고정되기 때문에, 이용자의 필요 및 네트워크의 상태에 따라 항상 최적의 부호화 방식이 선택되지는 않는다.

부호화 방식을 통신 도중에 선택 가능하게 하는 기술로서는, 예를 들어, 복수 종류의 음성 부호화 데이터를 송신함으로써, 수신측에서 최적의 부호화 방식이 선택되는 방법이 고려될 수 있다. 그러나 이러한 방법은, 충분히 이용가능한 전송 대역을 구비한 전송경로를 제외하고는 채용하기 곤란하다.

또한, 전술한 특허문헌에 기재된 버퍼의 제어 방법을 음성 통신에 적용하는 경우, 일본 공개특허공보 제 2002-204258 호에 기재된 방법에서는, 재생될 데이터량보다도 수신된 데이터량이 많은 경우에 버퍼로부터의 스필오버 (spillover) 데이터에 의해 음성이 단절되는 경우가 있을 수 있다. 또한, 일본 공개특허공보 제 2003-087318 호에 기재된 방법에서는, 복호화 처리의 주기를 조정하기 위해 충분한 버퍼 사이즈를 확보할 필요가 있기 때문에 지연이 증가하는 문제가 있다. 또한, 일본 공개특허공보 제 2003-249977 호에 기재된 방법에서는, 베스트-에퍼트 (best-effort) 네트워크 및 무선 네트워크와 같은 불안정한 전송경로를 이용하는 경우, 통지된 메시지 자체에 지터 또는 결락 (缺落) 이 발생한다. 또한, 지터의 요동이 큰 경우, 이에 응답하여 메시지의 통지 및 제어를 행하는 것이 곤란하다.

또한, VoIP 기술을 이용한 음성 통신에서는 음성 통신을 수행하는 음성 통신 장치 간에 특성차가 존재하는 경우에 음성의 포착 또는 재생 주기에 차이가 발생하여 그 재생된 음의 단절을 야기한다.

또한, 네트워크에 의해 야기된 전송 지연에 추가하여 부호화 처리에 의해 야기된 지연도 발생하기 때문에, 어떤 부호화 방식에서는, 부호화에 필요한 테이터의 샘플 수가 증가하여 샘플 점의 확보에 필요한 시간이 음성 통신에 대한 지연 요구를 만족시키지 않는 경우가 있다.

또한, 음성 통신의 업-링크 및 다운-링크가, 이용 가능한 밴드 및 지연 등의 통신 환경에서 상이한 경우, 통신을 수행하는 음성 통신 장치 사이의 통신 환경을 일치시키기 위해서는 낮은 처리 능력을 만족시키기 위해 음성 부호화 데이터는 낮은 비트 레이트로 송수신되어야 하기 때문에, 재생된 음성의 품질이 열화되는 문제가 있다.

또한, 지연 및 음질에 대한 이용자의 요구에 대응하기 위해 부호화 방식이 임의로 스위칭되는 경우, 단순한 스위칭만으로는, 그 스위칭 동안 음성 데이터가 불연속이 되기 때문에, 생성된 음성이 단절되는 등의 음질 열화가 발생하는 문제가 있다.

발명의 개시

따라서 본 발명의 목적은, 음성 통신 동안에도 상이한 부호화 방식으로의 스위칭을 가능하게 하여 음질의 열화 및 지연의 증가를 억제 가능한 음성 통신 방법 및 장치를 제공하는 것에 있다.

상기 목적을 달성하기 위해 본 발명에서는, 음성 통신 장치에 복수 종류의 부호화 방식에 대응하기 위해 복수의 부호화부 및 복호부를 구비하고, 이용 가능한 전송 대역에 따라, 또는 이용자가 요구하는 음질 및 지연에 기초하여 부호화 방식 및 샘플링 주파수를 스위칭하도록 한다.

이러한 구성에 따르면, 음성 통신 동안에도 상이한 부호화 방식에의 스위칭이 가능하기 때문에, 음질의 열화 및 지연의 증가가 억제될 수 있다. 또한, 업-링크 및 다운-링크가 음성 통신의 통신 환경에서 상이하더라도, 송신하는 음성 데이터의 부호화 방식과 수신하는 데이터의 음성 데이터의 복호 방식을, 업-링크 및 다운-링크의 통신 환경에 대응하여 각각 최적으로 선택하는 것이 가능하여, 보다 품질이 높고 안정된 음성 통신을 수행할 수 있다.

그 다음, 부호화 후의 음성 부호화 데이터에 대응하는 음성이 동기화되도록, 각 부호화 방식의 부호화 처리 개시 타이밍 및 각 부호화 방식의 프레임 길이의 차이를 고려하여 스위칭 타이밍을 조정하면, 부호화 방식의 스위칭 동안 음성이 단절되지 않고 재생 가능하다.

도면의 간단한 설명

도 1 은 음성 통신 시스템의 일구성예를 나타낸 블록도이다.

도 2 는 본 발명의 음성 통신 장치의 일구성예를 나타낸 블록도이다.

도 3 은 도 2 에 나타낸 제 1 부호화부 및 제 2 부호화부에 의한 부호화 처리의 타이밍을 나타내는 타이밍 차트이다.

도 4 는 본 발명의 음성 통신 장치에 구비된 버퍼 제어부의 제 1 실시형태의 구성을 타나낸 블록도이다.

도 5 는 본 발명의 음성 통신 장치에 구비된 버퍼 제어부의 제 2 실시형태의 구성을 나타낸 블록도이다.

발명을 실시하기 위한 최선의 형태

다음으로, 본 발명에 관해 도면을 참조하여 설명한다.

(제 1 실시형태)

도 1 은 음성 통신 시스템의 일구성예를 나타낸 블록도이고, 도 2 는 본 발명의 음성 통신 장치의 일구성예를 나타낸 블록도이다. 또한, 도 3 은 도 2 에 나타낸 제 1 부호화부 및 제 2 부호화부에 의한 부호화 처리의 타이밍을 나타낸 타이밍 차트이고, 도 4 는 본 발명의 음성 통신 장치에 구비된 버퍼 제어부의 제 1 실시형태의 구성을 나타낸 블록도이다. 또한, 도 2 에 나타낸 음성 통신 장치 (201) 는 음성 통신 장치 (101) 및 음성 통신 장치 (103) 에 각각 적용 가능한 공통의 구성예이다.

도 1 에 나타낸 바와 같이, 음성 통신 시스템은 음성 데이터를 상호 송수신하는 음성 통신 장치 (101 및 103) 를 IP (Internet Protocol) 망인 네트워크 (102) 를 통해 접속함으로써 구성된다. 음성 통신 장치 (101) 및 음성 통신 장치 (103) 는 주지의 호접속 처리를 실행하여 호를 확립하여 음성 통신을 수행한다.

음성 통신 장치 (101) 및 음성 통신 장치 (103) 에 대한 호를 확립하는데 필요한 정보 (호접속 데이터) 를 제공하는 호접속 서버 (104) 는 네트워크 (102) 에 접속될 수도 있다. 이 경우, 음성 통신 장치 (101) 및 음성 통신 장치 (103) 은 호접속 서버 (104) 로부터 미리 호접속 데이터를 취득하여, 그 취득한 호접속 데이터를 이용하여 호를 확립한다.

음성 통신 장치 (101) 및 음성 통신 장치 (103) 는 부호화된 음성 데이터 및 호접속 데이터를 패킷 교환 방식으로 송수신하는, 이동 전화 및 퍼스널 컴퓨터 등의 정보 처리 장치로 실현 가능하다. 또한, 호접속 서버 장치 (104) 의 기능은 음성 통신 장치 (101) 및 음성 통신 장치 (103) 에 호접속 데이터를 제공하여, 상호 호 (통신) 를 확립하는 서버 컴퓨터 등의 정보 처리 장치에 의해 실현 가능하다. 이동 전화가 음성 통신 장치 (101) 및 음성 통신 장치 (103) 로서 사용되 는 경우, 이들은 미도시의 무선 기지국 장치를 통해 네트워크 (102) 에 접속된다.

도 2 에 나타낸 바와 같이, 음성 통신 장치 (201) 는 음성 취득부 (205), 샘플링 주파수 변환부 (206), 설정/호접속부 (204), 제 1 부호화부 (207), 제 2 부호화부 (208), 패킷화부 (209), 송신부 (210), 수신부 (211), 페이로드 추출부 (212), 제 1 복호부 (213), 제 2 복호부 (214), 버퍼 제어부 (215), 음성 데이터 버퍼 (216), 및 음성 재생부 (217) 를 포함한다. 전술한 바와 같이, 정보 처리 장치가 음성 통신 장치 (201) 로서 사용되는 경우, 도 2 의 각각의 구성요소의 기능은 CPU 를 포함하는 정보 처리 장치 및 LSI 또는 논리 회로 등의 조합에 의해 실현된다. 이 경우, 예를 들어, 음성 취득부 (205) 및 음성 재생부 (217) 는 LSI (A(아날로그)/D(디지털) 변환기, D/A 변환기), 트랜지스터 회로 등에 의해 실현된다. 또한, 정보 처리 장치에 포함된 CPU 는 소정의 프로그램에 따라서, 후술하는 각각의 구성요소에 대한 처리를 실행하고, 이에 의해 다른 구성요소들의 기능이 실현된다. 또한, 음성 통신 장치 (201) 는 도 2 에 나타낸 각 구성요소의 기능을 실현하는 LSI 및 논리회로 등에 의해 구성될 수도 있다.

음성 취득부 (205) 는 마이크로폰 등의 음성 입력부 (202) 로부터의 음성 신호 (아날로그 신호) 입력을 설정/호접속부 (204) 가 지정하는 샘플링 주파수 및 양자화 비트 수, 또는 미리 설정된 샘플링 주파수 및 양자화 비트 수에 따라 음성 디지털 데이터로 변환한다.

제 1 부호화부 (207) 및 제 2 부호화부 (208) 는 음성 취득부 (205) 에서 A/D 변환된 음성 데이터를 설정/호접속부 (204) 에 의해 지정되는 부호화 방식 및 샘플링 주파수에 따라, 또는 미리 설정된 부호화 방식 및 샘플링 주파수에 따라 부호화한다.

제 1 실시형태에서는, 제 1 부호화부 (207) 가 MPEG-4 AAC 방식을 이용하여 음성 데이터를 부호화하고, 제 2 부호화부 (208) 가 AMR-WB 방식을 이용하여 음성 데이터를 부호화하는 경우를 설명한다. 제 1 부호화부 (207) 및 제 2 부호화부 (208) 에 이용되는 부호화 방식은 이에 한정되지 않고, 임의의 방식이 이용 가능하다. 또한, 제 1 부호화부 (207) 및 제 2 부호화부 (208) 는 상이한 종류의 부호화 방식을 이용할 필요는 없고, 샘플링 주파수가 상이하면 동일한 부호화 방식을 이용할 수도 있다. 제 1 실시형태에서는, 설명을 간략히 하기 위해 2 개의 부호화부를 갖는 구성을 나타내었지만, 부호화부의 수는 2 개에 한정되지 아니하고, 임의의 수도 이용 가능하다. 또한, 충분히 이용 가능한 전송 대역의 전송경로가 사용되는 경우, 음성 통신 장치는 복수의 부호화부에 의해 부호화된 음성 부호화 데이터를 송신할 수도 있다.

패킷화부 (209) 는, 제 1 부호화부 및 제 2 부호화부 (208) 에 의해 부호화된 음성 부호화 데이터의 하나 이상에, 설정/호접속부 (204) 에 의해 지정된 부호화 방식의 식별자 (부호화 방식 식별자) 또는 미리 설정된 부호화 방식 식별자를 부가하여 패킷화한다. 이 음성 부호화 데이터의 부호화 방식과 부호화 방식 식별자는 상호 대응하는 관계에 있는 것으로 간주된다.

송신부 (210) 는 패킷화부 (209) 에서 생성된 패킷을 설정/호접속부 (204) 에 의해 지정된 포트를 통해, 또는 목적지 어드레스에 따라 미리 설정된 포트를 통 해 송신한다. 예를 들어, 음성 부호화 데이터를 RTP (Real-time Transport Protocol) 에 따라 패킷화하여 송신하는 경우, 패킷화부 (209) 는, 부가하는 RTP 헤더에 포함되는 페이로드의 타입 및 SSRC (Synchronization Source identifier) 또는 CSRC (Contributing Source identifier) 를 부호화 방식 식별자에 이용하여 데이터를 패킷화한다. RTP 에 대해서는, 예를 들어, H.Schulzrinne, S.Casner, R. Frederick, V.Jacobson, "RTP: A Transport Protocol for Real-Time Applications", RFC 1889, 1996년 1월, 인터넷 <URL: http://www.ietf.org/rfc/rfc1889.txt> 및 H.Schulzrinne, "RTP Profile for Audio and Video Conferences with Minimal Control", RFC 1890, 1996년 1월 등에 상세하게 기재되어 있다.

적어도 복수의 패킷화부 (209) 또는 복수의 송신부 (210) 는 복수의 부호화부에 대응하도록 구성될 수도 있다. 이 경우, 예를 들어 송신부 (210) 는 대응하는 패킷화부 (209) 에서 발생된 패킷을, 설정/호접속 처리부 (204) 에 의해 지정되는 목적지 어드레스 및 포트, 또는 미리 설정된 목적지 어드레스 및 포트를 통해 네트워크 (102) 에 송신할 수도 있다.

제 1 실시형태의 음성 통신 장치 (201) 는, 설정/호접속부 (204) 의 제어에 의해 주지의 SIP (Session Initiation Protocol) 및 SDP (Session Description Protocol) 을 이용하여 통신 상대의 음성 통신 장치와 통신에 필요한 정보를 송수신한다. 이 경우,

a) 통신 상대의 어드레스 및 수신 포트 번호,

b) 송신하는 음성 부호화 데이터의 부호화 방식, 부호화 설정 (옵션),

c) 페이로드 타입 및 페이로드 포맷,

등의 설정 정보가 통신 상대에 송신될 수 있다. 예를 들어, 부호화 방식이 AMR-NB 이고, RTP 의 페이로드 타입이 97 인 경우, SDP 에 따라, a=rtpmap:97 AMR/8000 으로 기술된 정보가 송신되어, 부호화 방식과 부호화 방식 식별자 사이의 대응관계가 통신 상대에게 통지될 수 있다. 이 때, 부호화 방식과 부호화 방식 식별자 사이의 대응관계는 음성 통신을 수행하는 음성 통신 장치 중에서 미리 결정될 수도 있다. 그러나, 페이로드 타입은 부호화 방식에 의존하는 RFC 1890 에 의해 이미 결정된다. 예를 들어, G.729 의 음성 부호화 방식에서는 "18" 의 수치가 사용된다. 이 값으로, 부호화 방식이 특정될 수 있다.

설정/호접속부 (204) 는 결정된 부호화 방식의 처리를 실행하기 위해 음성 취득부 (205), 샘플링 주파수 변환부 (206), 제 1 부호화부 (207), 제 2 부호화부 (208), 패킷화부 (209), 및 송신부 (210), 수신부 (211), 페이로드 추출부 (212), 제 1 복호부 (213), 제 2 복호부 (214), 및 음성 재생부 (217) 에 대해 각각 필요한 지시를 부여한다.

제 1 실시형태의 음성 통신 장치 (201) 에는 이용자가 바라는 지시를 입력하기 위한 미도시된 입력부가 제공될 수도 있다. 입력부를 통해 음질 또는 지연 시간에 관한 요구가 입력되는 경우, 설정/호접속부 (204) 는 이용 가능한 전송 대역 또는 입력부를 통해 입력된 이용자로부터의 요구에 따라 최적의 부호화 방식 또는 샘플링 주파수를 선택한다. 그 다음, 선택된 부호화 방식에 따라서 처리를 실행하기 위해 음성 취득부 (205), 샘플링 주파수 변환부 (206), 제 1 부호화부 (207), 제 2 부호화부 (208), 패킷화부 (209), 송신부 (210), 수신부 (211), 페이로드 추출부 (212), 제 1 복호부 (213), 제 2 복호부 (214) 및 음성 재생부 (217) 에 대해 각각 필요한 지시를 부여한다.

수신부 (211) 는, 설정/호접속부 (204) 에 의해 지정되는 포트, 또는 미리 설정된 포트를 이용하여 네트워크 (102) 를 통해 송신된 패킷을 수신한다.

페이로드 추출부 (212) 는, 수신부 (211) 에 의해 수신된 패킷으로부터 음성 부호화 데이터 및 부호화 방식 식별자를 추출하고, 설정/호접속부 (204) 로부터의 지시에 따라 제 1 복호부 (213) 또는 제 2 복호부 (214) 에 추출된 음성 부호화 데이터를 제공한다.

제 1 복호부 (213) 및 제 2 복호부 (214) 는, 페이로드 추출부 (212) 로부터 제공된 음성 부호화 데이터를 설정/호접속부 (204) 에 의해 지정되는 복호 방식, 또는 미리 설정된 복호 방식에 따라 복호한다.

제 1 실시형태에서는, 제 1 복호부 (213) 가 MPEG-4 AAC 방식을 이용하여 음성 부호화 데이터를 복호하고, 제 2 복호부가 AMR-WB 방식을 이용하여 음성 부호화 데이터를 복호하는 경우에 관해 설명한다. 전술한 부호화부와 유사하게, 제 1 복호부 (213) 및 제 2 복호부 (214) 에 이용되는 복호 방식은 이에 한정되지 아니하고, 임의의 방식이 이용 가능하다. 또한, 제 1 복호부 (213) 및 제 2 복호부 (214) 는 상이한 복호 방식을 이용할 필요는 없고, 샘플링 주파수가 상이하면 동일한 복호 방식을 이용할 수도 있다. 제 1 실시형태에서는, 설명을 간단하게 하 기 위해 2 개의 복호부를 갖는 구성을 나타냈지만, 복호부의 수는 2 개에 한정되지 아니하고, 임의의 수이어도 된다.

설정/호접속부 (204) 는, 통신 상대의 음성 통신 장치로부터 통지된 부호화 방식과 패킷에 부가된 부호화 방식 식별자의 조합으로부터 수신된 음성 부호화 데이터의 부호화 방식을 판단하고, 패킷으로부터 추출된 음성 부호화 데이터에 대응하는 최적의 복호부를 선택하여 페이로드 추출부 (212) 에 대한 지시를 제공한다.

따라서, 제 1 실시형태에서는, 송신측의 음성 통신 장치의 부호화부에서 부호화된 음성 부호화 데이터가, 수신측의 음성 통신 장치의 당해 부호화 방식에 대응하는 복호부에 의해 재생되기 때문에, 통신 도중에 음성 부호화 데이터의 부호화 방식이 스위칭되어도 데이터는 정상적으로 복호될 수 있다.

버퍼 제어부 (215) 는, 제 1 복호부 (213) 또는 제 2 복호부 (214) 에서 복호된 음성 데이터를 음성 데이터 버퍼 (216) 의 사이즈에 맞추어 축소 또는 신장하여 음성 데이터 버퍼 (216) 에 저장한다.

음성 재생부 (217) 는, 음성 데이터 버퍼 (216) 에 저장된 음성 데이터 (디지털 데이터) 를 순차적으로 판독하여 아날로그 신호로 이루어진 음성 신호로 변환한다. 또한, 음성 재생부 (217) 는 필요에 따라 D/A 변환된 음성 신호를 전력 증폭한다. 음성 재생부 (217) 에 의해 D/A 변환된 음성 신호는 스피커 등의 음성 출력부 (203) 로부터 출력된다.

또한, 적어도 복수의 수신부 (211) 또는 복수의 페이로드 추출부 (212) 는, 복수의 복호부에 대응하여 구성될 수도 있다. 이 경우, 각각의 세션 (또는 포 트 번호) 의 부호화 방식 및 설정 정보는 설정/호접속부(204) 를 이용하여 통신 상대의 음성 통신 장치로부터 수신되거나, 음성 통신을 수행하는 음성 통신 디바이스 중에서 미리 결정되어, 부호화 방식 식별자가 없는 경우에도 페이로드 추출부 (212) 는 수신된 세션 (또는 포트 번호) 에 기초하여 음성 부호화 데이터를 적절한 복호부로 보낼 수 있다.

전술한 바와 같이, 제 1 실시형태의 음성 통신 장치 (201) 에서는, 예를 들어 SDP 에 따라 이용 가능한 부호화 방식 및 복호 방식에 관해 통신 상대의 음성 통신 장치에 통지한다. 이용 가능한 부호화 방식 및 복호 방식이 SDP 에 의해 통지되는 경우, 부호화 방식 및 복호 방식은 a=sendonly, a=recvonly 와 같은 기술에 의해 항목화되는 정보에 의해 나타내진다. SDP 를 이용한 통신에서는, 송신측의 부호화 방식이 수신측의 복호 방식과 상이할 수도 있고, 음성 통신을 수행하는 음성 통신 장치에는 유사한 부호화 방식 및 유사한 복호 방식이 제공되지 않을 수도 있다. 구체적으로, SDP 를 이용하면, 음성 통신을 수행하는 음성 통신 장치가 동일한 부호화 방식과 복호 방식의 조합에 대응하지 아니하여도 메시지를 송수신하는 것이 가능하다.

한편, SIP 를 이용하여 호접속 처리를 수행하는 경우, 도 1 에 나타낸 음성 통신 장치 (101) 및 음성 통신 장치 (103) 는, 호접속 서버 (104) 로부터 통신 상대의 음성 통신 장치의 어드레스를 각각 취득하고, SDP 를 이용하여 대응하는 부호화 방식의 정보 등을 취득하여 음성 통신을 개시한다.

SDP 에 관해서는, M.Handley, V.Jacobson, "SDP: Session Description Protocol", RFC 2327, 1998년 4월, 인터넷 <URL: http://www.ietf.org/rfc/rfc2327.txt> 등에 상세하게 기재되어 있다. 또한, SIP 에 관해서는, M.Handley, H.Schulzrinne, E.Schooler, J.Rosenberg, "SIP: Session Initiation Protocol", RFC 2543, 1999년 3월, 인터넷 <URL: http://www.ietf.org/rfc/rfc2543.txt> 등에 상세하게 기재되어 있다.

그런데, 도 2 에 나타낸 음성 통신 장치 (201) 에서, 통화시에 음성 통신이 단절되지 않도록 부호화 방식을 스위칭하기 위해서는, 음성 취득부 (205) 에서 A/D 변환된 음성 데이터를 제 1 부호화부 (207) 및 제 2 부호화부 (208) 에서 각각 부호화할 필요가 있다.

여기서,제 1 부호화부 (207) 와 제 2 부호화부 (208) 의 부호화 방식 및 샘플링 주파수가 상이한 경우, 제 1 실시형태에서는, 음성 취득부 (205) 에서 A/D 변환된 음성 데이터를 샘플링 주파수 변환부 (206) 를 이용하여 각각 부호화 방식에 대응하는 샘플링 주파수의 음성 데이터로 변환한다.

예를 들어, 음성 취득부 (205) 가 32kHz 에서 샘플링을 수행하고, 제 1 부호화부 (207) 가 32kHz 의 샘플링 주파수에서 MPEG-4 AAC 방식을 이용하여 음성 데이터를 부호화하고, 제 2 부호화부 (208) 가 16kHz 의 샘플링 주파수에서 AMR-WB 방식을 이용하여 음성 데이터를 부호화하는 경우를 고려할 수 있다. 이 경우, 샘플링 주파수 변환부 (206) 는, 제 1 부호화부 (207) 에 대응하여 샘플링 주파수를 변화시키지 않고 음성 데이터를 출력하고, 제 2 부호화부 (208) 에 대응하여 샘플링 주파수를 16kHz 로 변환 (다운 샘플링) 하여 음성 데이터를 출력한다. 이러 한 작용에 따르면, 1 개의 음성 취득부 (205) 에 의해 취득된 음성 데이터는 복수의 부호화부에서 각각의 부호화 방식에 따라서 부호화될 수 있다.

샘플링 주파수 변환부 (206) 는 샘플링 주파수가 각각의 부호화부에서 상이하지만 부호화 방식이 유사한 경우, 동일한 처리를 수행한다. 샘플링 주파수 변환 방식으로는 임의의 주지 기술이 이용 가능하고, 따라서 여기서는 그 자세한 설명은 생략한다.

음성 데이터의 부호화 방식에는 부호화 효율을 높이기 위해 선행의 음성 데이터를 이용하여 부호화를 수행하는 방식이다. 이러한 부호화 방식에서는, 음성 신호가 입력되는 시간으로부터 대응하는 음성 부호화 데이터가 출력될 때까지 지연이 발생한다. 예를 들어, AMR-WB 방식에서는 부호화 처리에 5 ms 이전의 음성 부호화 데이터가 이용되기 때문에 음성 데이터가 입력되는 시간으로부터 대응하는 음성 부호화 데이터가 출력될 때까지 5 ms 의 지연이 발생한다. 또한, MPEG-4 AAC 방식에서는 부호화 처리에서 2 프레임의 지연이 발생하기 때문에, 샘플링 주파수가 32 kHz 인 경우, 음성 데이터가 입력되는 시간으로부터 대응하는 음성 부호화 데이터가 출력될 때까지 64 ms 의 지연이 발생한다. 따라서, 송신측에서 부호화 방식이 스위칭될 때, 부호화 후의 음성 부호화 데이터에 대응하는 음성을 동기화하기 위해 각 부호화 처리의 개시점이 조정된다. 구체적으로는, 도 3 에 나타낸 바와 같이, 제 2 부호화부 (208) 에 의해 AMR-WB 방식의 부호화 개시점 (t=0) 에 대해, 제 1 부호화부 (207) 가 59 ms 지연된 후 MPEG-4 AAC 방식의 부호화 처리를 개시할 경우, 이들 음성 부호화 방식 데이터로부터 재생된 음성 신호의 양자는 일치한다.

또한, AMR-WB 방식과 MPEG-4 AAC 방식에서 부호화 단위인 프레임의 길이가 상이하고, 제 1 실시형태에서 스위칭 타이밍은 부호화 후의 음성 부호화 데이터에 대응하는 음성 신호를 동기화하기 위해, 각 부호화 방식의 프레임 길이의 차이를 고려하여 스위칭을 조정된다. 구체적으로, 도 3 에 나타낸 바와 같이, 8 개의 AMR-WB 방식의 프레임 (AMR 출력 부호화 프레임) 에 관련하여 5 프레임의 MPEG-4 AAC 방식 (AAC 출력 부호화 프레임) 이 출력되는 시점에서 부호화 방식을 스위칭하면, 이들 음성 부호화 데이터로부터 재생된 음성 신호의 양자는 일치한다.

제 1 실시형태의 음성 통신 장치에서는, 제 1 부호화부 (207) 및 제 2 부호화부 (208) 가 동시에 부호화 처리를 개시할 필요는 없지만, 전술한 바와 같이, 각 부호화부에 의해 부호화 처리의 개시 (재개) 타이밍 갭 또는 프레임 길이의 차이를 고려하여 부호화 방식이 스위칭된다. 한편, 수신측의 음성 통신 장치에서는, 프레임 단위에서 각 부호화부가 복호 방식을 스위칭함으로써 음성이 단절됨이 없이 재생 가능하다.

또한, 제 1 실시형태의 음성 통신 장치에서는, 설정/호접속부 (204) 에 의해 지정되는 부호화 방식 및 샘플링 주파수에 따라서, 또는 미리 설정된 부호화 방식 및 샘플링 주파수에 따라서, 부호화 후의 음성 부호화 데이터에 대응하는 음성 신호가 동기화되도록 음성 데이터 샘플의 수를 고려하여 음성 부호화 방식이 스위칭될 수도 있다. 예를 들어, AMR-WB 방식에서는 1[ms] 당 샘플 수가 16 이고, MPEG-4 AAC 부호화 방식에서는 샘플링 주파수가 32kHz 인 경우 1 [ms] 당 샘플 수 는 32 가 된다. 구체적으로, 부호화 방식은 샘플 수의 관계가 유지되는 타이밍에서 스위칭될 수도 있다.

상이한 주파수의 동일한 부호화 방식으로 스위칭하는 경우, 동일한 처리를 수행하면 부호화 방식을 스위칭함으로써 야기되는 음질 열화가 억제될 수 있다.

다음으로, 도 2 에 나타낸 음성 통신 장치의 버퍼 제어부의 제 1 실시형태에 관하여 도 4 를 이용하여 설명한다.

도 4 에 나타낸 바와 같이, 제 1 실시형태의 버퍼 제어부 (215) 는 버퍼량 모니터링부 (401), 변환 파라미터 결정부 (402), 및 샘플링 주파수 변환부 (403) 를 포함한다.

전술한 바와 같이, 음성 데이터 버퍼 (216) 에 저장된 데이터량은 수신부 (211) 에 의해 수신된 패킷의 도착 시의 요동, 및 송신측의 음성 취득부 (205) 에 의한 음성 취득 주기와 수신측의 음성 재생부 (217) 에 의한 재생 주기의 차이에 따라 증감된다.

패킷의 도착 시의 요동 및 음성 취득 주기와 재생 주기의 차이에 대응하기 위해 음성 데이터 버퍼 (216) 가 존재하고, 도착 시의 큰 요동에 대응하기 위해서는 버퍼 사이즈 및 음성 데이터 버퍼 (216) 에 저장하는 목표하는 음성 데이터량 (이하, 표준량이라 한다) 을 크게 설정해야 하기 때문에, 음성 통신의 지연이 증가한다.

제 1 실시형태에서, 음성 부호화 데이터의 도착 간격의 요동은 수신부 (211) 에서 측정되고, 음성 데이터 버퍼 (216) 에 저장될 음성 데이터의 표준량은 그리 크지 않은 요동의 크기를 수용하는데 최적으로 설정된다.

또한, 보다 작은 사이즈의 음성 데이터 버퍼 (216) 에 대응하기 위해, 버퍼 제어부 (215) 는 복호된 음성 데이터를 처리하여 음성 데이터 버퍼 (216) 로 저장한다. 또한, 버퍼 제어부 (215) 는 버퍼량 모니터링부 (401) 에 의해 음성 데이터 버퍼 (216) 에 저장된 데이터량을 모니터링한다.

변환 파라미터 결정부 (402) 는 음성 데이터 버퍼 (216) 내의 음성 데이터의 잔존량과, 설정/호접속부 (204) 에 의해 지정되는 부호화 방식에 따라 변환 후의 샘플링 주파수를 결정한다.

샘플링 주파수 변환부 (403) 는, 버퍼 제어부 (215) 로 입력되는 음성 데이터의 샘플링 주파수를 변환 파라미터 결정부 (401) 에 의해 결정된 샘플링 주파수로 변환하고 음성 데이터 버퍼 (216) 로 출력한다. 예를 들어, 부호화 방식 및 샘플링 주파수가 상이한 음성 데이터의 스위칭이 없고, 음성 데이터 버퍼 (216) 내의 데이터량이 감소 경향에 있는 경우, 샘플링 주파수 변환부 (403) 는 그 비율에 따라 샘플링 주파수가 높게 되도록 주파수 변환 (업-샘플링) 을 수행한다. 이 경우, 음성 데이터의 샘플 수가 증가하기 때문에 음성 데이터 버퍼 (216) 에 저장된 음성 데이터의 감소를 보충하는 것이 가능하다. 한편, 음성 데이터 버퍼 (216) 내의 데이터량이 증가 경향에 있는 경우, 샘플링 주파수 변환부 (403) 는 샘플링 주파수가 낮게 되도록 주파수 변환 (다운-샘플링) 을 수행한다. 이 경우, 음성 데이터의 샘플 수가 감소하기 때문에 음성 데이터 버퍼 (216) 에 저장된 음성 데이터의 증가는 억제될 수 있다.

제 1 복호부 (213) 로부터 출력된 음성 데이터와 제 2 복호부 (214) 로부터 출력된 음성 데이터를 단절됨이 없이 스위칭하기 위해서는, 이들로부터의 음성 데이터를 단일 음성 데이터 버퍼 (216) 에 저장하여 재생할 필요가 있다.

버퍼 제어부 (215) 는 복호 방식을 스위칭할 때, 전술한 데이터 버퍼 (216) 내의 데이터량을 조정하기 위해 샘플링 주파수를 변환하는 처리를 수행하는 것에 추가하여 이하에 기재된 복호 방식에 따라 샘플링 주파수의 변환 처리를 수행한다.

구체적으로는, 제 2 복호부 (214) 로부터 출력된 AMR-WB 방식으로 복호된 음성 데이터의 샘플링 주파수 (16kHz) 를, 제 1 복호부 (213) 로부터 출력된 MPEG-4 AAC 방식으로 복호된 음성 데이터의 샘플링 주파수 (32kHz) 와 일치하도록 주파수 변환을 수행한다. 그러나, 샘플링 주파수가 상이한 경우, 부호화 처리 및 복호 처리가 가능한 음성 신호의 대역도 상이하다. 따라서, 상이한 복호 방식의 음성 데이터로 스위칭하면, 재생한 음성 신호의 대역의 차이가 청감 상으로 위화감을 야기하는 경우가 있다.

MPEG-4 AAC 방식과 같이 일정 샘플링 주기 마다 부호화 처리를 수행하는 방법에서는, 샘플링 주파수를 높게 함으로써 부호화 처리에 의한 지연이 감소하지만, 부호화 비트 레이트가 동일하여도 네트워크 (102) 로 송출하는 패킷 수가 증가하기 때문에, (RTP/)UDP(User Datagram Protocol)/IP 헤더에 필요한 오버헤드량이 증가한다. 따라서, 이용 가능한 전송 대역이 낮은 전송경로에 있어서는, 지연이 크고, 음질을 유지하기 위해서 작은 오버헤드량으로 샘플링 주파수가 낮아진다. 또한, 충분히 이용 가능한 전송 대역을 갖는 전송경로에 있어서는 오버헤드량이 크 게되더라도 샘플링 주파수를 높게 하여 작은 지연량으로 송신을 수행하는 기술도 이용 가능하다.

그러나, 이와 같은 기술로도 재생하는 음성의 대역의 차이에 의한 위화감을 제거하는 것은 불가능하다. 따라서, 이와 같은 위화감을 억제하기 위해 제 1 실시형태의 음성 통신 장치는,

a) 더 낮은 샘플링 주파수에 적합하게 하기 위해 샘플링 주파수를 변환하고,

b) 각 부호화부의 코드워드 (code word) 를 가장 낮은 샘플링 주파수를 갖는 음성 데이터의 대역으로 할당한다.

특히, 음악은 전송하지 아니하고 음성만을 전송하는 경우에는, 제 1 부호화부 (207) 및 제 2 부호화부 (208) 의 코드워드의 할당으로 대역 제한이 음질의 향상을 이끌 수도 있다. 제 1 실시형태에서는, 복수 종류의 부호화 방식 및 샘플링 주파수의 음성 부호화 데이터를 수신한 경우에도, 복호 처리는 오직 하나의 음성 부호화 데이터에 대해 수행되고, 복호 처리에 필요한 계산량의 증가는 최소한으로 억제될 수 있다.

버퍼량 모니터링부 (401) 는 음성 데이터 버퍼 (216) 에 저장되는 음성 데이터가 빌 가능성이 있을 때, 패딩 데이터 삽입부 (404) 에 지시하여 무음의 음성 데이터를 음성 데이터 버퍼 (216) 에 삽입함으로써 보충한다. 또는, 버퍼량 모니터링부 (401) 는 음성 데이터를 재생하고 있는 복호부에 대해, 당해 복호부의 복호 방식이 구비하고 있는 에러 은폐 (error concealing; 콘실먼트) 처리에 의한 음성 데이터의 출력을 지시하고, 이를 음성 데이터 버퍼 (216) 에 삽입한다. 이와 같은 처리를 함으로써, 음성 데이터 버퍼 (216) 가 비어서 재생 음성이 단절되는 것을 방지할 수 있다.

또한, 버퍼량 모니터링부 (401) 는, 음성 데이터 버퍼 (216) 에 저장된 음성 데이터가 오버플로우되려고 할 때, 샘플링 주파수 변화부 (403) 에 대해 입력된 음성 데이터를 폐기하도록 지시하고, 재생 음성 신호의 단절을 방지한다. 이 때, 입력 음성 데이터의 음량 (전력) 및 진폭의 적어도 일방에 기초하여 무음이라고 판정한 음성 데이터를 폐기하면, 재생된 음성 신호의 열화를 최소한으로 억제 가능하다.

버퍼량 모니터링부 (401) 는, 설정/호접속부 (204),음성 재생부 (217), 제 1 복호부 (213), 및 제 2 복호부 중에서 적어도 어느 하나로부터의 지시에 따라 상기 처리를 실행할 수도 있고, 타이머 등을 이용하여 소정의 시간마다 상기 처리를 실행할 수도 있다. 음성 재생부 (217) 에 의한 지시는, 음성 재생부 (217) 에서 일정량의 음성 데이터를 재생할 때마다 버퍼량 감시부 (401) 에 음성 데이터 버퍼 (216) 의 데이터 잔존량을 체크하도록 지시하는 것이며, 모니터링 결과에 따라 상기 처리가 실행될 수도 있다.

또한, 제 1 실시형태의 음성 통신장치 (201) 에는, 수신부 (211) 의 후단에 수신 버퍼 (218) 를 구비하고, 그 수신 버퍼 (218) 에 의해 수신된 음성 부호화 데이터터를 일시적으로 저장할 수도 있다. 이 경우, 음성 재생부 (217) 는 일정량의 음성 데이터를 재생할 때마다 저장하고 있는 음성 부호화 데이터의 선두 데이터를 페이로드 추출부 (212) 로 출력하도록 수신 버퍼 (218) 에 지시할 수도 있다. 이 때, 수신 버퍼 (218) 가 빈 경우에는, 음성 데이터를 재생하는 복호부에 대해 그 복호부의 복호 방식의 에러 은폐 처리를 이용하여 음성 데이터를 출력하도록 지시한다. 이 경우, 음성 재생부 (217) 의 음성 재생이 처리의 기동 트리거 (trigger) 가 되기 때문에, 음성 데이터를 소비한 만큼, 후속하는 음성 부호화 데이터가 수신 버퍼 (218) 로부터 출력된다. 따라서, 음성 데이터 버퍼 (216) 에 저장되는 음성 데이터의 표준량을 최소한으로 설정하기 때문에, 지연이 적은 음성 통신이 가능하게 된다.

제 1 실시형태의 음성 통신 장치와 같이 음성 데이터에 대응하는 부호화 방식을 스위칭하는 메리트로는, 통신 중에도 이용자가 요구하는 음질 및 지연 시간, 또는 전송경로의 이용 가능한 대역에 따라 부호화 방식을 최적으로 스위칭할 수 있다는 것에 있다.

제 1 실시형태에서, 제 1 부호화부 (207) 및 제 1 복호부 (213) 에서 사용되는 MPEG-4 AAC 방식은 음성 뿐만이 아니라 음악의 전송도 가능한 고품질의 부호화 방식이고, 부호화 및 복호에 필요한 처리 시간이 길게 된다. 한편, 제 2 부호화부 (208) 및 제 2 복호부 (214) 에서 사용되는 AMR-WB 방식은 음성 신호에 특화된 부호화 방식이기 때문에, 음악과 같은 광대역의 신호를 전송하기에는 부적합하다. 그러나, AMR-WB 방식은 부호화 및 복호에 필요한 처리 시간이 짧고, 또한 부호화 비트 레이트도 낮기 때문에, 전송 대역이 제한된 통신 환경 하에서도 안정적인 음성 통신을 실현할 수 있다.

제 1 실시형태의 음성 통신 장치는 음성 데이터의 부호화부 및 복호부를 복 수개 구비하기 때문에 송신용과 수신용의 부호화 방식과 복호 방식이 일치하지 않아도 음성 통신이 가능하게 된다. 예를 들어, 업-링크 (송신) 와 다운-링크 (수신) 사이의 대역 또는 전송경로의 안정성이 비대칭인 네트워크를 이용하는 경우에도 음성 통신이 가능하다. 구체적으로는, 업-링크에서는 대역이 제한되고, 다운-링크에서는 대역에 여유가 있는 통신 환경에서, 제 2 부호화부 (208) 를 이용하여 AMR-WB 방식으로 부호화한 음성 부호화 데이터를 업-링크를 통해 송신하고, MPEG-4 AAC 방식으로 부호화된 음성 부호화 데이터를 다운-링크를 통해 수신하고, 제 1 복호부 (213) 에서 복호하여 재생할 수 있다. 따라서, 보다 높은 품질의 안정적인 음성 통신을 실현할 수 있다.

또한, 부호화 방식은 전술한 설정/호접속부 (204) 로부터의 지시, 또는 미리 설정된 지시에 따라 스위칭할 수도 있을 뿐만 아니라, 예를 들어 패킷의 도착 요동 및 패킷의 손실율 등의 패킷의 도착 상황을 설정/호접속부 (204) 를 이용하여 통신 상대의 음성 통신 장치에 통지하고, 그 패킷 도착 상황에 따라 부호화 방식을 스위칭하는 것도 가능하다. 또한, 송신측의 음성 통신 장치에 대해 부호화 방식의 변경을 지시하는 방법도 가능하다.

(제 2 실시형태)

다음으로, 본 발명의 음성 통신 장치의 제 2 실시형태에 대해 도면을 참조하여 설명한다.

도 5 는 본 발명의 음성 통신 장치의 버퍼 제어부의 제 2 실시형태의 구성을 나타내는 블록도이다.

제 2 실시형태의 음성 통신 장치는, 버퍼 제어부 (215) 의 구성이 제 1 실시형태와 상이하다. 그 외의 구성 및 동작은 제 1 실시형태와 동일하기 때문에, 그 상세한 설명은 생략한다.

도 5 에 나타낸 바와 같이, 제 2 실시형태의 버퍼 제어부는, 제 1 실시형태에 나타낸 파라미터 결정부 (402) 및 샘플링 주파수 변환부 (403) 대신에, 데이터 선택 결정부 (501) 를 구비하는 구성이다. 버퍼량 모니터링부 (401) 및 페딩 데이터 삽입부 (404) 에 대해서는 제 1 실시형태와 유사하기 때문에 설명을 생략한다.

데이터 선택 결정부 (501) 는, 버퍼량 모니터링부 (401) 에 의한 음성 데이터 버퍼 (216) 의 모니터링 결과에 따라, 음성 데이터 버퍼 (216) 에 저장된 데이터량이 증가 경향에 있는 경우에는, 제 1 복호부 (213) 또는 제 2 복호부 (214) 에서 복호된 음성 데이터를 골라 음성 데이터 버퍼 (216) 에 저장한다. 이 때, 데이터 선택 결정부 (501) 는, 음성 데이터 음량을 판정하고, 무음이라고 판정한 음성 데이터를 폐기하여 재생음 신호의 열화를 최소한으로 억제한다.

제 2 실시형태의 음성 통신 장치는, 음성 데이터를 고르기 때문에 제 1 실시형태의 음성 통신 장치에 비해 재생음질이 열화될 가능성이 있다. 그러나, 샘플링 주파수 변환과 같은 큰 연산량을 필요로 하는 처리를 수행하지 않기 때문에, 예를 들어 휴대 전화기 등을 음성 통신 장치로서 활용하는 경우에 용이하게 적용 가능하다.

Claims

송신될 각각의 아이템 음성 데이터를 액세스 가능한 복수 종류의 부호화 방식을 이용하여 부호화하는 단계;

부호화된 상기 음성 데이터인 음성 부호화 데이터 중에서 한 종류 이상의 음성 부호화 데이터를 송신하는 단계;

상기 음성 부호화 데이터가 수신될 때, 상기 음성 부호화 데이터를, 액세스 가능한 복수 종류의 복호 방식 중에서 상기 음성 부호화 데이터에 적합한 부호화 방식으로 복호하는 단계;

상기 복호된 음성 데이터를 음성 데이터 버퍼에 일시적으로 저장하는 단계; 및

상기 음성 데이터 버퍼로부터 상기 음성 데이터를 순차적으로 판독하여 상기 음성 데이터를 재생하는 단계를 포함하는, 음성 통신 방법.
제 1 항에 있어서,

상기 복수 종류의 부호화 방식은, 서로 상이한 샘플링 주파수인, 음성 통신 방법.
제 1 항에 있어서,

송신하는 음성 부호화 데이터의 부호화 방식은 수신한 음성 부호화 데이터의 복호 방식에 대응하는 부호화 방식과 상이한, 음성 통신 방법.
제 1 항에 있어서,

부호화 후의 음성 부호화 데이터에 대응하는 음성 신호가 동기화되도록 각 부호화 방식의 처리 개시 타이밍이 시프트되는, 음성 통신 방법.
제 1 항에 있어서,

부호화 후의 음성 부호화 데이터에 대응하는 음성 신호가 동기화되도록 각각의 부호화 방식의 음성 데이터의 샘플 수가 설정되는, 음성 통신 방법.
제 1 항에 있어서,

부호화 후의 음성 신호 부호화 데이터에 대응하는 음성이 동기화되도록 각각의 부호화 방식에서 상이한 부호화 단위가 되는 프레임 길이에 따라 상기 부호화 방식의 스위치 타이밍이 조정되는, 음성 통신 방법.
제 1 항에 있어서,

상기 음성 부호화 데이터를, 각각의 부호화 방식에서 상이한 프레임 단위로 복호화하는, 음성 통신 방법.
제 1 항에 있어서,

상기 송신될 각각의 종류의 음성 데이터의 샘플링 주파수를, 각각의 부호화 방식에 대응하는 샘플링 주파수로 각각 변환하는, 음성 통신 방법.
제 1 항에 있어서,

각각의 부호화 방식에 할당되는 코드워드 대역을, 복수 종류의 부호화 방식 중에서 최저의 샘플링 주파수의 음성 데이터의 대역으로 설정하는, 음성 통신 방법.
제 1 항에 있어서,

상기 음성 부호화 데이터의 부호화 방식에 대응하는 부호화 방식 식별자를 음성 부호화 데이터에 부가하여 송신하는, 음성 통신 방법.
제 1 항에 있어서,

이용 가능한 전송경로의 대역 및 입력 방식을 통해 입력된 이용자로부터의 요구중 하나 이상의 정보에 따라 송신될 음성 부호화 데이터를 선택하는, 음성 통신 방법.
제 1 항에 있어서,

복호한 음성 데이터의 샘플링 주파수를, 음성 데이터 버퍼에 저장된 음성 데이터량에 따라 변환하는, 음성 통신 방법.
제 1 항에 있어서,

음성 데이터 버퍼에 저장하는 음성 데이터의 목표량인 표준량을, 음성 부호화 데이터의 도착 시의 요동에 적합하게 설정하는, 음성 통신 방법.
제 1 항에 있어서,

음성 데이터 버퍼에 저장하는 음성 데이터량이 그 음성 데이터 버퍼의 사이즈를 초과하는 경우 무음으로 판정된 음성 데이터를 폐기하는, 음성 통신 방법.
제 1 항에 있어서,

상기 음성 데이터 버퍼에 저장되는 음성 데이터량이 빈 경우 음성 데이터를 보충하는, 음성 통신 방법.
제 1 항에 있어서,

수신한 음성 부호화 데이터를 일시적으로 수신 버퍼에 저장하고, 소정량의 음성 데이터가 재생될 때마다 상기 수신 버퍼에 저장되어 있는 선두의 음성 부호화 데이터를 출력하고, 상기 수신 버퍼가 빈 경우에는 음성 데이터를 보충하는, 음성 통신 방법.
제 15 항에 있어서,

상기 보충하는 음성 데이터는, 무음의 음성 데이터인, 음성 통신 방법.
제 15 항에 있어서,

상기 보충하는 음성 데이터는, 상기 복호 방식의 에러 은폐 복호 데이터인, 음성 통신 방법.
제 16 항에 있어서,

상기 보충하는 음성 데이터는, 무음의 음성 데이터인, 음성 통신 방법.
제 16 항에 있어서,

상기 보충하는 음성 데이터는, 상기 복호 방식의 에러 은폐 복호 데이터인, 음성 통신 방법.
제 1 항에 있어서,

수신한 음성 부호화 데이터에 부가되는 부호화 방식을 식별하기 위한 부호화 방식 식별자, 호접속 처리에 의해 얻어지는 부호화 방식의 정보, 호접속 처리에 의해 얻어지는 부호화에 관한 설정 정보, 및 음성 부호화 데이터를 수신하는 세션 중에서 적어도 하나의 정보를 기초로 수신한 음성 부호화 데이터의 복호 방식을 선택하는, 음성 통신 방법.
제 1 항에 있어서,

수신한 음성 부호화 데이터의 도착 시의 요동 또는 손실율을 포함하는 도착 상황을 통신 상대에 송신하고, 상기 도착 상황을 수신하면, 그 도착 상황에 따라 송신하는 음성 부호화 데이터의 부호화 방식 및 샘플링 주파수의 적어도 일방을 스위칭하는, 음성 통신 방법.
송신될 음성 신호로부터 소정의 샘플링 주파수로 디지털화된 음성 데이터를 생성하는 음성 취득부;

상기 음성 데이터를 액세스 가능한 복수 종류의 부호화 방식을 이용하여 각각 부호화하는 복수의 부호화부;

상기 부호화된 음성 데이터인 음성 부호화 데이터 중에서, 한 종류 이상의 음성 부호화 데이터를 송신하는 송신부;

상기 음성 부호화 데이터를 수신하면, 그 음성 부호화 데이터를 액세스 가능한 복수 종류의 복호 방식 중에서 그 음성 부호화 데이터에 적합한 복호 방식을 이용하여 복호하고, 상기 각각의 음성 부호화 데이터를 상이한 복호 방식을 이용하여 복호하는 복수의 복호부;

상기 복호부에서 복호된 음성 데이터를 일시적으로 저장하는 음성 데이터 버퍼;

상기 음성 데이터 버퍼로부터 그 음성 데이터를 순차적으로 판독하여 재생하는 음성 재생부; 및

상기 부호화 방식 및 상기 복호 방식의 스위칭을 제어하는 설정/호접속부를 구비하는, 음성 통신 장치.
제 23 항에 있어서,

상기 복수의 부호화부는, 각각 상이한 샘플링 주파수로 부호화를 수행하는, 음성 통신 장치.
제 23 항에 있어서,

송신부에서 송신하는 음성 부호화 데이터의 부호화 방식과 수신한 음성 부호화 데이터를 복호하는 복호 방식에 대응하는 부호화 방식이 상이한, 음성 통신 장치.
제 23 항에 있어서,

상기 복수의 부호화부는, 부호화 후의 음성 부호화 데이터에 대응하는 음성 신호가 동기화되도록 각각의 처리 개시 타이밍을 시프트시키는, 음성 통신 장치.
제 23 항에 있어서,

상기 복수의 부호화부는, 부호화 후의 음성 부호화 데이터에 대응하는 음성 신호가 동기화되도록 각각의 음성 데이터의 샘플 수를 설정하는, 음성 통신 장치.
제 22 항에 있어서,

상기 복수의 부호화부는, 부호화 후의 음성 부호화 데이터에 대응하는 음성 신호가 동기화되도록 각각의 부호화 방식에서 상이한 부호화 단위가 되는 프레임 길이에 따라 상기 부호화 방식의 스위칭 타이밍을 조정하는, 음성 통신 장치.
제 23 항에 있어서,

상기 복수의 복호부는, 음성 부호화 데이터를 각각의 부호화 방식에서 상이한 프레임 단위를 이용하여 복호화하는, 음성 통신 장치.
제 23 항에 있어서,

송신하는 음성 데이터의 샘플링 주파수를 부호화부의 부호화 방식에 대응하는 샘플링 주파수로 각각 변환하는 샘플링 주파수 변환부를 추가로 구비하는, 음성 통신 장치.
제 23 항에 있어서,

상기 복수의 부호화부는, 각각의 부호화 방식에 할당되는 코드워드 대역을 복수 종류의 부호화 방식 중에서 최저의 샘플링 주파수의 음성 데이터의 대역까지로 하는, 음성 통신 장치.
제 23 항에 있어서,

상기 음성 부호화 데이터에, 그 음성 부호화 데이터의 부호화 방식에 대응하는 부호화 방식 식별자를 부가하여 그 음성 부호화 데이터를 송신하는 패킷화 처리부를 추가로 구비하는, 음성 통신 장치.
제 23 항에 있어서,

상기 설정/호접속부는, 이용 가능한 송신경로의 대역 및 입력 장치를 통해 입력된 이용자로부터의 요구 중 하나 이상에 기초하여, 송신될 음성 부호화 데이터를 송신부에 선택시키는, 음성 통신 장치.
제 23 항에 있어서,

복호한 음성 데이터의 샘플링 주파수를, 음성 데이터 버퍼에 저장된 음성 데이터량에 따라 변환하는 버퍼 제어부를 구비하는, 음성 통신 장치.
제 34 항에 있어서,

상기 버퍼 제어부는, 음성 데이터 버퍼에 저장되는 음성 데이터의 목표량인 표준량을 음성 부호화 데이터의 도착 시의 요동에 적합하게 설정하는, 음성 통신 장치.
제 34 항에 있어서,

상기 버퍼 제어부는, 음성 데이터 버퍼에 저장된 음성 데이터량이 그 음성 데이터 버퍼의 사이즈를 초과하는 경우 무음으로 판정한 음성 데이터를 폐기하는, 음성 통신 장치.
제 34 항에 있어서,

상기 버퍼 제어부는, 음성 데이터 버퍼에 저장된 음성 데이터가 빈 경우 음성 데이터를 보충하는, 음성 통신 장치.
제 23 항에 있어서,

상기 수신한 음성 부호화 데이터를 일시적으로 저장하는 수신 버퍼를 추가로 구비하고,

상기 음성 재생부는, 소정량의 음성 데이터가 재생될 때마다 상기 수신 버퍼에 저장되어 있는 선두의 음성 부호화 데이터를 출력하도록 지시하고, 상기 수신 버퍼가 빈 경우에는 보충 음성 데이터를 출력하도록 하는, 음성 통신 장치.
제 37 항에 있어서,

상기 보충 음성 데이터는, 무음의 음성 데이터인, 음성 통신 장치.
제 37 항에 있어서,

상기 보충 음성 데이터는, 상기 복호 방식의 에러 은폐 복호 데이터인, 음성 통신 장치.
제 38 항에 있어서,

상기 보충 음성 데이터는, 무음의 음성 데이터인, 음성 통신 장치.
제 38 항에 있어서,

상기 보충 음성 데이터는, 상기 복호 방식의 에러 은폐 복호 데이터인, 음성 통신 장치.
제 23 항에 있어서,

상기 설정/호접속부는, 수신한 음성 부호화 데이터에 부가된 부호화 방식을 식별하기 위한 부호화 방식 식별자, 호접속 처리에 의해 얻어지는 부호화 방식의 정보, 호접속 처리에 의해 얻어지는 부호화에 관한 설정 정보, 및 음성 부호화 데이터를 수신하는 세션 중에서 하나 이상의 정보를 기초로 수신한 음성 부호화 데이터의 복호 방식을 선택하는, 음성 통신 장치.
제 23 항에 있어서,

상기 설정/호접속부는,

수신한 음성 부호화 데이터의 도착 시의 요동 또는 손실율을 포함하는 수신 데이터의 도착 상황을 통신 상대에 송신하고,

상기 도착 상황을 수신하면, 그 도착 상황에 따라 송신하는 음성 부호화 데 이터의 부호화 방식 및 샘플링 주파수의 적어도 일방을 스위칭하는, 음성 통신 장치.
네트워크를 통해 상호 접속된 제 23 항에 기재된 음성 통신 장치를 구비하는, 통신 시스템.
제 45 항에 있어서,

음성 통신 장치 간의 호의 확립에 필요한 정보를 제공하고, 네트워크를 통해 상기 음성 통신 장치와 통신 가능하게 접속된 호접속 서버를 추가로 구비하는, 음성 통신 시스템.
네트워크를 통해 각각의 음성 데이터를 상호 송수신하는 컴퓨터로 실행시키기 위한 프로그램으로서,

소정의 샘플링 주파수로 디지털화된 송신 대상의 각각의 아이템의 음성 데이터를 액세스 가능한 복수 종류의 부호화 방식을 이용하여 부호화하는 단계;

그 부호화된 음성 데이터인 음성 부호화 데이터 중에서 한 종류 이상의 음성 부호화 데이터를 송신부로부터 송신시키는 단계;

상기 음성 부호화 데이터를 수신하면, 그 음성 부호화 데이터를 액세스 가능한 복수 종류의 복호 방식 중에서 그 음성 부호화 데이터에 적합한 방식으로 복호하는 단계;

상기 복호된 음성 데이터를 음성 데이터 버퍼에 일시적으로 저장하는 단계; 및

상기 음성 데이터 버퍼로부터 상기 음성 데이터를 순차적으로 판독하여 재생하는 단계를 컴퓨터로 실행시키기 위한, 프로그램
제 47 항에 있어서,

상기 복수 종류의 부호화 방식은, 상호 상이한 샘플링 주파수인, 프로그램.
제 47 항에 있어서,

송신하는 음성 부호화 데이터의 부호화 방식과 수신한 음성 부호화 데이터를 복호하는 복호 방식에 대응하는 부호화 방식이 상이한, 프로그램.
제 47 항에 있어서,

부호화 후의 음성 부호화 데이터에 대응하는 음성이 동기화되도록, 각각의 부호화 방식의 처리 개시 타이밍을 시프트시키는, 프로그램.
제 47 항에 있어서,

부호화 후의 음성 부호화 데이터에 대응하는 음성이 동기화되도록, 각각의 부호화 방식의 음성 데이터의 샘플 수를 각각 설정하는, 프로그램.
제 47 항에 있어서,

부호화 후의 음성 부호화 데이터에 대응하는 음성이 동기화되도록, 각각의 부호화 방식에서 상이한 부호화 단위가 되는 프레임 길이에 따라 상기 부호화 방식의 스위칭 타이밍을 조정하는, 프로그램.
제 47 항에 있어서,

상기 음성 부호화 데이터를, 각각의 부호화 방식에서 상이한 프레임 단위로 복호하는, 프로그램.
제 47 항에 있어서,

송신될 각각의 음성 데이터의 샘플링 주파수를 각각의 부호화 방식에 대응하는 샘플링 주파수로 각각 변환하는, 프로그램.
제 47 항에 있어서,

각각의 부호화 방식에 할당되는 코드워드 대역을 복수 종류의 부호화 방식 중에서 최저의 샘플링 주파수의 음성 데이터의 대역으로 설정하는, 프로그램.
제 47 항에 있어서,

음성 부호화 데이터에, 그 음성 부호화 데이터의 부호화 방식에 대응하는 부호화 방식 식별자를 부가하여 송신부로부터 송신하는, 프로그램.
제 47 항에 있어서,

이용 가능한 전송경로의 대역 또는 입력 수단을 통해 입력된 이용자로부터의 요구 중 하나 이상에 따라 송신하는 음성 부호화 데이터를 선택하는, 프로그램.
제 47 항에 있어서,

복호되는 음성 데이터의 샘플링주파수를 음성 데이터 버퍼에 저장된 음성 데이터량에 대응하여 변환하는, 프로그램.
제 47 항에 있어서,

음성 데이터 버퍼에 저장되는 음성 데이터의 목표량인 표준량을, 음성 부호화 데이터의 도착 시의 요동에 적합하게 설정하는, 프로그램.
제 47 항에 있어서,

음성 데이터 버퍼에 저장되는 음성 데이터량이 그 음성 데이터 버퍼의 사이즈를 초과하는 경우 무음이라고 판정한 음성 데이터를 폐기하는, 프로그램.
제 47 항에 있어서,

음성 데이터 버퍼에 저장되는 음성 데이터량이 빈 경우에는, 음성 데이터를 보충하는, 프로그램.
제 47 항에 있어서,

수신한 음성 부호화 데이터를 일시적으로 수신 버퍼에 저장하고,

소정량의 음성 데이터가 재생될 때마다 상기 수신 버퍼에 저장되어 있는 선두의 음성 부호화 데이터를 출력하고, 상기 수신 버퍼가 빈 경우에는 음성 데이터를 보충하는, 프로그램.
제 61 항에 있어서,

상기 보충 음성 데이터는, 무음의 음성 데이터인, 프로그램.
제 61 항에 있어서,

상기 보충 음성 데이터는, 상기 복호 방식의 에러 은폐 복호 데이터인, 프로그램.
제 62 항에 있어서,

상기 보충 음성 데이터는, 무음의 음성 데이터인, 프로그램.
제 62 항에 있어서,

상기 보충 음성 데이터는, 상기 복호 방식의 에러 은폐 복호 데이터인, 프로그램.
제 47 항에 있어서,

수신한 음성 부호화 데이터에 부가되는 부호화 방식을 식별하기 위한 부호화 방식 식별자, 호접속 처리에 의해 얻어지는 부호화 방식의 정보, 호접속 처리에 의해 얻어지는 부호화에 관한 설정 정보, 및 음성 부호화 데이터를 수신하는 세션 중에서, 하나 이상의 정보에 기초하여 수신한 음성 부호화 데이터의 복호 방식을 선택하는, 프로그램.
제 47 항에 있어서,

수신한 음성 부호화 데이터의 도착 요동 또는 손실율을 포함하는 수신 데이터의 도착 상황을 송신부로 통신 상대에 송신시켜, 상기 도착 상황을 수신하면, 그 도착 상황에 따라 송신하는 음성 부호와 데이터의 부호화 방식 및 샘플링 주파수의 적어도 일방을 스위칭하는, 프로그램.