KR100739355B1 - 음성 재생 방법 및 음성 재생 장치 - Google Patents

음성 재생 방법 및 음성 재생 장치 Download PDF

Info

Publication number
KR100739355B1
KR100739355B1 KR1020000049195A KR20000049195A KR100739355B1 KR 100739355 B1 KR100739355 B1 KR 100739355B1 KR 1020000049195 A KR1020000049195 A KR 1020000049195A KR 20000049195 A KR20000049195 A KR 20000049195A KR 100739355 B1 KR100739355 B1 KR 100739355B1
Authority
KR
South Korea
Prior art keywords
processing unit
audio signal
data
output buffer
reproduction
Prior art date
Application number
KR1020000049195A
Other languages
English (en)
Other versions
KR20010021402A (ko
Inventor
수이토타로
오타마사시
미우라마사요시
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20010021402A publication Critical patent/KR20010021402A/ko
Application granted granted Critical
Publication of KR100739355B1 publication Critical patent/KR100739355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/06Cutting and rejoining; Notching, or perforating record carriers otherwise than by recording styli
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/1062Data buffering arrangements, e.g. recording or playback buffers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 발명은 기록매체로부터 음성신호를 정상속도보다 빠른 속도로 재생하고, 통상의 음정으로 출력하는 방법으로, 음성이 도중에서 끊기는 것이 적고, 내용이 이해하기 쉽게 되도록 한다.
2배속 재생에 의해서 얻어진 원래의 재생 음성 신호인 입력 데이터(Si)를 60 m초 상당의 처리 단위 기간(T1, T2…)마다 구분한다. 기간(T1)에서는, 유음 부분과 무음 부분이 30m초분씩 존재하고, 출력 버퍼에 데이터가 전혀 축적되어 있지 않기 때문에, 무음 부분을 모두 삭제하며, 전후의 유음 부분을 접합하고, 유음 부분의 데이터만을 모두 출력 버퍼에 기입한다. 기간(T2)에서는, 60m초분의 데이터가 모두 유음 부분이고, 출력 버퍼에 60m초분의 데이터를 모두 축적할 만큼의 공간이 있기 때문에, 유음 부분의 데이터를 그대로 출력 버퍼에 기입한다. 기간(T3)에서 유음 부분이 30m초분 미만밖에 존재하지 않을 때에는, 유음 부분의 모두에 무음 부분의 일부를 부가하여, 30m초분의 데이터를 출력 버퍼에 기입한다. 기간(T5)에서는, 60m초분의 데이터가 모두 유음 부분이고, 출력 버퍼에 60m초분의 데이터를 모두 축적할 만큼의 공간이 없기 때문에, 60m초분의 유음 부분의 데이터를 30m초분으로 압축하여 출력 버퍼에 기입한다.
유음 부분, 출력 버퍼

Description

음성 재생 방법 및 음성 재생 장치{Speech processing method and apparatus}
도 1은 본 발명의 재생 장치의 일예를 도시한 도.
도 2는 음성 처리부의 일예를 도시한 도.
도 3은 진폭 억압 처리부의 일예를 도시한 도.
도 4는 도 3 예의 진폭 억압 처리의 설명에 제공되는 도.
도 5는 도 3 예의 제어부가 행하는 처리 루틴의 일예를 도시한 도.
도 6은 도 3 예의 진폭 억압 처리전과 처리후의 음성 신호 파형의 일예를 도시한 도.
도 7은 진폭 억압 처리부의 다른 예를 도시한 도.
도 8은 진폭 억압 처리부의 또다른 예를 도시한 도.
도 9는 도 7 및 도 8 예의 밴드 패스 필터의 설명에 제공하는 도.
도 10은 도 7 및 도 8 예의 제어부가 행하는 처리 루틴의 일예를 도시한 도.
도 11은 도 7 및 도 8 예의 진폭 억압 처리의 설명에 제공하는 도.
도 12는 도 7 및 도 8 예의 진폭 억압 처리 전과 처리후의 음성 신호 파형의 일예를 도시한 도.
도 13은 속도 변환 처리의 일예를 도시한 도.
도 14는 유음 부분과 무음 부분의 식별 판정의 일예를 도시한 도.
도 15는 출력 버퍼의 입출력 포인터의 작용을 도시한 도.
도 16은 속도 변환 처리 루틴의 일예를 도시한 도.
도 17은 데이터 압축의 일예를 도시한 도.
도 18은 데이터 압축시에 위치 조정을 행하지 않은 경우를 도시한 도.
도 19는 데이터 압축시에 위치 조정을 행하는 경우의 조정 방법을 도시한 도.
도 20은 무음 부분 삭제시의 노이즈의 발생을 도시한 도.
도 21은 무음 부분 삭제시의 노이즈 발생 방지 방법을 도시한 도.
도 22는 음성 처리부의 다른 예를 도시한 도.
도 23은 음정 대응 처리 단위 기간 설정 처리 루틴의 일예를 도시한 도.
도 24는 음성 처리부의 또 다른 예를 도시한 도.
도 25는 음성 레벨 대응 처리 단위 기간 설정 처리 루틴의 일예를 도시한 도.
도 26은 음성 레벨이 낮은 점을 속도 변환 처리의 처리 단위 기간의 구분 점으로 하는 경우의 예를 도시한 도.
도 27은 음성 처리부의 또 다른 예를 도시한 도.
도 28은 다 채널 재생인 경우의 재생 장치의 일예를 도시한 도.
도 29는 정상 재생 대응의 재생 장치의 일예를 도시한 도.
*도면의 주요 부분에 대한 부호의 설명*
2 : 재생 헤드 3, 4 : 구동 모터
13 : 표시장치 16 : 음성 출력 장치
본 발명은 비디오 테이프 레코더 등과 같이 영상신호 및 음성신호를 기록 재생하는 기기나, 미니 디스크 플레이어 등과 같이 음성신호를 기록 재생하는 기기 등에 있어서, 기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 방법 및 장치에 관한 것이다.
가정용 비디오 테이프 레코더에서, 재생시간을 단축하기 위해서, 테이프에 기록된 영상신호 및 음성신호를, 정상속도보다 빠른 2배속 등의 속도로 재생하는 경우에도, 음성신호에 대해서는, 무음 부분을 우선적으로 삭제하도록 원래의 재생음성 신호를 주기적으로 절단 접합함으로써, 음성을 정상속도로 알아들을 수 있도록 한 것이 생각되고 있다.
그러나, 상술한 종래의 음성 재생 방법에서는, 원래의 재생 음성 신호를 주기적으로 삭제하기 때문에, 원래의 재생 음성 신호중에 무음 부분이 일정한 비율로 포함되어 있지 않는 경우에는, 유음 부분이 삭제되고, 절단 접합후의 재생 음성 신호는 음성이 도중에 끊기게 되어, 내용을 이해할 수 없게 되어 버린다.
또한, 원래의 재생 음성 신호중에 무음 부분이 어느 정도 포함되어 있고, 유 음 부분을 삭제하지 않더라도 재생 음성 신호의 절단 접합이 가능한 경우라도, 무음 기간이 짧게 되어, 유음 부분이 밀착하는 것에 의해서, 다른 소리로 들려 버리는 경우가 있다. 예를 들면 「k」와 같은 폐쇄 자음의 앞의 무음 기간이 짧아지면, 「a-ka」가 「a-ga」와 같이 들려 버린다.
그래서, 본 발명은, 첫번째로, 재생시간을 단축하기 위해서 정상속도보다 빠른 속도로 재생된 음성신호를 통상의 음정으로 출력하는 경우에, 유음 부분의 삭제에 의해서 음성이 도중에 끊겨 버리는 경우가 적어지고, 내용이 이해하기 쉽게 되도록 한 것이다.
본 발명은, 두번째로, 상기 첫번째 목적에 더하여, 연속 음성 부분의 밀착에 의해서 다른 소리로 들려 버리는 것이 적어지도록 한 것이다.
제 1 발명의 음성 재생 방법에서는,
기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 것에 의해서 얻어진 재생 입력 음성 신호를 처리 단위 기간마다 구분짓고,
정상 재생 시간보다 짧은 시간으로 신호가 재생 가능하도록 데이터를 삭제하기 위해서 출력 버퍼로부터 정상 속도 상당량의 재생 출력 음성 신호가 얻어지는 범위내에서 무음 부분을 삭제하며, 그 전후의 신호부분을 접합하고, 각각의 처리 단위 기간의 재생 입력 음성 신호를, 상기 출력 버퍼에 기록하는 동시에,
처리 단위 기간의 재생 입력 음성 신호중에 상기 출력 버퍼에 축적되지 않는 양의 유음 부분이 존재하는 경우에는, 일부의 유음 부분을 삭제하고, 그 전후의 유 음 부분을 접합하여, 그 처리 단위 기간의 재생 입력 음성 신호를 압축하여, 상기 출력 버퍼에 기록한다.
제 2 발명의 음성 재생 방법에서는,
기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 것에 의해서 얻어진 재생 입력 음성 신호에 대하여, 연속 음성 부분의 종단부의 진폭을 억압하고,
그 진폭 억압 처리후의 재생 입력 음성 신호를, 처리 단위 기간마다 구분짓고,
출력 버퍼로부터 정상 속도 상당량의 재생 출력 음성 신호가 얻어지는 범위내에서 무음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 각각의 처리 단위 기간의 재생 입력 음성 신호를, 상기 출력 버퍼에 기록하는 동시에,
처리 단위 기간의 재생 입력 음성 신호중에 상기 출력 버퍼에 축적되지 않는 양의 유음 부분이 존재하는 경우에는, 일부의 유음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 그 처리 단위 기간의 재생 입력 음성 신호를 압축하여, 상기 출력 버퍼에 기록한다.
상기의 방법에 의한 제 1 발명의 음성 재생 방법에 의하면, 출력 버퍼를 효과적으로 사용하는 것에 의해서, 필요 최소한의 메모리를 사용하는 것만으로, 유음 부분의 삭제에 의해서 음성이 도중에서 끊어지는 일이 적어져, 내용이 이해하기 쉽게 된다.
제 2 발명의 음성 재생 방법에 의하면, 더욱이, 연속 음성 부분의 밀착에 의 해서 다른 소리로 들려 버리는 것이 적어진다.
[시스템 전체의 일실시예… 도 1 및 도 2]
도 1은, 본 발명의 재생장치의 일 실시예를 도시하고, 하드 디스크, 광자기 디스크, 광디스크 등, 디스크형의 기록매체로부터, 이것에 기록된 영상신호 및 음성신호를, 정상속도보다 빠른 속도로 재생할 수 있는 경우이다.
재생장치는, 기록장치를 겸하여도 좋고, 실제상도 기록장치를 겸하는 것이 바람직하지만, 기록방법 및 기록장치는, 공지의 것과 특히 다르지 않기 때문에 생략하며, 기록매체(1)에는, 소정의 프로토콜 및 포맷에 의한 디지탈화된 영상신호 및 음성신호가 기록되어 있는 것으로 한다.
이하의 예에서는, MPEG(Moving Picture Experts Group)-2 Systems의 압축부호화 방식 및 다중화 방식에 의해서, 압축된 영상 데이터 및 음성 데이터가 TS(Tr ansport Stream)로서 다중화되어 기록되어 있는 것으로 하고, 음성신호의 샘플링 주파수는 48kHz(60m초에서 2880 샘플)로 한다.
기록매체(1)는, 구동 모터(3)에 의해서 회전 구동된다. 재생 헤드(2)는, 기록매체(1)로부터, 이것에 기록되어 있는 영상신호 및 음성신호를 판독하는 것으로, 자기 헤드나 광학 픽업 등이고, 구동 모터(4)를 포함하는 이동기구에 의해서 기록매체(1)의 직경 방향으로 이동된다. 구동 모터(3 및 4)는, 서보 회로(5)에 의해서 구동 제어되며, 서보 회로(5)는, 장치 전체를 제어하는 시스템 컨트롤러(6)에 의해서 제어된다.
재생 헤드(2)의 출력으로서 얻어지는, 기록매체(1)로부터 판독된 영상신호 및 음성신호, 이 예에서는 TS로서 다중화된 영상 데이터 및 음성 데이터는, 디멀티플렉서(7)에 공급되고, 디멀티플렉서(7)로부터, 영상 데이터 및 음성 데이터가, 각각 영상 PES(Packetized Elementary Stream) 및 음성 PES로서 분리되어 얻어진다.
디멀티플렉서(7)로부터의 영상 데이터는, MPEG 영상 디코더(11)에서, 신장 복호화됨과 동시에, 재생배율에 따라서 프레임 단위 또는 필드 단위로 솎아진다.
즉, 2배속 재생의 경우에는, 기록매체(1)로부터는 영상 데이터가 정상속도의 2배의 속도로 판독되지만, MPEG 영상 디코더(11)에서, 연속하는 2 프레임당 1 프레임, 또는 연속하는 2 프레임당 1 필드, 영상 데이터가 솎아진다. 3배속 재생의 경우에는, 기록매체(1)로부터는 영상 데이터가 정상속도의 3배의 속도로 판독되지만, MPEG 영상 디코더(11)에서, 연속하는 3 프레임당 2 프레임, 또는 연속하는 3 필드당 2 필드, 영상 데이터가 솎아진다.
MPEG 영상 디코더(11)의 출력의 영상 데이터는, NTSC(National Television System Committee) 인코더(12)에서, NTSC 영상신호에 인코드되고, 아날로그 신호로 변환되며, CRT 디스플레이나 액정 디스플레이 등의 표시장치(13)에 공급된다.
디멀티플렉서(7)로부터의 음성 데이터는, MPEG 음성 디코더(14)에서, 신장 복호화되고, 음성 처리부(15)에 공급되며, 음성 처리부(15)에서, 후술하는 바와 같이 속도 변환되고, 재생배율에 관계 없이 샘플링 주파수가 상기의 48kHz로 되며, 아날로그 신호로 변환되어, 스피커 등의 음성 출력 장치(16)에 공급된다.
즉, 2배속 재생의 경우에는, 기록매체(1)로부터 음성 데이터가 정상속도의 2배의 속도로 판독되는 것에 의해서, MPEG 음성 디코더(14)의 출력의 음성 데이터 는, 60m초에서 2×2880 샘플로 되지만, 음성 처리부(15)에서의 속도변환에 의해서, 음성 처리부(15)의 출력의 음성 데이터로서는, 60m초에서 2880 샘플로 된다. 3배속재생의 경우에는, 기록매체(1)로부터 음성 데이터가 정상속도의 3배의 속도로 판독되는 것에 의해서, MPEG 음성 디코더(14)의 출력의 음성 데이터는, 60m초에서 3×2880 샘플로 되지만, 음성 처리부(15)에서의 속도변환에 의해서, 음성 처리부(15)의 출력의 음성 데이터로서는, 60m초에서 2880 샘플로 된다.
시스템 컨트롤러(6)에는, 조작부(9)가 접속된다. 조작부(9)는, 장치의 이용자가 재생배율을 지시하는 등의 각종 조작을 행하는 것으로, 이것에는, 장치의 동작상태나 조작상황을 표시하는 액정 표시부 등의 표시부가 설치된다.
도 2는, 음성 처리부(15)의 일예를 도시한다. 이 예는, MPEG 음성 디코더(14)의 출력의 음성 데이터에 대하여, 속도변환의 전처리로서, 연속 음성 부분(음성의 한묶음, 한묶음의 음성부분)의 종단부의 진폭을 억압함과 동시에, 속도변환처리의 처리 단위 시간을 일정하게 하는 경우에, 음성 처리부(15)는, 진폭 억압 처리부(70), 처리 단위 기간 설정부(21), 유음 무음 판정부(22), 속도 변환 처리부(23), 출력 버퍼(24), D/A 컨버터(25) 및 음성 증폭기(26)에 의해서 구성된다.
[진폭 억압 처리… 도 3 내지 도 12]
도 2의 예의 음성 처리부(15)의 진폭 억압 처리부(70)에서는, MPEG 음성 디코더(14)의 출력의 음성 데이터에 대하여, 연속 음성 부분의 종단부의 진폭이 억압된다.
(진폭 억압 처리의 제 1 예… 도 3 내지 도 6)
진폭 억압 처리부(70)에서의 진폭 억압 처리의 하나의 방법으로서, 일본 특개평8-179792호에 제시된 방법을 사용할 수 있다. 도 3 내지 도 6에는, 이러한 일본 특개평8-179792호에 제시된 방법에 의한 진폭 억압 처리를 도시한다.
도 3은, 진폭 억압 처리부(70)의 구성을 도시하고, 입력단자(71)에는, 입력음성 신호로서 상술한 MPEG 음성 디코더(14)의 출력의 음성 데이터가 공급된다. 이 입력 음성 신호는, 자음 성분 분리 필터(72) 및 포르만트(formant) 성분 분리 필터(73)에 공급되고, 자음 성분 분리 필터(72)로부터는, 입력 음성 신호중의 자음 성분이 추출된다. 또한, 포르만트 성분 분리 필터(73)의 통과 대역이, 예를 들면 150 내지 1000Hz에 설정되는 것에 의해서, 포르만트 성분 분리 필터(73)로부터는, 입력 음성 신호중의 피치 성분 및 포르만트 성분이 추출된다.
포르만트 성분 분리 필터(73)의 출력은, 레벨 검출부(74)에 공급되고, 레벨 검출부(74)에 있어서, 예를 들면, 포르만트 성분 분리 필터(73)의 출력이 전파 정류되며, 그 정류출력이 60Hz 이하를 통과 대역으로 하는 로패스 필터(lowpass filter) 공급되고 로퍼스 필터의 출력의 레벨이 검출되는 것에 의해서, 입력 음성 신호의 음성 레벨이 검출되며, 레벨 검출치(E)가 얻어진다. 이와 같이 피치 성분 및 포르만트 성분만으로부터 음성 레벨이 검출되는 것에 의해서, 레벨 검출치(E)로서 노이즈의 영향이 적은 것이 얻어진다.
이 레벨 검출부(74)로부터의 레벨 검출치(E)는, 제어부(75)에서 후술하는 바와 같이 처리되고, 제어부(75)로부터 진폭 억압의 제어신호로서의 제어계수(W)가 얻어진다.
그리고, 포르만트 성분 분리 필터(73)의 출력, 및 제어부(75)로부터의 제어계수(W)가, 진폭 억압부(76)에 공급되고, 진폭 억압부(76)에 있어서, 후술하는 바와 같이 제어계수(W)에 의해서 포르만트 성분 분리 필터(73)의 출력이 감쇠된다.
더욱이, 주파수 특성 보정 필터(77)에서, 자음 성분 분리 필터(72)의 출력과 진폭 억압부(76)의 출력이 혼합됨과 동시에, 혼합후의 신호에 대하여 이퀄라이징 처리 등의 소요의 주파수 특성 보정 처리가 실시되고, 처리후의 출력 음성 신호가 출력단자(79)에 얻어진다. 주파수 특성 보정 필터(77)는, 배속 재생의 재생배율에 따라서 필터계수나 처리 대역이 설정된다. 단, 주파수 특성 보정 필터(77)에 의해서 주파수 특성을 보정하지 않고, 자음 성분 분리 필터(72)의 출력과 진폭 억압부(76)의 출력을 혼합하는 것만으로도 좋다.
제어부(75)는, 레벨 검출부(74)로부터의 레벨 검출치(E)로부터, 연속 음성 부분의 종단이 근접하고 있는 것을 예측함과 동시에, 다음의 연속 음성 부분의 시단(始端)을 검출한다. 그리고, 그 예측 및 검출에 기초하여, 진폭 억압부(76)에 대한 제어계수(W)를 설정하고, 연속 음성 부분의 종단이 근접하면, 포르만트 성분 분리 필터(73)의 출력을 감쇠시켜, 다음 연속 음성 부분의 시단이 도래하면, 그 감쇠를 해제하는 것에 의해서, 인접하는 연속 음성 부분의 사이에 진폭이 작은 기간 또는 무음 기간을 형성하며, 또는 인접하는 연속 음성 부분의 간의 무음 기간을 확대한다.
이 처리를, 도 4를 사용하여 도시한다. 상기 도 4a는, 입력단자(71)에 얻어지는 입력 음성 신호이고, 아날로그 파형으로 도시한다. 상기 도 4b는, 이 경우에 레벨 검출부(74)로부터 얻어지는 레벨 검출치(E)이며, 아날로그 파형으로 도시한다.
제어부(75)는, 우선, 레벨 검출치(E)의 피크치(PK)를 검출하여 임계치(TH)를 설정한다. 예를 들면, 피크치(PK)에 계수를 곱하고, 피크치(PK)의 일정 비율의 값을 임계치(TH)로서 설정한다. 다음에, 그 때의 샘플 타이밍에서의 레벨 검출치(E(i))를 직전의 샘플 타이밍에서의 레벨 검출치(E(i-1))와 비교하여, 음성 레벨이 증가경향에 있는지 감소경향에 있는지를 판단함과 동시에, 그 때의 샘플 타이밍에서의 레벨 검출치(E(i))를 상기의 임계치(TH)와 비교한다.
그리고, 도 4의 시점(t0)으로 도시하는 바와 같이, 음성 레벨이 감소경향에 있고, 또한, 그 때의 레벨 검출치(E(i))가 임계치(TH)보다 작아졌을 때에는, 연속 음성 부분의 종단이 근접하고 있다고 판단하여, 상기 도 4c에 도시하는 바와 같이, 진폭 억압부(76)에 대한 제어계수(W; 진폭 억압부(76)의 이득 레벨)을 최대치(1)로부터 최소치(0)로 향하여 서서히 저하시켜, 포르만트 성분 분리 필터(73)의 출력의 감쇠량을 서서히 증가시킨다.
또한, 진폭 억압후, 도 4의 시점(t1)으로 도시하는 바와 같이, 음성 레벨이 증가경향으로 바뀌었을 때에는, 다음 연속 음성 부분의 시단이라고 판단하여, 상기 도 4c에 도시하는 바와 같이, 진폭 억압부(76)에 대한 제어계수(W; 진폭 억압부(76)의 이득 레벨)을 최소치(0)로부터 최대치(1)로 향하여 서서히 증가시켜, 포르만트 성분 분리 필터(73)의 출력의 감쇠량을 서서히 저하시킨다.
이러한 진폭 억압 처리에 의해서, 출력단자(79)에 얻어지는 출력 음성 신호 는, 도 4d에 아날로그 파형으로 도시하는 바와 같이, 인접하는 연속 음성 부분의 사이에 진폭이 작은 기간 또는 무음 기간이 형성되고, 또는 인접하는 연속 음성 부분의 사이의 무음 기간이 확대되게 된다.
제어부(75)는, 보다 구체적으로는, 도 5에 도시하는 바와 같은 처리 루틴에 의해서, 진폭 억압부(76)에 대한 제어계수(W)를 설정한다.
도 5의 처리 루틴은, 레벨 검출부(74)로부터 제어부(75)에 레벨 검출치(E(i))가 들어갈 때마다 처리를 개시하는 것으로, 우선 단계(F101)에서, 레벨 검출치(E)(1)를 임계치(TH)와 비교한다. 임계치(TH)는, 그 이전에 있어서 단계(F110 또는 F117)에서 후술하는 바와 같이 설정한 값이다.
그리고, E(i)≥TH이면, 단계(F101)로부터 단계(F111)로 진행하고, 다운 플래그(DW)를 1에 세트한다. 다운 플래그(DW)는, 그 이전은 음성 레벨이 감소 경향에 있는 경우, 또는 감소경향에 있다고 간주하는 경우에, 1로 하는 플래그이다.
다음에, 단계(F112)에서, 플래그(BY)를 확인한다. 플래그(BY)는, 직전의 레벨 검출치(E(i-1))가 임계치(TH)보다 작은 경우에, 단계(F102)에서 0으로 되는 플래그이다. 따라서, 레벨 검출치(E(i))로서 임계치(TH) 이상의 값이 최초에 입력되었을 때에는, 플래그(BY)는 0이고, 단계(F112)로부터 단계(F118)로 진행한다.
단계(F118)에서는, 레벨 검출치(E(i))를 피크치(PK)의 하한치(LimL)와 비교한다. 피크치(PK)에 대해서는, 미리 상한치(LimH) 및 하한치(LimL)가 설정되고, 제어부(75)는, 후술하는 바와 같이, 피크치(PK)가 상한치(LimH)보다 클 때에는, 상한치(LimH)를 피크치(PK)로서 설정하고, 피크치(PK)가 하한치(LimL)보다 작을 때에 는, 하한치(LimL)를 피크치(PK)로서 설정하며, 피크치(PK)를 상한치(LimH)와 하한치(LimL)와의 사이에 설정하는 것이다.
그리고, E(i)<LimL이면, 단계(F118)로부터 단계(F119)로 진행하고, 하한치(LimL)을 피크치(PK)로서 설정한 후에, 단계(F121)로 진행하며, E(i)≥LimL이면, 단계(F118)로부터 단계(F120)로 진행하고, 임계치(TH)를 피크치(PK)로서 설정한 후에, 단계(F121)로 진행한다.
단계(F121)에서는, 상기의 플래그(BY)를 1에 세트하고, 다음에 레벨 검출치(E(i))가 입력되었을 때에 대비하며, 음성 레벨이 임계치(TH) 이상으로 된 것을 나타낸다.
다음에, 단계(F122)에서, 그 때의 레벨 검출치(E(i))를 직전의 레벨 검출치(E(i-1))와 비교하여, E(i)>E(111)이면, 음성 레벨이 증가 경향에 있다고 판단하며, 단계(F122)로부터 단계(F123)로 진행하고, 제어계수(W)를 W+d2의 값으로 갱신한 후에, 다음회의 처리로 이행하며, E(i)≤E(i-1)이면, 음성 레벨이 증가 경향에 없다고 판단하여, 단계(F122)로부터 직접, 다음회의 처리로 이행한다.
단계(F121)로부터 단계(F122)로 진행한 경우는, 레벨 검출치(E(i))로서 임계치(TH) 이상의 값이 최초에 입력되었을 때에, 음성 레벨이 증가경향에 있기 때문에, 단계(F123)에서 제어계수(W)가 갱신되게 된다.
d2는, 제어계수(W)를 증가시켜, 감쇠량을 저하시키는 경우의 단계폭이다. 단, 도 4c에 도시한 바와 같이, 제어계수(W)는 0≤W≤1로 된다. 따라서, W=1이었을 때에는, 단계(F123)에서는 제어계수(W)를 갱신하지 않는다.
다음회의 처리에 있어서도, E(i)≥TH이면, 단계(F101)로부터 단계(F111 및 F112)로 진행하지만, 이 때는, 레벨 검출치(E(i))로서 임계치(TH) 이상의 값이 최초에 입력되었을 때가 아니며, 플래그(BY)가 1에 세트되어 있기 때문에, 단계(F112)로부터 단계(F113)로 진행한다.
단계(F113)에서는, 레벨 검출치(E(i))를 피크치(PK)와 비교하여, PK≥E(i)이면, 그대로 단계(F122)로 진행하지만, PK<E(i)이면, 단계(F114) 이하로 진행하고, 피크치(PK)를 갱신한 후에, 임계치(TH)를 갱신한다.
즉, 우선 단계(F114)에서, 레벨 검출치(E(i))를 피크치(PK)의 상한치(LimH)와 비교하여, E(i)>LimH이면, 단계(F114)로부터 단계(F115)로 진행하고, 상한치(LimH)를 피크치(PK)로서 설정한 후에, 단계(F117)로 진행하며, E(i)≤LimH이면, 피크치(PK)보다 큰 레벨 검출치(E(i))가 새로운 피크치(PK)로서 검출된 것으로 되기 때문에, 단계(F114)로부터 단계(F116)로 진행하고, 레벨 검출치(E(i))를 피크치(PK)로서 설정한 후에, 단계(F117)로 진행한다.
단계(F117)에서는, 임계치(TH)를, 상기한 바와 같이 갱신한 피크치(PK)의 일정비율의 값(PK×RT)으로 갱신한다. 계수(RT)로 나타내는 비율은, 수% 내지 수십%로 선정된다. 단계(F117)에서 임계치(TH)를 갱신하면, 단계(F122)로 진행한다.
이상은, 레벨 검출치(E(i))가 임계치(TH) 이상의 값인 경우이다. 반대로, 레벨 검출치(E(i))가 임계치(TH)보다 작은 경우에는, 단계(F101)로부터 단계(F102)로 진행하고, 상기의 플래그(BY)를 0으로 한다.
다음에, 단계(F103)에서, 그 때의 레벨 검출치(E(i))를 직전의 레벨 검출치(E(i-1))와 비교하여, E(i)<E(i-1)이면, 음성 레벨이 감소경향에 있다고 판단하여, 단계(F103)로부터 단계(F105)로 진행하고, 다운 플래그(DW)를 확인한다.
그리고, 다운 플래그(DW)가 1이면, 그 이전은 음성 레벨이 감소경향에 있던 경우, 또는 감소경향에 있다고 간주하는 경우이기 때문에, 이 때, 레벨 검출치(E(i))가 임계치(TH)보다 작고, 또한 직전의 레벨 검출치(E(i-1))보다 작기 때문에, 연속 음성 부분의 종단이 근접하고 있다고 판단하여, 단계(F105)로부터 단계(F106)로 진행하고, 제어계수(W)를 W-d1의 값으로 갱신한 후에, 다음회의 처리로 이행한다.
d1은, 제어계수(W)를 감소시켜, 감쇠량을 증가시키는 경우의 단계폭이다. 단, 도 4c에 도시하는 바와 같이, 제어계수(W)는 0≤W≤1로 된다. 따라서, W=0이었을 때에는, 단계(F106)에서는 제어계수(W)를 갱신하지 않는다.
이후, 레벨 검출치(E(i))가 연속 음성 부분의 종단에 향하여 계속 저하하고 있는 동안은, 단계(F106)에서 제어계수(W)의 갱신이 반복되고, 도 4의 시점(t0) 이후에 도시하는 바와 같이, 진폭 억압부(76)의 이득 레벨이 서서히 저하한다. 그리고, 제어계수(W; 이득 레벨)이 0에 도달하면, 다음에 시점(t1)으로 나타내는 바와 같이 음성 레벨이 증가경향으로 전환하기 까지는, 제어계수(W; 이득 레벨)가 0의 상태가 유지된다.
한편, 단계(F105)에서 다운 플래그(DW)가 0이라고 판단한 경우는, 그 이전은 음성 레벨이 감소경향에 없고, 레벨 검출치(E(i))로서 임계치(TH)는 작은 값이 최초에 입력되었을 때이다. 이 때, 음성 레벨이 감소경향에 있더라도, 연속 음성 부 분의 종단이 근접하고 있지 않는 경우도 존재한다고 생각된다. 그래서, 단계(F105)에서 다운 플래그(DW)가 0이라고 판단하였을 때에는, 단계(F107) 이하로 진행하고, 피크치(PK)를 갱신한 후에, 임계치(TH)를 갱신한다.
즉, 우선 단계(F107)에서, 레벨 검출치(E(i))를 피크치(PK)의 하한치(LimL)와 비교하여, E(i)≥LimL이면, 단계(F107)로부터 단계(F108)로 진행하고, 레벨 검출치(E(i))를 피크치(PK)로서 설정한 후에, 단계(F110)로 진행하며, E(i)<LimL이면, 단계(F107)로부터 단계(F109)로 진행하고, 하한치(LimL)를 피크치(PK)로서 설정한 후에, 단계(F110)로 진행한다.
단계(F110)에서는, 임계치(TH)를, 상기한 바와 같이 갱신한 피크치(PK)의 일정 비율의 값(PK×RT)으로 갱신한다. 또한, 이 때, 연속 음성 부분의 종단이 근접하고 있는 경우도 존재하기 때문에, 단계(F106)와 같이, 제어계수(W)를 W-d1의 값으로 갱신한다. 더욱이, 단계(F110)에서는, 다운 플래그(DW)를 1에 세트하여, 음성 레벨이 감소경향이 된 것을 나타낸다.
이와 같이 레벨 검출치(E(i))로서 임계치(TH)보다 작은 값이 최초에 입력되었을 때에는, 단계(F11)로 임계치(TH)가 갱신되는 것에 의해서, 연속 음성 부분의 종단이 근접하고 있는지의 여부가, 보다 정확하게 판정된다. 즉, 실제로는 연속 음성 부분의 종단이 근접하고 있지 않을 때에는, 다음에 입력되는 레벨 검출치(E(i))는 갱신된 임계치(TH) 이상으로 될 확률이 높고, 다음회의 처리에서는 단계(F111) 이후의 처리가 실행될 가능성이 높기 때문에, 연속 음성 부분의 종단이 근접하고 있다고 오판정될 확률은 낮다.
반대로, 실제로 연속 음성 부분의 종단이 근접하고 있을 때에는, 다음에 입력되는 레벨 검출치(E(i))가 갱신된 임계치(TH)보다 작게 되고, 또한 직전의 레벨 검출치(E(i-1))보다 작아지기 때문에, 다음회의 처리로서는 단계(F105)로부터 단계(F106)로 진행하고, 연속 음성 부분의 종단부의 진폭을 억압하는 처리가 실행된다.
진폭 억압후, 도 4의 시점(t1)으로 도시하는 바와 같이 다음의 연속 음성 부분의 시작단부가 도래하면, 제어부(75)는, 단계(F103)에서, 그 때의 레벨 검출치(E(i))가 직전의 레벨 검출치(E)(i-1)이상이라고 판단하는 것에 의해서, 단계(F103)로부터 단계(F104)로 진행하고, 제어계수(W)를 W+d2의 값으로 갱신함과 동시에, 다운 플래그(DW)를 0으로 한다.
이후, 레벨 검출치(E(i))가 증가하는 동안은, 레벨 검출치(E(i))가 임계치(TH)보다 작을 때에는 단계(F104로, 레벨 검출치(E(i))가 임계치(TH) 이상의 값일 때에는 단계(F123)에서, 제어계수(W)의 갱신이 반복되고, 도 4의 시점(t1) 이후에 나타낸 바와 같이, 진폭 억압부(76)의 이득 레벨이 서서히 증가한다.
이상과 같이, 도 5의 처리 루틴에 의해서, 진폭 억압 처리부(70)의 출력 음성 신호는, 인접하는 연속 음성 부분의 사이에 진폭이 작은 기간 또는 무음 기간이 형성되고, 또는 인접하는 연속 음성 부분의 사이의 무음 기간이 확대된 것으로 된다.
도 6은, 화자(話者)가 일본어의 「대물림의 무모함으로 어릴 때부터 손해만보고 있다」라고 말하는 발음을 하였을 때의 음성 신호 파형을 도시하고, 상기 도 6a가, 진폭 억압 처리를 행하기 전의 파형이며, 상기 도 6b가, 상술한 진폭 억압 처리를 행한 후의 파형이다. 상기 도 6b의 화살표로 도시하는 바와 같이, 상술한 진폭 억압 처리를 행한 경우에는, 각각의 화음(話音; 연속 음성 부분)의 사이가 진폭이 작은 기간 또는 무음 기간에 의해서 명확하게 구분되고, 각각의 화음을 명료하게 인식할 수 있게 된다
(진폭 억압 처리의 제 2 예… 도 7 내지 도 12)
도 2의 예의 음성 처리부(15)의 진폭 억압 처리부(70)에서의 진폭 억압 처리의 다른 한 방법으로서, 일본 특개평7-36487호에 제시된 방법을 사용할 수 있다. 도 7 내지 도 12에는, 이러한 일본 특개평7-36487호에 제시된 방법에 의한 진폭 억압 처리를 도시한다.
도 7은, 진폭 억압 처리부(70)의 구성을 도시하고, 입력단자(71)는, 입력 음성 신호로서 상술한 MPEG 음성 디코더(14)의 출력의 음성 데이터가 공급된다. 이 입력 음성 신호는, 지연회로(81)에서 예를 들면 30m초 지연되고, 진폭 억압부(82)에 공급된다. 또한, 입력 음성 신호가, 밴드패스 필터(bandpass filter; 83)에 공급되며, 밴드패스 필터(83)로부터, 입력 음성 신호중의 피치 성분 및 제 1포르만트 성분만이 추출된다.
사람의 회화의 음성은, 모음의 경우, 주로 피치 성분과 제 1포르만트 성분, 제 2포르만트 성분인 어떤 포르만트 성분으로 해석할 수 있다. 즉, 예를 들면 「아」라고 발음하였을 때의 음성 파워 스펙트럼은, 도 9에 도시하는 바와 같이, 주파수가 낮은 쪽으로부터 차례로, 피치 성분 P, 제 1포르만트 성분(F1), 제 2포르만트 성분(F2), 제 3포르만트 성분(F3…)과, 에너지가 집중하는 개소가 존재한다.
따라서, 밴드패스 필터(83)의 상측의 컷 오프 주파수를 제 1포르만트 성분 (F1)과 제 2포르만트 성분(F2)의 사이의 주파수에 선정함으로써, 피치 성분 및 제 1포르만트 성분만을 추출할 수 있다. 단지, 발음하는 소리나 발음하는 사람의 차이에 따라서 각 성분의 주파수가 변화하기 때문에, 시스템이 취급하는 음성신호에 의해서 밴드패스 필터(83)의 통과대역을 약간 바꿀 필요가 있다.
이 밴드패스 필터(83)로부터의 피치 성분 및 제 1포르만트 성분은, 레벨 검출부(84)에 공급되고, 레벨 검출부(84)에 있어서, 예를 들면, 밴드패스 필터(83)의 출력이 전파 정류되며, 그 정류출력이 60Hz 이하를 통과대역으로 하는 로퍼스 필터에 공급되고, 로퍼스 필터의 출력의 레벨이 검출되는 것에 의해서, 입력 음성 신호의 음성 레벨이 검출되며, 레벨 검출치(E)가 얻어진다. 이와 같이 피치 성분 및 포르만트 성분만으로부터 음성 레벨이 검출되는 것에 의해서, 레벨 검출치(E)로서 노이즈의 영향이 적은 것이 얻어진다.
이 레벨 검출부(84)로부터의 레벨 검출치(E)는, 제어부(85)에서 후술하는 바와 같이 처리되고, 진폭 억압부(82)에 있어서, 후술하는 바와 같이 제어부(85)의 제어에 의해서 지연회로(81)의 출력의 음성신호가 감쇠되고, 출력단자(79)에 진폭 억압 처리후의 출력 음성 신호가 얻어진다.
도 10은 이 예의 제어부(85)가 실행하는 처리 루틴의 일예를 도시한다. 이 처리 루틴은, 레벨 검출부(84)로부터 제어부(85)에 레벨 검출치(E(i))가 들어갈 때마다 처리를 개시하는 것으로, 우선 단계(S101)에서, 레벨 검출치(E(i))를 음성의 도중에 끊기는 것을 판단하기 위한 임계치(Ath1)와 비교한다. 임계치(Ath1)는, 그 이전에 있어서 단계(S107)에서 후술하는 바와 같이 설정한 값이다.
그리고, E(i)≥Ath1이면, 단계(S101)로부터 단계(S102)로 진행하고, 이네이블치가 0인지의 여부를 판단한다. 이 이네이블치는, 이전의 음성 레벨의 상태를 나타내는 값으로, 이전에 음성 레벨이 증가하고 있는 경우에는 1로 되는 것이다.
그 때문에, 음성 레벨이 상승하기 시작하였을 때에는, 단계(S102)에서는 이네이블치가 0이라고 판단하고, 단계(S102)로부터 단계(S103)로 진행하며, 레벨 검출치(E(i))를 음성의 존재를 판단하기 위한 임계치(Ath2)와 비교한다. 임계치(Ath 2)는, 미리 설정된다.
그리고, E(i)≤Ath2이면, 그대로 다음회의 처리로 이행하지만, E(i)>Ath2이면, 음성이 존재한다고 판단하고, 단계(S104)로 진행하며, 상기의 이네이블치를 1에 설정함과 동시에, 진폭 억압 종료시로부터의 샘플수를 나타내는 변수(So)를 0에 설정한 후에, 단계(S105)로 진행한다.
단계(S105)에서는, 레벨 검출치(E(i))를 피크치(PK)의 상한치(LimH)와 비교하여, E(i)>LimH이면, 단계(S105)로부터 단계(S106)로 진행하고, 상한치(LimH)를피크치(PK)로서 설정한 후에, 단계(S107)로 진행하며, E(i)≤LimH이면, 단계(S105)로부터 단계(S108)로 진행하고, 레벨 검출치(E(i))를 피크치(PK)로서 설정한 후에, 단계(S107)로 진행한다.
단계(S107)에서는, 음성의 도중에서 끊기기를 판단하기 위한 임계치(Ath1)를, 상기한 바와 같이 설정한 피크치(PK)의 일정비율의 값(PK×Rt)에 갱신한다. 단계(S107)에서 임계치(Ath1)를 갱신하면, 다음회의 처리로 이행한다.
한편, 단계(S102)에서 이네이블치가 1이라고 판단하였을 때에는, 단계(S1O9)로 진행하고, 레벨 검출치(E(i))를 피크치(PK)와 비교하여, E(i)≤PK이면, 그대로 다음회의 처리에 이행하지만, E(i)>PK이면, 단계(SI05) 이하로 진행하고, 상기한 바와 같이 피크치(PK) 및 임계치(Ath1)를 갱신한 후에, 다음회의 처리에 이행한다.
이상의 처리를 반복하고 있는 동안에 레벨 검출치(E(i))가 저하하고, 단계(S101)에서 레벨 검출치(E(i))가 임계치(Ath1)보다 작다고 판단하였을 때에는, 단계(S101)로부터 단계(S110)로 진행하며, 상기의 이네이블치가 1인지의 여부를 판단한다.
그리고, 이네이블치가 1이면, 연속 음성 부분의 종단이라고 판단하고, 단계 (S110)로부터 단계(S111)로 진행하며, 이네이블치를 0으로 변경하여, 진폭 억압 종료 시로부터의 샘플수를 나타내는 변수(So)를 0에 설정함과 동시에, 이득 점감 기간(감쇠량 점증 기간) 및 무음 기간을 형성하도록 진폭 억압부(82)의 이득 레벨을 제어한다.
즉, 도 11에 도시된 바와 같은 샘플수 Sa의 기간(Ta)에서는 지연 회로(81)의 출력의 음성 신호에 대한 중량 계수(진폭 억압부(82)의 이득 레벨)를, 최대치(1)로부터 최소치(0)를 향하여, 계수(Wa)로 나타낸 바와 같이 음성 신호의 1 샘플마다 서서히 저하시키고, 그 직후의, 도 11에 도시된 바와 같은 샘플수(M)의 기간(Tm)에서는 지연 회로(81)의 출력의 음성 신호에 대한 중량 계수(진폭 억압부(82)의 이득 레벨)를 최소치(0)로 한다. 이득 점감 기간(Ta)은 예를 들면 10m초로 하고, 무음 기간(Tm)은 예를 들면 20m초로 한다.
이와 같이 단계(S111)에서 진폭 억압부(82)의 이득 레벨을 제어하면, 다음회의 처리로 이행한다. 다음회의 처리에서도, 단계(S101)에서 레벨 검출치 E(i)가 임계값(Ath1)보다 작다고 판단하므로, 단계(S101)로부터 단계(S110))로 진행하여, 이네이블값이 1인지의 여부를 판단하지만, 다음회의 처리에서는 이네이블값이 0으로 되어 있기 때문에, 단계(S110)에서 단계(S112)로 진행한다.
그리고, 단계(S112)에서는 진폭 억압 종료시로부터의 샘플수를 나타내는 변수 (So)가 이득 점증 기간(감쇠량 점감 기간)으로서 결정되는 기간의 샘플수(Sb)보다 작은지의 여부를 판단하고, So<Sb이면, 다음의 연속 음성 부분의 시작부분이라고 판단하여, 단계(S112)로부터 단계(S113)로 진행하여, 이득 점증 기간을 형성하도록 진폭 억압부(82)의 이득 레벨을 제어한다.
즉, 도 11에 도시된 바와 같은, 무음 기간(Tm) 직후의 샘플수(Sb)의 기간(Tb)에서는 지연 회로(81)의 출력의 음성 신호에 대한 중량 계수(진폭 억압부(82)의 이득 레벨)를, 최소치(0)로부터 최대치(1)를 향하여, 계수(Wb)에서 도시된 바와 같이 음성 신호의 1 샘플마다 서서히 증가시킨다. 이득 점증 기간(Tb)은 예를 들면 5m초로 한다.
이와 같이 단계(S113)에서 진폭 억압부(82)의 이득 레벨을 제어하면, 다음
회의 처리로 이행한다. 단계(S112)에서 변수(So)가 샘플수(Sb) 이상이라고 판단하였을 때에는 그대로 다음회의 처리로 이행한다.
이상과 같이, 이 예의 진폭 억압 처리에서는 제어부(85)의 제어에 의해서 진 폭 억압부(82)에서 음성 신호의 진폭이 억압되지만, 진폭 억압부(82)에 공급되는 음성 신호는 입력 단자(71)에서 얻어지는 음성 신호에 대하여 30m초 지연되므로, 제어부(85)에서 연속 음성 부분의 끝부분이 검출되었을 때, 30m초 이전으로 거슬러올라가서 연속 음성 부분의 끝부분의 30m초 앞의 신호 위치로부터, 이득 점감 기간(Ta) 및 무음 기간(Tm)에서 나타낸 바와 같이 음성 신호의 진폭을 억압할 수 있다.
도 12는 말하는 사람이 일본어의 「써주십시오」라고 하는 발음을 하였을 때의 음성 신호 파형을 도시하고, 상기 도 12a가, 진폭 억압 처리를 행하기 전의 파형이고, 상기 도 12b가, 상술한 진폭 억압 처리를 행한 후의 파형이다. 상기 도 12b에 도시된 바와 같이, 상술한 진폭 억압 처리를 행한 경우에는 각각 「가이」「떼」「구」「다」「사이」라고 하는 화음(연속 음성 부분)의 끝부분 직전에 무음 기간(M1, M2, M3, M4, M5)이 형성되어, 각각의 화음을 명료하게 인식할 수 있게 된다.
무음 기간(Tm)은 20m초로 한정하지 않고, 수 m초 내지 수 10m초의 범위에서 적절히 설정하면 된다. 또한, 완전한 무음 상태로 하지 않고, 예를 들면 진폭을 수십% 억압하여도 된다.
도 8에 도시된 바와 같이, 도 7의 지연 회로(81) 및 진폭 억압부(82) 대신에, FIF0(first-in first-Out) 메모리(86)를 사용하여도 된다. 이 경우에는 FIFO 메모리(86)에 기입된 음성 데이터를 일정 시간 지연하여 FIFO 메모리(86)로부터 판독시에, 제어부(85)에 의해서 데이터치를 보정함으로써, 출력 단자(79)에 진폭 억 압 처리후의 출력 음성 신호를 얻는다.
[속도 변환 처리… 도 13 내지 도 17]
도 2의 예인 음성 처리부(15)에서는 MPEG 음성 디코더(14)의 출력의 음성 데이터에 대하여, 상술한 바와 같이 진폭 억압 처리부(70)에서 연속 음성 부분의 끝부분부의 진폭을 억압한 후, 속도 변환(사람의 회화인 경우에는 화속 변환)을 실행한다.
MPEG 음성 디코더(14) 출력의 음성 데이터, 따라서 진폭 억압 처리부(70)의 출력의 음성 데이터는 상술한 바와 같이, 2 배속 재생인 경우에는 60m초로 2× 2880 샘플로 되고, 3 배속 재생인 경우에는 60m초로 3×2880 샘플로 된다. 이하에서는 2 배속 재생인 경우를 예로 들어 속도 변환 처리를 나타내지만, 3 배속 재생등의 경우라도 마찬가지이다.
도 2의 예인 음성 처리부(15)의 처리 단위 기간 설정부(21)는 시스템 컨트롤러(6)로부터의 타이밍 신호 및 클록에 의해서, 도 13에 처리 단위 기간(T1 내지 T6)으로서 도시된 바와 같이, 1 음소의 시간보다 짧은 60m초 상당(2880 샘플분으로, 2 배속 재생인 경우에는 절대 시간으로서는 30m초)의 시간 간격으로, 속도 변환 처리의 각각의 처리 단위 기간인 선두 내지 말미의 타이밍을 결정한다. 단지, 처리 단위 기간 설정부(21)는 시스템 컨트롤러(6)의 일부, 또는 속도 변환 처리부(23)의 일부로서, 구성할 수도 있다.
유음 무음 판정부(22)는 입력 데이터(Si), 즉 진폭 억압 처리부(70)의 출력음성 데이터인, 유음 부분과 무음 부분을 식별 판정하는 것으로, 이 예에서는 도 14에 도시된 바와 같이, 입력 데이터(Si)의, 각각 60m초 상당(2880 샘플)의 처리 단위 기간을, 3m초 상당(144 샘플분으로, 2 배속 재생인 경우에는 절대 시간으로서는 1.5m초)씩의 20개의 판정 단위 기간으로 분할하여, 각각의 판정 단위 기간에 관하여, 144 샘플의 데이터의 절대치의 평균치를 산출하여, 그 평균치가 임계값을 초과하는지의 여부를 판단하고, 평균치가 임계값을 초과했을 때에는 그 판정 단위 기간을 유음 부분이라고 판정하고, 평균치가 임계값 이하일 때에는 그 판정 단위 기간을 무음 부분이라고 판정한다.
출력 버퍼(24)는 FIFO 구조의 링 버퍼로서 기능하는 것으로 한다. 도 15에, 출력 버퍼(24)에 대한 데이터 기입, 출력 버퍼(24)로부터의 데이터 판독, 및 출력 버퍼(24)의 입출력 포인터의 작용을 도시한다.
출력 버퍼(24)에 데이터가 전혀 기입되어 있지 않을 때에는 도 15a에 도시된 바와 같이, 출력 버퍼(24)에는 선두 어드레스로부터 순차로 데이터가 기입되고, 그것에 따라서 입력 포인터도 후방으로 이동한다. 이 때, 출력 포인터는 선두 어드레스를 지시한다.
도 15b는 이 상태로부터, 또한 데이터가 기입됨과 동시에, 선두 어드레스로부터 순차로 데이터가 판독된 상태를 도시하고, 출력 포인터도 후방으로 이동한다.
또한 데이터가 기입되어, 입력 포인터가 말미 어드레스에 도달하면, 도 15c에 도시된 바와 같이, 입력 포인터는 선두 어드레스로 되돌아간다. 이 때, 새로운 데이터가 출력 종료 데이터에 대하여만 덮어쓰기 되도록, 입력 포인터의 지시 위치가 제어된다. 출력 포인터도, 말미 어드레스에 도달하였을 때에는 선두 어드레스 로 되돌아간다.
D/A 컨버터(25)는 출력 버퍼(24)로부터 출력된 음성 데이터를 아날로그 음성 신호로 변환하는 것이며, 음성 증폭기(26)는 그 아날로그 음성 신호를 증폭하는 것이다. 음성 증폭기(26)로부터의 아날로그 음성 신호는 도 1의 음성 출력 장치(16)에 공급된다.
속도 변환 처리부(23)는 도 16에 도시된 속도 변환 처리 루틴에 의해서, 진폭 억압 처리부(70)의 출력인 음성 데이터, 즉 입력 데이터(Si)를 속도 변환하는 것이다.
즉, 이 속도 변환 처리 루틴(30)에서는 우선 단계(31)에 있어서, 유음 무음 판정부(22)의 판정 결과로부터, 입력 데이터(Si)의 각각의 처리 단위 기간내에 무음 부분이 배율 상당분 이상 존재하는지의 여부를 판단한다. 배율 상당분이란, 처리 단위 시간으로부터, 처리 단위 시간에 재생 배율의 역수를 곱한 시간을 뺀 시간으로, 상기한 바와 같이 처리 단위 시간이 60m초 상당(2880 샘플)으로, 또한 2 배속 재생인 경우에는 30m초분(1440 샘플)이다. 즉, 단계(31)에서는 각각의 처리 단위 기간내에 무음 부분이 30m초분(1440 샘플) 이상 존재하는지의 여부를 판단한다.
그리고, 처리 단위 기간내에 무음 부분이 30m초분(1440 샘플) 이상 존재할 때에는 단계(31)로부터 단계(32)로 진행하여, 출력 버퍼(24)에 30m초분(1440 샘플)이상의 데이터가 축적되어 있는지의 여부를 판단하고, 출력 버퍼(24)에 30m초분(1440 샘플) 이상의 데이터가 축적되어 있을 때에는 단계(32)로부터 단계(33)로 진행하여, 그의 처리 단위 기간내의 무음 부분을 모두 삭제하고, 무음 부분 전후의 유음 부분을 접합하여, 그 처리 단위 기간내의 유음 부분의 데이터만을 모두, 출력 버퍼(24)에 기입한다.
또한, 출력 버퍼(24)에 30m초분(1440 샘플) 이상의 데이터가 축적되어 있을 때에는 단계(32)로부터 단계(34)로 진행하여, 그 처리 단위 기간내의 30m초분(1440 샘플) 이하의 유음 부분의 모두에, 그 처리 단위 기간의 선두에 가까운 부분으로부터, 그 처리 단위 기간내의 무음 부분을 일부 부가하여, 그 처리 단위 기간내의 30m초분(1440 샘플)의 데이터를, 출력 버퍼(24)에 기입한다.
단지, 처리 단위 기간내에 유음 부분과 무음 부분이, 정확히 30m초분(1440 샘플)씩 존재할 때에는 단계(33)와 마찬가지로, 그 처리 단위 기간내의 무음 부분을 모두 삭제하고, 무음 부분 전후의 유음 부분을 접합하여, 그 처리 단위 기간내의 유음 부분의 데이터만을 모두, 출력 버퍼(24)에 기입한다.
한편, 처리 단위 기간내에 무음 부분이 30m초분(1440 샘플) 미만밖에 존재하지 않을 때에는 즉 유음 부분이 30m초분(1440 샘플)을 초과하여 존재할 때에는 단계(31)로부터 단계(35)로 진행하여, 출력 버퍼(24)에, 그 처리 단위 기간내의 30m초분(1440 샘플)을 초과하는 유음 부분의 데이터를 모두 축적할 정도의 공간이 있는지의 여부를 판단한다.
그리고, 출력 버퍼(24)에, 그 처리 단위 기간내의 30m초분(1440 샘플)을 초과하는 유음 부분의 데이터를 모두 축적할 정도의 공간이 있을 때에는 단계(35)로부터 단계(33)로 진행하여, 그 처리 단위 기간내의 무음 부분을 모두 삭제하고, 무음 부분 전후의 유음 부분을 접합하여, 그 처리 단위 기간내의 유음 부분의 데이터 만을 모두, 출력 버퍼(24)에 기입한다.
단지, 그 처리 단위 기간내의 60m초분(2880 샘플)의 데이터가 모두 유음 부분일때에는 그 60m초분(2880 샘플)의 유음 부분의 데이터를 그대로, 출력 버퍼(24)에 기입한다.
또한, 출력 버퍼(24)에, 그 처리 단위 기간내의 30m초분(1440 샘플)을 초과하는 유음 부분의 데이터를 모두 축적할 정도의 공간이 없을 때에는 단계(35)로부터 단계(36)로 진행하여, 유음 부분이 30m초분(1440 샘플)이 되도록 데이터를 압축하고, 그 압축 후의 데이터를, 출력 버퍼(24)에 기입한다. 후술과 같이, 이 경우는 빨리 듣게 된다.
이 압축 처리에 대해서 예시하면, 예를 들면, 도 17의 상단에 도시된 바와 같이, 그 처리 단위 기간내의 60m초분(2880 샘플)의 데이터가 모두 유음 부분일때에는 동도의 하단에 도시된 바와 같이, 중간 부분의 1040 샘플의 데이터를 삭제 하고, 기간의 선두로부터 920 샘플의 전방부 데이터(Sf) 중의 후방의 400 샘플의 데이터와, 기간의 말미로부터 920 샘플의 후방부 데이터(Sb) 중의 전방의 400 샘플의 데이터를, 페이드 기간으로 하여, 전방부 데이터(Sf)와 후방부 데이터(Sb)를 크로스-페이드에 의해 접합한다. 이와 같이 크로스-페이드에 의해 접합하는 것은 접합된 부분에서 압축 후의 데이터에 노이즈가 발생하는 것을 방지하기 위해서이다.
처리 단위 기간내에 무음 부분이 존재했을 때에는 그 무음 부분을 포함한 1040 샘플의 데이터를 삭제하여, 각각 920 샘플의 유음 부분을 동일한 크로스 페이드에 의해 접합한다. 무음 부분이 1440 샘플 미만이지만, 1040 샘플을 초과했을 때에는 400 샘플의 페이드 기간이 얻어지고, 접합 후의 데이터로서 1440 샘플의 데이터가 얻어지도록, 유음 부분의 일부로서 무음 부분의 일부를 포함시킨다.
도 13의 처리 단위 기간(T1)은 입력 데이터(Si) 중에 파선으로 둘러싼 유음 부분과 파선으로 둘러싸지 않은 무음 부분이, 정확히 30m초분(1440 샘플)씩 존재함 과 동시에, 재생 개시 직후이기 때문에, 출력 버퍼(24)에는 데이터가 전혀 축적되어 있지 않은 경우이다.
따라서, 처리 단위 기간(T1)에 대해서는 단계(31, 32 및 34)에 의해서, 도 13의 출력 데이터(So) 중의 부분(E1)으로 나타낸 바와 같이, 정확히 30m초분(1440 샘플)의 무음 부분이 모두 삭제되고, 무음 부분 전후의 유음 부분이 접합되어, 정확히 30m초분(1440 샘플)의 유음 부분의 데이터만이 모두, 출력 버퍼(24)에 기입된다.
단지, 도 13은 입력 데이터(Si)와 출력 데이터(So)의 타이밍 관계를 도시한 것이 아니라, 타이밍적으로는 출력 데이터(So)는 입력 데이터(Si)에 대하여 동도의 위치보다 지연된다.
출력 버퍼(24)에 기입된 처리 단위 기간(T1)내의 30m초분(1440 샘플)의 유음 부분의 데이터는 30m초의 시간에 걸쳐서, 출력 버퍼(24)로부터 판독되고, D/A 컨버터(25)에 의해 아날로그 음성 신호로 변환된다.
도 13의 처리 단위 기간(T2)은 60m초분(2880 샘플)의 데이터가 모두 유음 부분임과 동시에, 출력 버퍼(24)에, 이 60m초분(2880 샘플)의 유음 부분의 데이터를 모두 축적할 정도의 공간이 있는 경우이다.
따라서, 처리 단위 기간(T2)에 대해서는 단계(31, 35 및 33)에 의해서, 도 13의 출력 데이터(So) 중의 부분(E2)으로 나타낸 바와 같이, 그 60m초분(2880 샘플)의 유음 부분의 데이터가 그대로, 출력 버퍼(24)에 기입된다.
이 출력 버퍼(24)에 기입된 처리 단위 기간(T2)의 60m초분(2880 샘플)의 유음 부분의 데이터 중의, 전반 30m초분(1440 샘플)의 데이터가, 기간(T1)내의 유음 부분의 데이터가 판독되는 30m초의 시간에 이어서 30m초의 시간에 걸쳐서, 출력 버퍼(24)로부터 판독되고, D/A 컨버터(25)에 의해서 아날로그 음성 신호로 변환된다.
도 13의 처리 단위 기간(T3)은 입력 데이터(Si) 중에 파선으로 둘러싼 유음 부분이 30m초분(1440 샘플) 미만 밖에 존재하지 않고, 파선으로 둘러싸지 않은 무음 부분이 30m초분(1440 샘플)을 초과하여 존재함과 동시에, 출력 버퍼(24)에 30m초분(1440 샘플) 이상의 데이터가 축적되어 있는 경우이다.
따라서, 처리 단위 기간(T3)에 대해서는 단계(31 , 32 및 33)에 의해서, 도 13의 출력 데이터(So) 중의 부분(E3)으로 나타낸 바와 같이, 그 30m초분(1440 샘플)을 초과하는 무음 부분이 모두 삭제되고, 무음 부분 전후의 유음 부분이 접합되어, 30m초분(1440 샘플) 미만의 유음 부분의 데이터만이 모두, 출력 버퍼(24)에 기입된다.
그리고, 처리 단위 기간(T2)의 60m초분(2880 샘플)의 유음 부분의 데이터 중의, 출력 버퍼(24)에 축적되어 있던 후반 30m초분(1440 샘플)의 데이터가, 전반의 데이터가 판독되는 30m초의 시간에 이어서 30m초의 시간에 걸쳐서, 출력 버퍼(24)로부터 판독되고, D/A 컨버터(25)에 의해서 아날로그 음성 신호로 변환된다.
도 13의 처리 단위 기간(T4)은 60m초분(2880 샘플)의 데이터가 모두 유음 부분임과 동시에, 출력 버퍼(24)에, 이 60m초분(2880 샘플)의 유음 부분의 데이터를 모두 축적할 정도의 공간이 있는 경우이다.
따라서, 처리 단위 기간(T4)에 대해서는 단계(31, 35 및 33)에 의해서, 도 13의 출력 데이터(So) 중의 부분(E4)으로 나타낸 바와 같이, 그 60m초분(2880 샘플)의 유음 부분의 데이터가 그대로, 출력 버퍼(24)에 기입된다.
그리고, 출력 버퍼(24)에 축적되어 있던 처리 단위 기간(T3)의 30m초분(1440 샘플) 미만의 유음 부분의 데이터와, 출력 버퍼(24)에 기입된 처리 단위 기간(T4)의 60m초분(2880 샘플)의 유음 부분의 데이터 중의 전반 일부의 데이터를 합친, 30m초분(1440 샘플)의 데이터가, 30m초의 시간에 걸쳐서, 출력 버퍼(24)로부터 판독되고, D/A 컨버터(25)에 의해서 아날로그 음성 신호로 변환된다.
도 13의 처리 단위 기간(T5)은 60m초분(2880 샘플)의 데이터가 모두 유음 부분임과 동시에, 출력 버퍼(24)에, 이 60m초분(2880 샘플)의 유음 부분의 데이터를 모두 축적할 정도의 공간이 없는 경우이다.
따라서, 처리 단위 기간(T5)에 대해서는 단계(31, 35 및 36)에 의해서, 도 13의 출력 데이터(So) 중의 부분(E5)으로 나타내고, 또한 도 17에 도시된 바와 같이, 60m초분(2880 샘플)의 유음 부분의 데이터가, 30m초분(1440 샘플)으로 압축되어, 출력 버퍼(24)에 기입된다.
그리고, 처리 단위 기간(T4)의 60m초분(2880 샘플)의 유음 부분의 데이터 중전반의 나머지 부분의 데이터와, 후반의 일부의 데이터를 합친, 30m초분(1440 샘 플)의 데이터가, 30m초의 시간에 걸쳐서, 출력 버퍼(24)로부터 판독되고, D/A 컨버터(25)에 의해서 아날로그 음성 신호로 변환된다.
또한, 처리 단위 기간(T4)의 60m초분(2880 샘플)의 유음 부분의 데이터 중의 후반의 나머지 부분의 데이터와, 처리 단위 기간(T5)의 30m초분(1440 샘플)에 압축된 유음 부분의 데이터 중의 일부의 데이터를 합친, 30m초분(1440 샘플)의 데이터가, 30m초의 시간에 걸쳐서, 출력 버퍼(24)로부터 판독되고, D/A 컨버터(25)에 의해서 아날로그 음성 신호로 변환된다.
이상과 같이, 도 13의 예에서는 처리 단위 기간(T1 내지 T4)에 대해서는 입력 데이터(Si) 중의 무음 부분만이 모두 삭제되고, 유음 부분의 데이터만이 모두 출력 버퍼(24)에 기입됨과 동시에, 출력 버퍼(24)로부터는 유음 부분의 데이터만이 모두, 60m초에서 2880 샘플의 속도로 판독되기 때문에, 출력 배율은 1 배가 되고, 유음 부분만이 모두 정상 속도로 출력된다.
처리 단위 기간(T5)에 대해서는 60m초분(2880 샘플)의 유음 부분의 데이터가, 30m초분(1440 샘플)으로 압축되어, 출력 버퍼(24)에 기입되고, 30m초의 시간으로 출력 버퍼(24)로부터 판독되기 때문에, 예외적으로 유음 부분이 삭감되어, 빨리 듣게 된다.
또, 도 16의 단계(34)에서, 유음 부분의 모두에 무음 부분을 일부 부가하여, 30m초분(1440 샘플)의 데이터를 출력 버퍼(24)에 기입한 경우에 대해서는 도 13에는 도시하지 않았지만, 예를 들면, 처리 단위 기간(T2)이 도 13과는 달리, 유음 부분이 30m초분(1440 샘플) 미만 밖에 존재하지 않고, 무음 부분이 30m초분(1440 샘 플)을 초과하여 존재하는 경우에는 도 13의 처리 단위 기간(T2)에서는 출력 버퍼(24)에 30m초분(1440 샘플) 이상의 데이터가 축적되어 있지 않기 때문에, 그 30m초분(1440 샘플) 미만의 유음 부분의 모두에, 기간(T2)의 선두에 가까운 부분으로부터, 30m초분(1440 샘플)을 초과하는 무음 부분의 일부가 부가되어, 기간(T2)내의 30m초분(1440 샘플)의 데이터가, 출력 버퍼(24)에 기입된다.
이상과 같이, 상술한 예에 의하면, 출력 버퍼(24)를 효과적으로 사용함으로써, 필요 최소한의 메모리를 사용하는 것만으로, 유음 부분의 삭제에 의해서 음성이 도중에 끊기는 일이 적어지고, 내용을 쉽게 이해하게 된다.
[속도 변환 처리시의 음질 향상… 도 18 내지 도 21]
(데이터 압축시의 위치 조정… 도 18, 도 19)
도 16의 단계(36)에서, 도 13의 부분(E5) 및 도 17의 하단에 도시된 바와 같이 크로스-페이드에 의해서 전방부 데이터(Sf)와 후방부 데이터(Sb)를 접합하는 경우, 도 18a에 도시된 바와 같이, 페이드 기간에 있어서 전방부 데이터(Sf)와 후방부 데이터(Sb)의 위상이 일치하고 있을 때에는 접합 후의 데이터는 접합부분에서 잡음이 생기지 않는다.
그러나, 도 18b에 도시된 바와 같이, 페이드 기간에 있어서 전방부 데이터(Sf)와 후방부 데이터(Sb)의 위상이 크게 어긋나 있을 때에는 접합 후의 데이터는 접합부분에서 잡음이 생겨, 음질이 열화한다.
그래서, 크로스-페이드에 의해서 전방부 데이터(Sf)와 후방부 데이터(Sb)를 접합함에 있어서는 아래와 같이 전방부 데이터(Sf)와 후방부 데이터(Sb)의 위치 관 계를 조정한다.
즉, 도 19에 도시된 바와 같이, 후방부 데이터(Sb)를, 전방부 데이터(Sf)에 대하여, 소정 샘플수의 시간내에서, 1 샘플 또는 수 샘플의 시간씩, 타이밍적으로 이동시켜, 각각의 이동 위치에 있어서, 상술한 400 샘플분의 페이드 기간내의 전방부 데이터(Sf)의 데이터값과 후방부 데이터(Sb)의 데이터치와의 차분의 절대치의, 접합 후의 데이터로서 나타내는 파형이 빈틈없이 칠한 부분의 면적으로 나타내는 페이드 기간 전체에 걸쳐 적분치(합)를 산출한다.
그리고, 이 적분치가 최소가 되는 이동 위치를, 전방부 데이터(Sf)와 후방부 데이터(Sb)가 적합한 위상 관계가 되는 위치로서 검출하고, 그 이동 위치에 있어서, 상술한 바와 같이 크로스-페이드에 의해서 전방부 데이터(Sf)와 후방부 데이터(Sb)를 접합한다.
전방부 데이터(Sf) 및 후방부 데이터(Sb)의 페이드 기간에 있어서의 데이터를, 각각 F[n] 및 B[n]으로 하고, 페이드 기간의 샘플수를 j로 하면, 접합 후의 데이터의 접합 부분(페이드 기간)에 있어서의 데이터 X[n]는
X[n]=((j-n)* F[n]+ n* B[n])/j…(1)이다.
단지, n=0, 1, 2…(j-1)이다.
이 예에 의하면, 접합 후의 데이터는 접합부분에서 소음이나 위화감이 적은 것으로 된다.
(무음 부분 삭제시의 노이즈 발생 방지… 도 20, 도 21)
도 16의 단계(34)에서, 도 13의 부분(E1)으로 나타낸 바와 같이, 또는 도 16 의 단계(33)에서, 도 13의 부분(E3)으로 나타낸 바와 같이, 입력 데이터(Si) 중의 무음 부분을 삭제하고, 전후의 유음 부분을 접합하는 경우, 무음 부분으로서 도 20의 상단에 도시된 데이터 부분(Sp)을 삭제하였을 때에는 부분(Sp)은 무음 부분으로 레벨이 낮지만, 도 20의 하단 좌측에 도시된 바와 같이, 접합 후의 출력 데이터(So)는 접합점의 전후에서 위상이 크게 변화하기 때문에, 접합점에서 발연음(勃然音)이라고 하는 노이즈가 발생한다. 또한, 무음 부분으로서 도 20의 상단에 도시된 데이터 부분(Sq)을 삭제하였을 때에는 도 20의 하단 우측에 도시된 바와 같이, 동일하게 접합 후의 출력 데이터(So)에는 접합점에서 발연음이라고 하는 노이즈가 발생한다.
그래서, 삭제한 무음 부분 전후의 유음 부분을 접합함에 있어서는 접합점의 전후의 각각 소정 샘플수(k)의 유음 부분에 대하여, 페이드 아웃 처리 및 페이드 인 처리를 행한다.
구체적으로, 도 20 하단의 좌측 및 우측에 도시된 바와 같이, 페이드 아웃 처리전의 접합부 전반의 데이터를 C1[i], 페이드 인 처리 앞의 접합부 후반의 데이터를 D1[i]로 하고, 도 21의 좌측 및 우측에 도시된 바와 같이, 페이드 아웃 처리후의 접합부 전반의 데이터를 C2[i], 페이드 인 처리후의 접합부 후반의 데이터를 D2[i]로 하면,
C2[i]=(k-i)* C1[i]/k…(2)
D2[i]= i* D1[i]/k…(3)
으로 한다. 단지, i=0, 1, 2…(k-1)이다.
이와 같이 페이드 아웃 처리 및 페이드 인 처리를 하여, 전후의 유음 부분을 접합함으로써, 도 21에 도시된 바와 같이, 접합 후의 출력 데이터(So)는 접합점에서 발연음이라고 하는 노이즈가 발생하지 않게 된다.
[속도 변환 처리의 처리 단위 시간을 변화시키는 경우 … 도 22 내지 도 26]
(음정에 따라서 처리 단위 시간을 변화시키는 경우 … 도 22, 도 23)
도 22는 도 1의 음성 처리부(15)의 다른 예를 예시하고, 음성 신호의 주성분의 음정에 따라서 속도 변환 처리의 처리 단위 시간을 변화시키는 경우이다. 음정에 대하여 처리 단위 시간을 직선적으로 변화시키는 것도 가능하지만, 이하의 예는 음정을 3단계로 나누어 처리 단위 시간을 3 단계로 변화시키는 경우이다.
이 예에서는 음정 검출부(27)에 있어서, 진폭 억압 처리부(70)의 출력 음성 신호의 주성분(레벨이 최대의 주파수 성분)의 음정이 검출된다. 음정 검출부(27)에서의 음정 검출 방법에는 FFT(고속 푸리에 변환) 등의 공지 방법을 사용할 수 있다.
그리고, 이 예에서는 처리 단위 기간 설정부(21)는 음정 검출부(27)의 검출 결과에 근거하여, 도 23에 도시된 음정 대응 처리 단위 기간 설정 처리 루틴에 의해서, 처리 단위 시간을 결정하고, 처리 단위 기간의 선두 내지 말미의 타이밍을 결정한다.
즉, 이 음정 대응 처리 단위 기간 설정 처리 루틴(40)에서는 우선 단계(41)에 있어서, 음정 검출부(27)의 검출 결과의 음정이 300Hz 이상인지의 여부를 판단하고, 300Hz 이상일 때에는 단계(41)로부터 단계(42)로 진행하여, 처리 단위 시간 을 최단의 40m초 상당(1920 샘플분으로, 2 배속 재생인 경우에는 절대 시간으로서는 20m초)으로 하여, 해당 처리 단위 기간의 선두(직전의 처리 단위 기간의 말미)로부터 40m초 상당 후를 해당 처리 단위 기간의 말미(직후의 처리 단위 기간의 선두)로 한다.
검출 결과의 음정이 300Hz 미만일때에는 단계(41)로부터 단계(43)로 진행하여, 검출 결과의 음정이 100Hz이하인지의 여부를 판단하고, 100Hz 이하일 때에는 단계(43)로부터 단계(44)로 진행하여, 처리 단위 시간을 최장의 60m초 상당(2880 샘플분으로, 2 배속 재생인 경우에는 절대 시간으로서는 30m초)으로 하여, 해당 처리 단위 기간의 선두로부터 60m초 상당 후를 해당 처리 단위 기간의 말미로 한다.
검출 결과의 음정이 100Hz 이하도 아닐 때에는, 즉 100Hz를 초과하고, 또한 300Hz 미만일때에는 단계(43)로부터 단계(45)로 진행하여, 처리 단위 시간을 중간의 50m초 상당(2400 샘플분으로, 2 배속 재생인 경우에는 절대 시간으로서는 25m초)로 하여, 해당 처리 단위 기간의 선두로부터 50m초 상당 후를 해당 처리 단위 기간의 말미로 한다.
도 22의 속도 변환 처리부(23)가 행하는 속도 변환 처리는 도 13의 처리 단위 기간(T1, T2, T3…)이, 60m초 상당이라고 하는 고정된 시간이 아니라, 40m초 상당, 50m초 상당 또는 60m초 상당과 같이 변화하여, 도 16의 속도 변환 처리 루틴(30)에 있어서의 배율 상당분이, 처리 단위 시간의 변화에 따라서, 2 배속 재생인 경우에는 20m초분(960 샘플), 25m초분(1200 샘플) 또는 30m초분(1440 샘플)과 같이 변화하는 점을 제외하고, 상술한 예와 동일하다.
이 예에 의하면, 음성 신호의 주성분의 음정이 높을 때에는 속도 변환 처리의 처리 단위 시간이 짧게 되고, 주성분의 음정이 낮을 때에는 속도 변환 처리의 처리 단위 시간이 길게 되기 때문에, 음성 신호의 주파수에 의한 비틀림이나 요동이 적은 출력 음성 신호를 얻을 수 있다.
(저 레벨의 점을 처리 단위 기간의 구분 점으로 하는 경우 … 도 24 내지 도 26)
도 24는 도 1의 음성 처리부(15)의 또 다른 예를 도시하고, 무음 부분과 유음 부분의 경계선, 또는 유음 부분 중의 상대적으로 레벨이 낮은 부분을, 속도 변환 처리의 처리 단위 기간의 구분 점으로 하는 경우이다.
이 예에서는 처리 단위 기간 설정부(21)는 진폭 억압 처리부(70)의 출력의 음성 신호 및 유음 무음 판정부(22)의 판정 결과를 받아들여, 도 25에 도시된 음성 레벨 대응 처리 단위 기간 설정 처리 루틴에 의해서, 처리 단위 기간의 선두 내지 말미의 타이밍을 결정한다.
즉, 이 음성 레벨 대응 처리 단위 기간 설정 처리 루틴(50)에서는 우선 단계(51)에 있어서, 유음 무음 판정부(22)의 판정 결과로부터, 해당 처리 단위 기간의 선두로부터 30m초 상당 이상, 100m초 상당 이하의 시간 범위내에, 무음 부분과 유음 부분의 전환 시점(무음 부분으로부터 유음 부분으로 바뀌는 시점, 또는 유음 부분으로부터 무음 부분으로 바뀌는 시점)이 존재하는지의 여부를 판단한다.
그리고, 그 시간 범위내에 무음 부분과 유음 부분의 전환 시점이 존재할 때에는 단계(51)로부터 단계(52)로 진행하여, 그 무음 부분과 유음 부분의 전환 시점 을 해당 처리 단위 기간의 말미로 한다. 그 시간 범위내에 무음 부분과 유음 부분의 전환 시점이 2점 이상 존재할 때에는 최초의 시점을 해당 처리 단위 기간의 말미로 한다.
한편, 그 시간 범위내에 무음 부분과 유음 부분의 전환 시점이 존재하지 않을 때에는 단계(51)로부터 단계(53)로 진행하여, 그 시간 범위내에서 음성 평균 레벨이 최소가 되는 시점을 해당 처리 단위 기간의 말미로 한다. 음성 평균 레벨은 도 14에 도시된 바와 같은 판정 단위 기간내의 각 샘플의 데이터치의 절대치의 평균치이고, 그 평균치가 최소가 되는 판정 단위 기간의 선두 또는 말미를 해당 처리 단위 기간의 말미로 한다.
따라서, 이 예에서는 처리 단위 시간은 최단으로 30m초 상당, 최장으로 100m 초 상당하다.
도 26에 「고정 길이인 경우」로서 도시된 경우는 도 2의 예와 같은 구성으로, 처리 단위 기간(T1, T2, T3…)이 60m초 상당이라고 하는 고정 시간이 되는 경우 이고, 도 26에 「가변 길이의 경우」로서 도시된 경우는 이 도 24의 예와 같은 구성으로, 처리 단위 기간(T11, T12, T13…)의 선두 내지 말미의 타이밍이 결정되고, 시간이 바뀌어지는 경우이다. 단지, 도 26에 도시된 시간은 절대 시간이 아니라, 상술한 바와 같이 2880 샘플 분을 60m초 상당으로 하였을 때의 시간이다.
즉, 이 예에서는 시간축상에서 0m초로 하여 나타내는 최초의 처리 단위 기간(T11)의 선두의 시점에서 30m초 상당 이상, 100m초 상당 이하의 시간 범위내에, 입력 데이터(Si)가 유음 부분으로부터 무음 부분으로 바뀌는 시점(ta)이 존재 하기 때문에, 그 시점(ta)이, 처리 단위 기간(T11)의 말미, 즉 다음 처리 단위 기간(T12)의 선두가 된다.
또한, 처리 단위 기간(T12)의 선두의 시점(ta)에서 30m초 상당 이상, 100m초상당 이하의 시간 범위 내에, 입력 데이터(Si)가 무음 부분으로부터 유음 부분으로 바뀌는 시점(tb)이 존재하기 때문에, 그 시점(tb)이, 처리 단위 기간(T12)의 말미, 즉 다음 처리 단위 기간(T13)의 선두가 된다.
또한, 처리 단위 기간(T13)의 선두의 시점(tb)에서 30m초 상당 이상, 100m초 상당 이하의 시간 범위내에는 무음 부분과 유음 부분의 전환 시점이 존재하지 않기때문에, 그 시간 범위내에서 입력 데이터(Si)의 음성 평균 레벨이 최소가 되는 시점(tc)이, 처리 단위 기간(T13)의 말미, 즉 다음 처리 단위 기간(T14)의 선두가 된다.
이 예에 의하면, 무음 부분과 유음 부분의 경계 또는 유음 부분 중의 상대적으로 레벨이 낮은 부분이, 속도 변환 처리의 처리 단위 기간의 구분 점으로 되기 때문에, 음성 신호의 잘라 붙임에 의한 음질의 열화를 대폭 저감할 수 있다.
[다 채널 재생의 경우 … 도 27, 도 28]
상술한 예는 도 1의 기록 매체(1)로부터 1 채널의 음성 신호를 재생하는 경우로서 도시하였다. 그러나, 기록 매체(1)에는 다 채널의 음성 신호를 기록할 수 있고, 그의 다 채널의 음성 신호로부터 유저가 희망하는 채널의 음성 신호를 선택하여, 또는 다 채널의 음성 신호를 동시에, 재생하는 것이 가능하다. 이하에, 그 경우의 예를 예시한다.
(제 1 예… 도 27)
도 27에, 스테레오 음성 신호, 또는 2개국어 등의 2원 음성(주음성 및 부음성) 중의 한쪽 또는 양쪽의 음성 신호를, 선택적으로 재생하는 경우의 예를 예시한다.
이 예에서는 시스템 컨트롤러(6)로부터 유저에 의해서 선택된 음성 모드를 나타내는 음성 모드 식별 신호가 얻어지어, 유음 무음 판정부(22) 및 속도 변환 처리부(23)에 공급되고, 유저에 의해 선택된 음성 모드에 따라서, 유음 무음 판정부(22)에서의 유음 무음 판정 및 속도 변환 처리부(23)에서의 속도 변환 처리가, 이하와 같이 전환되어 제어된다.
즉, 스테레오 음성 신호를 재생하는 경우에는 MPEG 음성 디코더(14)로부터는 좌우 채널의 음성 데이터가 교대로 얻어지고, 유음 무음 판정부(22)는 도 14에 도시된 바와 같은 판정 단위 기간의 각각에 대해, 좌측 채널의 데이터와 우측 채널의 데이터의 평균치를 산출하여, 그 평균치가 임계값을 초과하는지의 여부를 판단하고, 평균치가 임계값을 초과했을 때에는 그 판정 단위 축간을 유음 부분으로 판정하고, 평균치가 임계값 이하일 때에는 그 판정 단위 기간을 무음 부분으로 판정한다.
속도 변환 처리부(23)는 MPEG 음성 디코더(14)로부터의 좌우 채널의 음성 데이터를, 처리 단위 기간 설정부(21)에 의해서 설정된 처리 단위 기간마다 일단, 좌측 채널의 데이터와 우측 채널의 데이터로 분리하여, 내부 버퍼(29)의 좌측 채널용 및 우측 채널용으로서 설정한 별개의 에어리어에 기입한다.
또한, 속도 변환 처리부(23)는 그 별개의 에어리어에 기입된 좌우 채널의 음성 데이터를, 상기의 유음 무음 판정부(22)의 판정 결과에 근거하여, 각각 도 16에 도시된 속도 변환 처리 루틴(30)에 의해 독립적으로 속도 변환 처리하고, 처리후의 좌우 채널의 음성 데이터를, 좌측 채널의 데이터와 우측 채널의 데이터가 교대로 배열되도록 출력 버퍼(24)에 기입한다.
출력 버퍼(24)로부터는 속도 변환 처리후의 좌우 채널의 음성 데이터를, 교대로 판독하여, D/A 컨버터(25)에 의해서 아날로그 음성 신호로 변환하고, D/A 컨버터(25)로부터의 좌우 채널의 아날로그 음성 신호를, 음성 증폭기(26a 및 26b)로 나누어 출력한다.
한편, 주음성과 부음성 중 어느 한쪽의 음성 신호를 재생하는 경우에는 유음 무음 판정부(22)는 도 14에 도시된 바와 같은 판정 단위 기간의 각각에 대해, 선택된 쪽의 음성인, 즉 주음성이 선택되었을 때에는 주음성의, 부음성이 선택되었을 때에는 부음성의, 음성 데이터의 절대치의 평균치를 산출하여, 그 평균치가 임계값을 초과하는지의 여부에 따라서, 유음 부분과 무음 부분을 식별 판정한다.
속도 변환 처리부(23)는 선택된 쪽의 음성에 대해서만, 즉 주음성이 선택되었을 때에는 주음성에 대해서만, 부음성이 선택되었을 때에는 부음성에 대해서만, MPEG 음성 디코더(14)의 출력 음성 데이터를, 상기의 유음 무음 판정부(22)의 판정 결과에 근거하여, 도 16에 도시된 속도 변환 처리 루틴(30)에 의해서 속도 변환 처리하고, 처리후의 음성 데이터를 출력 버퍼(24)에 기입한다.
그리고, 출력 버퍼(24)로부터 속도 변환 처리후의 음성 데이터를 판독하고, D/A 컨버터(25)에 의해 아날로그 음성 신호로 변환하여, 음성 증폭기(26a 및 26b)에 동시에 출력한다.
주음성과 부음성의 음성 신호를 동시에 재생하는 경우에는 스테레오 음성 신호를 재생하는 경우와 마찬가지로, 유음 무음 판정부(22)는 주음성과 부음성의 음성 데이터의 평균치를 산출하여, 그 평균치가 임계값을 초과하는지의 여부에 따라, 유음 부분과 무음 부분을 식별 판정하고, 속도 변환 처리부(23)는 주음성과 부음성의 음성 데이터를 독립적으로 속도 변환 처리함으로써, 음성 증폭기(26a 및 26b)에서, 각각 주음성 및 부음성의 아날로그 음성 신호를 출력한다.
단지, 주음성과 부음성의 음성 신호를 동시에 재생하는 경우, 유음 무음 판정부(22)에서, 주음성과 부음성의 음성 데이터에 대하여 독립적으로, 유음 부분과 무음 부분의 식별 판정을 행하여도 된다.
도 27의 예에서는 진폭 억압 처리부를 생략하였지만, 이 예에서도, 진폭 억압 처리부를 설치하여, MPEG 음성 디코더(14)의 출력의 음성 데이터에 대하여, 연속 음성 부분의 끝부분부의 진폭을 억압할 수 있다. 이 경우, 스테레오 음성 신호를 재생하는 경우, 또는 주음성과 부음성의 음성 신호를 동시에 재생하는 경우에는 속도 변환 처리와 마찬가지로, 좌우 채널의 음성 데이터, 또는 주음성과 부음성의 음성 데이터에 대하여, 독립적으로 진폭 억압 처리한다.
이상은 2 채널의 경우이지만, 3 채널 이상인 경우도 마찬가지이다.
(제 2 예… 도 28)
또한, 일반적으로 2 채널 이상의 다 채널인 경우, 도 28의 예와 같이 구성할 수도 있다. 동도면의 예는 도 1의 재생 장치에 있어서, 디멀티플렉서(7)로부터 다 채널의 음성 데이터를 분리하고, 각각 MPEG 음성 디코더(14a, 14b, 14c…)에서 신장 복호화하여, 음성 처리부(15a, 15b, 15c…)에 공급하는 것으로, 음성 처리부(15a, 15b, 15c…)는 각각 도 2, 도 22 또는 도 24 예의 음성 처리부(15)와 동일하게 구성한다.
이 예에서는 예를 들면, 채널(1)에 대해서는 그 음성 신호를 재생함과 동시에, 음성 처리부(15a)의 속도 변환 처리부(23a)에서 속도 변환 처리하고, 채널(2)에 대해서는 그 음성 신호를 재생하지만, 음성 처리부(15b)의 속도 변환 처리부(23b)에서 속도 변환 처리하지 않도록 채널(1, 2, 3…)의 각 채널의 음성 신호를, 선택적으로 또는 동시에 재생하고, 선택적으로 또는 동시에 속도 변환 처리할 수 있다.
[영상 신호 및 음성 신호를 정상 속도로 재생하는 경우 … 도 29]
도 1의 재생 장치에서, 기록 매체(1)로부터 영상 신호 및 음성 신호를 정상속도로 재생하는 경우, MPEG 음성 디코더(14)로부터는 음성 데이터가 1 배속으로 출력되고, 음성 처리부(15)의 도 2 또는 도 27 등에 도시된 처리 단위 기간 설정부(21), 유음 무음 판정부(22) 및 속도 변환 처리부(23)는 각각의 기능을 정지하여, 음성 처리부(15)가 진폭 억압 처리부(70)를 구비하는 경우에는 진폭 억압 처리부(70)의 출력 음성 데이터가 그대로, 음성 처리부(15)가 진폭 억압 처리부(70)를 구비하지 않은 경우에는 MPEG 음성 디코더(14)의 출력 음성 데이터가 그대로, 출력 버퍼(24)에 기입되고, 출력 버퍼(24)로부터 판독된다.
그러나, MPEG 영상 디코더(11)에서는 영상 데이터의 신장 복호화에 적어도 수 프레임의 시간을 요하기 때문에, NTSC 인코더(12)로부터의 영상 출력은 음성 처리부(15)로부터의 음성 출력에 대하여 시간 지연이 생겨, 영상 출력과 음성 출력의 동기가 얻어지지 않게 된다.
그래서, 이하의 예에서는 정상 재생시에는 출력 버퍼(24)를 이용하여, 이 영상 출력의 음성 출력에 대한 지연을 흡수하고, 영상 출력과 음성 출력을 동기시킨다.
도 29는 그러한 예를 도시하고, 속도 변환 처리부(23)는 시스템 컨트롤러(6)에 의해 지시된 재생 모드에 따라서, 출력 버퍼(24)에 제어 신호를 송출하여, 출력 버퍼(24)로부터 데이터를 판독하는 타이밍을 제어한다.
구체적으로는 도 15에 도시된 바와 같이 FIFO 구조의 링 버퍼로서 기능하는 출력 버퍼(24)의 출력 포인터를 제어한다. 즉, 출력 버퍼(24)의 출력 포인터와 입력 포인터 간에 축적되는 데이터량이, 영상 출력의 음성 출력에 대한 지연 시간에 상당하도록, 출력 포인터를 제어한다.
예를 들면, 이 예에 의하지 않은 때의 영상 출력의 음성 출력에 대한 지연 시간을 Dv(m 초), 음성 신호의 샘플링 주파수를 Fs(kHz), 음성 데이터를 데이터 폭이 Bh(비트)의 스테레오(2 채널) 음성 신호로 하면, 출력 포인터와 입력 포인터 간의 데이터 축적량 Ad(바이트)를,
Ad=(Dv×Fs×Bh×2)/8…(4)
로 한다.
이상과 같이, 이 예에 의하면, 영상 신호와 음성 신호를 정상 속도로 재생하는 경우에, 출력 버퍼(24)를 이용하여 영상 출력과 음성 출력을 동기시킬 수 있다.
[다른 실시형태]
도 1의 실시예는 기록 매체(1)가 디스크형상의 기록 매체인 경우이지만, 본 발명은 기록 매체(기억 매체)가 자기 테이프나 반도체 메모리 등인 경우에도, 마찬가지로 적용할 수 있다. 반도체 메모리인 경우에는 재생 헤드가 아니라 판독 회로에 의해서 메모리로부터, 이것에 기입된 음성 신호를 판독하는 것은 말할 필요도 없다. 이 경우에는 「기록」이란 기입이며, 「재생」이란 판독이다.
또한, 본 발명은 영상 신호 및 음성 신호를 정상 속도로 재생하는 경우에 대해서 도 29와 같은 예를 제외하여, 기록 매체로부터 음성 신호만을 재생하는 경우 또는 장치에도, 동일하게 적용할 수 있다.
상술한 바와 같이, 제 1 발명에 의하면, 재생 시간을 단축하기 위해서 정상속도보다 빠른 속도로 재생된 음성 신호를 통상적인 음정으로 출력하는 경우에, 출력 버퍼를 효과적으로 사용함으로써, 필요 최소한의 메모리를 사용하는 것으로, 유음 부분의 삭제에 의해 음성이 도중에 끊기는 일이 적어지게 되어, 내용을 쉽게 이해하게 된다. 제 2 발명에 의하면, 또한, 연속 음성 부분의 밀착에 의해서 다른 음으로 들리는 일이 적어지게 된다.

Claims (20)

  1. 기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 것에 의해서 얻어진 재생 입력 음성 신호를, 처리단위 기간마다 구분하고,
    출력 버퍼로부터 정상 속도 상당량의 재생 출력 음성 신호가 얻어지는 범위내에서 무음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 각각의 처리 단위 기간의 재생 입력 음성 신호를, 상기 출력 버퍼에 기록하는 동시에,
    처리 단위 기간의 재생 입력 음성 신호중에 상기 출력 버퍼에 축적되지 않는 양의 유음 부분이 존재하는 경우에는, 일부의 유음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 그 처리 단위 기간의 재생 입력 음성 신호를 압축하여, 상기 출력 버퍼에 기록하고,
    무음 부분을 삭제하고 그 전후의 유음 부분을 접합함에 있어서는, 접합점 직전의 유음 부분을 페이드 아웃 처리하고, 접합점 직후의 유음 부분을 페이드 인 처리하는, 음성 재생 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    처리 단위 기간의 재생 입력 음성 신호를 압축함에 있어서는, 페이드 기간에 전후의 유음 부분을 겹쳐 맞추는 동시에, 그 페이드 기간에 있어서의 전후의 유음 부분의 차분이 최소로 되도록 전후의 유음 부분의 위치 관계를 조정한 후에, 크로스 페이드에 의해서 전후의 유음 부분을 접합하는 것을 특징으로 하는 음성 재생 방법.
  4. 제 1 항에 있어서,
    처리 단위 기간을 고정된 시간으로 하는 것을 특징으로 하는, 음성 재생 방법.
  5. 제 1 항에 있어서,
    재생 입력 음성 신호의 주성분의 음정에 따라 처리 단위 기간의 시간을 변화시키는 것을 특징으로 하는 음성 재생 방법.
  6. 제 1 항에 있어서,
    재생 입력 음성 신호의 무음 부분과 유음 부분의 경계선, 또는 유음 부분중의 상대적으로 레벨이 낮은 부분을, 처리 단위 기간의 구분점으로 하는 것을 특징으로 하는, 음성 재생 방법.
  7. 제 1 항에 있어서,
    복수 채널의 음성출력을 얻는 경우에, 유음 부분과 무음 부분의 식별 판정은 각 채널의 재생 입력 음성 신호의 평균치에 의해서 행하고, 유음 부분의 접합은 각 채널의 재생 입력 음성 신호마다 독립적으로 행하는 것을 특징으로 하는, 음성 재생 방법.
  8. 제 1 항에 있어서,
    정상 재생시, 상기 출력 버퍼를 영상출력과 음성출력을 동기시키기 위한 시간 조정용으로 사용하는 것을 특징으로 하는, 음성 재생 방법.
  9. 기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 것에 의해서 얻어진 재생 입력 음성 신호에 대하여, 연속 음성 부분의 종단부의 진폭을 억압하고,
    그 진폭 억압 처리후의 재생 입력 음성 신호를, 처리 단위 기간마다 구분하고,
    출력 버퍼로부터 정상 속도 상당량의 재생 출력 음성 신호가 얻어지는 범위내에서 무음 부분을 삭제하고, 그 전후의 유음 부분을 접합하여, 각각의 처리 단위 기간의 재생 입력 음성 신호를, 상기 출력 버퍼에 기록하는 동시에,
    처리 단위 기간의 재생 입력 음성 신호중에 상기 출력 버퍼에 축적되지 않는 양의 유음 부분이 존재하는 경우에는, 일부의 유음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 그 처리 단위 기간의 재생 입력 음성 신호를 압축하여, 상기 출력 버퍼에 기록하는, 음성 재생 방법.
  10. 제 9 항에 있어서,
    연속 음성 부분의 종단부의 진폭을 억압하는 처리는, 연속 음성 부분의 종단을 예측하고, 그 예측한 점으로부터 진폭의 억압을 개시함과 동시에, 다음 연속 음성 부분의 시단(始端)이 검출되면, 진폭의 억압을 해제하는 것을 특징으로 하는 음성 재생 방법.
  11. 제 10 항에 있어서,
    재생 입력 음성 신호의 신호 레벨이 감소 경향에 있고, 또한 재생 입력 음성 신호의 신호 레벨이 임계치보다 작아졌을 때, 연속 음성 부분이 종단에 도달하는 과정에 들어간 것으로, 연속 음성 부분의 종단을 예측하는 것을 특징으로 하는 음성 재생 방법.
  12. 제 11 항에 있어서,
    재생 입력 음성 신호의 신호 레벨의 피크치를 검출하고, 그 검출된 피크치에 따라서 상기 임계치를 설정하는 것을 특징으로 하는, 음성 재생 방법.
  13. 제 9 항에 있어서,
    연속 음성 부분의 종단부의 진폭을 억압하는 처리는, 재생 입력 음성 신호를 지연시킴과 동시에, 지연전의 재생 입력 음성 신호로부터 연속 음성 부분의 종단을 검출하고, 그 검출결과에 기초하여 지연후의 재생 입력 음성 신호의 진폭을 억압하는 것을 특징으로 하는, 음성 재생 방법.
  14. 기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 것에 의해서 얻어진 재생 입력 음성 신호에 대한 속도 변환 처리의 처리 단위 기간을 설정하는 처리 단위 기간 설정부와,
    재생 출력 음성 신호를 얻기 위한 출력 버퍼와,
    이 출력 버퍼로부터 정상 속도 상당량의 재생 출력 음성 신호가 얻어지는 범위내에서 무음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 각각의 처리 단위 기간의 재생 입력 음성 신호를, 상기 출력 버퍼에 기록하는 동시에, 처리 단위기간의 재생 입력 음성 신호중에 상기 출력 버퍼에 축적되지 않는 양의 유음 부분이 존재하는 경우에는, 일부의 유음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 그 처리 단위 기간의 재생 입력 음성 신호를 압축하여, 상기 출력 버퍼에 기록하는 속도 변환 처리부를 구비하는, 음성 재생 장치.
  15. 제 14 항에 있어서,
    상기 속도 변환 처리부는 무음 부분을 삭제하고, 그 전후의 유음 부분을 접합함에 있어서는, 접합점 직전의 유음 부분을 페이드 아웃 처리하며, 접합점 직후의 유음 부분을 페이드 인 처리하는 것을 특징으로 하는 음성 재생 장치.
  16. 제 14 항에 있어서,
    상기 속도 변환 처리부는, 처리 단위 기간의 재생 입력 음성 신호를 압축함에 있어서, 페이드 기간에 있어서 전후의 유음 부분을 겹쳐 맞춤과 동시에, 그 페이드 기간에 있어서의 전후의 유음 부분의 차분이 최소로 되도록 전후의 유음 부분의 위치 관계를 조정한 후에, 크로스 페이드에 의해서 전후의 유음 부분을 접합하는 것을 특징으로 하는, 음성 재생 장치.
  17. 제 14 항에 있어서,
    상기 처리 단위 기간 설정부는, 처리 단위 기간을 고정된 시간으로 하는 것을 특징으로 하는, 음성 재생 장치.
  18. 제 14 항에 있어서,
    해당 음성 재생 장치는 또한, 재생 입력 음성 신호의 주성분의 음정을 검출하는 음정 검출부를 구비하고,
    상기 처리 단위 기간 설정부는, 이 음정 검출부의 검출 결과에 기초하여, 재생 입력 음성 신호의 주성분의 음정에 따라서 처리 단위 기간의 시간을 변화시키는 것을 특징으로 하는 음성 재생 장치.
  19. 제 14 항에 있어서,
    상기 처리 단위 기간 설정부는, 재생 입력 음성 신호의 무음 부분과 유음 부분의 경계선, 또는 유음 부분중의 상대적으로 레벨이 낮은 부분을, 처리 단위 기간의 구분점으로 하는 것을 특징으로 하는, 음성 재생 장치.
  20. 기록매체로부터, 이것에 기록된 음성신호를 정상속도보다 빠른 속도로 재생하는 것에 의해서 얻어진 재생 입력 음성 신호와 관련하여, 연속 음성 부분의 종단부의 진폭을 억압하는 진폭 억압 처리부와,
    그 진폭 억압 처리후의 재생 입력 음성 신호에 대한 속도 변환 처리의 처리 단위 기간을 설정하는 처리 단위 기간 설정부와,
    재생 출력 음성 신호를 얻기 위한 출력 버퍼와,
    이 출력 버퍼로부터 정상 속도 상당량의 재생 출력 음성 신호가 얻어지는 범위내에서 무음 부분을 삭제하고, 그 전후의 유음 부분을 접합하며, 각각의 처리 단위 기간의 재생 입력 음성 신호를, 상기 출력 버퍼에 기록하는 동시에, 처리 단위 기간의 재생 입력 음성 신호중에 상기 출력 버퍼에 축적되지 않는 양의 유음 부분이 존재하는 경우에는, 일부의 유음 부분을 삭제하고, 그 전후의 유음 부분을 접합하고, 그 처리 단위 기간의 재생 입력 음성 신호를 압축하여, 상기 출력 버퍼에 기록하는 속도 변환 처리부를 구비하는 음성 재생 장치.
KR1020000049195A 1999-08-24 2000-08-24 음성 재생 방법 및 음성 재생 장치 KR100739355B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP99-236412 1999-08-24
JP23641299 1999-08-24
JP2000-171556 2000-06-08
JP2000171556A JP4895418B2 (ja) 1999-08-24 2000-06-08 音声再生方法および音声再生装置

Publications (2)

Publication Number Publication Date
KR20010021402A KR20010021402A (ko) 2001-03-15
KR100739355B1 true KR100739355B1 (ko) 2007-07-18

Family

ID=26532667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000049195A KR100739355B1 (ko) 1999-08-24 2000-08-24 음성 재생 방법 및 음성 재생 장치

Country Status (3)

Country Link
US (1) US6925340B1 (ko)
JP (1) JP4895418B2 (ko)
KR (1) KR100739355B1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003006991A (ja) * 2001-06-21 2003-01-10 Sony Corp デジタル信号処理装置及びデジタル信号処理方法、並びにデジタル信号再生受信システム
KR100469568B1 (ko) * 2001-12-18 2005-02-02 한국전자통신연구원 버퍼 모니터링을 통한 오디오 잡음 감쇄 제어 장치 및 그방법
US7889969B2 (en) * 2002-03-01 2011-02-15 Thomson Licensing Audio frequency shifting during video trick modes
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
US7809241B2 (en) * 2002-03-01 2010-10-05 Thomson Licensing Audio frequency scaling during video trick modes utilizing digital signal processing
JP4030420B2 (ja) * 2002-12-17 2008-01-09 パイオニア株式会社 情報記録再生装置
KR20040087150A (ko) * 2003-04-04 2004-10-13 삼성전자주식회사 디지털 데이터 복제 장치 및 그 방법
KR100835637B1 (ko) * 2004-03-19 2008-06-05 주식회사 현대오토넷 음성 신호 처리 장치 및 그 동작방법
JP4207832B2 (ja) * 2004-04-16 2009-01-14 船井電機株式会社 デジタルデータ再生装置
EP2189978A1 (en) 2004-08-30 2010-05-26 QUALCOMM Incorporated Adaptive De-Jitter Buffer for voice over IP
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
JP2006145712A (ja) * 2004-11-18 2006-06-08 Pioneer Electronic Corp オーディオデータ補間装置
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US7668848B2 (en) * 2005-12-07 2010-02-23 Motorola, Inc. Method and system for selectively decoding audio files in an electronic device
KR101438387B1 (ko) * 2006-07-12 2014-09-05 삼성전자주식회사 서라운드 확장 데이터 부호화 및 복호화 방법 및 장치
JP4772627B2 (ja) * 2006-09-12 2011-09-14 株式会社東芝 混合信号分離・抽出装置
JP4985152B2 (ja) * 2007-07-02 2012-07-25 ソニー株式会社 情報処理装置、信号処理方法およびプログラム
US20100057475A1 (en) * 2008-08-26 2010-03-04 Nelson Sollenberger Method and system for digital gain control in an audio codec
JP2010283605A (ja) * 2009-06-04 2010-12-16 Canon Inc 映像処理装置及び方法
JP6079119B2 (ja) 2012-10-10 2017-02-15 ティアック株式会社 録音装置
JP6056356B2 (ja) * 2012-10-10 2017-01-11 ティアック株式会社 録音装置
JP6136218B2 (ja) * 2012-12-03 2017-05-31 富士通株式会社 音響処理装置、方法、及びプログラム
CN103294771A (zh) * 2013-05-09 2013-09-11 四三九九网络股份有限公司 swf文件中声音数据批量压缩的方法及装置
CN112213104B (zh) * 2020-10-22 2022-06-14 中车青岛四方机车车辆股份有限公司 轴承检测方法、装置和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5008835A (en) * 1987-12-28 1991-04-16 Jachmann Emil F Method and apparatus for storing and forwarding voice signals and generating replies
KR950004158A (ko) * 1993-07-28 1995-02-17 김광호 음성신호 기록/재생방법 및 그 장치
US5684262A (en) * 1994-07-28 1997-11-04 Sony Corporation Pitch-modified microphone and audio reproducing apparatus
KR100201309B1 (ko) * 1995-10-31 1999-06-15 윤종용 3배속이상 변속재생시 음성신호 처리방법
US6198586B1 (en) * 1997-03-21 2001-03-06 Mitsumi Electric Co., Ltd. Voice recording/playback apparatus for producing a noise level of a voice output unit in a voice recording mode

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2905215B2 (ja) * 1989-03-30 1999-06-14 シャープ株式会社 録音再生装置
JP2700937B2 (ja) * 1990-01-04 1998-01-21 シャープ株式会社 早聞き装置
US5157728A (en) * 1990-10-01 1992-10-20 Motorola, Inc. Automatic length-reducing audio delay line
JP3269095B2 (ja) * 1991-08-27 2002-03-25 日本電気株式会社 音程制御装置
JP3076859B2 (ja) * 1992-04-20 2000-08-14 三菱電機株式会社 ディジタルオーディオ信号の信号処理装置
JP3156020B2 (ja) * 1993-06-21 2001-04-16 松下電器産業株式会社 音声速度変換方法
JP3303446B2 (ja) * 1993-07-21 2002-07-22 ソニー株式会社 音声信号処理装置
JP3189587B2 (ja) * 1994-09-14 2001-07-16 松下電器産業株式会社 音声時間軸変換装置
JP3789503B2 (ja) * 1994-12-22 2006-06-28 ソニー株式会社 音声処理装置
JP3481005B2 (ja) * 1995-03-02 2003-12-22 三菱電機株式会社 ディジタルオーディオ信号の音程変換器
JPH08255000A (ja) * 1995-03-17 1996-10-01 Sanyo Electric Co Ltd 音声信号再生装置
JPH0983673A (ja) * 1995-09-19 1997-03-28 Hitachi Ltd 音声通信システム、音声通信方法および送受信装置
JPH10143193A (ja) * 1996-11-08 1998-05-29 Matsushita Electric Ind Co Ltd 音声信号処理装置
JPH10187199A (ja) * 1996-12-24 1998-07-14 Oki Electric Ind Co Ltd 半導体記憶媒体記録装置及び半導体記憶媒体再生装置
SG65729A1 (en) * 1997-01-31 1999-06-22 Yamaha Corp Tone generating device and method using a time stretch/compression control technique
JP3861362B2 (ja) * 1997-03-19 2006-12-20 ソニー株式会社 ディジタル信号再生方法及び装置
JP3986147B2 (ja) * 1998-02-04 2007-10-03 松下電器産業株式会社 音響信号処理装置及びオーディオ高速再生方法
US6310652B1 (en) * 1997-05-02 2001-10-30 Texas Instruments Incorporated Fine-grained synchronization of a decompressed audio stream by skipping or repeating a variable number of samples from a frame
TW385436B (en) * 1997-12-12 2000-03-21 Toshiba Corp Digital recording system using variable recording rate

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5008835A (en) * 1987-12-28 1991-04-16 Jachmann Emil F Method and apparatus for storing and forwarding voice signals and generating replies
KR950004158A (ko) * 1993-07-28 1995-02-17 김광호 음성신호 기록/재생방법 및 그 장치
KR0141237B1 (ko) * 1993-07-28 1998-07-15 김광호 음성신호 기록/재생방법 및 그 장치
US5684262A (en) * 1994-07-28 1997-11-04 Sony Corporation Pitch-modified microphone and audio reproducing apparatus
KR100201309B1 (ko) * 1995-10-31 1999-06-15 윤종용 3배속이상 변속재생시 음성신호 처리방법
US6198586B1 (en) * 1997-03-21 2001-03-06 Mitsumi Electric Co., Ltd. Voice recording/playback apparatus for producing a noise level of a voice output unit in a voice recording mode

Also Published As

Publication number Publication date
JP4895418B2 (ja) 2012-03-14
KR20010021402A (ko) 2001-03-15
JP2001134300A (ja) 2001-05-18
US6925340B1 (en) 2005-08-02

Similar Documents

Publication Publication Date Title
KR100739355B1 (ko) 음성 재생 방법 및 음성 재생 장치
CA2253749C (en) Method and device for instantly changing the speed of speech
JP3053541B2 (ja) デジタル記録音声及びビデオの同期式可変速度再生
JP4319548B2 (ja) ビデオ・トリック・モード再生中における音声番組の再生方法および装置
KR20000068955A (ko) 음성처리방법, 음성처리장치 및 기록재생장치
JP3630609B2 (ja) 音声情報再生方法ならびに装置
JPS5982608A (ja) 音声の再生速度制御方式
JP3378672B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP3081469B2 (ja) 話速変換装置
JP4212253B2 (ja) 話速変換装置
JP3373933B2 (ja) 話速変換装置
JP2010191415A (ja) 音声再生方法および音声再生装置
JP4542805B2 (ja) 変速再生方法及び装置、並びにプログラム
JP5325059B2 (ja) 映像音声同期再生装置、映像音声同期処理装置、映像音声同期再生プログラム
JPH11167396A (ja) 音声記録再生装置
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JPH0854895A (ja) 再生装置
JP4229041B2 (ja) 信号再生装置及び方法
JPH0883096A (ja) 音声時間軸変換装置
KR20070111695A (ko) 오디오 배속 조절 기반 비디오 동기화방법
WO2010100895A1 (ja) 音声再生装置及び映像音声再生装置
JPH05303400A (ja) 音声再生装置と音声再生方法
JPH0944199A (ja) 音声信号再生装置
JPH097294A (ja) ビデオテープレコーダ

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120702

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee