WO2006077626A1 - 話速変換方法及び話速変換装置 - Google Patents

話速変換方法及び話速変換装置 Download PDF

Info

Publication number
WO2006077626A1
WO2006077626A1 PCT/JP2005/000549 JP2005000549W WO2006077626A1 WO 2006077626 A1 WO2006077626 A1 WO 2006077626A1 JP 2005000549 W JP2005000549 W JP 2005000549W WO 2006077626 A1 WO2006077626 A1 WO 2006077626A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
section
protection
speech speed
voice signal
Prior art date
Application number
PCT/JP2005/000549
Other languages
English (en)
French (fr)
Inventor
Hitoshi Sasaki
Hiroshi Katayama
Rika Nishiike
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2005/000549 priority Critical patent/WO2006077626A1/ja
Priority to JP2006553780A priority patent/JP4630876B2/ja
Priority to EP05703786A priority patent/EP1840877A4/en
Publication of WO2006077626A1 publication Critical patent/WO2006077626A1/ja
Priority to US11/778,720 priority patent/US7912710B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform

Definitions

  • the present invention relates to a speech speed conversion method and a speech speed conversion apparatus, and more particularly to a speech speed conversion method and a speech speed conversion apparatus that convert a voice reproduction speed without changing the pitch of the sound.
  • FIG. 1 shows a block diagram of an example of a conventional speech speed conversion device.
  • a digital audio signal in units of frames is input to a terminal 10 in one frame 20 ms, and is supplied to a sound / silence determination unit 11 and a speech speed conversion unit 12.
  • the sound / silence determination unit 11 learns the noise level at the time of initial silence before the start of utterance, sets the learned silence level, for example, + 4dB as the sound threshold, and compares the input sound signal with the sound threshold. Then, the section where the audio signal is equal to or higher than the sound threshold is determined as the sound determination section, and the determination result is supplied to the speech speed determination unit 13.
  • the speech rate determination unit 13 is supplied with an accumulation amount (number of accumulated frames) from the input accumulation amount calculation unit 14, and is set with a speech head protection interval (a fixed number of frames).
  • the speech speed is determined according to the accumulated amount and the speech protection interval, and this speech speed is supplied to the speech speed converting unit 12 and the input accumulated amount calculating unit 14.
  • the speech speed conversion unit 12 writes the input speech signal into the buffer, reads the speech signal from the buffer according to the speech speed from the speech speed determination unit 13, and outputs it from the terminal 15. Based on the speech speed from the speech rate determination unit 13, the input accumulation amount calculation unit 14 calculates the accumulation amount stored in the buffer of the speech rate conversion unit 12 and supplies it to the speech rate determination unit 13.
  • the speech speed will be multiplied by 1.
  • the speech speed is doubled during the pause holding period, that is, within 10 frames after the end of talk protection.
  • the silence deletion section the audio signal is deleted and packed outside the above sections. However, if there is no processing delay time, the speech speed is set to 1 time.
  • Patent Document 1 the beginning portion of a speech section sandwiched between non-speech sections of a certain length of time becomes slower than a predetermined playback speed and gradually plays a predetermined playback toward the end. It is described that the speech speed is converted back to the speed.
  • Patent Document 1 Japanese Patent Laid-Open No. 2001-222300
  • the noise level may be a value close to or exceeding the power value at the beginning or end of the talk. In this case, the beginning or end of the talk will be buried in noise.
  • parts with low voice power such as the beginning, end, and unvoiced consonants, are more likely to be misjudged as silence despite being a voiced section.
  • Fig. 3 (A) shows the approximate time variation of the input audio signal power (volume) with a solid line. Steady power noise is superimposed on the audio signal, and the noise level +4 dB is set as the sound threshold. ing.
  • the determination results for each section are shown in the lower part of Fig. 3 (A). However, only the portion from the beginning of the speech protection section is described from the beginning of the speech protection section, and the portion from the ending of the ending protection section.
  • the first, second, fifth, and sixth voices from the left are judged to be voiced sections.
  • the third and fourth voices are considered to be silent sections because they are buried in noise.
  • Section (4) The third voice is silent, but it is output at 1x speed because it enters the ending protection and pause holding section. Subsequent silent sections are output at 1x speed in the pause holding section, and are deleted thereafter.
  • Section (5) The fourth speech is silence-protected and only part of the head is protected. Since there is sufficient speech speed conversion delay (input accumulation amount) at this point, only the protected section is output at 1x speed, and the rest are deleted, causing the head to break.
  • Section (6) Since the fifth sound is a sound determination, it is expanded twice.
  • a fixed-length speech protection section is conventionally set, and therefore it is necessary to insert (add) a delay corresponding to the speech protection.
  • sufficient protection can be set for stored sounds such as recorded messages on the telephone.
  • it is necessary to minimize the delay so it is not possible to set a sufficiently long talk head protection section, and there is a possibility that the talk head may be cut off. There was a problem.
  • the present invention has been made in view of the above points, and it is a general object of the present invention to provide a speech speed conversion method and a speech speed converter that can minimize the delay and reduce the occurrence of a head loss. Let's say.
  • the present invention stores an input audio signal in a buffer, and In speech periods where the power of the audio signal exceeds the threshold, the audio signal read from the buffer is either directly or expanded, and in the silent period, the audio signal read from the buffer is unchanged or compressed or deleted to convert the speech speed.
  • the speech protection interval set in advance between the speech zones is set as the accumulated amount of the buffer limited by a predetermined limit value, and the speech protection interval is within the speech protection interval. For example, compression or deletion of the audio signal is prohibited, or speech head protection is performed by adjusting the compression rate.
  • FIG. 1 is a block diagram of an example of a conventional speech speed conversion device.
  • FIG. 2 is a diagram showing a speech speed determination table of a speech speed determination unit of a conventional speech speed conversion device.
  • FIG. 3 is a diagram showing conventional input voice signal power and voice signal power after speech speed conversion.
  • FIG. 4 is a block diagram of the first embodiment of the speech speed converting apparatus of the present invention.
  • FIG. 5 is a diagram showing a speech speed determination table of a speech speed determination unit in the first embodiment.
  • FIG. 6 is a diagram showing the input voice signal power and the voice signal power after speech speed conversion according to the present invention.
  • FIG. 7 is a diagram showing a voice / silence determination table of a voice / silence determination unit in the second embodiment.
  • FIG. 8 is a diagram showing a speech speed determination table of a speech speed determination unit in the second embodiment.
  • FIG. 9 is a block diagram of a third embodiment of the speech speed converting apparatus of the present invention.
  • FIG. 10 is a diagram showing a speech speed determination table of a speech speed determination unit in the fourth embodiment. Explanation of symbols
  • FIG. 4 shows a block diagram of the first embodiment of the speech speed converting apparatus of the present invention.
  • a digital audio signal in units of frames is input to the terminal 20 in one frame 20 ms, and is supplied to the sound / silence determination unit 21 and the speech speed conversion unit 22.
  • the sound / silence determination unit 21 learns the noise level at the time of initial silence before the start of utterance, sets the learned silence level, for example, + 4dB as the sound threshold, and the input sound signal exceeds the sound threshold.
  • the section is determined to be a sound determination section, and the determination result is supplied to the speech speed determination unit 23. For simplicity, it is decided to make a sound determination only with power (volume), but it is also possible to make a sound determination using a characteristic quantity such as frequency characteristics.In addition, a fixed value is used as the sound threshold. May be
  • the speech rate determination unit 23 is supplied with the accumulation amount (accumulated number of frames) from the input accumulation amount calculation unit 24 and is also supplied with the speech protection period (variable number of frames) from the speech protection period determination unit 25.
  • the speech speed is determined according to the sound determination result, the accumulation amount, and the speech protection section, and this speech speed is supplied to the speech speed conversion unit 22 and the input accumulation amount calculation unit 24.
  • the speech speed conversion unit 22 writes the input speech signal into the buffer, reads the speech signal from the buffer according to the speech speed from the speech speed determination unit 23, and outputs it from the terminal 26.
  • the deletion section simply discards the data.
  • each frame is divided into about 4 subframes, and each subframe is repeatedly played according to the expansion ratio. In the case of 2 times extension, each subframe is played back twice. 1. For 5x expansion, play odd subframes once and repeat even subframes twice. At this time, as described in Japanese Patent No. 3147562, a method is generally used in which the connection is shifted so that the connection can be made smoothly based on information such as correlation.
  • the speech speed conversion unit 22 may compress the speech speed at a higher speed instead of deleting the voice signal.
  • compressing the speech speed by doubling for example, an odd subframe is played once and an even number Delete the subframe.
  • the input accumulation amount calculation unit 24 calculates the accumulation amount accumulated in the buffer of the speech rate conversion unit 22 based on the speech rate from the speech rate determination unit 23, and the speech rate determination unit 23 and the speech head protection Supply to section determination unit 25. Specifically, if deleted, the accumulated amount and delay decrease by the number of frames to be deleted, and if the speech rate is increased 0.5 times, the accumulated amount increases by 20 ms per frame. This modified accumulated amount is used to determine the speech rate of the next frame.
  • the speech protection section determination unit 25 determines a speech protection section (variable number of frames) according to the accumulation amount. For example, if the accumulated amount (corresponding to the delay in speech speed conversion) is 10 frames or less, the accumulated amount (number of accumulated frames) is set as the speech protection section. If the accumulated amount is 10 frames or more, the head protection section is set to 10 frames.
  • the deletion of the voice signal is prohibited and the speech speed is set to 1 time.
  • N 13—Speech protection interval (where N is 10 frames, lower limit is 5 frames).
  • the silent deletion section is other than the above sections, and the audio signal is deleted when there is a processing delay time.
  • the speech speed is set to 1 time.
  • Fig. 6 (A) shows the approximate time variation of the input audio signal power (volume) with a solid line. Steady power noise is superimposed on the audio signal, and the noise level + 4dB is set as the sound threshold.
  • the judgment results for each section are shown in the lower part of Fig. 6 (A). However, only the portion from the beginning of the speech protection section is described from the beginning of the speech protection section, and the portion from the ending of the ending protection section. 1 from the left
  • the second, fifth, sixth, and sixth voices are judged to be in a voiced section.
  • the third and fourth voices are buried in noise and are judged to be silent sections.
  • FIG. 6 (B) shows the audio signal power after the speech speed conversion.
  • Section (2), Section (3) Since the first and second voices are determined to be voiced sections, they are doubled (1 Z2 double speed). During section (2) and (3), the output is 1x speed with speech protection and ending protection.
  • Section (4) In the silent section following the third voice, the point force deletion starts earlier by the amount that the pause holding section (1x speed) is reduced compared to the conventional one.
  • Section (5) In the fourth voice, the head break is eliminated because the head protection is increased.
  • Section (6) Since the fifth voice is a sound determination, it is doubled.
  • FIG. 7 shows a voice / silence determination table of the voice / silence determination unit 21 in the second embodiment.
  • the utterance / silence determination unit 21 learns the noise level during initial silence before the start of utterance, etc., sets the learned silence level, for example, +4 dB as the utterance threshold, and determines the learned silence level + Id B as the silence certainty level. Set as a value.
  • the sound / silence determination unit 21 determines a section where the input sound signal is equal to or greater than the sound threshold as a sound determination section. If the input sound signal is equal to or less than the sound threshold and equal to or greater than the sound certainty determination value, the certainty level is determined. small If it is equal to or less than the silence certainty judgment value, it is judged as a silent section with a high certainty, and the judgment result is supplied to the speech speed determination unit 23.
  • the voice signal is prohibited from being deleted and the speech speed is set to 1 time.
  • the silent deletion section is other than the above sections, and the audio signal is deleted when there is a processing delay time.
  • the speech speed is set to 1 time.
  • the speech protection section when the speech protection section is less than 10 frames, the speech protection section is relatively short by deleting or setting the target at 1x speed only when the silence reliability of the current frame is high! ⁇ If the talk breaks out easily! Reduce the problem of wrinkles.
  • FIG. 9 shows a block diagram of a third embodiment of the speech speed converting apparatus of the present invention. In the figure, the same parts as those in FIG.
  • a digital audio signal in units of frames is input to the terminal 20 in one frame 20 ms, and supplied to the sound / silence determination unit 21, speech rate conversion unit 22, and estimated SNR calculation unit 27.
  • the voice / silence determination unit 21 learns the noise level at the time of initial silence before the start of utterance, sets the learned silence level, for example, + 4dB as the voice threshold, and the input voice signal exceeds the voice threshold.
  • the section is determined to be a sound determination section, and the determination result is supplied to the speech speed determination unit 23. For simplicity, we decided to make a sound determination only with power (volume). The sound determination may be performed using the amount, or a fixed value may be used as the sound threshold.
  • the estimated SNR determination unit 30 estimates an SNR (signal-to-noise ratio) and determines whether the estimated SNR is high or low.
  • SNR estimation judgment method for example, the difference between the maximum power (volume) and the minimum power in the past 30 seconds is obtained, and if the difference exceeds a threshold (for example, 15 dB), the estimated SNR is considered to be high V, and the threshold The estimated SNR is considered to be low if
  • the speech rate determination unit 23 is supplied with the accumulation amount (accumulated number of frames) from the input accumulation amount calculation unit 24, and is also supplied with the speech protection interval (variable number of frames) from the speech protection interval determination unit 31.
  • the speech speed is determined according to the sound determination result, the accumulation amount, and the speech protection section, and this speech speed is supplied to the speech speed conversion unit 22 and the input accumulation amount calculation unit 24.
  • the speech rate conversion unit 22 writes the input speech signal into the buffer, reads the speech signal from the buffer according to the speech rate from the speech rate determination unit 23, and outputs it from the terminal 26.
  • the deletion section simply discards the data.
  • each frame is divided into about 4 subframes, and each subframe is repeatedly played according to the expansion ratio. In the case of 2 times extension, each subframe is played back twice. 1. For 5x expansion, play odd subframes once and repeat even subframes twice.
  • the input accumulation amount calculation unit 24 calculates the accumulation amount accumulated in the buffer of the speech rate conversion unit 22 based on the speech rate from the speech rate determination unit 23, and the speech rate determination unit 23 and the speech head protection Supply to section determination unit 31. Specifically, if deleted, the accumulated amount and delay decrease by the number of frames to be deleted, and if the speech rate is increased 0.5 times, the accumulated amount increases by 20 ms per frame. This modified accumulated amount is used to determine the speech rate of the next frame.
  • the speech protection section determination unit 31 determines a speech protection section (variable number of frames) according to the accumulated amount and the estimated SNR. For example, when the estimated SNR is low, if the accumulated amount (corresponding to the delay in speech speed conversion) is 10 frames or less, the accumulated amount (accumulated number of frames) is used as the head protection section. When the accumulated amount is 10 frames or more, the head protection section is set to 10 frames.
  • the estimated SNR is high, if the accumulated amount is 3 frames or less, the accumulated amount (the number of accumulated frames) is set as the speech protection section. When the accumulated amount is 3 frames or more, the head protection section is set to 3 frames. [0062] In the present embodiment, when the estimated SNR is high, there is less risk of erroneously determining the speech head to be silent, and therefore it is possible to prevent setting a protection interval excessively.
  • the voice / silence determination table of the voice / silence determination unit 21 in the fourth embodiment is as shown in FIG.
  • the sound / silence determination unit 21 learns the noise level during initial silence before the start of utterance, sets the learned silence level, e.g., +4 dB as the sound threshold, and uses the learned silence level + ldB as the silence certainty level. Set as judgment value.
  • the sound / silence determination unit 21 determines a section where the input sound signal is equal to or greater than the sound threshold as a sound determination section. If the input sound signal is equal to or less than the sound threshold and equal to or greater than the sound certainty determination value, the certainty level is determined. It is determined that the silent period is small, and if it is equal to or less than the silence certainty determination value, it is determined as a silent section with high certainty, and the determination result is supplied to the speech speed determining unit 23.
  • FIG. 10 shows a speech speed determination table of the speech speed determination unit 23 in the fourth embodiment.
  • the voice signal is prohibited from being deleted and the speech speed is set to 1 time.
  • the silent deletion section is other than the above sections, and the audio signal is deleted when there is a processing delay time. When there is no processing delay time, the speech speed is set to 1 time. [0070] In the present embodiment, when the silence certainty of the current frame and the subsequent three frames is large, there is little possibility that the speech head is erroneously determined to be silent, so that it is possible to prevent setting the protection section excessively.
  • the speech protection section determination units 25 and 31 correspond to the speech protection section determination means described in the claims, and the speech speed determination section 23 corresponds to the speech protection means and pause holding section setting means.
  • the determination unit 21 corresponds to a silence certainty determination unit, and the estimated SNR determination unit 30 corresponds to a signal-to-noise ratio estimation unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

 本発明は、入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法において、前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行うよう構成することにより、遅延を最小限に抑え、話頭切れの発生を低減できる。

Description

明 細 書
話速変換方法及び話速変換装置
技術分野
[0001] 本発明は、話速変換方法及び話速変換装置に関し、音の高さを変えずに音声の 再生速度を変換する話速変換方法及び話速変換装置に関する。
背景技術
[0002] 従来から、相手の声の高さを変化させることなく音声の再生速度すなわち話速を遅 くさせることにより、会話の内容を聞き取りやすくするための技術が提案されている。こ のとき、単純に話速を遅くさせるのみでは、遅くさせた分の遅延が生じてしまう。
[0003] このような問題を解決するため、会話の途中に存在する無音区間(人の声などの音 が無い区間)を詰めることや無音区間における話速を早くさせることで、遅延を解消 する技術が提案されている。
[0004] 図 1は、従来の話速変換装置の一例のブロック図を示す。同図中、端子 10には 1フ レーム 20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部 11 及び話速変換部 12に供給される。
[0005] 有音無音判定部 11は、発話開始前等の初期無音時に雑音レベルを学習し、学習 した無音レベル例えば +4dBを有音閾値として設定し、入力音声信号を有音閾値と 比較して、音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を 話速決定部 13に供給する。
[0006] 話速決定部 13は、入力蓄積量計算部 14から蓄積量 (蓄積フレーム数)を供給され ると共に、話頭保護区間(固定のフレーム数)を設定されており、有音判定結果と蓄 積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部 12及び入力蓄 積量計算部 14に供給する。
[0007] 話速変換部 12は入力音声信号をバッファに書き込み、話速決定部 13からの話速 に従ってバッファから音声信号を読み出して端子 15から出力する。入力蓄積量計算 部 14は話速決定部 13からの話速に基づ 、て話速変換部 12のバッファに蓄積され ている蓄積量を計算して、話速決定部 13に供給する。 [0008] 図 2は、話速決定部 13の話速決定テーブルを示す。有音区間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒( = 50フレーム)以上の場合には話 速を 1倍とする。話頭保護区間、即ち後続 3フレーム以内に有音判定区間がある場合 には話速を 1倍とする。話尾保護区間、即ち過去 10フレーム以内に有音判定区間が ある場合には話速を 1倍とする。ポーズ保持区間、即ち話尾保護終了後の 10フレー ム以内は話速を 1倍とする。無音削除区間は、上記各区間以外では音声信号を削除 して詰める。ただし、処理遅延時間がない場合は話速を 1倍とする。
[0009] なお、特許文献 1には、一定時間長以上の非音声区間に挟まれた音声区間に対し 、その冒頭部分が所定の再生速度より遅くなり、かつ末尾に向けて次第に所定の再 生速度に戻すように話速変換することが記載されて 、る。
特許文献 1:特開 2001—222300公報
発明の開示
発明が解決しょうとする課題
[0010] し力しながら、無音区間を詰める処理や無音区間における話速を速める処理を行う 際には、有音無音判定の精度を考慮する必要がある。例えば、雑音環境下では有音 無音判定において誤判定が生じる場合がある。雑音の無い環境下では、話頭や話 尾においても比較的正確に有音無音の判定が行われる。しかし、雑音環境下では、 雑音レベルが話頭や話尾におけるパワー値と近い値又は超える値となってしまう場 合があり、その場合は話頭や話尾が雑音に埋もれてしまう。
[0011] このため、雑音環境下では、有音無音の判定を正確に実現することが困難となる。
例えば、雑音環境下では、話頭や話尾や無声子音などのように音声パワーが小さい 部分は、有音区間であるにも拘わらず無音と誤判定される可能性が高くなつてしまう
[0012] このような誤判定に基づいて無音区間を詰める処理や話速を速める処理が実行さ れると、音切れの発生や、無音継続長が過度に短縮されるなどの問題が生じてしまう
[0013] 図 3 (A)に入力音声信号パワー (音量)の概略の時間変化を実線で示す。音声信 号に定常パワーの雑音が重畳しており、その雑音レベル +4dBを有音閾値に設定し ている。図 3 (A)の下部には各区間の判定結果を示している。ただし話頭保護区間 は話頭から、語尾保護区間については語尾からの分のみを記載している。左から 1 番目、 2番目、 5番目、 6番目の音声については有音区間と判定される力 3番目、 4 番目の音声については雑音に埋もれた形となっていて無音区間と判定される。
[0014] 3番目の音声については語尾保護で削除をまぬがれる力 4番目の音声について は固定の話頭保護区間が短いために話頭切れが生じる。図 3 (B)に話速変換後の 音声信号パワーを示す。
[0015] 図 3 (B)の区間(1):開始時点で既に話速変換での処理遅延 (入力蓄積)力 10フレ ーム分あるものとする。
[0016] 区間(2) ,区間(3): 1番目、 2番目の音声は有音判定となるので 2倍伸長(1Z2倍 速)となる。区間(2) , (3)の間は話頭保護及び語尾保護で 1倍速の出力となる。
[0017] 区間 (4): 3番目の音声は無音判定であるが、語尾保護とポーズ保持区間に入るの で、 1倍速で出力される。その後の無音区間もポーズ保持区間内は 1倍速の出力とな り、その後は削除される。
[0018] 区間(5) :4番目の音声は無音判定で一部しか話頭保護されない。この時点での話 速変換遅延 (入力蓄積量)が十分あるために、保護区間のみ 1倍速で出力され、それ 以外は削除され、話頭切れが生じる。
[0019] 区間(6): 5番目の音声は有音判定なので、 2倍伸長となる。
[0020] 話頭保護につ 、て従来は固定長の話頭保護区間を設定して 、るので、話頭保護 の分だけ遅延を挿入 (追加)する必要がある。例えば電話における留守録等の蓄積 音では十分な話頭保護を設定できる。しかし、実時間の通話で話速変換する場合に は、遅延を最小限に抑える必要があるので、十分な長さの話頭保護区間を設定する ことができず、話頭切れを生じるおそれがあるという問題があった。
[0021] 本発明は、上記の点に鑑みなされたものであり、遅延を最小限に抑え、話頭切れの 発生を低減できる話速変換方法及び話速変換装置を提供することを総括的な目的と する。
課題を解決するための手段
[0022] この目的を達成するため、本発明は、入力音声信号をバッファに蓄積し、前記入力 音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号 をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのま まもしくは圧縮もしくは削除して話速を変換する話速変換方法にぉ 、て、前記有音区 間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄 積量とし、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もし くは削除を、禁止もしくは圧縮率を調整して話頭保護を行うよう構成する。
発明の効果
[0023] このような話速変換方法によれば、遅延を最小限に抑え、話頭切れの発生を低減 できる。
図面の簡単な説明
[0024] [図 1]従来の話速変換装置の一例のブロック図である。
[図 2]従来の話速変換装置の話速決定部の話速決定テーブルを示す図である。
[図 3]従来の入力音声信号パワーと話速変換後の音声信号パワーを示す図である。
[図 4]本発明の話速変換装置の第 1実施形態のブロック図である。
[図 5]第 1実施形態における話速決定部の話速決定テーブルを示す図である。
[図 6]本発明の入力音声信号パワーと話速変換後の音声信号パワーを示す図である
[図 7]第 2実施形態における有音無音判定部の音声無音判定テーブルを示す図であ る。
[図 8]第 2実施形態における話速決定部の話速決定テーブルを示す図である。
[図 9]本発明の話速変換装置の第 3実施形態のブロック図である。
[図 10]第 4実施形態における話速決定部の話速決定テーブルを示す図である。 符号の説明
[0025] 20, 26 端子
21 有音無音判定部
22 話速変換部
23 話速決定部
24 入力蓄積量計算部 25, 31 話頭保護区間決定部
30 推定 SNR判定部
発明を実施するための最良の形態
[0026] 以下、図面に基づいて本発明の実施形態について説明する。
<第 1実施形態 >
図 4は、本発明の話速変換装置の第 1実施形態のブロック図を示す。同図中、端子 20には 1フレーム 20msでフレーム単位のデジタルの音声信号が入力され、有音無 音判定部 21及び話速変換部 22に供給される。
[0027] 有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学習 した無音レベル例えば +4dBを有音閾値として設定し、入力音声信号が有音閾値以 上の区間を有音判定区間と判定し、判定結果を話速決定部 23に供給する。なお、 簡単のためパワー (音量)のみで有音判定を行うこととしたが、周波数特性などの特 徴量を用いて有音判定を行っても良ぐまた、有音閾値として固定値を用いても良い
[0028] 話速決定部 23は、入力蓄積量計算部 24から蓄積量 (蓄積フレーム数)を供給され ると共に、話頭保護区間決定部 25から話頭保護区間(可変のフレーム数)を供給さ れており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速 を話速変換部 22及び入力蓄積量計算部 24に供給する。
[0029] 話速変換部 22は入力音声信号をバッファに書き込み、話速決定部 23からの話速 に従ってバッファから音声信号を読み出して端子 26から出力する。削除区間は単に データを捨てる。話速を遅くする場合には、例えば各フレームを 4分割程度のサブフ レームに分割し、サブフレーム毎に伸長倍率に応じて繰返し再生する。 2倍伸長の場 合は各サブフレームを 2回繰返し再生する。 1. 5倍伸長であれば、奇数サブフレーム を 1回再生し、偶数サブフレームを 2回繰返し再生する。このとき、特許第 3147562 号に記載のように、相関などの情報を基に滑らかに接続できるようにずらして接続す る手法が一般的である。
[0030] なお、話速変換部 22は音声信号を削除する代りに、話速を速くして圧縮しても良い 。話速を 2倍にして圧縮する場合には、例えば奇数サブフレームを 1回再生し、偶数 サブフレームを削除する。
[0031] 入力蓄積量計算部 24は話速決定部 23からの話速に基づいて話速変換部 22のバ ッファに蓄積されている蓄積量を計算して、話速決定部 23及び話頭保護区間決定 部 25に供給する。具体的には、削除であれば、削除するフレーム数だけ蓄積量及び 遅延は減少し、話速を 0. 5倍にすれば 1フレームにっき 20ms分だけ蓄積量が増加 することになる。この修正された蓄積量は次のフレームの話速を決定するのに用いら れる。
[0032] 話頭保護区間決定部 25は、蓄積量に応じて話頭保護区間 (可変のフレーム数)を 決定する。例えば、蓄積量 (話速変換での遅延に対応)が 10フレーム以下の場合は 、蓄積量 (蓄積フレーム数)を話頭保護区間とする。蓄積量が 10フレーム以上の場合 には話頭保護区間を 10フレームとする。
[0033] 図 5は、第 1実施形態における話速決定部 23の話速決定テーブルを示す。有音区 間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒( = 50フレー ム)以上の場合には音声信号の削除を禁止して話速を 1倍とする。
[0034] 話頭保護区間、即ち話頭保護区間決定部 25で決定されたフレーム数以内に有音 判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。なお、削除 を禁止する代りに圧縮率を調整しても良 ヽ。
[0035] 話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には音声信 号の削除を禁止して話速を 1倍とする。
[0036] ポーズ保持区間、即ち話尾保護終了後の Nフレームのポーズ保持区間は音声信 号の削除を禁止して話速を 1倍とする。 N= 13—話頭保護区間 (ただし、 Nの上限は 10フレーム、下限は 5フレーム)である。
[0037] 無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信 号を削除する。処理遅延時間がない場合は話速を 1倍とする。
[0038] 図 6 (A)に入力音声信号パワー (音量)の概略の時間変化を実線で示す。音声信 号に定常パワーの雑音が重畳しており、その雑音レベル +4dBを有音閾値に設定し ている。図 6 (A)の下部には各区間の判定結果を示している。ただし話頭保護区間 は話頭から、語尾保護区間については語尾からの分のみを記載している。左から 1 番目、 2番目、 5番目、 6番目の音声については有音区間と判定される力 3番目、 4 番目の音声については雑音に埋もれた形となっていて、無音区間と判定される。
[0039] 図 6 (B)に話速変換後の音声信号パワーを示す。
[0040] 図 6 (B)の区間(1):開始時点で既に話速変換での処理遅延 (入力蓄積)力 10フレ ーム分あるものとする。
[0041] 区間(2) ,区間(3): 1番目、 2番目の音声は有音区間と判定されるので 2倍伸長(1 Z2倍速)となる。区間(2) , (3)の間は話頭保護及び語尾保護で 1倍速の出力となる
[0042] 区間 (4): 3番目の音声に続く無音区間はポーズ保持区間(1倍速)を従来に対し減 らした分だけ早い時点力 削除を開始する。
[0043] 区間(5) :4番目の音声は話頭保護が増えたので話頭切れが解消する。
[0044] 区間(6): 5番目の音声は有音判定なので 2倍伸長となる。
[0045] 無音区間を詰める必要があるのは遅延が発生している場合、つまり未処理の音声 信号データが蓄積されている場合である。したがって、話速変換部 22のバッファ蓄積 量に応じ、かつ所定値に制限して話頭保護区間を設定することで、遅延を増やさず に話頭保護を実施でき、また、ポーズ保持区間を話頭保護区間に応じて可変するこ とにより、バッファ蓄積量が多いときには遅延量を増やすことなく従来よりも正確な話 頭保護が実現できる。
<第 2実施形態 >
第 2実施形態では、図 4のブロック図に示す有音無音判定部 21及び話速決定部 2 3の動作が第 1実施形態と異なっているので、有音無音判定部 21及び話速決定部 2 3の動作にっ 、て説明する。
[0046] 図 7は、第 2実施形態における有音無音判定部 21の音声無音判定テーブルを示 す。有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学 習した無音レベル例えば +4dBを有音閾値として設定し、学習した無音レベル + Id Bを無音確実度判定値として設定する。
[0047] 有音無音判定部 21は入力音声信号が有音閾値以上の区間を有音判定区間と判 定し、入力音声信号が有音閾値以下で無音確実度判定値以上であれば確実度小 の無音区間と判定し、無音確実度判定値以下であれば確実度大の無音区間と判定 し、判定結果を話速決定部 23に供給する。
[0048] 図 8は、第 2実施形態における話速決定部 23の話速決定テーブルを示す。有音区 間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒( = 50フレー ム)以上の場合には音声信号の削除を禁止して話速を 1倍とする。
[0049] 話頭保護区間、即ち話頭保護区間決定部 25で決定されたフレーム数以内に有音 判定区間がある場合、または、話頭保護区間決定部 25で決定されたフレーム数が 1 0フレーム未満で確実度小の無音区間がある場合には音声信号の削除を禁止して 話速を 1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良い。
[0050] 話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には音声信 号の削除を禁止して話速を 1倍とする。
[0051] ポーズ保持区間、即ち話尾保護終了後の 10フレームのポーズ保持区間は音声信 号の削除を禁止して話速を 1倍とする。
[0052] 無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信 号を削除する。処理遅延時間がない場合は話速を 1倍とする。
[0053] このように、話頭保護区間が 10フレーム未満の場合には現フレームの無音信頼度 が高い場合のみ削除または 1倍速の対象とすることによって、話頭保護区間が相対 的に短!ヽ場合に話頭切れが発生しやす!ヽという問題を低減する。
<第 3実施形態 >
図 9は、本発明の話速変換装置の第 3実施形態のブロック図を示す。同図中、図 4 と同一部分には同一符号を付す。
[0054] 図 9において、端子 20には 1フレーム 20msでフレーム単位のデジタルの音声信号 が入力され、有音無音判定部 21及び話速変換部 22及び推定 SNR算出部 27に供 給される。
[0055] 有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学習し、学習 した無音レベル例えば +4dBを有音閾値として設定し、入力音声信号が有音閾値以 上の区間を有音判定区間と判定し、判定結果を話速決定部 23に供給する。なお、 簡単のためパワー (音量)のみで有音判定を行うこととしたが、周波数特性など特徴 量を用いて有音判定を行っても良ぐまた、有音閾値として固定値を用いても良い。
[0056] 推定 SNR判定部 30は、 SNR (信号雑音比)を推定し、推定 SNRが高 ヽか低 ヽか 判定する。 SNRの推定判定法としては、例えば過去 30秒の最大パワー(音量)と最 小パワーの差を求め、その差が閾値 (例えば 15dB)を超えていれば推定 SNRが高 V、と見なし、閾値以下であれば推定 SNRが低 、と見なす。
[0057] 話速決定部 23は、入力蓄積量計算部 24から蓄積量 (蓄積フレーム数)を供給され ると共に、話頭保護区間決定部 31から話頭保護区間(可変のフレーム数)を供給さ れており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速 を話速変換部 22及び入力蓄積量計算部 24に供給する。
[0058] 話速変換部 22は入力音声信号をバッファに書き込み、話速決定部 23からの話速 に従ってバッファから音声信号を読み出して端子 26から出力する。削除区間は単に データを捨てる。話速を遅くする場合には、例えば各フレームを 4分割程度のサブフ レームに分割し、サブフレーム毎に伸長倍率に応じて繰返し再生する。 2倍伸長の場 合は各サブフレームを 2回繰返し再生する。 1. 5倍伸長であれば、奇数サブフレーム を 1回再生し、偶数サブフレームを 2回繰返し再生する。
[0059] 入力蓄積量計算部 24は話速決定部 23からの話速に基づいて話速変換部 22のバ ッファに蓄積されている蓄積量を計算して、話速決定部 23及び話頭保護区間決定 部 31に供給する。具体的には、削除であれば、削除するフレーム数だけ蓄積量及び 遅延は減少し、話速を 0. 5倍にすれば 1フレームにっき 20ms分だけ蓄積量が増加 することになる。この修正された蓄積量は次のフレームの話速を決定するのに用いら れる。
[0060] 話頭保護区間決定部 31は、蓄積量と推定 SNRに応じて話頭保護区間 (可変のフ レーム数)を決定する。例えば、推定 SNRが低い場合は、蓄積量 (話速変換での遅 延に対応)が 10フレーム以下であれば蓄積量 (蓄積フレーム数)を話頭保護区間と する。蓄積量が 10フレーム以上のときは話頭保護区間を 10フレームとする。
[0061] 推定 SNRが高 、場合は、蓄積量が 3フレーム以下の場合は蓄積量 (蓄積フレーム 数)を話頭保護区間とする。蓄積量が 3フレーム以上の場合には話頭保護区間を 3フ レームとする。 [0062] 本実施形態では、推定 SNRが高い場合には話頭を誤って無音と判定するおそれ が少ないことから、過剰に保護区間を設定することを防止できる。
<第 4実施形態 >
第 4実施形態では、図 4のブロック図に示す有音無音判定部 21及び話速決定部 2 3の動作が第 3実施形態と異なっているので、有音無音判定部 21及び話速決定部 2 3の動作にっ 、て説明する。
[0063] 第 4実施形態における有音無音判定部 21の音声無音判定テーブルは図 7に示す 通りである。有音無音判定部 21は、発話開始前等の初期無音時に雑音レベルを学 習し、学習した無音レベル例えば +4dBを有音閾値として設定し、学習した無音レべ ル + ldBを無音確実度判定値として設定する。
[0064] 有音無音判定部 21は入力音声信号が有音閾値以上の区間を有音判定区間と判 定し、入力音声信号が有音閾値以下で無音確実度判定値以上であれば確実度小 の無音区間と判定し、無音確実度判定値以下であれば確実度大の無音区間と判定 し、判定結果を話速決定部 23に供給する。
[0065] 図 10は、第 4実施形態における話速決定部 23の話速決定テーブルを示す。有音 区間では、話速を 0. 5倍 (2倍伸張)とする。ただし、処理遅延時間が 1秒( = 50フレ ーム)以上の場合には音声信号の削除を禁止して話速を 1倍とする。
[0066] 話頭保護区間、即ち話頭保護区間決定部 25で決定されたフレーム数以内に有音 判定区間がある場合には音声信号の削除を禁止して話速を 1倍とする。ただし、現フ レームと後続 3フレームが全て確実度大の無音区間である場合には話頭保護を行わ ない。
[0067] 話尾保護区間、即ち過去 10フレーム以内に有音判定区間がある場合には音声信 号の削除を禁止して話速を 1倍とする。なお、削除を禁止する代りに圧縮率を調整し ても良い。
[0068] ポーズ保持区間、即ち話尾保護終了後の 10フレームのポーズ保持区間は音声信 号の削除を禁止して話速を 1倍とする。
[0069] 無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信 号を削除する。処理遅延時間がない場合は話速を 1倍とする。 [0070] 本実施形態では、現フレームと後続 3フレームの無音確実度が大の場合には話頭 を誤って無音と判定するおそれが少ないことから、過剰に保護区間を設定することを 防止できる。
[0071] なお、話頭保護区間決定部 25, 31が請求項記載の話頭保護区間決定手段に相 当し、話速決定部 23が話頭保護手段及びポーズ保持区間設定手段に相当し、有音 無音判定部 21が無音確実度判定手段に相当し、推定 SNR判定部 30が信号雑音 比推定手段に相当する。

Claims

請求の範囲
[1] 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有 音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は 前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を 変換する話速変換方法にぉ ヽて、
前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前 記バッファの蓄積量とし、
前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除 を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換方法。
[2] 請求項 1記載の話速変換方法において、
前記有音区間に続く所定長の話尾保護区間の終了後に設定するポーズ保持区間 の長さを前記話頭保護区間の長さに応じて設定する話速変換方法。
[3] 請求項 1または 2記載の話速変換方法にぉ 、て、
前記入力音声信号のパワーが前記閾値未満の無音区間で無音確実度を判定し、 前記話頭保護区間内における無音区間の無音確実度が小さければ前記音声信号 の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換方法
[4] 請求項 1乃至 3のいずれか 1項記載の話速変換方法において、
前記入力音声信号の信号雑音比を推定し、
推定信号雑音比が一定値より低い場合の前記話頭保護区間に対する前記制限値 より、前記推定信号雑音比が一定値より高い場合の前記話頭保護区間に対する前 記制限値を小さく設定する話速変換方法。
[5] 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有 音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は 前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を 変換する話速変換装置において、
前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前 記バッファの蓄積量とする話頭保護区間決定手段と、 前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除 を、禁止もしくは圧縮率を調整して話頭保護を行う話頭保護手段を
有する話速変換装置。
[6] 請求項 5記載の話速変換装置にお 、て、
前記有音区間に続く所定長の話尾保護区間の終了後に設定するポーズ保持区間 の長さを前記話頭保護区間の長さに応じて設定するポーズ保持区間設定手段を 有する話速変換装置。
[7] 請求項 5または 6記載の話速変換装置にぉ 、て、
前記入力音声信号のパワーが前記閾値未満の無音区間で無音確実度を判定する 無音確実度判定手段を有し、
前記話頭保護手段は、前記話頭保護区間内における無音区間の無音確実度が小 さければ前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保 護を行う話速変換装置。
[8] 請求項 5乃至 7のいずれか 1項記載の話速変換装置において、
前記入力音声信号の信号雑音比を推定する信号雑音比推定手段を有し、 前記話頭保護区間決定手段は、推定信号雑音比が一定値より低!ヽ場合の前記話 頭保護区間に対する前記制限値より、前記推定信号雑音比が一定値より高い場合 の前記話頭保護区間に対する前記制限値を小さく設定する話速変換装置。
[9] 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有 音区間は前記バッファから読み出す音声信号を圧縮'伸張する際に、パワーが前記 閾値を下回る無音区間よりもゆっくりとなるよう話速を変換する話速変換装置におい て、
前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前 記バッファの蓄積量とする話頭保護区間決定手段と、
前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除 を、禁止もしくは圧縮率を調整して話頭保護を行う話頭保護手段を
有する話速変換装置。
PCT/JP2005/000549 2005-01-18 2005-01-18 話速変換方法及び話速変換装置 WO2006077626A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2005/000549 WO2006077626A1 (ja) 2005-01-18 2005-01-18 話速変換方法及び話速変換装置
JP2006553780A JP4630876B2 (ja) 2005-01-18 2005-01-18 話速変換方法及び話速変換装置
EP05703786A EP1840877A4 (en) 2005-01-18 2005-01-18 ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE
US11/778,720 US7912710B2 (en) 2005-01-18 2007-07-17 Apparatus and method for changing reproduction speed of speech sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/000549 WO2006077626A1 (ja) 2005-01-18 2005-01-18 話速変換方法及び話速変換装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/778,720 Continuation US7912710B2 (en) 2005-01-18 2007-07-17 Apparatus and method for changing reproduction speed of speech sound

Publications (1)

Publication Number Publication Date
WO2006077626A1 true WO2006077626A1 (ja) 2006-07-27

Family

ID=36692024

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/000549 WO2006077626A1 (ja) 2005-01-18 2005-01-18 話速変換方法及び話速変換装置

Country Status (4)

Country Link
US (1) US7912710B2 (ja)
EP (1) EP1840877A4 (ja)
JP (1) JP4630876B2 (ja)
WO (1) WO2006077626A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107706A (ja) * 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
WO2009011021A1 (ja) * 2007-07-13 2009-01-22 Panasonic Corporation 話速変換装置及び話速変換方法
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置
JP2009210712A (ja) * 2008-03-03 2009-09-17 Yamaha Corp 音処理装置およびプログラム
JP2010210947A (ja) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd 話速変換装置
JP2010266778A (ja) * 2009-05-18 2010-11-25 Panasonic Corp 再生装置
WO2011027437A1 (ja) * 2009-09-02 2011-03-10 富士通株式会社 音声再生装置および音声再生方法
JP2013148654A (ja) * 2012-01-18 2013-08-01 Nippon Hoso Kyokai <Nhk> 話速変換装置、そのプログラムおよびプログラムを記録した記録媒体
JP2014115546A (ja) * 2012-12-12 2014-06-26 Fujitsu Ltd 音声処理装置、音声処理方法および音声処理プログラム
JP2014157331A (ja) * 2013-02-18 2014-08-28 Nippon Hoso Kyokai <Nhk> 話速変換装置、方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
JP4460580B2 (ja) * 2004-07-21 2010-05-12 富士通株式会社 速度変換装置、速度変換方法及びプログラム
JP4390289B2 (ja) * 2007-03-16 2009-12-24 国立大学法人電気通信大学 再生装置
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
FR2979465B1 (fr) * 2011-08-31 2013-08-23 Alcatel Lucent Procede et dispositif de ralentissement d'un signal audionumerique
JP5977528B2 (ja) * 2012-01-31 2016-08-24 シャープ株式会社 話速変換装置、話速変換方法及びプログラム
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4591928A (en) 1982-03-23 1986-05-27 Wordfit Limited Method and apparatus for use in processing signals
JPH0573089A (ja) * 1991-09-18 1993-03-26 Matsushita Electric Ind Co Ltd 音声再生方法
JPH06337696A (ja) * 1993-05-28 1994-12-06 Matsushita Electric Ind Co Ltd 速度変換制御装置と速度変換制御方法
EP0643380A2 (en) 1993-09-10 1995-03-15 Hitachi, Ltd. Speech speed conversion method and apparatus
JP2000305580A (ja) * 1999-04-23 2000-11-02 Roland Corp 無音判別方法、無音判別装置およびコンピュータ読み取り可能な記録媒体
JP2001056696A (ja) * 1999-08-18 2001-02-27 Nippon Telegr & Teleph Corp <Ntt> 音声蓄積再生方法および音声蓄積再生装置
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体
GB2396271A (en) 2002-12-10 2004-06-16 Motorola Inc A user terminal and method for voice communication

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2612868B2 (ja) * 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
US6885987B2 (en) * 2001-02-09 2005-04-26 Fastmobile, Inc. Method and apparatus for encoding and decoding pause information
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US20050114118A1 (en) * 2003-11-24 2005-05-26 Jeff Peck Method and apparatus to reduce latency in an automated speech recognition system
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
JP4460580B2 (ja) * 2004-07-21 2010-05-12 富士通株式会社 速度変換装置、速度変換方法及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4591928A (en) 1982-03-23 1986-05-27 Wordfit Limited Method and apparatus for use in processing signals
JPH0573089A (ja) * 1991-09-18 1993-03-26 Matsushita Electric Ind Co Ltd 音声再生方法
JPH06337696A (ja) * 1993-05-28 1994-12-06 Matsushita Electric Ind Co Ltd 速度変換制御装置と速度変換制御方法
EP0643380A2 (en) 1993-09-10 1995-03-15 Hitachi, Ltd. Speech speed conversion method and apparatus
JP2000305580A (ja) * 1999-04-23 2000-11-02 Roland Corp 無音判別方法、無音判別装置およびコンピュータ読み取り可能な記録媒体
JP2001056696A (ja) * 1999-08-18 2001-02-27 Nippon Telegr & Teleph Corp <Ntt> 音声蓄積再生方法および音声蓄積再生装置
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体
GB2396271A (en) 2002-12-10 2004-06-16 Motorola Inc A user terminal and method for voice communication

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1840877A4

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107706A (ja) * 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
WO2009011021A1 (ja) * 2007-07-13 2009-01-22 Panasonic Corporation 話速変換装置及び話速変換方法
US8392197B2 (en) 2007-08-22 2013-03-05 Nec Corporation Speaker speed conversion system, method for same, and speed conversion device
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置
JP2009210712A (ja) * 2008-03-03 2009-09-17 Yamaha Corp 音処理装置およびプログラム
JP2010210947A (ja) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd 話速変換装置
JP2010266778A (ja) * 2009-05-18 2010-11-25 Panasonic Corp 再生装置
WO2011027437A1 (ja) * 2009-09-02 2011-03-10 富士通株式会社 音声再生装置および音声再生方法
JPWO2011027437A1 (ja) * 2009-09-02 2013-01-31 富士通株式会社 音声再生装置および音声再生方法
US8457955B2 (en) 2009-09-02 2013-06-04 Fujitsu Limited Voice reproduction with playback time delay and speed based on background noise and speech characteristics
JP2013148654A (ja) * 2012-01-18 2013-08-01 Nippon Hoso Kyokai <Nhk> 話速変換装置、そのプログラムおよびプログラムを記録した記録媒体
JP2014115546A (ja) * 2012-12-12 2014-06-26 Fujitsu Ltd 音声処理装置、音声処理方法および音声処理プログラム
JP2014157331A (ja) * 2013-02-18 2014-08-28 Nippon Hoso Kyokai <Nhk> 話速変換装置、方法及びプログラム

Also Published As

Publication number Publication date
US20070265839A1 (en) 2007-11-15
JPWO2006077626A1 (ja) 2008-06-12
EP1840877A1 (en) 2007-10-03
JP4630876B2 (ja) 2011-02-09
EP1840877A4 (en) 2008-05-21
US7912710B2 (en) 2011-03-22

Similar Documents

Publication Publication Date Title
JP4630876B2 (ja) 話速変換方法及び話速変換装置
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP0910065B1 (en) Speaking speed changing method and device
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
JP4460580B2 (ja) 速度変換装置、速度変換方法及びプログラム
JPH06501597A (ja) 自動的に長さが低減するオーディオ遅延線
US10127924B2 (en) Communication apparatus mounted with speech speed conversion device
JPS62274941A (ja) 音声符号化方式
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
JP3378672B2 (ja) 話速変換装置
JP4212253B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
WO2011027437A1 (ja) 音声再生装置および音声再生方法
JP2006113375A (ja) 音声の再生及び停止を制御する音声再生装置及びプログラム
JP2867744B2 (ja) 音声再生装置
JP3298188B2 (ja) 音声検出方法
JPH06289895A (ja) リアルタイム話速変換方法
JP3706506B2 (ja) 話速変換装置を備えた通話装置
JP6675079B2 (ja) 電話装置
JP5326796B2 (ja) 再生装置
JPH0772896A (ja) 音声の圧縮伸長装置
KR20010085664A (ko) 화속 변환 장치
JPH05304557A (ja) 音声入出力装置
JP2010026243A (ja) 自動話速変換装置
JPH0530137A (ja) 音声パケツト伝送装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006553780

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005703786

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11778720

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005703786

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11778720

Country of ref document: US