WO2014115696A1 - 音声データ再生速度変換方法および音声データ再生速度変換装置 - Google Patents

音声データ再生速度変換方法および音声データ再生速度変換装置 Download PDF

Info

Publication number
WO2014115696A1
WO2014115696A1 PCT/JP2014/051042 JP2014051042W WO2014115696A1 WO 2014115696 A1 WO2014115696 A1 WO 2014115696A1 JP 2014051042 W JP2014051042 W JP 2014051042W WO 2014115696 A1 WO2014115696 A1 WO 2014115696A1
Authority
WO
WIPO (PCT)
Prior art keywords
cross point
zero cross
audio data
audio
waveform
Prior art date
Application number
PCT/JP2014/051042
Other languages
English (en)
French (fr)
Inventor
昌二 角田
西澤 達夫
Original Assignee
シナノケンシ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シナノケンシ株式会社 filed Critical シナノケンシ株式会社
Priority to US14/763,303 priority Critical patent/US9361905B2/en
Publication of WO2014115696A1 publication Critical patent/WO2014115696A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • G10L21/047Time compression or expansion by changing speed using thinning out or insertion of a waveform characterised by the type of waveform to be thinned out or inserted
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • G10L21/049Time compression or expansion by changing speed using thinning out or insertion of a waveform characterised by the interconnection of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • a zero-cross point of the comparison target waveform used when calculating the correlation value, which is a value, is set as a second reference zero-cross point and corresponds to the reference zero-cross point in the audio data.
  • a plurality of zero-cross point selecting means, a reference waveform selecting means for selecting a reference waveform from the reference zero-cross point to a preset second predetermined time, and a plurality of zero-cross points selected by the zero-cross point selecting means A comparison target waveform selection unit that selects a comparison target waveform from each of the reference waveform to the second predetermined time; an autocorrelation value calculation unit that calculates a correlation value between the reference waveform and the reference waveform using a correlation function; Correlation value calculating means for calculating a correlation value between a reference waveform and the waveform to be compared using a correlation function, comparing the autocorrelation value with each correlation value, and matching the correlation value with the autocorrelation value A zero-cross point of the comparison target waveform used when calculating the correlation value having the highest rate is set as a second reference zero-cross point, and the reference zero-cross in the audio data
  • a voice block calculation that calculates a point corresponding to the start point, a point corresponding to the second reference zero
  • 11A to 11C are conceptual diagrams illustrating an example of a speech block synthesis method.
  • each part of the audio data reproducing apparatus 10 and the processing flow of the method for converting the reproduction speed of the audio data collected by the data input / output unit 20 will be described in parallel with reference to FIGS. 1 and 2.
  • DAISY DigitalDAccessible Information System
  • audio data according to the standard is used, the audio data in the present invention is not limited to audio data according to the DAISY standard, and can be applied to general electronic books and the like.
  • the audio data is stored as original audio data (original audio data) in the audio data storage means 31 provided in the data storage unit 30 in a state associated with the elapsed time from the beginning of the audio data.
  • original voice data stored in the voice data storage unit 31 is represented as waveform data
  • a waveform graph as shown in FIG. 3 is obtained.
  • the horizontal axis of the graph of FIG. 3 is approximately 100 msec from the start to the end.
  • the horizontal axis in the graphs shown in the figures after FIG. 4 is the same as that in FIG.
  • the basic frequency of human voice which is the main component of audio data
  • the basic frequency of human voice is generally 70 Hz to 200 Hz for men and 150 Hz to 350 Hz for women and children, taking into account the attenuation characteristics on the high frequency side of the filter
  • 200 Hz which is an approximate intermediate value, was selected.
  • the waveform is slightly drawn even in a portion called silence in the graph, and the amplitude value on the vertical axis of the graph is set so that the zero cross point is not erroneously extracted in such a small waveform portion.
  • a threshold of 42 dB is set.
  • the amplitude value of the vertical axis of the graph exceeds -42 dB even in one sample, the first zero cross point found after that is extracted, and the zero cross point found this time from the previous zero cross point is extracted.
  • the range up to the point is treated as a sound block.
  • a threshold value of ⁇ 42 dB is set for the amplitude value on the vertical axis of the graph so that the zero cross point is not erroneously extracted in a slight waveform portion in a silent block called a so-called silent portion. Is not limited to -42 dB.
  • a threshold different from the threshold used in the present embodiment can be used as appropriate in accordance with the characteristics of the audio data.
  • the state where the rising zero cross point is extracted in this way is the state shown in FIG.
  • the arrow position in FIG. 6 is the rising zero cross point extracted by the zero cross point extraction means 51 in accordance with the above processing method.
  • the zero-cross point extraction means 51 also extracts time information at the arrow position in FIG.
  • the tertiary processed audio data D03 from which the DC component has been removed, the low-pass filtering process is performed, and the rising zero-cross point is extracted is provided in the data storage unit 30 in a state associated with the elapsed time from the beginning of the audio data. Is stored in the third-order processed audio data storage means 34.
  • the tertiary processing audio data storage means 34 also stores time information at the arrow position in FIG. 6 in a state associated with the elapsed time from the beginning of the audio data. At this time, the voice data (primary process and / or secondary process voice data) stored in the primary process voice data storage means 32 and / or the secondary process voice data storage means 33 may be deleted.
  • the autocorrelation value calculation means 56 divides the time axis of the reference waveform at predetermined time intervals using the reference waveforms (which are functions with time as a variable), and the numerical values of the amplitudes of the graphs corresponding to the divided times. Is summed over the entire time axis.
  • the result of the product-sum operation is stored as an autocorrelation value in the autocorrelation value storage means 38 provided in the data storage unit 30 (autocorrelation value calculation step and autocorrelation value storage step).
  • a second zero cross point selection unit (not shown) provided in the calculation unit 50 uses the correlation value stored in the correlation value storage unit 39 and the autocorrelation value stored in the autocorrelation value storage unit 38 to generate a correlation value. And the comparison target waveform for which the correlation value having the highest matching ratio is calculated is selected from the comparison target waveform storage means 37.
  • the comparison zero cross point MZ1 that is the starting point position in the comparison target waveform 1 is determined.
  • the second reference zero cross point KZ1 is selected (second zero cross point selection step).
  • the method for changing the reproduction speed of the audio data is not limited to this method, and other known changing methods are also described. Can also be adopted.
  • the audio data playback speed is changed to 0.5 times speed
  • one audio block may be changed to two audio blocks as shown in FIG. 11B.
  • the playback speed is halved by simply repeating one audio block twice.
  • the data corresponding to the speech speed may be extracted from the head side and the tail side of the silent section data to form a speech block.
  • the audio data is divided into a plurality of minute audio blocks divided into a certain minute time unit, and the silent section is extended by combining the plurality of minute audio blocks. Just do it.
  • the length of the audio data is insufficient to constitute one audio block at the end portion in each audio data by the end side data carry-over means 500 provided in the arithmetic unit 50.
  • the terminal side data TD is extracted and stored in the terminal side data carry-over means 500 (terminal side data carry-over process).

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

 音声データ再生装置単体であっても音声データの再生速度の変換処理を可能にすることを課題とする。 解決手段として、任意のゼロクロス点から基準ゼロクロス点を設定する工程、基準ゼロクロス点から第1所定時間範囲内で時間的に後のゼロクロス点を選択する工程、基準ゼロクロス点から第2所定時間までの波形における基準相関関数を算出する工程、先に選択された複数のゼロクロス点から第2所定時間までの波形における相関関数を算出する工程、基準相関関数と相関関数との相関値の一致率が最高値である相関関数を有する波形のゼロクロス点を第2基準ゼロクロス点とし、基準ゼロクロス点と第2基準ゼロクロス点との時間差を基本周期として算出し、基本周期単位で音声データの伸縮を実行することで、音声データの再生速度を変更する処理を行うことを特徴とする音声データ再生速度変換方法および音声データ再生速度変換装置である。

Description

音声データ再生速度変換方法および音声データ再生速度変換装置
 本発明は音声データ再生速度変換方法および音声データ再生速度変換装置に関する。
 CDやカセットテープ、ビデオテープ等の記録媒体に記録された音声信号を再生する際において、標準の再生速度に対して再生速度を変えて再生する場合がある。例えば、短時間で所定量の内容を聞きたい場合には再生速度を上げ、また早口などの理由で聞き取りにくい場合には再生速度を下げてゆっくり再生するのである。このように再生速度を変えるには、CDの回転速度やテープの走行速度を上げたり、また下げたりすることで実現される。ところが、この音声再生方法ではCD等の記録媒体から読み出される音声信号自体の周波数も再生速度の変化に合わせて変化するため、音程も変化して聞きにくいという課題があった。
 そこで、音程はそのままにして再生速度のみを変換する方法として、原音声信号をある時間長の複数の音声ブロックAn(nは自然数)に分割し、それらの組み合わせを変更して再生速度を変化させる方法がある。例えば2倍速で再生する場合には、音声ブロックAnを一つおきに間引いて再生(一例としてA1・A3・A5・…と再生)することによって、再生音声信号の全体の再生時間を半分にすることが可能となり、しかも原音声信号の周波数はある程度元のままであるから音声の音程を殆ど変えることなく再生することが可能になっている。
 なお、ここでいう音声ブロックは、原音声信号の当該区間に含まれる周波数成分のうち最も低いものである基本周波数の逆数である基本周期によって分割される。音声信号は常に変化しているので基本周波数も当然に変化し、隣り合う音声ブロックの時間長は異なっていることが多い。
 しかしながら、原音声信号を複数の音声ブロックAnに分割する時に不適切な時間長で分割してしまうと、音声ブロックの組み合わせを変更して再生速度を変化させる際に、当該不適切な時間長の音声ブロックとの繋ぎ目部分において信号が不連続になるため、耳障りなノイズが発生する原因となる。
 そこで、原音声信号を複数の音声ブロックAn分割する時に原音声信号のゼロクロス点に着目して音声ブロックの適切な分割点を決定しようとする方法があり、これによって音声ブロックの繋ぎ目部分はゼロクロス点となるため信号レベルが不連続とならず、ノイズの低減が可能になっている。このようなゼロクロス点に着目して適切な音声ブロックの分割を行う技術としては、たとえば、特許文献1~3に開示されているような機能を有するものが知られている。
公開特許公報 特開2002-313015号 公開特許公報 特開2007-94004号 公開特許公報 特開2008-20870号
 特許文献1~3に開示されている音声データの再生速度変換機能を実現するにあたっては、オリジナルの音声データから音声ブロックを適切な時間長で抽出する際における演算量が膨大になってしまう。このため再生速度変換の処理は演算処理能力の高いパーソナルコンピュータ等により行われることが前提になっている。しかしながら、音声データの再生装置はパーソナルコンピュータ以外にも持ち運び可能な専用再生機として実現する要望もあるが、持ち運び可能とするためにはバッテリーの容量や熱設計の観点からパーソナルコンピュータ等に用いられるような演算処理能力の高いCPUを選択できない事情がある。そこで演算処理能力の低いCPUを選択すると再生速度変換の処理に時間がかかりリアルタイム処理が実現できないという課題がある。
 加えて、音声すなわち人間の声の基本周波数は、老若男女で70~350Hzと大きく異なり、原音声信号を単純一律に処理しただけでは音声ブロックの時間長の根拠となる基本周波数を算出することができないため複雑な演算を必要とし、音声データ処理をより困難なものにしている。
 そこで本発明は、演算処理能力が高く無い音声データ再生装置であっても音声データの再生速度の変換処理を可能にした音声データ再生速度変換方法および音声データ再生速度変換装置の提供を第1の目的としている。
 また、音声データの基本周期を適切に算出することにより、音声データの再生速度を変換しても音声データの再生品質の低下を大幅に軽減することを可能とした音声データ再生速度変換方法および音声データ再生速度変換装置の提供を第2の目的としている。
 上記課題を解決するために本発明者は鋭意研究を行った結果、以下の構成に想到した。
 すなわち、音声データの再生速度を変換して再生する音声データ再生速度変換方法において、再生対象となる原音声データのDC成分を除去するDC成分除去工程と、DC成分が除去された原音声データの基本周波数を抽出するために、カットオフ周波数を前記基本周波数の中間値に設定して低域ろ波して、前記基本周波数で構成される基本音声信号を抽出する基本音声信号抽出工程と、前記基本音声信号の立ち上がりゼロクロス点を抽出するゼロクロス点抽出工程と、前記立ち上がりゼロクロス点のうちの任意のゼロクロス点を基準ゼロクロス点として設定する基準ゼロクロス点設定工程と、前記基準ゼロクロス点から、予め設定された第1所定時間範囲内で、前記基準ゼロクロス点から時間的に後の立ち上がりゼロクロス点を複数選択する、ゼロクロス点選択工程と、前記基準ゼロクロス点から、予め設定された第2所定時間までの基準波形を選定する基準波形選定工程と、前記ゼロクロス点選択工程により選択された複数のゼロクロス点のそれぞれから前記第2所定時間までの比較対象波形を選定する比較対象波形選定工程と、前記基準波形と前記基準波形との相関値を相関関数を用いて算出する自己相関値算出工程と、前記基準波形と前記比較対象波形との相関値を相関関数を用いて算出する相関値算出工程と、前記自己相関値と前記各々の相関値とを比較し、前記自己相関値に対する前記相関値の一致率が最高値である相関値を算出する際に用いた前記比較対象波形のゼロクロス点を第2基準ゼロクロス点とし、前記音声データにおいて前記基準ゼロクロス点に該当する点を始点、前記音声データにおいて前記第2基準ゼロクロス点に該当する点を終点とし、前記音声データを始点と終点とによって区切られた領域を音声ブロックとするように算出する音声ブロック算出工程と、前記音声ブロック単位で前記音声データの伸縮を実行することにより、前記音声データの再生速度を変更する再生速度変更工程と、を有することを特徴とする音声データ再生速度変換方法である。
 これにより音声データの再生速度を変換する際の演算量が大幅に減少し、音声データの再生装置単体であっても音声データの再生速度の変換処理を行うことができる。また、音声データの再生速度変換処理を行うにあたっては、常に音声データの基本単位である音声ブロックを正確に抽出することが可能になるため、再生速度変換後における音声データの再生品質を従来に比較して大幅に向上させることが可能である。
 また、他の発明として、音声データの再生速度を変換して再生する音声データ再生速度変換装置において、再生対象となる原音声データのDC成分を除去するDC成分除去手段と、DC成分が除去された原音声データの基本周波数を抽出するために、カットオフ周波数を前記基本周波数の中間値に設定して低域ろ波して、前記基本周波数で構成される基本音声信号を抽出する基本音声信号抽出手段と、前記基本音声信号の立ち上がりゼロクロス点を抽出するゼロクロス点抽出手段と、前記立ち上がりゼロクロス点のうちの任意のゼロクロス点を基準ゼロクロス点として設定する基準ゼロクロス点設定手段と、前記基準ゼロクロス点から、予め設定された第1所定時間範囲内で、前記基準ゼロクロス点から時間的に後の立ち上がりゼロクロス点を複数選択する、ゼロクロス点選択手段と、前記基準ゼロクロス点から、予め設定された第2所定時間までの基準波形を選定する基準波形選定手段と、前記ゼロクロス点選択手段により選択された複数のゼロクロス点のそれぞれから前記第2所定時間までの比較対象波形を選定する比較対象波形選定手段と、前記基準波形と前記基準波形との相関値を相関関数を用いて算出する自己相関値算出手段と、前記基準波形と前記比較対象波形との相関値を相関関数を用いて算出する相関値算出手段と、前記自己相関値と前記各々の相関値とを比較し、前記自己相関値に対する前記相関値の一致率が最高値である相関値を算出する際に用いた前記比較対象波形のゼロクロス点を第2基準ゼロクロス点とし、前記音声データにおいて前記基準ゼロクロス点に該当する点を始点、前記音声データにおいて前記第2基準ゼロクロス点に該当する点を終点とし、前記音声データを始点と終点とによって区切られた領域を音声ブロックとするように算出する音声ブロック算出手段と、前記音声ブロック単位で前記音声データの伸縮を実行することにより、前記音声データの再生速度を変更する再生速度変更手段と、を有することを特徴とする音声データ再生速度変換装置もある。
 これにより音声データの再生速度を変換する際の演算量が大幅に減少し、音声データ再生装置単体であっても音声データの再生速度の変換処理を行うことができる。また、音声データの再生速度変換処理を行うにあたって、音声データの基本単位である音声ブロックを正確に抽出することが可能になるため、再生速度変換後における音声データの再生品質を従来技術に比較して大幅に向上させることが可能である。
 本発明にかかる構成によれば、音声データの再生速度を変換する際の演算量が大幅に減少し、演算処理能力が高く無い音声データ再生装置であっても音声データの再生速度の変換処理を行うことができる。また、音声データの再生速度変換処理を行うにあたっての基本単位である音声ブロックを常に正確に抽出することが可能になるため、従来技術に比較して処理能力が遥かに低い音声再生装置であっても再生品質を損なうこと無く音声データの再生速度変換が可能である。
本実施形態にかかる音声データ再生装置の概略構成を示すブロック図である。 本実施形態にかかる音声データ再生速度変換方法における処理フロー図である。 オリジナルの音声データの波形を示すグラフである。 図3に示す音声データからDC成分を除去した後の波形を示すグラフである。 図4に示す音声データをカットオフ周波数により低域ろ波した後の音声データの波形を示すグラフである。 図5に示す音声データのグラフを用いて立ち上がりゼロクロス点を抽出し、抽出した立ち上がりゼロクロス点を矢印で示した音声データの波形を示すグラフである。 基準波形および比較対象波形の始点位置点を示す音声データの波形を示すグラフである。 基準波形と比較対象波形との相関度の算出結果の一覧である。 基準波形との相関度が最も高い比較対象波形の始点側の立ち上がりゼロクロス点の位置を示す音声データの波形を示すグラフである。 音声データの基本音声ブロックを抽出した状態を示す音声データの波形を示すグラフである。 図11A~図11Cは、音声ブロックの合成方法の一例を示す概念図である。
 以下、本発明にかかる音声データ再生装置と音声データ再生速度変換方法の実施形態について図面に基づいて説明する。
 本実施形態にかかる音声データ再生装置10は、図1に示すように、各種の音声データの入出力を行うデータ入出力部20と、データ入出力部20からのデータを記憶するデータ記憶部30と、データ記憶部30に記憶されたデータをフィルタリング処理するフィルタ部40と、フィルタ部40によりフィルタリングされた音声データに対する各種の演算処理を行う演算部50と、を有している。
 以下に、図1と図2を用いて、音声データ再生装置10の各部の構成と、データ入出力部20により収集された音声データの再生速度の変換方法の処理フローについて、並行して説明を行う。本実施形態においては、音声データの一例として、視覚に障がいがある人たちが読書を楽しむことができるように、本に記載されている文章情報を音声でデジタル録音したDAISY(Digital Accessible Information SYstem)規格による音声データを用いているが、本願発明における音声データはDAISY規格による音声データに限定されるものではなく、一般的な電子書籍などにも適用可能である。
 まず、音声データ再生装置10は、100msec分の音声データをデータ入出力部20の音声データ収集手段22により収集し、データ記憶部30に記憶させる(音声データ収集工程)。これは100msec単位でのバッファリング入力を行うということである。その際、2回目以降の音声データ収集工程においてその前の回に収集した音声データの一部が次回繰越データ記憶手段39に処理されずに残っている場合は、その音声データを今回収集した音声データの先頭に挿入して、一緒に記憶させる。このような音声データは、光ディスクや半導体メモリーなどに代表される記録媒体やネットワーク等を介して入手することができる。
 音声データは音声データの冒頭部からの経過時間と関連付けされた状態で、データ記憶部30に設けられた音声データ記憶手段31にオリジナルの音声データ(原音声データ)として記憶される。
 音声データ記憶手段31に記憶されたオリジナルの音声データを波形データとしてあらわすと、図3に示すような波形グラフになる。先述にあるように、図3のグラフの横軸は始端から終端までの間が概ね100msecになっている。図4以降の図に示すグラフにおける横軸も図3と同様である。
 図3に示したオリジナルの音声データD00にはDC成分(直流成分)が含まれていることがあるため、DC成分を除去するために、フィルタ部40に設けられたDC成分除去手段42によりDC成分を除去する処理を行う(DC成分除去工程)。このようなDC成分除去手段42としては、例えば10Hzをカットオフ周波数としたハイパスフィルタを用いることができる。このようにしてオリジナルの音声データD00からDC成分を除去して得られた一次処理音声データD01のグラフを図4に示す。
 以上の方法により得られた一次処理音声データD01は、音声データの収集開始時間からの経過時間と関連付けられた状態で、データ記憶部30に設けられた一次処理音声データ記憶手段32に記憶される。
 図4に示す一次処理音声データD01には、抽出対象外の高周波成分が含まれているため、一次処理音声データD01から音声データにおける基本データ単位となる音声ブロックが抽出しにくくなっている。そこで、図4に示す一次処理音声データD01を用いて、オリジナルの音声データD00から音声ブロックを抽出しやすくすることが必要になる。具体的には、フィルタ部40に設けられた基本音声信号抽出手段44により、高周波成分の除去が行われる(基本音声信号抽出工程)。このような基本音声信号抽出手段44として、本実施形態においては、カットオフ周波数を200Hzに設定したローパスフィルタを用いている。このカットオフ周波数であるが、音声データの主成分である人間の声の基本周波数は一般的に男性が70Hz~200Hz・女性や子供が150Hz~350Hzであり、フィルタの高周波側の減衰特性を考慮して大凡の中間値である200Hzを選択した。このようなローパスフィルタにより一次処理音声データD01に対して低域ろ波処理が行われ、二次処理音声データD02を得ることができる。
 このようにしてDC成分の除去と低域ろ波処理が施された二次処理音声データD02の波形は、図5に示すような波形(グラフ)になる。
 ローパスフィルタによって低域ろ波処理が施されたことにより、抽出対象外の周波数成分が除去された状態に成形(フィルタリング)された二次処理音声データD02は、それぞれ音声データの冒頭部からの経過時間と関連付けられた状態でデータ記憶部30に設けられた二次処理音声データ記憶手段33に記憶される。この時、ハイパスフィルタを適用した後に一次処理音声データ記憶手段32に記憶させていた一次処理音声データD01は消去してもよい。
 次に、演算部50に設けられたゼロクロス点抽出手段51により図5に示すグラフの値が負の値から正の値に切り替わる、いわゆる立ち上がりゼロクロス点を抽出させる処理を行う(ゼロクロス点抽出工程)。本実施形態における、ゼロクロス点抽出工程においては、以下のルールに基づいてゼロクロス点を抽出している。
 まず、二次処理音声データD02の波形を示すグラフにおいては、必ずゼロクロス点からグラフがはじまっているので、先頭位置を一つ目のゼロクロス点として抽出することを基本とする。
 また、二次処理音声データD02の波形を示す図5のグラフにおいて、1つ前のゼロクロス点を起点とし、縦軸の値が-42dB以下の振幅の波形ではゼロクロス点が見つかったとしてもゼロクロス点とみなさず、縦軸の値が-42dBを超えている振幅の波形でゼロクロス点が見つかった場合に有音ブロックとしてゼロクロス点を抽出する。これは、グラフにおいて無音といわれる部分であってもわずかに波形を描いているためであり、そのようなわずかな波形部分でゼロクロス点を誤抽出しないようにグラフの縦軸の振幅の値に-42dBという閾値を設定している。これとは反対に、1サンプルでもグラフの縦軸の振幅の値が-42dBを超えている場合は、それ以降に見つかった最初のゼロクロス点を抽出し、ひとつ前のゼロクロス点から今回見つかったゼロクロス点までの範囲が有音ブロックであるものとして扱う。
 さらに、グラフの縦軸の振幅の値が-42dB以下のまま10msec(441サンプル)続いた場合は無音ブロックであるものとみなし、その終点がゼロクロス点でなくても無音ブロックとして区切る。このように、無音区間であっても10msec毎に区切ることで、有音ブロックも無音ブロックも同程度の長さとなり、音声データのブロック合成処理等を容易に行うことができる。
 さらにまた、グラフの縦軸の値が-42dBより大きい振幅が存在するが、20msec(882サンプル)以内にゼロクロス点が来ない場合は、無音ブロックであるものとみなし、その終点がゼロクロス点でなくても無音ブロックとして区切る。これは、たとえ有音であっても20msec以上の周期を有するグラフの波形は、フィルタ処理で取りきることができなかったバックノイズと考えられるためである。
 本実施形態においては、有音ブロックも無音ブロックも同程度の長さのブロックにすることを基本としているため、先述のような例外的な波形の音声データも20msecで区切り便宜的に無音ブロックと扱う。そして、この無音ブロック以降で初めて見つかったゼロクロス点についても、データ取扱い上の便宜を図るために分割したブロックの残り部分という扱いで無音ブロックのゼロクスロス点として抽出している。すなわち、この場合においては例外的に、グラフの縦軸の値が-42dB以下の振幅であってもゼロクロス点として抽出している。
 さらに、無音ブロックの直後にグラフの縦軸の振幅が-42dBを超える振幅の波形でゼロクロス点が見つかった場合、無音ブロックと有音ブロックに分割して抽出する。これは、無音ブロックとして区切られたゼロクロス点の後に縦軸の値が-42dBを超える振幅を有する新たなゼロクロス点が見つかった場合、さらにその2つのゼロクロス点の間に縦軸の振幅の値が-42dBを超えないために抽出されなかったゼロクロス点が一つでも存在する場合の2条件を満たした場合である。より詳細には、その直前のゼロクロス点までを無音ブロックとしてゼロクロス点として抽出したうえで、本来見つかったゼロクロス点を有音ブロックとして抽出している。つまり、2つのゼロクロス点を抽出することになる。このような取り扱いは、有音ブロックの先頭が必ずゼロクロス点から始まるようにするためのものである。
 本実施形態においては、いわゆる無音部分と呼ばれる無音ブロックにおけるわずかな波形部分でゼロクロス点を誤抽出しないように、グラフの縦軸の振幅の値に-42dBという閾値を設定しているが、この閾値は-42dBに限定されるものではない。音声データの特性に合わせて本実施形態で用いた閾値とは異なる閾値を適宜用いることができる。
 このようにして立ち上がりゼロクロス点を抽出した状態は図6に示す状態になる。図6中の矢印位置が、ゼロクロス点抽出手段51により以上の処理方法に則って抽出された立ち上がりゼロクロス点である。ゼロクロス点抽出手段51は、図6中の矢印位置における時間情報も抽出する。
 DC成分が除去され、低域ろ波処理が施され、立ち上がりゼロクロス点が抽出された三次処理音声データD03は、音声データの冒頭部からの経過時間と関連付けられた状態でデータ記憶部30に設けられた三次処理音声データ記憶手段34に記憶される。三次処理音声データ記憶手段34には、図6中の矢印位置における時間情報も音声データの冒頭部からの経過時間と関連付けられた状態で記憶されることになる。
 このとき、一次処理音声データ記憶手段32および/または二次処理音声データ記憶手段33に記憶させていた音声データ(一次処理および/または二次処理音声データ)は消去してもよい。
 続いて、演算部50に設けられた基準ゼロクロス点設定手段52によって、図6に示す立ち上がりゼロクロス点のうち、先頭位置にある立ち上がりゼロクロス点を基準位置として設定する処理が行われる(基準ゼロクロス点設定工程)。基準位置として設定された基準ゼロクロス点KZは、データ記憶部30に設けられたゼロクロス点記憶手段35に時間情報と共に記憶される。
 基準ゼロクロス点KZが設定された後、演算部50に設けられたゼロクロス点選択手段53により、基準ゼロクロス点KZから予め設定された第1所定時間範囲内で、基準ゼロクロス点KZから時間的に後に存在する立ち上がりゼロクロス点を複数選択する処理が行われる(ゼロクロス点選択工程)。第1所定時間としては、取り扱いデータの演算処理に要する演算量と演算結果の信頼性の両立を考慮して2~20msecを採用した。前述の通り、人間の声の基本周波数は一般的に70~350Hzであるため、これに相当する1周期は約2.86~14.29msecとなり、最低でも1周期分の範囲内にあるゼロクロス点を調査する必要があるため、安全マージンを含めて第1所定時間を2~20msecとした。
 本実施形態においては、先の条件に該当する立ち上がりゼロクロス点として、3つの立ち上がりゼロクロス点が検出された。このようにして検出されたそれぞれの立ち上がりゼロクロス点は、第2の基準ゼロクロス点の始点候補位置である比較ゼロクロス点MZ1,MZ2,MZ3として、記憶部30に設けられたゼロクロス点記憶手段35に、基準ゼロクロス点KZと同様に時間情報と共に記憶される。
 つづいて、演算部50に設けられた基準波形選定手段54により基準ゼロクロス点KZを始点として基準ゼロクロス点KZから予め定められた第2所定時間範囲内の波形データを音声データの基準波形として選定する処理が行われる(基準波形選定工程)。本実施形態においては第2所定時間として10msecを採用した。後述する波形の比較に用いるデータとして波形の特徴が十分に現れる時間としては最低でも半周期分が必要であり、前述の通り人間の声の基本周波数の特性に基づいて第1所定時間を2~20msecと定めたことと同様の理由により、最大値20msecの半分として第2所定時間を10msecとした。
 このようにして選定された基準波形は、データ記憶部30に設けられた基準波形記憶手段36に記憶されることになる。
 次に、演算部50に設けられた比較対象波形選定手段55は、比較ゼロクロス点MZ1~MZ3のそれぞれから予め定められた第2所定時間範囲内の波形データを選定する処理を行う(比較対象波形選定工程)。比較対象波形選定手段55により選定された比較対象波形は、比較対象波形選定手段55により選定された順番に記憶部30に設けられた比較対象波形記憶手段37に記憶される。
 続いて演算部50に設けられた自己相関値算出手段56と相関値算出手段57は、基準波形記憶手段36および比較対象波形記憶手段37のそれぞれに記憶されている基準波形と比較対象波形とにおいて、時間を変数にした関数の値の一致度(相関値の一致度)を演算し、一致度が最も高い比較対象波形を求める処理を行う。本実施形態における具体例な相関値の一致度を確認する方法を以下に説明する。
 自己相関値算出手段56は、基準波形(時間を変数にした関数である)どうしを用いて基準波形の時間軸を所定時間毎に区切ると共に、区切られた時間に対応するグラフの振幅の数値どうしを時間軸の全域にわたって積和演算する。積和演算した結果は自己相関値としてデータ記憶部30に設けられた自己相関値記憶手段38に記憶させる処理を行う(自己相関値算出工程および自己相関値記憶工程)。
 次に、相関値算出手段57は、基準波形と比較対象波形(いずれも時間を変数にした関数である)どうしを用いて基準波形および比較対象波形の時間軸を所定時間毎に区切ると共に、区切られた時間に対応するグラフの振幅の数値どうしを時間軸の全域にわたって積和演算する。積和演算した結果は相関値としてデータ記憶部30に設けられた相関値記憶手段39に記憶させる処理を行う(相関値算出工程および相関値記憶工程)。
 演算部50に設けられた図示しない第2ゼロクロス点選択手段は、相関値記憶手段39に記憶されている相関値と自己相関値記憶手段38に記憶されている自己相関値とを用いて相関値の一致率を百分率で算出すると共に、最も一致率が高い相関値を算出した比較対象波形を比較対象波形記憶手段37から選択する。本実施形態においては、図8および図9に示すように、比較対象波形1の相関値における相関値の一致率が最高値であるため、比較対象波形1における始点位置である比較ゼロクロス点MZ1を第2の基準ゼロクロス点KZ1として選択している(第2ゼロクロス点選択工程)。
 このように、基準波形の始点がゼロクロス点となるように限定することで本来第1所定時間範囲内の全てのサンプルの位置から始まる波形を対象として相関値を求める必要があったところを、ゼロクロス点から始まる波形のみを対象として相関値を算出すればよいため、相関関数の実行回数を劇的に抑えることができ、演算処理量を著しく低減させることができる。また、相関値を求める対象となる波形データは低域ろ波処理されているので波形の変化はなだらかである。よって、相関値を求めるために波形データを区切る所定時間を1サンプルあたりの時間と比較して長めに設定し、積和演算を行うポイントを間引いてても、波形どうしの相関値にはほとんど影響しない。従って、本実施例では10サンプルにつき1回の割合で演算を行うべく所定時間を0.2msec程度としており、更なる演算処理量の低減が可能である。
 つづいて音声ブロック算出手段58は、図9に示すように、基準ゼロクロス点KZと第2基準ゼロクロス点KZ1との時間差を音声データの基本データ単位となる音声ブロックとして算出する処理を行う(音声ブロック算出工程)。これ以降の音声ブロックについては、第2基準ゼロクロス点KZ1を次に続く新たな音声ブロックの先頭として基準ゼロクロス点KZとし、この基準ゼロクロス点KZから次の第2基準ゼロクロス点KZ1を同様に求めることにより次々と音声ブロックを算出することができる。
 なお、音声データを順に音声ブロックとして区切っていくと最後の方で音声ブロックを構成し得ない半端なデータが残る。このデータの扱いについては後述の終端側データ繰越工程で説明する。
 このようにして算出した音声ブロックを、立ち上がりゼロクロス点を抽出した図6のグラフに適用し、図6のグラフにおける最初の立ち上がりゼロクロス点を基準位置として、音声データを音声ブロックごとに区切ったデータのグラフを図10に示す。
 このように音声データの音声ブロックが算出された後は、演算部50に設けられた再生速度変更手段59によりデータ記憶部30に記憶されているオリジナルの音声データを用いて再生速度を変更する処理が行われる(再生速度変更工程)。
 音声データの再生速度を変更するための具体的な手法について説明する。図11A~図11Cは音声データブロックの合成方法の一例を示す概念図である。図11Aは原音の音声データブロックのデータのつながりを示す概念図である。図11Bは図11Aの音声データブロックの再生速度を0.5倍にした場合の音声ブロックのデータのつながりを示す概念図である。図11Cは、図11Aの音声データブロックの再生速度を2倍にした場合の音声ブロックのデータのつながりを示す概念図である。
 以下に、図11A~図11Cを参照しながら具体的な再生速度の変更方法について説明するが、音声データの再生速度の変更方法はこの方法に限定されるものではなく、他の公知の変更方法を採用することもできる。
 音声データの再生速度を0.5倍速に変更する場合は、図11Bに示すように、1つの音声ブロックを2つの音声ブロックにすればよい。図11Bにおいては、一つの音声ブロックを単純に2回繰り返すことによって再生速度を半分にしている。
 音声データの再生速度を2倍速にする場合には、図11Cに示すような音声ブロックの並びになる。連続する2つの音声ブロックを単純に片方の1つだけとしてもう片方の音声ブロックは再生しないというものである。このように音声ブロックを半分に間引くことにより音声データの再生速度を2倍速にすることができる。
 無音区間については、再生速度を早める際には、話速に応じた長さのデータを無音区間のデータの先頭側および最後尾側からそれぞれ取り出し、音声ブロックとすればよい。これとは逆に、再生速度を遅くする際には、音声データを一定の微小時間単位に区切った複数の微小音声ブロックとした上で、この複数の微小音声ブロックを組み合わせて無音区間を伸長させればよい。
 ところで、本実施形態においては、音声データ再生装置10の記憶部30の音声データ記憶手段31に記憶されている音声データは、100msec毎に区切られた状態であるが、音声データは、100msec毎に音声データの音声ブロックが丁度よく収まっているとは限らない。このため、それぞれの音声データの区間内においては、音声データの終端部分に1つの音声ブロックを構成するには不十分な長さの音声データが存在することになる。
 そこで本実施形態においては、演算部50に設けられた終端部側データ繰越手段500によって各音声データ内の終端部分において、1つの音声ブロックを構成するには不十分な長さの音声データである終端側データTDを取り出し、終端側データ繰越手段500に記憶させる処理を行う(終端側データ繰越工程)。
 このようにして繰り越された終端側データTDは、次回入力される100msecの音声データの先頭部分に挿入される。この音声データの先頭部分が音声ブロックの始点(ゼロクロス点)になっていることが明らかであるから、基準ゼロクロス点設定手段52は、音声データの先頭部分を新たな基準ゼロクロス点として無条件に選択することができる。
 以上に説明した基準ゼロクロス点設定工程から音声ブロック算出工程を、次の音声ブロックを算出する音声データがデータ記憶部30内に存在しなくなるまで繰り返し実行することによって、データ記憶部30に記憶された音声データに含まれる音声ブロックの算出を連続的に行うことができる。
 また、終端側データTDの繰越先である次回100msec分の音声データが入力されない場合には、終端側データ繰越手段500により抽出された終端側データTDを破棄し、音声データ再生装置10による音声データの再生速度変更処理を終了する。
 上記の処理形態を採用した場合であっても、終端側データTDに含まれている音声データは、ほとんどの場合が無音部分であることが多いこと、および、終端側データTDが有音区間であったとしても、音声データの基本周期未満のごくわずかな音声データであるため、終端側データTDを破棄したとしても、再生速度変換処理後における再生品質にはほとんど影響を与えることはないのである。
 本実施形態に基づいて音声データの再生速度変更処理を行ない、再生速度変更処理後の音声データを再生したところ、朗読者の声のピッチに変化が生じさせることなく、音声データの再生速度を適切に変更することができた。また、再生速度変更処理を行った音声データには不自然な雑音の混入もなく、快適に音声データを聴くことができた。
 以上に説明した音声データ再生装置10の構成および音声データ再生速度変換方法を採用することにより、演算処理能力が低いCPU(演算手段)が搭載されている音声データ再生装置10であっても、音声データの再生速度の変更処理を適切に実行することができる。
 すなわち本願発明は、従来技術のように音声データの再生速度を変更処理する際において、パーソナルコンピュータ並みの演算処理能力を持つCPUを音声データ再生装置に搭載する必要がないのである。このため、音声データ再生装置を安価に製造する点においてきわめて有用な技術である。
 本実施形態においては、再生速度を変更処理する対象となる音声データを特に人の声としていることにより、音声データ再生装置10のみで音声データの再生速度変更処理を実現することが可能になっている。例えば、バックグラウンドミュージックが流れている中で朗読を収録したような複雑な基本周期を有するような音声データについては取り扱いの対象範囲外としているが、本実施形態で扱ったDAISY図書データにおいては、このような音声データがほとんど含まれていないため、実用上不具合を生じることはない。
 また、本実施形態においては音声データを100msecごとに区切って記憶させる形態や、基準相関関数や比較対象となる相関関数を10msecごとに設定した実施形態について説明しているが、音声データを収集する際の単位時間や基準波形および比較対象波形を設定する際に用いられる予め設定された第1所定時間範囲および第2所定時間範囲は、本実施形態で示した各時間範囲の数値に限定されるものではない。
 音声データを収集する際の時間範囲や基準波形および比較対象波形を設定する際の第1所定時間範囲および第2所定時間範囲については、データ入出力部20に設けることが可能な図示しない入力手段によりユーザが必要時に適宜入力した値を採用するようにしてもよい。このとき、入力値の上限値および/または下限値を予め設定しておけば、音声データの基本単位である音声ブロックの正確な算出が可能であると共に、演算に用いるデータ容量が大きくなることを防止することができ、音声データ再生装置10のみによる処理が不可能になることがないため好適である。

Claims (2)

  1.  音声データの再生速度を変換して再生する音声データ再生速度変換方法において、
     再生対象となる原音声データのDC成分を除去するDC成分除去工程と、
     DC成分が除去された原音声データの基本周波数を抽出するために、カットオフ周波数を前記基本周波数の中間値に設定して低域ろ波して、前記基本周波数で構成される基本音声信号を抽出する基本音声信号抽出工程と、
     前記基本音声信号の立ち上がりゼロクロス点を抽出するゼロクロス点抽出工程と、
     前記立ち上がりゼロクロス点のうちの任意のゼロクロス点を基準ゼロクロス点として設定する基準ゼロクロス点設定工程と、
     前記基準ゼロクロス点から、予め設定された第1所定時間範囲内で、前記基準ゼロクロス点から時間的に後の立ち上がりゼロクロス点を複数選択する、ゼロクロス点選択工程と、
     前記基準ゼロクロス点から、予め設定された第2所定時間までの基準波形を選定する基準波形選定工程と、
     前記ゼロクロス点選択工程により選択された複数のゼロクロス点のそれぞれから前記第2所定時間までの比較対象波形を選定する比較対象波形選定工程と、
     前記基準波形と前記基準波形との相関値を相関関数を用いて算出する自己相関値算出工程と、
     前記基準波形と前記比較対象波形との相関値を相関関数を用いて算出する相関値算出工程と、
     前記自己相関値と前記各々の相関値とを比較し、前記自己相関値に対する前記相関値の一致率が最高値である相関値を算出する際に用いた前記比較対象波形のゼロクロス点を第2基準ゼロクロス点とし、前記音声データにおいて前記基準ゼロクロス点に該当する点を始点、前記音声データにおいて前記第2基準ゼロクロス点に該当する点を終点とし、前記音声データを始点と終点とによって区切られた領域を音声ブロックとするように算出する音声ブロック算出工程と、
     前記音声ブロック単位で前記音声データの伸縮を実行することにより、前記音声データの再生速度を変更する再生速度変更工程と、
     を有することを特徴とする音声データ再生速度変換方法。
  2.  音声データの再生速度を変換して再生する音声データ再生速度変換装置において、
     再生対象となる原音声データのDC成分を除去するDC成分除去手段と、
     DC成分が除去された原音声データの基本周波数を抽出するために、カットオフ周波数を前記基本周波数の中間値に設定して低域ろ波して、前記基本周波数で構成される基本音声信号を抽出する基本音声信号抽出手段と、
     前記基本音声信号の立ち上がりゼロクロス点を抽出するゼロクロス点抽出手段と、
     前記立ち上がりゼロクロス点のうちの任意のゼロクロス点を基準ゼロクロス点として設定する基準ゼロクロス点設定手段と、
     前記基準ゼロクロス点から、予め設定された第1所定時間範囲内で、前記基準ゼロクロス点から時間的に後の立ち上がりゼロクロス点を複数選択する、ゼロクロス点選択手段と、
     前記基準ゼロクロス点から、予め設定された第2所定時間までの基準波形を選定する基準波形選定手段と、
     前記ゼロクロス点選択手段により選択された複数のゼロクロス点のそれぞれから前記第2所定時間までの比較対象波形を選定する比較対象波形選定手段と、
     前記基準波形と前記基準波形との相関値を相関関数を用いて算出する自己相関値算出手段と、
     前記基準波形と前記比較対象波形との相関値を相関関数を用いて算出する相関値算出手段と、
     前記自己相関値と前記各々の相関値とを比較し、前記自己相関値に対する前記相関値の一致率が最高値である相関値を算出する際に用いた前記比較対象波形のゼロクロス点を第2基準ゼロクロス点とし、前記音声データにおいて前記基準ゼロクロス点に該当する点を始点、前記音声データにおいて前記第2基準ゼロクロス点に該当する点を終点とし、前記音声データを始点と終点とによって区切られた領域を音声ブロックとするように算出する音声ブロック算出手段と、
     前記音声ブロック単位で前記音声データの伸縮を実行することにより、前記音声データの再生速度を変更する再生速度変更手段と、
     を有することを特徴とする音声データ再生速度変換装置。
PCT/JP2014/051042 2013-01-28 2014-01-21 音声データ再生速度変換方法および音声データ再生速度変換装置 WO2014115696A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/763,303 US9361905B2 (en) 2013-01-28 2014-01-21 Voice data playback speed conversion method and voice data playback speed conversion device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-013628 2013-01-28
JP2013013628A JP5956936B2 (ja) 2013-01-28 2013-01-28 音声データ再生速度変換方法および音声データ再生速度変換装置

Publications (1)

Publication Number Publication Date
WO2014115696A1 true WO2014115696A1 (ja) 2014-07-31

Family

ID=51227487

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/051042 WO2014115696A1 (ja) 2013-01-28 2014-01-21 音声データ再生速度変換方法および音声データ再生速度変換装置

Country Status (3)

Country Link
US (1) US9361905B2 (ja)
JP (1) JP5956936B2 (ja)
WO (1) WO2014115696A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102329888B1 (ko) * 2017-01-09 2021-11-23 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198092A (ja) * 1996-01-16 1997-07-31 Yamaha Corp ピッチ検出装置
JPH10187188A (ja) * 1996-12-27 1998-07-14 Shinano Kenshi Co Ltd 音声再生方法と音声再生装置
JP2006227110A (ja) * 2005-02-15 2006-08-31 Sony Corp オーディオ入出力制御装置及びオーディオ入出力制御方法
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2008020870A (ja) * 2006-07-14 2008-01-31 Arex:Kk 話速変換装置及び話速変換方法
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60158500A (ja) * 1984-01-26 1985-08-19 松下電器産業株式会社 ピツチ抽出装置
JPS62183500A (ja) * 1986-02-07 1987-08-11 松下電器産業株式会社 音声のピツチ抽出装置
JPH07219570A (ja) * 1994-01-27 1995-08-18 Yuichi Nishimura カラオケ用音声変換装置
JP2002313015A (ja) 2002-02-14 2002-10-25 Shinano Kenshi Co Ltd 音声再生方法と音声再生装置
JP2005266098A (ja) * 2004-03-17 2005-09-29 Canon Inc 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法
JP4973376B2 (ja) * 2007-08-09 2012-07-11 ヤマハ株式会社 音声の基本周期を検出する装置およびその基本周期を用いて話速変換を行う装置
JP4455644B2 (ja) * 2007-12-07 2010-04-21 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198092A (ja) * 1996-01-16 1997-07-31 Yamaha Corp ピッチ検出装置
JPH10187188A (ja) * 1996-12-27 1998-07-14 Shinano Kenshi Co Ltd 音声再生方法と音声再生装置
JP2006227110A (ja) * 2005-02-15 2006-08-31 Sony Corp オーディオ入出力制御装置及びオーディオ入出力制御方法
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2008020870A (ja) * 2006-07-14 2008-01-31 Arex:Kk 話速変換装置及び話速変換方法
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置

Also Published As

Publication number Publication date
US9361905B2 (en) 2016-06-07
JP5956936B2 (ja) 2016-07-27
JP2014145863A (ja) 2014-08-14
US20150371660A1 (en) 2015-12-24

Similar Documents

Publication Publication Date Title
CA2253749C (en) Method and device for instantly changing the speed of speech
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP4254479B2 (ja) オーディオ帯域拡張再生装置
JP2010244602A (ja) 信号処理装置及び方法、並びにプログラム
US20030216925A1 (en) Compression method and apparatus, decompression method and apparatus, compression/decompression system, peak detection method, program, and recording medium
JP3630609B2 (ja) 音声情報再生方法ならびに装置
JP3619946B2 (ja) 話速変換装置、話速変換方法及び記録媒体
JP3881932B2 (ja) 音声信号補間装置、音声信号補間方法及びプログラム
JP5956936B2 (ja) 音声データ再生速度変換方法および音声データ再生速度変換装置
JPS5982608A (ja) 音声の再生速度制御方式
JP3901475B2 (ja) 信号結合装置、信号結合方法及びプログラム
JP2009075280A (ja) コンテンツ再生装置
US20070192089A1 (en) Apparatus and method for reproducing audio data
JP6062665B2 (ja) 音声のピッチ周期を抽出する信号処理装置及びプログラム
JP4089713B2 (ja) 波形データ再生装置および記録媒体
JP2002297200A (ja) 話速変換装置
CN115206345B (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
JP5177657B2 (ja) 音響特性制御装置
JP4016992B2 (ja) 波形データ解析方法、波形データ解析装置およびコンピュータ読み取り可能な記録媒体
JP3731478B2 (ja) 波形データ解析方法、波形データ解析装置および記録媒体
JP5863472B2 (ja) 話速変換装置およびそのプログラム
US20050254374A1 (en) Method for performing fast-forward function in audio stream
CN112309419A (zh) 多路音频的降噪、输出方法及其***
JP2008020870A (ja) 話速変換装置及び話速変換方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14743609

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14763303

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14743609

Country of ref document: EP

Kind code of ref document: A1