JP2013148654A - 話速変換装置、そのプログラムおよびプログラムを記録した記録媒体 - Google Patents

話速変換装置、そのプログラムおよびプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2013148654A
JP2013148654A JP2012008073A JP2012008073A JP2013148654A JP 2013148654 A JP2013148654 A JP 2013148654A JP 2012008073 A JP2012008073 A JP 2012008073A JP 2012008073 A JP2012008073 A JP 2012008073A JP 2013148654 A JP2013148654 A JP 2013148654A
Authority
JP
Japan
Prior art keywords
section
voice
deletion
speech
audio content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012008073A
Other languages
English (en)
Other versions
JP5863472B2 (ja
Inventor
Atsushi Imai
篤 今井
Nobumasa Seiyama
信正 清山
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2012008073A priority Critical patent/JP5863472B2/ja
Publication of JP2013148654A publication Critical patent/JP2013148654A/ja
Application granted granted Critical
Publication of JP5863472B2 publication Critical patent/JP5863472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】文章を斜め読みするかのように、音声コンテンツを高速再生することが可能な話速変換装置を提供する。
【解決手段】話速変換装置1は、音声コンテンツの時刻ごとの音響特徴量と、音声区間および非音声区間を時刻に対応付けて記憶する記憶手段20と、非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量との変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間として探索する削除区間探索手段30と、探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する指定された再生倍率の出力時間長となるように、削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段40と、を備えることを特徴とする。
【選択図】図1

Description

本発明は、音声コンテンツを再生する際に話速を変換させる話速変換装置、そのプログラムおよびプログラムを記録した記録媒体に関する。
近年、オーディオブックなどの予め録音された音声コンテンツや、インターネットなどの通信媒体を介して配信される音声コンテンツが普及している。それに伴い、利用者からこれらの音声コンテンツを高速に聞きたいという要望が高まっている。この要望を解決する一手法としては、音声コンテンツの再生速度を一律に上げる手法が一般的である。
この手法は、再生倍率に従って、音声波形を線形に伸縮させるものである。また、音声波形を伸縮させる際に、アナログ音声信号のように音程の変化を生じさせることなく、原音声の高さ(ピッチ)を保ちながら時間短縮を行う手法が、特許文献に開示されている(例えば、特許文献1参照)。
しかし、このように、音声波形を伸縮させる手法では、元の音声の話速にもよるが、概ね3倍速再生が、人が聞き取れる限界とされている。
そこで、このような再生速度を上げても聞き取り易くする手法として、音声信号内の無音区間を一部削除して、その時間を音声の再生時間に割り当てる手法が提案されている(例えば、特許文献2参照)。
この手法は、指定された変換倍率で音声信号を話速変換して目標時間長の音声信号とする際に、その時間内で、音声をできるだけゆっくり再生させる手法である。すなわち、この手法は、話速変換によって音声の再生速度を上げる際に、無音区間の一部を削除し、目標時間長における音声の再生時間の割合を高めている。これによって、この手法は、無音区間を削除せずに、音声信号を目標時間長に話速変換した場合に比べて、目標時間長における音声の時間長の割合が高くなり、ゆっくり音声が再生されることになる。
また、音声の再生速度を保持しつつ、部分的に音声信号を削除して、音声に対応した映像の再生速度を上げる手法が提案されている(例えば、特許文献3参照)。
この手法は、音声信号をリングメモリに書き込み、読み出し時に1倍速の再生タイミングで音声信号を再生し、対応する映像信号をn倍速で再生する。このとき、この手法は、リングメモリの容量以内の音声信号については1倍速で再生するが、容量を超えた音声信号については削除している。
特開平9−16193号公報 特開平10−301598号公報 特開平8−147874号公報
前記した特許文献1の手法では、概ね3倍速再生が人が聞き取れる限界とされており、それよりも高速に再生すると、内容を把握することができないという問題がある。
一方、人が目視で文章を読む場合、いわゆる斜め読みを行うことで、文章を3倍速で音声再生する場合よりも、さらに早く文章の内容を把握することができる。特に、視覚障害者からは、少なくとも斜め読みと同程度の速さで、音声コンテンツを高速に聞きたいという要望がある。
また、前記した特許文献2の手法によって、高速再生時の聞き取り易さを改善することは可能である。しかし、再生速度は3倍速で十分であるという人であっても、長時間視聴は疲れてしまう。そこで、この手法に対して、さらなる聞き取り易さの改善が望まれていた。
また、前記した特許文献3の手法では、リングバッファを超過する音声信号を無条件に削除してしまう。そのため、この手法では、重要な意味内容を持つ音声が音声信号から削除されてしまうことがあり、内容を把握することが困難であるという問題がある。
本発明は、以上のような問題、要望に鑑みてなされたものであり、文章を斜め読みするかのように、音声コンテンツをその内容を把握しつつ高速に再生するとともに、高速再生時においても聞き取り易くすることが可能な話速変換装置を提供することを課題とする。
本発明は、前記課題を解決するために創案されたものであり、まず、本発明の話速変換装置は、音声コンテンツを部分的に削除し、指定された再生倍率で再生させる話速変換装置であって、音声コンテンツ記憶手段と、音響特徴量記憶手段と、区間情報記憶手段と、削除区間探索手段と、出力時間長調整手段と、を備える構成とした。
かかる構成において、話速変換装置は、音声コンテンツ記憶手段に、話速変換する対象となる音声コンテンツを予め記憶する。また、話速変換装置は、音響特徴量記憶手段に、音声コンテンツの時刻ごとの音響特徴量を時刻に対応付けて予め記憶する。この音響特徴量は、音声の音響としての物理的特徴量であって、例えば、ピッチ(物理的な声の高さ)、パワー(物理的な声の大きさ)である。
また、話速変換装置は、区間情報記憶手段に、音声コンテンツの音声区間および非音声区間を音声コンテンツの時刻に対応付けて予め記憶する。この音声区間および非音声区間は、例えば、音声のパワーが予め定めた閾値より大きいか小さいかによって、区分することができる。ここで、音声区間は、話者が発話した区間をいい、非音声区間は、話者が発話していない区間をいう。また、この非音声区間には、話者が発話していない区間に加え、ノイズや無音等も含まれる。
そして、話速変換装置は、削除区間探索手段によって、非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間として探索する。すなわち、削除区間探索手段は、非音声区間の直前で、音声の大きさの変化が少ない場合等、音響特徴量の変化が少ない音声区間については、音声コンテンツから削除する区間として設定する。このように、音響特徴量の変化が少ない音声区間は、発話者が相手に伝える意思が弱いと判断し、本発明においては削除する。
そして、話速変換装置は、出力時間長調整手段によって、削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する指定された再生倍率の出力時間長となるように、削除区間を除いた音声コンテンツを伸縮させて出力する。このとき、削除区間が設定されていることから、出力すべき音声は、その削除された分だけ余分に再生時間が確保されることになる。これにより、元の音声コンテンツをそのまま話速変換する場合に比べ、出力すべき音声がゆっくり再生されることになる。
また、本発明の話速変換装置は、音響特徴量抽出手段と、区間情報検出手段と、をさらに備えることを特徴とする。
かかる構成において、話速変換装置は、音響特徴量抽出手段によって、音声コンテンツから音響特徴量を抽出し、時刻に対応付けて音響特徴量記憶手段に書き込む。この音響特徴量は、パワー、ピッチ等の物理的特徴量である。
また、話速変換装置は、区間情報検出手段によって、音声コンテンツにおいて、音声区間および非音声区間を検出し、時刻に対応付けて当該音声区間および当該非音声区間を区間情報記憶手段に書き込む。
このように、音響特徴量抽出手段および区間情報検出手段は、音響特徴に基づいて音声コンテンツを予め分析し、時刻ごとの音響特徴量や、音声区間および非音声区間といった特徴を抽出し、削除区間を探索するための準備を行う。これによって、本発明の話速変換装置は、任意の音声コンテンツを入力として、話速変換を行うことができる。
また、本発明の話速変換装置は、音響特徴量が、声の高さを示すピッチおよび声の大きさを示すパワーであって、削除区間探索手段が、ピッチ参照探索手段と、パワー参照探索手段と、削除区間決定手段と、を備えることを特徴とする。
かかる構成において、話速変換装置は、ピッチ参照探索手段によって、音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。また、話速変換装置は、パワー参照探索手段によって、音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。すなわち、話速変換装置は、同じ音声区間において、ピッチとパワーとで、終了時刻からの時間長が異なる削除区間をそれぞれ探索する。
そして、話速変換装置は、削除区間決定手段によって、ピッチ参照探索手段で探索された削除区間とパワー参照探索手段で探索された削除区間とから、予め定めたピッチおよびパワーの重みの比率に応じて、音声区間における削除区間を決定する。すなわち、ピッチの重みが大きければ、ピッチ参照探索手段で探索された削除区間に近い区間が設定され、パワーの重みが大きければ、パワー参照探索手段で探索された削除区間に近い区間が設定されることになる。
これによって、本発明の話速変換装置は、ピッチとパワーとの重みに応じて、削除区間を定めることができる。また、本発明の話速変換装置は、各国の言語の特性に応じて、予め重みを変更することで、言語に適した話速変換を行うことができる。例えば、パワーの変化が少ない言語であれば、ピッチの重みを大きくすることで、ピッチを優先させた削除区間を設定することができる。
また、本発明の話速変換装置は、音響特徴量が声の高さを示すピッチであって、削除区間探索手段が、ピッチ参照探索手段を備えることを特徴とする。
かかる構成において、話速変換装置は、ピッチ参照探索手段によって、音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。
また、本発明の話速変換装置は、音響特徴量が声の大きさを示すパワーであって、削除区間探索手段が、パワー参照探索手段を備えることを特徴とする。
かかる構成において、話速変換装置は、パワー参照探索手段によって、音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。
また、本発明の話速変換装置は、削除区間探索手段が音声区間の終了時刻から遡って削除区間を探索する時刻が、当該音声区間の開始時刻から予め定めた時刻を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長を超えない範囲とすることを特徴とする。
かかる構成において、話速変換装置は、削除区間探索手段によって、音声区間において、削除区間を探索する際に、その時間長を制限することで、当該音声区間の音声をすべて削除区間とすることなく、少なくとも先頭から予め定めた時間長が削除されない区間となる。これによって、本発明の話速変換装置は、音響特徴量の変化によらず、少なくとも一連の発話間隔(呼気段落)の先頭から所定の時間長が確保される。そのため、本発明の話速変換装置は、音声を部分的に削除しても、利用者が意味内容を把握することが容易になる。
また、本発明の話速変換装置は、削除区間探索手段が、予め定めた時間長以上の非音声区間において、当該時間長より短い予め定めた時間長を残した他の区間を、さらに音声コンテンツの削除区間とすることを特徴とする。
かかる構成において、話速変換装置は、削除区間探索手段によって、非音声区間の一部を削除区間とすることで、当該削除区間を音声の再生時間に割り当てる。
これによって、本発明の話速変換装置は、音声区間と非音声区間を削除した分だけ、他の音声を割り当てる時間的余裕を確保することができる。そして、本発明の話速変換装置は、同じ再生速度で音声コンテンツを再生する場合、従来の話速変換よりも音声をゆっくり再生することになり、利用者は聞き易くなる。
なお、本発明の話速変換装置は、コンピュータを、削除区間探索手段、出力時間長調整手段、として機能させるための話速変換プログラムによって実現することができる。また、この話速変換プログラムは、コンピュータで読み取り可能な記録媒体に記録して配布することができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音声コンテンツの音声区間の一部を削除することで、音声コンテンツを高速に再生することができる。これによって、利用者は、文章を斜め読みするかのように、音声コンテンツを部分的に高速に聞くことができる。また、本発明によれば、音声区間を削除した分だけ、他の音声を割り当てる時間的余裕を確保することができる。そのため、本発明は、同じ再生速度で音声コンテンツを再生する場合、従来の話速変換よりも音声をゆっくり再生することになり、利用者は聞き易くなる。
本発明の実施形態に係る話速変換装置の構成を示すブロック構成図である。 本発明の実施形態に係る話速変換装置において、削除区間探索手段が探索する非音声区間内の削除区間を説明するための説明図である。 本発明の実施形態に係る話速変換装置において、削除区間探索手段が探索する音声区間内の削除区間を説明するための説明図である。 本発明の実施形態に係る話速変換装置において、出力時間長調整手段が削除区間を除いて音声コンテンツの出力長を制御する手法を説明するための説明図である。 本発明の実施形態に係る話速変換装置の動作を示すフローチャートである。 本発明の他の実施形態に係る話速変換装置の構成を示すブロック構成図である。 本発明の他の実施形態に係る話速変換装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
[話速変換装置の構成]
まず、図1を参照して、本発明の実施形態に係る話速変換装置1の構成について説明する。この話速変換装置1は、音声コンテンツ(音声信号)を1倍速再生よりも高速に再生する際に、無音等の非音声区間のみならず、音声区間を部分的に削除して、話速変換を行うものである。すなわち、話速変換装置1は、人が活字で表された文章を目視で斜め読みするかのように、音声コンテンツを部分再生するものである。
なお、話速変換装置1は、一連の発話のかたまりである、吸気で区切られた呼気段落の終了部分において、音響特徴量の変化が少なくなった箇所を削除することで、発話の意味内容の欠落を極力防止する。
ここでは、話速変換装置1は、音響分析手段10と、記憶手段20と、削除区間探索手段30と、出力時間長調整手段40と、を備えている。
音響分析手段10は、入力された音声コンテンツを音響分析し、時間ごとの音響特徴量(音響特徴情報)や、音声区間、非音声区間(無音区間を含む)の区間情報を抽出するものである。この音響分析手段10は、分析によって抽出した音響特徴情報、区間情報を記憶手段20に書き込み、分析が完了した旨を削除区間探索手段30に通知する。
ここでは、音響分析手段10は、パワー抽出手段11と、ピッチ抽出手段12と、音声区間検出手段13と、を備えている。
パワー抽出手段(音響特徴量抽出手段)11は、外部から入力された音声コンテンツ(音声信号)から、音響特徴量の一つであるパワー(音の強さ、大きさ)を抽出するものである。このパワー抽出手段11におけるパワー抽出の手法は、一般的な手法を用いればよい。例えば、パワー抽出手段11は、音声コンテンツを、所定の時間間隔ごとに、所定のフレーム幅で周波数変換(FFT)し、振幅値を2乗することで、パワー(パワースペクトル)を算出する。
なお、パワー抽出手段11は、パワーの時間経過に伴う信号レベルをスムージング(平滑化)しておく。例えば、パワー抽出手段11は、パワーの逐次変化を、カットオフ周波数6〜10Hz程度でスムージングする。これによって、パワー抽出手段11は、音声コンテンツから、パワーの変化を滑らかにして、ノイズの影響を抑えた、時間経過に伴うパワーの変化を抽出することができる。
このパワー抽出手段11は、抽出した時間経過に伴うパワーの値(dB)を、音響特徴情報の一つとして、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。すなわち、パワー抽出手段11は、パワーのスムージング波形におけるある時刻の瞬時値を、その時刻に対応付けて記憶手段20に書き込む。
ピッチ抽出手段(音響特徴量抽出手段)12は、外部から入力された音声コンテンツ(音声信号)から、音響特徴量の一つであるピッチ(音の高さ)を抽出するものである。このピッチ抽出手段12におけるピッチ抽出の手法は、一般的な手法を用いればよい。例えば、ピッチ抽出手段12は、パワー抽出手段11で抽出されたパワースペクトルの自己相関関数を求め、その自己相関関数の係数の極大値の周期間隔として、ピッチ(基本周波数)を抽出する。
なお、ピッチ抽出手段12は、パワー抽出手段11と同様に、ピッチの時間経過に伴う信号レベルをスムージング(平滑化)しておく。例えば、ピッチ抽出手段12は、ピッチの逐次変化を、カットオフ周波数10Hz程度でスムージングする。これによって、ピッチ抽出手段12は、音声コンテンツから、一般的な会話音声において知覚されない音響成分を除外して、時間経過に伴うピッチの変化を抽出することができる。
このピッチ抽出手段12は、抽出した時間経過に伴うピッチの値(Hz)を、音響特徴情報の一つとして、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。すなわち、ピッチ抽出手段12は、ピッチのスムージング波形におけるある時刻の瞬時値を、その時刻に対応付けて記憶手段20に書き込む。
音声区間検出手段(区間情報検出手段)13は、外部から入力された音声コンテンツ(音声信号)から、音声を含んだ音声区間や、音声を含まない非音声区間(無音区間を含む)を検出するものである。
この音声区間検出手段13における音声/非音声区間の検出手法は、一般的な手法を用いればよい。
例えば、音声区間検出手段13は、パワー抽出手段11で抽出されたパワーが、予め定めた閾値よりも大きい場合に当該時間区間を音声区間と判別し、それ以外を非音声区間とする。なお、この閾値は、音声信号のレベルに応じて適応的に変化させてもよく、特開平10−301593号公報に記載された手法を用いることとしてもよい。
すなわち、音声区間検出手段13は、入力された音声コンテンツに対して、過去の所定の時間内のパワーの最大値および最小値を図示を省略したメモリ等に保持し、その保持されている最大値より予め定めた値だけ小さいパワーに関する閾値を決定する。そして、音声区間検出手段13は、パワーの最大値と最小値との差が予め定めた基準値より小さくなった場合には、その差に応じて閾値を大きくする。これによって、音声レベルの変化に逐次適応させながら、音声区間と非音声区間とを判別することができる。
この音声区間検出手段13は、検出した音声区間および非音声区間(無音区間を含む)のそれぞれの開始時刻および終了時刻を、区間情報として、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。なお、区間情報は、開始時刻および終了時刻以外に、当該区間が、音声区間であるか非音声区間であるかを示す種類情報や、音声コンテンツの最初から何番目の区間であるかを示す識別情報(例えば、シリアル番号等)を含んでいる。
また、ここでは、音響分析手段10は、入力された音声コンテンツから、逐次、音響分析を行うこととした。しかし、音響分析手段10は、音声コンテンツが予め記憶手段20に書き込まれた後、記憶手段20に記憶されている音声コンテンツに対して、音響分析を行うこととしてもよい。
記憶手段(音声コンテンツ記憶手段、音響特徴量記憶手段、区間情報記憶手段)20は、外部から入力された音声コンテンツや、音響分析手段10によって分析された音響特徴情報(パワー、ピッチ)、区間情報(音声区間、非音声区間)を記憶するものである。この記憶手段20は、ハードディスク等の一般的な記憶装置を用いることができる。
この記憶手段20に記憶される音響特徴情報および区間情報は、削除区間探索手段30によって参照され、音声コンテンツの削除区間を探索する際に用いられる。
また、記憶手段20には、削除区間探索手段30によって探索された音声コンテンツの削除区間(削除区間情報)が書き込まれるものとする。
この記憶手段20に記憶される音声コンテンツ、区間情報および削除区間情報は、出力時間長調整手段40によって参照され、部分的に削除した音声コンテンツの出力時間長を調整する際に用いられる。
削除区間探索手段30は、外部から入力される削除条件に基づいて、音声コンテンツの音声区間および非音声区間において、削除する区間を探索するものである。
この削除区間探索手段30は、削除条件により、非音声区間において、予め定めた時間長以上の区間を削除区間とする。また、削除区間探索手段30は、削除条件により、音声区間において、音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間とする。この削除条件については、後で詳細に説明する。
この削除区間探索手段30は、削除すべき区間を示す削除区間情報を記憶手段20に書き込み、削除区間を探索し終わった旨を出力時間長調整手段40に通知する。
ここでは、削除区間探索手段30は、非音声区間探索手段31と、非音声区間部分削除手段32と、音声削除区間探索手段33と、音声区間部分削除手段34と、を備えている。
非音声区間探索手段31は、記憶手段20に記憶されている区間情報に基づいて、予め定めた時間長以上の非音声区間(対象非音声区間)を探索するものである。
この非音声区間探索手段31は、区間情報として記憶されている開始時刻と終了時刻との差が、削除条件として予め定められた時間長よりも長い非音声区間を探索する。この予め定めた時間長は、呼気段落内の短い非音声区間を削除対象とすることを除外するための時間長であって、例えば、300msとする。
この非音声区間探索手段31は、探索した対象非音声区間の識別情報(シリアル番号)を、非音声区間部分削除手段32と、音声削除区間探索手段33とに出力する。
非音声区間部分削除手段32は、非音声区間探索手段31で探索された対象非音声区間において、削除条件として予め定められた最低限残す時間長分の区間を残して、区間を部分的に削除するものである。例えば、この最低限残す非音声区間の時間長は、100msとする。
すなわち、非音声区間部分削除手段32は、記憶手段20に記憶されている区間情報の対象非音声区間において、開始時刻から、最低限残す時間長を加算した時刻を終了時刻とし、識別情報(シリアル番号)に対応した新たな区間情報(削除区間情報)として記憶手段20に書き込む。なお、対象非音声区間において、削除する部分区間は、必ずしも対象非音声区間の終端側である必要はなく、始端側であっても構わない。
音声削除区間探索手段33は、非音声区間探索手段31で探索された対象非音声区間の直前の音声区間(対象音声区間)において、予め定めた条件に基づいて、当該音声区間の終端から、音響特徴の変化が少ない削除対象となる区間を探索するものである。
このように、非音声区間探索手段31で探索された対象非音声区間の直前の音声区間を探索対象とすることで、呼気段落の途中で音声が削除されてしまうことを防止することができる。
ここでは、音声削除区間探索手段33は、パワー参照探索手段331と、ピッチ参照探索手段332と、削除区間決定手段333と、を備えている。
パワー参照探索手段331は、対象非音声区間の直前の音声区間(対象音声区間)において、音響特徴量の1つであるパワーの変化が予め定めた変化量よりも少ない時間区間を、当該音声区間の終端から遡って探索するものである。
すなわち、パワー参照探索手段331は、対象非音声区間の開始時刻に対応する記憶手段20に記憶されているパワー値を基準値とし、対象非音声区間の直前の音声区間(対象音声区間)の終了時刻から当該音声区間の開始時刻の方向に時間を遡って、記憶手段20に記憶されているパワー値と基準値との変化量が予め定めた変化よりも少ない区間を求める。そして、パワー参照探索手段331は、その求めた区間の開始時刻を、パワー値により求めた削除区間の開始時刻(パワー参照削除開始時刻)とする。
ここで、パワー参照探索手段331が音声区間の終了時刻から開始時刻の方向に時間を遡る時間は、その最大時間が予め設定されているものとする。また、パワー参照探索手段331は、予め定めた最大時間以内であっても、音声区間の開始時刻から予め定めた時間区間以上は遡らないこととする。これによって、音声区間には、少なくとも先頭から予め定めた時間以上の削除対象外の区間が設定されることになり、呼気段落における文頭部分が削除されることがない。なお、パワー参照探索手段331は、音声区間の時間長が予め定めた時間長より短い区間については、削除を行う対象音声区間と扱わないこととする。
このパワー参照探索手段331は、音声区間における削除区間の開始時刻(パワー参照削除開始時刻)を削除区間決定手段333に出力する。
なお、パワー参照探索手段331が探索する削除区間の例については、後でさらに具体的に説明する。
ピッチ参照探索手段332は、対象非音声区間の直前の音声区間(対象音声区間)において、音響特徴量の1つであるピッチの変化が予め定めた変化量よりも少ない時間区間を、当該音声区間の終端から遡って探索するものである。
すなわち、ピッチ参照探索手段332は、対象非音声区間の開始時刻に対応する記憶手段20に記憶されているピッチ値を基準値とし、対象非音声区間の直前の音声区間(対象音声区間)の終了時刻から当該音声区間の開始時刻の方向に時間を遡って、記憶手段20に記憶されているピッチ値と基準値との変化量が予め定めた変化よりも少ない区間を求める。そして、ピッチ参照探索手段332は、その求めた区間の開始時刻を、ピッチ値により求めた削除区間の開始時刻(ピッチ参照削除開始時刻)とする。
ここで、ピッチ参照探索手段332が音声区間の終了時刻から開始時刻の方向に時間を遡る時間は、その最大時間が予め設定されているものとする。また、ピッチ参照探索手段332は、パワー参照探索手段331と同様に、予め定めた最大時間以内であっても、音声区間の開始時刻から予め定めた時間区間以上は遡らないこととする。これによって、音声区間には、少なくとも先頭から予め定めた時間以上の削除対象外の区間が設定されることになり、呼気段落における文頭部分が削除されることがない。なお、ピッチ参照探索手段332は、音声区間の時間長が予め定めた時間長より短い区間については、削除を行う対象音声区間と扱わないこととする。
このピッチ参照探索手段332は、音声区間における削除区間の開始時刻(ピッチ参照削除開始時刻)を削除区間決定手段333に出力する。
なお、ピッチ参照探索手段332が探索する削除区間の例については、後でさらに具体的に説明する。
削除区間決定手段333は、パワー参照探索手段331で探索されたパワー参照削除開始時刻と、ピッチ参照探索手段332で探索されたピッチ参照削除開始時刻とに基づいて、対応する音声区間における削除区間(開始時刻)を決定するものである。なお、削除区間の終了時刻は、当該音声区間の終了時刻と同じである。
ここでは、削除区間決定手段333は、パワーとピッチとでいずれに重みをおくかを予め設定し、その重み(比率)に応じて削除区間を決定する。例えば、パワーの重みをm、ピッチの重みをnとし、パワー参照削除開始時刻がtpw、ピッチ参照削除開始時刻がtpiであった場合、削除区間決定手段333は、以下の(1)式によって、削除区間の開始時刻tを算出する。
Figure 2013148654
この削除区間決定手段333は、決定した削除区間(開始時刻)を音声区間部分削除手段34に出力する。
なお、ここでは、削除区間決定手段333は、パワーとピッチとの重み(比率)に応じて、削除区間を決定したが、パワー参照削除開始時刻またはピッチ参照削除開始時刻の早い方の時間区間を当該音声区間における削除区間としてもよいし、パワー参照削除開始時刻またはピッチ参照削除開始時刻の遅い方の時間区間を当該音声区間における削除区間としてもよい。
この削除区間決定手段333において、パワーとピッチとにより、どのように削除区間を決定するかは、例えば、音声コンテンツの言語の種類によって予め定めておくこととしてもよい。例えば、各国の言語の特性に応じて、パワーの変化が少ない言語であれば、ピッチの重みを大きくすることで、ピッチを優先させた削除区間を設定することができる。あるいは、ピッチの変化が少ない言語であれば、パワーの重みを大きくすることで、パワーを優先させた削除区間を設定することができる。
音声区間部分削除手段34は、対象非音声区間の直前の音声区間から、音声削除区間探索手段33で探索された削除区間を部分的に削除するものである。
すなわち、音声区間部分削除手段34は、記憶手段20に記憶されている区間情報の対応する音声区間の終了時刻を、音声削除区間探索手段33で探索された削除区間の開始時刻の直前の時刻に設定し、新たな区間情報(削除区間情報)として記憶手段20に書き込む。
ここで、図2,図3を参照(適宜図1参照)して、削除区間探索手段30が音声コンテンツ内で削除する区間を探索する手法の具体例について説明する。
〔非音声区間の削除区間〕
まず、図2を参照して、非音声区間において削除する区間について説明する。
図2に示すように、削除区間探索手段30は、区間長が予め定めた時間長以上の非音声区間(無音区間を含む)を対象非音声区間Seg1とし、予め定めた最低限残す時間長leaveS1だけを残して、残りの区間を削除区間とする。例えば、対象非音声区間Seg1の時間長は300ms以上とし、最低限残す時間長leaveS1は100msとする。
すなわち、非音声区間探索手段31が、音声コンテンツから、区間長が300ms以上の非音声区間を対象非音声区間Seg1として探索する。そして、非音声区間部分削除手段32が、対象非音声区間Seg1の開始時刻t1sに最低限残す時間長leaveS1を加算した時刻(t1s+leaveS1)から、対象非音声区間Seg1の終了時刻t1eまでの区間を削除区間とする。
これによって、対象非音声区間Seg1の開始時刻t1sから、leaveS1の時間長分の非音声区間が削除されずに残されることになる。
〔音声区間の削除区間〕
次に、図3を参照して、音声区間において削除する区間について説明する。なお、部分的に削除する対象となる音声区間は、図2で説明した対象非音声区間Seg1の直前の音声区間(対象音声区間Seg2)である。この対象音声区間Seg2は、予め定めた最低限残す時間長leaveS2よりも長い区間とする。
図3に示すように、削除区間探索手段30は、対象非音声区間Seg1の直前であって、最低限残す時間長leaveS2よりも長い音声区間である対象音声区間Seg2において、対象非音声区間Seg1の開始時刻t1sにおける音響特徴を基準に、終了時刻t2eから、当該音響特徴との変化量が予め定めた基準よりも多くなる探索最終時刻tstopまで遡り、音響特徴の変化量が予め定めた基準より少ない区間を削除区間とする。このとき、探索最終時刻tstopと終了時刻t2eとの時間長は、最大でも予め定めた最大削除時間長cutMaxを超過しないこととし、削除区間探索手段30は、対象音声区間Seg2の冒頭から最低限残す時間長leaveS2の時間区間までは探索を行わないこととする。例えば、最大削除時間長cutMaxは250ms、最低限残す時間長leaveS2は50msとする。
すなわち、音声削除区間探索手段33のパワー参照探索手段331およびピッチ参照探索手段332は、対象音声区間Seg2の終了時刻t2eから遡って削除区間を探索する時刻が、対象音声区間Seg2の開始時刻t2sから予め定めた時刻(t2s+leaveS2)を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長(最大削除時間長cutMax)を超えない範囲で、対象非音声区間Seg1の先頭の基準となる音響特徴に対して、変化が少ない区間を削除区間とする。
以下、対象音声区間Seg2において、探索を継続する条件、すなわち、音響特徴の変化が予め定めた基準より少ない条件(削除条件)について、例を挙げて説明する。
(パワーを参照する場合)
まず、パワー参照探索手段331が、対象音声区間Seg2において、パワーを参照して、削除区間を探索する条件について説明する。なお、以下の条件を満たす場合であっても、最大削除時間長cutMax、最低限残す時間長leaveS2によって、探索時刻が制限を受けることは前記したとおりである。
<例1>
例1として、パワー参照探索手段331は、対象非音声区間Seg1の開始時刻t1sにおけるパワー値(時刻t1sにおけるスムージング波形の瞬時値)をPWBASE、探索時点におけるパワー値(探索時刻におけるスムージング波形の瞬時値)をPWNOWとしたとき、以下の(2)式の条件を満たす間、探索を続ける。
Figure 2013148654
ここで、th1は、予め定めた閾値であって、例えば、10(dB)とする。
パワー参照探索手段331は、この条件を満たさなくなった探索時刻を、探索最終時刻tstopとする。
この例1によれば、音声区間の終端部分のパワーと、非音声区間の先頭のパワーとを比較して、その差が小さいことを条件に、削除する区間を特定する。
<例2>
例2として、パワー参照探索手段331は、対象非音声区間Seg1の開始時刻t1sにおけるパワー値(時刻t1sにおけるスムージング波形の瞬時値)をPWBASE、探索時点におけるパワー値(探索時刻におけるスムージング波形の瞬時値)をPWNOW、対象音声区間Seg2におけるパワー値の最大値をPWMAX、最小値をPWMINとしたとき、以下の(3)式の条件を満たす間、探索を続ける。
Figure 2013148654
ここで、th2は、閾値を調整する予め定めた係数であって、例えば、0.1とする。
パワー参照探索手段331は、この条件を満たさなくなった探索時刻を、探索最終時刻tstopとする。
この例2によれば、音声区間の終端部分のパワーが、非音声区間の先頭のパワーと比較して、その差が小さいことを条件とする点においては、例1と同じである。しかし、その差が発話者によって異なることに鑑み、音声区間内のパワーに応じて閾値を変化させることとした。これによって、音声コンテンツにおいて発話者が変化する場合であっても、適宜最適な削除区間を特定することができる。
(ピッチを参照する場合)
次に、ピッチ参照探索手段332が、対象音声区間Seg2において、ピッチを参照して、削除区間を探索する条件について説明する。
ピッチ参照探索手段332は、対象非音声区間Seg1の開始時刻t1sにおけるピッチ値(時刻t1sにおけるピッチ波形のスムージング周波数)をPTBASE、探索時点におけるピッチ値(探索時刻におけるピッチ波形のスムージング周波数)をPTNOWとしたとき、以下の(4)式の条件を満たす間、探索を続ける。
Figure 2013148654
ここで、th3は、予め定めた閾値であって、例えば、2とする。
ピッチ参照探索手段332は、この条件を満たさなくなった探索時刻を、探索最終時刻tstopとする。
この例によれば、音声区間の終端部分のピッチが、非音声区間の先頭のピッチの所定倍数よりも小さいことを条件に、削除する区間を特定する。
なお、この条件を満たす場合であっても、最大削除時間長cutMax、最低限残す時間長leaveS2によって、探索時刻が制限を受けることは前記したとおりである。
図1に戻って、話速変換装置1の構成について説明を続ける。
出力時間長調整手段40は、削除区間探索手段30によって探索された、音声区間および非音声区間の削除する区間(削除区間情報)に基づいて、音声コンテンツを部分的に削除するとともに、指定された再生速度となるように、音声コンテンツの出力時間長を調整するものである。ここでは、出力時間長調整手段40は、伸縮率算出手段41と、出力時間長変更手段42と、を備えている。
伸縮率算出手段41は、削除区間探索手段30によって探索された削除区間を削除した音声コンテンツの再生時間長が、指定された再生速度(再生倍率)で削除前の音声コンテンツを再生した時間長と同じになるように、音声区間の伸縮率を算出するものである。なお、非音声区間については、伸縮率を“1”として、伸縮を行わないこととする。
具体的には、伸縮率算出手段41は、削除前の音声コンテンツにおける音声区間の総時間長をP、非音声区間の総時間長をQ、指定された再生速度(再生倍率)をR、削除区間削除後の音声コンテンツにおける音声区間の総時間長をP、非音声区間の総時間長をQ、としたとき、以下の(5)式によって、音声区間の伸縮率Rを算出する。
Figure 2013148654
この伸縮率算出手段41は、算出した音声区間の伸縮率を、出力時間長変更手段42に出力する。
なお、音声コンテンツを高速再生する場合、基本的には、伸縮率算出手段41は、音声区間を短くする方向に伸縮率を算出することになる。しかし、再生倍率が小さく、また、音声区間内の削除区間が長い場合、伸縮率算出手段41は、残った音声区間を伸ばす方向に伸縮率を算出する場合もあり得る。
出力時間長変更手段42は、伸縮率算出手段41で算出された伸縮率に基づいて、削除区間探索手段30で探索された削除区間を削除した音声コンテンツの出力時間長を変更するものである。すなわち、出力時間長変更手段42は、記憶手段20に記憶されている区間情報および削除区間情報に基づいて、音声コンテンツの音声データを区間(音声区間、非音声区間)ごとに読み出し、出力時間長を調整する。
ここで、出力時間長変更手段42は、音声区間については、削除区間情報によって削除区間が定められている場合、当該削除区間を削除した音声データを記憶手段20から読み出して、伸縮率算出手段41で算出された伸縮率で時間長を変更する。
また、出力時間長変更手段42は、削除区間が定められていない音声区間については、そのまま音声区間分の音声データを記憶手段20から読み出して、伸縮率算出手段41で算出された伸縮率で時間長を変更する。
ここで、伸縮率に応じて音声データを伸縮させるには、ピッチの周期に応じて音声波形の間引き/繰り返しを行い、音声波形どうしを伸縮率に応じた時間長で重ね合わせて接続すればよい。このような音声データの伸縮には、一般的な話速変換手法を用いればよく、例えば、特許第3327936号、特許第2955247等の技術を用いることができる。
また、出力時間長変更手段42は、非音声区間については、削除区間情報によって削除区間が定められている場合、当該削除区間を削除した音声データ(非音声データ)を記憶手段20から読み出し、伸縮を行わずにそのまま出力する。
また、出力時間長変更手段42は、削除区間が定められていない非音声区間については、非音声区間分の音声データ(非音声データ)を記憶手段20から読み出し、伸縮を行わずにそのまま出力する。
このように、話速変換装置1は、非音声区間のみならず、音声区間においても削除区間を設けて出力時間長を調整することで、従来の話速変換と同じ再生速度であっても、部分的に再生する音声に対する時間長を、従来よりも長く割り当てることができ、再生時において、音声を聞き取り易くすることができる。
ここで、図4を参照(適宜図1参照)して、話速変換装置1における音声コンテンツの話速変換処理を模式的に説明する。
図4(a)は、話速変換前の音声コンテンツのデータを示し、音声区間と非音声区間とが含まれた状態を示している。なお、非音声区間は、所定時間長以上の削除の対象となる対象非音声区間とする。また、音声区間には、非音声区間の前に音響特徴量の変化が少ない区間Bが含まれていることとする。
すなわち、話速変換装置1は、音響分析手段10によって、音声コンテンツを音響分析することで、音声区間や非音声区間(無音区間を含む)の区間情報や、区間A,Bを特定ためのパワーやピッチ等の音響特徴情報を生成する。
図4(b)は、図4(a)の音声コンテンツにおいて、削除区間を設定した状態を示している。すなわち、話速変換装置1は、図4(b)に示すように、削除区間探索手段30によって、図4(a)で示した音響特徴量の変化が少ない区間Bを削除区間D1として特定するとともに、非音声区間についても所定時間長以上の区間を削除区間D2として特定する。そして、話速変換装置1は、音声区間において、区間Aのみを再生対象とする。
図4(c)は、話速変換装置1が、図4(a)の音声コンテンツを話速変換した後のデータを示している。ここでは、一例として再生速度を3倍としている。
すなわち、話速変換装置1は、出力時間長調整手段40によって、音声コンテンツから削除区間D1,D2を削除して、総時間長が、図4(a)の音声コンテンツに対して3倍速となるように、音声区間の出力時間長を調整する。ここでは、図4(a)の音声コンテンツの音声区間のうちで区間Aのみが、(c)の区間A1に変換されたことを示している。
図4(d)は、従来の話速変換によって、図4(a)の音声コンテンツを話速変換した後のデータを示している。なお、従来手法においても、非音声区間から部分的にデータ(D2)を削除しているものとする。この従来手法では、図4(a)の音声コンテンツの音声区間の区間Aと区間Bとが、(d)の区間A2と区間B2とにそれぞれ変換されたことを示している。すなわち、この従来手法では、話速変換装置1が音声区間から削除する音響特徴量の変化が少ない区間Bに対しても話速変換を行っている。
この図4(c)と図4(d)を比較しても分かるように、同じ再生速度であっても、図4(a)に示した音声区間のうち、部分的に再生したい区間Aの音声データの時間長が、(c)では区間A1、(d)では区間A2の時間長となり、図4(c)の方が長い時間長を確保することができる。このように、話速変換装置1によって話速変換された音声は、従来手法によって話速変換された音声よりもゆっくり再生されることになり、聞き取り易くなる。
以上、話速変換装置1の構成について説明したが、この話速変換装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(話速変換プログラム)により動作させることができる。また、このプログラムは、コンピュータで読み取り可能なCD−ROM等の記録媒体に記録して配布することもできる。
以上説明したように、話速変換装置1は、音響特徴の変化が少ない音声を削除して、高速再生が可能な音声コンテンツを生成することができる。これによって、話速変換装置1は、従来では3倍速が限界であった再生速度をさらに早めることができ、人が目視で文章を斜め読みするのと同様に、音声コンテンツを聞くことができる。
また、話速変換装置1は、従来と同じ再生速度で再生する場合であっても、再生音声に割り当てる時間が相対的に長いため、従来よりも聞き取り易い音声コンテンツに変換することができる。
[話速変換装置の動作]
次に、図5を参照(構成については適宜図1参照)して、話速変換装置1の動作について説明する。
まず、話速変換装置1は、音響分析手段10によって、入力された音声コンテンツについて、音響分析を行う(ステップS1)。すなわち、話速変換装置1は、音響分析手段10のパワー抽出手段11によって、音響特徴量の一つであるパワー(音の強さ、大きさ)を抽出し、ピッチ抽出手段12によって、ピッチ(音の高さ)を抽出する。さらに、話速変換装置1は、音響分析手段10の音声区間検出手段13によって、音声コンテンツから、音声を含んだ音声区間や、音声を含まない非音声区間(無音区間を含む)を検出する。これらの音響特徴量や区間情報は、記憶手段20に記憶される。また、入力された音声コンテンツも記憶手段20に記憶される。
そして、話速変換装置1は、削除区間探索手段30の非音声区間探索手段31によって、記憶手段20に記憶されている区間情報を参照して、予め定めた時間長以上の非音声区間(対象非音声区間)を探索する(ステップS2)。そして、話速変換装置1は、削除区間探索手段30の非音声区間部分削除手段32によって、対象非音声区間において、削除条件として予め定められた最低限残す時間長分の区間を残して区間を部分的に削除し、新たな区間情報(削除区間情報)として記憶手段20に書き込む(ステップS3)。
そして、話速変換装置1は、ステップS2で探索された対象非音声区間の直前の音声区間において、音声削除区間探索手段33によって、記憶手段20に記憶されている音響特徴情報を参照して、当該音声区間の終端から、音響特徴の変化が少ない削除対象となる区間(削除区間)を探索する(ステップS4)。
すなわち、話速変換装置1は、音声削除区間探索手段33のパワー参照探索手段331によって、対象非音声区間の直前の音声区間(対象音声区間)において、パワーの変化が予め定めた変化量よりも少ない削除区間を、当該音声区間の終端から遡って探索する。また、話速変換装置1は、音声削除区間探索手段33のピッチ参照探索手段332によって、同じ音声区間において、ピッチの変化が予め定めた変化量よりも少ない削除区間を、当該音声区間の終端から遡って探索する。そして、話速変換装置1は、音声削除区間探索手段33の削除区間決定手段333によって、パワーおよびピッチに基づいてそれぞれで独立して探索した削除区間から、予め定めたパワーとピッチとの重みに基づいて削除区間を決定する。
そして、話速変換装置1は、音声区間部分削除手段34によって、ステップS4で探索された削除区間を音声区間から部分的に削除し、新たな区間情報(削除区間情報)として記憶手段20に書き込む(ステップS5)。
そして、話速変換装置1は、区間情報において、対象非音声区間をすべて探索していない場合(ステップS6でNo)、ステップS2に戻って、次の対象非音声区間を探索する。
一方、対象非音声区間をすべて探索し終わった場合(ステップS6でYes)、話速変換装置1は、出力時間長調整手段40によって、記憶手段20に記憶されている新たな区間情報(削除区間情報)に基づいて、音声コンテンツを部分的に削除するとともに、指定された再生速度となるように、音声コンテンツの出力時間長を調整する。
すなわち、話速変換装置1は、出力時間長調整手段40の伸縮率算出手段41によって、削除区間を削除した音声コンテンツの再生時間長が、指定された再生速度(再生倍率)で削除前の音声コンテンツを再生した時間長と同じになるように、音声区間の伸縮率を算出する(ステップS7)。そして、話速変換装置1は、出力時間長調整手段40の出力時間長変更手段42によって、記憶手段20に記憶されている区間情報および削除区間情報に基づいて、音声コンテンツの音声データを区間(音声区間、非音声区間)ごとに読み出し、伸縮率に基づいて出力時間長を調整する(ステップS8)。
以上の動作によって、話速変換装置1は、音声区間においても音声データを削除することで、高速に再生可能な音声コンテンツを出力することができる。
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、話速変換装置1が音響分析手段10を備える構成としたが、予め外部の分析装置において、音声コンテンツに対応したデータ(音響特徴情報、区間情報)が分析されているのであれば、そのデータのみを入力し、記憶手段20に記憶する形態でも構わない。
また、本発明は、音声区間を部分的に削除することに特徴があり、非音声区間部分削除手段32は必須の構成ではない。ただし、非音声区間部分削除手段32を備えることで、削除した非音声区間に、音声の再生時間を割り当てることができるため、当該手段を備えることはより好ましい形態であるといえる。
また、ここでは、話速変換装置1において、音響分析手段10のパワー抽出手段11やピッチ抽出手段12が、それぞれの音響特徴をスムージングして、記憶手段20に書き込むこととした。しかし、パワー抽出手段11やピッチ抽出手段12は、抽出した時刻における音響特徴をそのまま書き込むこととしてもよい。
その場合、音声削除区間探索手段33は、記憶手段20に記憶されている音響特徴を順次スムージングし、時刻ごとの瞬時値を用いて削除区間を探索することとすればよい。
また、ここでは、話速変換装置1が、音響特徴としてパワーおよびピッチの両方を用いることとしたが、いずれか一方であっても構わない。
例えば、図6の話速変換装置1Bの構成として示すように、話速変換装置1(図1)の構成から、パワー抽出手段11、パワー参照探索手段331および削除区間決定手段333を省略して構成することで、音響特徴としてピッチのみを用いて話速変換を行うこととしてもよい。
また、例えば、図7の話速変換装置1Cの構成として示すように、話速変換装置1(図1)の構成から、ピッチ抽出手段12、ピッチ参照探索手段332および削除区間決定手段333を省略して構成することで、音響特徴としてパワーのみを用いて話速変換を行うこととしてもよい。
1 話速変換装置
10 音響分析主手段
11 パワー抽出手段(音響特徴量抽出手段)
12 ピッチ抽出手段(音響特徴量抽出手段)
13 音声区間検出手段(区間情報検出手段)
20 記憶手段
(音声コンテンツ記憶手段、音響特徴量記憶手段、区間情報記憶手段)
30 削除区間探索手段
31 非音声区間探索手段
32 非音声区間部分削除手段
33 音声削除区間探索手段
331 パワー参照探索手段
332 ピッチ参照探索手段
333 削除区間決定手段
34 音声区間部分削除手段
40 出力時間長調整手段
41 伸縮率算出手段
42 出力時間長変更手段

Claims (9)

  1. 音声コンテンツを部分的に削除し、指定された再生倍率で再生させる話速変換装置であって、
    前記音声コンテンツを予め記憶する音声コンテンツ記憶手段と、
    前記音声コンテンツの時刻ごとの音響特徴量を、当該時刻に対応付けて予め記憶する音響特徴量記憶手段と、
    前記音声コンテンツの音声区間および非音声区間を前記音声コンテンツの時刻に対応付けて予め記憶する区間情報記憶手段と、
    前記非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、前記音声コンテンツの削除区間として探索する削除区間探索手段と、
    この削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する前記指定された再生倍率の出力時間長となるように、前記削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段と、
    を備えることを特徴とする話速変換装置。
  2. 前記音声コンテンツから音響特徴量を抽出し、時刻に対応付けて前記音響特徴量記憶手段に書き込む音響特徴量抽出手段と、
    前記音声コンテンツにおいて、音声区間および非音声区間を検出し、時刻に対応付けて当該音声区間および当該非音声区間を前記区間情報記憶手段に書き込む区間情報検出手段と、
    をさらに備えることを特徴とする請求項1に記載の話速変換装置。
  3. 前記音響特徴量は、声の高さを示すピッチおよび声の大きさを示すパワーであって、
    前記削除区間探索手段は、
    前記音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するピッチ参照探索手段と、
    前記音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するパワー参照探索手段と、
    前記ピッチ参照探索手段で探索された削除区間と前記パワー参照探索手段で探索された削除区間とから、予め定めたピッチおよびパワーの重みの比率に応じて、前記音声区間における削除区間を決定する削除区間決定手段と、
    を備えることを特徴とする請求項1または請求項2に記載の話速変換装置。
  4. 前記音響特徴量は、声の高さを示すピッチであって、
    前記削除区間探索手段は、
    前記音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するピッチ参照探索手段、
    を備えることを特徴とする請求項1または請求項2に記載の話速変換装置。
  5. 前記音響特徴量は、声の大きさを示すパワーであって、
    前記削除区間探索手段は、
    前記音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するパワー参照探索手段、
    を備えることを特徴とする請求項1または請求項2に記載の話速変換装置。
  6. 前記削除区間探索手段は、前記音声区間の終了時刻から遡って前記削除区間を探索する時刻が、当該音声区間の開始時刻から予め定めた時刻を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長を超えない範囲とすることを特徴とする請求項1または請求項2に記載の話速変換装置。
  7. 前記削除区間探索手段は、予め定めた時間長以上の非音声区間において、当該時間長より短い予め定めた時間長を残した他の区間を、さらに前記音声コンテンツの削除区間とすることを特徴とする請求項1または請求項2に記載の話速変換装置。
  8. 音声コンテンツを部分的に削除し、指定された再生倍率で再生させるために、前記音声コンテンツを記憶する音声コンテンツ記憶手段と、前記音声コンテンツの時刻ごとの音響特徴量を、当該時刻に対応付けて記憶する音響特徴量記憶手段と、前記音声コンテンツの音声区間および非音声区間を前記音声コンテンツの時刻に対応付けて記憶する区間情報記憶手段とを備えた話速変換装置のコンピュータを、
    前記非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、前記音声コンテンツの削除区間として探索する削除区間探索手段、
    この削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する前記指定された再生倍率の出力時間長となるように、前記削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段、
    として機能させるための話速変換プログラム。
  9. 音声コンテンツを部分的に削除し、指定された再生倍率で再生させるために、前記音声コンテンツを記憶する音声コンテンツ記憶手段と、前記音声コンテンツの時刻ごとの音響特徴量を、当該時刻に対応付けて記憶する音響特徴量記憶手段と、前記音声コンテンツの音声区間および非音声区間を前記音声コンテンツの時刻に対応付けて記憶する区間情報記憶手段とを備えた話速変換装置のコンピュータを、
    前記非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、前記音声コンテンツの削除区間として探索する削除区間探索手段、
    この削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する前記指定された再生倍率の出力時間長となるように、前記削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段、
    として機能させるための話速変換プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2012008073A 2012-01-18 2012-01-18 話速変換装置およびそのプログラム Active JP5863472B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012008073A JP5863472B2 (ja) 2012-01-18 2012-01-18 話速変換装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012008073A JP5863472B2 (ja) 2012-01-18 2012-01-18 話速変換装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013148654A true JP2013148654A (ja) 2013-08-01
JP5863472B2 JP5863472B2 (ja) 2016-02-16

Family

ID=49046231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012008073A Active JP5863472B2 (ja) 2012-01-18 2012-01-18 話速変換装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5863472B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08292790A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd ビデオテープレコーダ
JP2000099097A (ja) * 1998-09-24 2000-04-07 Sony Corp 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
JP2002258900A (ja) * 2001-02-28 2002-09-11 Toshiba Corp 音声再生装置及び音声再生方法
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08292790A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd ビデオテープレコーダ
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
JP2000099097A (ja) * 1998-09-24 2000-04-07 Sony Corp 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
JP2002258900A (ja) * 2001-02-28 2002-09-11 Toshiba Corp 音声再生装置及び音声再生方法
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置

Also Published As

Publication number Publication date
JP5863472B2 (ja) 2016-02-16

Similar Documents

Publication Publication Date Title
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US20100298959A1 (en) Speech reproducing method, speech reproducing device, and computer program
WO2016063879A1 (ja) 音声合成装置および方法
WO2017006766A1 (ja) 音声対話方法および音声対話装置
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
JP6747318B2 (ja) 対話装置
JP3881620B2 (ja) 話速可変装置及び話速変換方法
JP5863472B2 (ja) 話速変換装置およびそのプログラム
JP2009075280A (ja) コンテンツ再生装置
JP5223843B2 (ja) 情報処理装置およびプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP4130927B2 (ja) 音響再生装置
JP6409163B2 (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
JPH09138698A (ja) 音声記録再生装置
JP6062665B2 (ja) 音声のピッチ周期を抽出する信号処理装置及びプログラム
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP5956936B2 (ja) 音声データ再生速度変換方法および音声データ再生速度変換装置
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
JP2008145841A (ja) 再生装置、再生方法、信号処理装置、信号処理方法
Petkov et al. Automated Pause Insertion for Improved Intelligibility Under Reverberation.

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151222

R150 Certificate of patent or registration of utility model

Ref document number: 5863472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250