JP2015132777A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP2015132777A
JP2015132777A JP2014005465A JP2014005465A JP2015132777A JP 2015132777 A JP2015132777 A JP 2015132777A JP 2014005465 A JP2014005465 A JP 2014005465A JP 2014005465 A JP2014005465 A JP 2014005465A JP 2015132777 A JP2015132777 A JP 2015132777A
Authority
JP
Japan
Prior art keywords
section
speech
vowel
transition point
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2014005465A
Other languages
English (en)
Inventor
太郎 外川
Taro Togawa
太郎 外川
千里 塩田
Chisato Shioda
千里 塩田
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014005465A priority Critical patent/JP2015132777A/ja
Publication of JP2015132777A publication Critical patent/JP2015132777A/ja
Ceased legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】
音響モデルを必要としない音声処理装置を提供する。
【解決手段】
音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する推定部を備える。更に当該音声処理装置は、母音区間長に基づいて入力音声の速度を制御する制御部を備える。
【選択図】図1

Description

本発明は、例えば、音声信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。
従来から、入力信号の一例となる音声信号を聞き易く制御する方法が開示されている。例えば、高齢者は、加齢に伴う聴力低下を始めとした音声認識能力が低下する為、携帯端末等の双方向音声通話において、相手の受話音の話速が速くなると、音声が聞き取り難くなる傾向にある。この為、受話音の話速を推定し、当該話速を制御する技術が開示されている。話速の推定技術としては、各母音の標準的な音響モデル(声道特性を表す標準音響特徴量(例えば、フォルマント係数やケプストラム係数など)と称しても良い)と、入力信号の一例となる音声信号の音響特徴量との比較処理によって、音声信号に含まれる母音区間を検出し、単位時間あたりの母音数(モーラ数、または拍数と称しても良い)を検出することにより、話速を推定する技術が開示されている。
特開平7−295588号公報
上述の標準的な音響モデルと入力信号の一例となる音声信号の音響特徴量の比較による話速の推定方法においては、不特定多数の話者の話速を正確に推定することは困難である。これは、声道の長さや形状が個人毎(年齢や性別も含む)に異なり(換言すると、同一の母音でも話者によって音響特徴量が異なる)、標準的な音響モデルに対して乖離が生じ、母音区間の検出に誤差が生じる為である。母音区間の検出誤差を低減させる為に、個人毎(ユーザ毎)の音響モデルを作成する場合、膨大なメモリ量や作成工数を必要とする為、処理負荷の観点から実用的な方法ではない。また、例えば、携帯端末間における通話の場合は、話者が不特定多数となる為、ユーザ毎の音響モデルを作成すること自体が困難である。この為、不特定多数の話者の音声信号に対する話速の推定精度が高い音声処理装置は、提供されていない状況である。本発明においては、音響モデルを必要としない音声処理装置を提供することを目的とする。
本発明が開示する音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する推定部を備える。更に当該音声処理装置は、母音区間長に基づいて入力音声の速度を制御する制御部を備える。
なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示される音声処理装置では、音声信号の話速の推定精度を向上させることが可能となる。
第1の実施形態による音声処理装置の機能ブロック図である。 一つの実施形態による検出部の機能ブロック図である。 検出部による有音区間と無音区間の検出結果を示す図である。 (a)は、単位時間とピッチ周波数の関係図である。(b)は、単位時間とピッチ変化率の関係図である。 (a)は、単位時間とパワーの関係図である。(b)は、単位時間とパワー変化率の関係図である。 話速とアクセント区間の関係図である。 母音区間長と有音区間の目標伸縮率の関係図である。 実施例1と比較例の推定話速精度の比較図である。 音声処理装置による音声処理方法のフローチャートである。 第2の実施形態による音声処理装置の機能ブロック図である。 一つの実施形態による携帯端末装置として機能するハードウェア構成図である。 一つの実施形態による音声処理装置として機能するコンピュータのハードウェア構成図である。
以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。
(実施例1)
図1は、第1の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、推定部4、制御部5を有する。
取得部2は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部2は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部2は、入力音声を、例えば、有線回路または無線回路を介して取得する。また、取得部2は、例えば、音声処理装置1に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、日本語であるが、他の言語であっても良い。取得部2は、取得した入力音声を検出部3、推定部4と制御部5に出力する。
検出部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部3は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部3は、入力音声を取得部2から受け取る。検出部3は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、ユーザが発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間(換言すると第1の呼吸と第2呼吸の間の区間、または発話を続けている区間)となる。検出部3は、例えば、入力音声に含まれる複数のフレームから信号品質の一例となる信号電力対雑音比となる平均SNRを検出し、当該平均SNRが所定の条件を満たしている区間を有音区間(換言すると呼気区間)として検出することが出来る。また、検出部3は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。検出部3は、例えば、上述の当該平均SNRが所定の条件を満たさない区間を無音区間(換言すると吸気区間)として検出することが出来る。検出部3は、検出した有音区間と無音区間を制御部5へ出力する。また、検出部3は、検出した有音区間と無音区間を必要に応じて推定部4に出力する。
ここで、検出部3による有音区間と無音区間の検出処理の詳細について説明する。図2は、一つの実施形態による検出部3の機能ブロック図である。検出部3は、音量算出部10、雑音推定部11、平均SNR算出部12、区間決定部13を有する。なお、検出部3は、音量算出部10、雑音推定部11、平均SNR算出部12、区間決定部13を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、検出部3に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。
図2において、入力音声が検出部3を介して音量算出部10に入力される。なお、音量算出部10は、図示しない長さmのバッファまたはキャッシュを有する。音量算出部10は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部11と平均SNR算出部12へ出力する。なお、入力音声に含まれる各フレーム長は、例えば0.2msecである。各フレームの音量Sは、次式の通り、算出することが出来る。
(数1)

但し、上述の(数1)において、nは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(nは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、入力音声の振幅(電力)を示す。
雑音推定部11は、各フレームの音量S(n)を音量算出部10から受け取る。雑音推定部11は、各フレームにおける雑音を推定して、雑音推定結果を平均SNR算出部12へ出力する。ここで、雑音推定部11による各フレームの雑音推定は、例えば、以下の(雑音推定方法1)または、(雑音推定方法2)を用いることが出来る。
(雑音推定方法1)
雑音推定部11は、フレームnにおける雑音の大きさ(電力)N(n)を、フレームnにおける音量S(n)、前フレーム(n−1)における音量S(n−1)ならびに、雑音の大きさN(n−1)に基づいて、次式を用いて推定することが出来る。
(数2)

但し、上述の(数2)において、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数2)において、フレームnの音量S(n)が、1つ前のフレームn−1の音量S(n−1)に対して一定値β以上変化しない場合には、フレームnの雑音電力N(n)が更新される。一方、フレームnの音量S(n)が、1つ前のフレームn−1の音量S(n−1)に対して一定値β以上変化する場合には、1つ前のフレームn−1の雑音電力N(n−1)をフレームnの雑音電力N(n)とする。なお、雑音電力N(n)を上述の雑音推定結果と称しても良い。
(雑音推定方法2)
雑音推定部11は、雑音の大きさの更新を、次式の(数3)を用いて、フレームnの音量S(n)と、1つ前のフレームn−1の雑音電力N(n−1)との比に基づいて実施しても良い。
(数3)

但し、上述の(数3)において、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数3)において、フレームnの音量S(n)が、1つ前のフレームn−1の雑音電力N(n−1)に対して一定値γ倍以下である場合には、フレームnの雑音電力N(n)を更新する。一方、フレームnの音量S(n)が、1つ前のフレームn−1の雑音電力N(n−1)に対して一定値γ倍以上である場合には、1つ前のフレームn−1の雑音電力N(n−1)をフレームnの雑音電力N(n)とする。
図2において、平均SNR算出部12は、音量算出部10から各フレームの音量S(n)を受け取り、雑音推定部11から雑音推定結果となる各フレームの雑音電力N(n)を受け取る。なお、平均SNR算出部12は、図示しないキャッシュまたはメモリを有しており、過去Lフレーム分の音量S(n)、雑音電力N(n)を保持する。平均SNR算出部12は、次式を用いて、分析対象時間(フレーム)内の平均SNRを算出し、当該平均SNRを区間決定部13へ出力する。
(数4)

但し、上述の(数4)において、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
区間決定部13は、平均SNRを平均SNR算出部12から受け取る。区間決定部13は、図示しないバッファまたはキャッシュを有しており、区間決定部13による前処理フレームが、有音区間内(換言すると呼気区間内)であるか否かを示すフラグn_breathを保持する。区間決定部13は、平均SNRとn_breathに基づいて、次式の(数5)を用いて有音区間の始端tbを検出し、次式の(数6)に用いて有音区間の終端teを検出する。
(数5)
tb=n×M
(if n_breath=有音区間ではない、かつ、SNR(n)>THSNR)
(数6)
te=n×M−1
(if n_breath=有音区間、かつ、SNR(n)<THSNR)

ここで、THSNRは、区間決定部13による処理フレームnが雑音ではないと看做すための閾値であり、実験的に規定されれば良い。また、区間決定部13は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。
図3は、検出部3による有音区間と無音区間の検出結果を示す図である。図3の横軸は時間を示し、縦軸は入力音声の音量(振幅)を示している。図3に示される通り、各有音区間の後端に連接する区間が無音区間として検出される。また、図3に示される通り、実施例1に開示する検出部3による有音区間の検出においては、背景騒音に合わせて雑音を学習し、SNRに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均SNRを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。なお、検出部3は、国際公開第2009/145192号パンフレットに記載の方法を用いることも可能である。また、検出部3は、必ずしも有音区間と無音区間の検出処理は必要としないが、有音区間と無音区間を検出し、後述の各種処理(例えば、推定部4の推定処理)を有音区間のみに対して実行することで処理負荷を大幅に軽減することが可能となる。実施例1においては、説明の便宜上、検出部3は有音区間と無音区間を検出するものとして説明する。
図1において、推定部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、推定部4は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。推定部4は、入力音声を取得部2から受け取る。また、推定部4は、必要に応じて有音区間または無音区間を検出部3から受け取る。検出部3から有音区間または無音区間を受け取った場合、推定部4は、有音区間のみに対して、後述する各種処理を実施することができる。実施例1においては、説明の便宜上、推定部4は、検出部3から有音区間と無音区間を受け取るものとして説明する。推定部4は、入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する(なお、当該推定処理の技術的意義の詳細については後述する)。具体的には、音響特徴量の単位時間あたりの正の値の変化量が、所定の第1閾値以上を満たす点を第1遷移点または第2遷移点として検出し、当該第1遷移点と第2遷移点の区間を母音区間長として推定する。なお、音響特徴量は、例えば、入力音声のピッチ周波数またはパワーであれば良い。更に、推定部4は、音響特徴量の単位時間あたりの負の値の変化量が、所定の第2閾値未満を満たす区間の始端を、母音区間長の終端として推定する。
推定部4は、上述の少なくとも一つの母音区間長として、例えば、入力音声に含まれるアクセント区間を推定する。具体的には、推定部4は、例えば、入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいてアクセント区間を推定する。推定部4は、推定したアクセント区間を、少なくとも一つの母音区間長として、制御部5へ出力する。推定部4のアクセント区間の推定処理の詳細について、以下に説明する。
(アクセント区間推定方法1)
始めに、推定部4は、自己相関を用いて、入力音声の基本周期を算出する。なお、自己相関とは、入力信号(入力音声)がそれ自身を時間シフトした信号と、どの程度、良く整合するかを測る尺度であり、サンプリングした入力信号の自己相関係数が最大値となる周期を求めることで、入力音声の基本周期を算出することができる。なお、自己相関R(τ)は次式を用いて算出することが出来る。
(数7)

但し、上述の(数7)において、x(n)は入力音声をサンプリングした信号、Lは自己相関を算出する長さ(例えば100サンプル)、τは時間シフトのサンプル数である。
次に、推定部4は、次式に従って、自己相関R(τ)から基本周期fp(n)を算出する。
(数8)

但し、上述の(数8)において、nはフレーム番号を表す。
推定部4は、上述の(数8)を用いて算出した基本周期に基づいてピッチ周波数の時間変化を表すピッチ変化率を算出する。先ず、推定部4は、次式に基づいて基本周期fp(n)からピッチ周波数Pit(n)を算出する。
(数9)
Pit(n) = Fs / fp(n)

但し、上述の(数9)において、Fsはサンプリング周波数(例えば、8000Hz)を表す。
次に、ピッチ周波数の時間変化を表すピッチ変化率ratio(n)を次式を用いて算出する。
(数10)

但し、上述の(数10)において、Lは平均化フレーム数(例えば、4フレーム。80msに相当)を表す。次に、推定部4は、入力音声のフレーム毎のピッチ周波数を算出する。推定部4は、例えば、特開昭63−155200号公報に開示される、入力音声の音声波形の自己相関を用いてピッチ周波数を算出することが可能である。
次に、推定部4は、フレーム毎(単位時間毎)のピッチ変化量の平均値を示す、ピッチ変化率ratioを次式に従って算出する。
(数11)

但し、上述の(数11)において、Pit(n)は、nフレームのピッチ周波数(Hz)であり、Lは、平均化フレーム数(例えば、10フレーム(200ms相当))である。
図4(a)は、単位時間とピッチ周波数の関係図である。図4(b)は、単位時間とピッチ変化率の関係図である。図4(a)、(b)において、有音区間は、「はやくから(早くから)」の単語で構成されている。図4(b)に示すピッチ変化率は、例えば、図4(a)に示すピッチ周波数と上述の(数7)に基づいて算出される。推定部4は、ピッチ周波数が極大点となる箇所(上昇から下降に変化する箇所)を検出する。推定部4は、ピッチ周波数の単位時間の当たりの正の値の変化量が、当該極大点から所定量のピッチ周波数(例えば5Hz)を低くした、所定の閾値(第1閾値と称しても良い)以上になる区間(換言すると、第1遷移点と第2遷移点の区間)を母音区間と推定する。図4(a)に示す通り、推定部4が推定するアクセント区間と、実際のアクセント区間が一致していることが本発明者らの検証で明らかになった。これは、推定部4が、入力音声の単位時間あたりのピッチ周波数に基づいてアクセント区間を推定することが可能であることを示している。
更に、図4(b)に示す様に、推定部4は、ピッチ変化率の単位時間の負の変化量が所定の閾値未満(第2閾値と称しても良い)を満たす区間の始端を、アクセント区間の終端として推定しても良い。これは、アクセント区間の直後でピッチ周波数が下がる性質を利用するものである。一般的には、発話は、常に、多かれ少なかれ経時的に自然なピッチの下降を伴うが、それは話者にも聴者にも何ら意味を持たない生理的現象である。これに対して、アクセントによるピッチ下降は、生理的に自然で無意味な範囲を超えた程度に及び、聴者においても有意的に捉えられる。そのため、アクセントの直後でピッチ変化率が大きく低下する。この性質を利用し、推定部4は、更に、ピッチ変化率が所定の閾値未満を満たす区間の始端を、アクセント区間の終端として推定しても良い。
(アクセント区間推定方法2)
始めに、推定部4は、入力音声のフレーム毎のパワーを算出する。推定部4は、例えば、次式に従って入力音声のフレーム毎のパワーを算出することが出来る。
(数12)

但し、上述の(数12)において、Pow(n)は、nフレームのパワー(単位はdB)であり、Lは、1フレームのサンプル数(160サンプル)であり、フレーム単位の入力音声(信号)である。
次に、推定部4は、次式に従って、フレーム毎(単位時間毎)のパワー変化量の平均値を示す、パワー変化率ratio(n)を次式に従って算出する。
(数13)

但し、上述の(数13)において、Pow(n)は、nフレームのパワー(単位はdB)であり、Lは、平均化フレーム数(例えば、25フレーム(500ms相当))である。
図5(a)は、単位時間とパワーの関係図である。図5(b)は、単位時間とパワー変化率の関係図である。図5(a)、(b)において、有音区間は、「あさはやく(朝早く)」の単語で構成されている。図5(b)に示すパワー変化率は、例えば、図5(а)に示すパワーと上述の(数13)に基づいて算出されれば良い。推定部4は、パワー変化率の上昇傾向(正の値の変化量)が所定の閾値(例えば、2.5dB/フレーム。また、第1閾値と称しても良い)以上を満たす区間(換言すると、第1遷移点と第2遷移点の区間)を母音区間と推定する。図5(b)に示す通り、推定部4が推定するアクセント区間と、実際のアクセント区間が一致していることが本発明者らの検証で明らかになった。これは、推定部4が、入力音声の単位時間あたりのパワーに基づいてアクセント区間を推定することが可能であることを示している。これは、推定部4が、入力音声の単位時間あたりのパワーに基づいてアクセント区間を推定することが可能であることを示している。
上述の(アクセント区間推定方法1)ならびに(アクセント区間推定方法2)において、推定部4は、有音区間の始端または終端から所定の範囲にある区間(例えば、150フレーム)を除いた区間からアクセント区間を推定しても良い。例えば、会話における入力音声では、有音区間の先頭(始端)区間に、「えー」や「あのー」等の、母音区間が比較的長い時間のフィラー(長音)が挿入される場合がある。また、有音区間の末尾(終端)区間は、「〜ですか?」等の疑問形になる場合があり、当該疑問形は、母音区間が比較的長くなる特徴を有する。この為、フィラーや疑問形の区間でアクセント区間を推定する場合は、話速の推定精度が低下することも推定される。この為、推定部4は、有音区間の始端または終端から所定の範囲にある区間を除いた区間からアクセント区間を推定することにより、話速の推定精度を向上させることが可能となる。
更に、上述の(アクセント区間推定方法1)ならびに(アクセント区間推定方法2)における技術的な妥当性について付言する。例えば、「ヨハン、「歌声の科学」、東京電機大学出版局、2007年3月」に開示される様に、音声のピッチ周波数(基本周波数)およびパワー(音の大きさ)は、肺からの空気の圧力である声門下圧と直接的な関係があることが知られている。ここで、声門下圧が上昇すると、声門を通過する空気の流量が多くなる為、ピッチが高くなり、また、パワーが大きくなる。そのため、ピッチ周波数が高い日本語のアクセント区間では、声門下圧が上昇するためパワーが大きくなることが知られている。この為、推定部4が、入力音声の単位時間あたりのパワーやピッチ周波数に基づいてアクセント区間を推定することが出来る。
ここで、推定部4が推定したアクセント区間を、少なくとも一つの母音区間長として推定する技術的意義について説明する。先ず、本発明者らは、日本語や、中国語、スペイン語、フランス語の様な音節拍(音節の長さが等しい)を有する言語は、例えば、「窪園晴夫、「日本語における時間制御の諸相」、2004」に開示される様に、入力音声中の母音区間(拍)は、ほぼ同一(モーラの等時性)となることに着眼した。例えば、「あさはやく(朝早く)」という文章であれば、「あ」、「さ」、「は」、「や」、「く」のそれぞれの文字(1つの仮名)の母音区間がほぼ同一になる。
次に、本発明者らは、アクセント区間の母音(モーラ)は、他の区間の母音よりも、ピッチ周波数やパワーの変化量が相対的に高くなることに新たに着眼した。この理由は、例えば、日本語は、ピッチ周波数やパワーの高低により、言葉の意味を区別する性質がある為である。例えば、「庭を掃く」、「靴を履く」という文章における「掃く」「履く」の語においては、何れも同じ読みの言葉「はく」であるが、前者は「は」のピッチ周波数やパワーが高く発声されるのに対し、後者は「く」のピッチ周波数やパワーが高く発声されることに、それぞれ別の意味を表現している。換言すると、例えば、入力音声の単語毎にピッチ周波数やパワーが高いモーラ(アクセント区間)が存在することになる。
更には、本発明者らは、アクセント区間は、2区間連続して続かないことにも着目している。日本語のアクセントは拍を単位として、例えば、HHHLLの様に2種の高さによって表現することができる。この場合、高い拍(H)から低い拍(L)に変化する直前の3拍目がアクセントの「核」と称され、ピッチ周波数の有意的な下降が認められる。日本語の場合、名詞、動詞、形容詞のアクセントは各拍のどれか一つに核があるか、又はどの拍にも核がないかの何れかである。そのため、アクセント核を有する拍が2つ連続することはない。なお、本発明者らの検証により、アクセント区間の推定自体は、上述に開示した通り可能である。
ここで、上述のモーラの等時性に着目とすると、アクセント区間も非アクセント区間の母音区間長はほぼ同一とみなすことが出来る。この為、本発明者らは、推定可能である少なくとも一つのアクセント区間を、文章全体の母音区間長とみなしても、顕著な差異は発生しないと推察した。この為、各母音の標準的な音響モデルと、入力音声の音響特徴量との比較処理によって、音声信号に含まれる母音区間を検出し、単位時間あたりの母音数を検出しなくとも、話速を推定することが可能となることが期待できる。換言すると、なお、一般的には、入力音声には複数のアクセント区間が含まれる。この為、推定部4は、推定した少なくとも一つのアクセント区間に代えて、複数のアクセント区間の平均値を母音区間長とすることも出来る。
上述の技術的意義に対する妥当性を検証する為、本発明者らは以下の検証実験を行った。図6は、話速とアクセント区間の関係図である。図6においては、被験者は、10名(男女各5名)、文書数は22文(例えば、「テレビゲームやパソコンでゲームをして遊ぶ」、「それでしたら三千院以外に、曼殊院、修学院離宮、大徳寺ですね」、「ピンクの蓮の花が埼玉県行田市の古代蓮の里で見頃になり、見物客や写真愛好家らが朝早くから詰め掛けている」など)の条件における実験結果である。また、図6において、横軸はアクセント区間(長)であり、上述に開示した推定部4による推定処理を用いて検出した。縦軸は、文書全体の話速であり、文書に含まれる母音の数(観測者が目視で確認)を、実際に観測者が有音区間を計測した時間で除算した値を話速としている。
図6に示される通り、アクセント区間長と話速の相関係数は、−0.77であり、強相関の関係にあることが確認された。この為、音響モデルを必要とせずにアクセント区間から話速を推定することが可能であることが立証された。この為、本発明によれば、不特定多数の話者の入力音声に対しても話速を精度良く推定することが可能となる。また、音響モデルを格納するメモリが不要となり装置コストを削減することが可能となる。更に、音響モデルと入力音声の音声特徴量の比較処理が不要となる為、演算負荷を軽減させる相乗的な効果を有する。
なお、推定部4は、必要に応じて、母音区間長から入力音声の話速を推定しても良い。推定部4は、例えば、図6に示される話速とアクセント区間長の関係図を用いて話速を推定することが出来る。なお、図6に示される話速とアクセント区間長の関係図は、テーブル化して推定部4が有する図示しないキャッシュまたはメモリ等に格納されれば良い。推定部4は、推定した話速を出力信号として外部へ出力する。この場合、後述する制御部5の処理は、必要に応じて実施すれば良い。
図1の制御部5は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部5は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部5は、入力音声を取得部2から受け取り、有音区間と無音区間を検出部3から受け取る。更に、制御部5は、母音区間長を推定部4から受け取る。制御部5は、推定部4から受け取る複数の母音区間長の平均値VLを次式に用いて算出する。
(数14)

但し、上述の(数14)において、Nは有音区間に含まれる母音の総数であり、Ts(i)は、i番目の有音区間の開始フレームであり、Te(i)は、i番目の有音区間の終了フレームである。制御部5は、母音区間長に基づいて、有音区間を伸長または短縮させる制御を行う。換言すると、制御部5は、母音区間長と入力音声の速度を反比例させて、当該入力音声の速度を制御する。
図7は、母音区間長と有音区間の目標伸縮率の関係図である。図7において、r_highは、目標伸縮率の上限値を示し、r_lowは、目標伸縮率の下限値を示す。なお、目標伸縮率は、例えば、上限値を1.5、下限値を1.0とした有音区間に乗算される値であれば良い。上限値を1.5程度に設定することによって、過度な波形短縮による音質劣化を防止することが出来る。なお、図7の関係図において、目標伸縮率がr_lowより大きくr_high未満の区間においては、直線の代わりにr_low及び、r_highの前後付近で曲率を有して変化する2次曲線やシグモイド曲線を規定しても良い。
制御部5は、無音区間において任意のサンプルを削除し、次式で表現される実績伸長率(rate_result(n))が、上述の目標伸縮率(rate_target(n))以上となる様に制御しても良い。当該制御により、有音区間の伸長による出力音声の遅延を防止することが可能となる。
(数15)

但し、上述の(数15)において、sは有音区間または無音区間の開始フレームを示し、nは現フレーム(n>s)を示す。また、diff(i)は、i番目のフレームで増減したサンプル数を示し、Mは1フレームのサンプル数(例えば、80サンプル)を示す。また、上述の(数15)において、分母は伸縮前の過去フレームの合計サンプル数を表し、分子は伸縮後の過去フレームの合計サンプル数を表す。制御部5は、入力音声の速度を制御した制御信号を出力音声として外部へ出力する。制御部5は、出力音声を、例えば、音声処理装置1に接続または配置される、図示しないスピーカへ出力すること出来る。
図8は、実施例1と比較例の推定話速精度の比較図である。図8において、比較例は、フォルマント係数を用いた各母音の標準的な音響モデルを事前に用意し、当該音響モデルと入力音声の音響特徴量(フォルマント係数)との比較処理によって、音声信号に含まれる母音区間を検出し、単位時間あたりの母音数を検出した。当該検出した母音数を実際に観測者が有音区間を計測した時間で除算した値を比較例の話速としている。また、図9において、実施例1ならびに比較例ともに、被験者は、10名(男女各5名)、文書数は22文(例えば、「テレビゲームやパソコンでゲームをして遊ぶ」、「それでしたら三千院以外に、曼殊院、修学院離宮、大徳寺ですね」、「ピンクの蓮の花が埼玉県行田市の古代蓮の里で見頃になり、見物客や写真愛好家らが朝早くから詰め掛けている」など)の条件で話速を推定した。更に、推定誤差の算出の為となるとなる正確な話速は、文書に含まれる母音の数(目視で確認)を、実際に観測者が有音区間を計測した時間で除算した値を適用している。図8に示す通り、実施例1における推定話速は、比較例に対して推定誤差が33%程度低減していることが確認された。
図9は、音声処理装置1による音声処理方法のフローチャートである。取得部2は、入力音声を、例えば、有線回路または無線回路を介して取得する(ステップS901)。取得部2は取得した入力音声を検出部3、推定部4と制御部5に出力する。検出部3は、入力音声を取得部2から受け取る。検出部3は、上述の開示した方法を用いて入力音声に含まれる有音区間と無音区間を検出する(ステップS902)。検出部3は、必ずしもステップS902における有音区間と無音区間の検出処理は必要としないが、有音区間と無音区間を検出し、後述の各種処理を有音区間のみに対して実行することで処理負荷を大幅に軽減することが可能となる。
推定部4は、入力音声を取得部2から受け取る。また、推定部4は、有音区間または無音区間を検出部3から受け取る。推定部4は、上述の少なくとも一つの母音区間長として、例えば、入力音声に含まれるアクセント区間を推定する(ステップS903)。具体的には、推定部4は、例えば、入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいてアクセント区間を推定する。ステップS903において、推定部4は、アクセント区間の推定処理として、上述の(アクセント区間推定方法1)または、(アクセント区間推定方法2)を用いることが出来る。推定部4は、推定したアクセント区間を、少なくとも一つの母音区間長として、制御部5へ出力する。
制御部5は、入力音声を取得部2から受け取り、有音区間と無音区間を検出部3から受け取る。更に、制御部5は、母音区間長を推定部4から受け取る。制御部5は、母音区間長と入力音声の速度を反比例させて、当該入力音声の速度を制御する(ステップS904)。例えば、制御部5は、推定部4から受け取る複数の母音区間長の平均値VLを上述の(数14)を用いて算出する。制御部5は、算出した平均の母音区間長を用いて、例えば、図7の母音区間長と有音区間の目標伸縮率の関係に基づいて、入力音声の速度を制御する。制御部5は、入力音声の速度を制御した制御信号を出力音声として外部へ出力する(ステップS905)。
ステップS905の処理が完了した時点で取得部2が入力音声を取得している場合は、音声処理装置1は、ステップS901〜S905の処理を繰り返す。ステップS905の処理が完了した時点で取得部2が入力音声を取得していない場合は、音声処理装置1は、図9のフローチャートに示す音声処理を終了する。
実施例1における音声処理装置では、音響モデルを必要としない音声処理装置を提供することが可能となる。また、実施例1における音声処理装置では、音声信号の話速の推定精度を向上させることが可能となり、推定した話速に応じて入力音声を適切な速度に制御することが可能となる。また、実施例1における音声処理装置では、不特定多数の話者の入力音声に対しても、音響モデルを必要とせずに話速を精度良く推定することが可能となる。また、音響モデルを格納するメモリが不要となり装置コストを低減することが可能となる。更に、音響モデルと入力音声の音声特徴量の比較処理が不要となる為、演算負荷を軽減させることが可能となる。
(実施例2)
図10は、第2の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、推定部4を有する。図10に示す、音声処理装置1の各機能ブロック図は、少なくとも実施例1と同様の機能を有する為、実施例1と異なる処理についてのみ説明する。
推定部4は、入力音声を取得部2から受け取る。推定部4は、実施例1と同様に入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する。具体的には、音響特徴量の単位時間あたりの正の値の変化量が、所定の第1閾値以上を満たす点を第1遷移点または第2遷移点として検出し、当該第1遷移点と第2遷移点の区間を母音区間長として推定する。なお、音響特徴量は、例えば、入力音声のピッチ周波数またはパワーであれば良い。
推定部4は、アクセント区間を母音区間長とみなし、例えば、図6に示される話速とアクセント区間長の関係図を用いて話速を推定する。なお、図6に示される話速とアクセント区間長の関係図は、テーブル化して推定部4が有する図示しないキャッシュまたはメモリ等に格納されれば良い。推定部4は、推定した話速を出力信号として外部へ出力する。
実施例2における音声処理装置では、音響モデルを必要としない音声処理装置を提供することが可能となる。また、実施例2による音声処理装置においては、音声信号の話速の推定精度を向上させることが可能することが可能となる。また、実施例2における音声処理装置では、不特定多数の話者の入力音声に対しても、音響モデルを必要とせずに話速を精度良く推定することが可能となる。また、音響モデルを格納するメモリが不要となり装置コストを低減することが可能となる。更に、音響モデルと入力音声の音声特徴量の比較処理が不要となる為、演算負荷を軽減させることが可能となる。
(実施例3)
図11は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、制御部21、端末インタフェース部34、マイク35、スピーカ36、主記憶部22、補助記憶部23を有する。
アンテナ31は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
ベースバンド処理部33は、送信データの誤り訂正符号、データ変調、受信信号、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。
制御部21は、例えば、CPU、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。制御部21は、制御信号の送受信などの無線制御を行う。また、制御部21は、補助記憶部23などに記憶されている音声処理プログラムを実行し、例えば、実施例1における音声処理を行う。換言すると、制御部21は、図1に記載の取得部2、検出部3、推定部4、制御部5等の機能ブロックの処理を実行することが出来る。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
補助記憶部23は、HDDやSSDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
端末インタフェース部34は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインタフェース処理を行う。
マイク35は、発話者の音声を入力し、マイク信号として制御部21に出力する。スピーカ36は、出力音声として制御部21から出力された信号を出力する。
(実施例4)
図12は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図12に示す通り、音声処理装置1は、コンピュータ100、およびコンピュータ100に接続する入出力装置(周辺機器)を含んで構成される。
コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。なお、プロセッサ101は、マルチプロセッサであってもよい。また、プロセッサ101は、例えば、CPU、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。更に、プロセッサ101は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。なお、例えば、プロセッサ101は、図1に記載の取得部2、検出部3、推定部4、制御部5等の機能ブロックの処理を実行することが出来る。
RAM102は、コンピュータ100の主記憶装置として使用される。RAM102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、プロセッサ101による処理に必要な各種データが格納される。バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、例えば、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。
グラフィック処理装置104には、モニタ110が接続されている。グラフィック処理装置104は、プロセッサ101からの命令にしたがって、各種画像をモニタ110の画面に表示させる。モニタ110としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード111とマウス112とが接続されている。入力インタフェース105は、キーボード111やマウス112から送られてくる信号をプロセッサ101に送信する。なお、マウス112は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク113に記録されたデータの読み取りを行う。光ディスク113は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク113には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。可搬型の記録媒体となる光ディスク113に格納されたプログラムは光学ドライブ装置106を介して音声処理装置1にインストールされる。インストールされた所定のプログラムは、音声処理装置1より実行可能となる。
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース107には、メモリ装置114やメモリリーダライタ115を接続することが出来る。メモリ装置114は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ115は、メモリカード116へのデータの書き込み、またはメモリカード116からのデータの読み出しを行う装置である。メモリカード116は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク117に接続されている。ネットワークインタフェース108は、ネットワーク117を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
コンピュータ100は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した画像処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、1つのまたは複数の機能モジュールから構成することが出来る。例えば、図1に記載の取得部2、検出部3、推定部4、制御部5等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をRAM102にロードし、プログラムを実行する。また、コンピュータ100に実行させるプログラムを、光ディスク113、メモリ装置114、メモリカード116などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。
以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
以上、説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
入力音声を取得する取得部と、
前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する推定部と、
前記母音区間長に基づいて前記入力音声の速度を制御する制御部と
を備えることを特徴とする音声処理装置。
(付記2)
前記推定部は、前記音響特徴量の単位時間あたりの正の値の前記変化量が、所定の第1閾値以上を満たす点を前記第1遷移点または前記第2遷移点として検出し、
前記第1遷移点と前記第2遷移点の区間を前記母音区間長として推定することを特徴とする付記1記載の音声処理装置。
(付記3)
前記音響特徴量は、前記入力音声のピッチ周波数またはパワーであることを特徴とする付記1または付記2記載の音声処理装置。
(付記4)
前記入力音声に含まれる有音区間を検出する検出部を更に有し、
前記推定部は、前記有音区間の始端または終端から所定の範囲にある区間を除いた区間から前記母音区間長を推定することを特徴とする付記1ないし付記3の何れか一つに記載の音声処理装置。
(付記5)
前記推定部は、前記音響特徴量の単位時間あたりの負の値の前記変化量が、所定の第2閾値未満を満たす区間の始端を、前記母音区間長の終端として推定することを特徴とする付記2ないし付記4の何れか一つに記載の音声処理装置。
(付記6)
前記制御部は、前記母音区間長と前記速度を反比例させて前記入力音声の前記速度を制御することを特徴とする付記1ないし付記5の何れか一つに記載の音声処理装置。
(付記7)
前記推定部は、前記母音区間長から前記入力音声の話速を推定することを特徴とする付記1ないし付記6の何れか一つに記載の音声処理装置。
(付記8)
入力音声を取得する取得部と、
前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定し、前記母音区間長から前記入力音声の話速を推定する推定部と、
を備えることを特徴とする音声処理装置。
(付記9)
入力音声を取得し、
前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定し、
前記母音区間長に基づいて前記入力音声の速度を制御する
を含むことを特徴とする音声処理方法。
(付記10)
前記推定することは、前記音響特徴量の単位時間あたりの正の値の前記変化量が、所定の第1閾値以上を満たす点を前記第1遷移点または前記第2遷移点として検出し、
前記第1遷移点と前記第2遷移点の区間を前記母音区間長として推定することを特徴とする付記9記載の音声処理方法。
(付記11)
前記音響特徴量は、前記入力音声のピッチ周波数またはパワーであることを特徴とする付記9または付記10記載の音声処理方法。
(付記12)
前記入力音声に含まれる有音区間を検出する検出することを更に含み、
前記推定することは、前記有音区間の始端または終端から所定の範囲にある区間を除いた区間から前記母音区間長を推定することを特徴とする付記9ないし付記11の何れか一つに記載の音声処理方法。
(付記13)
前記推定することは、前記音響特徴量の単位時間あたりの負の値の前記変化量が、所定の第2閾値未満を満たす区間の始端を、前記母音区間長の終端として推定することを特徴とする付記10ないし付記12の何れか一つに記載の音声処理方法。
(付記14)
前記制御することは、前記母音区間長と前記速度を反比例させて前記入力音声の前記速度を制御することを特徴とする付記9ないし付記13の何れか一つに記載の音声処理方法。
(付記15)
コンピュータに
入力音声を取得し、
前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定し、
前記母音区間長に基づいて前記入力音声の速度を制御する
を実行させることを特徴とする音声処理プログラム。
(付記16)
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する推定部と、
前記母音区間長に基づいて前記入力音声の速度を制御する制御部と、
前記入力音声を制御した出力音声を出力するスピーカ
を備えることを特徴とする携帯端末装置。
1 音声処理装置
2 取得部
3 検出部
4 推定部
5 制御部

Claims (10)

  1. 入力音声を取得する取得部と、
    前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定する推定部と、
    前記母音区間長に基づいて前記入力音声の速度を制御する制御部と
    を備えることを特徴とする音声処理装置。
  2. 前記推定部は、前記音響特徴量の単位時間あたりの正の値の前記変化量が、所定の第1閾値以上を満たす点を前記第1遷移点または前記第2遷移点として検出し、
    前記第1遷移点と前記第2遷移点の区間を前記母音区間長として推定することを特徴とする請求項1記載の音声処理装置。
  3. 前記音響特徴量は、前記入力音声のピッチ周波数またはパワーであることを特徴とする請求項1または請求項2記載の音声処理装置。
  4. 前記入力音声に含まれる有音区間を検出する検出部を更に有し、
    前記推定部は、前記有音区間の始端または終端から所定の範囲にある区間を除いた区間から前記母音区間長を推定することを特徴とする請求項1ないし請求項3の何れか一項に記載の音声処理装置。
  5. 前記推定部は、前記音響特徴量の単位時間あたりの負の値の前記変化量が、所定の第2閾値未満を満たす区間の始端を、前記母音区間長の終端として推定することを特徴とする請求項2ないし請求項4の何れか一項に記載の音声処理装置。
  6. 前記制御部は、前記母音区間長と前記速度を反比例させて前記入力音声の前記速度を制御することを特徴とする請求項1ないし請求項5の何れか一項に記載の音声処理装置。
  7. 前記推定部は、前記母音区間長から前記入力音声の話速を推定することを特徴とする請求項1ないし請求項6の何れか一項に記載の音声処理装置。
  8. 入力音声を取得する取得部と、
    前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定し、前記母音区間長から前記入力音声の話速を推定する推定部と、
    を備えることを特徴とする音声処理装置。
  9. 入力音声を取得し、
    前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定し、
    前記母音区間長に基づいて前記入力音声の速度を制御する
    を含むことを特徴とする音声処理方法。
  10. コンピュータに
    入力音声を取得し、
    前記入力音声に含まれる音響特徴量の変化量の第1遷移点と第2遷移点に基づいて、少なくとも一つの母音区間長を推定し、
    前記母音区間長に基づいて前記入力音声の速度を制御する
    を実行させることを特徴とする音声処理プログラム。
JP2014005465A 2014-01-15 2014-01-15 音声処理装置、音声処理方法および音声処理プログラム Ceased JP2015132777A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014005465A JP2015132777A (ja) 2014-01-15 2014-01-15 音声処理装置、音声処理方法および音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014005465A JP2015132777A (ja) 2014-01-15 2014-01-15 音声処理装置、音声処理方法および音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2015132777A true JP2015132777A (ja) 2015-07-23

Family

ID=53900004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014005465A Ceased JP2015132777A (ja) 2014-01-15 2014-01-15 音声処理装置、音声処理方法および音声処理プログラム

Country Status (1)

Country Link
JP (1) JP2015132777A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146575A (ja) * 1995-11-27 1997-06-06 Sanyo Electric Co Ltd 発声速度検出方法
JPH1070790A (ja) * 1996-05-22 1998-03-10 Yamaha Corp 話速検出方法、話速変換方法および話速変換機能付補聴器
JP2008185911A (ja) * 2007-01-31 2008-08-14 Arcadia:Kk 音声合成装置
JP2012145802A (ja) * 2011-01-13 2012-08-02 Fujitsu Ltd 音声合成装置および音声合成プログラム
JP2013008471A (ja) * 2011-06-22 2013-01-10 Kobe Steel Ltd ガスイオン源

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146575A (ja) * 1995-11-27 1997-06-06 Sanyo Electric Co Ltd 発声速度検出方法
JPH1070790A (ja) * 1996-05-22 1998-03-10 Yamaha Corp 話速検出方法、話速変換方法および話速変換機能付補聴器
JP2008185911A (ja) * 2007-01-31 2008-08-14 Arcadia:Kk 音声合成装置
JP2012145802A (ja) * 2011-01-13 2012-08-02 Fujitsu Ltd 音声合成装置および音声合成プログラム
JP2013008471A (ja) * 2011-06-22 2013-01-10 Kobe Steel Ltd ガスイオン源

Similar Documents

Publication Publication Date Title
JP6263868B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
KR100305455B1 (ko) 연속 음성 인식시에 구두점들을 자동으로 발생시키기 위한 장치및 방법
US8204747B2 (en) Emotion recognition apparatus
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US20180130462A1 (en) Voice interaction method and voice interaction device
US10553240B2 (en) Conversation evaluation device and method
US20190298271A1 (en) Methods and systems for estimation of obstructive sleep apnea severity in wake subjects by multiple speech analyses
ES2763937T3 (es) Procedimiento para la valoración de una calidad de un uso de la voz de un hablante
EP2806415B1 (en) Voice processing device and voice processing method
Smorenburg et al. The distribution of speaker information in Dutch fricatives/s/and/x/from telephone dialogues
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
US10403289B2 (en) Voice processing device and voice processing method for impression evaluation
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP5402089B2 (ja) 音響信号変換装置、方法、及びプログラム
JP6394103B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP2014106247A (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2015132777A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法
KR102031295B1 (ko) 비강 에너지 변화 측정 시스템 및 그 측정 방법
WO2022244627A1 (ja) エアロゾル量推定システム、エアロゾル量推定方法、及び、プログラム
WO2023013402A1 (ja) 推定方法、プログラムおよび推定装置
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JP2018033540A (ja) 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20180731