JP5802139B2

JP5802139B2 - 音声処理装置及びプログラム

Info

Publication number: JP5802139B2
Application number: JP2012010483A
Authority: JP
Inventors: 貴裕奥; 今井　篤; 篤今井; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2012-01-20
Filing date: 2012-01-20
Publication date: 2015-10-28
Anticipated expiration: 2032-01-20
Also published as: JP2013148795A

Description

本発明は、音声データを処理する音声処理装置及びプログラムに関する。

話速変換技術は、テレビやラジオの音声の速度を変化させ、聴き取り易さを向上させる技術である。話速変換技術として、音声波形を基本周波数で繰り返したり、間引いたりすることで再生速度を変化させるＴＤＨＳ（Time Domain Harmonic Scaling）や、ポインタ移動制御による重複加算法であるＰＩＣＯＬＡ（Pointer Interval Control Overlap and Add）などの時間軸圧縮伸長法が提案されている。

これらの話速変換技術によれば、テレビやラジオの音声を早口で聴き取りづらいと感じている高齢者は、放送番組をゆっくりと聴きやすい音声で聴くことが可能となる。また、音声から多くの情報を得ている視覚障害者は、音声の再生速度を高速にしても聴きやすい音声で聞くことが可能となる。

このような話速変換技術を用いた音声再生装置により再生する音声データとしては、人手により見出しなどが付加されデータが構造化されたＤＡＩＳＹ（Digital Accessible Information SYstem:デジタル録音図書）が挙げられる。

また、話速変換を含む音声再生システムとして、例えば、入力音声を認識して認識特徴量を抽出し、抽出した認識特徴量に応じて、予め決められた音声処理を選択し、再生する技術がある（特許文献１）。

特開２００９−２１０９４２号公報

しかしながら、従来の話速変換装置では、ＤＡＩＳＹで定められたデータの構造化により、見出しを再生したり、希望する見出しの箇所へスキップして再生したりすることが可能であるものの、データは単語（形態素）毎といった詳細な単位で構造化されている訳ではない。そのため、音声の聴き取り時に発話内容が重要である部分と、そうでない部分とを区別することなく聴かなければならず、効率的ではなかった。

また、特許文献１では、外部リソースを用いて単語や句、文単位でのデータの構造化を試みている。しかし、入力される音声データは、様々な内容があるため、外部リソースを単に用いるだけでは、音声データの内容に応じた発話内容の重要度を精度よく推定することは困難である。

そこで、本発明は、上記課題に鑑みてなされたものであり、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる音声処理装置及びプログラムを提供することを目的とする。

本発明の一態様における音声処理装置は、学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、前記音声データのジャンルに対応する前記キーワードデータに含まれる各形態素と、前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換部と、を備え、前記学習用データは、再生された音声データに対し、話速変換が行われた部分がジャンル毎に集められたデータであり、前記キーワードデータに含まれる形態素は、前記話速変換が行われた部分の形態素から抽出されたキーワードであり、前記キーワードデータはさらに、前記キーワードの出現回数が関連付けられ、前記抽出部は、前記出現回数が閾値以上のキーワード及び該キーワードに対応する時刻情報を抽出する。

また、本発明の他の態様におけるプログラムは、コンピュータを、上記の音声処理装置として機能させるものである。

本発明によれば、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる。

実施例１における音声処理装置の概略構成の一例を示すブロック図。形態素解析の概念を説明するための図。音声処理用キーワードデータの一例を示す図。実施例１における音声処理装置の音声処理の一例を示すフローチャート。実施例１におけるキーワード抽出処理の一例を示すフローチャート。実施例２における音声処理装置の概略構成の一例を示すブロック図。履歴キーワードデータの一例を示す図。実施例２におけるキーワード抽出処理の一例を示すフローチャート。実施例３における情報処理装置の構成の一例を示すブロック図。

以下、添付図面を参照しながら各実施例について詳細に説明する。

［実施例１］
＜構成＞
図１は、実施例１における音声処理装置１の概略構成の一例を示すブロック図である。図１に示す音声処理装置１は、学習用データ記憶部１０１と、形態素解析部１０２と、キーワード学習用データ記憶部１０３と、音声認識部１０４と、認識結果記憶部１０５と、キーワード抽出部１０６と、音声処理用キーワードデータ記憶部１０７と、話速変換部１０８とを有する。

学習用データ記憶部１０１は、新聞や雑誌など様々なドキュメントの集合である学習用データを記憶する。学習用データの各ドキュメントには、ジャンル情報が関連付けられている。ジャンル情報は、例えばスポーツ、ニュース、音楽などを示す情報である。

形態素解析部１０２は、学習用データ記憶部１０１から学習用データを取得し、形態素解析を行う。形態素解析は、対象言語の文法の知識や辞書を情報源として用い、自然言語で書かれた文を形態素の列に分割し、それぞれの品詞を判別する作業を行う。形態素とは、おおまかには、言語で意味を持つ最小単位である。形態素解析部１０２は、解析した各ドキュメントの形態素をジャンル情報と関連付けてキーワード学習用データ記憶部１０３に記録する。

形態素解析部１０２は、形態素解析ツールとして、たとえば、ChaSen（chasen.naist.jp），MeCab（mecab.sourceforge.net）などのいずれかのツールを用いる。

キーワード学習用データ記憶部１０３は、形態素解析部１０２により解析された各形態素とジャンル情報とを関連付けたキーワード学習用データを記憶する。

図２は、形態素解析の概念を説明するための図である。図２に示す例では、ジャンル毎の各ドキュメントに対し、形態素解析が行われる。解析された各ドキュメントの各形態素には、ジャンル情報が関連付けられる。

図１に戻り、音声認識部１０４は、聴取対象の音声データを入力し、音声認識を行う。この音声認識処理は、音声データに対して形態素毎に分割し、各形態素を再生するための時刻情報を取得する処理である。よって、音声認識部１０４は、入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する。音声認識部１０４は、取得した認識結果を認識結果記憶部１０５に記録する。

認識結果記憶部１０５は、音声認識部１０４により認識結果を書き込まれ、認識結果を記憶する。

キーワード抽出部１０６は、聴取対象の音声データのジャンル情報を取得し、また、このジャンル情報に対応するキーワード学習用データをキーワード学習用データ記憶部１０３から取得する。また、キーワード抽出部１０６は、認識結果記憶部１０５から認識結果を取得する。

キーワード抽出部１０６は、聴取対象の音声データのジャンル情報について、音声処理装置１のユーザによりジャンルを選択してもらうことで取得してもよいし、音声データのメタデータにジャンル情報がある場合にはこのメタデータから取得するようにしてもよい。

また、キーワード抽出部１０６は、音声データのジャンルに対応するキーワード学習用データに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及びこのキーワードに対応する時刻情報を抽出する。音声処理対象のキーワードは、例えば、音声データの形態素のうち、その音声データに対して重要度が高いと推定される形態素である。

キーワード抽出部１０６は、キーワードを抽出するために統計処理を行う。キーワード抽出部１０６は、例えばＴＦ−ＩＤＦ処理を行って認識結果内の形態素に対してＴＦ−ＩＤＦ値を算出する。

キーワード抽出部１０６は、このＴＦ−ＩＤＦ値と第一の閾値とを比較し、ＴＦ−ＩＤＦ値の方が大きければ、音声処理用のキーワードとして抽出する。詳しいキーワード抽出処理は、図５を用いて後述する。第一の閾値は、予め実験などにより適切な値が設定されていればよい。

キーワード抽出部１０６は、抽出した音声処理対象のキーワードと、このキーワードの時刻情報とを関連付けた音声処理用キーワードデータを音声処理用キーワードデータ記憶部１０７に記録する。

音声処理用キーワードデータ記憶部１０７は、音声処理対象のキーワードと、このキーワードの時刻情報とが関連付けられた音声処理用キーワードデータを記憶する。

図３は、音声処理用キーワードデータの一例を示す図である。図３（Ａ）は、聴取対象の音声データのジャンル情報が「スポーツ」の場合の例である。聴取対象の音声データ内において、キーワードである「スパイク」、「ハットトリック」がそれぞれ時刻"00:01:32:015−00:01:32:350，00:10:25:042−00:10:25:632，00:15:10:064−00:15:10:873"，"00:14:20:020−00:14:20:450"に発声されたことを示している。

図３（Ｂ）は、聴取対象の音声データのジャンル情報が「音楽」の場合の例である。聴取対象の音声データ内において、キーワードである「ハーモニー」、「スイング」がそれぞれ時刻"00:01:32:015−00:01:32:350，00:10:25:042−00:10:25:634"，"00:14:20:020−00:14:20:453"に発声されたことを示している。

図１に戻り、話速変換部１０８は、聴取対象の音声データを再生するときに、音声処理用キーワードデータ記憶部１０７から音声処理用キーワードデータを取得する。話速変換部１０８は、取得した音声処理用キーワードデータに含まれる時刻情報に基づいて、各キーワードの開始時刻へスキップして再生したり、各キーワードの発声区間の再生速度を優先的に遅くしたりする。これにより、音声データのジャンルに応じた話速変換による音声聴き取りを効率的にかつ聴き易くすることが可能となる。

また、話速変換部１０８は、図３（Ａ）に示すように、キーワード「スパイク」が複数回再生される場合は、このキーワードの再生が２回目以上となるときに、１回目の話速とは異なる話速に変換してもよい。話速変換部１０８は、例えば、１回目の話速よりも２回目以降の方が早くなるように話速変換する。

これは、初回で聞き取りやすくしたキーワードは、２回目以降では初回の話速より早くしても聞き取れる可能性が高いためである。これにより、聞き取れるようになった又は重要と把握したキーワードを何度もゆっくりと再生することを防止することで、より聴き易くすることができる。

また、形態素解析部１０２は、聴取対象として入力される音声データのジャンル情報に対応する学習用データだけを形態素解析し、キーワード学習用データをキーワード学習用データ記憶部１０３に記録するようにしてもよい。つまり、ジャンル情報は、形態素解析部１０２にも入力される。

このとき、キーワード学習用データ記憶部１０３には、音声データのジャンルに対応するデータのみが記憶されているため、キーワード抽出部１０６は、キーワード学習用データ記憶部１０３に記憶されているキーワード学習用データを取得すればよい。

なお、各記憶部１０１、１０３、１０５、１０７は、１つの記憶装置に実装されてもよいし、複数の記憶部が１つの記憶装置に実装されてもよい。

＜動作＞
次に、実施例１における音声処理装置１の動作について説明する。図４は、実施例１における音声処理装置１の音声処理の一例を示すフローチャートである。図４に示すステップＳ１０１で、音声認識部１０４は、入力された聴取対象の音声データに対して音声認識を行って、形態素毎に時刻情報が関連付けられた認識結果を取得する。

ステップＳ１０２で、キーワード抽出部１０６は、音声データのジャンルに対応するキーワード学習用データに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及びこのキーワードに対応する時刻情報を抽出する。この抽出処理の詳細は、図５を用いて後述する。

ステップＳ１０３で、話速変換部１０８は、聴取対象の音声データを再生する場合、音声処理用キーワードデータに含まれる時刻情報に基づいて、キーワードに対して話速変換処理を行う。話速変換部１０８は、音声処理用キーワードに含まれる時刻情報の開始時刻と終了時刻の間だけ話速変換を行えばよい。話速変換処理は、例えば、ＴＤＨＳや、ＰＩＣＯＬＡなどの公知の話速変換技術を適用すればよい。

次に、キーワード抽出処理について詳しく説明する。図５は、実施例１におけるキーワード抽出処理の一例を示すフローチャートである。図５に示すステップＳ２０１で、キーワード抽出部１０６は、聴取対象の音声データのジャンルに対応するドキュメントの各形態素を、キーワード学習用データ記憶部１０３から取得する。以下では、この取得されたキーワード学習用データを、聴取対象音声用キーワード学習用データとも呼ぶ。

ステップＳ２０２で、キーワード抽出部１０６は、音声認識の認識結果から、認識結果内をサーチすることで形態素を順次抽出する。以下では、抽出された形態素をキーワード候補とも呼ぶ。

ステップＳ２０３で、キーワード抽出部１０６は、ドキュメント毎に形態素に分割された聴取対象音声用キーワード学習用データを用いてＴＦ−ＩＤＦ処理を行い、キーワード候補のＴＦ−ＩＤＦ値を算出する。
ＴＦ−ＩＤＦ値ｘ_ｉ，ｊは、以下の式（１）で表される。

ステップＳ２０４で、キーワード抽出部１０６は、ＴＦ−ＩＤＦ値ｘ_ｉ，ｊと第一の閾値とを比較し、ＴＦ−ＩＤＦ値ｘ_ｉ，ｊが第一の閾値以上であるかを判定する。ＴＦ−ＩＤＦ値ｘ_ｉ，ｊが第一の閾値以上であれば（ステップＳ２０４−ＹＥＳ）ステップＳ２０５に進み、ＴＦ−ＩＤＦ値ｘ_ｉ，ｊが第一の閾値未満であれば（ステップＳ２０４−ＮＯ）ステップＳ２０２に戻る。

ステップＳ２０５で、キーワード抽出部１０６は、そのキーワード候補はキーワードと判定して認識結果内での時刻情報とともに抽出する。キーワード抽出部１０６は、抽出したキーワードと時刻情報とを音声処理用キーワードデータに追加する。

ステップＳ２０６で、キーワード抽出部１０６は、以上の処理を認識結果内の全形態素（全キーワード候補）に対して行ったかを判定する。全形態素に対して行っていれば（ステップＳ２０６−ＹＥＳ）キーワード抽出処理を終了し、全形態素に対して行っていなければ（ステップＳ２０６−ＮＯ）上記処理を繰り返すため、ステップＳ２０２に戻る。よって、このキーワード抽出処理により、音声処理用キーワードデータが作成される。

以上、実施例１によれば、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる。また、実施例１によれば、例えば録音音声の視聴時間の短縮・重要度別キーワード部分の高速検索、自動抽出されたキーワードに応じた自動話速調整など、話速変換技術を利用した装置の性能向上に寄与することができる。

また、実施例１によれば、話速変換して聴取する音声データをあらかじめ音声認識し、音声データに関するジャンル情報を用いて音声認識結果を統計処理することで、発話内容の重要度に合わせて、話速変換による音声聴き取りを効率よく行うことができる。

［実施例２］
次に、実施例２における音声処理装置について説明する。実施例２では、学習用データとして、聴取履歴に基づく音声認識結果のデータを用いる。以下では、このデータを聴取履歴に基づく認識結果データとも呼ぶ。聴取履歴に基づく認識結果データとは、過去に聴取者が聴取した音声データの音声認識結果のうち、聴取の際に再生速度を通常再生速度よりも遅くして聴取した部分をジャンル情報毎に集めたものである。通常再生速度よりも遅くして聴取した部分は、聴取者が特に注意して聴き取ろうとした部分であると推定される。

＜構成＞
図６は、実施例２における音声処理装置２の概略構成の一例を示すブロック図である。図６に示す音声処理装置２は、認識結果データ記憶部２０１と、履歴キーワード抽出部２０２と、履歴キーワード記憶部２０３と、音声認識部２０４と、認識結果記憶部２０５と、キーワード抽出部２０６と、音声処理用キーワードデータ記憶部２０７と、話速変換部２０８とを有する。

認識結果データ記憶部２０１は、聴取履歴に基づく認識結果データを記憶する。聴取履歴に基づく認識結果データは、ジャンル毎に、通常再生速度よりも遅く再生された部分、例えば、話速変換が行われた部分を集めたデータである。

履歴キーワード抽出部２０２は、聴取履歴に基づく認識結果データから、話速変換が行われた部分に含まれる各形態素の出現頻度を内容語に限ってカウントし、ジャンル情報毎に履歴キーワードデータを作成する。内容語とは、品詞が名詞や形容詞など意味がある形態素を示す。

履歴キーワード抽出部２０２は、内容語として抽出したキーワードと、このキーワードの履歴回数とを関連付けた履歴キーワードデータを履歴キーワードデータ記憶部２０３に記録する。

履歴キーワード記憶部２０３は、履歴キーワードデータを履歴キーワード抽出部２０２により書き込まれ、記憶する。

図７は、履歴キーワードデータの一例を示す図である。図７に示す履歴キーワードデータは、ジャンル情報が「スポーツ」の場合の履歴キーワードデータの例を示す。図７に示す例では、聴取履歴に基づく認識結果データのうち、キーワードを示す「ＭＬＢ」、「プレミアリーグ」の出現回数（履歴回数）がそれぞれ１０２４回、１００１回であることを示している。

図６に戻り、音声認識部２０４と認識結果記憶部２０５とは、実施例１と同様であるため、その説明を省略する。

キーワード抽出部２０６は、聴取対象の音声データのジャンル情報を取得し、また、このジャンル情報に対応する履歴キーワードデータを履歴キーワードデータ記憶部２０３から取得する。また、キーワード抽出部２０６は、認識結果記憶部２０５から認識結果を取得する。

キーワード抽出部２０６は、音声データのジャンルに対応する履歴キーワードデータに含まれる各形態素と、認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及びこのキーワードに対応する時刻情報を抽出する。

キーワード抽出部２０６は、例えば、認識結果に含まれる形態素が、履歴キーワードデータにも含まれ、さらにその出現回数が第二の閾値以上である場合に、この形態素をキーワードとし、時刻情報とともに音声処理用キーワードデータとする。第二の閾値は、予め設定された値であり、実験などにより適切な値が設定されればよい。キーワード抽出部２０６は、音声処理用キーワードデータを音声処理用キーワードデータ記憶部２０７に記録する。

音声処理用キーワードデータ記憶部２０７は、音声処理用キーワードデータをキーワード抽出部２０６から書き込まれ、記憶する。なお、音声処理用キーワードデータに含まれるキーワードは、同ジャンルの音声データにおいて通常再生速度よりも遅い速度で過去に再生された回数が第二の閾値以上である部分（形態素）を表す。

話速変換部２０８は、聴取対象の音声データを話速変換して再生（聴取）する際、音声処理用キーワードデータに含まれる時刻情報に基づいて、各キーワードの開始時刻へスキップ再生したり、各キーワードの発声区間の再生速度を自動的に遅くしたりする。これにより、話速変換による音声聴き取りを聴取履歴に基づいて聴取者の好みに応じたものにすることが可能となる。

＜動作＞
次に、実施例２における音声処理装置２の動作について説明する。実施例２における音声処理装置２の音声処理は、図４に示す処理と基本的に同様であるため、その説明を省略する。実施例１と異なる処理は、キーワード抽出処理である。以下、実施例２におけるキーワード抽出処理について説明する。

図８は、実施例２におけるキーワード抽出処理の一例を示すフローチャートである。図８に示すステップＳ３０１で、キーワード抽出部２０６は、聴取対象の音声データのジャンルに対応する履歴キーワードデータを、履歴キーワードデータ記憶部２０３から取得する。この履歴キーワードデータを、聴取対象音声用履歴キーワードデータとも呼ぶ。

ステップＳ３０２で、キーワード抽出部２０６は、音声認識の認識結果から、認識結果内をサーチすることで形態素を順次抽出する。以下では、抽出された形態素をキーワード候補とも呼ぶ。

ステップＳ３０３で、キーワード抽出部２０６は、そのキーワード候補が聴取対象音声用履歴キーワードデータ内に存在するかを判定する。キーワード候補が聴取対象音声用履歴キーワードデータ内に存在すれば（ステップＳ３０３−ＹＥＳ）ステップＳ３０４に進み、キーワード候補が聴取対象音声用履歴キーワードデータ内に存在しなければ（ステップＳ３０３−ＮＯ）ステップＳ３０２に戻る。

ステップＳ３０４で、キーワード抽出部２０６は、キーワード候補の履歴回数（出現回数）が第二の閾値以上であるかを判定する。履歴回数が第二の閾値以上であれば（ステップＳ３０４−ＹＥＳ）ステップＳ３０５に進み、履歴回数が第二の閾値未満であれば（ステップＳ３０４−ＮＯ）ステップＳ３０２に戻る。

ステップＳ３０５で、キーワード抽出部２０６は、そのキーワード候補はキーワードと判定して認識結果内での時刻情報とともに抽出する。キーワード抽出部２０６は、抽出したキーワードと時刻情報とを音声処理用キーワードデータに追加する。

ステップＳ３０６で、キーワード抽出部２０６は、以上の処理を認識結果内の全形態素（全キーワード候補）に対して行ったかを判定する。全形態素に対して行っていれば（ステップＳ３０６−ＹＥＳ）キーワード抽出処理を終了し、全形態素に対して行っていなければ（ステップＳ３０６−ＮＯ）上記処理を繰り返すため、ステップＳ３０２に戻る。よって、このキーワード抽出処理により、音声処理用キーワードデータが作成される。

以上、実施例２によれば、音声データの内容に応じて適切なキーワードを抽出することで、効率的に話速変換を行うことができる。また、実施例２によれば、例えば話速変換による音声聴き取りを、聴取者の過去の聴取履歴に基づいて、聴取者の好みに応じたものにすることができる。

［実施例３］
図９は、実施例３における情報処理装置３の構成の一例を示すブロック図である。情報処理装置３は、上述した実施例１及び実施例２で説明した音声処理をソフトウェアで実装した装置の一例である。

図９に示すように、情報処理装置３は、制御部３０１、主記憶部３０２、補助記憶部３０３、ドライブ装置３０４、ネットワークＩ／Ｆ部３０６、入力部３０７、表示部３０８を有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。

制御部３０１は、コンピュータの中で、各装置の制御やデータの演算、加工を行うＣＰＵである。また、制御部３０１は、主記憶部３０２又は補助記憶部３０３に記憶された音声処理のプログラムを実行する演算装置である。制御部３０１は、入力部３０７や記憶装置からデータを受け取り、演算、加工した上で、表示部３０８や記憶装置などに出力する。

制御部３０１は、実施例１及び実施例２の音声処理のプログラムを実行することで、各実施例で説明した音声処理を実現することができる。

主記憶部３０２は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などである。主記憶部３０２は、制御部３０１が実行する基本ソフトウェアであるＯＳ（Operating System）やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

補助記憶部３０３は、ＨＤＤ（Hard Disk Drive）などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

ドライブ装置３０４は、記録媒体３０５、例えばフレキシブルディスクからプログラムを読み出し、記憶装置にインストールする。

また、記録媒体３０５に、所定のプログラムを格納し、この記録媒体３０５に格納されたプログラムはドライブ装置３０４を介して情報処理装置３にインストールされる。インストールされた所定のプログラムは、情報処理装置３により実行可能となる。

ネットワークＩ／Ｆ部３０６は、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などのネットワークを介して接続された通信機能を有する周辺機器と情報処理装置３とのインターフェースである。

入力部３０７は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部３０８の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部３０７は、ユーザが制御部３０１に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。

表示部３０８は、ＣＲＴ（Cathode Ray Tube）やＬＣＤ（Liquid Crystal Display）等により構成され、制御部３０１から入力される表示データに応じた表示が行われる。

なお、図１や図６に示す各記憶部は、例えば主記憶部３０２又は補助記憶部３０３により実現されうる。また、図１や図６に示す各記憶部以外の構成は、例えば制御部３０１及びワークメモリとしての主記憶部３０２により実現されうる。なお、話速変換部２０８は、既存の話速変換処理回路を用いることもできる。なお、実施例１のキーワード学習用データ及び実施例２の履歴用キーワードデータは、総称してキーワードデータとも称す。

情報処理装置３で実行されるプログラムは、実施例１及び実施例２で説明した記憶部以外の各部を含むモジュール構成となっている。実際のハードウェアとしては、制御部３０１が補助記憶部３０３からプログラムを読み出して実行することにより上記各部のうち１又は複数の各部が主記憶部３０２上にロードされ、１又は複数の各部が主記憶部３０２上に生成されるようになっている。

このように、上述した実施例１及び実施例２で説明した音声処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、前述した音声処理を実現することができる。

また、このプログラムを記録媒体３０５に記録し、このプログラムが記録された記録媒体３０５をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体３０５は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的，電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。

１、２音声処理装置
３情報処理装置
１０１学習用データ記憶部
１０２形態素解析部
１０３キーワード学習用データ記憶部
１０４、２０４音声認識部
１０５、２０５認識結果記憶部
１０６、２０６キーワード抽出部
１０７、２０７音声処理用キーワードデータ記憶部
１０８、２０８話速変換部
２０１認識結果データ記憶部
２０２履歴キーワード抽出部
２０３履歴キーワードデータ記憶部
３０１制御部
３０２主記憶部
３０３補助記憶部

Claims

学習用データの各形態素と前記学習用データのジャンルとを関連付けたキーワードデータを記憶する記憶部と、
入力された音声データを音声認識し、形態素毎に時刻情報が関連付けられた認識結果を取得する音声認識部と、
前記音声データのジャンルに対応する前記キーワードデータに含まれる各形態素と、前記認識結果に含まれる各形態素とを用いて、音声処理対象のキーワード及び該キーワードに対応する時刻情報を抽出する抽出部と、
前記音声データの再生時に、前記抽出された時刻情報に基づいて前記音声処理対象のキーワードに対して話速変換を行う話速変換部と、を備え、
前記学習用データは、再生された音声データに対し、話速変換が行われた部分がジャンル毎に集められたデータであり、
前記キーワードデータに含まれる形態素は、前記話速変換が行われた部分の形態素から抽出されたキーワードであり、
前記キーワードデータはさらに、前記キーワードの出現回数が関連付けられ、
前記抽出部は、前記出現回数が閾値以上のキーワード及び該キーワードに対応する時刻情報を抽出する音声処理装置。
コンピュータを、請求項１に記載の音声処理装置として機能させるためのプログラム。