JP2012181307A

JP2012181307A - 音声処理装置、音声処理方法及び音声処理プログラム

Info

Publication number: JP2012181307A
Application number: JP2011043572A
Authority: JP
Inventors: Manabu Kamiyama; 学上山; Hiroto Teranishi; 博人寺西; Akira Chiyo; 章千代; Hiroki Yoshimoto; 大樹吉本; Takahiro Otsuka; 隆宏大塚
Original assignee: NEC Software Hokkaido Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2012-09-20

Abstract

【課題】音声データの認識処理を効率化すること。
【解決手段】入力した音声データを記憶する記憶手段と、前記記憶手段に記憶された音声データを分割する音声分割手段と、前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、を備えたことを特徴とする。
【選択図】図１

Description

本発明は、音声を認識する技術に関する。

上記技術分野において、特許文献１に示されているように、入力した音声データを分割して認識する技術が知られている。

特開2000-089786号公報

しかしながら、上記従来技術では、音声認識処理手段でシーケンシャルに分割された音声データを認識しており、処理効率が悪かった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る装置は、
入力した音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを分割する音声分割手段と、
前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、
前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、
を備えたことを特徴とする。

上記目的を達成するため、本発明に係る方法は、
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
をコンピュータに実行させることを特徴とする。

本発明によれば、音声データの認識処理を効率化することができる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声認識部の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置に記憶される音声データの構成を示す図である。本発明の第２実施形態に係る音声処理装置における音声データの分割結果を示す図である。本発明の第２実施形態に係る音声処理装置における音声データの分割方法を説明するための図である。本発明の第２実施形態に係る音声処理装置における音声データの分割方法を説明するための図である。本発明の第２実施形態に係る音声処理装置が表示するグラフィカルユーザインタフェースを示す図である。本発明の第３実施形態に係る音声認識部の構成を示すブロック図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

（第１実施形態）
本発明の第１実施形態としての音声処理装置１００について、図１を用いて説明する。音声処理装置１００は、音声データを認識して文書データに変換する装置である。

図１に示すように、音声処理装置１００は、記憶部１０１と音声分割部１０２と音声認識部１０３と認識結果統合部１０５とを含む。記憶部１０１は、入力した音声データを記憶する。音声分割部１０２は、記憶部１０１から音声データを読出し、複数の部分音声データに分割する。また、音声認識部１０３は、音声分割部１０２による分割によって生成された複数の部分音声データを、少なくとも２つの音声認識エンジン１３１〜１３ｎを用いて認識し、文字データに変換する。更に、認識結果統合部１０５は、音声認識部１０３から出力された文字データを統合して、文書データを生成する。

以上の構成によれば、複数の音声認識エンジンで並列に音声データを処理するので非常に効率的に音声認識を行なうことができる。

（第２実施形態）
本発明の第２実施形態について、図２以降を用いて説明する。図２は、本実施形態に係る音声処理システム２００の構成を示すブロック図である。図２において、音声処理システム２００は、マイク２１０、スピーカ２２０、ディスプレイ２３０、操作部（マウスやキーボード）２４０などと接続されている。また、音声処理システム２００は、音声記憶部２０１と音声認識部２０２と文書処理部２０３と音声再生部２０７と操作部２４０とを備えている。音声処理システム２００は、マイク２１０から入力した音声を認識して、ディスプレイ２３０やスピーカ２２０に入力音声や認識結果を出力しつつ、認識結果としての文書中の誤りを修正したり編集したりするシステムである。音声処理システム２００の構成要素のうち、音声記憶部２０１は、マイク２１０から入力した音声データを記憶する。また、音声認識部２０２は、音声記憶部２０１に記憶された音声データを認識して文書データに変換する。更に文書処理部２０３は、音声認識部２０２が生成した文書データを用意されたＧＵＩフォームに挿入して、表示データを生成する。生成された表示データは、ディスプレイ２３０によって表示される。

操作部２４０からは、ユーザの操作を受け付け、文書処理部２０３が生成した文書データをディスプレイ２３０に表示しつつ、文書データの編集、修正を行なう。

図３は、音声認識部２０２の詳細構成を示す図である。音声認識部２０２は、音声入力部３１０と音声分割部３２０と複数の認識エンジン３３１〜３３ｎと認識結果結合部３４０と文書出力部３５０とを備えている。

音声入力部３１０は、音声データ（音声ファイル）を音声記憶部２０１から読み出し、音声分割部３２０に渡す。音声分割部３２０は、受け取った音声データを部分音声データに分割する。部分音声データは、複数の認識エンジン３３１〜３３ｎに送られ、それぞれ音声認識処理が加えられて文字データに変換される。

ここで、複数の音声認識エンジンで１つの部分音声データに対して認識処理を加えても良い。その場合、もっとも信頼性の高い音声認識結果を採用することができる。或いは、隣り合う２つの部分音声データをそれぞれの音声認識エンジンに入力して、音声認識エンジンは、その２つの部分音声データの組合せを認識しても良い。例えば、分割により一連の部分音声データ１〜３を生成したとすると、音声認識エンジン３３１で部分音声データ１と部分音声データ２の組合せを認識し、音声認識エンジン３３２で部分音声データ２と部分音声データ３の組合せを認識するという方法により、認識精度を向上させても良い。

認識結果結合部３４０は、認識結果を単数または複数用いて時系列に統合し、統合認識結果を作成する。同じ部分音声データに対する認識結果に重複がある場合(異なる辞書や認識方式により、複数の認識エンジンで１つの部分音声ファイルを認識した場合など)は認識結果を比較し、信頼度の高い方（特徴量のマッチングが多い方）を採用して統合認識結果を作成する。そして、統合認識結果を、文書出力部３５０に出力する。文書出力部３５０は、ユーザが認識結果としての文書を編集できるグラフィックインターフェースを生成して統合認識結果を出力する。

図４は音声記憶部２０１に記憶された音声データを示す図である。ここでは、議事録の作成を支援するシステムを前提としているため、一つの会議について一つの音声データテーブル４００が作成されるとする。音声データテーブル４００には会議を識別するための記憶シーケンス番号４０１の他、場所、話者、内容などのコメント４０２が付与され、また、各音声ファイルが生成された日時を示すタイムスタンプと共にデジタル音声ファイル４０３が格納されている。

図５は、分割された音声データを管理するための部分音声データテーブル５００を示している。各部分音声データは、例えば、１０ｍｓや１ｓ等の長さであり、タイムスタンプと共にシーケンシャルな番号を付加されている。これにより、認識結果の統合を正確に行なうことが可能となる。各部分音声データには、そのデータを認識するための認識エンジンを特定する認識エンジン番号が割り当てられる。更に、部分音声データテーブル５００には、認識エンジン３３１〜３３ｎでの認識結果を格納するエリアを有しており、各音節の示す文字を特定する。

図６は、音声データの分割方法について説明するための図である。音声データの分割方法として、分割前の音声データを無音部分も含めて等分割する方法６０１と、分割前の音声データを無音部分を除いた音声部分を等分割する方法６０２と、が考えられる。方法６０１には、分割処理スピードが速いというメリットがあり、方法６０２には、音声認識スピードが速いというメリットがある。分割の間隔について、ユーザからの指示を受け付けてもよい。方法６０２は、言い換えると、音声ファイルに存在する無音の区間を検索し、無音区間が開始又は終了するタイミングで音声を分割する方法とも言える。有音区間の長さに応じて有音区間毎に分割時間を変更してもよい。また、有音区間同士を連結した上で分割処理を行なってもよい。

また、予め、分割前音声データにおける無音部分の割合を算出し、その無音割合が所定値よりも小さい場合には方法６０１を採用し、無音割合が処理値よりも多い場合には方法６０２を採用するように切り替えても良い。

更に、図７に示すように、分割された音声の前または後ろ、もしくは両方に前後の時間の音声の一部区間を持つような分割方法を採用しても良い。このような重複方式によれば各分割音声が重複している部分を持ち、一つ一つの部分音声データを長めに設定できるので、分割タイミングが悪いことによる誤認識を回避できる。更に部分音声データを長めに設定すれば、前後の文脈をも考慮してより正確に音声認識を行なうことが可能となる。もちろん、無重複方式も採用できる、無重複方式では互いに重複した区間を持たない。同じ音声を複数回変換することがないため、ＣＰＵ消費時間やメモリ使用量などの資源を少なくすることができる。

図８は、文書処理部２０３が生成してディスプレイ２３０に表示されるグラフィカルユーザインタフェース８００を示す図である。これは一例であり、本発明はこれに限定されるものではない。グラフィカルユーザインタフェース８００は、音声の波形表示欄８０１と、タイトル表示欄８０２と、認識結果としての文書データ表示欄８０３とを含む。更にグラフィカルユーザインタフェース８００は、それぞれの文書データに対応する音声の開始時間を示すタイムスタンプ（全音声の開始時点からの経過時間）表示欄８０４を含む。

また、文書データ表示欄８０３の下方には、再生ボタン８０５や音量ボタン８０６の他に、リピートボタン８０７などが用意されており、それぞれ再生操作、音量変更操作、リピート操作などに用いられる。文書データ表示欄８０３に表示された各文字は、その文字の認識材料となった音声データの位置と紐付けられている。従って、文書データ表示欄８０３に表示された文書の何れかの位置にカーソルを移動して、その状態で再生ボタン８０５をクリックすれば、その位置に対応する音声データが再生される。つまり、文書データに表示されている各文章は、音声データ単位を表わすものではなく、あくまでも文書編集の便宜のために一行ずつ表を構成しているものである。つまり、各行ごとに音声データが分割されている訳ではなく、このグラフィカルユーザインタフェース８００で再生対象となる音声データは１つである。

図８のように操作パネルが文書データ表示欄８０３の下方に配置されていることにより、ユーザは、文書データの確認、編集を行ないながら音声データの再生が行ない易いという利点がある。なお、文書データ表示欄８０３において、文書データは時系列に上方から下方に並んでいるが、下方から上方に向けて時系列に表示しても良い。その場合には、操作ボタン群８０５〜８０７を文書データ表示欄８０３の上方に配置することが望ましい。或いは、ユーザが文書データの表示順序を変更することができる場合に、その表示順序設定に応じて、操作ボタンの位置を変更してもよい。

以上、本実施形態によれば、音声データを分割して複数の音声認識エンジンで並列処理を行なうため、非常に効率的に音声認識処理を行なうことができる。

（第３実施形態）
本発明の第３実施形態に係る音声処理システムについて図９を用いて説明する。図９は、本実施形態に係る音声処理システムに含まれる音声認識部９０２の内部構成を示す図である。音声認識部９０２以外の音声処理システムの構成は、上記第２実施形態と同様であるためここでは説明を省略する。

音声認識部９０２は、１つまたは複数の学習機能付音声認識エンジン９３１〜９３ｎと、認識エンジン学習制御部９６０とを有する点で、第２実施形態における音声認識部２０２と異なる。その他の構成は、第２実施形態と同様であるため、同じ構成については同じ符号を付してその詳しい説明を省略する。

認識エンジン９３１〜９３ｎは入力された音声を文字列に変換する機能を有する。音声は音声分割部３２０から入力され、変換された文字列は認識結果結合部３４０に入力される。また、認識エンジン９３１〜９３ｎは、音声を変換するごとに音声の性別や癖などを学習し、自律的に認識率を向上する機能を有する。認識エンジン学習制御部９６０は、各認識エンジンの学習性能を制御する。システム開始当初から複数の音声認識エンジンを起動するのではなく、当初は１つの音声認識エンジンを起動し、一定量の音声認識処理後に、その学習した結果を複製して複数のエンジンを立ち上げてもよい。

本実施形態によれば、音声認識エンジン９３１〜９３ｎは学習機能付であることから、一定量の音声認識処理をすることによって、性別や癖などを学習して認識率向上に役立てる。

（他の実施形態）
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システム或いは装置に直接或いは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、或いはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

Claims

入力した音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを分割する音声分割手段と、
前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、
前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、
を備えたことを特徴とする音声処理装置。
前記音声認識手段は、
前記音声分割手段による分割によって生成された１つの部分音声データに対し、少なくとも２つの音声認識エンジンを用いて認識処理を加えることを特徴とする請求項１に記載の音声処理装置。
前記音声分割手段は、分割前の音声データを無音部分も含めて等分割することを特徴とする請求項１又は２に記載の音声処理装置。
前記音声分割手段は、分割前の音声データから無音部分を除いた音声部分を等分割することを特徴とする請求項１又は２に記載の音声処理装置。
前記音声分割手段は、ユーザからの指示を受け付け、該指示に応じて分割の間隔を変更することを特徴とする請求項１乃至４の何れか１項に記載の音声処理装置。
前記音声分割手段は、前記音声データに存在する無音区間を検索し、無音区間が開始又は終了するタイミングで前記音声データを分割することを特徴とする請求項１乃至５の何れか１項に記載の音声処理装置。
前記音声分割手段は、前記音声データに存在する有音区間の長さに応じて有音区間毎に分割間隔を変更することとを特徴とする請求項６に記載の音声処理装置。
前記音声分割手段は、前記音声データにおける無音区間の割合を算出し、その無音割合が所定値よりも小さい場合には分割前の音声データを無音部分も含めて等分割し、前記無音割合が処理値よりも多い場合には分割前の音声データから無音部分を除いた音声部分を等分割することを特徴とする請求項１乃至７の何れか１項の記載の音声処理装置。
前記音声分割手段は、前記部分音声データの端部同士が重複した音声データを有するように、前記音声データを分割することを特徴とする請求項１乃至８の何れか１項に記載の音声処理装置。
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
を含むことを特徴とする音声処理方法。
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも２つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。