WO2021024869A1

WO2021024869A1 - 音声処理装置、音声処理方法、および記録媒体

Info

Publication number: WO2021024869A1
Application number: PCT/JP2020/028955
Authority: WO
Inventors: 佐々木　和幸
Original assignee: 日本電気株式会社
Priority date: 2019-08-02
Filing date: 2020-07-29
Publication date: 2021-02-11
Also published as: JP7347511B2; US20220262363A1; EP4009629A1; BR112022001300A2; JPWO2021024869A1; EP4009629A4; CN114175147A

Abstract

人物の発言による音声に対するノイズの影響を考慮した処理を行うことができる音声処理装置等を提供する。話者抽出部は、画像から話者の領域を抽出し、第一発言データ生成部は、話者の***の形状に基づいて、話者の発言の内容を示す第１の発言データを生成し、第二発言データ生成部は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成し、照合部は、第１の発言データと、第２の発言データとを照合する。

Description

音声処理装置、音声処理方法、および記録媒体

　この開示は、音声処理装置、音声処理方法、および記録媒体に関し、特に発言に対応する音声を処理する音声処理装置、音声処理方法、および記録媒体に関する。

　特許文献１には、音声認識によって、音声信号から発言の内容を再現することが開示されている。具体的には、特許文献１には、マイク（マイクロフォン）を用いて、人物の発言を集音し、また、マイクから出力された音声信号をテキストデータ（文字情報）に変換することが記載されている。

　特許文献２には、発声者の***パターン及び音声を、予め登録されたデータと照合し、照合が合致した場合に特定の文字情報を出力する技術が開示されている。

　また、関連する文献として、特許文献３には、話者が発生する音声を含む動画像から、***の形状と音素との関係を学習する技術が開示されている。

特開２００８－１６０６６７号公報特開平０８－００９２５４号公報特開２０１１－０１３７３１号公報

　しかしながら、特許文献１及び２に記載された音声認識の技術は、人物の発言による音声（発話）に対するノイズの影響の大きさを考慮することは想定されていない。その場合、例えば、音声から発言の内容を再現する際に、発言の内容を正確に再現できない虞がある。

　この開示は、上記の課題に鑑みてなされたものであり、人物の発言による音声に対するノイズの影響を考慮した処理を行うことを可能にする音声処理装置等を提供することを目的の一つとする。

　この開示の一態様に係わる音声処理装置は、画像から話者の領域を抽出する話者抽出手段と、前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成する第一発言データ生成手段と、前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成する第二発言データ生成手段と、前記第１の発言データと、前記第２の発言データとを照合する照合手段とを備えている。

　この開示の一態様に係わる音声処理方法は、画像から話者の領域を抽出し、前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成し、前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成し、前記第１の発言データと、前記第２の発言データとを照合することを含む。

　この開示の一態様に係わる記録媒体は、画像から話者の領域を抽出することと、前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成することと、前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成することと、前記第１の発言データと、前記第２の発言データとを照合することとをコンピュータに実行させるプログラムを格納する。

実施形態１に係わる音声処理装置の構成の一例を示すブロック図である。実施形態１に係わる音声処理装置が備えた第一発言データ生成部の構成の一例を示すブロック図である。実施形態１に係わる音声処理装置の動作の流れの一例を示すフローチャートである。実施形態２に係わる音声処理装置が備えた第一発言データ生成部の構成の一例を示すブロック図である。実施形態３に係わる音声処理装置が備えた第一発言データ生成部の構成の一例を示すブロック図である。実施形態４に係わる音声処理装置の構成の一例を示すブロック図である。実施形態４に係わる音声処理装置の動作の流れの一例を示すフローチャートである。実施形態５に係わる音声処理装置の構成の一例を示すブロック図である。実施形態５に係わる音声処理装置の一変形例の構成の一例を示すブロック図である。実施形態５に係わる音声処理装置の動作の流れの一例を示すフローチャートである。実施形態６に係わるシステムの構成の一例を示すブロック図である。実施形態６に係わるシステムが備えたディスプレイによる表示の一例である。実施形態７に係わる情報処理装置のハードウェア構成の一例を示す図である。

　〔実施形態１〕
　図１～図３を参照して、実施形態１について説明する。

　（音声処理装置１）
　図１を参照して、本実施形態１に係わる音声処理装置１の構成を説明する。図１は、音声処理装置１の構成の一例を示すブロック図である。図１に示すように、音声処理装置１は、話者抽出部２０、第一発言データ生成部３０、照合部４０、及び第二発言データ生成部５０を備えている。なお、本実施形態１に係わる音声処理装置１（および後に説明する各実施形態に係わる音声処理装置）の各部の機能は、プロセッサがメモリに読み込んだプログラムを実行することによって、ソフトウェアとして実現されてもよいし、インテリジェントカメラなどのハードウェアとして実現されてもよい。

　話者抽出部２０は、画像から話者の領域を抽出する。話者抽出部２０は、話者抽出手段の一例である。

　具体的には、話者抽出部２０は、図示しないカメラ等から、時系列の画像データを取得する。例えば、時系列の画像データは、一定時間の動画の画像フレームである。あるいは、時系列の画像データは、予め定められた時間ごとに撮影された複数の静止画像のデータであってもよい。なお、話者抽出部２０の機能がインテリジェントカメラによって実現される場合、インテリジェントカメラ自体が、時系列の画像データを撮影する。

　話者抽出部２０は、取得した時系列の画像データに対し、画像分析を行うことによって、それぞれの画像データから、話者の領域を抽出する。例えば、話者抽出部２０は、人物の特徴（人物らしさ）を学習した識別器（学習済みモデルとも呼ぶ）を用いて、各画像データから、人物の領域を検出する。検出した人物の領域は、人物の少なくとも一部を含む画像の領域である。人物の領域は、例えば、画像データにおける人物の顔部分を囲む矩形領域である。

　さらに、話者抽出部２０は、検出した人物の領域の画像データから、人物の***の部分を特定する。話者抽出部２０は、例えば顔認証（照合）あるいはその他の手段によって、時系列の画像データの間で、同一人物を判別する。話者抽出部２０は、時系列の画像データの間で、同一人物の***の形状の差分（すなわち変化）を検出する。時系列の画像データの間で、同一人物の***の形状が変化している場合、話者抽出部２０は、その人物は話者であると判定する。

　話者抽出部２０は、話者であると判定した人物の領域（以下、話者の領域と呼ぶ場合がある）を含む画像データ（以下、話者の画像データと呼ぶ場合がある）を、第一発言データ生成部３０へ送信する。

　第一発言データ生成部３０は、話者の***の形状に基づいて、話者の発言の内容を示す第１の発言データを生成する。第一発言データ生成部３０は、第一発言データ生成手段の一例である。第一発言データ生成部３０は、特許文献３（特開２０１１－１３７３１号公報）に記載された技術を用いて、第１の発言データを生成してもよい。あるいは、以下で説明するように、第一発言データ生成部３０は、話者の画像データから、直接的に、第１の発言データを生成することもできる。

　図２は、第一発言データ生成部３０の構成の一例を示すブロック図である。図２に示すように、第一発言データ生成部３０は、口形素識別部３１および口形素－音素変換部３２を含む。

　口形素識別部３１は、話者抽出部２０から、話者の画像データを受信する。口形素識別部３１は、話者の画像データに基づいて、話者の***の形状を特定する。そして、口形素識別部３１は、話者の***の形状から、口形素を識別する。口形素識別部３１は、口形素識別手段の一例である。

　口形素とは、話者が一つの音素を発話している瞬間における話者の***の形状を意味する。音素とは、一つの言語の中で、聴者が判別し得る音声の最小単位である。具体的には、音素は、一つの言語において判別される母音、子音、または半母音を表す。

　口形素識別部３１は、口形素を示す情報を、口形素－音素変換部３２へ送信する。

　口形素－音素変換部３２は、口形素識別部３１から、口形素を示す情報を受信する。口形素－音素変換部３２は、口形素を示す情報を音素のデータに変換して、１または複数の音素の時系列データを含む第１の発言データを生成する。口形素－音素変換部３２は、口形素－音素変換手段の一例である。

　具体的には、口形素－音素変換部３２は、口形素と音素との対応関係を示す口形素－音素対応テーブル（図示せず）を参照して、話者の***の形状から識別された口形素に対応する音素のデータを検索し出力する。口形素－音素対応テーブルは、口形素と音素との一対一の対応関係を示す。このようにして、口形素－音素変換部３２は、口形素から音素への変換を実行する。

　口形素－音素変換部３２は、話者の***の形状から識別された口形素と対応する音素（音素のデータ）と、音素の並び順（すなわち音素の時系列順）とを示す情報を、第１の発言データとして、照合部４０へ送信する。例えば、第１の発言データは、１または複数の音素に対し、それぞれ順序番号（１、２、３．．．．）が付加されたデータ構造を有している。
　あるいは、第一発言データ生成部３０は、上述したように、話者の画像データから、直接的に、第１の発言データを生成してもよい。例えば、第一発言データ生成部３０は、深層学習の手法を用いて、話者の画像データから、対応する音素または音声信号を判別できるように、モデル（例えばニューラルネットワーク）を訓練してもよい。この場合、第一発言データ生成部３０は、話者の画像データを、学習済みのモデルに入力する。学習済みモデルは、入力された話者の画像データから、対応する音素または音声信号を判別し、判別結果を出力する。第一発言データ生成部３０は、学習済みのモデルからの出力に基づいて、第１の発言データを生成する。

　なお、話者抽出部２０が、時系列の画像データから、複数の異なる話者の領域を抽出した場合、第一発言データ生成部３０は、１つの話者の領域ごとに、第１の発言データを生成する。すなわち、第一発言データ生成部３０は、複数の話者と対応する複数の第１の発言データを生成する。

　第一発言データ生成部３０は、生成した第１の発言データを、図１に示す照合部４０へ送信する。

　図１に示す第二発言データ生成部５０は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成する。第二発言データ生成部５０は、第二発言データ生成手段の一例である。

　具体的には、第二発言データ生成部５０には、まず、話者の発言と対応する音声信号が入力される。例えば、第二発言データ生成部５０は、マイクが集音した話者の発言と対応する音声信号を、マイクから受信する。マイクによって発言を集音された話者の画像は、話者抽出部２０が受信する時系列の画像データに含まれる。

　あるいは、第二発言データ生成部５０は、あらかじめ録音された音声信号を取得してもよい。この場合、発言した話者の画像は、録画された時系列の画像データに含まれる。

　第二発言データ生成部５０は、入力された音声信号から、第２の発言データを生成する。

　第１の方法では、第二発言データ生成部５０は、入力された音声信号と対応する音素と、音素の並び順（すなわち音素の時系列順）とを示す情報を、第２の発言データとして生成する。

　第２の方法では、第二発言データ生成部５０は、入力された音声信号に含まれる単音と、単音の並び順（すなわち単音の時系列順）とを示す情報を、第２の発言データとして生成する。単音とは、一音節をなす音であり、音声の最小単位である。一般的に、単音は、基本周波数の音声信号と、基本周波数の倍数の音声信号とで表される。

　ここで、上述した音素は、単音とは異なる概念である。音素とは、一つの言語において、一つの単音として判別される音声である。いくつかの単音が、同一の音素として判別される場合がある。例えば、[sh]および[s]は、異なる単音（子音）であるが、日本語では、区別されないため、同一の音素であると判別される。

　以下の説明において、第１の方法で生成された第２の発言データと、第２の方法で生成された第２の発言データとを区別するため、前者を音素データと呼び、後者を単音データと呼ぶ。

　第二発言データ生成部５０は、生成した第２の発言データを、照合部４０へ送信する。

　照合部４０は、第１の発言データと、第２の発言データとを照合する。照合部４０は、照合手段の一例である。

　具体的には、照合部４０は、第一発言データ生成部３０から、第１の発言データを受信する。また、照合部４０は、第二発言データ生成部５０から、第２の発言データを受信する。照合部４０は、第１の発言データと第２の発言データとを照合する。

　なお、第１の発言データが複数ある場合、照合部４０は、複数の第１の発言データの各々と第２の発言データとをそれぞれ照合する。

　本実施形態１において、第２の発言データは、上述した音素データおよび単音データのいずれであってもよい。まず、第２の発言データが、音素データである場合、すなわち、第２の発言データが、音声信号と対応する音素と、音素の並び順とを示す情報である場合について、以下で説明する。

　（照合の方法：例１）
　本例１では、照合部４０は、第１の発言データに含まれる各音素の特徴を、音素に付加された順序番号にしたがって並べた第１の特徴ベクトルを生成する。また、照合部４０は、第２の発言データに含まれる各音素の特徴を、音素に付加された順序番号にしたがって並べた第２の特徴ベクトルを生成する。例えば、音素の特徴ベクトルは、当該音素を表す標準的な音声信号の振幅、パワー、パワースペクトル、またはメル周波数ケプストラム係数（MFCC；Mel-Frequency Cepstrum Coefficients）である。これらの特徴ベクトルは、音素を表す音声信号に対し、様々な変換を行うことによって得られる。

　照合部４０は、第１の特徴ベクトルと第２の特徴ベクトルとの距離を計算する。照合部４０は、計算した距離の大きさに基づいて、第１の特徴ベクトルと第２の特徴ベクトルとの類似度を計算する。類似度は、例えば、０（まったく類似していない）から１（完全に一致する）までの間の１つの数値で表される。

　類似度が閾値を超える場合、照合部４０は、第１の発言データと第２の発言データとが同一である（照合成功）と判定する。一方、類似度が閾値以下である場合、照合部４０は、第１の発言データと第２の発言データとが同一ではない（照合失敗）と判定する。

　（照合の方法：例２）
　本例２では、照合部４０は、第１の発言データに含まれる個々の音素と、第２の発言データに含まれる個々の音素との間で、それぞれマッチングを行う。

　より詳細には、照合部４０は、第１の発言データに含まれる順序番号ｎ（＝１、２・・・）を付加された音素と、第２の発言データに含まれる同じ順序番号ｎ（＝１、２・・・）を付加された音素とが、同一であるかどうかを判定する。なお、第１の発言データに含まれる音素の数がＮ１であり、第２の発言データに含まれる音素の数がＮ２（≦Ｎ１）である場合、照合部４０は、１番目からＮ１番目までの音素について、それぞれ、同一であるかどうかを判定する。

　照合部４０は、マッチングに成功した回数、すなわち、第１の発言データと第２の発言データとの間で同一である音素の数をカウントする。

　マッチングに成功した回数が所定数を超える場合、照合部４０は、第１の発言データと第２の発言データとが同一である（照合成功）と判定する。一方、マッチングに成功した回数が所定数以下である場合、照合部４０は、第１の発言データと第２の発言データとが同一ではない（照合失敗）と判定する。

　続いて、第２の発言データが、単音データである場合、すなわち、第２の発言データが、音声信号に含まれる単音と、単音の並び順とを示す情報である場合について、以下で説明する。

　（照合の方法：例３）
　本例３では、照合部４０は、ある一つの言語において互いに区別されない１または複数の単音を、同一の音素であるとみなす。照合部４０は、第１の発言データに含まれる個々の音素と同一とみなされる１または複数の単音の各々と、第２の発言データに含まれる個々の単音との間で、マッチングを行う。本例３におけるマッチングの手法は、第２の発言データが音素データである場合と同様である。

　（照合の方法：例４）
　本例４では、第１の発言データおよび第２の発言データが、それぞれ音声信号である場合に、両者を照合する方法について説明する。

　本例４では、第一発言データ生成部３０は、口形素－音素変換部３２が口形素から変換した音素を、音素と対応する音声信号にさらに変換する。

　例えば、第一発言データ生成部３０は、音素と音声信号との対応関係を示すテーブル（図示せず）を参照して、音素を対応する音声信号に変換する。第二発言データ生成部５０は、入力された音声信号そのものを、第２の発言データとして、照合部４０へ送信する。

　照合部４０は、第１の発言データである音声信号と、第２の発言データである音声信号とを、それぞれスペクトログラムに変換する。照合部４０は、第１の発言データを表す第１のスペクトログラムと、第２の発言データと対応する第２のスペクトログラムとの間で、パターンマッチングを行い、第１のスペクトログラムと第２のスペクトログラムとの類似度を計算する。

　類似度が閾値を超える場合、照合部４０は、第１の発言データと第２の発言データとが一致する（照合成功）と判定する。一方、類似度が閾値以下である場合、照合部４０は、第１の発言データと第２の発言データとが一致しない（照合失敗）と判定する。

　以上で説明した例１から例４までのいずれかの方法を用いて、照合部４０は、第１の発言データと第２の発言データとを照合する。

　照合部４０は、第１の発言データと第２の発言データとの照合の結果を出力する。例えば、照合部４０は、照合の結果として、第１の発言データと第２の発言データとの照合に成功したか否かを示す情報を出力する。

　これにより、音声処理装置１は、話者の発言による音声（すなわち発話）に対するノイズの影響を考慮した処理を行うことができる。

　例えば、照合部４０による照合の結果は、話者と当該話者による発言とを対応付けるために用いられる（実施形態４参照）。あるいは、照合部４０による照合の結果は、第１の発言データを用いて、第２の発言データを補正するために用いられてもよい（実施形態５参照）。

　（音声処理装置１の動作フロー）
　図３を参照して、本実施形態１に係わる音声処理装置１の動作フローを説明する。図３は、音声処理装置１の動作の流れの一例を示すフローチャートである。

　図３に示すように、話者抽出部２０は、時系列の画像データを取得し、それぞれの画像データから話者の領域を抽出する（Ｓ１０１）。話者抽出部２０は、抽出した話者の画像データを、第一発言データ生成部３０へ送信する。

　第一発言データ生成部３０は、話者の画像データから、話者の***の部分を抽出し、抽出した話者の***の形状に基づいて、第１の発言データを生成する（Ｓ１０２）。

　第一発言データ生成部３０は、生成した第１の発言データを、照合部４０へ送信する。

　第二発言データ生成部５０は、話者の発言と対応する音声信号を取得する（Ｓ１０３）。

　第二発言データ生成部５０は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成する（Ｓ１０４）。第二発言データ生成部５０は、生成した第２の発言データを、照合部４０へ送信する。

　照合部４０は、第一発言データ生成部３０から、第１の発言データを受信する。また、照合部４０は、第二発言データ生成部５０から、第２の発言データを受信する。そして、照合部４０は、第１の発言データと、第２の発言データとを照合する（Ｓ１０５）。

　照合部４０は、ステップＳ１０５における照合の結果を出力する。例えば、照合部４０は、照合の結果として、第１の発言データと第２の発言データとの照合に成功したか否かを示す情報を出力する。

　以上で、音声処理装置１の動作は終了する。

　（本実施形態の効果）
　本実施形態の構成によれば、話者抽出部２０は、画像から話者の領域を抽出する。第一発言データ生成部３０は、話者の***の形状に基づいて、話者の発言の内容を示す第１の発言データを生成する。第二発言データ生成部５０は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成する。照合部４０は、第１の発言データと、第２の発言データとを照合する。

　これにより、例えば、第２の発言データから発言の内容を再現する場合に、照合部４０による照合に成功した第１の発言データを用いて、第２の発言データを補正することができる。具体的には、例えば、第２の発言データにノイズがある場合であっても、ノイズがある部分を第１の発言データに基づいて再現することができる。つまり、音声処理装置は、音声信号から発言をより高精度に再現することができる。したがって、本実施形態１に係わる音声処理装置は、人物の発言による音声に対するノイズの影響を考慮した処理を行うことを可能にするという効果を奏する。

　〔実施形態２〕
　図４を参照して、実施形態２について説明する。本実施形態２では、第２の発言データが、音素データである場合（すなわち、第２の発言データが第１の方法で生成される場合）に関して、第二発言データ生成部の詳細な構成を説明する。

　本実施形態２に係わる音声処理装置の構成は、前記実施形態１において説明した音声処理装置１（図１）と同じである。本実施形態２に係わる音声処理装置は、第二発言データ生成部５０（図１）の代わりに、第二発言データ生成部２５０（図４）を備えている。

　本実施形態２に係わる第２の発言データは、音声信号と対応する音素と、音素の並び順とを示す情報である。

　（第二発言データ生成部２５０）
　図４は、本実施形態２に係わる第二発言データ生成部２５０の構成の一例を示すブロック図である。図４に示すように、第二発言データ生成部２５０は、特徴抽出部２５２および音声信号－音素変換部２５３を含む。

　特徴抽出部２５２は、入力された音声信号に対し、サンプリング（Ａ／Ｄ変換（Analog-Digital Transform））およびフィルタリングなどの前処理を行った後、入力された音声信号から特徴を抽出する。特徴抽出部２５２は、特徴抽出手段の一例である。音声信号の特徴とは、例えば、音声信号の振幅、ある周波数についての音声信号のパワー、あるいはスペクトル（スペクトル包絡）である。

　特徴抽出部２５２は、音声信号から抽出した特徴を示す情報を、音声信号－音素変換部２５３へ送信する。

　音声信号－音素変換部２５３は、特徴抽出部２５２から、音声信号の特徴を示す情報を受信する。音声信号－音素変換部２５３は、学習済みモデルに対し、受信した特徴を入力する。

　学習済みモデルとは、音声信号の特徴から音素を判別できるように訓練したモデル（例えばニューラルネットワーク）である。前述したように、音素とは、一つの言語の中で、聴者が判別し得る音声の最小単位である。学習済みモデルは、入力された音声信号と対応する音素の判別結果を出力する。

　音声信号－音素変換部２５３は、学習済みモデルからの出力に基づいて、音声信号の特徴を、対応する音素に変換して、１または複数の音素を含む第２の発言データを生成する。音声信号－音素変換部２５３は、音声信号－音素変換手段の一例である。

　音声信号－音素変換部２５３は、入力された音声信号と対応する音素と、音素の並び順とを示す情報を、第２の発言データとして、照合部４０へ送信する。第２の発言データのデータ構造では、音声信号と対応する１または複数の音素に対し、それぞれ順序番号（１、２、３．．．．）が付加されている。

　照合部４０は、第１の発言データと、第２の発言データとを照合する。具体的には、照合部４０は、前記実施形態１において、照合の方法の例１または例２として説明した方法を用いて、第１の発言データと第２の発言データとを照合してもよい。本実施形態２では、照合の方法についての説明を省略する。

　（本実施形態の効果）
　本実施形態の構成によれば、話者抽出部２０は、画像から話者の領域を抽出する。第一発言データ生成部３０は、話者の***の形状に基づいて、話者の発言の内容を示す第１の発言データを生成する。第二発言データ生成部２５０は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成する。

　第二発言データ生成部２５０は、特徴抽出部２５２および音声信号－音素変換部２５３を含む。特徴抽出部２５２は、音声信号から特徴を抽出する。音声信号－音素変換部２５３は、入力された音声信号を、入力された音声信号と対応する音素に変換する。照合部４０は、第１の発言データと、第２の発言データとを照合する。

　これにより、本実施形態２に係わる音声処理装置は、人物の発言による音声に対するノイズの影響を考慮した処理を行うことを可能にする。例えば、照合部４０による照合に成功した場合、第１の発言データを用いて、第２の発言データを補正することにより、本実施形態２に係わる音声処理装置は、音声信号から発言をより高精度に再現することができる。

　〔実施形態３〕
　図５を参照して、実施形態３について説明する。本実施形態３では、第２の発言データが、単音データである場合（すなわち、第２の発言データが第２の方法で生成される場合）に関して、第二発言データ生成部の詳細を説明する。

　本実施形態３に係わる音声処理装置（図示せず）の構成は、前記実施形態１において説明した音声処理装置１（図１）と同じである。本実施形態３に係わる音声処理装置は、第二発言データ生成部５０の代わりに、第二発言データ生成部３５０を備えている。

　本実施形態３に係わる第２の発言データは、音声信号に含まれる単音と、単音の並び順とを示す情報である。

　（第二発言データ生成部３５０）
　本実施形態３では、第二発言データ生成部３５０は、前記実施形態１で説明した第３の方法によって、入力された音声信号から、第２の発言データを生成する。

　図５は、本実施形態３に係わる第二発言データ生成部３５０の構成の一例を示すブロック図である。図５に示すように、第二発言データ生成部３５０は、単音抽出部３５１を含む。

　単音抽出部３５１は、入力された音声信号に含まれる単音を抽出し、１または複数の単音を含む第２の発言データを生成する。単音抽出部３５１は、単音抽出手段の一例である。上述したように、単音は、基本周波数の音声信号と、基本周波数の倍数の音声信号とで表される。

　単音抽出部３５１は、入力された音声信号に含まれる単音と、単音の並び順とを示す情報を、第２の発言データとして、照合部４０へ送信する。第２の発言データのデータ構造では、音声信号と対応する１または複数の単音に対し、それぞれ順序番号（１、２、３．．．．）が付加されている。

　照合部４０は、第１の発言データと、第２の発言データとを照合する。具体的には、照合部４０は、前記実施形態１において、例３として説明した照合の方法を用いて、第１の発言データと第２の発言データとを照合してもよい。

　（本実施形態の効果）
　本実施形態の構成によれば、話者抽出部２０は、画像から話者の領域を抽出する。第一発言データ生成部３０は、話者の***の形状に基づいて、話者の発言の内容を示す第１の発言データを生成する。第二発言データ生成部３５０は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成する。

　第二発言データ生成部３５０は、入力された音声信号に含まれる単音を抽出する単音抽出部３５１を含む。単音抽出部３５１は、入力された音声信号に含まれる単音と、単音の並び順とを示す情報を、第２の発言データとして、照合部４０へ送信する。照合部４０は、第１の発言データと、第２の発言データとを照合する。

　これにより、本実施形態３に係わる音声処理装置は、人物の発言による音声に対するノイズの影響を考慮した処理を行うことを可能にする。例えば、照合部４０による照合に成功した場合、第１の発言データを用いて、第２の発言データを補正することにより、音声信号から発言をより高精度に再現することができる。

　〔実施形態４〕
　図６および図７を参照して、実施形態４について説明する。本実施形態４では、第１の発言データと第２の発言データとの照合の結果に基づいて、話者の発言と対応する音声信号と対応する第２の発言データと、話者を識別する話者情報とを対応付ける構成について説明する。

　（音声処理装置４）
　図６を参照して、本実施形態４に係わる音声処理装置４の構成を説明する。図６は、音声処理装置４の構成の一例を示すブロック図である。

　図６に示すように、音声処理装置４は、話者抽出部２０、第一発言データ生成部３０、照合部４０、第二発言データ生成部５０、および対応付け部６０を備えている。すなわち、本実施形態４に係わる音声処理装置４の構成は、対応付け部６０を備えている点で、前記実施形態１に係わる音声処理装置１の構成と異なる。

　対応付け部６０は、記憶部３００と接続されている。記憶部３００は、音声処理装置４と無線または有線のネットワークを介して接続されていてもよい。あるいは、記憶部３００は、音声処理装置４の一部であってもよい。記憶部３００は記憶手段の一例である。

　本実施形態４では、話者抽出部２０は、前記実施形態１で説明したように、時系列の画像データから話者の領域を抽出する。さらに、話者抽出部２０は、時系列の画像データから抽出した話者を識別する話者情報を生成する。

　例えば、話者抽出部２０は、時系列の画像データから、話者の顔の領域を抽出する。そして、話者抽出部２０は、話者情報として、話者の顔画像データを生成する。あるいは、話者抽出部２０は、話者の顔の特徴を表す特徴ベクトルを、話者情報として生成してもよい。

　話者情報は、例えば、話者の属性情報、話者の位置情報、話者の顔画像、および第１の発言データのうち、少なくとも１つである。しかしながら、話者情報は、話者を識別するための情報であれば、これらには限定されない。

　なお、時系列の画像データから複数の話者が検出された場合、話者抽出部２０は、１人の話者ごとに、話者情報を生成する。話者抽出部２０は、生成した話者情報を、対応付け部６０へ送信する。

　第一発言データ生成部３０は、話者抽出部２０から、話者の画像データを受信する。第一発言データ生成部３０は、受信した画像データに基づいて、前記実施形態１において説明した画像分析によって、第１の発言データを生成する。第一発言データ生成部３０は、生成した第１の発言データを、照合部４０へ送信する。

　第二発言データ生成部５０は、前記実施形態１において説明したように、第２の発言データを生成する。第二発言データ生成部５０は、生成した第２の発言データを、照合部４０へ送信する。

　本実施形態４において、第２の発言データは、上述した音素データおよび単音データのいずれであってもよい。

　照合部４０は、第一発言データ生成部３０から、第１の発言データを受信する。また照合部４０は、第二発言データ生成部５０から、第２の発言データを受信する。照合部４０は、第１の発言データと、第２の発言データとを照合する。

　例えば、照合部４０は、前記実施形態１において説明した照合の方法の例１～４のいずれかを用いて、第１の発言データと、第２の発言データとを照合する。

　照合部４０は、照合の結果を対応付け部６０へ送信する。例えば、照合部４０は、照合の結果として、第１の発言データと第２の発言データとの照合に成功または失敗したことを示す情報又はフラグを、対応付け部６０へ送信する。

　対応付け部６０は、照合の結果に基づいて、画像中の話者を識別するための話者情報と、第２の発言データとを対応付ける。対応付け部６０は、対応付け手段の一例である。

　具体的には、対応付け部６０は、話者抽出部２０から話者情報を受信する。また対応付け部６０は、照合部４０から、上述した照合の結果を受信する。上述したように、照合の結果は、例えば、第１の発言データと第２の発言データとの照合に成功または失敗したことを示す情報またはフラグである。

　照合の結果が、第１の発言データと第２の発言データとの照合に成功したことを示す場合、対応付け部６０は、照合部４０による照合の結果に基づいて、話者抽出部２０から受信した話者情報と、第二発言データ生成部５０から受信した第２の発言データとを対応付ける。例えば、対応付け部６０は、話者情報および第２の発言データの組に対し、ＩＤ（Identification）を付与する。

　対応付け部６０は、話者情報および第２の発言データの組を、当該組に付与されたＩＤとともに、図６に示す記憶部３００に格納する。あるいは、対応付け部６０は、対応付けした話者情報および第２の発言データを、図示しないネットワークサーバ等にも格納してもよい。あるいは、対応付け部６０は、第２の発言データを、話者の発言と対応する音声信号またはテキストデータに変換し、変換した音声信号またはテキストデータを、話者情報と紐付けて、記憶部３００に格納してもよい。

　（音声処理装置４の動作フロー）
　図７を参照して、本実施形態４に係わる音声処理装置４の動作フローを説明する。図７は、音声処理装置４の動作の流れの一例を示すフローチャートである。図７に示すステップＳ１０１からステップＳ１０５までは、前記実施形態１において説明した動作フローと共通であるから、本実施形態４では、Ｓ１０１～Ｓ１０５に関する説明を省略する。以下では、図７に示すステップＳ２０６から、説明する。

　図７に示すように、照合部４０が、第２の発言データと第１の発言データとの間の照合を行った後（Ｓ１０５）、対応付け部６０は、照合部４０から、照合の結果を受信する。照合部４０が第１の発言データと第２の発言データとの間の照合に失敗した場合（Ｓ２０６でＮｏ）、図６に示す動作フローの最初のステップＳ１０１へ戻る。

　一方、照合部４０が、第１の発言データと第２の発言データとの間の照合に成功した場合（Ｓ２０６でＹｅｓ）、対応付け部６０は、話者抽出部２０から受信した話者情報と、第二発言データ生成部５０から受信した第２の発言データとを対応付ける（Ｓ２０７）。

　対応付け部６０は、対応付けた話者情報および第２の発言データを、記憶部３００に格納する。以上で、本実施形態４に係わる音声処理装置４の動作は終了する。

　これにより、人物の発言による音声に対するノイズの影響を考慮した処理を行うことができる。

　さらに、対応付け部６０は、照合の結果に基づいて、画像中の話者を識別するための話者情報と、第２の発言データとを対応付ける。これにより、本実施形態４に関わる音声処理装置は、例えば、だれが何を発言したのかを記載した議事録データを簡単に作成することができる。また、本実施形態４に関わる音声処理装置は、複数人の人物がいる場合であっても、話者を特定することができる。

　〔実施形態５〕
　図８～図１０を参照して、実施形態５について説明する。本実施形態５では、第１の発言データを用いて、第２の発言データを補正する構成を説明する。

　（音声処理装置５）
　図８を参照して、本実施形態５に係わる音声処理装置５の構成を説明する。図８は、音声処理装置５の構成の一例を示すブロック図である。図８に示すように、音声処理装置５は、話者抽出部２０、第一発言データ生成部３０、照合部４０、および第二発言データ生成部５０に加えて、補正部７０をさらに備えている。

　すなわち、本実施形態５に係わる音声処理装置５の構成は、補正部７０を備えている点で、前記実施形態１に係わる音声処理装置１の構成と異なる。

　本実施形態５では、照合部４０だけでなく、補正部７０も、第二発言データ生成部５０から、第２の発言データを受信する。加えて、補正部７０は、第一発言データ生成部３０から、第１の発言データを受信する。

　本実施形態５では、第２の発言データは、前記実施形態１と同様に、上述した音素データおよび単音データのいずれであってもよい。

　補正部７０は、第一発言データ生成部３０から受信した第１の発言データを用いて、第２の発言データを補正する。補正部７０は、補正手段の一例である。

　補正部７０は、補正した第２の発言データを、図示しない記憶部、ネットワークサーバ、あるいはその両方に格納してもよい。

　具体的に、補正部７０が第１の発言データを用いて第２の発言データを補正する方法の具体例を、以下で説明する。

　まず、第２の発言データが、音素データである場合、すなわち、第２の発言データが、音声信号と対応する音素と、音素の並び順とを示す情報である場合について、以下で説明する。

　（補正の方法：例１）
　本例１では、補正部７０は、第１の発言データに含まれる音素と、第２の発言データである音素データに含まれる対応する音素とを比較する。対応する音素とは、付加された順序番号が同一である音素である。特に、補正部７０は、第１の発言データに含まれる母音と、第２の発言データである音素データに含まれる対応する母音とを比較する。

　両者（つまり第１の発言データおよび第２の発言データ）の母音が同一である場合、補正部７０は、第２の発言データの母音をそのままとする。

　一方、両者の母音が異なる場合、補正部７０は、第２の発言データに含まれる母音を、第１の発言データの対応する母音で置換する。このように、補正部７０は、第１の発言データを用いて、第２の発言データを補正する。

　（補正の方法：例２）
　本例２では、補正部７０は、第２の発言データに含まれる音素のうち、ＳＮ比（Ｓ／Ｎ）あるいは尤度が、閾値よりも小さい音素を、第１の発言データの対応する音素に置換する。

　続いて、第２の発言データが、上述した単音データである場合、すなわち、第２の発言データが、音声信号に含まれる単音と、単音の並び順とを示す情報である場合について、以下で説明する。

　（補正の方法：例３）
　本例３では、補正部７０は、第２の発言データに含まれる単音の複数の候補の、それぞれの尤度に対し、第１の発言データの対応する音素に応じた重みを付加し、重み付けした尤度に基づいて、第２の発言データの単音の複数の候補のうち１つを選択する。

　例えば、第２の発言データに含まれるある単音の第１の候補の尤度がａ、同じ単音の第２の候補の尤度がＡであるとする。一方、第１の発言データの対応する音素が、第１の候補と同一であるとする。この場合、補正部７０は、第１の候補の尤度に重みＸ（＞１）を付与し、第２の候補の尤度に重みｙ（≦１）を付与する。

　補正部７０は、第１の候補の重み付き尤度Ｘ×ａと、第２の候補の重み付き尤度ｙ×Ａとの大小を比較する。補正部７０は、重み付き尤度の大きい方の候補を選択する。

　（変形例）
　図９を参照して、本実施形態５に係わる音声処理装置５の一変形例を説明する。図９は、一変形例に係わる音声処理装置５Ａの構成の一例を示すブロック図である。

　図９に示すように、音声処理装置５Ａは、第一発言データ生成部３０、照合部４０、第二発言データ生成部５０、補正部７０、および対応付け部６０を備えている。すなわち、本変形例に係わる音声処理装置５Ａの構成は、対応付け部６０をさらに備えている点で、音声処理装置５の構成と異なる。

　対応付け部６０は、画像データ中の話者を識別するための話者情報と、補正部７０によって補正された第２の発言データとを対応付ける。対応付け部６０は、対応付け手段の一例である。

　具体的には、対応付け部６０は、話者抽出部２０から、話者情報を受信する。また対応付け部６０は、補正部７０から、補正された第２の発言データを受信する。また対応付け部６０は、照合部４０から、第１の発言データと第２の発言データとの照合に成功したことを示す情報またはフラグを受信する。

　対応付け部６０は、第１の発言データと第２の発言データとの照合に成功したことを示す情報またはフラグを、照合部４０から受信した場合、話者抽出部２０から受信した話者情報と、補正部７０から受信した、補正された第２の発言データとを対応付ける。

　対応付け部６０は、補正された第２の発言データと、話者抽出部２０から受信した話者情報（例えば話者の顔画像）とを対応付けて、記憶部３００（前記実施形態４参照）等へ格納する。

　なお、照合部４０が、複数の発言者の第１の発言データと、第２の発言データとを照合した場合、対応付け部６０は、照合の結果に基づいて、類似度が最も高いただ１つの第１の発言データと第２の発言データとの組を特定する。そして、対応付け部６０は、特定した第１の発言データと対応する１人の話者に関する話者情報と、第２の発言データとを対応付ける。

　対応付け部６０は、対応付けした話者情報および第２の発言データを、図６に示す記憶部３００に格納する。あるいは、対応付け部６０は、対応付けした話者情報および第２の発言データを、図示しないネットワークサーバ等にも格納してもよい。

　例えば、対応付け部６０は、話者情報および第２の発言データの組に対し、それぞれＩＤを付与する。そして、対応付け部６０は、話者情報および第２の発言データの組を、当該組に付与したＩＤとともに、記憶部３００、ネットワークサーバ、またはその両方に格納する。

　なお、以下では、対応付け部６０を備えていない（すなわち上述した変形例ではない）音声処理装置５に関して説明する。

　（音声処理装置５の動作フロー）
　図１０を参照して、本実施形態５に係わる音声処理装置５の動作フローを説明する。図１０は、音声処理装置５の動作の流れの一例を示すフローチャートである。

　図１０に示すフローチャートにおいて、ステップＳ１０１からステップＳ１０５までは、前記実施形態１において説明した動作フローと共通である。また、続くステップＳ２０６は、前記実施形態４において説明した動作フローと共通である。

　したがって、本実施形態５では、Ｓ１０１～Ｓ１０５、およびＳ２０６に関する説明を省略する。以下では、図１０に示すステップＳ２０６の直後から、説明する。

　図１０に示すように、照合部４０が、第１の発言データと第２の発言データとの照合に失敗した場合（Ｓ２０６でＮｏ）、音声処理装置５の動作フローはステップＳ１０１へ戻る。一方、照合部４０が、第１の発言データと第２の発言データとの照合に成功した場合（Ｓ２０６でＹｅｓ）、補正部７０は、第一発言データ生成部３０から受信した第１の発言データによって、第二発言データ生成部５０から受信した第２の発言データを補正する（Ｓ３０７）。

　その後、補正部７０は、補正した第２の発言データを出力してもよい。上述した一変形例では、補正部７０は、補正された第２の発言データを、対応付け部６０へ送信する。対応付け部６０は、話者抽出部２０から受信した話者情報（例えば話者の顔画像データ）と、補正部７０により補正された第２の発言データとを対応付けて、記憶部３００（図６参照）等に格納する。

　以上で、本実施形態５に係わる音声処理装置５の動作は終了する。

　（本実施形態の効果）
　本実施形態の構成によれば、話者抽出部２０は、画像から話者の領域を抽出する。第一発言データ生成部３０は、話者の***の形状に基づいて、話者の発言の内容を示す第１の発言データを生成する。第二発言データ生成部５０は、話者の発言と対応する音声信号に基づいて、話者の発言の内容を示す第２の発言データを生成する。照合部４０は、第１の発言データと、第２の発言データとを照合する。これにより、人物の発言による音声に対するノイズの影響を考慮した処理を行うことが可能となる。

　さらに、第１の発言データと、第２の発言データとの間の照合が成功した場合、補正部７０は、第１の発言データを用いて、第２の発言データを補正する。したがって、音声信号から発言の内容を再現する精度が向上する。

　〔実施形態６〕
　図１１および図１２を参照して、実施形態６について説明する。本実施形態６では、音声処理装置６を含むシステムの構成を説明する。

　なお、システムは、前記実施形態１から前記実施形態５までにおいて説明した音声処理装置１から音声処理装置５までのいずれかを、本実施形態６に係わる音声処理装置６の代わりに備えていてもよい。

　（システムの構成）
　図１１を参照して、本実施形態６に係わるシステムの構成を説明する。図１１は、システムの構成の一例を示すブロック図である。図１１に示すように、システムは、音声処理装置６に加えて、マイク１００、カメラ２００、およびディスプレイ４００を含む。本実施形態６に係わるシステムの全部または一部は、インテリジェントカメラ（例えば、内部に解析機能を備えるＩＰカメラやネットワークカメラ。スマートカメラ等とも呼ばれる。）によって、実現されてもよい。

　（音声処理装置６）
　本実施形態６に係わる音声処理装置６は、話者抽出部２０、第一発言データ生成部３０、および照合部４０に加えて、表示制御部８０をさらに備えている。すなわち、本実施形態６に係わる音声処理装置６の構成は、表示制御部８０を備えている点で、前記実施形態１に係わる音声処理装置１の構成と異なる。

　マイク１００は、話者の発言による音声（発話）を集音して、話者の発言と対応する音声信号を生成する。マイク１００は、１または複数のマイクを含む。マイク１００は、発言による音声と対応する音声信号を、第二発言データ生成部５０へ送信する。

　カメラ２００は、撮影対象の場所（例えば会議室内）に設置されている。カメラ２００は、撮影対象の場所、および、撮影対象の場所にいる人物を撮影し、撮影した時系列の画像データ（例えば一定時間の動画のフレーム画像、あるいは所定の時間ごとに撮影された複数の静止画像）を、話者抽出部２０および表示制御部８０へ送信する。

　本実施形態６では、照合部４０は、第１の発言データと第２の発言データとの照合の結果を、話者抽出部２０へ送信する。

　話者抽出部２０は、第１の発言データと第２の発言データとの照合に成功したという結果を照合部４０から受信した場合、話者を含む領域を示す図形を含む重畳用の画像データ（以下では、サブ画像データと呼ぶ）を生成する。そして、話者抽出部２０は、生成したサブ画像データを、表示制御部８０へ送信する。

　なお、話者抽出部２０は、第１の発言データと第２の発言データとの照合に失敗したという結果を照合部４０から受信した場合、サブ画像データを生成しない。

　表示制御部８０は、カメラ２００から、時系列の画像データを受信する。表示制御部８０は、話者抽出部２０からサブ画像データを受信していない場合、カメラ２００から受信した時系列の画像データを、ディスプレイ４００で表示可能なフォーマットに変換して、ディスプレイ４００に表示画像を表示させる。

　一方、表示制御部８０は、話者抽出部２０からサブ画像データを受信した場合、時系列の画像データ上に、受信したサブ画像データを重畳し、ディスプレイ４００で表示可能なフォーマットに変換して、ディスプレイ４００上に重畳画像を表示させる。表示制御部８０は、表示制御手段の一例である。重畳画像の具体例を以下で説明する。

　（重畳画像の一例）
　図１２は、表示制御部８０によって生成され、ディスプレイ４００に表示された重畳画像の一例を示す。

　図１２に示す重畳画像では、話者（図中、右上の人物）の顔の周囲に、矩形の図形が表示されている。この矩形の図形は、上述したサブ画像データの一例である。ユーザは、ディスプレイ４００に表示された重畳画像を見ることで、話者を容易に特定することができる。

　重畳画像において、話者を指し示す図形の形状及び様態（例えば、図形内のハッチング、あるいは、図形を構成する線の色、太さ、または種類）は、図１２に示すような矩形には限定されない。別の一例では、話者を指し示す図形は、話者を向いた矢印であってもよい。

　さらに、表示制御部８０は、話者を含む領域を示す図形を画像上に重畳した重畳画像を、ディスプレイ４００上に表示させる。このため、ユーザは、ディスプレイ４００上の重畳画像から、話者を容易に特定することができる。

　〔実施形態７〕
　図１３を参照して、実施形態７について以下で説明する。

　（ハードウェア構成について）
　前記実施形態１～６で説明した音声処理装置の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図１３に示すような情報処理装置９００により実現される。図１３は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。情報処理装置９００は、例えば、インテリジェントカメラの内部構成を示している。

　図１３に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

　　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１
　　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２
　　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３
　　・ＲＡＭ９０３にロードされるプログラム９０４
　　・プログラム９０４を格納する記憶装置９０５
　　・記録媒体９０６の読み書きを行うドライブ装置９０７
　　・通信ネットワーク９０９と接続する通信インタフェース９０８
　　・データの入出力を行う入出力インタフェース９１０
　　・各構成要素を接続するバス９１１
　前記実施形態１～６で説明した音声処理装置の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで、実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

　（本実施形態の効果）
　本実施形態の構成によれば、前記実施形態において説明した音声処理装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。

　〔付記〕
　上記の実施形態（及び実施例）の一部または全部は、以下の付記のように記載されてもよいが、以下の付記は単なる例である。上記の実施形態（及び実施例）の一部または全部は、以下の付記に記載した構成に限られない。

　　（付記１）
　画像から話者の領域を抽出する話者抽出手段と、
　前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成する第一発言データ生成手段と、
　前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成する第二発言データ生成手段と、
　前記第１の発言データと、前記第２の発言データとを照合する照合手段と
　を備えた音声処理装置。

　　（付記２）
　前記第一発言データ生成手段は、
　前記話者の***の形状から、口形素を識別する口形素識別手段と、
　前記口形素を音素に変換して、１または複数の音素を含む前記第１の発言データを生成する口形素－音素変換手段とを含む
　ことを特徴とする付記１に記載の音声処理装置。

　　（付記３）
　前記第二発言データ生成手段は、
　入力された音声信号から特徴を抽出する特徴抽出手段と
　前記音声信号の特徴を、対応する音素に変換して、１または複数の音素を含む前記第２の発言データを生成する音声信号－音素変換手段とを含む
　ことを特徴とする付記１または２に記載の音声処理装置。

　　（付記４）
　前記第二発言データ生成手段は、
　入力された音声信号に含まれる単音を抽出し、１または複数の単音を含む前記第２の発言データを生成する単音抽出手段を含む
　ことを特徴とする付記１または２に記載の音声処理装置。

　　（付記５）
　前記話者抽出手段は、前記画像から抽出した前記話者を識別するための話者情報を生成し、
　前記照合の結果に基づいて、前記話者情報と、前記第２の発言データとを対応付ける対応付け手段をさらに備えた
　ことを特徴とする付記１から４のいずれか１項に記載の音声処理装置。

　　（付記６）
　前記第一発言データ生成手段は、前記画像中の複数の話者の***の形状に基づいて、複数の前記第１の発言データを生成し、
　前記照合手段は、複数の前記第１の発言データのそれぞれと、前記第２の発言データとを照合し、
　前記対応付け手段は、前記照合の結果に基づいて、前記複数の話者のうちいずれか１人に関する前記話者情報と、前記第２の発言データとを対応付ける
　ことを特徴とする付記５に記載の音声処理装置。

　　（付記７）
　前記第１の発言データと、前記第２の発言データとの間の照合が成功した場合、前記第１の発言データを用いて、前記第２の発言データを補正する補正手段をさらに備えた
　ことを特徴とする付記１から６のいずれか１項に記載の音声処理装置。

　　（付記８）
　前記画像上に、前記話者を含む領域を示す図形を重畳した重畳画像を、ディスプレイ上に表示させる表示制御手段をさらに備えた
　ことを特徴とする付記１から７のいずれか１項に記載の音声処理装置。

　　（付記９）
　画像から話者の領域を抽出し、
　前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成し、
　前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成し、
　前記第１の発言データと、前記第２の発言データとを照合する
　ことを含む音声処理方法。

　　（付記１０）
　画像から話者の領域を抽出することと、
　前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成することと、
　前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成することと、
　前記第１の発言データと、前記第２の発言データとを照合することと
　をコンピュータに実行させるためのプログラムを格納する記録媒体。

　　（付記１１）
　前記話者情報は、前記話者の属性情報、前記話者の位置情報、前記話者の顔画像、および前記第１の発言データのうち、少なくとも１つである
　ことを特徴とする付記５または６に記載の音声処理装置。

　以上、実施形態（及び実施例）を参照してこの開示を説明したが、この開示は上記実施形態（及び実施例）に限定されるものではない。上記実施形態（及び実施例）の構成や詳細には、この開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１９年８月２日に出願された日本出願特願２０１９－１４２９５１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　　　１　音声処理装置
　　　２　音声処理装置
３、３Ａ　音声処理装置
４、４Ａ　音声処理装置
５、５Ａ　音声処理装置
　　　６　音声処理装置
　　２０　話者抽出部
　　３０　第一発言データ生成部
　　３１　口形素識別部
　　３２　口形素－音素変換部
　　４０　照合部
　　５０　第二発言データ生成部
　　６０　対応付け部
　　７０　補正部
　　８０　表示制御部
　２５０　第二発言データ生成部
　２５２　特徴抽出部
　２５３　音声信号－音素変換部
　３００　記憶部
　３５０　第二発言データ生成部
　３５１　単音抽出部
　４００　ディスプレイ

Claims

　画像から話者の領域を抽出する話者抽出手段と、
　前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成する第一発言データ生成手段と、
　前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成する第二発言データ生成手段と、
　前記第１の発言データと、前記第２の発言データとを照合する照合手段と
　を備えた音声処理装置。
　前記第一発言データ生成手段は、
　前記話者の***の形状から、口形素を識別する口形素識別手段と、
　前記口形素を音素に変換して、１または複数の音素を含む前記第１の発言データを生成する口形素－音素変換手段とを含む
　ことを特徴とする請求項１に記載の音声処理装置。
　前記第二発言データ生成手段は、
　入力された音声信号から特徴を抽出する特徴抽出手段と
　前記音声信号の特徴を、対応する音素に変換して、１または複数の音素を含む前記第２の発言データを生成する音声信号－音素変換手段とを含む
　ことを特徴とする請求項１または２に記載の音声処理装置。
　前記第二発言データ生成手段は、
　入力された音声信号に含まれる単音を抽出し、１または複数の単音を含む前記第２の発言データを生成する単音抽出手段を含む
　ことを特徴とする請求項１または２に記載の音声処理装置。
　前記話者抽出手段は、前記画像から抽出した前記話者を識別するための話者情報を生成し、
　前記照合の結果に基づいて、前記話者情報と、前記第２の発言データとを対応付ける対応付け手段をさらに備えた
　ことを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
　前記第一発言データ生成手段は、前記画像中の複数の話者の***の形状に基づいて、複数の前記第１の発言データを生成し、
　前記照合手段は、複数の前記第１の発言データのそれぞれと、前記第２の発言データとを照合し、
　前記対応付け手段は、前記照合の結果に基づいて、前記複数の話者のうちいずれか１人に関する前記話者情報と、前記第２の発言データとを対応付ける
　ことを特徴とする請求項５に記載の音声処理装置。
　前記第１の発言データと、前記第２の発言データとの間の照合が成功した場合、前記第１の発言データを用いて、前記第２の発言データを補正する補正手段をさらに備えた
　ことを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
　前記画像上に、前記話者を含む領域を示す図形を重畳した重畳画像を、ディスプレイ上に表示させる表示制御手段をさらに備えた
　ことを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
　前記話者情報は、前記話者の属性情報、前記話者の位置情報、前記話者の顔画像、および前記第１の発言データのうち、少なくとも１つである
　ことを特徴とする請求項５または６に記載の音声処理装置。
　画像から話者の領域を抽出し、
　前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成し、
　前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成し、
　前記第１の発言データと、前記第２の発言データとを照合する
　ことを含む音声処理方法。
　画像から話者の領域を抽出することと、
　前記話者の***の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成することと、
　前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成することと、
　前記第１の発言データと、前記第２の発言データとを照合することと
　をコンピュータに実行させるためのプログラムを格納する記録媒体。