JPH02136900A

JPH02136900A - 音声テキスト検索装置

Info

Publication number: JPH02136900A
Application number: JP63291586A
Authority: JP
Inventors: Tsunesuke Takahashi; 恒介高橋
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-11-18
Filing date: 1988-11-18
Publication date: 1990-05-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声テキスト検索装置に関し、特に音声テキス
トや録音テキストの内容検索に関する。

〔従来の技術〕

従来、ラジオやテレビ等でアナウンスされる音声テキス
トはホットな知識情報を多く含んでいるが、それを聞い
て必要な部分を録音するとか、メモを取るとかは人間に
とって簡単にできることではあるが楽な仕事ではない。

それだけに機械にやらせればよいと考えられてきた。特
に外国語の音声テキストについてはキーポイントとなる
単語音声の有り無しを高速に判断する必要があり、高速
の音声テキスト検索装置の実現への期待が大きい。しか
しながら、従来は音声認識機械によって音声テキストの
全てを認識し、且つコード化し、その後で検索を行える
ようにしようしていた。

〔発明が解決しようとする課題〕

上述した従来の音声テキスト検索装置は、音声認識機械
によって検索を行えるようにしようとしたが、このよう
な考え方では音声認識技術が十分に高くならないと、音
声テキストの検索は有り得ないことであった。また、一
般に高性能な音声認識機械は音声タイプライタや自動翻
訳機械の実現に必要であるために盛んに研究されてきた
。しかし、ラジオで放送された音声テキストの中の単語
音声を認識するには、不特定多数の結紮の標準音声パタ
ーンを非常に多く記憶して、それらを入力音声パターン
と並列照合する必要があるので、登録語素数だけを考え
ても経済的な実現が容易ではなかった。更に、音声の登
録時と検索時のばらつきの大きさを考えると、従来の音
声認識機械の多くは入力音声にかなりの制約を設けてい
た。それは従来音声認識機械での録音音声パターンと入
力音声パターンとの比較照合における柔軟性の不足によ
る。すなわち、入カバターンが分類されるときに、時間
的ピッチの揺れはダイナミック・プログラミング（ＤＰ
）手法によって、ある程度許されるようになったが、声
楽曲のように揺れる音声の音の高さや揺れに対しては余
り許容度がなかった。

従来の柔軟性の少ない音声認識機械では、音声テキスト
の各部の音声の高さや強さが録音時の単Ｍｌ声の高さや
強さに一致していないとマツチングが悪くなった。また
、音声を高さや強さを変えて別々に登録しておかないと
分類が正しく行われないような認識装置では実用度が低
くなる。このようなこともあって、ラジオやテレビから
の生放送の音声テキストの検索が実現されなかった。

ここで音声テキストの高さや強さの揺れについて以下に
詳細に説明する。まず、単語音声を認識するためには、
音声信号が電気信号に変換され、高速フーリエ変換器な
どのスペクトラムアナライザによって周波数毎のアナロ
グ電気信号波形に分解され、音声パターンになる。第２
図は音声パターンの説明図である。横線が時間軸２０１
、縦線が周波数Ｎ　２０２である。観測される音声スペ
クトロダラム２０３は各時刻での各周波数における電気
信号波形の高さを色の濃さで示したものであり、成人男
性話者の′°島”［ｓｉｍａ］を発声したときの一例で
ある。垂線２０４は音素の境界を示している。この音声
スペクトロダラム２０３が音声認識の対象となる２次元
の音声パターンである。音声認識の基本はこのような音
声パターンの照合である。このときに２次元の音声パタ
ーンが発声毎に大きく揺らぐ。音声の時間的な揺れが横
軸方向のパターンの変動に対応し、音声の高さの揺れが
音素単位でのパターンの上下の変動に対応する。

強さの揺れは音素毎でのパターンの濃さの変化に対応す
る。それらを考慮した上で、各入力音声パターンを基準
となる複数個の登録音声パターンと一斉に比較すること
が音声認識技術に求められてきた。

本発明の目的は、各時刻での音声スペクトログラムの上
下左右の変動と濃度の変動に伴う音声パターンの認識率
の低下を防ぐことにあり、より具体的には、各時刻での
音声スペクトログラムの上下左右強弱変動に影響されな
い音声パターンの認識技術を提供すると共に、入力音声
テキストデータをすべてコード化するのではなく、検索
したい文字列の音声スベクトロダラムのみを登録するこ
とで、その音声文字列を含む音声テキストデータを見つ
け出す音声パターンの認識技術を提供することにある。

更に、入力音声の時間、高低及び強弱の揺れに左右され
ない音声照合を可能にするマツチングＣＣＤデバイス技
術を提供することにある。

〔課題を解決するための手段〕

本発明の音声テキスト検索装置は、（１）　音声テキス
ト及び検索用単語音声を周波数別のアナログ信号波形に
変換するスペクトル分析手段と、変換された前記アナロ
グ信号波形の各時刻でのアナログ信号振幅を周波数順に
光パルス信号に変換する光パルス発生手段と、前記検索
用単語音声を重み係数の光マスクパターンに変換して保
持すると共に前記光パルス信号を受ける光学マスク手段
と、前記光学マスク手段を通過した前記光パルス信号を
検出し、前記アナログ信号波形のマツチング処理をし、
マツチした単語音声のクラス判別を行うマツチングＣＣ
Ｄデバイスとを備えたこと、（２）　前記（１）項に前
記マツチングＣＣＤデバイスが前記光学マスク手段を通
過した前記光パルス信号を検出し、周波数毎の検出信号
を積算して転送するイメージセンサ手段と、前記イメー
ジセンサ手段に結合して各時刻における前記イメージセ
ンサ手段の各段の出力とそれ以前の出力との中から最大
値を選び、前記最大値と前段からの転送信号とを比較し
て最小振幅の方を選択し、次段への転送信号とするミニ
マクス電荷転送手段と、複数の前記ミニマクス電荷転送
手段の出力の中の最大値を検出し、その位置をエンコー
ドする最大検出エンコード手段とを備えたこと、（３）
　前記（１）項に前記音声テキストをディジタル信号波
形に変換して記憶する音声テキスト記憶手段と、前記検
索用単語音声と、前記音声テキスト記憶手段のレコード
アドレスと前記マツチングＣＣＤデバイスの出力するク
ラスコードとでアクセス番地の決まるマッチビット記憶
手段とを備えたことを特徴とする。

〔実施例〕

次に図面を参照して本発明の詳細な説明する。

第１図は本発明の音声テキスト検索装置の基本構成を示
す説明図である。第１図において、音声テキストや検索
用単語音声はまず音声入力手段＋１０であるマイクロホ
ン１０２によって電気信号に変換され、次にＡ／Ｄ変換
器１０４によってデジタル信号に変換される。そしてス
イッチ１３５を介して音声メモリ１２０に貯えられる。

音声入力手段１１０は音声信号をデジタル信号に変換す
るときに音量の正規化やノイズ除去などの平滑化や圧縮
などの処理を必要に応じて行う。更に音声メモリ１２０
は再生時のアナログ信号が書き込み時のアナログ音声信
号に一致すると共に、周波数スペクトル回路で分析し易
くなるように符合化したデジタル信号を格納する。した
がって、Ａ／Ｄ変換器ＩＣ１４は単に各時点でのアナロ
グ値をデジタル値に変換するだけでなく、必要に応じて
上述の目的にあった符合化の機蛯を持っている。音声テ
キストの構成要素となる単語音声を認識するなめに不可
欠なスペクトルアナライザ１３０は音声入力手段＋１０
か又は、音声メモリ１２０から読み出されるデジタル信
号をスイッチ１３５を介して入力し、高速にフーリエ変
換とかウオルシュ変換等を行う。これにより、音声テキ
ストの各時刻における音声の各周波数成分の振幅がアナ
ログ信号波形として求まる。スイッチ１４０はスペクト
ルアナライザ＋３０の出力である周波数別のアナログ信
号波形を各時刻で低周波の方から高周波の方へ、あるい
は高周波の方から低周波の方へ順に走査し、音声スペク
トロダラムの各時刻における音声パターンをシリアルに
出力し、光パルス発生制御回路１５０に供給する。また
スイッチ１４０の走査のために周波数走査用カウンタ１
４２と、周波数走査用カウンタ１４２にタロツク信号を
供給するクロック発生器１４４が使われる。光パルス発
生制御回路＋５０はレーザダイオードなどの発光ダイオ
ード１５２が発生する光パルスの強度やパルス幅を制御
し、各時刻のアナログ信号波形の振幅を読み取って、そ
の振幅に等しいパルス幅の光パルス駆動信号を発生する
。これにより、周波数別のアナログ信号を、時々刻々と
シリアル走査によって光パルスの信号列に置き換える。

この光パルスの振幅とパルス幅はＣＣＤのイメージセン
サ部１ｇ２で検出されるに都合のよい大きさに決められ
る。すなわち、パルス幅を大きくできないときには振幅
を大きくし、発光ダイオード１５２の出力が大きくない
ときにはパルス幅を長くする。ここに、１秒程度の単語
音声を６０ｍ５ｅｃ単位でシリアルな光パルス列に変換
し、周波数のサンプル点を６０とすると、パルス幅は自
ずと１　ｍ５ｅｃ以下に制限される。また、発光ダイオ
ード１５２が１０ｍＷ以上であればパルス幅はこの程度
で十分である。発光ダイオード１５２から出力される光
パルスは光学レンズ１５４を通して１０〜３０ｍｍ角程
度の光学マスク＋７０に均一に照射され、マツチングＣ
ＣＤデバイス１８０に突き抜ける。光学マスクＩ７０は
偏光板と検光板に挟まれたスーパ・ツィステッド・ネマ
チック（ＳＴＮ）液晶などの表示マトリックスであって
、各メツシュの光の透過度がそこに印加された電圧によ
って制御され、設定された透過度がしばらくの間は保持
されるものであって、透明な薄膜トランジスタを１００
万個程度液晶パネル内にマトリクス状に配列し、メツシ
ュの液晶への印加電圧を変えることで、光の透過か遮断
かの状態を設定できる。この光学マスク１７０にはマス
クパターンを記憶するマスクメモリ１６０が接続され、
光学マスクにおける重み係数のマスクパターンがマスク
メモリ１６０からの定期的なリフレッシュによって保持
される。

マスクパターン発生器１６５は音声メモリ１２０から読
み出される検索用単語音声に対するスペクトルアナライ
ザ１３０とスイッチ＋４０の処理結果を重み係数列に変
換する部分であり、この出力がマスクメモリ１６０に貯
えられる。マスクパターン発生器１６５は液晶パネルの
４×４のメツシュて１６１直のアナログ量を記憶するよ
うにコード変換を行って重み係数を作る。重み係数列は
マスクメモリ１６０に貯えられた後で、光学マスク１７
０の液晶パネル面上に設定される。１つの単語音声に約
１万６０００メツシユを使用するが、薄膜トランジスタ
は数１０単語音声の登録が可能である。マツチングＣＣ
Ｄデバイス１８０はイメージセンサ部＋８２とミニマス
ク電荷転送部１８４及び最大値検出型エンコーダ１８６
とを含み、電荷転送制御回路１８８によって制御される
。これは光学マスク１７０を通過した光パルスを一斉に
検出し、どこでマツチングがあったかをシストリックア
レイとして働くイメージセンサ部１８２で調べ、更に音
素列のマツチングの有無をミニマスク電荷転送部１８４
で調べてマツチングの結果を最大値検出型エンコーダ１
８６から出力する。イメージセンサ部１８２はフォトダ
イオードセルとＣＣＤセルより成るＣＣＤセルアレイで
あって、光学マスク１７０を通過した光パルスの透過光
景に比例した電荷をフォトダイオードセルに貯え、各フ
ォトダイオードセルに対応したＣＣＤセル上で累積電荷
量として転送する。最終段のＣＣＤセルの累積電荷量は
各時刻の音素のマツチング結果を示し。次の周波数操作
が終るときのみ、ミニマスク電荷転送部１８４へ転送さ
れる。これによって、音声の各時刻での周波数スペクト
ログラムの照合が行われる。ミニマスク電荷転送部１８
４はＣＣＤレジスタとミニマムセレクタ及びマキシマム
セレクタとから成るアレイであって、複数のイメージセ
ンサ部１８２の各出力段ＣＣＤセルの累積電荷量を各段
のミニマムセレクタで、前段マキシマムセレクタから送
られてきた列マツチ電荷量と比較し、最小の方を次の段
ＣＣＤレジスタに送り出す。この処理を各段で並列に行
う。マキシマムセレクタから送られてきた列マツチ電荷
量とは各段から送り出す列マツチ電荷量と前段からの列
マツチ電荷量と前前段からの列マツチ電荷量との中の最
大値の列マツチ電荷量である。これによってダイナミッ
クプログラミング法による音素列のマツチング処理が行
われ、音声の発生速度のばらつきによるミスマツチが救
済される。最大値検出型エンコーダ１８６は多数のミニ
マスク電荷転送部１８４の出力の中の最大値を捜し、そ
の位置を単語音声のクラスコードとして出力する部分で
ある。最大値はミニマスク電荷転送部１８４の出力と比
較される比較基準の電圧Ｖをスウィープすることで各時
刻に求められる。比較基準の電圧Ｖは数１０ｍ５ｅｃに
一度の割りでゆっくりとスウィープされればよい。また
比較基準の電圧Ｖの変化の幅は入力音声の音量に比例す
るものとすれば、基準値以上の列マツチ電荷量が発生し
たときにマツチ信号に合わせてクラスコードを出力する
ことにより、単語音声の振幅のゆらぎを意識しないクラ
ス判別を行うことができる。マツチ信号メモリ１９０は
マツチングＣＣＤデバイス１８０からマツチ信号が発生
されたときのクラスコードと入力音声テキストを記憶し
ている音声メモリ１２０のレコードアドレスとによって
マツチ信号の書き込み番地が決まるランダム・アクセス
・メモリ（ＲＡＭ）である。すなわち、アドレス発生器
１２５からレコードアドレスを音声メモリ１２０に与え
、レコードアドレスを変えながら音声テキストを読み出
して、スペクトルアナライザ１３０．スイッチ＋４０及
び光パルス発生制御回路１５０を通して発光ダイオード
１５２に送り、そこで光パルス列に変換する。その光パ
ルス列を光学マスク１７０を通してマツチングＣＣＤデ
バイス！８０に入力し、光学マスク１７０に登録した検
索用単語音声と比較し、マツチング処理によってクラス
コード判別を行う。その結果、マツチがあると、そのク
ラスコードと、そのときの音声メモリのレコードアドレ
スを用いて、マツチ信号メモリ１９０にマツチ信号（例
えば、デジタル信号の１′″）を書き込む。マツチ信号
メモリ１９０の内容は検索用単語音声毎に次のように読
み出される。まず、検索用単語音声を音声メモリ１２０
から再度読み出して、それを光パルス列に変換する。そ
れを同じ単語音声を保持する光学マスク１７０に通過さ
せると、マツチングＣＣＤデバイス１８０でマツチ信号
がすぐに出力される。このマツチ信号に合わせて出力さ
れるクラスコードをマツチ信号メモリ＋９０に与えると
共に、音声メモリ１２０と切り離してレコードアドレス
のみを高速走査し、マツチ信号メモリ１９０の内容を順
次に読み出す。そして前述の“１パのマツチ信号が読み
出されたときのレコードアドレスが求めるマツチレコー
ドアドレスになる。

上述したように、本発明の音声テキスト検索装置は周波
数を走査するスイッチ１４０の使用と、マツチングＣＣ
Ｄデバイス１８０のイメージセンサ部１８２でのシスト
リックアレイ法によるベクトル内積演算によって音声の
高低のばらつきを除くことができ、マツチングＣＣＤデ
バイスＮＯの最大値検出型エンコーダ１８６の最大値検
出によって音声の強弱のばらつきを除くことができる。

また、マツチングＣＣＤデバイス１８０の中のミニマス
ク電荷転送部＋８４でのダイナミックプログラミング法
による音素列のマツチング処理によって発声速度のばら
つきを除外できる。

第２図は音声パターンの説明図である。

第３図は音声スベクトロダラムの説明図である。第３図
は音声スペクトログラムの各時刻での周波数走査の結果
であり、第２図の時刻１−０．４のときの周波数走査に
よる音声スペクトログラムの観測データである。実線は
低音の人の、破線は高音の人のデータの一例である。高
音の人の音声スペクトログラムは低音の人の音声スペク
トログラムを右へ少しシフトした形になる。また振幅は
音声の高さによって異なってくる。第３図により高音や
低音を出す人の声道の長さのばらつきや、強さのばらつ
きが避けられないこと、また第２図から発声速度によっ
て音素領域のばらつきがかなり大きくなることが避けら
れないことがわかる。音声認識においてはこれらの３種
のばらつきに左右されないスベクトロダラムの照合が求
められる。

第４図は光パルスによるＣＯＤでの電荷発生量とパルス
幅との関係を示す説明図である。第４図において、光学
マスクの４×４メツシユで遮られない（ｗ＝１．０）と
するときの電荷発生量ｑは光パルスのパルス幅に比例し
て増大し、最大値ｑ工に達し、そこで飽和する。そのと
きの光パルスの強さを１．とする。パルス幅の変動幅を
ｔｌまでとすると、関係特性の実線４４０はパルス幅が
ｔ、のときにｑが最大値ｑ１になるように１を１、に設
定した場合の一例である。Ｉを　１．４Ｉ０にすると−
点鎖線４３０のようにｔｍ以下のパルス幅で飽和が起る
。また破線４５０は光学マスクの４×４メツシユが重み
係数Ｗに比例して光パルスの通過量が減少する場合を示
している９ｗが１０／１６であると、破線４５０は実線
４４０の場合の１０／＋６の特性となる。パルス幅を最
大値１．からｘ−ｔｆｆｉに減少させると、イメージセ
ンサ部１８２での電荷発生量ｑはｗ−ｘ−ｔｆｆｌに減
少する。

これがベクトル内積ΣＷ　−Ｘの積項の演算に相当する
。

第５図はイメージセンサ部＋８２での内積演算処理の説
明図である。一般にイメージセンサ部１８２は水平に並
ぶフォトダイオードセル５１０のアレイとＣＣＤセル５
２０のアレイ及びこれに垂直に並ぶＣＣＤレジスタ５３
０とから成る。フォトダイオードセル５１０が第４図で
説明したｗ−ｘ−ｔｆｆｌの電荷を検出する部分である
。通常のイメージセンサではこれが水平の転送ゲートラ
イン５１５を介してＣＣＤセル５２０へ移されると、Ｃ
ＣＤセル５２０のアレイ上の電荷信号は水平の電荷転送
りロック線５２５からのシフトクロックパルスを受けて
一斉に右ヘシフトされる。ＣＣＤレジスタ５３０に到達
した電荷は垂直の転送ゲートライン５１６を介して垂直
の電Ｒ転送りロック線５３５のシフトクロックパルスを
受けて一斉に下ヘシフトされる。本発明においては、こ
こで信号波形のマツチングを行う。

そのためには、電荷転送りロック４！５２５からシフト
クロックパルスを１回印加する都度、転送ゲートライン
５１５を１回駆動し、フォトダイオードセル５１０の電
荷をＣＣＤセル５２０で転送される電荷に次々と加算し
ていく。

数学的に言えば、ｊ行ｉ番目のフォトダイオードセル５
１０の電荷量ｑ　ｊ＋−ＥＷ　ＪＩＸ　（ｔ）！をｊ行
の１番目のＣＣＤセル５２０に移した後、電荷転送りロ
ック線に１２０ツク加えると、それはｊ行の（ｉ＋Ｉ）
番目のＣＣＤセル５２０に残る。１セル分の電荷をシフ
トした後で、ｘ　（ｔ＋］）の光パルスに対する入射光
量が（ｉ＋１）番目のフォトダイオードセル５１０に貯
えられる。そのときのｗ　ｊｌａ−１Ｘ　（ｔ　＋　］
　）の電荷をｊ行ｉ番目のＣＣＤセル５２０に移すと、
そこで、ｑ＋　＝ＶＪ」（Ｘ（ｔ）との加算が起る。す
なわち、次式の電荷の加算結果、Ｑ、＋＋＋（＋＋＋）−ｑｔｌ（ｔ）＋ＷＪ＋＋＋ｘ（
＋＋＋）　　（１）が（ｉ＋１）番目のＣＣＤセル５２
０に残る。また、ｊ行ｉ番目のＣＣＤセル５２０では同
じ時刻に次式の電荷の加算結果は、ｑＪｌ（＋＋＋）−ＣＩ　Ｊ＋−＋（ｔ）＋　Ｗ　ＪＩ
Ｘ　（＋＋＋）　　　（２）か貯えられている。ｉが１
からｎまで変わるとすると、ｎ番目のＣＣＤセル５２０
では、次の漸化式で表わされる電荷は、ｑ　ｊｎ（＋＋＋）＝　　ｑ　　Ｊ　＋−＋（ｔ）＋　
Ｗ　ｔｎＸ　　（１＋］）が求まる。ここに＋＋＋はｔ
に置き換えてもよく、光パルスの印加回数である。ｎ番
目のＣＣＤセル５２０に到達した累積電荷は転送ゲート
ライン５１６を介してＣＣＤレジスタ５３０へ移される
。このとき、上のＣＣＤレジスタ５３０から転送された
電荷とＣＣＤレジスタ５３０上で加算される。また、水
平方向からのｎクロック転送毎に１回の垂直クロックを
電荷転送りロック線５３５から受けて、加算結果の累積
電荷を下のＣＣＤレジスタ５３０へ送ることが可能であ
る。したがって、最下段のＣＣＤレジスタ５３０には常
に段数に等しい期間前から各時刻までの音声の照合結果
を表わす累覆＠荷が到達する。これをそのまま最大値検
出型エンコーダ１８６に送ることで音声単語の検出が可
能である。しかし、これでは音声の時間的な揺れに弱く
ダイナミックプログラミング法によるマツチング処理を
必要とする。そのため、第５図の垂直のＣＣＤレジスタ
アレイはこのま丈では音声の照合には使用できないので
、代りに第６図のミニマスク電荷転送部１８４を使用す
る。この場合、ｔはｎ個の周波数を下から上に順に走査
したときのサンプル番号に対応する。なお、各行のＣＣ
Ｄセルアレイでは、シストリックアレイ法に基づく漸化
式の演算によって重み係数列と光パルスの列とのベクト
ル内積が計算され、その結果が最終段のＣＣＤセル５２
０から求められ、それが周波数走査の都度出力される。

また、どの周波数でマッチングのピークがあっても、そ
れが最終段のＣＣＤセル５２０まで転送されるので、ピ
ーク周波数の揺れに強いマツチング処理が達成される。

第６図はミニマスク電荷転送部１８４と最大値検出型エ
ンコーダ１８６でのダイナミック・プログラミング・マ
ツチング動作を説明する図である。

第６図において、ＣＣＤセルアレイ５００はイメージセ
ンサ部１ｇ２の各行を代表して示している。また、各行
のＣＣＤセルアレイ５００は入力音声スペクトログラム
と登録音声スペクトログラムの各時刻における音声スペ
クトログラムの照合結果（類似度）を電荷量の周波数走
査の終了の都度出力する。ミニマスク電荷転送部１８４
はｊ列目のＣＣＤセルアレイ５００で求まる電荷ｑｎ、
＋を隣のＣＣＤレジスタ６１０に転送するときに、隣の
ＣＣＤレジスタ６１０から転送されてくる信号ｚ　ｊ−
１（ｔ−１）と加算するのではなく、小さい方を選んで
送る。それを列マツチ信号とすると、それは、ｚ　　、、（ｔ）−ｍｉｎｊ　ｚ　　ｊ−＋（ｔ−１）
、　ｑ　Ｊ　＋（ｔ＋１）］。

ｊ・１，２　　、、、、、ｍ　　　　　　　　（４）テ
アッて、ミニマムセレクタ６２０から出力される。この
出力を次の段に送って同様にこれを繰り返すだけでは、ｚ　ｍ（ｔ）＝　ｍ１ｎｊｑ　　ｍ（ｔ）、ｑ　ｍ−＋
（ｔ−１）＋−−１ｑ　ｏ（ｔ−ｍ）］　　　　　　　
　　　（５）となって、各時刻の光パルス列と重み係数
列とがタイミングよく次々と一致すれば大きな類似度を
示すが、タイミングに揺れがあると小さくなってしまう
。この部分にダイナミック・プログラミングによるマツ
チング手法を導入すると、発音速度の揺らぎによるミス
マツチを防ぐことができる。

そのためには、（４）式の右括弧の中のＺ　ｒ−＋（ｔ
−１＞の代りに、ｍａｘ［ｚ　ｊ−２（ｔ−］）、　ｚ　ｊ−＋（ｔ−］
）、　ｚ　、＋（ｔｌ）！を用いればよい。すなわち、
タイミングが合っていれば、ＣＩＪ（ｔ）がピークにな
る時刻にｚ　、、−２（ｔ−１）がピークになる筈であ
るが、ｑ、＋（ｔ）が早目にピークになると、Ｚ　ｊ−
２（ｔ−１）がピークを迎えているので、それをｚ　ｒ
−ｔ（ｔ−１）の代りに使うと、時間補正がうまくいく
。また、ｑ　ｔ（ｔ）が遅目にピークになると、そのと
きにはｚ　Ｊ（ｔ−１）がピークを迎えるので、それを
ｚ　ｊ（ｔ−１）の代りに使えばよい。したがって、ミ
ニマスク電荷転送部１８４はＣＣＤレジスタ６１０とミ
ニマムセレクタ６２０とマキシマムセレクタ６３０を繰
り返し配列したものとなり、その処理機能は、ｚ　（ｔ）　＝ｍｉｎ［ｑ　（ｔ）、ｍａｙ（ｚ　ｊ−
２＜ｔ−１）ｚ　　Ｊ−＋（ｔ−１）、ｚ　　Ｊ（ｔ−
１）Ｉｉ　　　　　　　　　（６）で表わされる。処理
結果は常にＣＣＤレジスタ６１０に保持される。これに
よって、入力音素列が登録音素列よりも早くなっても遅
くなっても、音素片列の類似度を示す列マツチ信号ｚ」
（ｔ）が急速に減少しないようになる。最大値検出型エ
ンコーダ１８６は最大値検出回路６４０によって列マツ
チ信号と比較される基準の電圧■を高い値から低い値に
減少させたときに、最初に基準電圧を越える列マツチ信
号を発生したミニマスク電荷転送部＋８４の位置を検出
し、エンコーダ６５０でマツチ信号に合わせてクラスコ
ードを出力する。なお、基準電圧■は入力音声の音量に
比例した電圧値迄しか下らないため、登録音声にマツチ
した音声が入力されない場合にはマツチ信号やクラスコ
ードは出力されない。

第７図は重み係数を保持する光学マスクの実施例の説明
図である。光学マスクは光パルス列の透過を制御して、
検索用音声とテキストの中の音声との各時刻の各周波数
でのスベクトロダラムの比較を行う部分であって、本発
明の中で重要な役目をする。第７図の例では、光学マス
ク１７０は電極板７２０を付着した偏光板７４０とアモ
ルファス薄膜トランジスタ（ＴＦＴ）のアクティブマト
リクス７３０を付着した検光板７５０との間にライステ
ィド・ネマチック（ＴＮ）とかスーパ・ライスティド・
ネマチック（ＳＴＮ）とかの液晶７１０を挿入したもの
である。アクティブマトリクス７３０は６００Ｘ６００
程度の液晶セルに電圧を選択的に印加する。液晶セルの
光パルスの透過度は印加電圧を変えることで変化し、概
して高電圧のときに透過度が下り、低電圧のときに上が
る。この電圧はマスクメモリ１６０から与えられる。

第８図は光学マスクのアクティブマトリクス駆動回路の
説明図である。重み係数のデータによって電圧が変わる
ソース線８１０と液晶セル８４０の位置を電圧によって
順次選択するゲート線８２０との交点部にアモルファス
薄膜トランジスタ８３０がある。ソース線８１０とゲー
ト線８２０の電圧が共に高いときにアモルファス薄膜ト
ランジスタ８３０はオンになり、ドレイン電圧が高くな
って、それと電極８５０との間に接続される液晶セル８
４０が透明から不透明に切り替わる。トレイン電圧が決
まった後では、ゲート線８２０の電圧が下ってもドレイ
ン電圧がしばらくそのままに保たれる。したがって、個
々の液晶セル８４０に個別に駆動電圧を印加しなくても
光学マスクに登録した重み係数のマスクパターンは消滅
しない。ただし、アモルファス薄膜トランジスタ８３０
でのオフ電流が少しずつトレイン電圧を低下させるので
、数１０ヘルツ程度でのリフレッシュがマスクパターン
の保持には必要であり、このためにマスクメモリ１６０
が使用される。

〔発明の効果〕

以上詳細に説明したように、本発明の音声テキスト検索
装置によれば、従来の音声認識機械での入力音声の時間
、高低及び強弱の揺れに強くない音声認識方式の問題点
を解決するために、（Ａ）スペクトルアナライザで得た
音声の周波数別のアナログ信号波形を各時刻で周波数順
に走査して光パルス列に変換し、すべての登録音声のす
べての周波数のアナログ信号波形とすべての時刻の成分
とを比較できるように、光パルスを光学マスク全面に照
射するようにし、（Ｂ）光学マスクを通過した光パルス
を各時刻でＣＣＤデバイス上で集計（シストリックアレ
イによるベクトルの内積演算を実行）した。（Ｃ）その
結果をマツチングＣＣＤデバイス上でダイナミックプロ
グラミング法で処理することにより入力音声と各登録音
声との類似度を求め、最大値検出型エンコーダでクラス
判別をするようにしな。

上述のように音声認識を３段階に分けたことで、＜ａ）
音声の始まりを認識しないで、いつからでも音声の照合
を行えること、（ｂ）音声の高さ、及び低さに影響され
ず、各時刻での周波数スベクトロダラムのマツチング結
果を出力できること、（ｃ）音声の発生速度の揺れに左
右されずに、音素列のマツチング処理を行えること、（
ｄ）音声の強さに左右されずに音素列のマツチング結果
を比較できること等が可能になる。このような音声の３
つの揺れに対して柔軟性を持たせたことの効果は検索漏
れを少なくできるとことと、それを無くするために必要
な検索用単語音声の登録数を減らせることにある。例え
ば、音声テキストでの単語音声の高さが５種類に及び、
強さも５種類に及ぶと、登録する単語音声数が２５にな
るが、それを１つの検索用単語音声でカバーできるとす
れば、重み係数を保持する光学マスクが１７２５で済む
ことになる。また、音声テキストの検索を音声テキスト
すべてを認識してから行うのではなく、直接、音声テキ
ストから検索用単語音声を見つけ出すように構成を工夫
したので、これによって、検索用単語音声が数１０個に
なっても、−度の音声テキストのサーチで検索結果が求
まる。これは検索時間が１７１０に減少することに相当
する。また、全部の音声テキストを音声認識でコード化
する必要が無く、直接に単語音節で検索できるので、ラ
ジオやテレビから得た音声テキストのデータベース化の
工数が大幅に低減されるという効果がある。更に、本発
明の新しい音声認識方式を液晶光学マスクとＣＣＤデバ
イスで実現する方法を提示した。これらは容易に一体化
されるので十分小型化の実現も可能であって携帯に適し
た大きさになり、例えば国際会議の会場に携帯し会議場
で口頭で発表される論文をマイクロホンでモニターし、
その場で口頭の音声テキストの内容検索を行うことが可
能になる等の効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例の基本構成を示す説明図、第
２図は音声パターンの説明図、第３図は音声スペクトロ
ダラムの説明図、第４図は光パルスによるＣＣＤでの電
荷発生量とパルス幅との関係の説明図、第５図はイメー
ジセンサ部での内積演算処理の説明図、第６図はミニマ
スク電荷転送部でのダイナミックプログラミング・マツ
チング動作の説明図、第７図は光学マスクの一実施例の
説明図、及び第８図は光学マスクのアクティブマトリク
ス駆動回路の説明図である。１０２・・・マイクロボン、１０４・・・Ａ／Ｄ変換器
、１１０・・・音声入力手段、１２０・・・音声メモリ
、１２５・・・アドレス発生器、１３０・・・スペクト
ルアナライザ、１３５．１４０・・・スイッチ、１４２
・・・周波数走査用カウンタ、１４４・・・タロツク発
生器、１５０・・・光パルス発生制御回路、１５２・・
・発光タイオード、１５４・・・光学レンズ、１６０・
・・マスクメモリ、１６５・・・マスクパターン発生器
、１７０・・・光学マスク、１８０・・・マツチングＣ
ＣＤデバイス、１８２　　・・イメージセンサ部、１８
４ミニマスク電荷転送部、１８６　　・・最大値検出型
エンコーダ、１８８・・・電荷転送制御回路、１９０・
・・マツチ信号メモリ、２０１・・・時間軸、２０２　
・・周波数軸、２０３　　・音声スペクトログラム、２
０４・・・垂線、４３０・・−点鎖線、４４０・・・実
線、４５０・・・破線、５００　　・・ＣＣＤセルアレ
イ、５１０・・・フォトダイオードセル、５１５．５１
６・・・転送ゲートライン、５２０・・・ＣＣＤセル、
５２５．５３５・・・電荷転送りロック線、５３０．６
１０・・ＣＣＤレジスタ、６２０・・・ミニマムセレク
タ、６３０・・・マキシマムセレクタ、６４０・・・最
大値検出回路、６５０・・・エンコーダ、７１０　・・
液晶、７２０・・・電極板、７３０・・・アクティブマ
トリクス、７４０・・・偏光板、７５０・・・検光板、
８１０・・・ソース線、８２０・・・ゲート　線、８３
０・・・アモルファス薄膜トランジスタ、８４（Ｉ・・
・液晶セル、８５０・・・電極。

Claims

【特許請求の範囲】

（１）音声テキスト及び検索用単語音声を周波数別のア
ナログ信号波形に変換するスペクトル分析手段と、変換
された前記アナログ信号波形の各時刻でのアナログ信号
振幅を周波数順に光パルス信号に変換する光パルス発生
手段と、前記検索用単語音声を重み係数の光マスクパタ
ーンに変換して保持すると共に前記光パルス信号を受け
る光学マスク手段と、前記光学マスク手段を通過した前
記光パルス信号を検出し、前記アナログ信号波形のマッ
チング処理をし、マッチした単語音声のクラス判別を行
うマッチングＣＣＤデバイスとを備えたことを特徴とす
る音声テキスト検索装置。
（２）特許請求の範囲第（１）項に記載の音声テキスト
検索装置において、前記マッチングＣＣＤデバイスが前
記光学マスク手段を通過した前記光パルス信号を検出し
、周波数毎の検出信号を積算して転送するイメージセン
サ手段と、前記イメージセンサ手段に結合して各時刻に
おける前記イメージセンサ手段の各段の出力とそれ以前
の出力との中から最大値を選び、前記最大値と前段から
の転送信号とを比較して最小振幅の方を選択し、次段へ
の転送信号とするミニマクス電荷転送手段と、複数の前
記ミニマクス電荷転送手段の出力の中の最大値を検出し
、その位置をエンコードする最大検出エンコード手段と
を備えたことを特徴とする音声テキスト検索装置。
（３）特許請求の範囲第（１）項に記載の音声テキスト
検索装置において、前記音声テキストをディジタル信号
波形に変換して記憶する音声テキスト記憶手段と、前記
検索用単語音声と、前記音声テキスト記憶手段のレコー
ドアドレスと前記マッチングＣＣＤデバイスの出力する
クラスコードとでアクセス番地の決まるマッチビット記
憶手段とを備えたことを特徴とする音声テキスト検索装
置。