JPH02136900A - 音声テキスト検索装置 - Google Patents
音声テキスト検索装置Info
- Publication number
- JPH02136900A JPH02136900A JP63291586A JP29158688A JPH02136900A JP H02136900 A JPH02136900 A JP H02136900A JP 63291586 A JP63291586 A JP 63291586A JP 29158688 A JP29158688 A JP 29158688A JP H02136900 A JPH02136900 A JP H02136900A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- optical
- voice
- frequency
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000012546 transfer Methods 0.000 claims description 36
- 238000010183 spectrum analysis Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 15
- 238000001228 spectrum Methods 0.000 abstract description 13
- 230000007423 decrease Effects 0.000 abstract description 7
- 238000003909 pattern recognition Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 32
- 238000010586 diagram Methods 0.000 description 18
- 239000004973 liquid crystal related substance Substances 0.000 description 13
- 239000011295 pitch Substances 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 7
- 239000010409 thin film Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 210000002858 crystal cell Anatomy 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002834 transmittance Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 210000004128 D cell Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F25/00—Audible advertising
- G09F2025/005—Message recorded in a memory device
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09F—DISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
- G09F25/00—Audible advertising
Landscapes
- Solid State Image Pick-Up Elements (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は音声テキスト検索装置に関し、特に音声テキス
トや録音テキストの内容検索に関する。
トや録音テキストの内容検索に関する。
従来、ラジオやテレビ等でアナウンスされる音声テキス
トはホットな知識情報を多く含んでいるが、それを聞い
て必要な部分を録音するとか、メモを取るとかは人間に
とって簡単にできることではあるが楽な仕事ではない。
トはホットな知識情報を多く含んでいるが、それを聞い
て必要な部分を録音するとか、メモを取るとかは人間に
とって簡単にできることではあるが楽な仕事ではない。
それだけに機械にやらせればよいと考えられてきた。特
に外国語の音声テキストについてはキーポイントとなる
単語音声の有り無しを高速に判断する必要があり、高速
の音声テキスト検索装置の実現への期待が大きい。しか
しながら、従来は音声認識機械によって音声テキストの
全てを認識し、且つコード化し、その後で検索を行える
ようにしようしていた。
に外国語の音声テキストについてはキーポイントとなる
単語音声の有り無しを高速に判断する必要があり、高速
の音声テキスト検索装置の実現への期待が大きい。しか
しながら、従来は音声認識機械によって音声テキストの
全てを認識し、且つコード化し、その後で検索を行える
ようにしようしていた。
上述した従来の音声テキスト検索装置は、音声認識機械
によって検索を行えるようにしようとしたが、このよう
な考え方では音声認識技術が十分に高くならないと、音
声テキストの検索は有り得ないことであった。また、一
般に高性能な音声認識機械は音声タイプライタや自動翻
訳機械の実現に必要であるために盛んに研究されてきた
。しかし、ラジオで放送された音声テキストの中の単語
音声を認識するには、不特定多数の結紮の標準音声パタ
ーンを非常に多く記憶して、それらを入力音声パターン
と並列照合する必要があるので、登録語素数だけを考え
ても経済的な実現が容易ではなかった。更に、音声の登
録時と検索時のばらつきの大きさを考えると、従来の音
声認識機械の多くは入力音声にかなりの制約を設けてい
た。それは従来音声認識機械での録音音声パターンと入
力音声パターンとの比較照合における柔軟性の不足によ
る。すなわち、入カバターンが分類されるときに、時間
的ピッチの揺れはダイナミック・プログラミング(DP
)手法によって、ある程度許されるようになったが、声
楽曲のように揺れる音声の音の高さや揺れに対しては余
り許容度がなかった。
によって検索を行えるようにしようとしたが、このよう
な考え方では音声認識技術が十分に高くならないと、音
声テキストの検索は有り得ないことであった。また、一
般に高性能な音声認識機械は音声タイプライタや自動翻
訳機械の実現に必要であるために盛んに研究されてきた
。しかし、ラジオで放送された音声テキストの中の単語
音声を認識するには、不特定多数の結紮の標準音声パタ
ーンを非常に多く記憶して、それらを入力音声パターン
と並列照合する必要があるので、登録語素数だけを考え
ても経済的な実現が容易ではなかった。更に、音声の登
録時と検索時のばらつきの大きさを考えると、従来の音
声認識機械の多くは入力音声にかなりの制約を設けてい
た。それは従来音声認識機械での録音音声パターンと入
力音声パターンとの比較照合における柔軟性の不足によ
る。すなわち、入カバターンが分類されるときに、時間
的ピッチの揺れはダイナミック・プログラミング(DP
)手法によって、ある程度許されるようになったが、声
楽曲のように揺れる音声の音の高さや揺れに対しては余
り許容度がなかった。
従来の柔軟性の少ない音声認識機械では、音声テキスト
の各部の音声の高さや強さが録音時の単Ml声の高さや
強さに一致していないとマツチングが悪くなった。また
、音声を高さや強さを変えて別々に登録しておかないと
分類が正しく行われないような認識装置では実用度が低
くなる。このようなこともあって、ラジオやテレビから
の生放送の音声テキストの検索が実現されなかった。
の各部の音声の高さや強さが録音時の単Ml声の高さや
強さに一致していないとマツチングが悪くなった。また
、音声を高さや強さを変えて別々に登録しておかないと
分類が正しく行われないような認識装置では実用度が低
くなる。このようなこともあって、ラジオやテレビから
の生放送の音声テキストの検索が実現されなかった。
ここで音声テキストの高さや強さの揺れについて以下に
詳細に説明する。まず、単語音声を認識するためには、
音声信号が電気信号に変換され、高速フーリエ変換器な
どのスペクトラムアナライザによって周波数毎のアナロ
グ電気信号波形に分解され、音声パターンになる。第2
図は音声パターンの説明図である。横線が時間軸201
、縦線が周波数N 202である。観測される音声スペ
クトロダラム203は各時刻での各周波数における電気
信号波形の高さを色の濃さで示したものであり、成人男
性話者の′°島”[sima]を発声したときの一例で
ある。垂線204は音素の境界を示している。この音声
スペクトロダラム203が音声認識の対象となる2次元
の音声パターンである。音声認識の基本はこのような音
声パターンの照合である。このときに2次元の音声パタ
ーンが発声毎に大きく揺らぐ。音声の時間的な揺れが横
軸方向のパターンの変動に対応し、音声の高さの揺れが
音素単位でのパターンの上下の変動に対応する。
詳細に説明する。まず、単語音声を認識するためには、
音声信号が電気信号に変換され、高速フーリエ変換器な
どのスペクトラムアナライザによって周波数毎のアナロ
グ電気信号波形に分解され、音声パターンになる。第2
図は音声パターンの説明図である。横線が時間軸201
、縦線が周波数N 202である。観測される音声スペ
クトロダラム203は各時刻での各周波数における電気
信号波形の高さを色の濃さで示したものであり、成人男
性話者の′°島”[sima]を発声したときの一例で
ある。垂線204は音素の境界を示している。この音声
スペクトロダラム203が音声認識の対象となる2次元
の音声パターンである。音声認識の基本はこのような音
声パターンの照合である。このときに2次元の音声パタ
ーンが発声毎に大きく揺らぐ。音声の時間的な揺れが横
軸方向のパターンの変動に対応し、音声の高さの揺れが
音素単位でのパターンの上下の変動に対応する。
強さの揺れは音素毎でのパターンの濃さの変化に対応す
る。それらを考慮した上で、各入力音声パターンを基準
となる複数個の登録音声パターンと一斉に比較すること
が音声認識技術に求められてきた。
る。それらを考慮した上で、各入力音声パターンを基準
となる複数個の登録音声パターンと一斉に比較すること
が音声認識技術に求められてきた。
本発明の目的は、各時刻での音声スペクトログラムの上
下左右の変動と濃度の変動に伴う音声パターンの認識率
の低下を防ぐことにあり、より具体的には、各時刻での
音声スペクトログラムの上下左右強弱変動に影響されな
い音声パターンの認識技術を提供すると共に、入力音声
テキストデータをすべてコード化するのではなく、検索
したい文字列の音声スベクトロダラムのみを登録するこ
とで、その音声文字列を含む音声テキストデータを見つ
け出す音声パターンの認識技術を提供することにある。
下左右の変動と濃度の変動に伴う音声パターンの認識率
の低下を防ぐことにあり、より具体的には、各時刻での
音声スペクトログラムの上下左右強弱変動に影響されな
い音声パターンの認識技術を提供すると共に、入力音声
テキストデータをすべてコード化するのではなく、検索
したい文字列の音声スベクトロダラムのみを登録するこ
とで、その音声文字列を含む音声テキストデータを見つ
け出す音声パターンの認識技術を提供することにある。
更に、入力音声の時間、高低及び強弱の揺れに左右され
ない音声照合を可能にするマツチングCCDデバイス技
術を提供することにある。
ない音声照合を可能にするマツチングCCDデバイス技
術を提供することにある。
本発明の音声テキスト検索装置は、(1) 音声テキス
ト及び検索用単語音声を周波数別のアナログ信号波形に
変換するスペクトル分析手段と、変換された前記アナロ
グ信号波形の各時刻でのアナログ信号振幅を周波数順に
光パルス信号に変換する光パルス発生手段と、前記検索
用単語音声を重み係数の光マスクパターンに変換して保
持すると共に前記光パルス信号を受ける光学マスク手段
と、前記光学マスク手段を通過した前記光パルス信号を
検出し、前記アナログ信号波形のマツチング処理をし、
マツチした単語音声のクラス判別を行うマツチングCC
Dデバイスとを備えたこと、(2) 前記(1)項に前
記マツチングCCDデバイスが前記光学マスク手段を通
過した前記光パルス信号を検出し、周波数毎の検出信号
を積算して転送するイメージセンサ手段と、前記イメー
ジセンサ手段に結合して各時刻における前記イメージセ
ンサ手段の各段の出力とそれ以前の出力との中から最大
値を選び、前記最大値と前段からの転送信号とを比較し
て最小振幅の方を選択し、次段への転送信号とするミニ
マクス電荷転送手段と、複数の前記ミニマクス電荷転送
手段の出力の中の最大値を検出し、その位置をエンコー
ドする最大検出エンコード手段とを備えたこと、(3)
前記(1)項に前記音声テキストをディジタル信号波
形に変換して記憶する音声テキスト記憶手段と、前記検
索用単語音声と、前記音声テキスト記憶手段のレコード
アドレスと前記マツチングCCDデバイスの出力するク
ラスコードとでアクセス番地の決まるマッチビット記憶
手段とを備えたことを特徴とする。
ト及び検索用単語音声を周波数別のアナログ信号波形に
変換するスペクトル分析手段と、変換された前記アナロ
グ信号波形の各時刻でのアナログ信号振幅を周波数順に
光パルス信号に変換する光パルス発生手段と、前記検索
用単語音声を重み係数の光マスクパターンに変換して保
持すると共に前記光パルス信号を受ける光学マスク手段
と、前記光学マスク手段を通過した前記光パルス信号を
検出し、前記アナログ信号波形のマツチング処理をし、
マツチした単語音声のクラス判別を行うマツチングCC
Dデバイスとを備えたこと、(2) 前記(1)項に前
記マツチングCCDデバイスが前記光学マスク手段を通
過した前記光パルス信号を検出し、周波数毎の検出信号
を積算して転送するイメージセンサ手段と、前記イメー
ジセンサ手段に結合して各時刻における前記イメージセ
ンサ手段の各段の出力とそれ以前の出力との中から最大
値を選び、前記最大値と前段からの転送信号とを比較し
て最小振幅の方を選択し、次段への転送信号とするミニ
マクス電荷転送手段と、複数の前記ミニマクス電荷転送
手段の出力の中の最大値を検出し、その位置をエンコー
ドする最大検出エンコード手段とを備えたこと、(3)
前記(1)項に前記音声テキストをディジタル信号波
形に変換して記憶する音声テキスト記憶手段と、前記検
索用単語音声と、前記音声テキスト記憶手段のレコード
アドレスと前記マツチングCCDデバイスの出力するク
ラスコードとでアクセス番地の決まるマッチビット記憶
手段とを備えたことを特徴とする。
次に図面を参照して本発明の詳細な説明する。
第1図は本発明の音声テキスト検索装置の基本構成を示
す説明図である。第1図において、音声テキストや検索
用単語音声はまず音声入力手段+10であるマイクロホ
ン102によって電気信号に変換され、次にA/D変換
器104によってデジタル信号に変換される。そしてス
イッチ135を介して音声メモリ120に貯えられる。
す説明図である。第1図において、音声テキストや検索
用単語音声はまず音声入力手段+10であるマイクロホ
ン102によって電気信号に変換され、次にA/D変換
器104によってデジタル信号に変換される。そしてス
イッチ135を介して音声メモリ120に貯えられる。
音声入力手段110は音声信号をデジタル信号に変換す
るときに音量の正規化やノイズ除去などの平滑化や圧縮
などの処理を必要に応じて行う。更に音声メモリ120
は再生時のアナログ信号が書き込み時のアナログ音声信
号に一致すると共に、周波数スペクトル回路で分析し易
くなるように符合化したデジタル信号を格納する。した
がって、A/D変換器IC14は単に各時点でのアナロ
グ値をデジタル値に変換するだけでなく、必要に応じて
上述の目的にあった符合化の機蛯を持っている。音声テ
キストの構成要素となる単語音声を認識するなめに不可
欠なスペクトルアナライザ130は音声入力手段+10
か又は、音声メモリ120から読み出されるデジタル信
号をスイッチ135を介して入力し、高速にフーリエ変
換とかウオルシュ変換等を行う。これにより、音声テキ
ストの各時刻における音声の各周波数成分の振幅がアナ
ログ信号波形として求まる。スイッチ140はスペクト
ルアナライザ+30の出力である周波数別のアナログ信
号波形を各時刻で低周波の方から高周波の方へ、あるい
は高周波の方から低周波の方へ順に走査し、音声スペク
トロダラムの各時刻における音声パターンをシリアルに
出力し、光パルス発生制御回路150に供給する。また
スイッチ140の走査のために周波数走査用カウンタ1
42と、周波数走査用カウンタ142にタロツク信号を
供給するクロック発生器144が使われる。光パルス発
生制御回路+50はレーザダイオードなどの発光ダイオ
ード152が発生する光パルスの強度やパルス幅を制御
し、各時刻のアナログ信号波形の振幅を読み取って、そ
の振幅に等しいパルス幅の光パルス駆動信号を発生する
。これにより、周波数別のアナログ信号を、時々刻々と
シリアル走査によって光パルスの信号列に置き換える。
るときに音量の正規化やノイズ除去などの平滑化や圧縮
などの処理を必要に応じて行う。更に音声メモリ120
は再生時のアナログ信号が書き込み時のアナログ音声信
号に一致すると共に、周波数スペクトル回路で分析し易
くなるように符合化したデジタル信号を格納する。した
がって、A/D変換器IC14は単に各時点でのアナロ
グ値をデジタル値に変換するだけでなく、必要に応じて
上述の目的にあった符合化の機蛯を持っている。音声テ
キストの構成要素となる単語音声を認識するなめに不可
欠なスペクトルアナライザ130は音声入力手段+10
か又は、音声メモリ120から読み出されるデジタル信
号をスイッチ135を介して入力し、高速にフーリエ変
換とかウオルシュ変換等を行う。これにより、音声テキ
ストの各時刻における音声の各周波数成分の振幅がアナ
ログ信号波形として求まる。スイッチ140はスペクト
ルアナライザ+30の出力である周波数別のアナログ信
号波形を各時刻で低周波の方から高周波の方へ、あるい
は高周波の方から低周波の方へ順に走査し、音声スペク
トロダラムの各時刻における音声パターンをシリアルに
出力し、光パルス発生制御回路150に供給する。また
スイッチ140の走査のために周波数走査用カウンタ1
42と、周波数走査用カウンタ142にタロツク信号を
供給するクロック発生器144が使われる。光パルス発
生制御回路+50はレーザダイオードなどの発光ダイオ
ード152が発生する光パルスの強度やパルス幅を制御
し、各時刻のアナログ信号波形の振幅を読み取って、そ
の振幅に等しいパルス幅の光パルス駆動信号を発生する
。これにより、周波数別のアナログ信号を、時々刻々と
シリアル走査によって光パルスの信号列に置き換える。
この光パルスの振幅とパルス幅はCCDのイメージセン
サ部1g2で検出されるに都合のよい大きさに決められ
る。すなわち、パルス幅を大きくできないときには振幅
を大きくし、発光ダイオード152の出力が大きくない
ときにはパルス幅を長くする。ここに、1秒程度の単語
音声を60m5ec単位でシリアルな光パルス列に変換
し、周波数のサンプル点を60とすると、パルス幅は自
ずと1 m5ec以下に制限される。また、発光ダイオ
ード152が10mW以上であればパルス幅はこの程度
で十分である。発光ダイオード152から出力される光
パルスは光学レンズ154を通して10〜30mm角程
度の光学マスク+70に均一に照射され、マツチングC
CDデバイス180に突き抜ける。光学マスクI70は
偏光板と検光板に挟まれたスーパ・ツィステッド・ネマ
チック(STN)液晶などの表示マトリックスであって
、各メツシュの光の透過度がそこに印加された電圧によ
って制御され、設定された透過度がしばらくの間は保持
されるものであって、透明な薄膜トランジスタを100
万個程度液晶パネル内にマトリクス状に配列し、メツシ
ュの液晶への印加電圧を変えることで、光の透過か遮断
かの状態を設定できる。この光学マスク170にはマス
クパターンを記憶するマスクメモリ160が接続され、
光学マスクにおける重み係数のマスクパターンがマスク
メモリ160からの定期的なリフレッシュによって保持
される。
サ部1g2で検出されるに都合のよい大きさに決められ
る。すなわち、パルス幅を大きくできないときには振幅
を大きくし、発光ダイオード152の出力が大きくない
ときにはパルス幅を長くする。ここに、1秒程度の単語
音声を60m5ec単位でシリアルな光パルス列に変換
し、周波数のサンプル点を60とすると、パルス幅は自
ずと1 m5ec以下に制限される。また、発光ダイオ
ード152が10mW以上であればパルス幅はこの程度
で十分である。発光ダイオード152から出力される光
パルスは光学レンズ154を通して10〜30mm角程
度の光学マスク+70に均一に照射され、マツチングC
CDデバイス180に突き抜ける。光学マスクI70は
偏光板と検光板に挟まれたスーパ・ツィステッド・ネマ
チック(STN)液晶などの表示マトリックスであって
、各メツシュの光の透過度がそこに印加された電圧によ
って制御され、設定された透過度がしばらくの間は保持
されるものであって、透明な薄膜トランジスタを100
万個程度液晶パネル内にマトリクス状に配列し、メツシ
ュの液晶への印加電圧を変えることで、光の透過か遮断
かの状態を設定できる。この光学マスク170にはマス
クパターンを記憶するマスクメモリ160が接続され、
光学マスクにおける重み係数のマスクパターンがマスク
メモリ160からの定期的なリフレッシュによって保持
される。
マスクパターン発生器165は音声メモリ120から読
み出される検索用単語音声に対するスペクトルアナライ
ザ130とスイッチ+40の処理結果を重み係数列に変
換する部分であり、この出力がマスクメモリ160に貯
えられる。マスクパターン発生器165は液晶パネルの
4×4のメツシュて161直のアナログ量を記憶するよ
うにコード変換を行って重み係数を作る。重み係数列は
マスクメモリ160に貯えられた後で、光学マスク17
0の液晶パネル面上に設定される。1つの単語音声に約
1万6000メツシユを使用するが、薄膜トランジスタ
は数10単語音声の登録が可能である。マツチングCC
Dデバイス180はイメージセンサ部+82とミニマス
ク電荷転送部184及び最大値検出型エンコーダ186
とを含み、電荷転送制御回路188によって制御される
。これは光学マスク170を通過した光パルスを一斉に
検出し、どこでマツチングがあったかをシストリックア
レイとして働くイメージセンサ部182で調べ、更に音
素列のマツチングの有無をミニマスク電荷転送部184
で調べてマツチングの結果を最大値検出型エンコーダ1
86から出力する。イメージセンサ部182はフォトダ
イオードセルとCCDセルより成るCCDセルアレイで
あって、光学マスク170を通過した光パルスの透過光
景に比例した電荷をフォトダイオードセルに貯え、各フ
ォトダイオードセルに対応したCCDセル上で累積電荷
量として転送する。最終段のCCDセルの累積電荷量は
各時刻の音素のマツチング結果を示し。次の周波数操作
が終るときのみ、ミニマスク電荷転送部184へ転送さ
れる。これによって、音声の各時刻での周波数スペクト
ログラムの照合が行われる。ミニマスク電荷転送部18
4はCCDレジスタとミニマムセレクタ及びマキシマム
セレクタとから成るアレイであって、複数のイメージセ
ンサ部182の各出力段CCDセルの累積電荷量を各段
のミニマムセレクタで、前段マキシマムセレクタから送
られてきた列マツチ電荷量と比較し、最小の方を次の段
CCDレジスタに送り出す。この処理を各段で並列に行
う。マキシマムセレクタから送られてきた列マツチ電荷
量とは各段から送り出す列マツチ電荷量と前段からの列
マツチ電荷量と前前段からの列マツチ電荷量との中の最
大値の列マツチ電荷量である。これによってダイナミッ
クプログラミング法による音素列のマツチング処理が行
われ、音声の発生速度のばらつきによるミスマツチが救
済される。最大値検出型エンコーダ186は多数のミニ
マスク電荷転送部184の出力の中の最大値を捜し、そ
の位置を単語音声のクラスコードとして出力する部分で
ある。最大値はミニマスク電荷転送部184の出力と比
較される比較基準の電圧Vをスウィープすることで各時
刻に求められる。比較基準の電圧Vは数10m5ecに
一度の割りでゆっくりとスウィープされればよい。また
比較基準の電圧Vの変化の幅は入力音声の音量に比例す
るものとすれば、基準値以上の列マツチ電荷量が発生し
たときにマツチ信号に合わせてクラスコードを出力する
ことにより、単語音声の振幅のゆらぎを意識しないクラ
ス判別を行うことができる。マツチ信号メモリ190は
マツチングCCDデバイス180からマツチ信号が発生
されたときのクラスコードと入力音声テキストを記憶し
ている音声メモリ120のレコードアドレスとによって
マツチ信号の書き込み番地が決まるランダム・アクセス
・メモリ(RAM)である。すなわち、アドレス発生器
125からレコードアドレスを音声メモリ120に与え
、レコードアドレスを変えながら音声テキストを読み出
して、スペクトルアナライザ130.スイッチ+40及
び光パルス発生制御回路150を通して発光ダイオード
152に送り、そこで光パルス列に変換する。その光パ
ルス列を光学マスク170を通してマツチングCCDデ
バイス!80に入力し、光学マスク170に登録した検
索用単語音声と比較し、マツチング処理によってクラス
コード判別を行う。その結果、マツチがあると、そのク
ラスコードと、そのときの音声メモリのレコードアドレ
スを用いて、マツチ信号メモリ190にマツチ信号(例
えば、デジタル信号の1′″)を書き込む。マツチ信号
メモリ190の内容は検索用単語音声毎に次のように読
み出される。まず、検索用単語音声を音声メモリ120
から再度読み出して、それを光パルス列に変換する。そ
れを同じ単語音声を保持する光学マスク170に通過さ
せると、マツチングCCDデバイス180でマツチ信号
がすぐに出力される。このマツチ信号に合わせて出力さ
れるクラスコードをマツチ信号メモリ+90に与えると
共に、音声メモリ120と切り離してレコードアドレス
のみを高速走査し、マツチ信号メモリ190の内容を順
次に読み出す。そして前述の“1パのマツチ信号が読み
出されたときのレコードアドレスが求めるマツチレコー
ドアドレスになる。
み出される検索用単語音声に対するスペクトルアナライ
ザ130とスイッチ+40の処理結果を重み係数列に変
換する部分であり、この出力がマスクメモリ160に貯
えられる。マスクパターン発生器165は液晶パネルの
4×4のメツシュて161直のアナログ量を記憶するよ
うにコード変換を行って重み係数を作る。重み係数列は
マスクメモリ160に貯えられた後で、光学マスク17
0の液晶パネル面上に設定される。1つの単語音声に約
1万6000メツシユを使用するが、薄膜トランジスタ
は数10単語音声の登録が可能である。マツチングCC
Dデバイス180はイメージセンサ部+82とミニマス
ク電荷転送部184及び最大値検出型エンコーダ186
とを含み、電荷転送制御回路188によって制御される
。これは光学マスク170を通過した光パルスを一斉に
検出し、どこでマツチングがあったかをシストリックア
レイとして働くイメージセンサ部182で調べ、更に音
素列のマツチングの有無をミニマスク電荷転送部184
で調べてマツチングの結果を最大値検出型エンコーダ1
86から出力する。イメージセンサ部182はフォトダ
イオードセルとCCDセルより成るCCDセルアレイで
あって、光学マスク170を通過した光パルスの透過光
景に比例した電荷をフォトダイオードセルに貯え、各フ
ォトダイオードセルに対応したCCDセル上で累積電荷
量として転送する。最終段のCCDセルの累積電荷量は
各時刻の音素のマツチング結果を示し。次の周波数操作
が終るときのみ、ミニマスク電荷転送部184へ転送さ
れる。これによって、音声の各時刻での周波数スペクト
ログラムの照合が行われる。ミニマスク電荷転送部18
4はCCDレジスタとミニマムセレクタ及びマキシマム
セレクタとから成るアレイであって、複数のイメージセ
ンサ部182の各出力段CCDセルの累積電荷量を各段
のミニマムセレクタで、前段マキシマムセレクタから送
られてきた列マツチ電荷量と比較し、最小の方を次の段
CCDレジスタに送り出す。この処理を各段で並列に行
う。マキシマムセレクタから送られてきた列マツチ電荷
量とは各段から送り出す列マツチ電荷量と前段からの列
マツチ電荷量と前前段からの列マツチ電荷量との中の最
大値の列マツチ電荷量である。これによってダイナミッ
クプログラミング法による音素列のマツチング処理が行
われ、音声の発生速度のばらつきによるミスマツチが救
済される。最大値検出型エンコーダ186は多数のミニ
マスク電荷転送部184の出力の中の最大値を捜し、そ
の位置を単語音声のクラスコードとして出力する部分で
ある。最大値はミニマスク電荷転送部184の出力と比
較される比較基準の電圧Vをスウィープすることで各時
刻に求められる。比較基準の電圧Vは数10m5ecに
一度の割りでゆっくりとスウィープされればよい。また
比較基準の電圧Vの変化の幅は入力音声の音量に比例す
るものとすれば、基準値以上の列マツチ電荷量が発生し
たときにマツチ信号に合わせてクラスコードを出力する
ことにより、単語音声の振幅のゆらぎを意識しないクラ
ス判別を行うことができる。マツチ信号メモリ190は
マツチングCCDデバイス180からマツチ信号が発生
されたときのクラスコードと入力音声テキストを記憶し
ている音声メモリ120のレコードアドレスとによって
マツチ信号の書き込み番地が決まるランダム・アクセス
・メモリ(RAM)である。すなわち、アドレス発生器
125からレコードアドレスを音声メモリ120に与え
、レコードアドレスを変えながら音声テキストを読み出
して、スペクトルアナライザ130.スイッチ+40及
び光パルス発生制御回路150を通して発光ダイオード
152に送り、そこで光パルス列に変換する。その光パ
ルス列を光学マスク170を通してマツチングCCDデ
バイス!80に入力し、光学マスク170に登録した検
索用単語音声と比較し、マツチング処理によってクラス
コード判別を行う。その結果、マツチがあると、そのク
ラスコードと、そのときの音声メモリのレコードアドレ
スを用いて、マツチ信号メモリ190にマツチ信号(例
えば、デジタル信号の1′″)を書き込む。マツチ信号
メモリ190の内容は検索用単語音声毎に次のように読
み出される。まず、検索用単語音声を音声メモリ120
から再度読み出して、それを光パルス列に変換する。そ
れを同じ単語音声を保持する光学マスク170に通過さ
せると、マツチングCCDデバイス180でマツチ信号
がすぐに出力される。このマツチ信号に合わせて出力さ
れるクラスコードをマツチ信号メモリ+90に与えると
共に、音声メモリ120と切り離してレコードアドレス
のみを高速走査し、マツチ信号メモリ190の内容を順
次に読み出す。そして前述の“1パのマツチ信号が読み
出されたときのレコードアドレスが求めるマツチレコー
ドアドレスになる。
上述したように、本発明の音声テキスト検索装置は周波
数を走査するスイッチ140の使用と、マツチングCC
Dデバイス180のイメージセンサ部182でのシスト
リックアレイ法によるベクトル内積演算によって音声の
高低のばらつきを除くことができ、マツチングCCDデ
バイスNOの最大値検出型エンコーダ186の最大値検
出によって音声の強弱のばらつきを除くことができる。
数を走査するスイッチ140の使用と、マツチングCC
Dデバイス180のイメージセンサ部182でのシスト
リックアレイ法によるベクトル内積演算によって音声の
高低のばらつきを除くことができ、マツチングCCDデ
バイスNOの最大値検出型エンコーダ186の最大値検
出によって音声の強弱のばらつきを除くことができる。
また、マツチングCCDデバイス180の中のミニマス
ク電荷転送部+84でのダイナミックプログラミング法
による音素列のマツチング処理によって発声速度のばら
つきを除外できる。
ク電荷転送部+84でのダイナミックプログラミング法
による音素列のマツチング処理によって発声速度のばら
つきを除外できる。
第2図は音声パターンの説明図である。
第3図は音声スベクトロダラムの説明図である。第3図
は音声スペクトログラムの各時刻での周波数走査の結果
であり、第2図の時刻1−0.4のときの周波数走査に
よる音声スペクトログラムの観測データである。実線は
低音の人の、破線は高音の人のデータの一例である。高
音の人の音声スペクトログラムは低音の人の音声スペク
トログラムを右へ少しシフトした形になる。また振幅は
音声の高さによって異なってくる。第3図により高音や
低音を出す人の声道の長さのばらつきや、強さのばらつ
きが避けられないこと、また第2図から発声速度によっ
て音素領域のばらつきがかなり大きくなることが避けら
れないことがわかる。音声認識においてはこれらの3種
のばらつきに左右されないスベクトロダラムの照合が求
められる。
は音声スペクトログラムの各時刻での周波数走査の結果
であり、第2図の時刻1−0.4のときの周波数走査に
よる音声スペクトログラムの観測データである。実線は
低音の人の、破線は高音の人のデータの一例である。高
音の人の音声スペクトログラムは低音の人の音声スペク
トログラムを右へ少しシフトした形になる。また振幅は
音声の高さによって異なってくる。第3図により高音や
低音を出す人の声道の長さのばらつきや、強さのばらつ
きが避けられないこと、また第2図から発声速度によっ
て音素領域のばらつきがかなり大きくなることが避けら
れないことがわかる。音声認識においてはこれらの3種
のばらつきに左右されないスベクトロダラムの照合が求
められる。
第4図は光パルスによるCODでの電荷発生量とパルス
幅との関係を示す説明図である。第4図において、光学
マスクの4×4メツシユで遮られない(w=1.0)と
するときの電荷発生量qは光パルスのパルス幅に比例し
て増大し、最大値q工に達し、そこで飽和する。そのと
きの光パルスの強さを1.とする。パルス幅の変動幅を
tlまでとすると、関係特性の実線440はパルス幅が
t、のときにqが最大値q1になるように1を1、に設
定した場合の一例である。Iを 1.4I0にすると−
点鎖線430のようにtm以下のパルス幅で飽和が起る
。また破線450は光学マスクの4×4メツシユが重み
係数Wに比例して光パルスの通過量が減少する場合を示
している9wが10/16であると、破線450は実線
440の場合の10/+6の特性となる。パルス幅を最
大値1.からx−tffiに減少させると、イメージセ
ンサ部182での電荷発生量qはw−x−tfflに減
少する。
幅との関係を示す説明図である。第4図において、光学
マスクの4×4メツシユで遮られない(w=1.0)と
するときの電荷発生量qは光パルスのパルス幅に比例し
て増大し、最大値q工に達し、そこで飽和する。そのと
きの光パルスの強さを1.とする。パルス幅の変動幅を
tlまでとすると、関係特性の実線440はパルス幅が
t、のときにqが最大値q1になるように1を1、に設
定した場合の一例である。Iを 1.4I0にすると−
点鎖線430のようにtm以下のパルス幅で飽和が起る
。また破線450は光学マスクの4×4メツシユが重み
係数Wに比例して光パルスの通過量が減少する場合を示
している9wが10/16であると、破線450は実線
440の場合の10/+6の特性となる。パルス幅を最
大値1.からx−tffiに減少させると、イメージセ
ンサ部182での電荷発生量qはw−x−tfflに減
少する。
これがベクトル内積ΣW −Xの積項の演算に相当する
。
。
第5図はイメージセンサ部+82での内積演算処理の説
明図である。一般にイメージセンサ部182は水平に並
ぶフォトダイオードセル510のアレイとCCDセル5
20のアレイ及びこれに垂直に並ぶCCDレジスタ53
0とから成る。フォトダイオードセル510が第4図で
説明したw−x−tfflの電荷を検出する部分である
。通常のイメージセンサではこれが水平の転送ゲートラ
イン515を介してCCDセル520へ移されると、C
CDセル520のアレイ上の電荷信号は水平の電荷転送
りロック線525からのシフトクロックパルスを受けて
一斉に右ヘシフトされる。CCDレジスタ530に到達
した電荷は垂直の転送ゲートライン516を介して垂直
の電R転送りロック線535のシフトクロックパルスを
受けて一斉に下ヘシフトされる。本発明においては、こ
こで信号波形のマツチングを行う。
明図である。一般にイメージセンサ部182は水平に並
ぶフォトダイオードセル510のアレイとCCDセル5
20のアレイ及びこれに垂直に並ぶCCDレジスタ53
0とから成る。フォトダイオードセル510が第4図で
説明したw−x−tfflの電荷を検出する部分である
。通常のイメージセンサではこれが水平の転送ゲートラ
イン515を介してCCDセル520へ移されると、C
CDセル520のアレイ上の電荷信号は水平の電荷転送
りロック線525からのシフトクロックパルスを受けて
一斉に右ヘシフトされる。CCDレジスタ530に到達
した電荷は垂直の転送ゲートライン516を介して垂直
の電R転送りロック線535のシフトクロックパルスを
受けて一斉に下ヘシフトされる。本発明においては、こ
こで信号波形のマツチングを行う。
そのためには、電荷転送りロック4!525からシフト
クロックパルスを1回印加する都度、転送ゲートライン
515を1回駆動し、フォトダイオードセル510の電
荷をCCDセル520で転送される電荷に次々と加算し
ていく。
クロックパルスを1回印加する都度、転送ゲートライン
515を1回駆動し、フォトダイオードセル510の電
荷をCCDセル520で転送される電荷に次々と加算し
ていく。
数学的に言えば、j行i番目のフォトダイオードセル5
10の電荷量q j+−EW JIX (t)!をj行
の1番目のCCDセル520に移した後、電荷転送りロ
ック線に120ツク加えると、それはj行の(i+I)
番目のCCDセル520に残る。1セル分の電荷をシフ
トした後で、x (t+])の光パルスに対する入射光
量が(i+1)番目のフォトダイオードセル510に貯
えられる。そのときのw jla−1X (t + ]
)の電荷をj行i番目のCCDセル520に移すと、
そこで、q+ =VJ」(X(t)との加算が起る。す
なわち、次式の電荷の加算結果、 Q、+++(+++)−qtl(t)+WJ+++x(
+++) (1)が(i+1)番目のCCDセル52
0に残る。また、j行i番目のCCDセル520では同
じ時刻に次式の電荷の加算結果は、 qJl(+++)−CI J+−+(t)+ W JI
X (+++) (2)か貯えられている。iが1
からnまで変わるとすると、n番目のCCDセル520
では、次の漸化式で表わされる電荷は、 q jn(+++)= q J +−+(t)+
W tnX (1+])が求まる。ここに+++はt
に置き換えてもよく、光パルスの印加回数である。n番
目のCCDセル520に到達した累積電荷は転送ゲート
ライン516を介してCCDレジスタ530へ移される
。このとき、上のCCDレジスタ530から転送された
電荷とCCDレジスタ530上で加算される。また、水
平方向からのnクロック転送毎に1回の垂直クロックを
電荷転送りロック線535から受けて、加算結果の累積
電荷を下のCCDレジスタ530へ送ることが可能であ
る。したがって、最下段のCCDレジスタ530には常
に段数に等しい期間前から各時刻までの音声の照合結果
を表わす累覆@荷が到達する。これをそのまま最大値検
出型エンコーダ186に送ることで音声単語の検出が可
能である。しかし、これでは音声の時間的な揺れに弱く
ダイナミックプログラミング法によるマツチング処理を
必要とする。そのため、第5図の垂直のCCDレジスタ
アレイはこのま丈では音声の照合には使用できないので
、代りに第6図のミニマスク電荷転送部184を使用す
る。この場合、tはn個の周波数を下から上に順に走査
したときのサンプル番号に対応する。なお、各行のCC
Dセルアレイでは、シストリックアレイ法に基づく漸化
式の演算によって重み係数列と光パルスの列とのベクト
ル内積が計算され、その結果が最終段のCCDセル52
0から求められ、それが周波数走査の都度出力される。
10の電荷量q j+−EW JIX (t)!をj行
の1番目のCCDセル520に移した後、電荷転送りロ
ック線に120ツク加えると、それはj行の(i+I)
番目のCCDセル520に残る。1セル分の電荷をシフ
トした後で、x (t+])の光パルスに対する入射光
量が(i+1)番目のフォトダイオードセル510に貯
えられる。そのときのw jla−1X (t + ]
)の電荷をj行i番目のCCDセル520に移すと、
そこで、q+ =VJ」(X(t)との加算が起る。す
なわち、次式の電荷の加算結果、 Q、+++(+++)−qtl(t)+WJ+++x(
+++) (1)が(i+1)番目のCCDセル52
0に残る。また、j行i番目のCCDセル520では同
じ時刻に次式の電荷の加算結果は、 qJl(+++)−CI J+−+(t)+ W JI
X (+++) (2)か貯えられている。iが1
からnまで変わるとすると、n番目のCCDセル520
では、次の漸化式で表わされる電荷は、 q jn(+++)= q J +−+(t)+
W tnX (1+])が求まる。ここに+++はt
に置き換えてもよく、光パルスの印加回数である。n番
目のCCDセル520に到達した累積電荷は転送ゲート
ライン516を介してCCDレジスタ530へ移される
。このとき、上のCCDレジスタ530から転送された
電荷とCCDレジスタ530上で加算される。また、水
平方向からのnクロック転送毎に1回の垂直クロックを
電荷転送りロック線535から受けて、加算結果の累積
電荷を下のCCDレジスタ530へ送ることが可能であ
る。したがって、最下段のCCDレジスタ530には常
に段数に等しい期間前から各時刻までの音声の照合結果
を表わす累覆@荷が到達する。これをそのまま最大値検
出型エンコーダ186に送ることで音声単語の検出が可
能である。しかし、これでは音声の時間的な揺れに弱く
ダイナミックプログラミング法によるマツチング処理を
必要とする。そのため、第5図の垂直のCCDレジスタ
アレイはこのま丈では音声の照合には使用できないので
、代りに第6図のミニマスク電荷転送部184を使用す
る。この場合、tはn個の周波数を下から上に順に走査
したときのサンプル番号に対応する。なお、各行のCC
Dセルアレイでは、シストリックアレイ法に基づく漸化
式の演算によって重み係数列と光パルスの列とのベクト
ル内積が計算され、その結果が最終段のCCDセル52
0から求められ、それが周波数走査の都度出力される。
また、どの周波数でマッチングのピークがあっても、そ
れが最終段のCCDセル520まで転送されるので、ピ
ーク周波数の揺れに強いマツチング処理が達成される。
れが最終段のCCDセル520まで転送されるので、ピ
ーク周波数の揺れに強いマツチング処理が達成される。
第6図はミニマスク電荷転送部184と最大値検出型エ
ンコーダ186でのダイナミック・プログラミング・マ
ツチング動作を説明する図である。
ンコーダ186でのダイナミック・プログラミング・マ
ツチング動作を説明する図である。
第6図において、CCDセルアレイ500はイメージセ
ンサ部1g2の各行を代表して示している。また、各行
のCCDセルアレイ500は入力音声スペクトログラム
と登録音声スペクトログラムの各時刻における音声スペ
クトログラムの照合結果(類似度)を電荷量の周波数走
査の終了の都度出力する。ミニマスク電荷転送部184
はj列目のCCDセルアレイ500で求まる電荷qn、
+を隣のCCDレジスタ610に転送するときに、隣の
CCDレジスタ610から転送されてくる信号z j−
1(t−1)と加算するのではなく、小さい方を選んで
送る。それを列マツチ信号とすると、それは、 z 、、(t)−minj z j−+(t−1)
、 q J +(t+1)]。
ンサ部1g2の各行を代表して示している。また、各行
のCCDセルアレイ500は入力音声スペクトログラム
と登録音声スペクトログラムの各時刻における音声スペ
クトログラムの照合結果(類似度)を電荷量の周波数走
査の終了の都度出力する。ミニマスク電荷転送部184
はj列目のCCDセルアレイ500で求まる電荷qn、
+を隣のCCDレジスタ610に転送するときに、隣の
CCDレジスタ610から転送されてくる信号z j−
1(t−1)と加算するのではなく、小さい方を選んで
送る。それを列マツチ信号とすると、それは、 z 、、(t)−minj z j−+(t−1)
、 q J +(t+1)]。
j・1,2 、、、、、m (4)テ
アッて、ミニマムセレクタ620から出力される。この
出力を次の段に送って同様にこれを繰り返すだけでは、 z m(t)= m1njq m(t)、q m−+
(t−1)+−−1q o(t−m)]
(5)となって、各時刻の光パルス列と重み係数
列とがタイミングよく次々と一致すれば大きな類似度を
示すが、タイミングに揺れがあると小さくなってしまう
。この部分にダイナミック・プログラミングによるマツ
チング手法を導入すると、発音速度の揺らぎによるミス
マツチを防ぐことができる。
アッて、ミニマムセレクタ620から出力される。この
出力を次の段に送って同様にこれを繰り返すだけでは、 z m(t)= m1njq m(t)、q m−+
(t−1)+−−1q o(t−m)]
(5)となって、各時刻の光パルス列と重み係数
列とがタイミングよく次々と一致すれば大きな類似度を
示すが、タイミングに揺れがあると小さくなってしまう
。この部分にダイナミック・プログラミングによるマツ
チング手法を導入すると、発音速度の揺らぎによるミス
マツチを防ぐことができる。
そのためには、(4)式の右括弧の中のZ r−+(t
−1>の代りに、 max[z j−2(t−])、 z j−+(t−]
)、 z 、+(tl)!を用いればよい。すなわち、
タイミングが合っていれば、CIJ(t)がピークにな
る時刻にz 、、−2(t−1)がピークになる筈であ
るが、q、+(t)が早目にピークになると、Z j−
2(t−1)がピークを迎えているので、それをz r
−t(t−1)の代りに使うと、時間補正がうまくいく
。また、q t(t)が遅目にピークになると、そのと
きにはz J(t−1)がピークを迎えるので、それを
z j(t−1)の代りに使えばよい。したがって、ミ
ニマスク電荷転送部184はCCDレジスタ610とミ
ニマムセレクタ620とマキシマムセレクタ630を繰
り返し配列したものとなり、その処理機能は、 z (t) =min[q (t)、may(z j−
2<t−1)z J−+(t−1)、z J(t−
1)Ii (6)で表わされる。処理
結果は常にCCDレジスタ610に保持される。これに
よって、入力音素列が登録音素列よりも早くなっても遅
くなっても、音素片列の類似度を示す列マツチ信号z」
(t)が急速に減少しないようになる。最大値検出型エ
ンコーダ186は最大値検出回路640によって列マツ
チ信号と比較される基準の電圧■を高い値から低い値に
減少させたときに、最初に基準電圧を越える列マツチ信
号を発生したミニマスク電荷転送部+84の位置を検出
し、エンコーダ650でマツチ信号に合わせてクラスコ
ードを出力する。なお、基準電圧■は入力音声の音量に
比例した電圧値迄しか下らないため、登録音声にマツチ
した音声が入力されない場合にはマツチ信号やクラスコ
ードは出力されない。
−1>の代りに、 max[z j−2(t−])、 z j−+(t−]
)、 z 、+(tl)!を用いればよい。すなわち、
タイミングが合っていれば、CIJ(t)がピークにな
る時刻にz 、、−2(t−1)がピークになる筈であ
るが、q、+(t)が早目にピークになると、Z j−
2(t−1)がピークを迎えているので、それをz r
−t(t−1)の代りに使うと、時間補正がうまくいく
。また、q t(t)が遅目にピークになると、そのと
きにはz J(t−1)がピークを迎えるので、それを
z j(t−1)の代りに使えばよい。したがって、ミ
ニマスク電荷転送部184はCCDレジスタ610とミ
ニマムセレクタ620とマキシマムセレクタ630を繰
り返し配列したものとなり、その処理機能は、 z (t) =min[q (t)、may(z j−
2<t−1)z J−+(t−1)、z J(t−
1)Ii (6)で表わされる。処理
結果は常にCCDレジスタ610に保持される。これに
よって、入力音素列が登録音素列よりも早くなっても遅
くなっても、音素片列の類似度を示す列マツチ信号z」
(t)が急速に減少しないようになる。最大値検出型エ
ンコーダ186は最大値検出回路640によって列マツ
チ信号と比較される基準の電圧■を高い値から低い値に
減少させたときに、最初に基準電圧を越える列マツチ信
号を発生したミニマスク電荷転送部+84の位置を検出
し、エンコーダ650でマツチ信号に合わせてクラスコ
ードを出力する。なお、基準電圧■は入力音声の音量に
比例した電圧値迄しか下らないため、登録音声にマツチ
した音声が入力されない場合にはマツチ信号やクラスコ
ードは出力されない。
第7図は重み係数を保持する光学マスクの実施例の説明
図である。光学マスクは光パルス列の透過を制御して、
検索用音声とテキストの中の音声との各時刻の各周波数
でのスベクトロダラムの比較を行う部分であって、本発
明の中で重要な役目をする。第7図の例では、光学マス
ク170は電極板720を付着した偏光板740とアモ
ルファス薄膜トランジスタ(TFT)のアクティブマト
リクス730を付着した検光板750との間にライステ
ィド・ネマチック(TN)とかスーパ・ライスティド・
ネマチック(STN)とかの液晶710を挿入したもの
である。アクティブマトリクス730は600X600
程度の液晶セルに電圧を選択的に印加する。液晶セルの
光パルスの透過度は印加電圧を変えることで変化し、概
して高電圧のときに透過度が下り、低電圧のときに上が
る。この電圧はマスクメモリ160から与えられる。
図である。光学マスクは光パルス列の透過を制御して、
検索用音声とテキストの中の音声との各時刻の各周波数
でのスベクトロダラムの比較を行う部分であって、本発
明の中で重要な役目をする。第7図の例では、光学マス
ク170は電極板720を付着した偏光板740とアモ
ルファス薄膜トランジスタ(TFT)のアクティブマト
リクス730を付着した検光板750との間にライステ
ィド・ネマチック(TN)とかスーパ・ライスティド・
ネマチック(STN)とかの液晶710を挿入したもの
である。アクティブマトリクス730は600X600
程度の液晶セルに電圧を選択的に印加する。液晶セルの
光パルスの透過度は印加電圧を変えることで変化し、概
して高電圧のときに透過度が下り、低電圧のときに上が
る。この電圧はマスクメモリ160から与えられる。
第8図は光学マスクのアクティブマトリクス駆動回路の
説明図である。重み係数のデータによって電圧が変わる
ソース線810と液晶セル840の位置を電圧によって
順次選択するゲート線820との交点部にアモルファス
薄膜トランジスタ830がある。ソース線810とゲー
ト線820の電圧が共に高いときにアモルファス薄膜ト
ランジスタ830はオンになり、ドレイン電圧が高くな
って、それと電極850との間に接続される液晶セル8
40が透明から不透明に切り替わる。トレイン電圧が決
まった後では、ゲート線820の電圧が下ってもドレイ
ン電圧がしばらくそのままに保たれる。したがって、個
々の液晶セル840に個別に駆動電圧を印加しなくても
光学マスクに登録した重み係数のマスクパターンは消滅
しない。ただし、アモルファス薄膜トランジスタ830
でのオフ電流が少しずつトレイン電圧を低下させるので
、数10ヘルツ程度でのリフレッシュがマスクパターン
の保持には必要であり、このためにマスクメモリ160
が使用される。
説明図である。重み係数のデータによって電圧が変わる
ソース線810と液晶セル840の位置を電圧によって
順次選択するゲート線820との交点部にアモルファス
薄膜トランジスタ830がある。ソース線810とゲー
ト線820の電圧が共に高いときにアモルファス薄膜ト
ランジスタ830はオンになり、ドレイン電圧が高くな
って、それと電極850との間に接続される液晶セル8
40が透明から不透明に切り替わる。トレイン電圧が決
まった後では、ゲート線820の電圧が下ってもドレイ
ン電圧がしばらくそのままに保たれる。したがって、個
々の液晶セル840に個別に駆動電圧を印加しなくても
光学マスクに登録した重み係数のマスクパターンは消滅
しない。ただし、アモルファス薄膜トランジスタ830
でのオフ電流が少しずつトレイン電圧を低下させるので
、数10ヘルツ程度でのリフレッシュがマスクパターン
の保持には必要であり、このためにマスクメモリ160
が使用される。
以上詳細に説明したように、本発明の音声テキスト検索
装置によれば、従来の音声認識機械での入力音声の時間
、高低及び強弱の揺れに強くない音声認識方式の問題点
を解決するために、(A)スペクトルアナライザで得た
音声の周波数別のアナログ信号波形を各時刻で周波数順
に走査して光パルス列に変換し、すべての登録音声のす
べての周波数のアナログ信号波形とすべての時刻の成分
とを比較できるように、光パルスを光学マスク全面に照
射するようにし、(B)光学マスクを通過した光パルス
を各時刻でCCDデバイス上で集計(シストリックアレ
イによるベクトルの内積演算を実行)した。(C)その
結果をマツチングCCDデバイス上でダイナミックプロ
グラミング法で処理することにより入力音声と各登録音
声との類似度を求め、最大値検出型エンコーダでクラス
判別をするようにしな。
装置によれば、従来の音声認識機械での入力音声の時間
、高低及び強弱の揺れに強くない音声認識方式の問題点
を解決するために、(A)スペクトルアナライザで得た
音声の周波数別のアナログ信号波形を各時刻で周波数順
に走査して光パルス列に変換し、すべての登録音声のす
べての周波数のアナログ信号波形とすべての時刻の成分
とを比較できるように、光パルスを光学マスク全面に照
射するようにし、(B)光学マスクを通過した光パルス
を各時刻でCCDデバイス上で集計(シストリックアレ
イによるベクトルの内積演算を実行)した。(C)その
結果をマツチングCCDデバイス上でダイナミックプロ
グラミング法で処理することにより入力音声と各登録音
声との類似度を求め、最大値検出型エンコーダでクラス
判別をするようにしな。
上述のように音声認識を3段階に分けたことで、<a)
音声の始まりを認識しないで、いつからでも音声の照合
を行えること、(b)音声の高さ、及び低さに影響され
ず、各時刻での周波数スベクトロダラムのマツチング結
果を出力できること、(c)音声の発生速度の揺れに左
右されずに、音素列のマツチング処理を行えること、(
d)音声の強さに左右されずに音素列のマツチング結果
を比較できること等が可能になる。このような音声の3
つの揺れに対して柔軟性を持たせたことの効果は検索漏
れを少なくできるとことと、それを無くするために必要
な検索用単語音声の登録数を減らせることにある。例え
ば、音声テキストでの単語音声の高さが5種類に及び、
強さも5種類に及ぶと、登録する単語音声数が25にな
るが、それを1つの検索用単語音声でカバーできるとす
れば、重み係数を保持する光学マスクが1725で済む
ことになる。また、音声テキストの検索を音声テキスト
すべてを認識してから行うのではなく、直接、音声テキ
ストから検索用単語音声を見つけ出すように構成を工夫
したので、これによって、検索用単語音声が数10個に
なっても、−度の音声テキストのサーチで検索結果が求
まる。これは検索時間が1710に減少することに相当
する。また、全部の音声テキストを音声認識でコード化
する必要が無く、直接に単語音節で検索できるので、ラ
ジオやテレビから得た音声テキストのデータベース化の
工数が大幅に低減されるという効果がある。更に、本発
明の新しい音声認識方式を液晶光学マスクとCCDデバ
イスで実現する方法を提示した。これらは容易に一体化
されるので十分小型化の実現も可能であって携帯に適し
た大きさになり、例えば国際会議の会場に携帯し会議場
で口頭で発表される論文をマイクロホンでモニターし、
その場で口頭の音声テキストの内容検索を行うことが可
能になる等の効果がある。
音声の始まりを認識しないで、いつからでも音声の照合
を行えること、(b)音声の高さ、及び低さに影響され
ず、各時刻での周波数スベクトロダラムのマツチング結
果を出力できること、(c)音声の発生速度の揺れに左
右されずに、音素列のマツチング処理を行えること、(
d)音声の強さに左右されずに音素列のマツチング結果
を比較できること等が可能になる。このような音声の3
つの揺れに対して柔軟性を持たせたことの効果は検索漏
れを少なくできるとことと、それを無くするために必要
な検索用単語音声の登録数を減らせることにある。例え
ば、音声テキストでの単語音声の高さが5種類に及び、
強さも5種類に及ぶと、登録する単語音声数が25にな
るが、それを1つの検索用単語音声でカバーできるとす
れば、重み係数を保持する光学マスクが1725で済む
ことになる。また、音声テキストの検索を音声テキスト
すべてを認識してから行うのではなく、直接、音声テキ
ストから検索用単語音声を見つけ出すように構成を工夫
したので、これによって、検索用単語音声が数10個に
なっても、−度の音声テキストのサーチで検索結果が求
まる。これは検索時間が1710に減少することに相当
する。また、全部の音声テキストを音声認識でコード化
する必要が無く、直接に単語音節で検索できるので、ラ
ジオやテレビから得た音声テキストのデータベース化の
工数が大幅に低減されるという効果がある。更に、本発
明の新しい音声認識方式を液晶光学マスクとCCDデバ
イスで実現する方法を提示した。これらは容易に一体化
されるので十分小型化の実現も可能であって携帯に適し
た大きさになり、例えば国際会議の会場に携帯し会議場
で口頭で発表される論文をマイクロホンでモニターし、
その場で口頭の音声テキストの内容検索を行うことが可
能になる等の効果がある。
第1図は本発明の一実施例の基本構成を示す説明図、第
2図は音声パターンの説明図、第3図は音声スペクトロ
ダラムの説明図、第4図は光パルスによるCCDでの電
荷発生量とパルス幅との関係の説明図、第5図はイメー
ジセンサ部での内積演算処理の説明図、第6図はミニマ
スク電荷転送部でのダイナミックプログラミング・マツ
チング動作の説明図、第7図は光学マスクの一実施例の
説明図、及び第8図は光学マスクのアクティブマトリク
ス駆動回路の説明図である。 102・・・マイクロボン、104・・・A/D変換器
、110・・・音声入力手段、120・・・音声メモリ
、125・・・アドレス発生器、130・・・スペクト
ルアナライザ、135.140・・・スイッチ、142
・・・周波数走査用カウンタ、144・・・タロツク発
生器、150・・・光パルス発生制御回路、152・・
・発光タイオード、154・・・光学レンズ、160・
・・マスクメモリ、165・・・マスクパターン発生器
、170・・・光学マスク、180・・・マツチングC
CDデバイス、182 ・・イメージセンサ部、18
4ミニマスク電荷転送部、186 ・・最大値検出型
エンコーダ、188・・・電荷転送制御回路、190・
・・マツチ信号メモリ、201・・・時間軸、202
・・周波数軸、203 ・音声スペクトログラム、2
04・・・垂線、430・・−点鎖線、440・・・実
線、450・・・破線、500 ・・CCDセルアレ
イ、510・・・フォトダイオードセル、515.51
6・・・転送ゲートライン、520・・・CCDセル、
525.535・・・電荷転送りロック線、530.6
10・・CCDレジスタ、620・・・ミニマムセレク
タ、630・・・マキシマムセレクタ、640・・・最
大値検出回路、650・・・エンコーダ、710 ・・
液晶、720・・・電極板、730・・・アクティブマ
トリクス、740・・・偏光板、750・・・検光板、
810・・・ソース線、820・・・ゲート 線、83
0・・・アモルファス薄膜トランジスタ、84(I・・
・液晶セル、850・・・電極。
2図は音声パターンの説明図、第3図は音声スペクトロ
ダラムの説明図、第4図は光パルスによるCCDでの電
荷発生量とパルス幅との関係の説明図、第5図はイメー
ジセンサ部での内積演算処理の説明図、第6図はミニマ
スク電荷転送部でのダイナミックプログラミング・マツ
チング動作の説明図、第7図は光学マスクの一実施例の
説明図、及び第8図は光学マスクのアクティブマトリク
ス駆動回路の説明図である。 102・・・マイクロボン、104・・・A/D変換器
、110・・・音声入力手段、120・・・音声メモリ
、125・・・アドレス発生器、130・・・スペクト
ルアナライザ、135.140・・・スイッチ、142
・・・周波数走査用カウンタ、144・・・タロツク発
生器、150・・・光パルス発生制御回路、152・・
・発光タイオード、154・・・光学レンズ、160・
・・マスクメモリ、165・・・マスクパターン発生器
、170・・・光学マスク、180・・・マツチングC
CDデバイス、182 ・・イメージセンサ部、18
4ミニマスク電荷転送部、186 ・・最大値検出型
エンコーダ、188・・・電荷転送制御回路、190・
・・マツチ信号メモリ、201・・・時間軸、202
・・周波数軸、203 ・音声スペクトログラム、2
04・・・垂線、430・・−点鎖線、440・・・実
線、450・・・破線、500 ・・CCDセルアレ
イ、510・・・フォトダイオードセル、515.51
6・・・転送ゲートライン、520・・・CCDセル、
525.535・・・電荷転送りロック線、530.6
10・・CCDレジスタ、620・・・ミニマムセレク
タ、630・・・マキシマムセレクタ、640・・・最
大値検出回路、650・・・エンコーダ、710 ・・
液晶、720・・・電極板、730・・・アクティブマ
トリクス、740・・・偏光板、750・・・検光板、
810・・・ソース線、820・・・ゲート 線、83
0・・・アモルファス薄膜トランジスタ、84(I・・
・液晶セル、850・・・電極。
Claims (3)
- (1)音声テキスト及び検索用単語音声を周波数別のア
ナログ信号波形に変換するスペクトル分析手段と、変換
された前記アナログ信号波形の各時刻でのアナログ信号
振幅を周波数順に光パルス信号に変換する光パルス発生
手段と、前記検索用単語音声を重み係数の光マスクパタ
ーンに変換して保持すると共に前記光パルス信号を受け
る光学マスク手段と、前記光学マスク手段を通過した前
記光パルス信号を検出し、前記アナログ信号波形のマッ
チング処理をし、マッチした単語音声のクラス判別を行
うマッチングCCDデバイスとを備えたことを特徴とす
る音声テキスト検索装置。 - (2)特許請求の範囲第(1)項に記載の音声テキスト
検索装置において、前記マッチングCCDデバイスが前
記光学マスク手段を通過した前記光パルス信号を検出し
、周波数毎の検出信号を積算して転送するイメージセン
サ手段と、前記イメージセンサ手段に結合して各時刻に
おける前記イメージセンサ手段の各段の出力とそれ以前
の出力との中から最大値を選び、前記最大値と前段から
の転送信号とを比較して最小振幅の方を選択し、次段へ
の転送信号とするミニマクス電荷転送手段と、複数の前
記ミニマクス電荷転送手段の出力の中の最大値を検出し
、その位置をエンコードする最大検出エンコード手段と
を備えたことを特徴とする音声テキスト検索装置。 - (3)特許請求の範囲第(1)項に記載の音声テキスト
検索装置において、前記音声テキストをディジタル信号
波形に変換して記憶する音声テキスト記憶手段と、前記
検索用単語音声と、前記音声テキスト記憶手段のレコー
ドアドレスと前記マッチングCCDデバイスの出力する
クラスコードとでアクセス番地の決まるマッチビット記
憶手段とを備えたことを特徴とする音声テキスト検索装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63291586A JPH02136900A (ja) | 1988-11-18 | 1988-11-18 | 音声テキスト検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63291586A JPH02136900A (ja) | 1988-11-18 | 1988-11-18 | 音声テキスト検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02136900A true JPH02136900A (ja) | 1990-05-25 |
Family
ID=17770855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63291586A Pending JPH02136900A (ja) | 1988-11-18 | 1988-11-18 | 音声テキスト検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02136900A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004502996A (ja) * | 2000-04-07 | 2004-01-29 | ワシントン・ユニバーシティ | 連想データベース走査と情報検索 |
CN100389455C (zh) * | 2004-07-30 | 2008-05-21 | 华为技术有限公司 | 声音类型检测装置及方法 |
US9176775B2 (en) | 2003-05-23 | 2015-11-03 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US9323794B2 (en) | 2006-11-13 | 2016-04-26 | Ip Reservoir, Llc | Method and system for high performance pattern indexing |
US9547824B2 (en) | 2008-05-15 | 2017-01-17 | Ip Reservoir, Llc | Method and apparatus for accelerated data quality checking |
US9633097B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for record pivoting to accelerate processing of data fields |
US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US10146845B2 (en) | 2012-10-23 | 2018-12-04 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US10572824B2 (en) | 2003-05-23 | 2020-02-25 | Ip Reservoir, Llc | System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines |
US10846624B2 (en) | 2016-12-22 | 2020-11-24 | Ip Reservoir, Llc | Method and apparatus for hardware-accelerated machine learning |
US10902013B2 (en) | 2014-04-23 | 2021-01-26 | Ip Reservoir, Llc | Method and apparatus for accelerated record layout detection |
US10909623B2 (en) | 2002-05-21 | 2021-02-02 | Ip Reservoir, Llc | Method and apparatus for processing financial information at hardware speeds using FPGA devices |
US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
-
1988
- 1988-11-18 JP JP63291586A patent/JPH02136900A/ja active Pending
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020928B2 (en) | 2000-04-07 | 2015-04-28 | Ip Reservoir, Llc | Method and apparatus for processing streaming data using programmable logic |
JP2004502996A (ja) * | 2000-04-07 | 2004-01-29 | ワシントン・ユニバーシティ | 連想データベース走査と情報検索 |
US10909623B2 (en) | 2002-05-21 | 2021-02-02 | Ip Reservoir, Llc | Method and apparatus for processing financial information at hardware speeds using FPGA devices |
US10346181B2 (en) | 2003-05-23 | 2019-07-09 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US9176775B2 (en) | 2003-05-23 | 2015-11-03 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US11275594B2 (en) | 2003-05-23 | 2022-03-15 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US10929152B2 (en) | 2003-05-23 | 2021-02-23 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US9898312B2 (en) | 2003-05-23 | 2018-02-20 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US10719334B2 (en) | 2003-05-23 | 2020-07-21 | Ip Reservoir, Llc | Intelligent data storage and processing using FPGA devices |
US10572824B2 (en) | 2003-05-23 | 2020-02-25 | Ip Reservoir, Llc | System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines |
CN100389455C (zh) * | 2004-07-30 | 2008-05-21 | 华为技术有限公司 | 声音类型检测装置及方法 |
US9323794B2 (en) | 2006-11-13 | 2016-04-26 | Ip Reservoir, Llc | Method and system for high performance pattern indexing |
US10411734B2 (en) | 2008-05-15 | 2019-09-10 | Ip Reservoir, Llc | Method and system for accelerated stream processing |
US10158377B2 (en) | 2008-05-15 | 2018-12-18 | Ip Reservoir, Llc | Method and system for accelerated stream processing |
US11677417B2 (en) | 2008-05-15 | 2023-06-13 | Ip Reservoir, Llc | Method and system for accelerated stream processing |
US9547824B2 (en) | 2008-05-15 | 2017-01-17 | Ip Reservoir, Llc | Method and apparatus for accelerated data quality checking |
US10965317B2 (en) | 2008-05-15 | 2021-03-30 | Ip Reservoir, Llc | Method and system for accelerated stream processing |
US10102260B2 (en) | 2012-10-23 | 2018-10-16 | Ip Reservoir, Llc | Method and apparatus for accelerated data translation using record layout detection |
US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US9633097B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for record pivoting to accelerate processing of data fields |
US10949442B2 (en) | 2012-10-23 | 2021-03-16 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US10621192B2 (en) | 2012-10-23 | 2020-04-14 | IP Resevoir, LLC | Method and apparatus for accelerated format translation of data in a delimited data format |
US10133802B2 (en) | 2012-10-23 | 2018-11-20 | Ip Reservoir, Llc | Method and apparatus for accelerated record layout detection |
US10146845B2 (en) | 2012-10-23 | 2018-12-04 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US11789965B2 (en) | 2012-10-23 | 2023-10-17 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US10902013B2 (en) | 2014-04-23 | 2021-01-26 | Ip Reservoir, Llc | Method and apparatus for accelerated record layout detection |
US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
US11526531B2 (en) | 2015-10-29 | 2022-12-13 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
US10846624B2 (en) | 2016-12-22 | 2020-11-24 | Ip Reservoir, Llc | Method and apparatus for hardware-accelerated machine learning |
US11416778B2 (en) | 2016-12-22 | 2022-08-16 | Ip Reservoir, Llc | Method and apparatus for hardware-accelerated machine learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Défossez et al. | Sing: Symbol-to-instrument neural generator | |
Gold et al. | Speech and audio signal processing: processing and perception of speech and music | |
JPH02136900A (ja) | 音声テキスト検索装置 | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
CN1315809A (zh) | 用于移动通信的拼写语音识别装置和方法 | |
CN110264987A (zh) | 基于深度学习的和弦进行生成方法 | |
JPH0756594A (ja) | 不特定話者音声認識装置およびその方法 | |
Cernak et al. | Cognitive speech coding: examining the impact of cognitive speech processing on speech compression | |
US4466801A (en) | Electronic learning aid with means for repeating an element of nonspoken sound | |
US11295725B2 (en) | Self-training WaveNet for text-to-speech | |
EP4177882A1 (en) | Methods and systems for synthesising speech from text | |
Cooper et al. | Text-to-speech synthesis techniques for MIDI-to-audio synthesis | |
RU61924U1 (ru) | Статистическая модель речи | |
Šimko et al. | Analysis of speech prosody using WaveNet embeddings: The Lombard effect | |
Chao et al. | A Hierarchical Context-aware Modeling Approach for Multi-aspect and Multi-granular Pronunciation Assessment | |
Kiefte et al. | Theories and models of speech perception | |
Jongman et al. | On invariance: Acoustic input meets listener expectations | |
Amano et al. | Predicting and classifying Japanese singleton and geminate consonants using logarithmic duration | |
EP0095069B1 (en) | Electronic learning aid with sound effects mode | |
Patterson et al. | Auditory preprocessing and recognition of speech | |
Amjad et al. | Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition | |
Mack et al. | The intelligiblity of nonvocoded and vocoded semantically anomalous sentences | |
Vadapalli | An investigation of speaker independent phrase break models in End-to-End TTS systems | |
Sun | Using End-to-end Multitask Model for Simultaneous Language Identification and Phoneme Recognition | |
Falk | Expressive Automatic Music Transcription: Using hard onset detection to transcribe legato slurs for violin |