JPH02136900A - 音声テキスト検索装置 - Google Patents

音声テキスト検索装置

Info

Publication number
JPH02136900A
JPH02136900A JP63291586A JP29158688A JPH02136900A JP H02136900 A JPH02136900 A JP H02136900A JP 63291586 A JP63291586 A JP 63291586A JP 29158688 A JP29158688 A JP 29158688A JP H02136900 A JPH02136900 A JP H02136900A
Authority
JP
Japan
Prior art keywords
audio
optical
voice
frequency
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63291586A
Other languages
English (en)
Inventor
Tsunesuke Takahashi
恒介 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63291586A priority Critical patent/JPH02136900A/ja
Publication of JPH02136900A publication Critical patent/JPH02136900A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F25/00Audible advertising
    • G09F2025/005Message recorded in a memory device
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F25/00Audible advertising

Landscapes

  • Solid State Image Pick-Up Elements (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声テキスト検索装置に関し、特に音声テキス
トや録音テキストの内容検索に関する。
〔従来の技術〕
従来、ラジオやテレビ等でアナウンスされる音声テキス
トはホットな知識情報を多く含んでいるが、それを聞い
て必要な部分を録音するとか、メモを取るとかは人間に
とって簡単にできることではあるが楽な仕事ではない。
それだけに機械にやらせればよいと考えられてきた。特
に外国語の音声テキストについてはキーポイントとなる
単語音声の有り無しを高速に判断する必要があり、高速
の音声テキスト検索装置の実現への期待が大きい。しか
しながら、従来は音声認識機械によって音声テキストの
全てを認識し、且つコード化し、その後で検索を行える
ようにしようしていた。
〔発明が解決しようとする課題〕
上述した従来の音声テキスト検索装置は、音声認識機械
によって検索を行えるようにしようとしたが、このよう
な考え方では音声認識技術が十分に高くならないと、音
声テキストの検索は有り得ないことであった。また、一
般に高性能な音声認識機械は音声タイプライタや自動翻
訳機械の実現に必要であるために盛んに研究されてきた
。しかし、ラジオで放送された音声テキストの中の単語
音声を認識するには、不特定多数の結紮の標準音声パタ
ーンを非常に多く記憶して、それらを入力音声パターン
と並列照合する必要があるので、登録語素数だけを考え
ても経済的な実現が容易ではなかった。更に、音声の登
録時と検索時のばらつきの大きさを考えると、従来の音
声認識機械の多くは入力音声にかなりの制約を設けてい
た。それは従来音声認識機械での録音音声パターンと入
力音声パターンとの比較照合における柔軟性の不足によ
る。すなわち、入カバターンが分類されるときに、時間
的ピッチの揺れはダイナミック・プログラミング(DP
)手法によって、ある程度許されるようになったが、声
楽曲のように揺れる音声の音の高さや揺れに対しては余
り許容度がなかった。
従来の柔軟性の少ない音声認識機械では、音声テキスト
の各部の音声の高さや強さが録音時の単Ml声の高さや
強さに一致していないとマツチングが悪くなった。また
、音声を高さや強さを変えて別々に登録しておかないと
分類が正しく行われないような認識装置では実用度が低
くなる。このようなこともあって、ラジオやテレビから
の生放送の音声テキストの検索が実現されなかった。
ここで音声テキストの高さや強さの揺れについて以下に
詳細に説明する。まず、単語音声を認識するためには、
音声信号が電気信号に変換され、高速フーリエ変換器な
どのスペクトラムアナライザによって周波数毎のアナロ
グ電気信号波形に分解され、音声パターンになる。第2
図は音声パターンの説明図である。横線が時間軸201
、縦線が周波数N 202である。観測される音声スペ
クトロダラム203は各時刻での各周波数における電気
信号波形の高さを色の濃さで示したものであり、成人男
性話者の′°島”[sima]を発声したときの一例で
ある。垂線204は音素の境界を示している。この音声
スペクトロダラム203が音声認識の対象となる2次元
の音声パターンである。音声認識の基本はこのような音
声パターンの照合である。このときに2次元の音声パタ
ーンが発声毎に大きく揺らぐ。音声の時間的な揺れが横
軸方向のパターンの変動に対応し、音声の高さの揺れが
音素単位でのパターンの上下の変動に対応する。
強さの揺れは音素毎でのパターンの濃さの変化に対応す
る。それらを考慮した上で、各入力音声パターンを基準
となる複数個の登録音声パターンと一斉に比較すること
が音声認識技術に求められてきた。
本発明の目的は、各時刻での音声スペクトログラムの上
下左右の変動と濃度の変動に伴う音声パターンの認識率
の低下を防ぐことにあり、より具体的には、各時刻での
音声スペクトログラムの上下左右強弱変動に影響されな
い音声パターンの認識技術を提供すると共に、入力音声
テキストデータをすべてコード化するのではなく、検索
したい文字列の音声スベクトロダラムのみを登録するこ
とで、その音声文字列を含む音声テキストデータを見つ
け出す音声パターンの認識技術を提供することにある。
更に、入力音声の時間、高低及び強弱の揺れに左右され
ない音声照合を可能にするマツチングCCDデバイス技
術を提供することにある。
〔課題を解決するための手段〕
本発明の音声テキスト検索装置は、(1) 音声テキス
ト及び検索用単語音声を周波数別のアナログ信号波形に
変換するスペクトル分析手段と、変換された前記アナロ
グ信号波形の各時刻でのアナログ信号振幅を周波数順に
光パルス信号に変換する光パルス発生手段と、前記検索
用単語音声を重み係数の光マスクパターンに変換して保
持すると共に前記光パルス信号を受ける光学マスク手段
と、前記光学マスク手段を通過した前記光パルス信号を
検出し、前記アナログ信号波形のマツチング処理をし、
マツチした単語音声のクラス判別を行うマツチングCC
Dデバイスとを備えたこと、(2) 前記(1)項に前
記マツチングCCDデバイスが前記光学マスク手段を通
過した前記光パルス信号を検出し、周波数毎の検出信号
を積算して転送するイメージセンサ手段と、前記イメー
ジセンサ手段に結合して各時刻における前記イメージセ
ンサ手段の各段の出力とそれ以前の出力との中から最大
値を選び、前記最大値と前段からの転送信号とを比較し
て最小振幅の方を選択し、次段への転送信号とするミニ
マクス電荷転送手段と、複数の前記ミニマクス電荷転送
手段の出力の中の最大値を検出し、その位置をエンコー
ドする最大検出エンコード手段とを備えたこと、(3)
 前記(1)項に前記音声テキストをディジタル信号波
形に変換して記憶する音声テキスト記憶手段と、前記検
索用単語音声と、前記音声テキスト記憶手段のレコード
アドレスと前記マツチングCCDデバイスの出力するク
ラスコードとでアクセス番地の決まるマッチビット記憶
手段とを備えたことを特徴とする。
〔実施例〕
次に図面を参照して本発明の詳細な説明する。
第1図は本発明の音声テキスト検索装置の基本構成を示
す説明図である。第1図において、音声テキストや検索
用単語音声はまず音声入力手段+10であるマイクロホ
ン102によって電気信号に変換され、次にA/D変換
器104によってデジタル信号に変換される。そしてス
イッチ135を介して音声メモリ120に貯えられる。
音声入力手段110は音声信号をデジタル信号に変換す
るときに音量の正規化やノイズ除去などの平滑化や圧縮
などの処理を必要に応じて行う。更に音声メモリ120
は再生時のアナログ信号が書き込み時のアナログ音声信
号に一致すると共に、周波数スペクトル回路で分析し易
くなるように符合化したデジタル信号を格納する。した
がって、A/D変換器IC14は単に各時点でのアナロ
グ値をデジタル値に変換するだけでなく、必要に応じて
上述の目的にあった符合化の機蛯を持っている。音声テ
キストの構成要素となる単語音声を認識するなめに不可
欠なスペクトルアナライザ130は音声入力手段+10
か又は、音声メモリ120から読み出されるデジタル信
号をスイッチ135を介して入力し、高速にフーリエ変
換とかウオルシュ変換等を行う。これにより、音声テキ
ストの各時刻における音声の各周波数成分の振幅がアナ
ログ信号波形として求まる。スイッチ140はスペクト
ルアナライザ+30の出力である周波数別のアナログ信
号波形を各時刻で低周波の方から高周波の方へ、あるい
は高周波の方から低周波の方へ順に走査し、音声スペク
トロダラムの各時刻における音声パターンをシリアルに
出力し、光パルス発生制御回路150に供給する。また
スイッチ140の走査のために周波数走査用カウンタ1
42と、周波数走査用カウンタ142にタロツク信号を
供給するクロック発生器144が使われる。光パルス発
生制御回路+50はレーザダイオードなどの発光ダイオ
ード152が発生する光パルスの強度やパルス幅を制御
し、各時刻のアナログ信号波形の振幅を読み取って、そ
の振幅に等しいパルス幅の光パルス駆動信号を発生する
。これにより、周波数別のアナログ信号を、時々刻々と
シリアル走査によって光パルスの信号列に置き換える。
この光パルスの振幅とパルス幅はCCDのイメージセン
サ部1g2で検出されるに都合のよい大きさに決められ
る。すなわち、パルス幅を大きくできないときには振幅
を大きくし、発光ダイオード152の出力が大きくない
ときにはパルス幅を長くする。ここに、1秒程度の単語
音声を60m5ec単位でシリアルな光パルス列に変換
し、周波数のサンプル点を60とすると、パルス幅は自
ずと1 m5ec以下に制限される。また、発光ダイオ
ード152が10mW以上であればパルス幅はこの程度
で十分である。発光ダイオード152から出力される光
パルスは光学レンズ154を通して10〜30mm角程
度の光学マスク+70に均一に照射され、マツチングC
CDデバイス180に突き抜ける。光学マスクI70は
偏光板と検光板に挟まれたスーパ・ツィステッド・ネマ
チック(STN)液晶などの表示マトリックスであって
、各メツシュの光の透過度がそこに印加された電圧によ
って制御され、設定された透過度がしばらくの間は保持
されるものであって、透明な薄膜トランジスタを100
万個程度液晶パネル内にマトリクス状に配列し、メツシ
ュの液晶への印加電圧を変えることで、光の透過か遮断
かの状態を設定できる。この光学マスク170にはマス
クパターンを記憶するマスクメモリ160が接続され、
光学マスクにおける重み係数のマスクパターンがマスク
メモリ160からの定期的なリフレッシュによって保持
される。
マスクパターン発生器165は音声メモリ120から読
み出される検索用単語音声に対するスペクトルアナライ
ザ130とスイッチ+40の処理結果を重み係数列に変
換する部分であり、この出力がマスクメモリ160に貯
えられる。マスクパターン発生器165は液晶パネルの
4×4のメツシュて161直のアナログ量を記憶するよ
うにコード変換を行って重み係数を作る。重み係数列は
マスクメモリ160に貯えられた後で、光学マスク17
0の液晶パネル面上に設定される。1つの単語音声に約
1万6000メツシユを使用するが、薄膜トランジスタ
は数10単語音声の登録が可能である。マツチングCC
Dデバイス180はイメージセンサ部+82とミニマス
ク電荷転送部184及び最大値検出型エンコーダ186
とを含み、電荷転送制御回路188によって制御される
。これは光学マスク170を通過した光パルスを一斉に
検出し、どこでマツチングがあったかをシストリックア
レイとして働くイメージセンサ部182で調べ、更に音
素列のマツチングの有無をミニマスク電荷転送部184
で調べてマツチングの結果を最大値検出型エンコーダ1
86から出力する。イメージセンサ部182はフォトダ
イオードセルとCCDセルより成るCCDセルアレイで
あって、光学マスク170を通過した光パルスの透過光
景に比例した電荷をフォトダイオードセルに貯え、各フ
ォトダイオードセルに対応したCCDセル上で累積電荷
量として転送する。最終段のCCDセルの累積電荷量は
各時刻の音素のマツチング結果を示し。次の周波数操作
が終るときのみ、ミニマスク電荷転送部184へ転送さ
れる。これによって、音声の各時刻での周波数スペクト
ログラムの照合が行われる。ミニマスク電荷転送部18
4はCCDレジスタとミニマムセレクタ及びマキシマム
セレクタとから成るアレイであって、複数のイメージセ
ンサ部182の各出力段CCDセルの累積電荷量を各段
のミニマムセレクタで、前段マキシマムセレクタから送
られてきた列マツチ電荷量と比較し、最小の方を次の段
CCDレジスタに送り出す。この処理を各段で並列に行
う。マキシマムセレクタから送られてきた列マツチ電荷
量とは各段から送り出す列マツチ電荷量と前段からの列
マツチ電荷量と前前段からの列マツチ電荷量との中の最
大値の列マツチ電荷量である。これによってダイナミッ
クプログラミング法による音素列のマツチング処理が行
われ、音声の発生速度のばらつきによるミスマツチが救
済される。最大値検出型エンコーダ186は多数のミニ
マスク電荷転送部184の出力の中の最大値を捜し、そ
の位置を単語音声のクラスコードとして出力する部分で
ある。最大値はミニマスク電荷転送部184の出力と比
較される比較基準の電圧Vをスウィープすることで各時
刻に求められる。比較基準の電圧Vは数10m5ecに
一度の割りでゆっくりとスウィープされればよい。また
比較基準の電圧Vの変化の幅は入力音声の音量に比例す
るものとすれば、基準値以上の列マツチ電荷量が発生し
たときにマツチ信号に合わせてクラスコードを出力する
ことにより、単語音声の振幅のゆらぎを意識しないクラ
ス判別を行うことができる。マツチ信号メモリ190は
マツチングCCDデバイス180からマツチ信号が発生
されたときのクラスコードと入力音声テキストを記憶し
ている音声メモリ120のレコードアドレスとによって
マツチ信号の書き込み番地が決まるランダム・アクセス
・メモリ(RAM)である。すなわち、アドレス発生器
125からレコードアドレスを音声メモリ120に与え
、レコードアドレスを変えながら音声テキストを読み出
して、スペクトルアナライザ130.スイッチ+40及
び光パルス発生制御回路150を通して発光ダイオード
152に送り、そこで光パルス列に変換する。その光パ
ルス列を光学マスク170を通してマツチングCCDデ
バイス!80に入力し、光学マスク170に登録した検
索用単語音声と比較し、マツチング処理によってクラス
コード判別を行う。その結果、マツチがあると、そのク
ラスコードと、そのときの音声メモリのレコードアドレ
スを用いて、マツチ信号メモリ190にマツチ信号(例
えば、デジタル信号の1′″)を書き込む。マツチ信号
メモリ190の内容は検索用単語音声毎に次のように読
み出される。まず、検索用単語音声を音声メモリ120
から再度読み出して、それを光パルス列に変換する。そ
れを同じ単語音声を保持する光学マスク170に通過さ
せると、マツチングCCDデバイス180でマツチ信号
がすぐに出力される。このマツチ信号に合わせて出力さ
れるクラスコードをマツチ信号メモリ+90に与えると
共に、音声メモリ120と切り離してレコードアドレス
のみを高速走査し、マツチ信号メモリ190の内容を順
次に読み出す。そして前述の“1パのマツチ信号が読み
出されたときのレコードアドレスが求めるマツチレコー
ドアドレスになる。
上述したように、本発明の音声テキスト検索装置は周波
数を走査するスイッチ140の使用と、マツチングCC
Dデバイス180のイメージセンサ部182でのシスト
リックアレイ法によるベクトル内積演算によって音声の
高低のばらつきを除くことができ、マツチングCCDデ
バイスNOの最大値検出型エンコーダ186の最大値検
出によって音声の強弱のばらつきを除くことができる。
また、マツチングCCDデバイス180の中のミニマス
ク電荷転送部+84でのダイナミックプログラミング法
による音素列のマツチング処理によって発声速度のばら
つきを除外できる。
第2図は音声パターンの説明図である。
第3図は音声スベクトロダラムの説明図である。第3図
は音声スペクトログラムの各時刻での周波数走査の結果
であり、第2図の時刻1−0.4のときの周波数走査に
よる音声スペクトログラムの観測データである。実線は
低音の人の、破線は高音の人のデータの一例である。高
音の人の音声スペクトログラムは低音の人の音声スペク
トログラムを右へ少しシフトした形になる。また振幅は
音声の高さによって異なってくる。第3図により高音や
低音を出す人の声道の長さのばらつきや、強さのばらつ
きが避けられないこと、また第2図から発声速度によっ
て音素領域のばらつきがかなり大きくなることが避けら
れないことがわかる。音声認識においてはこれらの3種
のばらつきに左右されないスベクトロダラムの照合が求
められる。
第4図は光パルスによるCODでの電荷発生量とパルス
幅との関係を示す説明図である。第4図において、光学
マスクの4×4メツシユで遮られない(w=1.0)と
するときの電荷発生量qは光パルスのパルス幅に比例し
て増大し、最大値q工に達し、そこで飽和する。そのと
きの光パルスの強さを1.とする。パルス幅の変動幅を
tlまでとすると、関係特性の実線440はパルス幅が
t、のときにqが最大値q1になるように1を1、に設
定した場合の一例である。Iを 1.4I0にすると−
点鎖線430のようにtm以下のパルス幅で飽和が起る
。また破線450は光学マスクの4×4メツシユが重み
係数Wに比例して光パルスの通過量が減少する場合を示
している9wが10/16であると、破線450は実線
440の場合の10/+6の特性となる。パルス幅を最
大値1.からx−tffiに減少させると、イメージセ
ンサ部182での電荷発生量qはw−x−tfflに減
少する。
これがベクトル内積ΣW −Xの積項の演算に相当する
第5図はイメージセンサ部+82での内積演算処理の説
明図である。一般にイメージセンサ部182は水平に並
ぶフォトダイオードセル510のアレイとCCDセル5
20のアレイ及びこれに垂直に並ぶCCDレジスタ53
0とから成る。フォトダイオードセル510が第4図で
説明したw−x−tfflの電荷を検出する部分である
。通常のイメージセンサではこれが水平の転送ゲートラ
イン515を介してCCDセル520へ移されると、C
CDセル520のアレイ上の電荷信号は水平の電荷転送
りロック線525からのシフトクロックパルスを受けて
一斉に右ヘシフトされる。CCDレジスタ530に到達
した電荷は垂直の転送ゲートライン516を介して垂直
の電R転送りロック線535のシフトクロックパルスを
受けて一斉に下ヘシフトされる。本発明においては、こ
こで信号波形のマツチングを行う。
そのためには、電荷転送りロック4!525からシフト
クロックパルスを1回印加する都度、転送ゲートライン
515を1回駆動し、フォトダイオードセル510の電
荷をCCDセル520で転送される電荷に次々と加算し
ていく。
数学的に言えば、j行i番目のフォトダイオードセル5
10の電荷量q j+−EW JIX (t)!をj行
の1番目のCCDセル520に移した後、電荷転送りロ
ック線に120ツク加えると、それはj行の(i+I)
番目のCCDセル520に残る。1セル分の電荷をシフ
トした後で、x (t+])の光パルスに対する入射光
量が(i+1)番目のフォトダイオードセル510に貯
えられる。そのときのw jla−1X (t + ]
 )の電荷をj行i番目のCCDセル520に移すと、
そこで、q+ =VJ」(X(t)との加算が起る。す
なわち、次式の電荷の加算結果、 Q、+++(+++)−qtl(t)+WJ+++x(
+++)  (1)が(i+1)番目のCCDセル52
0に残る。また、j行i番目のCCDセル520では同
じ時刻に次式の電荷の加算結果は、 qJl(+++)−CI J+−+(t)+ W JI
X (+++)   (2)か貯えられている。iが1
からnまで変わるとすると、n番目のCCDセル520
では、次の漸化式で表わされる電荷は、 q jn(+++)=  q  J +−+(t)+ 
W tnX  (1+])が求まる。ここに+++はt
に置き換えてもよく、光パルスの印加回数である。n番
目のCCDセル520に到達した累積電荷は転送ゲート
ライン516を介してCCDレジスタ530へ移される
。このとき、上のCCDレジスタ530から転送された
電荷とCCDレジスタ530上で加算される。また、水
平方向からのnクロック転送毎に1回の垂直クロックを
電荷転送りロック線535から受けて、加算結果の累積
電荷を下のCCDレジスタ530へ送ることが可能であ
る。したがって、最下段のCCDレジスタ530には常
に段数に等しい期間前から各時刻までの音声の照合結果
を表わす累覆@荷が到達する。これをそのまま最大値検
出型エンコーダ186に送ることで音声単語の検出が可
能である。しかし、これでは音声の時間的な揺れに弱く
ダイナミックプログラミング法によるマツチング処理を
必要とする。そのため、第5図の垂直のCCDレジスタ
アレイはこのま丈では音声の照合には使用できないので
、代りに第6図のミニマスク電荷転送部184を使用す
る。この場合、tはn個の周波数を下から上に順に走査
したときのサンプル番号に対応する。なお、各行のCC
Dセルアレイでは、シストリックアレイ法に基づく漸化
式の演算によって重み係数列と光パルスの列とのベクト
ル内積が計算され、その結果が最終段のCCDセル52
0から求められ、それが周波数走査の都度出力される。
また、どの周波数でマッチングのピークがあっても、そ
れが最終段のCCDセル520まで転送されるので、ピ
ーク周波数の揺れに強いマツチング処理が達成される。
第6図はミニマスク電荷転送部184と最大値検出型エ
ンコーダ186でのダイナミック・プログラミング・マ
ツチング動作を説明する図である。
第6図において、CCDセルアレイ500はイメージセ
ンサ部1g2の各行を代表して示している。また、各行
のCCDセルアレイ500は入力音声スペクトログラム
と登録音声スペクトログラムの各時刻における音声スペ
クトログラムの照合結果(類似度)を電荷量の周波数走
査の終了の都度出力する。ミニマスク電荷転送部184
はj列目のCCDセルアレイ500で求まる電荷qn、
+を隣のCCDレジスタ610に転送するときに、隣の
CCDレジスタ610から転送されてくる信号z j−
1(t−1)と加算するのではなく、小さい方を選んで
送る。それを列マツチ信号とすると、それは、 z  、、(t)−minj z  j−+(t−1)
、 q J +(t+1)]。
j・1,2  、、、、、m        (4)テ
アッて、ミニマムセレクタ620から出力される。この
出力を次の段に送って同様にこれを繰り返すだけでは、 z m(t)= m1njq  m(t)、q m−+
(t−1)+−−1q o(t−m)]       
   (5)となって、各時刻の光パルス列と重み係数
列とがタイミングよく次々と一致すれば大きな類似度を
示すが、タイミングに揺れがあると小さくなってしまう
。この部分にダイナミック・プログラミングによるマツ
チング手法を導入すると、発音速度の揺らぎによるミス
マツチを防ぐことができる。
そのためには、(4)式の右括弧の中のZ r−+(t
−1>の代りに、 max[z j−2(t−])、 z j−+(t−]
)、 z 、+(tl)!を用いればよい。すなわち、
タイミングが合っていれば、CIJ(t)がピークにな
る時刻にz 、、−2(t−1)がピークになる筈であ
るが、q、+(t)が早目にピークになると、Z j−
2(t−1)がピークを迎えているので、それをz r
−t(t−1)の代りに使うと、時間補正がうまくいく
。また、q t(t)が遅目にピークになると、そのと
きにはz J(t−1)がピークを迎えるので、それを
z j(t−1)の代りに使えばよい。したがって、ミ
ニマスク電荷転送部184はCCDレジスタ610とミ
ニマムセレクタ620とマキシマムセレクタ630を繰
り返し配列したものとなり、その処理機能は、 z (t) =min[q (t)、may(z j−
2<t−1)z  J−+(t−1)、z  J(t−
1)Ii         (6)で表わされる。処理
結果は常にCCDレジスタ610に保持される。これに
よって、入力音素列が登録音素列よりも早くなっても遅
くなっても、音素片列の類似度を示す列マツチ信号z」
(t)が急速に減少しないようになる。最大値検出型エ
ンコーダ186は最大値検出回路640によって列マツ
チ信号と比較される基準の電圧■を高い値から低い値に
減少させたときに、最初に基準電圧を越える列マツチ信
号を発生したミニマスク電荷転送部+84の位置を検出
し、エンコーダ650でマツチ信号に合わせてクラスコ
ードを出力する。なお、基準電圧■は入力音声の音量に
比例した電圧値迄しか下らないため、登録音声にマツチ
した音声が入力されない場合にはマツチ信号やクラスコ
ードは出力されない。
第7図は重み係数を保持する光学マスクの実施例の説明
図である。光学マスクは光パルス列の透過を制御して、
検索用音声とテキストの中の音声との各時刻の各周波数
でのスベクトロダラムの比較を行う部分であって、本発
明の中で重要な役目をする。第7図の例では、光学マス
ク170は電極板720を付着した偏光板740とアモ
ルファス薄膜トランジスタ(TFT)のアクティブマト
リクス730を付着した検光板750との間にライステ
ィド・ネマチック(TN)とかスーパ・ライスティド・
ネマチック(STN)とかの液晶710を挿入したもの
である。アクティブマトリクス730は600X600
程度の液晶セルに電圧を選択的に印加する。液晶セルの
光パルスの透過度は印加電圧を変えることで変化し、概
して高電圧のときに透過度が下り、低電圧のときに上が
る。この電圧はマスクメモリ160から与えられる。
第8図は光学マスクのアクティブマトリクス駆動回路の
説明図である。重み係数のデータによって電圧が変わる
ソース線810と液晶セル840の位置を電圧によって
順次選択するゲート線820との交点部にアモルファス
薄膜トランジスタ830がある。ソース線810とゲー
ト線820の電圧が共に高いときにアモルファス薄膜ト
ランジスタ830はオンになり、ドレイン電圧が高くな
って、それと電極850との間に接続される液晶セル8
40が透明から不透明に切り替わる。トレイン電圧が決
まった後では、ゲート線820の電圧が下ってもドレイ
ン電圧がしばらくそのままに保たれる。したがって、個
々の液晶セル840に個別に駆動電圧を印加しなくても
光学マスクに登録した重み係数のマスクパターンは消滅
しない。ただし、アモルファス薄膜トランジスタ830
でのオフ電流が少しずつトレイン電圧を低下させるので
、数10ヘルツ程度でのリフレッシュがマスクパターン
の保持には必要であり、このためにマスクメモリ160
が使用される。
〔発明の効果〕
以上詳細に説明したように、本発明の音声テキスト検索
装置によれば、従来の音声認識機械での入力音声の時間
、高低及び強弱の揺れに強くない音声認識方式の問題点
を解決するために、(A)スペクトルアナライザで得た
音声の周波数別のアナログ信号波形を各時刻で周波数順
に走査して光パルス列に変換し、すべての登録音声のす
べての周波数のアナログ信号波形とすべての時刻の成分
とを比較できるように、光パルスを光学マスク全面に照
射するようにし、(B)光学マスクを通過した光パルス
を各時刻でCCDデバイス上で集計(シストリックアレ
イによるベクトルの内積演算を実行)した。(C)その
結果をマツチングCCDデバイス上でダイナミックプロ
グラミング法で処理することにより入力音声と各登録音
声との類似度を求め、最大値検出型エンコーダでクラス
判別をするようにしな。
上述のように音声認識を3段階に分けたことで、<a)
音声の始まりを認識しないで、いつからでも音声の照合
を行えること、(b)音声の高さ、及び低さに影響され
ず、各時刻での周波数スベクトロダラムのマツチング結
果を出力できること、(c)音声の発生速度の揺れに左
右されずに、音素列のマツチング処理を行えること、(
d)音声の強さに左右されずに音素列のマツチング結果
を比較できること等が可能になる。このような音声の3
つの揺れに対して柔軟性を持たせたことの効果は検索漏
れを少なくできるとことと、それを無くするために必要
な検索用単語音声の登録数を減らせることにある。例え
ば、音声テキストでの単語音声の高さが5種類に及び、
強さも5種類に及ぶと、登録する単語音声数が25にな
るが、それを1つの検索用単語音声でカバーできるとす
れば、重み係数を保持する光学マスクが1725で済む
ことになる。また、音声テキストの検索を音声テキスト
すべてを認識してから行うのではなく、直接、音声テキ
ストから検索用単語音声を見つけ出すように構成を工夫
したので、これによって、検索用単語音声が数10個に
なっても、−度の音声テキストのサーチで検索結果が求
まる。これは検索時間が1710に減少することに相当
する。また、全部の音声テキストを音声認識でコード化
する必要が無く、直接に単語音節で検索できるので、ラ
ジオやテレビから得た音声テキストのデータベース化の
工数が大幅に低減されるという効果がある。更に、本発
明の新しい音声認識方式を液晶光学マスクとCCDデバ
イスで実現する方法を提示した。これらは容易に一体化
されるので十分小型化の実現も可能であって携帯に適し
た大きさになり、例えば国際会議の会場に携帯し会議場
で口頭で発表される論文をマイクロホンでモニターし、
その場で口頭の音声テキストの内容検索を行うことが可
能になる等の効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例の基本構成を示す説明図、第
2図は音声パターンの説明図、第3図は音声スペクトロ
ダラムの説明図、第4図は光パルスによるCCDでの電
荷発生量とパルス幅との関係の説明図、第5図はイメー
ジセンサ部での内積演算処理の説明図、第6図はミニマ
スク電荷転送部でのダイナミックプログラミング・マツ
チング動作の説明図、第7図は光学マスクの一実施例の
説明図、及び第8図は光学マスクのアクティブマトリク
ス駆動回路の説明図である。 102・・・マイクロボン、104・・・A/D変換器
、110・・・音声入力手段、120・・・音声メモリ
、125・・・アドレス発生器、130・・・スペクト
ルアナライザ、135.140・・・スイッチ、142
・・・周波数走査用カウンタ、144・・・タロツク発
生器、150・・・光パルス発生制御回路、152・・
・発光タイオード、154・・・光学レンズ、160・
・・マスクメモリ、165・・・マスクパターン発生器
、170・・・光学マスク、180・・・マツチングC
CDデバイス、182  ・・イメージセンサ部、18
4ミニマスク電荷転送部、186  ・・最大値検出型
エンコーダ、188・・・電荷転送制御回路、190・
・・マツチ信号メモリ、201・・・時間軸、202 
・・周波数軸、203  ・音声スペクトログラム、2
04・・・垂線、430・・−点鎖線、440・・・実
線、450・・・破線、500  ・・CCDセルアレ
イ、510・・・フォトダイオードセル、515.51
6・・・転送ゲートライン、520・・・CCDセル、
525.535・・・電荷転送りロック線、530.6
10・・CCDレジスタ、620・・・ミニマムセレク
タ、630・・・マキシマムセレクタ、640・・・最
大値検出回路、650・・・エンコーダ、710 ・・
液晶、720・・・電極板、730・・・アクティブマ
トリクス、740・・・偏光板、750・・・検光板、
810・・・ソース線、820・・・ゲート 線、83
0・・・アモルファス薄膜トランジスタ、84(I・・
・液晶セル、850・・・電極。

Claims (3)

    【特許請求の範囲】
  1. (1)音声テキスト及び検索用単語音声を周波数別のア
    ナログ信号波形に変換するスペクトル分析手段と、変換
    された前記アナログ信号波形の各時刻でのアナログ信号
    振幅を周波数順に光パルス信号に変換する光パルス発生
    手段と、前記検索用単語音声を重み係数の光マスクパタ
    ーンに変換して保持すると共に前記光パルス信号を受け
    る光学マスク手段と、前記光学マスク手段を通過した前
    記光パルス信号を検出し、前記アナログ信号波形のマッ
    チング処理をし、マッチした単語音声のクラス判別を行
    うマッチングCCDデバイスとを備えたことを特徴とす
    る音声テキスト検索装置。
  2. (2)特許請求の範囲第(1)項に記載の音声テキスト
    検索装置において、前記マッチングCCDデバイスが前
    記光学マスク手段を通過した前記光パルス信号を検出し
    、周波数毎の検出信号を積算して転送するイメージセン
    サ手段と、前記イメージセンサ手段に結合して各時刻に
    おける前記イメージセンサ手段の各段の出力とそれ以前
    の出力との中から最大値を選び、前記最大値と前段から
    の転送信号とを比較して最小振幅の方を選択し、次段へ
    の転送信号とするミニマクス電荷転送手段と、複数の前
    記ミニマクス電荷転送手段の出力の中の最大値を検出し
    、その位置をエンコードする最大検出エンコード手段と
    を備えたことを特徴とする音声テキスト検索装置。
  3. (3)特許請求の範囲第(1)項に記載の音声テキスト
    検索装置において、前記音声テキストをディジタル信号
    波形に変換して記憶する音声テキスト記憶手段と、前記
    検索用単語音声と、前記音声テキスト記憶手段のレコー
    ドアドレスと前記マッチングCCDデバイスの出力する
    クラスコードとでアクセス番地の決まるマッチビット記
    憶手段とを備えたことを特徴とする音声テキスト検索装
    置。
JP63291586A 1988-11-18 1988-11-18 音声テキスト検索装置 Pending JPH02136900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63291586A JPH02136900A (ja) 1988-11-18 1988-11-18 音声テキスト検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63291586A JPH02136900A (ja) 1988-11-18 1988-11-18 音声テキスト検索装置

Publications (1)

Publication Number Publication Date
JPH02136900A true JPH02136900A (ja) 1990-05-25

Family

ID=17770855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63291586A Pending JPH02136900A (ja) 1988-11-18 1988-11-18 音声テキスト検索装置

Country Status (1)

Country Link
JP (1) JPH02136900A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502996A (ja) * 2000-04-07 2004-01-29 ワシントン・ユニバーシティ 連想データベース走査と情報検索
CN100389455C (zh) * 2004-07-30 2008-05-21 华为技术有限公司 声音类型检测装置及方法
US9176775B2 (en) 2003-05-23 2015-11-03 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US9323794B2 (en) 2006-11-13 2016-04-26 Ip Reservoir, Llc Method and system for high performance pattern indexing
US9547824B2 (en) 2008-05-15 2017-01-17 Ip Reservoir, Llc Method and apparatus for accelerated data quality checking
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US10146845B2 (en) 2012-10-23 2018-12-04 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
US10846624B2 (en) 2016-12-22 2020-11-24 Ip Reservoir, Llc Method and apparatus for hardware-accelerated machine learning
US10902013B2 (en) 2014-04-23 2021-01-26 Ip Reservoir, Llc Method and apparatus for accelerated record layout detection
US10909623B2 (en) 2002-05-21 2021-02-02 Ip Reservoir, Llc Method and apparatus for processing financial information at hardware speeds using FPGA devices
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020928B2 (en) 2000-04-07 2015-04-28 Ip Reservoir, Llc Method and apparatus for processing streaming data using programmable logic
JP2004502996A (ja) * 2000-04-07 2004-01-29 ワシントン・ユニバーシティ 連想データベース走査と情報検索
US10909623B2 (en) 2002-05-21 2021-02-02 Ip Reservoir, Llc Method and apparatus for processing financial information at hardware speeds using FPGA devices
US10346181B2 (en) 2003-05-23 2019-07-09 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US9176775B2 (en) 2003-05-23 2015-11-03 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US11275594B2 (en) 2003-05-23 2022-03-15 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10929152B2 (en) 2003-05-23 2021-02-23 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US9898312B2 (en) 2003-05-23 2018-02-20 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10719334B2 (en) 2003-05-23 2020-07-21 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
CN100389455C (zh) * 2004-07-30 2008-05-21 华为技术有限公司 声音类型检测装置及方法
US9323794B2 (en) 2006-11-13 2016-04-26 Ip Reservoir, Llc Method and system for high performance pattern indexing
US10411734B2 (en) 2008-05-15 2019-09-10 Ip Reservoir, Llc Method and system for accelerated stream processing
US10158377B2 (en) 2008-05-15 2018-12-18 Ip Reservoir, Llc Method and system for accelerated stream processing
US11677417B2 (en) 2008-05-15 2023-06-13 Ip Reservoir, Llc Method and system for accelerated stream processing
US9547824B2 (en) 2008-05-15 2017-01-17 Ip Reservoir, Llc Method and apparatus for accelerated data quality checking
US10965317B2 (en) 2008-05-15 2021-03-30 Ip Reservoir, Llc Method and system for accelerated stream processing
US10102260B2 (en) 2012-10-23 2018-10-16 Ip Reservoir, Llc Method and apparatus for accelerated data translation using record layout detection
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
US10949442B2 (en) 2012-10-23 2021-03-16 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US10621192B2 (en) 2012-10-23 2020-04-14 IP Resevoir, LLC Method and apparatus for accelerated format translation of data in a delimited data format
US10133802B2 (en) 2012-10-23 2018-11-20 Ip Reservoir, Llc Method and apparatus for accelerated record layout detection
US10146845B2 (en) 2012-10-23 2018-12-04 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US11789965B2 (en) 2012-10-23 2023-10-17 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US10902013B2 (en) 2014-04-23 2021-01-26 Ip Reservoir, Llc Method and apparatus for accelerated record layout detection
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US11526531B2 (en) 2015-10-29 2022-12-13 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US10846624B2 (en) 2016-12-22 2020-11-24 Ip Reservoir, Llc Method and apparatus for hardware-accelerated machine learning
US11416778B2 (en) 2016-12-22 2022-08-16 Ip Reservoir, Llc Method and apparatus for hardware-accelerated machine learning

Similar Documents

Publication Publication Date Title
Défossez et al. Sing: Symbol-to-instrument neural generator
Gold et al. Speech and audio signal processing: processing and perception of speech and music
JPH02136900A (ja) 音声テキスト検索装置
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
CN1315809A (zh) 用于移动通信的拼写语音识别装置和方法
CN110264987A (zh) 基于深度学习的和弦进行生成方法
JPH0756594A (ja) 不特定話者音声認識装置およびその方法
Cernak et al. Cognitive speech coding: examining the impact of cognitive speech processing on speech compression
US4466801A (en) Electronic learning aid with means for repeating an element of nonspoken sound
US11295725B2 (en) Self-training WaveNet for text-to-speech
EP4177882A1 (en) Methods and systems for synthesising speech from text
Cooper et al. Text-to-speech synthesis techniques for MIDI-to-audio synthesis
RU61924U1 (ru) Статистическая модель речи
Šimko et al. Analysis of speech prosody using WaveNet embeddings: The Lombard effect
Chao et al. A Hierarchical Context-aware Modeling Approach for Multi-aspect and Multi-granular Pronunciation Assessment
Kiefte et al. Theories and models of speech perception
Jongman et al. On invariance: Acoustic input meets listener expectations
Amano et al. Predicting and classifying Japanese singleton and geminate consonants using logarithmic duration
EP0095069B1 (en) Electronic learning aid with sound effects mode
Patterson et al. Auditory preprocessing and recognition of speech
Amjad et al. Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition
Mack et al. The intelligiblity of nonvocoded and vocoded semantically anomalous sentences
Vadapalli An investigation of speaker independent phrase break models in End-to-End TTS systems
Sun Using End-to-end Multitask Model for Simultaneous Language Identification and Phoneme Recognition
Falk Expressive Automatic Music Transcription: Using hard onset detection to transcribe legato slurs for violin