JPH09288494A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JPH09288494A
JPH09288494A JP8100944A JP10094496A JPH09288494A JP H09288494 A JPH09288494 A JP H09288494A JP 8100944 A JP8100944 A JP 8100944A JP 10094496 A JP10094496 A JP 10094496A JP H09288494 A JPH09288494 A JP H09288494A
Authority
JP
Japan
Prior art keywords
word
recognition
display
voice
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8100944A
Other languages
English (en)
Inventor
Hiroshi Tsunoda
弘史 角田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP8100944A priority Critical patent/JPH09288494A/ja
Publication of JPH09288494A publication Critical patent/JPH09288494A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 音声認識の精度および処理速度を向上させ
る。 【解決手段】 音声認識データROM15には、音声認
識の対象とする認識対象語が記憶されている。また、文
章データROM14には、LCD17に表示させる文章
を構成する単語が、対応する認識対象語と関係付けられ
て記憶されている。そして、ある文章が、LCD17に
表示されている状態において、マイク1に音声が入力さ
れると、音声認識回路5では、その音声が、音声認識デ
ータROM15に記憶されている認識対象語のうち、L
CD17に表示されている文章を構成する単語と関係付
けられているもののみを対象として音声認識される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。特に、音声の認識精度および
認識処理速度を向上させることができるようにする音声
認識装置および音声認識方法に関する。
【0002】
【従来の技術】従来の、例えば電子辞書装置などにおい
ては、英単語を、キーボードを操作することにより入力
すると、その英単語の発音記号や、意味(語義)を解説
する情報、その英単語を用いた例文など(以下、適宜、
このような情報を解説情報という)が、その内蔵する電
子辞書から検索されて表示されるようになされている。
【0003】さらに、このようにして検索された解説情
報の中の英単語(例えば、例文に用いられている英単
語)の解説情報を得たいときには、その英単語を、やは
りキーボードを操作して入力したり、あるいは、表示さ
れている解説情報の中の所望する英単語を、カーソルキ
ーを操作して指定することによって、その英単語の解説
情報が検索されて表示されるようになされている。
【0004】
【発明が解決しようとする課題】しかしながら、英単語
を入力するのに、キーボードやカーソルキーを操作する
のは面倒である。
【0005】そこで、電子辞書装置が内蔵する電子辞書
に登録されている英単語すべてを音声認識の対象(認識
対象語)とし、これにより、英単語を、音声により入力
することができるようにする方法がある。
【0006】しかしながら、ある程度実用的な電子辞書
には、例えば数万語程度の英単語が登録されており、こ
のような莫大な数の英単語を対象として、入力された音
声の音声認識を行うのでは、認識精度が劣化し、また、
認識処理速度も低下することになる。
【0007】さらに、例えば、解説情報の中の例文で用
いられている英単語は格変化している場合があるが、電
子辞書には、そのように格変化した英単語の見出しまで
は登録されていないことが多く、従って、格変化した英
単語を音声認識するのは困難である。また、認識精度お
よび認識処理速度の向上の観点から、例えばbe動詞
や、前置詞などの、検索頻度が低いと予想される英単語
は、認識対象語としない方が好ましい場合がある。
【0008】本発明は、このような状況に鑑みてなされ
たものであり、音声の認識精度および認識処理速度を向
上させることができるようにするものである。
【0009】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、情報を表示する表示手段に表示させる語句で
ある表示語を、対応する認識対象語と関係付けて記憶し
ている表示語記憶手段を備え、認識対象語記憶手段に記
憶されている認識対象語を対象として音声認識する音声
認識手段が、音声を、認識対象語記憶手段に記憶されて
いる認識対象語のうち、表示手段に表示されている表示
語と関係付けられているもののみを対象として音声認識
することを特徴とする。
【0010】請求項4に記載の音声認識方法は、表示手
段に、表示語を表示させ、音声認識手段に、音声を、認
識対象語記憶手段に記憶されている認識対象語のうち、
表示手段に表示されている表示語と関係付けられている
もののみを対象として音声認識させることを特徴とす
る。
【0011】請求項1に記載の音声認識装置において
は、表示語記憶手段は、情報を表示する表示手段に表示
させる語句である表示語を、対応する認識対象語と関係
付けて記憶しており、音声認識手段は、音声を、認識対
象語記憶手段に記憶されている認識対象語のうち、表示
手段に表示されている表示語と関係付けられているもの
のみを対象として音声認識するようになされている。
【0012】請求項4に記載の音声認識方法において
は、表示手段に、表示語を表示させ、音声を、認識対象
語記憶手段に記憶されている認識対象語のうち、表示手
段に表示されている表示語と関係付けられているものの
みを対象として音声認識するようになされている。
【0013】
【発明の実施の形態】図1は、本発明を適用した電子辞
書装置の一実施例の構成を示している。なお、この電子
辞書装置は、例えば、持ち運びに便利なように携帯型と
されており、また、音声により英単語の検索を行うこと
ができるようになされている。
【0014】マイク1(入力手段)は、そこに入力され
る音声を、電気信号である音声信号にして、A/D変換
器2に出力するようになされている。A/D変換器2
は、マイク1からのアナログの音声信号を、所定のサン
プリングクロックにしたがってサンプリングし、さらに
量子化することで、ディジタルの音声信号とするように
なされている。A/D変換器2でディジタル信号とされ
た音声信号は、音声認識回路5に供給されるようになさ
れている。
【0015】RAM(Random Access Memory)3は、A
/D変換器2から音声認識回路5を介して供給される音
声信号や、音声認識回路5の動作上必要なデータなどを
一時記憶するようになされている。ROM(Read Only
Memory)4は、例えば、音声認識回路5に音声認識を行
わせるためのアプリケーションプログラムを記憶してい
る。音声認識回路5(音声認識手段)は、A/D変換器
2から供給される音声信号に対し、ROM4に記憶され
ているアプリケーションプログラムにしたがった処理を
施すことで、マイク1に入力された音声を、後述する音
声認識データROM15に記憶されている認識対象語を
対象として音声認識し、その音声認識結果を、CPU1
0に供給するようになされている。
【0016】即ち、音声認識回路5は、後述するCPU
10から供給される信号にしたがって、音声認識データ
ROM15に記憶されている認識対象語の幾つかを読み
出し、その認識対象語により構成される辞書(以下、適
宜、認識用辞書という)を作成する。そして、音声認識
回路5は、A/D変換器2から音声信号を受信すると、
それを、RAM3に供給して記憶させ、その後、RAM
3に、例えば1単語分の音声信号が記憶されると、その
音声信号の、例えば音程(周波数)や、強弱(振幅)、
速度(発話速度)などを音響分析し、その分析結果に基
づいて、認識用辞書に記憶されている認識対象語それぞ
れの、マイク1に入力された音声(単語)に対する尤度
を算出する。この尤度は、対応する認識対象語それぞれ
とともに、音声認識回路5からCPU10に供給され
る。
【0017】操作部6は、例えば、単語指定キー6A、
次候補キー6B、決定キー6C、およびスクロールキー
6Dなどで構成され、装置に対し、所定の指示を与える
ときに操作される。即ち、単語指定キー6Aは、後述す
るLCD17に、認識対象語となっている単語と、なっ
ていない単語とを区別して表示させるときに操作され
る。次候補キー6Bは、音声認識回路5による音声認識
結果の次の候補を要求するときに操作される。即ち、L
CD17には、音声認識回路5による音声認識結果とし
て、まず、尤度の最も高い単語が表示されるようになさ
れているが、その音声認識結果が誤っている場合があ
る。このような場合に、次候補キー6Bが操作される
と、LCD17には、次に尤度が高い単語が表示される
ようになされている。決定キー6Cは、LCD17に表
示された音声認識結果が正しい場合に、その音声認識結
果を確定するときに操作される。スクロールキー6D
は、LCD17の表示をスクロールさせるときに操作さ
れる。
【0018】キー入力回路9は、単語指定キー6A、次
候補キー6B、決定キー6C、またはスクロールキー6
Dのうちのいずれかが操作されると、その操作に対応す
る操作信号を、CPU10に出力するようになされてい
る。CPU(Central Processor Unit)10(検索手
段)は、キー入力回路9からの操作信号にしたがって、
音声認識回路5や文字表示回路13などを制御するよう
になされている。さらに、CPU10は、後述する文章
データROM14または単語辞書データROM16にそ
れぞれ記憶されている文章または単語(辞書単語)の解
説情報を検索するようにもなされている。
【0019】ROM11は、システムプログラムや、所
定の処理を行うためのアプリケーションプログラムを記
憶しており、CPU11は、このROM11に記憶され
ているプログラムを実行することで、各種の処理を行う
ようになされている。RAM12は、CPU10の動作
上必要なデータを記憶するようになされている。
【0020】文字表示回路13は、CPU10から、例
えば、単語や解説情報などの情報を受信すると、その情
報を構成する文字のビットパターンを生成し、LCD1
7に供給して表示させるようになされている。その他、
文字表示回路13は、CPU10の制御にしたがって、
LCD17の表示制御を行うようになされている。
【0021】文章データROM14(表示語記憶手
段)、音声認識データROM15(認識対象語記憶手
段)、または単語辞書データROM16(解説情報記憶
手段)は、後述する文章データ、音声認識データ、また
は単語辞書データを、それぞれ記憶している。
【0022】LCD(液晶ディスプレイ)17(表示手
段)は、文字表示回路13の制御にしたがって、情報を
表示するようになされている。
【0023】次に、図2を参照して、文章データROM
14、音声認識データROM15、または単語辞書デー
タROM16それぞれに記憶されている文章データ、音
声認識データ、または単語辞書データについて説明す
る。
【0024】まず、図2(A)は、文章データROM1
4に記憶されている文章データを示している。文章デー
タは、LCD17に表示させる種々の文章(本実施例で
は、英文とする)に対して付されたユニークな文章番号
(従って、文章番号と文章とは1対1に対応してい
る)、各文章を構成する英単語(文章は、この単語の並
びが表示されることによって表示されるので、この文章
を構成する単語を、以下、適宜、表示語という)、およ
び各表示語に対して付された音声認識単語番号から構成
されている。
【0025】図2(A)の実施例では、表示語「Seein
g」、「is」、および「believing」で構成される文章
「Seeing is believing.」に対し、文章番号100が付
されており、各表示語「Seeing」、「is」、または「be
lieving」には、音声認識単語番号203,0、または
222がそれぞれ付されている。また、表示語「Yo
u」、「shall」、および「see」で構成される文章「You
shall see.」に対し、文章番号101が付されてお
り、各表示語「You」、「shall」、または「see」に
は、音声認識単語番号0,230、または200がそれ
ぞれ付されている。
【0026】図2(B)は、音声認識データROM15
に記憶されている音声認識データを示している。音声認
識データは、各認識対象語に対して付されたユニークな
音声認識単語番号(従って、音声認識単語番号と認識対
象語とは1対1に対応している)、認識対象語としての
単語(ここでは、英単語とする)、および各認識対象語
に対して付された辞書単語番号から構成されている。
【0027】図2(B)の実施例では、英単語の原形
「シー(see)」や「ビリーブ(believe)」などの他、
それらが格変化した英単語「ソウ(saw)」、「シーン
(seen)」、「シーイング(seeing)」、「ビリーブド
(believed)」、「ビリービング(believing)」など
も、認識対象語として、音声認識データROM15に記
憶されている。
【0028】ここで、本実施例では、図2(A)の表示
語に付されている音声認識単語番号は、その表示語に対
応する認識対象語のものとなっている。即ち、文章デー
タROM14には、表示語が、対応する認識対象語と関
係付けられて記憶されている。具体的には、例えば、表
示語「Seeing」には、音声認識単語番号203が対応付
けられており、従って、音声認識単語番号203が付さ
れた認識対象語「シーイング(seeing)」と関係付けら
れている。また、例えば、表示語「believing」には、
音声認識単語番号222が対応付けられており、従っ
て、音声認識単語番号222が付された認識対象語「ビ
リービング(believing)」と関係付けられている。さ
らに、例えば、表示語「see」には、音声認識単語番号
200が対応付けられており、従って、音声認識単語番
号200が付された認識対象語「シー(see)」と関係
付けられている。以上のように、表示語から認識対象語
に対しては、リンクがはられている。
【0029】なお、本実施例では、音声認識単語番号と
して、例えば0以上の整数が用いられるようになされて
いる。但し、認識対象語に付される音声認識単語番号
は、例えば、0を除いたもの、即ち、正の整数が用いら
れるようになされている。従って、表示語に、音声認識
単語番号として0が付されている場合、その表示語と関
係付けられている認識対象語は存在せず、その結果、そ
の表示語は、音声認識の対象とはされない。図2(A)
の実施例では、上述したように表示語「is」および「Yo
u」に対して、音声認識単語番号0が付されており、従
って、この「is」および「You」は音声認識されないよ
うになされている。
【0030】図2(C)は、単語辞書データROM16
に記憶されている単語辞書データを示している。単語辞
書データは、例えば、通常の英和辞書などに掲載されて
いる英単語(以下、適宜、辞書単語という)それぞれに
対して付されたユニークな辞書単語番号(従って、辞書
単語番号と辞書単語とは1対1に対応している)、辞書
単語、および各辞書単語の解説情報から構成されてい
る。
【0031】また、各辞書単語の解説情報は、この実施
例では、例えば、その辞書単語の発音記号や、品詞、変
化形、意味などでなる辞書内容と、その辞書単語の例文
(用例)としての文章に付された文章番号とで構成され
ている。
【0032】ここで、本実施例では、図2(B)の認識
対象語に付されている辞書単語番号は、その認識対象語
に対応する辞書単語のものとなっている。即ち、音声認
識データROM15には、認識対象語が、対応する辞書
単語と関係付けられて記憶されている(従って、その辞
書単語の解説情報とも関係付けられて記憶されてい
る)。このことは、認識対象語から辞書単語に対して、
リンクがはられているということができる。
【0033】図2の実施例では、辞書単語としての単語
の原形「see」には、その原形を音声認識するための認
識対象語「シー(see)」の他、その変化形「ソウ(sa
w)」、「シーン(seen)」、および「シーイング(see
ing)」も関係付けられている。さらに、辞書単語とし
ての単語の原形「bilieve」には、やはり、その原形を
音声認識するための認識対象語「ビリーブ(believ
e)」の他、その変化形「ビリーブド(believed)」お
よび「ビリービング(believing)」も関係付けられて
いる。
【0034】また、本実施例では、図2(C)の辞書単
語の解説情報における文章番号は、その辞書単語に対応
する表示語を用いた文章に付されているものとなってい
る。即ち、単語辞書データROM16には、単語辞書
が、対応する文章と関係付けられて記憶されている。こ
のことは、辞書単語から文章に対して、リンクがはられ
ているということができる。
【0035】以上のように、文章データと音声認識デー
タとの間、音声認識データと単語辞書データとの間、お
よび単語辞書データと文章データとの間にはリンクがは
られている。
【0036】次に、図3のフローチャートおよび図4を
参照して、その動作について説明する。まず最初に、ス
テップS1において、CPU10は、文章データROM
14から、所定の文章番号の文章を構成する表示語およ
びそれに付された音声認識単語番号を読み出し、そのう
ちの表示語を、文字表示回路13を介して、LCD17
に供給して表示させる。即ち、ステップS1では、所定
の文章番号が付された文章が、LCD2に表示される。
【0037】ここで、ステップS1における文章の表示
は、例えば次のようにして行われる。即ち、ユーザが、
所定の英単語を発話すると、その音声は、マイク1およ
びA/D変換器2を介して音声認識回路5に供給され
る。この場合、音声認識回路5は、例えば、音声認識デ
ータROM15に記憶されている認識対象語すべてを対
象に音声認識を行い、その音声認識結果を、CPU10
に出力する。CPU10は、音声認識回路5から音声認
識結果としての英単語を受信すると、単語辞書データR
OM16から、その英単語を検索し、それに付されてい
る文章番号を読み出す。さらに、CPU10は、その文
章番号を、文章データROM14から検索し、その文章
番号が付された文章を構成する表示語を、文章データR
OM14から読み出して、文字表示回路13を介して、
LCD17に供給する。以上のようにして、ステップS
1では、例えば、ユーザが発話した英単語を用いた文章
(例文)などが表示される。
【0038】例えば、単語辞書データROM16から読
み出された文章番号が100などである場合、ステップ
S1では、図4(A)に示すように、文書番号100が
付された文章(図2(A)に示したように、表示語「Se
eing」、「is」、および「believing」で構成される文
章)「Seeing is believing.」が、LCD17に表示さ
れる。
【0039】ステップS1において文章が表示される
と、ステップS2に進み、ユーザにより単語指定キー6
Aが操作されたかどうかが、CPU10によって判定さ
れる。ステップS2において、単語指定キー6Aが操作
されていないと判定された場合、ステップS2に戻る。
また、ステップS2において、単語指定キー6Aが操作
されたと判定された場合、即ち、ユーザにより単語指定
キー6Aが操作され、その操作に対応する操作信号が、
キー入力回路9からCPU10に供給された場合、ステ
ップS3に進み、LCD17において、ステップS1で
表示された文章を構成する表示語のうち、認識対象語と
なっているものと、なっていないものとが区別して表示
される。
【0040】即ち、CPU10は、ステップS1で文章
データROM14から読み出した音声認識単語番号が0
となっていない表示語、即ち、認識対象語となっている
表示語に、例えば下線などを付すように、文字表示回路
13を制御する。これに対応して、文字表示回路13
は、LCD17を制御し、ステップS1で表示された文
章を構成する表示語のうち、音声認識単語番号が0とな
っていないものに、下線を表示させる。
【0041】ここで、例えば、いま、図4(A)に示し
たように、文章「Seeing is believing.」が表示されて
いるとすると、この文章を構成する表示語「Seeing」、
「is」、または「believing」それぞれに付された音声
認識単語番号は、図2(A)に示したように、203,
0、または222となっている。従って、この場合、ス
テップS3では、図4(B)に示すように、この文章を
構成する表示語のうち、音声認識単語番号が0となって
いない表示語「Seeing」および「believing」に下線が
表示される。従って、ステップS3では、LCD17に
表示された表示語のうち、認識対象語と関係付けられて
いるものだけに下線が付される。
【0042】その後、ステップS4に進み、CPU10
は、ステップS1で文章データROM14から読み出し
た音声認識単語番号を、音声認識回路5に供給する。音
声認識回路5は、CPU10から音声認識単語番号を受
信すると、その音声認識単語番号を、音声認識データR
OM15から検索し、その音声認識単語番号が付されて
いる認識対象語によって、認識用辞書を構成する。即
ち、音声認識回路5は、CPU10から受信した音声認
識単語番号を、いわば検索キーとして認識対象語を検索
し、その検索した認識対象語によって認識用辞書を構成
する。
【0043】ここで、音声認識データROM15に記憶
されている認識対象語に付された音声認識単語番号は、
上述したように、正の整数であるから、音声認識回路5
は、CPU10から音声認識単語番号0を受信した場合
には、その0の音声認識単語番号は無視するようになさ
れている。
【0044】従って、ステップS1において、例えば、
図4(A)に示したように、文章「Seeing is believin
g.」が表示された場合、この文章を構成する表示語「Se
eing」、「is」、または「believing」それぞれに付さ
れた音声認識単語番号は、図2(A)に示したように、
203,0、または222となっているから、音声認識
回路5では、このうちの0が無視され、残りの203ま
たは222をそれぞれ音声認識単語番号とする認識対象
語「シーイング(Seeing)」または「ビリービング(be
lieving)」から認識用辞書が構成される。
【0045】なお、ステップS3およびS4について
は、ステップS4の処理を先に行ってから、ステップS
3の処理を行うようにすることもできるし、ステップS
3およびS4の処理を同時に行うようにすることもでき
る。
【0046】以上のように、認識対象語となっている表
示語に下線が付されるとともに、その表示語に対応する
認識対象語から認識用辞書が構成された後、ユーザは、
下線が付された表示語(英単語)の解説情報を得たい場
合には、その英単語を発話する。このユーザが発した音
声は、マイク1を介することで、アナログの音声信号と
され、さらに、A/D変換器2を介することで、ディジ
タルの音声信号とされる。このディジタルの音声信号
は、ステップS5において、音声認識回路5を介して、
RAM3に供給されて記憶される(取り込まれる)。音
声認識回路5は、RAM3において音声信号の記憶が開
始されると、ステップS6に進み、RAM3に1単語分
の音声信号が記憶されたかどうかを判定する。ステップ
S6において、RAM3に1単語分の音声信号が、まだ
記憶されていないと判定された場合、ステップS5に戻
り、これにより、RAM3において、音声信号が記憶し
続けられる。
【0047】また、ステップS6において、RAM3に
1単語分の音声信号が記憶されたと判定された場合、ス
テップS7に進み、音声認識回路5は、RAM3に記憶
された音声信号に基づき、ステップS4で構成した認識
用辞書に登録されている認識対象語のみを対象として、
マイク1に入力された音声を認識する。即ち、音声認識
回路5は、認識用辞書に記憶されている認識対象語それ
ぞれの、マイク1に入力された音声(単語)に対する尤
度を算出し、各認識対象語の音声認識単語番号と対応付
けて、CPU10に供給する。
【0048】従って、音声認識回路5では、ステップS
7において、音声認識データROM15に記憶されてい
る認識対象語のうち、LCD17に表示されている表示
語と関係付けられているもののみを対象として、音声認
識が行われるので、即ち、少ない語数の単語を対象とし
て、音声認識が行われるので、音声認識データROM1
5に記憶されている認識対象語すべてを対象として音声
認識を行う場合に比較して、認識精度および認識処理速
度を向上させることができる。
【0049】さらに、ステップS3では、音声認識回路
5において音声認識の対象とする単語に、下線が付され
ることにより、音声認識の対象としない単語と区別して
表示される。従って、ユーザは、いま、音声認識の対象
となっている単語(あるいは、音声認識の対象となって
いない単語)を、容易に認識することができる。
【0050】CPU10は、音声認識回路5から、認識
用辞書に登録された認識対象単語それぞれの音声認識単
語番号および尤度を受信すると、ステップS8におい
て、音声認識単語番号のうち、最も高い尤度と対応付け
られているものを選択する。さらに、CPU10は、そ
の選択された音声認識単語番号(以下、適宜、選択音声
認識単語番号という)に対応する認識対象語に関係付け
られている表示語であって、LCD17に表示されてい
るものを、それが音声認識結果の第1候補とわかるよう
に、例えば反転表示させるように、文字表示回路13を
制御する。
【0051】これにより、例えば、いま、図4(B)で
説明したように、表示語「Seeing」および「believin
g」が認識対象語となっている場合において、例えば「S
eeing」、「believing」の順で、尤度が高かったときに
は、ステップS8では、図4(C)に示すように、最も
尤度の高い「Seeing」が反転表示される。
【0052】その後、ステップS9に進み、決定キー6
Cが操作されたか否かが、CPU10によって判定され
る。ステップS9において、決定キー6Cが操作されて
いないと判定された場合、ステップS10に進み、次候
補キー6Bが操作されたか否かが、CPU10によって
判定される。ステップS10において、次候補キー6B
が操作されていないと判定された場合、ステップS9に
戻り、ステップ9で決定キー6Cが操作されたと判定さ
れるか、またはステップS10で次候補キー6Bが操作
されたと判定されるまで、ステップS9およびS10の
処理を繰り返す。
【0053】また、ステップS10において、次候補キ
ー6Bが操作されたと判定された場合、即ち、LCD1
7に反転表示された表示語が、ユーザが発話した単語で
はなく、次に尤度の高いものを反転表示させるために、
ユーザが、次候補キー6Bを操作した場合、ステップS
11に進み、CPU10は、次に高い尤度と対応付けら
れている音声認識単語番号を、新たに選択し、その新た
に選択された音声認識単語番号(選択音声認識単語番
号)に対応する認識対象語に関係付けられている表示語
であって、LCD17に表示されているものを反転表示
するように、文字表示回路13を制御する。これによ
り、いま反転表示されている表示語に代えて、次に尤度
の高い表示語が反転表示される。
【0054】即ち、例えば、いま、図4(C)で説明し
たように、表示語「Seeing」または「believing」のう
ちの、最も尤度の高い「Seeing」が反転表示されている
場合において、次候補キー6Bが操作されたときには、
図4(D)に示すように、「Seeing」に代えて、その次
に尤度の高い「believing」が反転表示される。
【0055】その後、ステップS9に戻り、再度、ステ
ップS9以下の処理を繰り返す。そして、ステップS9
において、決定キー6Cが操作されたと判定された場
合、即ち、LCD17に反転表示された表示語が、ユー
ザが発話した単語であり、それを最終的な音声認識結果
として確定させるために、ユーザが、決定キー6Cを操
作した場合、ステップS12に進み、CPU10は、そ
の表示語の解説情報を、単語辞書データROM16から
検索する。
【0056】即ち、CPU10は、決定キー6Cが操作
されたときに選択音声認識単語番号とされていた音声認
識単語番号と対応付けられている辞書単語番号(図2
(B))を、音声認識回路5を介して、音声認識データ
ROM15を参照することで認識する。さらに、CPU
10は、その認識した辞書単語番号を、単語辞書データ
ROM16から検索する。
【0057】そして、CPU10は、ステップS13に
進み、検索した単語辞書番号と対応付けられている解説
情報を表示するように、文字表示回路13を制御し、処
理を終了する。以上のように、単語辞書番号を検索キー
として検索が行われ、これにより、LCD17には、確
定された音声認識結果と関係付けられている辞書単語に
対応する解説情報が表示される。
【0058】即ち、例えば、図4(C)に示したよう
に、表示語「Seeing」が反転表示されている場合におい
て、決定キー6Cが操作されたときには、その表示語
「Seeing」と関係付けられている認識対象語「シーイン
グ(Seeing)」に対応付けられている辞書単語番号30
0の辞書単語「see」(図2(C))の解説情報が検索
されて表示される。また、例えば、図4(D)に示した
ように、表示語「believing」が反転表示されている場
合において、決定キー6Cが操作されたときには、その
表示語「believing」と関係付けられている認識対象語
「ビリービング(believing)」に対応付けられている
辞書単語番号302の辞書単語「believe」(図2
(C))の解説情報が検索されて表示される。
【0059】上述したように、音声認識データROM1
5には、英単語の原形「シー(see)」や「ビリーブ(b
elieve)」の他、その変化形「ソウ(saw)」、「シー
ン(seen)」、および「シーイング(seeing)」や、
「ビリーブド(believed)」および「ビリービング(be
lieving)」なども、認識対象語として登録されている
から、原形の他、変化形も音声認識することができる。
【0060】さらに、原形「シー(see)」、並びにそ
の変化形「ソウ(saw)」、「シーン(seen)」、およ
び「シーイング(seeing)」は、いずれも、その原形で
ある辞書単語「see」と関係付けられている。同様に、
「ビリーブ(believe)」、「ビリーブド(believe
d)」、および「ビリービング(believing)」も、原形
の辞書単語「believe」と関係付けられている。従っ
て、原形についてだけの解説情報が登録された単語辞書
データから、原形または変化形のうちのいずれの発話が
なされても、原形の解説情報を得ることができる。即
ち、原形または変化形それぞれごとに解説情報を用意し
ておく必要がなく、そのように別々に解説情報を用意し
ておく場合に比較して、単語辞書データのデータ量が少
なくなり、いわば効率的な単語辞書データを構成するこ
とが可能となる。
【0061】また、表示語と認識対象語とが関係付けら
れており、認識対象語と辞書単語とも関係付けられてい
るので、同一表記の表示語であって、その発音や意味が
異なるもの(例えば、過去形と過去分子形が同一表記で
あるが、発音が異なるものや、同音異義語など)であっ
ても、各表示語を、認識対象語を介して、正しい辞書単
語と関係付けておくことができ、その結果、音声の認識
結果が正しいにも拘らず、誤った辞書単語が検索される
ことがない。具体的には、例えば、ある文章中Aにおけ
る、かけらや小片を意味する表示語「scrap」を、認識
対象語を介して、かけらや小片を意味する辞書単語「sc
rap」と関係付けておくとともに、他の文章中Bにおけ
る、争いやけんかを意味する表示語「scrap」を、認識
対象語を介して、争いやけんかを意味する辞書単語「sc
rap」と関係付けておくようにすることで、文章Aまた
はBが表示されている場合に、表示語「scrap」の発話
がなされたときには、単語辞書データROM16から
は、正しい意味の辞書単語、即ち、かけらや小片を意味
する辞書単語「scrap」、または争いやけんかを意味す
る辞書単語「scrap」がそれぞれ検索される。
【0062】さらに、文章データROM14に記憶され
ている表示語を、音声認識の対象および解説情報を検索
する対象とするようにすることで、音声認識データRO
M15および単語辞書データROM16には、例えば、
固有名詞に関するデータも含めるようにすることができ
る。即ち、何らの制限もなく、固有名詞を、音声認識の
対象および解説情報を検索する対象とすることは、世の
中に存在する固有名詞の数からいって困難であるが、そ
のような莫大な数の固有名詞のうち、文章データROM
14に表示語として記憶されているものだけであれば、
その数は、それほど多くなく、従って、音声認識の対象
および解説情報を検索する対象とすることができる。
【0063】なお、ステップS13では、解説情報のう
ち、辞書内容(辞書単語の発音記号や、意味など)は、
単語辞書データROM16に記憶されているものがその
まま表示されるが、例文については、単語辞書データR
OM16には、図2(C)に示したように、その例文に
対応する文章番号が登録されているので、その文章番号
に対応する文章(表示語列)が、文章データROM14
から検索されて表示されるようになされている。
【0064】従って、本実施例では、文章が表示されて
いる状態において、その中のある単語の発話がなされる
と、その単語を用いた例文として、文章データROM1
4に記憶されている表示語列としての文章が表示される
ので、再度、その文章を構成する単語の解説情報を検索
することができる。
【0065】次に、図3のステップS4における認識用
辞書を構成する処理について、図5を参照して、さらに
詳述する。
【0066】図5(A)の実施例では、例えば、2つの
文章「Second thoughts are best.」および「Seeing is
believing.」が、文章データROM14から検索さ
れ、LCD17において、その2つの文章の全体が表示
されている。そして、この実施例では、be動詞の「ar
e」および「is」を除く表示語「Second」、「thought
s」、「best」、「Seeing」、および「believing」に下
線が表示されており、従って、この場合、ステップS4
では、これらの5単語から認識用辞書が構成され、音声
認識回路5で行われる音声認識の対象とされる。
【0067】一方、図5(B)の実施例では、例えば、
4つの文章「Second thoughts arebest.」、「Seeing i
s believing.」、「Slow but steady wins the rac
e.」、および「So many countries, so many costom
s.」が、文章データROM14から検索され、LCD1
7において、同図(B)において実線で示すように、そ
のうちの「Seeing is believing.」および「Slow but s
teady wins the race.」が表示されている。但し、文章
「Slow but steady wins the race.」については、「Sl
ow but steady wins the」の部分だけが表示されてお
り、「race.」は表示されていない。
【0068】そして、この実施例では、be動詞の「i
s」および冠詞の「the」を除く表示語「Seeing」、「be
lieving」、「Slow」、「but」、「steady」、および
「wins」に下線が表示されており、従って、この場合、
ステップS4では、これらの6単語から認識用辞書が構
成され、音声認識回路5で行われる音声認識の対象とさ
れる。
【0069】即ち、この場合、LCD17に表示されて
いない表示語「race」、並びに文章「Second thoughts
are best.」および「So many countries, so many cost
oms.」を構成する表示語は、ユーザにより発話されるこ
とはない。従って、このような表示語を、音声認識の対
象とする必要はないため、LCD17に、現実に表示さ
れている表示語のみ(但し、ここでは、be動詞および
冠詞は除かれている)を対象に、認識用辞書が構成され
る。
【0070】そして、ユーザにより、スクロールキー6
Dが操作され、これにより、LCD17において、例え
ば、同図(B)に点線で示すように、文章「Second tho
ughts are best.」および「Seeing is believing.」が
表示されるようになった場合には、これらの文章を構成
する表示語(但し、ここでは、be動詞を除く)「Seco
nd」、「thoughts」「best」、「Seeing」、および「be
lieving」に下線が付され、さらに、これらを対象に認
識用辞書が構成される。
【0071】なお、LCD17に現在表示されている表
示語は、CPU10によって認識されるようになされて
おり、音声認識回路5では、このCPU10による表示
語の認識結果に基づいて、認識用辞書が作成されるよう
になされている。
【0072】但し、認識用辞書は、LCD17に現実に
表示されている表示語だけを対象とするのではなく、文
章データROM14から検索された文章を構成する表示
語を対象として構成するようにすることも可能である。
【0073】以上、本発明を、電子辞書装置に適用した
場合について説明したが、本発明は、その他、情報を表
示する表示手段に表示された単語その他の語句を、音声
で入力するあらゆる装置に適用可能である。
【0074】なお、本実施例では、図3のステップS1
において、単語を検索し、その単語を用いた例文である
文章を表示させるようにしたが、その他、例えば、文章
データROM14には、書籍や新聞などの文章を記憶さ
せておき、装置の電源がオンされた場合には、ステップ
S1において、そのような書籍や新聞などの文章を表示
させるようにすることも可能である。
【0075】また、本実施例では、文章データROM1
4、音声認識データROM15、および単語辞書データ
ROM16を、装置に内蔵させるようにしたが、文章デ
ータROM14、音声認識データROM15、および単
語辞書データROM16は、その他、例えば、装置に着
脱可能なICカードなどに内蔵させるようにすることが
可能である。
【0076】さらに、本実施例では、電子辞書装置に、
いわゆる英和辞書の機能を持たせるようにしたが、電子
辞書装置には、英和辞書の他、例えば、和英辞書や、そ
の他の言語を対象とする辞書の機能を持たせるようにす
ることが可能である。
【0077】また、本実施例では、単語を、音声認識の
対象とするようにしたが、単語の他、例えば熟語など
を、音声認識の対象とするようにすることも可能であ
る。
【0078】さらに、本実施例では、表示語が音声認識
の対象とされているかどうかを、文章データROM15
(図2(A))に記憶されている音声認識単語番号が0
かどうかで判別するようにしたが、表示語が音声認識の
対象とされているかどうかは、その他、例えば、その旨
を表す情報(以下、適宜、判別情報という)を、文章デ
ータROM15に記憶されている各表示語に付加するよ
うにし、この判別情報に基づいて判別するようにするこ
とも可能である。そして、この場合、所定の条件によっ
て、特定の表示語を、音声認識の対象としたり、または
しないようにしたりすることが可能である。即ち、例え
ば、判別情報として、0,1,2のうちのいずれかを、
表示語に付加するとともに、所定のボタンを設けるよう
にし、その所定のボタンが操作されていない状態では、
0の判別情報が付された表示語のみを音声認識の対象と
し、所定のボタンが操作された状態では、0または1の
うちのいずれかの判別情報が付された表示語を音声認識
の対象とするようにすることができる。
【0079】また、本実施例では、文章データROM1
4には、英語の文章(表示語列)を記憶させておくよう
にしたが、文章データROM14には、例えば、英語の
文章に加えて、その日本語訳なども記憶させておくよう
にすることなどが可能である。
【0080】さらに、本実施例では、文章データROM
14に、1つの表示語に対して、1つの音声認識単語番
号を対応付けておくようにしたが、例えば、複数パター
ンの発話がなされることが予想される表示語(以下、適
宜、複数発話表示語という)がある場合には、そのよう
な複数パターンの発話(この発話は、表示語の発音とし
て誤っているものであっても良い)を、認識対象語とし
て音声認識データROM15に記憶させておき、その複
数の認識対象語の音声認識対象番号と、複数発話表示語
とを対応付けておくようにすることが可能である。即
ち、1つの表示語に対して、複数の認識対象語を関係付
けておくようにすることが可能である。具体的には、例
えば表示語が「ISO(International Organization f
or Standardization)」である場合には、これに、認識
対象語として、「イソ(ISO)」、「アイソ(ISO)」、
および「アイエスオウ(ISO)」などを関係付けておく
ようにすることが可能である。この場合、「イソ」、
「アイソ」、および「アイエスオウ」を、「ISO」の解
説情報に関係付けておくことで、これらのうちのいずれ
が発話されても、その発話を、表示語「ISO」に対応
するものとして音声認識し、その解説情報を検索するこ
とが可能となる。
【0081】また、本実施例では、音声認識回路5から
CPU10に対し、音声認識単語番号とともに、それら
に対応する認識対象語それぞれの尤度を供給するように
したが、音声認識回路5からCPU10に対しては、例
えば、音声認識単語番号だけを、それらに対応する認識
対象語それぞれの尤度の高い順に供給するようにするこ
とが可能である。この場合、CPU10には、音声認識
単語番号の並びから、尤度の高い認識対象語を判別させ
るようにすれば良い。
【0082】さらに、本実施例においては、LCD17
に表示された文章中における表示語の中に、同一の音声
認識単語番号(但し、ここでは、0を除く)が対応付け
られているものが複数ある場合については、特に言及し
なかったが、このような場合、CPU10は、例えば、
そのような表示語すべてに下線を表示するように、文字
表示回路13を制御するとともに、その複数の音声認識
単語番号のうちの1つを、認識用辞書の構成のためのも
のとして、音声認識回路5に送信するようになされてい
る。
【0083】また、本実施例では、動詞の原形に対応す
る認識対象語の他、その変化形に対応する認識対象語
も、その原形に対応する辞書単語に関係付けるようにし
たが、その他、例えば、同一の意味を有する名詞に対応
する認識対象語は、すべて、そのような名詞のうちのい
ずれか1つに対応する辞書単語に関係付けるようにする
ことが可能である。
【0084】
【発明の効果】請求項1に記載の音声認識装置および請
求項4に記載の音声認識方法によれば、表示語が表示さ
れている状態において、音声が、所定の認識対象語のう
ち、その表示されている表示語と関係付けられているも
ののみを対象として音声認識される。従って、ユーザが
発話する可能性のある、必要最小限の認識対象語を用い
て、音声認識が行われるので、音声認識精度および音声
認識処理速度を向上させることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した電子辞書装置の一実施例の構
成を示すブロック図である。
【図2】図1の文章データROM14、音声認識データ
ROM15、または単語辞書データROM16にそれぞ
れ記憶されている文章データ、音声認識データ、または
単語書データを説明する図である。
【図3】図1の電子辞書装置の動作を説明するためのフ
ローチャートである。
【図4】LCD17の表示状態を示す図である。
【図5】図3のステップS4の処理を説明するための図
である。
【符号の説明】
1 マイク(入力手段), 5 音声認識回路(音声認
識手段), 10 CPU(検索手段), 14 文章
データROM(表示語記憶手段), 15 音声認識デ
ータROM(認識対象語記憶手段), 16 単語辞書
データROM(解説情報記憶手段), 17 LCD
(表示手段)

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声認識の対象とする語句である認識対
    象語を記憶している認識対象語記憶手段と、 音声を入力する入力手段と、 前記入力手段に入力された音声を、前記認識対象語記憶
    手段に記憶されている前記認識対象語を対象として音声
    認識する音声認識手段とを備える音声認識装置であっ
    て、 情報を表示する表示手段と、 前記表示手段に表示させる語句である表示語を、対応す
    る前記認識対象語と関係付けて記憶している表示語記憶
    手段とをさらに備え、 前記音声認識手段は、前記音声を、前記認識対象語記憶
    手段に記憶されている前記認識対象語のうち、前記表示
    手段に表示されている前記表示語と関係付けられている
    もののみを対象として音声認識することを特徴とする音
    声認識装置。
  2. 【請求項2】 前記表示手段は、前記表示語のうち、前
    記認識対象語と関係付けられているものと、それ以外と
    を、区別して表示することを特徴とする請求項1に記載
    の音声認識装置。
  3. 【請求項3】 語句を解説する解説情報を記憶している
    解説情報記憶手段と、 前記解説情報記憶手段から、前記解説情報を検索する検
    索手段とをさらに備え、 前記認識対象語記憶手段は、前記認識対象語を、対応す
    る前記解説情報と関係付けて記憶しており、 前記検索手段は、前記音声認識手段により音声認識され
    た前記認識対象語と関係付けられている前記解説情報を
    検索し、 前記表示手段は、前記検索手段により検索された前記解
    説情報を表示することを特徴とする請求項1に記載の音
    声認識装置。
  4. 【請求項4】 音声認識の対象とする語句である認識対
    象語を記憶している認識対象語記憶手段と、 音声を入力する入力手段と、 前記入力手段に入力された音声を、前記認識対象語記憶
    手段に記憶されている前記認識対象語を対象として音声
    認識する音声認識手段と、 情報を表示する表示手段と、 前記表示手段に表示させる語句である表示語を、対応す
    る前記認識対象語と関係付けて記憶している表示語記憶
    手段とを備える音声認識装置の音声認識方法であって、 前記表示手段に、前記表示語を表示させ、 前記音声認識手段に、前記音声を、前記認識対象語記憶
    手段に記憶されている前記認識対象語のうち、前記表示
    手段に表示されている前記表示語と関係付けられている
    もののみを対象として音声認識させることを特徴とする
    音声認識方法。
JP8100944A 1996-04-23 1996-04-23 音声認識装置および音声認識方法 Pending JPH09288494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8100944A JPH09288494A (ja) 1996-04-23 1996-04-23 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8100944A JPH09288494A (ja) 1996-04-23 1996-04-23 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JPH09288494A true JPH09288494A (ja) 1997-11-04

Family

ID=14287471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8100944A Pending JPH09288494A (ja) 1996-04-23 1996-04-23 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JPH09288494A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082691A (ja) * 2000-08-08 2002-03-22 Koninkl Philips Electronics Nv 発声内に含まれる会社名の自動認識方法
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
WO2020240647A1 (ja) * 2019-05-27 2020-12-03 三菱電機株式会社 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6362033A (ja) * 1986-09-02 1988-03-18 Nec Corp 関連情報表示装置
JPH0695828A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 音声入力システム
JPH06243167A (ja) * 1993-02-19 1994-09-02 Fuji Xerox Co Ltd ハイパーテキスト文書編集方法及びその装置
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JPH07199989A (ja) * 1993-12-29 1995-08-04 Canon Inc 音声認識装置
JPH096798A (ja) * 1995-06-19 1997-01-10 Sony Corp 情報処理システムおよび情報処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6362033A (ja) * 1986-09-02 1988-03-18 Nec Corp 関連情報表示装置
JPH0695828A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 音声入力システム
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JPH06243167A (ja) * 1993-02-19 1994-09-02 Fuji Xerox Co Ltd ハイパーテキスト文書編集方法及びその装置
JPH07199989A (ja) * 1993-12-29 1995-08-04 Canon Inc 音声認識装置
JPH096798A (ja) * 1995-06-19 1997-01-10 Sony Corp 情報処理システムおよび情報処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082691A (ja) * 2000-08-08 2002-03-22 Koninkl Philips Electronics Nv 発声内に含まれる会社名の自動認識方法
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
WO2020240647A1 (ja) * 2019-05-27 2020-12-03 三菱電機株式会社 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Similar Documents

Publication Publication Date Title
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
KR20050014738A (ko) 표음 입력 모호성 제거 시스템 및 방법
US6393444B1 (en) Phonetic spell checker
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JPH09288494A (ja) 音声認識装置および音声認識方法
JPH08166966A (ja) 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
JPS634206B2 (ja)
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP4492499B2 (ja) 情報表示制御装置および情報表示制御プログラム
JPS58123129A (ja) 仮名漢字変換装置
JPH11338498A (ja) 音声合成装置
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JPH05119793A (ja) 音声認識方法及び装置
JP2003216607A (ja) 電子翻訳装置
JP2010040045A (ja) 情報表示制御装置および情報表示制御プログラム
JP2002189490A (ja) ピンイン音声入力の方法
JPH0991278A (ja) 文書作成装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH0350668A (ja) 文字処理装置
JP3084864B2 (ja) 文章入力装置
JPS61177575A (ja) 日本語文章作成装置
JPH06289890A (ja) 自然言語処理装置
JPH0414168A (ja) 文書作成装置
JP2009098328A (ja) 音声合成装置及び方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031014