JP3916947B2 - 音声認識機能付き表示装置 - Google Patents

音声認識機能付き表示装置 Download PDF

Info

Publication number
JP3916947B2
JP3916947B2 JP2001387701A JP2001387701A JP3916947B2 JP 3916947 B2 JP3916947 B2 JP 3916947B2 JP 2001387701 A JP2001387701 A JP 2001387701A JP 2001387701 A JP2001387701 A JP 2001387701A JP 3916947 B2 JP3916947 B2 JP 3916947B2
Authority
JP
Japan
Prior art keywords
input
character string
file
recognition
hot spot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001387701A
Other languages
English (en)
Other versions
JP2003186496A (ja
Inventor
貴史 續木
良宏 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2001387701A priority Critical patent/JP3916947B2/ja
Publication of JP2003186496A publication Critical patent/JP2003186496A/ja
Application granted granted Critical
Publication of JP3916947B2 publication Critical patent/JP3916947B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ハイパーテキスト表示装置やWWWブラウザ装置等に用いられる音声認識機能付き表示装置に関するものである。
【0002】
【従来の技術】
特開平10−222342号公報には、音声認識の対象語及びそれに結びつく処理を、ハイパーテキスト中で指定することを可能とし、柔軟にハイパーテキスト表示装置を音声制御することが可能なハイパーテキスト音声制御方法及び装置が開示されている。
【0003】
【発明が解決しようとする課題】
表示手段に表示される同一文書内の他の部分や他文書にリンクされる領域をホットスポットと呼ぶ。従来の音声認識機能を有するハイパーテキスト表示装置やWWWブラウザ等では、ハイパーテキストやHTML言語などの記述言語が記述されたファイルが入力されると、この入力されたファイルを解析し、ホットスポットに含まれる文字列の全てを、認識対象語として音声認識を行うようになっている。このため、一つのファイル内に存在するホットスポットが多いと、認識対象語が増加し、音声認識の精度が低下したり、使用するメモリ容量が増大するといった問題があった。
【0004】
また、ホットスポットが表示領域の境界上に存在する場合、ユーザは、ホットスポットに含まれる文字列を全て読むことができないため、音声認識の精度が低下するという問題があった。
【0005】
本発明は、このような従来の問題点に鑑みてなされたものであって、表示手段に表示されたホットスポットに含まれる文字列のみを認識対象語とすることにより、認識対象語を減らし、使用するメモリ容量を減少させ、音声認識の精度を向上できる声認識機能付き表示装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
本願の請求項1の発明は、ハイパーテキスト又はHTML言語を含む記述言語で記載されたファイルを格納するファイル記憶手段と、リンク先が入力されると、入力されたリンク先のファイルを前記ファイル記憶手段から読み出すファイル入力手段と、入力される情報を表示する表示手段と、前記ファイル入力手段からファイルが入力されると、入力ファイルに記載された記述言語を解析し、この解析結果に基づき入力ファイルを前記表示手段に表示すると共に、前記表示手段に表示される同一文書内の他の部分又は他文書にリンクされる領域(以下、ホットスポットという)に含まれる文字列と前記ホットスポットに対応したリンク先とを出力し、さらに前記ホットスポットが前記表示手段の表示領域と非表示領域にまたがって表示される場合に、ホットスポットに含まれる文字列から表示領域に表示される文字列のみを抽出し、抽出された文字列と抽出元のホットスポットに対応したリンク先を出力する記述言語解析手段と、リンク先と前記ホットスポットに含まれる文字列とを対応付けて記憶するリンクテーブルと、前記記述言語解析手段からリンク先と前記ホットスポットに含まれる文字列とが入力されると、入力されたリンク先とホットスポットに含まれる文字列とを前記リンクテーブルに蓄積するリンクテーブル作成手段と、認識対象語を記憶する認識辞書記憶手段と、前記リンクテーブルから前記ホットスポットに含まれる文字列を読み出し、読み出したホットスポットに含まれる文字列を前記認識辞書記憶手段に蓄積する認識辞書作成手段と、ユーザが音声入力すると、前記認識辞書記憶手段に蓄積されている文字列を認識対象語として音声認識を行い、認識結果を出力する音声認識手段と、前記音声認識手段から認識結果が与えられると、前記リンクテーブルを参照し、前記認識結果に対するリンク先を読み出し、読み出したリンク先を出力するリンク先取得手段と、を具備することを特徴とするものである。
【0007】
本願の請求項2の発明は、ハイパーテキスト又はHTML言語を含む記述言語で記載されたファイルを格納するファイル記憶手段と、リンク先が入力されると、入力されたリンク先のファイルを前記ファイル記憶手段から読み出すファイル入力手段と、入力される情報を表示する表示手段と、前記ファイル入力手段からファイルが入力されると、入力ファイルに記述された記述言語を解析し、解析結果と前記入力ファイルを出力するファイル解析手段と、前記ファイル解析手段から解析結果とファイルとが入力されると、前記解析結果に基づき前記ファイルを前記表示手段に表示し、前記表示手段に表示されたホットスポットにおいて、前記ホットスポットに含まれる文字列から前記表示手段に表示された文字列のみを抽出し、抽出された文字列と前記ホットスポットに対応したリンク先を出力するホットスポット表示解析手段と、前記ホットスポット表示解析手段から文字列と前記文字列に対応したリンク先とが入力されると、入力文字列の意味を解析し、前記入力文字列から意味のある文字列のみを抽出し、抽出した文字列と入力されたリンク先とを出力する意味解析手段と、リンク先と前記ホットスポットに含まれる文字列とを対応付けて記憶するリンクテーブルと、前記意味解析手段からリンク先と前記ホットスポットに含まれる文字列とが入力されると、入力されたリンク先とホットスポットに含まれる文字列とを前記リンクテーブルに蓄積するリンクテーブル作成手段と、認識対象語を記憶する認識辞書記憶手段と、前記リンクテーブルから前記ホットスポットに含まれる文字列を読み出し、読み出したホットスポットに含まれる文字列を前記認識辞書記憶手段に蓄積する認識辞書作成手段と、ユーザが音声入力すると、前記認識辞書記憶手段に蓄積されている文字列を認識対象語として音声認識を行い、認識結果を出力する音声認識手段と、前記音声認識手段から認識結果が与えられると、前記リンクテーブルを参照し、前記認識結果に対するリンク先を読み出し、読み出したリンク先を出力するリンク先取得手段と、を具備することを特徴とするものである。
【0008】
本願の請求項3の発明は、請求項1または2の音声認識機能付き表示装置において、前記音声認識手段は、話者によって発話された音声を入力し、音声信号を出力するマイクロホンと、音声認識に用いる各音節の標準モデルを蓄積する音節モデル記憶手段と、前記音節モデル記憶手段を用いて、前記認識辞書記憶手段に記憶されている認識対象語の音声認識用モデルを作成する音声認識用モデル作成手段と、前記音声認識用モデル作成手段から音声認識用モデルが入力され、前記マイクロホンから音声信号が入力されると、入力音声信号を前記音声認識用モデルを用いて音声認識し、認識結果であるテキスト情報を出力する認識手段と、を有することを特徴とするものである。
【0010】
【発明の実施の形態】
(実施の形態1)
本発明の実施の形態1による音声認識機能付き表示装置について、図面を参照しながら説明する。図1は本発明の実施の形態1による音声認識機能付き表示装置の構成図である。この音声認識機能付き表示装置は、ファイル記憶手段101、ファイル入力手段102、表示手段103、記述言語解析手段104A、リンクテーブル105、リンクテーブル作成手段106、認識辞書記憶手段107、認識辞書作成手段108、音節モデル記憶手段109、音声認識用モデル作成手段110、マイクロホン111、認識手段112、リンク先取得手段113を含んで構成される。
【0011】
ファイル記憶手段101は、ハイパーテキストやHTML言語などの記述言語で記述されたファイルを格納するものである。ファイル入力手段102は、リンク先が入力されると、入力されたリンク先のファイルをファイル記憶手段101から読み出し、この読み出したファイルを出力するものである。
【0012】
表示手段103は、CRTディスプレイ、液晶ディスプレイ(LCD)、プラズマディスプレイ(PDP)等で構成され、入力される情報を表示するものである。記述言語解析手段104Aは、ファイル入力手段102を介してファイルが入力されると、入力ファイルに記述された記述言語を解析し、この解析結果に基づき入力ファイルを表示手段103に表示すると共に、表示手段103に表示されるホットスポットに含まれる文字列と、このホットスポットに対応したリンク先とを出力するものである。
【0013】
リンクテーブル105は、リンク先とホットスポットに含まれる文字列とを対応付けて記憶するものである。リンクテーブル作成手段106は、リンク先とホットスポットに含まれる文字列が入力されると、入力されたリンク先とホットスポットに含まれる文字列とをリンクテーブル105に蓄積するものである。
【0014】
認識辞書記憶手段107は、認識対象語の文字列と、単語を構成する音節情報とを対にして記憶するものである。日本語における音節は、所謂50音に、濁音、半濁音、拗音を加えたものである。子音をCとし、母音をVとし、半母音をYとすると、日本語の音節はCV、CYVの形式をとることが多い。いずれにしても日本語の音節情報は、仮名、片仮名、又はローマ字で表現できる。また、発音記号を用いると、全ての言語における単語の音節を表現できる。
【0015】
認識辞書作成手段108は、リンクテーブル105からホットスポットに含まれる文字列を読み出し、この読み出したホットスポットに含まれる文字列を音節情報に変換し、この変換された音節情報と読み出したホットスポットに含まれる文字列とを対にして、認識辞書記憶手段107に蓄積するものである。
【0016】
音節モデル記憶手段109は、音声認識に用いる各音節の標準モデルを蓄積するものである。音声認識用モデル作成手段110は、認識辞書記憶手段107から認識対象語の文字列とこの文字列に対応した音節情報とを全て読み出し、この音節情報に基づいて音節モデル記憶手段109を参照して音声認識用モデルを作成し、この作成された音声認識用モデルと、この音声認識用モデルに対応した認識対象語の文字列とを出力するものである。
【0017】
マイクロホン111は、話者によって発話された音声を入力し、音声信号を出力するものである。認識手段112は、音声認識用モデル作成手段110から音声認識用モデルとこの音声認識用モデルに対応した認識対象語の文字列とが入力され、更にマイクロホン111から音声信号が入力されると、入力された音声信号と入力された音声認識用モデルとの比較照合を行い、最も照合度合いが大きい音声認識用モデルに対応した認識対象語の文字列を認識結果として出力するものである。
【0018】
ここで音節モデル記憶手段109、音声認識用モデル作成手段110、マイクロホン111、認識手段112は、ユーザが音声を入力すると、認識辞書記憶手段107に蓄積されている文字列を認識対象語として音声認識を行い、認識結果を出力する音声認識手段の機能を構成している。
【0019】
リンク先取得手段113は、認識手段112から認識結果が入力されると、リンクテーブル105を参照し、入力された認識結果に対するリンク先を読み出し、この読み出したリンク先をファイル入力手段102に出力するものである。
【0020】
このように構成された本実施の形態による音声認識機能付き表示装置の動作例について説明する。図1において、ファイル記憶手段101は、ハイパーテキストやHTML言語などの記述言語で記述されたファイルを格納している。具体的な一例として、ファイル記憶手段101は、HTML言語で記述されたファイル「osaka.html,event.html,…」を格納しているとする。ここで、ファイル「osaka.html」の記述内容の一例を図2に示す。
【0021】
ファイル入力手段102は、リンク先が入力されると、この入力されたリンク先のファイルをファイル記憶手段101から読み出し、読み出したファイルを記述言語解析手段104Aに出力する。上記の例では、ファイル入力手段102は、リンク先が入力されると、入力されたリンク先のファイルをファイル記憶手段101から読み出す。一例として、ファイル「osaka.html」をファイル記憶手段101から読み出し、このファイル「osaka.html」を記述言語解析手段104Aに出力する。
【0022】
記述言語解析手段104Aは、ファイル入力手段102からファイルが入力されると、入力されたファイルに記述された記述言語を解析し、この解析結果に基づき入力されたファイルを表示手段103に表示する。更に記述言語解析手段104Aは、表示手段103に表示されるホットスポットに含まれる文字列と、このホットスポットに対応したリンク先とを、リンクテーブル作成手段106に出力する。上記の例では、記述言語解析手段104Aは、ファイル入力手段102からファイル「osaka.html」が入力されると、このファイル「osaka.html」に記述されたHTML言語を解析し、この解析結果に基づき入力されたファイルを表示手段103に表示する。このときの表示手段103の表示例を図3に示す。更に、記述言語解析手段104Aは表示手段103に表示されるホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所」と、このホットスポットに対応したリンク先「event.html,tenki.html,kankou.html 」とをリンクテーブル作成手段106に出力する。
【0023】
リンクテーブル作成手段106は、記述言語解析手段104Aからリンク先とホットスポットに含まれる文字列とが入力されると、入力されたリンク先とホットスポットに含まれる文字列とをリンクテーブル105に蓄積する。上記の例では、リンクテーブル作成手段106は、記述言語解析手段104Aからリンク先「event.html,tenki.html,kankou.html 」と、ホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所」が入力されると、入力されたリンク先「event.html,tenki.html,kankou.html 」と、ホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所」とをリンクテーブル105に蓄積する。このときのリンクテーブル105の一例を図4に示す。
【0024】
認識辞書作成手段108は、リンクテーブル105からホットスポットに含まれる文字列を読み出し、読み出したホットスポットに含まれる文字列を音節情報に変換し、変換された音節情報と、読み出したホットスポットに含まれる文字列とを対にして認識辞書記憶手段107に蓄積する。上記の例では、認識辞書作成手段108は、リンクテーブル105からホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所」を読み出す。ここで音節を平仮名とすると、この読み出したホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所」を、音節情報「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」に変換する。そして、この変換された音節情報「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」と、読み出したホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所」とを対にして、認識辞書記憶手段107に蓄積する。このときの認識辞書記憶手段107の一例を図5に示す。
【0025】
音節モデル記憶手段109は、音声認識に用いる各音節の標準モデルを蓄積している。上記の例では、音節モデル記憶手段109は、音声認識に用いる各平仮名の標準モデルを蓄積している。
【0026】
音声認識用モデル作成手段110は、認識辞書記憶手段107から認識対象語の文字列とこの文字列に対応した音節情報とを全て読み出し、この音節情報に基づいて音節モデル記憶手段109を参照して音声認識用モデルを作成する。そして音声認識用モデル作成手段110は、作成された音声認識用モデルと、この音声認識用モデルに対応した認識対象語の文字列とを認識手段112に出力する。上記の例では、音声認識用モデル作成手段110は、認識辞書記憶手段107から認識対象語の文字列「今週のおすすめイベント,天気,観光名所」と、この文字列に対応した音節情報「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」とを全て読み出し、この音節情報に基づいて音節モデル記憶手段109を参照して音声認識用モデル「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」を作成する。そして作成された音声認識用モデル「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」と、この音声認識用モデルに対応した認識対象語の文字列「今週のおすすめイベント,天気,観光名所」とを認識手段112に出力する。
【0027】
認識手段112は、音声認識用モデル作成手段110から音声認識用モデルとこの音声認識用モデルに対応した認識対象語の文字列とが入力され、更に、マイクロホン111から音声信号が入力されると、入力された音声信号と入力された音声認識用モデルとの比較照合を行う。そして認識手段112は、最も照合度合いが大きい音声認識用モデルに対応した認識対象語の文字列を、認識結果としてリンク先取得手段113に出力する。上記の例では、認識手段112は、音声認識用モデル作成手段110から音声認識用モデル「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」と、この音声認識用モデルに対応した認識対象語の文字列「今週のおすすめイベント,天気,観光名所」とが入力され、更に、マイクロホン111から音声信号「てんき」が入力されると、この入力された音声信号「てんき」と、入力された音声認識用モデル「こんしゅうのおすすめいべんと,てんき,かんこうめいしょ」との比較照合を行う。ここでは、比較照合の結果、最も照合度合いが大きい音声認識用モデルを音声認識用モデル「てんき」であるとすると、認識手段112はこの音声認識用モデル「てんき」に対応した認識対象語の文字列「天気」を認識結果としてリンク先取得手段113に出力する。
【0028】
リンク先取得手段113は、認識手段112から認識結果が入力されると、リンクテーブル105を参照し、入力された認識結果に対するリンク先を読み出し、この読み出したリンク先をファイル入力手段102に出力する。上記の例では、リンク先取得手段113は、認識手段112から認識結果の文字列「天気」が入力されると、リンクテーブル105を参照し、入力された認識結果の文字列「天気」に対するリンク先「tenki.html」を読み出し、この読み出したリンク先「tenki.html」をファイル入力手段102に出力する。
【0029】
なお、上記の実施例では、ホットスポットに含まれる文字列を音声認識の対象語として説明したが、この例に限定されることなく、ホットスポットに番号や記号等を対応付け、この番号や記号等を表示手段に表示し、この表示手段に表示された番号や記号等を音声認識の対象語とするようにしてもよい。
【0030】
本実施の形態によれば、表示手段に表示されたホットスポットに含まれる文字列のみを音音声認識の対象語とするので、音声認識の対象語を減らすことができ、使用するメモリ容量を減少させ、音声認識の精度を向上させることができる。
【0031】
(実施の形態2)
次に本発明の実施の形態2による音声認識機能付き表示装置について、図面を参照しながら説明する。前述した実施の形態1では、表示手段103に表示されたホットスポットに含まれる文字列を音声認識の対象語とした。しかし、本実施の形態の音声認識機能付き表示装置では、表示手段の表示領域の境界上に位置するホットスポットに含まれる文字列から、表示されている文字列のみを抽出し、この抽出された文字列を音声認識の対象語とすることを特徴とする。
【0032】
図6は実施の形態2による音声認識機能付き表示装置の構成図である。ここで、実施の形態1と同一符号のブロックは同じ動作を行うものとし、それらの詳細な説明は省略する。本実施の形態の音声認識機能付き表示装置は、ファイル記憶手段101、ファイル入力手段102、表示手段103、リンクテーブル105、リンクテーブル作成手段106、認識辞書記憶手段107、認識辞書作成手段108、音節モデル記憶手段109、音声認識用モデル作成手段110、マイクロホン111、認識手段112、リンク先取得手段113、ファイル解析手段201、ホットスポット表示解析手段202を含んで構成される。
【0033】
ファイル解析手段201は、ファイル入力手段102からファイルが入力されると、この入力されたファイルの記述言語を解析し、この解析結果と入力されたファイルとを出力するものである。
【0034】
ホットスポット表示解析手段202は、ファイル解析手段201から解析結果とファイルとが入力されると、入力された解析結果に基づき入力されたファイルを表示手段103に表示すると共に、表示手段103に表示されたホットスポットにおいて、ホットスポットに含まれる文字列で表示手段103に表示された文字列のみを抽出し、この抽出された文字列とこのホットスポットに対応したリンク先を出力するものである。ここでファイル解析手段201及びホットスポット表示解析手段202は記述言語解析手段104Bを構成している。
【0035】
このように構成された本実施の形態による音声認識機能付き表示装置の動作例について説明する。図6において、ファイル記憶手段101は、ハイパーテキストやHTML言語などの記述言語で記述されたファイルを格納する。具体的な一例として、ファイル記憶手段101は、HTML言語で記述されたファイル「osaka.html,event.html,…」を格納しているとする。ここで、ファイル「osaka.html」の記述内容は図2に示すものと同一である。
【0036】
ファイル入力手段102は、リンク先が入力されると、この入力されたリンク先のファイルをファイル記憶手段101から読み出し、このファイルをファイル解析手段201に出力する。上記の例では、ファイル入力手段102は、リンク先が入力されると、ファイル「osaka.html」をファイル記憶手段101から読み出し、このファイル「osaka.html」をファイル解析手段201に出力する。
【0037】
ファイル解析手段201は、ファイル入力手段102からファイルが入力されると、この入力されたファイルに記述された記述言語を解析し、この解析結果と入力されたファイルとをホットスポット表示解析手段202に出力する。上記の例では、ファイル解析手段201は、ファイル入力手段102からファイル「osaka.html」が入力されると、このファイル「osaka.html」に記述されたHTML言語を解析し、この解析結果とファイル「osaka.html」をホットスポット表示解析手段202に出力する。
【0038】
ホットスポット表示解析手段202は、ファイル解析手段201から解析結果とファイルとが入力されると、入力された解析結果に基づき入力されたファイルを表示手段103に表示する。更にホットスポット表示解析手段202は、表示手段103に表示されたホットスポットにおいて、ホットスポットに含まれる文字列で表示手段103に表示された文字列のみを抽出し、この抽出された文字列と、このホットスポットに対応したリンク先とをリンクテーブル作成手段106に出力する。
【0039】
上記の例では、ホットスポット表示解析手段202は、ファイル解析手段201から解析結果とファイル「osaka.html」とが入力されると、入力された解析結果に基づき、ファイル「osaka.html」を表示手段103に表示する。このときの表示手段103の表示例は図3と同一である。そして、ユーザが図3のように表示されている画面において、下方向にスクロールを行うと、表示手段103の表示は図7のようになる。
【0040】
図7においては、ホットスポットに含まれる文字列「今週のおすすめイベント」が表示領域の境界上に位置するため、一部の文字列「イベント」のみが表示される。このとき、ホットスポット表示解析手段202は、表示手段103に表示されたホットスポットにおいて、ホットスポットに含まれる文字列「今週のおすすめイベント,天気,観光名所,ナイトスポット」において、表示手段103に表示された文字列「イベント,天気,観光名所,ナイトスポット」のみを抽出する。そしてホットスポット表示解析手段202は、この抽出された文字列「イベント,天気,観光名所,ナイトスポット」と、このホットスポットに対応したリンク先「event.html,tenki.html,kankou.html ,night.html」とをリンクテーブル作成手段106に出力する。以降の動作は実施の形態1と同じであるので、それらの詳細な説明は省略する。
【0041】
本実施の形態によれば、表示手段103の表示領域の境界上に位置するホットスポットに含まれる文字列から、表示されている文字列のみを抽出し、この抽出された文字列を音声認識の対象語とする。このため、ユーザは表示手段103の表示領域の境界上に位置するホットスポットを指定する場合、ホットスポットに含まれる文字列において、表示されている文字列のみを読み上げるだけで、読み上げた文字列のホットスポットに対応したリンク先のファイルを、表示手段103に表示させることができる。
【0042】
(実施の形態3)
次に本発明の実施の形態3による音声認識機能付き表示装置について、図面を参照しながら説明する。前述した実施の形態2では、表示手段103の表示領域の境界上に位置するホットスポットに含まれる文字列から、表示されている文字列のみを抽出し、この抽出された文字列を音声認識対象語とした。しかし、本実施の形態の音声認識機能付き表示装置では、表示手段103の表示領域の境界上に位置するホットスポットに含まれる文字列から、表示されている文字列のみを抽出し、更に抽出された文字列の意味を解析し、この意味解析によって抽出される意味のある文字列を音声認識の対象語とすることを特徴とする。
【0043】
図8は実施の形態3による音声認識機能付き表示装置の構成図である。ここで、実施の形態1、実施の形態2と同一符号のブロックは同じ動作を行うものとし、それらの詳細な説明は省略する。本実施の形態の音声認識機能付き表示装置は、ファイル記憶手段101、ファイル入力手段102、表示手段103、リンクテーブル105、リンクテーブル作成手段106、認識辞書記憶手段107、認識辞書作成手段108、音節モデル記憶手段109、音声認識用モデル作成手段110、マイクロホン111、認識手段112、リンク先取得手段113、ファイル解析手段201、ホットスポット表示解析手段202、意味解析手段301を含んで構成される。ここでファイル解析手段201、ホットスポット表示解析手段202、意味解析手段301は記述言語解析手段104Cを構成している。
【0044】
意味解析手段301は、ホットスポット表示解析手段202から文字列とこの文字列に対応したリンク先とが入力されると、入力された文字列を意味解析し、入力された文字列から意味のある文字列のみを抽出し、この抽出した意味のある文字列と入力されたリンク先とを出力するものである。
【0045】
このように構成された本実施の形態による音声認識機能付き表示装置の動作例について説明する。図8において、ファイル記憶手段101は、ハイパーテキストやHTML言語などの記述言語で記述されたファイルを格納している。具体的な一例として、ファイル記憶手段101は、HTML言語で記述されたファイル「osaka.html,event.html,…」を格納しているとする。ここで、ファイル「osaka.html」の記述内容の一例は図2に示すものと同一である。
【0046】
ファイル入力手段102は、リンク先が入力されると、この入力されたリンク先のファイルをファイル記憶手段101から読み出し、読み出したファイルをファイル解析手段201に出力する。上記の例では、ファイル入力手段102は、リンク先が入力されると、ファイル「osaka.html」をファイル記憶手段101から読み出し、このファイル「osaka.html」をファイル解析手段201に出力する。
【0047】
ファイル解析手段201は、ファイル入力手段102からファイルが入力されると、入力されたファイルに記述された記述言語を解析し、この解析結果と入力されたファイルとをホットスポット表示解析手段202に出力する。上記の例では、ファイル解析手段201は、ファイル入力手段102からファイル「osaka.html」が入力されると、このファイル「osaka.html」に記述されたHTML言語を解析し、この解析結果とファイル「osaka.html」とをホットスポット表示解析手段202に出力する。
【0048】
ホットスポット表示解析手段202は、ファイル解析手段201から解析結果とファイルとが入力されると、入力された解析結果に基づき入力されたファイルを表示手段103に表示する。更にホットスポット表示解析手段202は、表示手段103の表示領域の境界上に位置するホットスポットにおいては、ホットスポットに含まれる文字列で表示手段103に表示された文字列のみを抽出する。そして、抽出された文字列とこのホットスポットに対応したリンク先とを意味解析手段301に出力し、表示手段103に表示された他のホットスポットにおいては、ホットスポットに含まれる文字列とこのホットスポットに対応したリンク先とをリンクテーブル作成手段106に出力する。
【0049】
上記の例では、ホットスポット表示解析手段202は、ファイル解析手段201から解析結果とファイル「osaka.html」が入力されると、入力された解析結果に基づき、ファイル「osaka.html」を表示手段103に表示する。このときの表示手段103の表示例を図9に示す。そして、ユーザが図9のように表示されている画面において、下方向にスクロールを行うと、表示手段103の表示は図10のようになる。
【0050】
図10においては、ホットスポットに含まれる文字列「今週のおすすめイベント」が表示領域の境界上に位置するため、一部の文字列「めイベント」のみが表示される。このとき、ホットスポット表示解析手段202は、表示手段103の表示領域の境界線上に位置するホットスポットにおいては、ホットスポットに含まれる文字列「今週のおすすめイベント」で表示手段103に表示された文字列「めイベント」のみを抽出する。そしてホットスポット表示解析手段202は、この抽出された文字列「めイベント」とこのホットスポットに対応したリンク先「event.html」とを意味解析手段301に出力する。更にホットスポット表示解析手段202は、表示手段103に表示された他のホットスポットにおいては、ホットスポットに含まれる文字列「天気,観光名所,ナイトスポット」とこのホットスポットに対応したリンク先「tenki.html,kankou.html,night.html」とをリンクテーブル作成手段106に出力する。
【0051】
意味解析手段301は、ホットスポット表示解析手段202から文字列とこの文字列に対応したリンク先が入力されると、入力された文字列を意味解析し、入力された文字列から意味のある文字列のみを抽出する。そして意味解析手段301は、抽出した文字列と入力されたリンク先とをリンクテーブル作成手段106に出力する。上記の例では、意味解析手段301は、ホットスポット表示解析手段202から文字列「めイベント」と、この文字列に対応したリンク先「event.html」とが入力されると、入力された文字列「めイベント」を意味解析し、入力された文字列から意味のある文字列「イベント」を抽出する。そして、抽出した文字列「イベント」とこの文字列に対応したリンク先「event.html」とをリンクテーブル作成手段106に出力する。以降の動作は実施の形態1と同じであるので、それらの詳細な説明は省略する。
【0052】
なお、上記の実施の形態では、表示手段103の表示領域の境界上に位置するホットスポットに含まれる文字列から、表示手段103に表示されている文字列を抽出し、この抽出された文字列とこのホットスポットに対応したリンク先のみを意味解析手段に出力した。しかし、表示手段103に表示されるホットスポットに含まれる文字列から、表示されている文字列のみを抽出し、この抽出された全文字列とこのホットスポットに対応した全リンク先を意味解析手段301に出力するようにしてもよい。
【0053】
本実施の形態によれば、表示手段103の表示領域の境界上に位置するホットスポットに含まれる文字列から、表示されている文字列のみを抽出し、更に、抽出された文字列から意味のある文字列を抽出し、意味のある文字列を音声認識の対象語とするようにしている。このため、ユーザは、表示手段103の表示領域の境界上に位置するホットスポットを指定する場合、ホットスポットに含まれる文字列において、表示されている文字列から、意味のある文字列だけを読み上げるだけで、読み上げた文字列のホットスポットに対応したリンク先のファイルを表示手段103に表示させることができる。
【0054】
【発明の効果】
以上のように、本発明の音声認識機能付き表示装置によれば、表示手段に表示されたホットスポットに含まれる文字列のみを、音声認識の対象語するため、メモリ容量も低減でき、音声認識の精度が向上する。
【0055】
また本発明の音声認識機能付き表示装置によれば、表示手段の表示領域の境界上に位置するホットスポットに含まれる文字列に対して、表示されている文字列のみを抽出し、この抽出された文字列を音声認識の対象語とするため、メモリ容量も低減でき、表示領域に表示される文字列のみを読み上げるだけで優れた音声認識機能が得られる。
【0056】
また本発明の音声認識機能付き表示装置によれば、表示手段に表示されるホットスポットに含まれる文字列に対して、表示されている文字列のみを抽出し、更に、この抽出された文字列から意味のある文字列を抽出し、この意味のある文字列を音声認識の対象語としている。このためメモリ容量も低減でき、表示領域に表示される意味のある文字列を読み上げるだけで、優れた音声認識機能が得られる。
【0057】
このような音声認識機能付き表示装置を用いると、優れたハイパーテキスト表示装置やWWWブラウザ等を実現できる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声認識機能付き表示装置の構成図である。
【図2】音声認識機能付き表示装置に読み込まれるファイルの記述例である。
【図3】音声認識機能付き表示装置の動作(その1)を示す表示例である。
【図4】音声認識機能付き表示装置に用いられるリンクテーブルの内容例を示す説明図である。
【図5】音声認識機能付き表示装置に用いられる認識辞書記憶手段の内容例を示す説明図である。
【図6】本発明の実施の形態2における音声認識機能付き表示装置の構成図である。
【図7】音声認識機能付き表示装置の動作(その2)を示す表示例である。
【図8】本発明の実施の形態3における音声認識機能付き表示装置の構成図である。
【図9】音声認識機能付き表示装置の動作(その3)を示す表示例である。
【図10】音声認識機能付き表示装置の動作(その4)を示す表示例である。
【符号の説明】
101 ファイル記憶手段
102 ファィル入力手段
103 表示手段
104A,104B,104C 記述言語解析手段
105 リンクテーブル
106 リンクテーブル作成手段
107 認識辞書記憶手段
108 認識辞書作成手段
109 音節モデル記憶手段
110 音声認識用モデル作成手段
111 マイクロホン
112 認識手段
113 リンク先取得手段
201 ファイル解析手段
202 ホットスポット表示解析手段
301 意味解析手段

Claims (3)

  1. ハイパーテキスト又はHTML言語を含む記述言語で記載されたファイルを格納するファイル記憶手段と、
    リンク先が入力されると、入力されたリンク先のファイルを前記ファイル記憶手段から読み出すファイル入力手段と、
    入力される情報を表示する表示手段と、
    前記ファイル入力手段からファイルが入力されると、入力ファイルに記載された記述言語を解析し、この解析結果に基づき入力ファイルを前記表示手段に表示すると共に、前記表示手段に表示される同一文書内の他の部分又は他文書にリンクされる領域(以下、ホットスポットという)に含まれる文字列と前記ホットスポットに対応したリンク先とを出力し、さらに前記ホットスポットが前記表示手段の表示領域と非表示領域にまたがって表示される場合に、ホットスポットに含まれる文字列から表示領域に表示される文字列のみを抽出し、抽出された文字列と抽出元のホットスポットに対応したリンク先を出力する記述言語解析手段と、
    リンク先と前記ホットスポットに含まれる文字列とを対応付けて記憶するリンクテーブルと、
    前記記述言語解析手段からリンク先と前記ホットスポットに含まれる文字列とが入力されると、入力されたリンク先とホットスポットに含まれる文字列とを前記リンクテーブルに蓄積するリンクテーブル作成手段と、
    認識対象語を記憶する認識辞書記憶手段と、
    前記リンクテーブルから前記ホットスポットに含まれる文字列を読み出し、読み出したホットスポットに含まれる文字列を前記認識辞書記憶手段に蓄積する認識辞書作成手段と、
    ユーザが音声入力すると、前記認識辞書記憶手段に蓄積されている文字列を認識対象語として音声認識を行い、認識結果を出力する音声認識手段と、
    前記音声認識手段から認識結果が与えられると、前記リンクテーブルを参照し、前記認識結果に対するリンク先を読み出し、読み出したリンク先を出力するリンク先取得手段と、を具備することを特徴とする音声認識機能付き表示装置。
  2. ハイパーテキスト又はHTML言語を含む記述言語で記載されたファイルを格納するファイル記憶手段と、
    リンク先が入力されると、入力されたリンク先のファイルを前記ファイル記憶手段から読み出すファイル入力手段と、
    入力される情報を表示する表示手段と、
    前記ファイル入力手段からファイルが入力されると、入力ファイルに記述された記述言語を解析し、解析結果と前記入力ファイルを出力するファイル解析手段と、
    前記ファイル解析手段から解析結果とファイルとが入力されると、前記解析結果に基づき前記ファイルを前記表示手段に表示し、前記表示手段に表示されたホットスポットにおいて、前記ホットスポットに含まれる文字列から前記表示手段に表示された文字列のみを抽出し、抽出された文字列と前記ホットスポットに対応したリンク先を出力するホットスポット表示解析手段と、
    前記ホットスポット表示解析手段から文字列と前記文字列に対応したリンク先とが入力されると、入力文字列の意味を解析し、前記入力文字列から意味のある文字列のみを抽出し、抽出した文字列と入力されたリンク先とを出力する意味解析手段と、
    リンク先と前記ホットスポットに含まれる文字列とを対応付けて記憶するリンクテーブルと、
    前記意味解析手段からリンク先と前記ホットスポットに含まれる文字列とが入力されると、入力されたリンク先とホットスポットに含まれる文字列とを前記リンクテーブルに蓄積するリンクテーブル作成手段と、
    認識対象語を記憶する認識辞書記憶手段と、
    前記リンクテーブルから前記ホットスポットに含まれる文字列を読み出し、読み出した ホットスポットに含まれる文字列を前記認識辞書記憶手段に蓄積する認識辞書作成手段と、
    ユーザが音声入力すると、前記認識辞書記憶手段に蓄積されている文字列を認識対象語として音声認識を行い、認識結果を出力する音声認識手段と、
    前記音声認識手段から認識結果が与えられると、前記リンクテーブルを参照し、前記認識結果に対するリンク先を読み出し、読み出したリンク先を出力するリンク先取得手段と、を具備することを特徴とする音声認識機能付き表示装置。
  3. 前記音声認識手段は、
    話者によって発話された音声を入力し、音声信号を出力するマイクロホンと、
    音声認識に用いる各音節の標準モデルを蓄積する音節モデル記憶手段と、
    前記音節モデル記憶手段を用いて、前記認識辞書記憶手段に記憶されている認識対象語の音声認識用モデルを作成する音声認識用モデル作成手段と、
    前記音声認識用モデル作成手段から音声認識用モデルが入力され、前記マイクロホンから音声信号が入力されると、入力音声信号を前記音声認識用モデルを用いて音声認識し、認識結果であるテキスト情報を出力する認識手段と、を有することを特徴とする請求項1または2のいずれかに記載の音声認識機能付き表示装置。
JP2001387701A 2001-12-20 2001-12-20 音声認識機能付き表示装置 Expired - Fee Related JP3916947B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001387701A JP3916947B2 (ja) 2001-12-20 2001-12-20 音声認識機能付き表示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001387701A JP3916947B2 (ja) 2001-12-20 2001-12-20 音声認識機能付き表示装置

Publications (2)

Publication Number Publication Date
JP2003186496A JP2003186496A (ja) 2003-07-04
JP3916947B2 true JP3916947B2 (ja) 2007-05-23

Family

ID=27596449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001387701A Expired - Fee Related JP3916947B2 (ja) 2001-12-20 2001-12-20 音声認識機能付き表示装置

Country Status (1)

Country Link
JP (1) JP3916947B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4749756B2 (ja) * 2005-04-18 2011-08-17 三菱電機株式会社 音声認識装置及びそのプログラム

Also Published As

Publication number Publication date
JP2003186496A (ja) 2003-07-04

Similar Documents

Publication Publication Date Title
US6397183B1 (en) Document reading system, read control method, and recording medium
US9548052B2 (en) Ebook interaction using speech recognition
JP2003015803A (ja) 小型キーパッド用日本語入力メカニズム
JP5012083B2 (ja) 学習支援装置及び学習支援プログラム
JPH10124293A (ja) 音声指令可能なコンピュータとそれ用の媒体
JP3916947B2 (ja) 音声認識機能付き表示装置
KR20200018121A (ko) 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템
JPS63157226A (ja) 会話型文章読み上げ装置
JPS634206B2 (ja)
JP2846374B2 (ja) 情報案内・提供方法
JP2007156888A (ja) 情報提示装置及び情報提示プログラム
JP2016212374A (ja) 音声出力装置、音声出力方法、およびプログラム
JPS62212870A (ja) 文章読み上げ校正装置
JP2023046232A (ja) 電子機器、学習支援システム、学習処理方法及びプログラム
JPH11232003A (ja) ドキュメント表示装置,表示方法および記憶媒体
JP2924089B2 (ja) 日本語発音練習機
JPH06332934A (ja) 電子辞書引き装置
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JP2010055506A (ja) 音声翻訳装置および方法
JPH0798709A (ja) 音訳器
JPH10134068A (ja) 情報獲得支援方法及び装置
JPH07160685A (ja) 文章読み上げ装置
JPH10254861A (ja) 音声合成装置
JPS6349799A (ja) 音声出力装置
JPH10149195A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070207

R150 Certificate of patent or registration of utility model

Ref document number: 3916947

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140216

Year of fee payment: 7

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees