JPH03224055A

JPH03224055A - 同時通訳向き音声認識システムおよびその音声認識方法

Info

Publication number: JPH03224055A
Application number: JP2019654A
Authority: JP
Inventors: Hiroyuki Kaji; 梶　博行
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-01-30
Filing date: 1990-01-30
Publication date: 1991-10-03
Anticipated expiration: 2013-12-14
Also published as: EP0440197A3; US5526259A; JP2836159B2; DE69129163D1; EP0440197A2; EP0440197B1; DE69129163T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、翻訳テキスト入力方法および装置に関し、特
に音声を直接文字化する音声タイプライタ、および仮名
またはローマ字入力を漢字仮名混じり表記のテキストに
変換するワードプロセッサに関する。

〔従来の技術］従来より、テキストをコンピュータあるいはワードプロ
セッサ等に入力する効率的な方法として、音声入力が考
えられている。確かに、音声を入力するたけで、文字に
変換されれば最も効率的である。

しかしながら、音声認識の困難性のために、従来は、実
用に供し得る音声タイプライタは存在しない。例えば、
特開昭６３−１８２７３５号公報に記載されている音声
入力ワードプロセッサにおいては、操作者のキーボード
入力の代りに、文字列を単位として音声入力を行い、語
への変換候補を画面に表示して、最終選択を操作者が行
っている。これによって、キー入力の手間を大幅に軽減
し、文書入力の高速化を図ろうとしている。ところが、
実際には、音声認識における曖昧性の解消が操作者の役
割となり、最終選択の段階で時間がかかってしまう。

一方、キーボードによる入力方法は、既に実用化されて
いる。膨大な数の漢字を含む日本語テキストの入力方法
としては、キーボードから仮名入力するか、ローマ字入
力するか、あるいは特殊な入力として漢字を２つの仮名
や数字を含むコードに割り当てて、そのコードを入力す
る２ストロク方法等がある。しかしながら、２ストロー
ク方法は高速入力が可能であるが、漢字に対応するコー
ドの記憶に時間がかかり過ぎ、コードを１字毎に参照し
てから入力するのでは、時間がかかり過ぎるという問題
がある。また、仮名入力やローマ字入力の方法では、文
節分かち書きが前提となっていたり、同音異語からの正
しい語の選択が操作者の役割となっているため、あまり
能率的とは言えなかった。

〔発明が解決しようとする課題］このように、従来の音声タイプライタでは、音声認識に
おける曖昧性を操作者が解消しなければならず、そこで
時間がかかってしまう。また、キボードによる仮名また
はローマ字入力の方法では、同音異語からの正しい語の
選択が操作者の役割となっており、やはり能率的ではな
い。

本発明の第Ｉの目的は、翻訳テキスト、要約テキスト、
あるいは画像やデータに対するコメント文の入力におい
て、前記従来技術の課題を解消することにある。すなわ
ち、翻訳テキスト、要約テキスト、あるいは画像やデー
タに対するコメント文を音声入力あるいは表音記号入力
するたけで、高精度でこれを文字に変換することができ
る翻訳テキスト入力方法および装置を提供することにあ
る。

また、本発明の第２の目的は、文字や語の読みを音声入
力することにより、文字認識の誤りを訂正することがで
きる音声入力機能付きの文字認識装置を提供することに
ある。

［課題を解決するための手段］上記目的を達成するため、本発明による翻訳テキスト入
力方法は、（イ）入力テキスト作成の元になった原情報
を原情報解析モジュールを実行することにより解析して
、入力テキストを構成する語に関する情報を予測すると
ともに、第１の表現方法で入力されたテキストをテキス
ト変換モジュールを実行することにより、上記予測され
た語情報を利用して、目的とする第２の表現方法による
テキストに変換することに特徴がある。本発明の翻訳テ
キスト入力方法は、また、（ロ）原テキストを原テキス
ト解析モジュールを実行することにより解析して、翻訳
テキストを構成する語を予測するとともに、翻訳テキス
ト変換モジュールを実行することにより、上記予測され
た語情報を利用して、第１の表現方法による翻訳テキス
トを第２の表現方法によるテキストに変換することに特
徴がある。

また、（ハ）上記原テキスト解析モジュールは、原言語
の語と目標言語の対訳語および連想される目標言語の語
とを対応付ける２言語辞書を用いて、原テキストを構成
する語から翻訳テキストを構成する語を予測し、上記翻
訳テキスト変換モジュールは、第１の表現方法から第２
の表現方法への変換処理の際に曖昧性が生じた場合に、
上記原テキスト解析モジュールが予測した語を優先的に
選択することにより、上記曖昧性を解消することにも特
徴がある。

また、本発明の翻訳テキスト入力用音声タイプライタは
、（ニ）原テキストを構成する語を認識して、翻訳テキ
ストを構成する語を予測する原テキスト解析モジュール
と、音声入力された翻訳テキストを尤度が予め定めた値
を越える１つ以上の表音記号列に変換する音韻認識モジ
ュールと、この音韻認識モジュ−ルが変換した表音記号
列の中で、上記原テキスト解析モジュールが予測した語
の表音記号表現と一致する区間を探索し、該一致する区
間の表音記号列をその一致した語の文字表現に変換する
表音記号・文字変換モジュールとを具備することに特徴
がある。

また、本発明の翻訳テキスト入力用ワードプロセッサは
、（ホ）原テキストを構成する語を認識し、翻訳テキス
トを構成する語を予測する原テキスト解析モジュールと
、仮名ないしローマ字入力された翻訳テキストの中で、
上記原テキスト解析モジュールが予測した語の仮名ない
しローマ字表現と一致する区間を探し、一致する区間を
その一致した語の文字表現に変換する表音記号・文字変
換モジュールとを具備することに特徴がある。

また、本発明の翻訳テキスト入力装置（音声タイプライ
タおよびワードプロセッサ）は、（へ）上記原テキスト
の全部ないし一部を表示装置に表示する原テキスト表示
モジュールを設け、上記原テキスト解析モジュールは原
テキストのうちの上記表示装置に表示された部分を解析
の対象とし、上記表音記号゛・文字変換モジュールは、
表示中の部分の解析により抽出された情報を利用して、
翻訳テキストを第１の表現方法から第２の表現方法に変
換することに特徴がある。また、（ト）上記原テキスト
表示モジュールは、原テキストのうちの一部を他と異な
る様式で表示し、上記原テキスト解析モジュールは、原
テキストのうち他と異なる様式で表示されている部分を
解析の対象とし、上記表音記号・文字変換モジュールは
、他と異なる様式で表示されている部分の解析により予
測された情報を利用して、翻訳テキストを第１の表現方
法から第２の表現方法に変換することにも特徴がある。

また、（チ）上記表示装置に表示中の部分あるいは他と
異なる様式で表示されている部分に対応する翻訳テキス
トの入力および変換処理が終了したか否かを判定するモ
ジュールを有し、処理が終了したときには、翻訳テキス
トの次の部分を上記表示装置に表示し、あるいは他と異
なる様式で表示することにも特徴がある。また、（す）
上記原テキスト解析モジュールが予測した語を、翻訳テ
キストを構成する語の候補として表示装置に表示する訳
語候補表示モジュールを有することにも特徴がある。ま
た、（ヌ）上記表音記号・文字変換モジュールの出力で
ある第２の表現方法による翻訳テキストを表示装置に表
示する翻訳テキスト表示モジュールを有することにも特
徴がある。

そして、本発明の翻訳テキスト編集装置は、（ル）原テ
キストを解析して、修正のために入力される修正テキス
トを構成する語の情報を予測する原テキスト解析モジュ
ールと、この原テキスト解析モジュールが予測した情報
を利用して、音声ないし表音記号により入力される修正
テキストを文字に変換する修正テキスト変換モジュール
とを有することに特徴がある。さらに、本発明の要約テ
キスト入力装置は、（オ）原テキストを解析して、要約
テキストを構成する語の情報を予測する原テキスト解析
モジュールと、原テキスト解析モジュールが予測した情
報を利用して、音声ないし表音記号により入力される要
約テキストを文字に変換する要約テキスト変換モジュー
ルとを有することに特徴がある。

また１本発明の画像またはデータのコメント文入力装置
は、（ワ）原画像・データを解析して、これら画像・デ
ータに対するコメント文を構成する語の情報を予測する
原画像・データ解析モジュールと、この原画像・データ
解析モジュールが予測した情報を利用して、音声または
表音記号により入力されるコメント文を文字に変換する
コメント文変換モジュールとを有することに特徴がある
。

また、本発明の音声入力機能付き文字認識装置は、（力
）尤度が一定値以上の１つ以上の解を出力する文字認識
モジュールと、尤度が一定値以上の１つ以上の解を出力
する音声認識モジュールと、これら文字認識モジュール
の出力および音声認識モジュールの出力の両方に含まれ
る文字を優先的に選択する最尤解選択モジュールとを有
することに特徴がある。

さらに、本発明の同時通訳音声タイプライタは、（ソ）
尤度が一定値以上の１つ以上の解を出力する第１および
第２の音声認識モジュールと、第１の音声認識モジュー
ルの出力と第２の音声認識モジュールの出力に対訳関係
を有する語の組が含まれるとき、これらの語の組を優先
的に選択する最尤解選択モジュールとを有することに特
徴がある。

〔作　　用〕

本発明においては、音声あるいは表音記号による入力テ
キストの他に、その入力テキストの元になる原情報を装
置に入力し、原情報を解析することにより、入力テキス
トの構成語情報を予測する。

そして、この予測された情報を利用することにより、音
声あるいは表音記号から文字への変換における曖昧性を
解消し、高精度の変換を実現する。

本発明の翻訳テキスト入力用音声タイプライタまたはワ
ードプロセッサは、原言語の語と目標言語の対訳語やそ
の語から連想される目標言語の語とを対応付ける２言語
辞書と、原テキストを解析して、原テキストを構成する
語を認識した上で、２言語辞書を参照することにより翻
訳テキストを構成する語を予測する原テキスト解析モジ
ュールとを設ける。さらに、翻訳テキストの音声あるい
は表音記号から文字への変換において曖昧性が生じると
きには、原テキスト解析モジュールが予測した語を優先
的に選択する翻訳テキスト変換モジュールを設ける。こ
れにより、音声あるいは表音記号で入力される翻訳テキ
ストを、高精度で文字に変換することができる。

〔実施例〕

以下、本発明の実施例を、図面により詳細に説明する。

ここでは、第１の実施例として、翻訳用音声タイプライ
タを、第２の実施例として、仮名漢字変換方式の翻訳用
ワードプロセッサを、また、それらの変形例として、機
械翻訳の結果を後編集するため、翻訳テキストの断片を
入力する装置と、テキストの要約を入力する装置とを、
それぞれ説明する。次に、第３の実施例として、画像の
コメント文を入力してそれを文字化する装置を説明する
。

これは、例えば医用画像に対する医者の所見や、リモー
トセンシング画像に対する専門家の解釈を入力するシス
テムに適用が可能である。さらに、第４の実施例として
、音声入力機能付文字認識装置を、第５の実施例として
、同時通訳音声タイプライタを、それぞれ説明する。

第１図は、本発明の第１の実施例を示す翻訳用音声タイ
プライタの機能ブロック図であり、第２図は、そのハー
ドウェア構成図である。

本実施例の音声タイプライタを実現する機能の構成を示
すと、第１図のようになる。すなわち、原テキストを表
示して操作者に参照させる２言語テキスト表示機能１３
と、原テキストを解析する原テキスト解析機能１１と、
口述する操作者の音声を表音記号列に変換する音韻認識
機能４１と、表音記号列を文字列に変換する表音記号・
文字変換機能１２と、これらに付随する原テキストファ
イル２３と、２言語辞書２１と、目標言語辞書２２と、
翻訳テキストファイル２４とから構成されている。

これらの機能を遂行するハードウェアは、中央処理装置
ｌと、記憶装置２と、マイクロホン３と、音響処理装置
４と、ＣＲＴデイスプレィ５と、キボード６と、○ＣＲ
７と、プリンタ８とから構成される。第１図に示す原テ
キスト解析機能１１と表音記号・文字変換機能１２と２
言語テキスト表示機能１３は、いずれもプログラムモジ
ュールであって、第２図の中央処理装置１により遂行さ
れる。また、第１図の音韻認識機能４１は、第２図の音
響処理装置４により遂行される。また、２言語辞書２１
、目標言語辞書２２、原テキストファイル２３および翻
訳テキストファイル２４は、いずれも第２図の記憶装置
２に記憶されている。

ここで、２言語辞書２１と原テキスト解析機能１１と翻
訳テキスト変換機能（音韻認識機能４１と表音記号・文
字変換機能１２を合わせた機能）の作用を述べる。

２言語辞書２１は、基本的には原言語の見出し語に対し
て目標言語の対訳語を収録した辞書であるが、本発明の
目的を達成するために対訳語を網羅的に収録しておく。

さらに、対訳語に限らず、見出し語が原テキストに含ま
れるときに、翻訳テキストに使用される可能性がある語
を広く収録しておく。

原テキスト解析機能１１は、原テキストを形態素解析し
て、原テキストを構成する語を認識した後、原テキスト
を構成する語をキーとして２言語辞書２１を検索し、原
テキストを構成する語に対応付けられた目標言語の語の
集合を求める。２言語辞書２１には、前述のように見出
し語に関連のある目標言語の語が広範囲に収録されてい
る。従って、操作者がどのような翻訳テキストを作成し
た場合でも、原テキスト解析機能１１が求めた語集合は
、翻訳テキストを構成する語をかなりの確率で含むこと
が予想される。この語集合を、翻訳テキスト構成語候補
集合９１と呼ぶ。

音韻認識機能４１は、音声波形を解析して、セグメンテ
ーションと特徴パラメータ抽出を行い、各セグメントを
音韻記号のような表音記号でラベル付けする。ここで、
セグメンテーション、表音記号のラベル付けのいずれに
関しても、曖昧性が生じるのが通常である。従って、音
韻認識機能４１は、各セグメントに複数の表音記号を尤
度とともに付与し、テキスト全体に対してはラティス形
式（複数の表音記号列の束の形）の解を出力する。

音韻認識機能４１については、例えば、「白井良明編′
パターン理解″　（オーム社、昭和６２年発行）町に記
載されている技術により実現できる。

表音記号・文字変換機能１２は、ラティスに含まれる表
音記号列の中で語にまとめられる部分を探し、その部分
を語に置き換える処理を繰り返すことにより、翻訳テキ
ストの文字表現を得る。この処理は、大きく分けて２つ
のフェーズから成る。

第１のフェーズでは、原テキスト解析機能１１の出力で
ある翻訳テキスト構成語候補集合９１に含まれる語の表
音記号表現と一致する部分があれば、その部分を語と認
識する。ここで、翻訳テキスト構成語候補集合９１に含
まれる語は、原テキストの語と密接に関係する語である
から、音響的に多少尤度が低くても選択する。

第２のフェーズでは、翻訳テキスト構成語候補集合９１
の範囲では、語に変換できなかった区間の処理である。

すなわち、語の候補を目標言語の語気全体に広げて、第
１のフェーズで語に変換できなかった区間の表音記号列
の中で、語の表音記号表現と一致する部分を探し、一致
する部分を語と認識する。ここで、１つの区間が複数の
語列に変換できるときには、できる限り少数の語からな
るものを優先して選択する。また、表音記号の尤度に基
づいて語の尤度を算出し、尤度の高い語を優先的に選択
する。このようにして、最終的に正解の可能性の高い語
列に変換する。なお、どの語の表音記号表現とも一致し
ない区間があれば、それは表音記号のままに残しておく
。

次に、操作者から見た翻訳用音声タイプライタの動作を
説明する。

先ず原テキストが０ＣＲ７を介して原テキストファイル
２３に格納される。

この音声タイプライタの処理単位は文であり、操作者が
キーボード６から口述翻訳開始を指示すると、２言語テ
キスト表示機能１３が原テキストファイル２３から１文
だけを読み出して、これをＣＲＴデイスプレィ５の原文
表示領域に表示する。

原テキスト解析機能＋１は、前述の処理を実行して、翻
訳テキスト構成語候補集合９１を求める。

ＣＲＴデイスプレィ５に表示された原文９４を参照する
ことにより、操作者がこれを翻訳し、その翻訳文９５を
口述すると、マイクロホン３がこの音声を電気信号に変
換する。この電気信号を受けた音韻認識機能４１、続い
て表音記号・文字変換機能１２が、それぞれ前述の処理
を実行して、翻訳文の文字表記９３を得た後、これを翻
訳テキストファイル２４に格納する。

翻訳文が翻訳テキストファイル２４に格納されると、２
言語テキスト表示機能１３が翻訳文９６をＣＲＴデイス
プレィ５の翻訳文領域に表示する。

そこで、操作者は、画面を参照することにより、正しく
文字化されたか否かを確認する。誤りがあれば、操作者
はキーボード６から次候補の表示を要求するか、再入力
することを指示する。再入力の場合には、装置は原文の
表示をそのままにして、音声入力の待機状態に移るので
、操作者は前回よりもさらに注意深く発声して音声入力
する。その後、文字化された結果に誤りがなければ、操
作者はキーボード６から次の文の翻訳に移ることを知ら
せる。これにより、２言語テキスト表示機能１３は、Ｃ
ＲＴデイスプレィ５の原文表示領域に次の文を表示して
、それ以降は前の文のときと全く同じように処理する。

なお、翻訳テキストファイル２４に格納された翻訳テキ
ストは、プリンタ８により印刷される。

第３図は、第１図における２言語辞書のレコード構造と
内容の例を示す図である。

ここでは、原言語が英語で、目標言語が日本語の場合か
示されている。すなわち、２言語辞書２１のレコードは
、原言語を見出し語２１０１としており、目標言語情報
としては見出し語の対訳語と見出し語から連想される語
を含む。目標言語情報は、語の数２１０２と各語の表音
記号表現２１０３、文字表現（漢字仮名混じり文におけ
る通常の表記）２１０４を含む。２言語辞書２１のレコ
ードは、見出し語２１０１をキーとして検索することが
できる。

第４図は、第１図における目標言語辞書のレコードの構
造と内容の例を示す図である。

目標言語辞書２２のレコードは、目標言語の表音記号表
現と文字表現（漢字仮名混じり文における通常の表記）
からなる。同一の表音記号表現を持つ語が複数個存在す
ることもあるため、１つのレコードには、１つの表音記
号表現２２０１と、文字表現の数２２０２と、その数だ
けの文字表現２２０３とが記憶されている。目標言語辞
１Ｆ２２のレコードは、表音記号表現２２０１をキーと
して検索することができる。

第５図は、第１図における原テキスト解析機能ｌｌの処
理フローチャートである。

操作者がキーボード６から口述翻訳開始を指示すること
により、１つの文の処理が開始される。

先ず、原文中の処理位置を示す原文位置インジケタが文
頭を指すように初期化する（ステップ１１０１）。次に
、翻訳テキスト構成語候補集合９１の格納エリアをクリ
アする（ステップ１１０２）。

次に、原文位置インジケータが文末を指すようになるま
で、それ以降の処理（ステップ１１０４〜１１１０）を
繰り返し行う（ステップ１１０３）。

先ず、原文中の原文位置インジケータが指す位置から語
を切り出しくステップ１１０４．）、切り出した語をキ
ーとして２言語辞書２１を検索する（ステップ１１０５
）。検索に成功したときには（ステップ１１０６）、検
索したレコード中の目標言語情報（表音記号表］１２１
０３と文字表現２１０４）を翻訳テキスト構成語候補の
格納エリアに登録しくステップ１１０７）、原文位置イ
ンジケタが次の語の先頭位置を指すように更新して（ス
テップ１１０８）、原文からの語の切り出し処理に戻る
（ステップ１１０４）。また、２言語辞書２１の検索に
失敗したときには（ステップ１１０６）、原文中の語が
変化形である可能性があるため、語尾変形処理を施こし
た後（ステップ］　１１０）、再度２言語辞書２１を検
索する（ステップ１１０５）。

なお、語尾変形処理としては、名詞複数形のＳ、動詞過
去形・過去分詞形のｅｄ、等の規則変化に対応した処理
が準備されている。例えば、原文から切り出された語の
末尾がｅｄであれば、ｅｄを削除した文字列あるいはｄ
のみを削除した文字列とする。このような語尾変形処理
を、２言語辞書２１の検索に成功するまで順次適用して
いく。どの語尾変形処理によっても、検索に失敗したと
きには（ステップ１１０９）、その語から翻訳テキスト
構成語を予測できなかったものとして、原文位置インジ
ケータの更新を行う（ステップ１１０８）。

第６図は、第１図における翻訳テキスト構成語候補集合
の例を示す図である。

原テキスト解析機能１１から出力される翻訳テキスト構
成語候補集合９１は、第６図に示すように、目標言語の
表音記号表現９１０１と文字表現９１０２の対の集合で
ある。

表音記号・文字変換機能１２の説明の前に、それが扱う
ラティスについて説明する。ラティスの構成要素には、
音韻セグメントと語セグメントの２つがある。

第７図（ａ）は、音韻セグメントのレコードフォーマッ
トを示す図であり、第７図（ｂ）は、語セグメントのレ
コードフォーマットを示す図である。

音韻セグメントのレコードは、第７図（ａ）図に示すよ
うに、そのセグメントを他のセグメントと区別するため
のセグメント識別番号９２０１、音韻セグメントである
ことを示すセグメントタイプ９２０２、そのセグメント
に与えられた表音記号を示す表音記号９２０３、そのセ
グメントの表音記号の確からしさを示す尤度９２０４、
そのセグメントに前接する音韻セグメントのセグメント
識別番号を示す前接音韻セグメントリスト９２０５、そ
のセグメントに後接する音韻セグメントのセグメント識
別番号を示す後接音韻セグメントリスト９２０６、その
セグメントに前接する語セグメントのセグメント識別番
号を示す前接語セグメントリスト９２０７、そのセグメ
ントに後接する語セグメントのセグメント識別番号を示
す後接語セグメントリスト９２０８から構成されている
。

音韻セグメントは、音韻認識機能４１の認識の結果とし
て生成されるもので、前接語セグメントリスト９２０７
、後接語セグメントリスト９２０８以外は、音韻認識機
能４１により値がセットされる。

音韻認識機能４１から出力される音韻ラティス９２の例
を、第１０図（３）に示す。

この例で、「けＪ　「げ」　「ん」　「こＪ　「とｊ「
お」　「う■　「の」　「も」Ｉｎ、Ｏｆｆめ、０　「
げ１「きＡ　「すｊ［’に」は、それぞれが音韻セグメ
ントであり、各々が第７図（ａ）に示すようなフオマッ
トのレコードを持っている。

語セグメントのレコードは、第７図（ｂ）に示すように
、そのセグメントを他のセグメントと区別するためのセ
グメント識別番号９２１１．語セグメントであることを
示すセグメントタイプ９２１２、そのセグメントの語の
文字表現を示す文字表現９２１３、そのセグメントの語
の確からしさを示す尤度９２１４、そのセグメントに前
接する音韻セグメントのセグメント識別番号を示す前接
音韻セグメントリスト９２１５、そのセグメントに後接
する音韻セグメントのセグメント識別番号を示す後接音
韻セグメントリスト９２１６、そのセグメントに前接す
る語セグメントのセグメント識別番号を示す前接語セグ
メントリスト９２１７、そのセグメントに後接する語セ
グメントのセグメント識別番号を示す後接語セグメント
リスト９２１８、および語セグメントグループ識別番号
９２１９から構成される。語セグメントは、表音記号・
文字変換機能１２が処理の過程で生成する。語セグメン
トグループ識別番号９２１９は、表音記号・文字変換機
能１２か翻訳テキスト構成語候補集合に含まれる語を音
韻ラティスから認識した場合、隣接する語セグメントを
グループ化する役割を持つ。

１つの文に対するラティスには、音韻認識機能４１によ
り認識された音韻に対応する音韻セグメント、表音記号
・文字変換機能１２により認識された語に対応する語セ
グメントの他に、処理の都合上、文の始点、終点をそれ
ぞれ表わすダミーのセグメントが２つ作成される。ダミ
ーのセグメントは、処理の都合により、音韻セグメント
として扱われたり、あるいは語セグメントとして扱われ
たりする。すなわち、実際には、音韻ではないけれども
、先頭と終了の箇所で特殊な処理を行うためである。

第８図は、第１図における表音記号・文字変換機能の処
理フローチャートである。

表音記号・文字変換機能１２の処理は、２つのフェーズ
に分割される。

第１のフェーズでは、音韻認識機能４１の出力である音
韻ラティス９２の中で、翻訳テキスト構成語候補集合９
１に含まれる語を優先的に認識する（ステップ１２０１
〜１２０３）。

第２のフェーズでは、音韻ラティス９２の中の第１のフ
ェーズで語に変換できなかった区間に対して、目標言語
辞書２２を参照して語の認識を行う（ステップ１２０４
〜ｌ　２１３）。

すなわち、第１のフェーズでは、ラティス中の音韻セグ
メント列で翻訳テキスト構成語候補集合９１に含まれる
語と一致するものを全て検索しくステップ１２０１）、
検索した音韻セグメント列のそれぞれに対応して、語セ
グメントを生成した後、音韻ラティスに接続する（ステ
ップ１２０２）。

次に、生成した語セグメントの中で互いに隣接するもの
を探して、隣接することをラティスのブタ構造中に明示
する（ステップ１２０３）。

なお、ステップ１２０２では、生成する藷セグメントの
内容を次のように決定する。セグメント識別番号９２１
１は、他のセグメントと異なる番号を与える。セグメン
トタイプ９２１２は′語セグメント′にする。そして、
文字表現９２１３は、翻訳テキスト構成語候補集合９１
中の該出語の文字表Ｊ、［９１０２をコピーする。尤度
９２１４は、その語セグメントにまとめられる音韻セグ
メント列を構成する各音韻セグメントの尤度９２０４の
和を計算して記入する。前接音韻セグメントリスト９２
１５は、その音韻セグメント列の先頭音韻セグメントの
前接音韻セグメントリスト９２０５をコピーする。これ
と同時に、その音韻セグメント列の先頭音韻セグメント
の前接音韻セグメントリスト９２０５に書かれている各
音韻セグメントの後接語セグメントリスト９２０８に、
いま生成中の語セグメントのセグメント識別番号９２１
１を書き込む。後接音韻セグメントリスト９２１６は、
その音韻セグメント列の最終音韻セグメントの後接音韻
セグメントリスト９２ｏ６をコピーする。これと同時に
、その音韻セグメント列の最終音韻セグメントの後接音
韻セグメントリスト９２０６に書かれている各音韻セグ
メントの前接セグメントリスト９２０７に、いま生成中
の語セグメントのセグメント識別番号９２１１を書き込
む。

語セグメントグループ識別番号９２１９は、自分自身の
セグメント番号９２１１と同じにする。

第９図（ａ）（ｂ）は、第８図におけるステップ１２０
３の処理の説明図である。

第９図（ａ）に示すように、語セグメントａの後接音韻
セグメントリスト９２１６に書かれた音韻セグメントで
、語セグメントｂの前接音韻セグメントリスト９２１５
に書かれた音韻セグメントに後接するものがあれば、語
セグメントａに語セグメントｂか後接していると判定し
て、第９図（ｂ）に示す構造に変更する。すなわち、語
セグメントａの後接語セグメントリスト９２１８に語セ
グメントｂのセグメント識別番号９２１１を、語セグメ
ントｂの前接語セグメントリスト９２１７に語セグメン
トａの識別番号９２１１を書き込む。

次に、第２のフェーズでは、後接語セグメントを持たな
い語セグメントに対して、後接する音韻セグメント列を
語セグメントに変換する処理を、後方の語セグメントに
到達するまで繰り返す。すなわち、先ずラティス中の始
点および語セグメントで、後接語セグメントリスト９２
１８が空であるものを探し、それらの語セグメントグル
ープ識別番号９２１９を処理未了語セグメントグループ
リストに登録する（ステップ１２０４）。そして、処理
未了語セグメントリストが空になるまで（ステップ１２
０５）、処理未了語セグメントリストから語セグメント
グループ識別番号を１つたけ選択する（ステップ１２０
６）。そして、選択した語セグメントグループ識別番号
を持つ語セグメントに対して、それに後接する音韻セグ
メント列と表音記号表現２２０１が一致する語を目標言
語辞書２２から検索する（ステップ１２０７）。検索に
成功すれば（ステップ１２０８）、検索した語に対する
語セグメントのレコードを生成する（ステップ１２０９
）。検索に失敗したならば（ステップ１２０８）、いま
処理中の語セグメントは後接語セグメントを持たないこ
とを意味するので、それを繰り返し探す処理を避けるた
めに、その語セグメントの語セグメントグループ識別番
号９２１９をｎｉｌにする（ステップ１２１０）。

また、語セグメントを生成する処理（ステップ１２０９
）で、生成した語セグメントが既に存在する語セグメン
トで異なる語セグメントグループ識別番号を持つものに
前接することがわかると（ステップ１２１１）、生成し
た語セグメントの語セグメントグループ識別番号９２１
９を処理未了語セグメントリストから削除する（ステッ
プ１２１２）。

処理未了語セグメントリストが空になると（ステップ１
２０５）、通常は、始点から終点に至る語セグメント列
が少なくとも１つはできたことを意味する。なお、どの
ような語列にも一致する表音記号列がない区間があると
きには、その区間は語セグメントが途切れている。処理
未了語セグメントリストが空になると、最も少ない数の
セグメントで始点と終点を結ぶセグメント列を選択する
。

そのようなセグメント列が複数ある場合には、セグメン
ト列を構成する各セグメントの尤度の和が最大のものを
選択する（ステップ１２１３）。表音記号・文字変換機
能１２は、選択したセグメント列上の語セグメントの文
字表現９２１３　（音韻セグメントの場合には表音記号
９２０３）を順に並べて、これを出力とする。

なお、ステップ１２０９の諸セグメントの生成処理は、
ステップ１２０２．１２０３の処理とほぼ同一であるが
、次の２つの点のみ異なっている。

すなわち、第１に異なる点は、生成する語セグメントの
文字表記９２１３として、目標言語辞書２２から検索し
たレコードの語の文字表１２２０３をコピーすることで
ある。ここで、目標言語辞書２２のレコードは、一般に
複数の文字表現２２０３を含むため（同音異語があるた
め）、各文字表現に対応した複数の語セグメントを生成
するものとする。第２に異なる点は、語セグメントグル
ープ識別番号９２１９を、前接語セグメントのグルプ識
別番号９２Ｉ９と同じにすることである。

第１Ｏ図（１）〜（４）は、本実施例の音声タイプライ
タにより、口述された翻訳文が漢字仮名混じり文に変換
される例を示す図である。

同図（１）に示すように、原文はＩｄｅａｄｌｉｎｅ　
　ｆｏｒｍａｎｕｓｃｒｉｐｔＪという名詞句である。

　同図（２）に示すように、操作者が「げんこつのしめ
きりＪと発声したとする。いま、２言語辞書２１と目標
言語辞書２２の内容が、それぞれ第３図および第４図に
示すものであるとすると、原テキスト解析機能１１が出
力する翻訳テキスト構成語候補集合９１は第６図に示す
ような集合となる。また、音韻認識機能４１が出力する
音韻ラティス９２が、第１０図（３）に示すようなラテ
ィスであるとする。

そして、図において、複数のセグメントが並列になって
いる場合には、上方のセグメントの方が尤度が高いもの
とする。このとき、表音記号・文字変換機能１２の変換
結果は、第１０図（４）に示すようになり、「原稿の締
切り」とＣＲＴに表示される。この表示中で、「の」だ
けが反転表示、つまり他が白ならば黒、他が黒ならば白
で表示されている。「のＪについては、次候補として「
も」の可能性が残っているため、反転表示しているので
ある。

なお、第１０図の例における表音記号・文字変換機能１
２の処理を、さらに詳細に説明する。

例えば、「げんこつＪと発声した部分に対しては、音響
的には「けんこお」が最尤群であって、さらに　「けん
こう」、　「けんとお」、「けんとう」、「げんこお」
、「げんとお」、「げんとう」等の可能性があることを
、第１０図（３）の音韻ラティスが表わしている。表音
記号・文字変換機能１２は、これらの中から翻訳テキス
ト構成語候補集合９１に含まれている「げんこつＪを選
択して、翻訳テキスト構成語候補集合９１が示す文字表
現「原稿」に変換する。このようにして、「げんこつ」
が音響的には尤度が最大ではないにもかがわらず選択さ
れている。また、「げんこつ」に対して「原稿」、「現
行」、「言行」のような同音異語の問題も生じていない
。

このように、本実施例の音声タイプライタにおいては、
音声認識における曖昧性（音韻の曖昧性と同音異語）が
解消されるので、実用的な認識率が達成できる。

次に、本発明の第２の実施例について説明する。

第２の実施例では、仮名漢字変換方式の翻訳用ワードプ
ロセッサの場合を述べる。

第１１図は、本発明の翻訳用ワードプロセッサのハード
ウェア構成図である。

本実施例の翻訳用ワードプロセッサは、中央処理装置１
０１と、記憶装置ｌ○２と、キーボード１０３と、ＣＲ
Ｔデイスプレィ１０４と、第１フロツピーデイスク駆動
装置１０５と、第２フロツピーデイスク駆動装置１０６
と、プリンタ１０７から構成されている。

第１２図は、第１１図に示す翻訳用ワードプロセッサの
機能ブロック図である。

第１２図に示す原テキスト解析機能１０１１、仮名漢字
変換機能１０１２．２言語テキスト表示機能１０１３お
よび翻訳テキストセーブ機能１０１４は、いずれもプロ
グラムモジュールであって、中央処理装置１０１の演算
回路により実行されることにより各機能を遂行する。

記憶装置１０２には、２言語辞書１０２１および目標言
語辞書１０２２が記憶され、さらに仮名漢字変換処理の
途中で翻訳文データを格納する翻訳文バッファ１０２３
の領域が確保されている。

また、第１フロツピーデイスク駆動装置１０５と第２フ
ロツピーデイスク駆動装置１０６にセットされたフロッ
ピーディスクを、それぞれ原テキストファイル１０５１
、翻訳テキストファイル１０６１として用いる。

次に、翻訳用ワードプロセッサの動作を説明する。

先ず、２言語テキスト表示機能１０１３は、原テキスト
ファイル１０５１から原テキストを読み出し、ＣＲＴデ
イスプレィ１０４の原テキスト表示領域に表示する。こ
の場合、処理すべき１文のみを反転表示する。

原テキスト解析機能１０１１は反転表示された文を形態
素解析し、２言語辞書１０２１を検索することにより、
翻訳テキスト構成語候補集合９０１を求める。

一方、ＣＲＴデイスプレィ１０４に表示された原テキス
トのうち反転表示された文９０４を操作者が翻訳し、翻
訳文９０５をキーボード１０３から仮名入力する。入力
された仮名データは、翻訳文バッファ１０２３に格納さ
れる。仮名漢字変換機能１０１２は、翻訳文バッファｌ
　０２３の内容を読み出して、仮名文字の部分に対して
仮名漢字変換を実行する。そして、変換できたときには
、翻訳文バッファ１０２３中の該当する仮名文字ブタを
漢字仮名混じり表記データに置き換える。

仮名漢字変換機能＋０１２は、翻訳テキスト構成語候補
集合９０１に含まれる語を優先して選択し、翻訳テキス
ト構成語候補集合９０１に含まれる語に変換できないこ
とか判明した場合、その部分を目標言語辞書１０２２を
参照して漢字仮名混じり文に変換する。

２言語テキスト表示機能」０１３は、常時翻訳バッファ
１０２３を監視しており、最新のバッファ内容をＣＲＴ
デイスプレィ１０４の翻訳文表示領域に表示する。また
、キーボード１０３から入力された記号が文末記号であ
ることを検出すると、原テキスト表示領域の反転表示す
る文を次の文に変更する。

翻訳テキストセーブ機能１０１４も、翻訳文バッファ１
０２３を常時監視しており、文末記号を検出すると、翻
訳文バッファ１０２３の内容を翻訳テキストファイル１
０６１にセーブした後、翻訳文バッファ１０２３をクリ
アする。

第１３図は、第１２図における仮名漢字変換機能の処理
フローチャートである。

２言語辞書１０２１と目標言語辞書１０２２と原テキス
ト解析機能１０１１は、第１の実施例で説明したものと
全く同一であるため、説明を省略する。第１３図におい
て、ＢＵＦは翻訳文バッファ１０２３を示し、バッファ
の第１番目の文字をＢＵＦ（ｊ）、バッファの第１番目
から第３番目の文字列をＢＵＦ（ｉ、　　・・・、Ｊ）
で示す。また、バッファ中の仮名漢字変換が済んでいな
い部分の先頭文字の位置を示す未変換部インジケータを
Ｉ、バッファ中の最後の文字の位置を示す最終文字イン
ジケータをＪとする。

仮名漢字変換機能１０１２は、翻訳文バッファ１０２３
か翻訳テキス［・セーブ機能１０１４によりクリアされ
たことを検知すると、最終文字インジケータＪを初期値
Ｏにリセットしくステップ１０１２０１）、また未変換
部インジケータ■を初期値ｌにリセットする（ステップ
１０１２０２）。

この後、キーボード１０３からの入力を待つ（ステップ
１０１２０３）。そして、入力があると、入力が文末記
号になるまでステップ１０１２０４〜１０１２１６の処
理を繰り返し行う。新たに仮名文字が入力されると、先
頭位置インジケータＪをまたけ進め（ステップ１０１２
０４）、ＢＵＦ（Ｊ）に入力された仮名文字を格納する
（ステップ１０１２０５）。続いて、ＢＵＦ　（１，・
・・・Ｊ）の仮名漢字変換を実行する。先ず、ＢＵＦ（
１゜・・・、Ｊ）の後方のできる限り長い仮名文字列と
仮名表記が一致する語を翻訳テキスト構成語候補集合９
０１から検索する。このために、変数ＸをＯから１ずつ
増加させながら、ｘｆＪ＜Ｊ−Ｉになるまで、ＢＵＦ（
Ｉ　＋ｘ、　　・・・、Ｊ）と表音記号表現が一致する
語を翻訳テキスト構成語候補集合９０１から検索する（
ステップ１０１２０６，１０１２０７．１０１２０８，
１０１２０９．１０１２１０）。ＸがＪ−１になるまで
の値について、いずれも検索に失敗したときには（ステ
ップ１０１２０８．１０１２０９）、次の仮名でのキー
入力を待つ（ステップ１０１２０３）。

翻訳テキスト構成語候補集合９０１からの検索に成功し
たときには（ステップ１０１２０８）、ＢＵＦ内の仮名
文字列を漢字列に置き換えた後、次の仮名入力を待つ（
ステップ１．　Ｏｌ　２１１〜１０１２１６．１０１２
０３）。、：こで、ＸがＯのとき、すなわちＢＵＦ（Ｔ
、　　・・・・、Ｊ）全体が翻訳テキスト構成語候補集
合９０１中の語であった場合、翻訳テキスト構成語候補
集合９０１に示されている漢字表記（第６図の文字表現
９１０２）を直ちにＢＵＦに格納する。すなわち、長さ
Ｚの漢字表記をＢＵＦ（Ｉ、　　・・・、Ｉ＋ｚ−１）
に格納しくステップ１０１２１５）、■およびＪが格納
した漢字表記の次の位置を指すように更新する（ステッ
プｌ　Ｏ１２１６）。また、ｘ　＞　Ｏのとき、すなわ
ちＢＵＦ（Ｉ、　　・・・、Ｊ）の後方の一部が翻訳テ
キスト構成語候補集合９０１中の語であったときには、
未変換部分であるＢＵＦ（Ｔ、　　・・・Ｉ＋ｘ−１）
について、目標言語辞書１０２２を用いて仮名漢字変換
を実行する（ステップ１０１２］２）。この仮名漢字変
換は、従来の方法により行うが、変換精度を向上するた
めに、変換後の語数が少ないものを優先する等の処理を
行う。

次に、ＢＵＦ（１，・・・、Ｉ＋ｘ−１）の仮名漢字変
換の結果が長さｙの文字列であるとすると、これをＢＵ
Ｆ（Ｉ、　　・・・・、ｒ＋ｙ−１）に格納して（ステ
ップ１０１２１３）、■およびＪを格納した漢字列の次
を指すように更新する（ステップ１０１２１４）。その
後、翻訳テキスト構成語候補集合９０１から検索され、
ＢＵＦへの格納が保留されていた語の漢字表記を前述と
同じようにＢＵＦに格納しくステップ１０１２１５）、
■とＪを格納した漢字列の次を指すように更新する（ス
テップ１０１２１６）。

最後に、キーボード１．０３から入力された記号が末尾
記号になると（ステップ１０１２０３）、文末部分が仮
名漢字変換済みが否かを判定しくステップ１０１２１７
）、変換済みでなければ、目標言語辞書１０２２を用い
て仮名漢字変換を行い（ステップ１０１２１８）、変換
された結果をＢＵＦに格納して（ステップ１０１２１９
）、処理を終了する。

第１４図は、本発明による翻訳用ワードプロセッサの仮
名漢字変換例を示す図である。

仮名で入力された翻訳文が、漢字仮名混じり文に変換さ
れる場合を示す。操作者が画面で見る原文は、第１４図
（１）に示すように、［ｆ’ｄｅａｄｌｉｎｅｆｏｒ　
　ｍａｎｕｓｃｒｉｐｔＪという名詞句である。操作者
はこれを翻訳して、キーボード１０３から第１４図（２
）に示すように、「げんこうのていしゆつきげん」と仮
名で入力したものとする。

いま、２言語辞書１０２１、目標言語辞書１０２２が、
それぞれ第３図および第４図に示す内容であるとすれば
、原テキスト解析機能１０１１は第６図に示すような翻
訳テキスト構成語候補集合９０１を出力する。

第１４図（３）には、仮名文字を１字入力する度に、Ｃ
ＲＴデイスプレィ１０４の翻訳文表示が変化する状態を
示している。ここで、「げんこつＪと「きげん」の部分
に見られるように、同音異語の問題が予め原テキスト解
析を行うことにより、解決されている。すなわち、従来
の仮名漢字変換処理では、ｒげんこつ」に対して「原稿
」　「現行」Ｔ言行」等が、「きげん」に対しては「期
限」「起源」　「紀元」等が、それぞれ候補となる。し
かし、本発明では、原テキスト解析機能１０１１が「原
稿Ｊと「期限」をそれぞれ予測することにより、他の候
補は棄却されてしまう。なお、「のていしゆつ」の部分
のように、原テキスト解析機能１ｏ１１が予測する語と
一致しない部分については、同音異語の問題が生じるこ
ともある。

本実施例の他の利点として、原テキスト解析機能１０１
１が予測する語と仮名表記が一致する部分を高い確信度
で語と判定できるので、べた入力の仮名文字列の場合で
も、語に分割する処理が高精度で行える。その結果、仮
名漢字変換処理における操作者の負担は格段に軽減され
る。

次に、第１の実施例（音声タイプライタ）および第２の
実施例（仮名漢字変換方式のワードプロセッサ）の変形
例について、説明する。

第１および第２の実施例においては、翻訳テキストの全
文を、第１の実施例は音声で、第２の実施例は仮名で、
それぞれ入力するものであった。

しかし、機械翻訳の結果を後編集するときのように、翻
訳テキストの断片を入力する場合にも、本発明は適用で
きる。すなわち、本発明の他の実施例として、翻訳テキ
スト中に挿入したり、置換する文や語句を音声や仮名で
入力する翻訳テキスト編集装置を実現することができる
。例えば、ｌｒｍａｎｕｓｃｒｉｐｔ、Ｑを機械翻訳が
「手書き」と翻訳したが、操作者かに原稿」に修正する
ため「げんこつＡと口述入力したとする。この時、原テ
キスト中の［ｔ’ｍａｎｕｓｃｒｉｐＪから「原稿」が
予測されているので、「げんこつ」は「原稿↓に変換さ
れる。このように、原テキストを解析して、挿入や置換
する文や句を構成する語を予測することにより、挿入・
置換する文や語句の音声認識および漢字仮名変換の精度
を向上できる。

また、他の変形例として、翻訳ではなく、テキストの要
約を入力する装置も実現できる。要約を構成する語の大
部分は、原テキストに含まれる語であることが多いため
、原テキストを構成する語を要約テキストを構成する語
の候補と考えて、要約テキストの音声認識あるいは仮名
漢字変換に利用できる。

すなわち、文の要点だけで文を作成する際に、重要な単
語、例えば「誰が、ｊｌ［ｉ’何時に」　「とこで」「
何をしたか」という語は、全て原テキスト中に含まれて
いるので、原テキストから予測情報を利用することによ
り、要約テキストの音声認識や仮名漢字変換を高精度で
実現できる。

次に、本発明の第３の実施例として、画像のコメント文
入力装置を詳述する。この装置は、専門家が画像を分析
して、コメントを音声で口述することにより、これを文
字化する装置である。

第１５図は、本発明の第３の実施例を示す画像コメント
文入力装置のハードウェア構成図である。

コメント文入力装置は、中央処理装置２１０と、記憶装
置２２０と、マイクロホン２３０と、音響処理装置２４
０と、画像スキャナ２５０と、画像記憶装置２６０と、
画像表示装置２７０と、プリンタ２８０とから構成され
ている。

第１６図は、第１５図における画像コメント文入力装置
の機能ブロック図である。

画像解析機能２１１と表音記号・文字変換機能２１２と
画像表示機能２］３とは、いずれもプログラムモジュー
ルであって、中央処理装置２１２により機能が遂行され
る。また、音韻認識機能２４１は、音響処理装置２４０
により機能が遂行される。

画像・言語変換辞書２２１と単語辞書２２２とコメント
文ファイル２２３は、いずれも記憶装置２２０にそれら
の領域が確保されている。また、画像ファイル２６１は
、メモリ容量が膨大となるため、画像記憶装置２６０の
領域を使用して格納される。なお、画像は、画像スキャ
ナ２５０を介して画像ファイル２６１に格納される。

以下、画像コメント・文入力装置の動作を説明す先ず、
画像表示機能２１３は画像ファイル２６１から操作者が
選んだ画像データを読み出し、その画像データを画像表
示装置２７０に表示する。

次に、画像解析機能２１１は、表示された画像の特徴抽
出を行い、画像・言語変換辞書２２１を参照することに
より、コメント文構成語候補集合２９１を求める。ここ
で、画像・言語変換辞書２２１は、画像の特徴パターン
とその特徴パターンから連想される用語を対応付ける辞
書であって、応用分野毎に用意されている。用語の情報
としては、その表音記号表現と文字表現を含んでいる。

画像解析機能２１１は、画像・言語変換辞書２２１中の
特徴パターンとのパターンマツチングにより、画像に含
まれる特徴パターンを検出して、その特徴パターンに対
応する用語の情報をコメント文構成語候補集合２９］の
格納エリアに出力する。

一方、画像表示装置２７０の画面に表示された画像２９
４を見ながら、操作者はコメント文、例えば画像の解釈
や所見等２９５を口述することにより、マイクロホン２
３０が音声を電気信号に変換する。音韻認識機能２４１
は入力した電気信号の音声波形を解析し、セグメンテー
ションおよび特徴パラメータの抽出を行って、入力音声
を音韻ラティス２９２に変換する。

次に、表音記号・文字変換機能２１２は、音韻認識機能
２４１の出力である音韻ラティス２９２を語列に変換す
る。その際に、画像解析機能２１１の出力であるコメン
ト文構成語候補集合２９１に含まれる語を優先して選択
する。コメント文構成語候補集合２９１に含まれる語に
変換できない区間に対しては、単語辞書２２２を参照し
て語列に変換する。単語辞書２２２は、第］の実施例に
示した目標言語辞書と同じものであるため、内容の説明
は省略する。コメント文構成語候補集合２９１、単語辞
書２２２の内容には、いずれも語の文字表現が含まれて
いるので、音韻ラティス２９２から変換された語列を基
に、直ちにコメント文の文字表記２９３を作成して、コ
メント文ファイル２２３に格納する。なお、コメント文
ファイル２２３に格納されたコメント・文は、プリンタ
２８０により印刷される。

本実施例と第１の実施例とを比較すると、いずれも口述
テキストを文字に変換する点で同一であるが、第１実施
例では、翻訳テキスト構成語を原テキス［・から予測す
るのに対して、本実施例では、原画像からコメント文構
成語を予測する点のみが異なっている。従って、本実施
例でも、音声から文字への変換が高精度で行われること
は説明を要しない。画像データの解析は、あるレベルま
ては計算機で行うことができるが、それ以上は限界があ
り、最終的には専門家の判断に頼らなければならないこ
とか多い。本実施例によれば、このような要望に対して
、専門家が自然な状態で口述した音声を入力することに
より、確実に判断結果を入力することができる。

次に、本発明の第４の実施例として、音声入力機能付き
文字認識装置について説明する。

これは、文字認識装置において、文字認識の第１解と次
の解の尤度差がそれほど違わない場合に、その文字を操
作者に表示して、操作者がその文字ないしその文字を含
む単語の読みを音声で与えることにより、正解の選択を
可能にしたものである。

操作者が読みを発声すると、それによって音声認識を行
い、先の文字認識の結果と併用して解を求める。操作者
が全文を発声することなく、表示された一部の文字ない
し単語を見て発声するだけであるため、殆んど手間がか
からず、文字認識の結果と音声認識の結果とを組み合わ
せることで、それぞれが含む曖昧性を解消するので、認
識率が格段に向上する。

第１７図は、本発明の第４の実施例を示す音声入力機能
付き文字認識装置のハードウェア構成図である。

本実施例の文字認識装置は、中央処理装置３１０と、記
憶装置３２０と、文字スキャナ３３０と、フロッピーデ
ィスク駆動装置３４０と、ＣＲＴデイスプレィ３５０と
、マイクロホン３６０と、音響処理装置３７０とで構成
されている。

第１８図は、第１７図における音声入力機能付き文字認
識装置の機能ブロック図である。

文字認識機能３１１とテキストデータ管理機能３１２と
文字図形表示機能３１３と文字単語認識機能３１４と音
声単語認識機能３１５と最尤単語選択機能３１６とは、
いずれもプログラムモジュールであって、中央処理装置
３１０の演算回路により実行されることによって、それ
ぞれの機能を遂行する。

また、記憶装置３２０には、文字認識辞書３２１と単語
辞書３２２か格納される他に、図形バッファ３２３およ
びテキストバッファ３２４の領域か確保されている。ま
た、フロッピーディスク駆動装置３４０にセットしたフ
ロッピーディスクは、テキストファイル３４１として用
いられる。

次に、音声入力機能付き文字認識機能の動作の概要を説
明する。

先ず、文字スキャナ３３０は、図形としての文字を読み
取り、読み取った文字を図形バッファ３２３に順次格納
していく。

文字認識機能３１１は、図形バッファ３２３内の文字パ
ターンを文字認識辞書３２１を参照することにより認識
する。テキストデータ管理機能３１２は、認識された文
字の中で、曖昧性があるものを検出し、文字図形表示機
能３１３によりＣＲＴデイスプレィ３５０に出力して、
操作者にその文字を含む語の読みを口述させる。文字単
語認識機能３１４は、曖昧性のある文字に対して単語辞
書３２２を参照することにより最尤単語選択機能３１６
に第１単語候補集合３９１を出力する。

一方、音声単語認識装置３１５は、操作者が口述した音
声を認識することにより、第２単語候補集合３９５を最
尤単語選択機能３１６に出力する。

次に、最尤単語選択機能３１６は、文字単語認識機能３
１４からの第１単語候補集合３９１および音声単語認識
機能３１５がらの第２単語候補集合３９５を受は取り、
これらに共通に含まれる語を選択する。最尤単語選択機
能３１６の選択結果に基づいて、テキストデータ管理機
能３１２はテキストバッファ３２４内のテキストデータ
を更新する。

次に、各機能の動作を詳細に説明する。

文字認識機能３１１は１図形バッファ３２３から１文字
ずつ図形データを取り出して、その特徴抽出を行い、文
字認識辞書３２１を参照することにより文字認識を行う
。文字認識辞書３２１は、図形としての文字の特徴パタ
ーンと文字コードとを対応付けるものである。文字認識
機能３１１は、図形バッファ３２３から読み出した図形
データと文字認識辞書３２１中の特徴パターンのマツチ
ングをとり、一致度が最大の特徴パターンに対応する文
字コードを第１の解として選び、これをテキストバッフ
ァ３２４に出力する。しかしながら、第１の解と一致度
の差が予め定めた値以下の特徴パターンが複数個存在す
る場合には、曖昧性があると判断して、それらの特徴パ
ターンにそれぞれ対応する複数の文字コードをテキスト
バッファ３２４に出力する。テキスバッファ３２４に出
力される文字コードとともに、パターンの一致度を解の
尤度とみなして、これも同時にテキストバッファ３２４
に出力する。

次に、テキストデータ管理機能３１２は、テキストバッ
ファ３２４を常時監視しており、曖昧性のある結果（文
字コードと一致度）がテキストバッファ３２４に書き込
まれると、テキスト中のその位置を文字図形表示機能３
１３および文字単語認識機能３１４の両者に通知する。

文字図形表示機能３１３は、文字認識処理で曖昧性が生
じた位置を通知されると、図形バッファ３２３からその
前後を含む図形データを読み出し、ＣＲＴデイスプレィ
３５０に表示する。曖昧性のある文字のみをブリンク表
示し、その他の文字は通常の表示をする。

次に、文字単語認識機能３１４は、文字認識で曖昧性の
生じた位置が通知されると、テキストバッファ３２４か
らその前後を含むテキストデータを読み出し、文字認識
で曖昧性が生じた文字を含む文字列をキーとして単語辞
書３２２を検索する。

単語辞書３２２は、この文字認識装置が対象とする言語
の語気を集めたものであり、各語の文字表現と表音記号
表現とを対応付けて記憶している。

単語辞書３２２は、文字単語認識機能３１４の検索要求
を満たすために、文字表現をキーとして検索できるとと
もに、音声単語認識機能３１５の検索要求を満たすため
に、表音記号表現をキーとしても検索できるように構成
される。文字単語認識機能３１４は、テキストデータに
含まれる文字列の全ての可能性について単語辞書３２２
の検索を行い、検索に成功した文字列（単語）の集合を
出力する。このとき、単語を構成する文字の尤度をテキ
ストバッファ３２４から読み出し、その和を計算し、単
語の尤度として併せて出力する。文字単語認識機能３１
４が出力する単語集合を、第１単語候補集合３９１と呼
ぶ。

方、文字図形表示機能３１３によりＣＲＴデイスプレィ
３５０の画面上に文字３９２がブリンク表示されると、
操作者はそれを見て、その文字を含む単語の読み３９３
を発声する。マイクロホン３６０は、その読み３９３の
音声を電気信号に変換する。

音韻認識機能３７１は、読み３９３の音声波形を解析し
、セグメンテーション、特徴パラメータの抽出を行い、
入力音声を音韻ラティス３９４に変換する。音韻ラティ
ス３９４は、音声を表音記号列に変換する際に、セグメ
ンテーションおよびセグメントの表音記号によるラベル
づけにおける曖昧性を考慮し、可能性のある表音記号列
を全て含んだ形にしている。

次に、音声単語認識機能３１５は、音韻認識機能３７１
の出力である音韻ラティス３９４に含まれる表音記号列
の各々をキーとして、単語辞書３２２を検索する。検索
に成功した全ての表音記号列に対して、その表音記号列
に対応する単語の文字表現を単語辞書３２２から読み出
し、それらを第２単語候補集合３９５として出力する。

この際に、音韻ラティス３９４を参照して、単語が対応
する表音記号列を構成する各表音記号の尤度の和を求め
、これを単語の尤度として併せて出力する。

次に、最尤単語選択機能３１６は、第１単語候補集合３
９１と第２ｈＡ語候補集合３９５に共通に含まれる単語
を探索する。共通に含まれる単語が１つ存在すれば、そ
れを解として選択し、テキストデータ管理機能３１２に
通知する。共通に含まれる単語が複数個存在する場合に
は、第］単語候補集合３９１における尤度と第２単語候
補集合３９５における尤度の和か最大のものを解として
選択し、これをテキストデータ管理機能３１２に通知す
る。共通に含まれる単語が１つも存在しないときには、
その旨をテキストデータ管理機能３１２に通知する。

テキストデータ管理機能３１２は、最尤単語選択機能３
１６から処理結果の通知を受けると、それに応じてテキ
ストバッファ３２４内のテキストデータを更新する。最
尤単語選択機能３１６が解を得て、それをテキストデー
タ管理機能３１２に通知すると、管理機能３１２はその
解と両立しない文字をテキストデータから削除する。最
尤単語選択機能３１６が解を得ることができながったと
きには、文字認識機能３１１が最も高い尤度を与えた文
字を選択し、競合する他の解を削除する。

このようにして、テキストデータ管理機能３１２はテキ
ストバッファ３２４中のテキストデータを更新した後、
更新されたテキストデータをテキストバッファ３２４が
らテキストファイル３４１に転送する。

本実施例の音声入力機能付き文字認識装置は、このよう
にして音声認識と文字認識の組み合わせにより、曖昧性
を解消している。例えば、「一方」という語を文字認識
した場合、解の候補として、例えば「−万」、「一方」
、「−力Ｊが得られる。

これに対して、操作者が「いっぽう」と発音して読みを
与えた場合には、音声認識でも曖昧性が生じる。例えば
、「いっぽ」、「いっぽう」、「いはう」、ｒいっはう
」が得られ、これをキーとして単語辞書３２２を検索す
ると、解の候補としては、「−歩」、「一方」、「−報
」、「違法」、「異邦」が得られる。文字認識による解
の候補と音声認識による解の候補に共通に含まれている
のは、これらのうち「一方」のみであるため、この単語
が解と決定される。

このように、本発明では、文字認識装置に対する人間の
介入は、装置が提示する語を読むという自然な形で行う
ことができる。従来がらよく用いられる方法として、装
置が表示する複数の候補から正しいものを選択する方法
があるが、候補が多くなると正解を探すために時間がか
がるという問題がある。本発明は、装置が提示する語を
読むたけであるため、極めて効率的で簡易な方法と言え
る。

次に、本発明の第５の実施例として、同時通訳音声タイ
プライタについて説明する。

これは、第１言語の話者による原テキストと、それを同
時通訳者が翻訳した翻訳テキストの両方を、音声から文
字に変換する装置である。

第１９図は、本発明の第５の実施例を示す同時通訳音声
タイプライタのハードウェア構成図である。

本実施例の同時通訳音声タイプライタは、中央処理装置
４１０と、記憶装置４２０と、第１マイグロホン４３０
と、第１音響処理装置４４０と、第１フロツピーデイス
ク駆動装置４５０と、第２マイクロホン４６０と、第２
音響処理装置４７０と、第２フロツピーデイスク駆動装
置４８０とで構成されている。

第２０図は、第１９図における同時通訳音声タイプライ
タの機能ブロック図である。

第１表音記号・文字変換機能４１１と第２表音記号・文
字変換機能４１２と最尤解選択機能４１３は、いずれも
プログラムモジュールであって、中央処理装置４１０の
演算回路により実行されることにより、その機能が遂行
される。また、第１音韻認識機能４４１と第２音韻認識
機能４７１は、それぞれ第１音響処理装置４４０、第２
音響処理装置４７０によりその機能が遂行される。また
、第１言語辞書４２１と第２言語辞書４２２と２言語辞
書４２３は、いずれも記憶装置４２０に格納されている
。また、第１言語テキストファイル４５１と第２言語テ
キストファイル４８１として、それぞれ第１フロツピー
デイスク駆動装置４５０、第２フロツピーデイスク駆動
装置４８０にセットしたフロッピーディスクが用いられ
る。

次に、同時通訳音声タイプライタの動作を説明する。

原話者が第１言語の原テキストを口述すると、第１マイ
クロホン４３０は、その音声を電気信号に変換する。第
１音韻認識機能４４１は、原テキストの音声波形を解析
し、セグメンテーション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第１表音記号・文字変
換機能４１１は、第１言語辞書４２１を参照して、音韻
ラティスを単語ラティスに変換する。単語ラティスは、
複数の単語列を束の形にしたものであって、音声認識の
結果を、曖昧性を含んだ形で表現している。

一方、原話者により口述される第１言語の原テキストを
同時通訳者が第２言語に翻訳して口述すると、第２マイ
クロホン４６０は、その音声を電気信号に変換する。第
２音韻認識機能４７１は、翻訳テキストの音声波形を解
析し、セグメンテション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第２表音記号・文字変
換機能４１２は、第２言語辞書４２２を参照して、音韻
ラティスを単語ラティスに変換する。

次に、最尤解選択機能４１３は、第１表音記号文字変換
機能４１１から原テキストの単語ラティスを、第２表音
記号・文字変換機能４１２から翻訳テキストの単語ラテ
ィスをそれぞれ受は取り、両者の突き合わせを行う。す
なわち、原テキストの単語ラティスに含まれる各単語を
２言語辞書４２３から検索して、各単語に対する第２言
語の訳語を求め、さらに、各訳語が翻訳テキストの単語
ラティスに含まれるか否かをチエツクする。このように
して、原テキストの単語ラティスと翻訳テキストの単語
ラティスに含まれている対訳関係を全て抽出する。抽出
した対訳関係に含まれている第１言語の単語の集合を、
第１表音記号・文字変換機能４１１に通知する。この単
語集合を、第１言語最尤単語集合と呼ぶ。同じく抽出し
た対訳関係に含まれている第２言語の単語の集合を、第
２表音記号・文字変換機能４１２に通知する。この単語
集合を、第２言語最尤単語集合と呼ぶ。

次に、第１表音記号・文字変換機能４１１は、最尤解選
択機能４１３から第１言語最尤単語集合を受は取ると、
原テキストの単語ラティスがら最尤単語列を求める。す
なわち、第１言語最尤単語集合に含まれる単語を優先的
に残し、それと競合する単語は削除することにより、単
語ラティスを１つの卑語列に縮退させる。なお、第１言
語最尤単語集合に含まれる単語どうしが競合する区間や
、第１言語最尤単語集合に含まれる単語がない区間につ
いては、音韻的に尤度の高い単語を残す。このようにし
て得られた単語列を、第１言語テキストファイル４５１
に出力する。

全く同じようにして、第２表音記号・文字変換機能４１
２は、最尤解選択機能４１３がら第２言語最尤単語集合
を受は取ると、翻訳テキストの単語ラティスから最尤単
語列を求める。すなわち、第２言語最尤単語集合に含ま
れる単語を優先的に残し、それと競合する単語は削除す
ることにより、単語ラティスを１つの単語列に縮退させ
る。なお、第２言語最尤単語集合に含まれる単語どうし
が競合する区間や、第２言語最尤単語集合に含まれる単
語がない区間については、音韻的に尤度の高い単語を残
す。このようにして得られた単語列を、第２言語テキス
トファイル４８１に出ツノする。

本実施例の同時通訳音声タイプライタでは、原テキスト
の音声認識の結果と翻訳テキストの音声認識の結果とを
組合わせて、それぞれに含まれる曖昧性の解消を図るこ
とにより、最終的な音声認識の精度を大きく向上させる
。

このように、本発明では、組合せる対象によって種々の
装置が実現できる。すなわち、文字による原テキストと
音声による翻訳テキストの組合せにより、翻訳テキスト
を音声から文字表記に変換する翻訳用音声タイプライタ
が実現できる。また、文字による原テキストと仮名ある
いはローマ字による翻訳テキストの組合せにより、翻訳
テキストを仮名あるいはローマ字から漢字仮名混り文に
変換する翻訳用ワードプロセッサが実現できる。また、
テキストとその要約の組合せにより、テキストの要約を
口述したり、仮名やローマ字で入力して文字表記に変換
する要約テキスト入力装置が実現できる。また、画像と
それに対するコメント文の組合せにより、画像に対する
コメント文を口述したり、仮名やローマ字で入力して文
字表記に変換する画像コメント文入力装置が実現できる
。また、図形としての文字と文字あるいは単語の読みの
組合せにより、高精度の文字認識装置が実現できる。ま
た、第１言語の音声とその第２言語への同時通訳音声と
の組合せにょ番ハ同時通訳音声タイプライタが実現でき
る。

〔発明の効果］以上説明したように、本発明によれば、相互に関連をも
つ複数の対象をそれぞれ解析して、変換あるいはＨａｌ
ｋを行って解を求め、それらに共通する解を選ぶことに
より、１つの対象のみを解析する場合に比較して、変換
あるいは認識の精度を著しく向上させることが可能であ
る。

【図面の簡単な説明】

第１図は本発明の第１の実施例を示す翻訳用音声タイプ
ライタの機能ブロック図、第２図は第１図における翻訳
用音声タイプライタのハードウェア構成図、第３図は第
１図における２言語辞書のレコードの例を示す図、第４
図は第１図における目標言語辞書のレコードの例を示す
図、第５図は第１図における原テキスト解析機能の処理
フロチャート、第６図は第１図における翻訳テキスト構
成語候補集合を示す図、第７図は第１図におけるラティ
ス構成要素のデータ構造を示す図、第８図は第１図にお
ける表音記号・文字変換機能の処理フローチャート、第
９図は第１図における隣接する語セグメントに対する処
理の説明図、第１０図は第１図における音声から漢字仮
名混じり文への変換例を示す図、第１１図は本発明の第
２の実施例を示す翻訳用ワードプロセッサのハードウェ
ア構成図、第１２図は第１１図における翻訳用ワードプ
ロセッサの機能ブロック図、第１３図は第１１図におけ
る仮名漢字変換機能の処理フローチャート、第１４図は
第１１図における仮名漢字変換例を示す図、第１５図は
本発明の第３の実施例を示す画像のコメント文入力装置
のハードウェア構成図、第１６区は第１５図における画
像のコメント文入力装置の機能ブロック図、第１７図は
本発明の第４の実施例の音声入力機能付き文字認識装置
のハードウェア構成図、第１８図は第１７図における音
声入力機能付き文字認識装置の機能ブロック図、第１９
図は本発明の第５の実施例の同時通訳音声タイプライタ
のハードウェア構成図、第２０図は第１９図における同
時通訳音声タイプライタの機能ブロック図である。１．１０１，２１０，３１０，４１０・中央処理装置、
２，１０２，２２０，３２０，４２０：記憶装置、３．
．２３０，３６０：ｖイ’７０ホン、４３０．４６０：
第１および第２マイクロホン、４．２４０，３７０：音
響処理装置、４４０，４７０、第１および第２音響処理
装置、５，１０４゜３５０＋ＣＲＴデイスプレイ、６，
１０３　　キボー阻７　：ＯＣＲ，８，］、０７，２８
０　：プリンタ、１１．原テキスト解析機能、１２，２
１２：表音記号・文字変換機能、４１１，４１２＋第１
および第２表音記号・文字変換機能、１３．２言語テキ
スト表示機能、２１，１０２］、４２３２言語辞書、２
２．１０２２＋目標言語辞書、２３．１０５１＋原テキ
ストフアイル、２４．１０６１　翻訳テキストファイル
、４１，２４１，３７１・音韻認識機能、４４１，４７
１＋第１および第２音韻認識機能、１０５，１０６・第
１および第２フロツピーデイスク駆動装置、３４０　　
フロッピーディスク駆動装置、４５０，４８０：第１お
よび第２フロツピーデイスク駆動装置、１０１１・原テ
キスト解析機能、１０１２：仮名漢字変換機能、１０１
３：２言語テキスト表示機能、＋０１４・翻訳テキスト
セーブ機能、Ｉ　０２３翻訳文バッファ、２５０・画像
スキャナ、２６０画像記憶装置、２７０・画像表示装置
、２１）画像解析機能、２１３１画像表示機能、２２１
・画像・言語変換辞書、２２２，３２２：単語辞書、２
２３：コメント文ファイル、２６１・画像ファイル、３
３００文字スキャナ、３２１　文字１２に辞書、３２４
　テキストバッファ、３４１．テキストファイル、３２
３　図形バッファ、３１４文字単語認識機能、３１６　
最尤単語選択機能、３１５：音声単語認識機能、３１１
０文字認識機能、３１２・テキストデータ管理機能、３
１３文字図形表示機能、４１３．最尤解選択機能、４２
１、第１言語辞書、４２２：第２言語辞書、４５１：第
１言語テキストファイル、４８１．第２言語テキストフ
ァイル。第図３３第図第６図第図第１図第１図町顕り圀 ○　＼Ｊ　ニ　、ｊ　　（Ｖ　枯　賢　そ第図第２図

Claims

【特許請求の範囲】１、原情報に対応して作成されるテキストの入力方法に
おいて、上記原情報を解析して、入力される上記テキス
トを構成する語に関する情報を予測するとともに、第１
の表現方法で入力されたテキストを、上記予測された語
情報を利用して、目的とする第２の表現方法によるテキ
ストに変換することを特徴とするテキスト入力方法。２、第１の表現方法で入力される翻訳テキストを読み取
り、目的とする第２の表現方法のテキストに変換する翻
訳テキスト入力方法において、上記翻訳テキストが対応
している原テキストを原テキスト解析モジュールを実行
することにより解析して、上記翻訳テキストを構成する
語を予測するとともに、翻訳テキスト変換モジュールを
実行することにより、上記予測された語情報を利用して
、第１の表現方法による翻訳テキストを第２の表現方法
によるテキストに変換することを特徴とする翻訳テキス
ト入力方法。３、請求項２に記載の翻訳テキスト入力方法において、
上記原テキスト解析モジュールは、原言語の語と目標言
語の対訳語および連想される目標言語の語とを対応付け
る２言語辞書を用いて、原テキストを構成する語から翻
訳テキストを構成する語を予測し、上記翻訳テキスト変
換モジュールは、第１の表現方法から第２の表現方法へ
の変換処理の際に曖昧性が生じた場合に、上記原テキス
ト解析モジュールが予測した語を優先的に選択すること
により、上記曖昧性を解消することを特徴とする翻訳テ
キスト入力方法。４、第１の表現方法の音声で入力される翻訳テキストを
読み取り、目的とする第２の表現方法の文字列に変換す
る翻訳テキスト入力装置において、翻訳テキストが対応
している原テキストを構成する語を認識して、該翻訳テ
キストを構成する語を予測する原テキスト解析モジュー
ルと、音声入力された翻訳テキストを尤度が予め定めた
値を越える１つ以上の表音記号列に変換する音韻認識モ
ジュールと、該音韻認識モジュールが変換した表音記号
列の中で上記原テキスト解析モジュールが予測した語の
表音記号表現と一致する区間を探索し、該一致する区間
の表音記号列を該一致した語の文字表現に変換する表音
記号・文字変換モジュールとを具備することを特徴とす
る翻訳テキスト入力装置。５、第１の表現方法の仮名ないしローマ字の表音記号を
入力し、目的とする第２の表現方法の漢字仮名混じり文
字列に変換する翻訳テキスト入力装置において、翻訳テ
キストが対応している原テキストを構成する語を認識し
、翻訳テキストを構成する語を予測する原テキスト解析
モジュールと、仮名ないしローマ字入力された翻訳テキ
ストの中で、上記原テキスト解析モジュールが予測した
語の仮名ないしローマ字表現と一致する区間を探し、該
一致する区間を該一致した語の文字表現に変換する表音
記号・文字変換モジュールとを具備することを特徴とす
る翻訳テキスト入力装置。６、請求項４または５に記載の翻訳テキスト入力装置に
おいて、上記原テキストの全部ないし一部を表示装置に
表示する原テキスト表示モジュールを設け、上記原テキ
スト解析モジュールは原テキストのうちの上記表示装置
に表示された部分を解析の対象とし、上記表音記号・文
字変換モジュールは、表示中の部分の解析により抽出さ
れた情報を利用して、翻訳テキストを第１の表現方法か
ら第２の表現方法に変換することを特徴とする翻訳テキ
スト入力装置。７、請求項６に記載の翻訳テキスト入力装置において、
上記原テキスト表示モジュールは、原テキストのうちの
一部を他と異なる様式で表示し、上記原テキスト解析モ
ジュールは、原テキストのうち他と異なる様式で表示さ
れている部分を解析の対象とし、上記表音記号・文字変
換モジュールは、他と異なる様式で表示されている部分
の解析により抽出された情報を利用して、翻訳テキスト
を第１の表現方法から第２の表現方法に変換することを
特徴とする翻訳テキスト入力装置。８、請求項６または７に記載の翻訳テキスト入力装置に
おいて、上記表示装置に表示中の部分あるいは他と異な
る様式で表示されている部分に対応する翻訳テキストの
入力および変換処理が終了したか否かを判定するモジュ
ールを有し、処理が終了したときには、翻訳テキストの
次の部分を上記表示装置に表示し、あるいは他と異なる
様式で表示することを特徴とする翻訳テキスト入力装置
。９、請求項４または５に記載の翻訳テキスト入力装置に
おいて、上記原テキスト解析モジュールが予測した語を
、翻訳テキストを構成する語の候補として表示装置に表
示する訳語候補表示モジュールを有することを特徴とす
る翻訳テキスト入力装置。１０、請求項４または５に記載の翻訳テキスト入力装置
において、上記表音記号・文字変換モジュールの出力で
ある第２の表現方法による翻訳テキストを表示装置に表
示する翻訳テキスト表示モジュールを有することを特徴
とする翻訳テキスト入力装置。１１、翻訳テキストに対して、文および語句の置換およ
び挿入を含む修正を行う翻訳テキスト編集装置において
、原テキストを解析して、修正のために入力される修正
テキストを構成する語の情報を予測する原テキスト解析
モジュールと、該原テキスト解析モジュールが予測した
情報を利用して、音声ないし表音記号により入力される
修正テキストを文字に変換する修正テキスト変換モジュ
ールとを有することを特徴とする翻訳テキスト編集装置
。１２、原テキストを要約したテキストの入力装置におい
て、上記原テキストを解析して、要約テキストを構成す
る語の情報を予測する原テキスト解析モジュールと、該
原テキスト解析モジュールが予測した情報を利用して、
音声ないし表音記号により入力される要約テキストを文
字に変換する要約テキスト変換モジュールとを有するこ
とを特徴とする要約テキスト入力装置。１３、画像またはデータに対するコメント文の入力装置
において、原画像・データを解析して、該画像・データ
に対するコメント文を構成する語の情報を予測する原画
像・データ解析モジュールと、該原画像・データ解析モ
ジュールが抽出した情報を利用して、音声ないし表音記
号により入力されるコメント文を文字に変換するコメン
ト文変換モジュールとを有することを特徴とする画像・
データのコメント文入力装置。１４、文字ないし語の読みを補助情報として音声で入力
することが可能な文字認識装置において、尤度が予め定
めた値以上の１つ以上の解を出力する文字認識モジュー
ルと、尤度が予め定めた値以上の１つ以上の解を出力す
る音声認識モジュールと、上記文字認識モジュールの出
力および上記音声認識モジュールの出力の両方に含まれ
る文字を優先的に選択する最尤解選択モジュールとを有
することを特徴とする音声入力機能付き文字認識装置。１５、第１の言語による音声テキストとそれを第２の言
語に同時通訳した音声テキストの両方ないしいずれか一
方を文字に変換する同時通訳音声タイプライタにおいて
、上記第１の言語による音声を認識し、尤度が予め定め
た値以上の１つ以上の解を出力する第１の音声認識モジ
ュールと、上記第２の言語による音声を認識し、尤度が
予め定めた値以上の１つ以上の解を出力する第２の音声
認識モジュールと、上記第１および第２の音声認識モジ
ュールの出力に対訳関係を有する語の組が含まれるとき
、該語の組を優先的に選択する最尤解選択モジュールと
を有することを特徴とする同時通訳音声タイプライタ。