JPH03224055A - 同時通訳向き音声認識システムおよびその音声認識方法 - Google Patents

同時通訳向き音声認識システムおよびその音声認識方法

Info

Publication number
JPH03224055A
JPH03224055A JP2019654A JP1965490A JPH03224055A JP H03224055 A JPH03224055 A JP H03224055A JP 2019654 A JP2019654 A JP 2019654A JP 1965490 A JP1965490 A JP 1965490A JP H03224055 A JPH03224055 A JP H03224055A
Authority
JP
Japan
Prior art keywords
text
word
translated
character
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019654A
Other languages
English (en)
Other versions
JP2836159B2 (ja
Inventor
Hiroyuki Kaji
梶 博行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019654A priority Critical patent/JP2836159B2/ja
Priority to DE69129163T priority patent/DE69129163T2/de
Priority to EP91101211A priority patent/EP0440197B1/en
Publication of JPH03224055A publication Critical patent/JPH03224055A/ja
Priority to US08/231,901 priority patent/US5526259A/en
Application granted granted Critical
Publication of JP2836159B2 publication Critical patent/JP2836159B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、翻訳テキスト入力方法および装置に関し、特
に音声を直接文字化する音声タイプライタ、および仮名
またはローマ字入力を漢字仮名混じり表記のテキストに
変換するワードプロセッサに関する。
〔従来の技術] 従来より、テキストをコンピュータあるいはワードプロ
セッサ等に入力する効率的な方法として、音声入力が考
えられている。確かに、音声を入力するたけで、文字に
変換されれば最も効率的である。
しかしながら、音声認識の困難性のために、従来は、実
用に供し得る音声タイプライタは存在しない。例えば、
特開昭63−182735号公報に記載されている音声
入力ワードプロセッサにおいては、操作者のキーボード
入力の代りに、文字列を単位として音声入力を行い、語
への変換候補を画面に表示して、最終選択を操作者が行
っている。これによって、キー入力の手間を大幅に軽減
し、文書入力の高速化を図ろうとしている。ところが、
実際には、音声認識における曖昧性の解消が操作者の役
割となり、最終選択の段階で時間がかかってしまう。
一方、キーボードによる入力方法は、既に実用化されて
いる。膨大な数の漢字を含む日本語テキストの入力方法
としては、キーボードから仮名入力するか、ローマ字入
力するか、あるいは特殊な入力として漢字を2つの仮名
や数字を含むコードに割り当てて、そのコードを入力す
る2ストロク方法等がある。しかしながら、2ストロー
ク方法は高速入力が可能であるが、漢字に対応するコー
ドの記憶に時間がかかり過ぎ、コードを1字毎に参照し
てから入力するのでは、時間がかかり過ぎるという問題
がある。また、仮名入力やローマ字入力の方法では、文
節分かち書きが前提となっていたり、同音異語からの正
しい語の選択が操作者の役割となっているため、あまり
能率的とは言えなかった。
〔発明が解決しようとする課題] このように、従来の音声タイプライタでは、音声認識に
おける曖昧性を操作者が解消しなければならず、そこで
時間がかかってしまう。また、キボードによる仮名また
はローマ字入力の方法では、同音異語からの正しい語の
選択が操作者の役割となっており、やはり能率的ではな
い。
本発明の第Iの目的は、翻訳テキスト、要約テキスト、
あるいは画像やデータに対するコメント文の入力におい
て、前記従来技術の課題を解消することにある。すなわ
ち、翻訳テキスト、要約テキスト、あるいは画像やデー
タに対するコメント文を音声入力あるいは表音記号入力
するたけで、高精度でこれを文字に変換することができ
る翻訳テキスト入力方法および装置を提供することにあ
る。
また、本発明の第2の目的は、文字や語の読みを音声入
力することにより、文字認識の誤りを訂正することがで
きる音声入力機能付きの文字認識装置を提供することに
ある。
[課題を解決するための手段] 上記目的を達成するため、本発明による翻訳テキスト入
力方法は、(イ)入力テキスト作成の元になった原情報
を原情報解析モジュールを実行することにより解析して
、入力テキストを構成する語に関する情報を予測すると
ともに、第1の表現方法で入力されたテキストをテキス
ト変換モジュールを実行することにより、上記予測され
た語情報を利用して、目的とする第2の表現方法による
テキストに変換することに特徴がある。本発明の翻訳テ
キスト入力方法は、また、(ロ)原テキストを原テキス
ト解析モジュールを実行することにより解析して、翻訳
テキストを構成する語を予測するとともに、翻訳テキス
ト変換モジュールを実行することにより、上記予測され
た語情報を利用して、第1の表現方法による翻訳テキス
トを第2の表現方法によるテキストに変換することに特
徴がある。
また、(ハ)上記原テキスト解析モジュールは、原言語
の語と目標言語の対訳語および連想される目標言語の語
とを対応付ける2言語辞書を用いて、原テキストを構成
する語から翻訳テキストを構成する語を予測し、上記翻
訳テキスト変換モジュールは、第1の表現方法から第2
の表現方法への変換処理の際に曖昧性が生じた場合に、
上記原テキスト解析モジュールが予測した語を優先的に
選択することにより、上記曖昧性を解消することにも特
徴がある。
また、本発明の翻訳テキスト入力用音声タイプライタは
、(ニ)原テキストを構成する語を認識して、翻訳テキ
ストを構成する語を予測する原テキスト解析モジュール
と、音声入力された翻訳テキストを尤度が予め定めた値
を越える1つ以上の表音記号列に変換する音韻認識モジ
ュールと、この音韻認識モジュ−ルが変換した表音記号
列の中で、上記原テキスト解析モジュールが予測した語
の表音記号表現と一致する区間を探索し、該一致する区
間の表音記号列をその一致した語の文字表現に変換する
表音記号・文字変換モジュールとを具備することに特徴
がある。
また、本発明の翻訳テキスト入力用ワードプロセッサは
、(ホ)原テキストを構成する語を認識し、翻訳テキス
トを構成する語を予測する原テキスト解析モジュールと
、仮名ないしローマ字入力された翻訳テキストの中で、
上記原テキスト解析モジュールが予測した語の仮名ない
しローマ字表現と一致する区間を探し、一致する区間を
その一致した語の文字表現に変換する表音記号・文字変
換モジュールとを具備することに特徴がある。
また、本発明の翻訳テキスト入力装置(音声タイプライ
タおよびワードプロセッサ)は、(へ)上記原テキスト
の全部ないし一部を表示装置に表示する原テキスト表示
モジュールを設け、上記原テキスト解析モジュールは原
テキストのうちの上記表示装置に表示された部分を解析
の対象とし、上記表音記号゛・文字変換モジュールは、
表示中の部分の解析により抽出された情報を利用して、
翻訳テキストを第1の表現方法から第2の表現方法に変
換することに特徴がある。また、(ト)上記原テキスト
表示モジュールは、原テキストのうちの一部を他と異な
る様式で表示し、上記原テキスト解析モジュールは、原
テキストのうち他と異なる様式で表示されている部分を
解析の対象とし、上記表音記号・文字変換モジュールは
、他と異なる様式で表示されている部分の解析により予
測された情報を利用して、翻訳テキストを第1の表現方
法から第2の表現方法に変換することにも特徴がある。
また、(チ)上記表示装置に表示中の部分あるいは他と
異なる様式で表示されている部分に対応する翻訳テキス
トの入力および変換処理が終了したか否かを判定するモ
ジュールを有し、処理が終了したときには、翻訳テキス
トの次の部分を上記表示装置に表示し、あるいは他と異
なる様式で表示することにも特徴がある。また、(す)
上記原テキスト解析モジュールが予測した語を、翻訳テ
キストを構成する語の候補として表示装置に表示する訳
語候補表示モジュールを有することにも特徴がある。ま
た、(ヌ)上記表音記号・文字変換モジュールの出力で
ある第2の表現方法による翻訳テキストを表示装置に表
示する翻訳テキスト表示モジュールを有することにも特
徴がある。
そして、本発明の翻訳テキスト編集装置は、(ル)原テ
キストを解析して、修正のために入力される修正テキス
トを構成する語の情報を予測する原テキスト解析モジュ
ールと、この原テキスト解析モジュールが予測した情報
を利用して、音声ないし表音記号により入力される修正
テキストを文字に変換する修正テキスト変換モジュール
とを有することに特徴がある。さらに、本発明の要約テ
キスト入力装置は、(オ)原テキストを解析して、要約
テキストを構成する語の情報を予測する原テキスト解析
モジュールと、原テキスト解析モジュールが予測した情
報を利用して、音声ないし表音記号により入力される要
約テキストを文字に変換する要約テキスト変換モジュー
ルとを有することに特徴がある。
また1本発明の画像またはデータのコメント文入力装置
は、(ワ)原画像・データを解析して、これら画像・デ
ータに対するコメント文を構成する語の情報を予測する
原画像・データ解析モジュールと、この原画像・データ
解析モジュールが予測した情報を利用して、音声または
表音記号により入力されるコメント文を文字に変換する
コメント文変換モジュールとを有することに特徴がある
また、本発明の音声入力機能付き文字認識装置は、(力
)尤度が一定値以上の1つ以上の解を出力する文字認識
モジュールと、尤度が一定値以上の1つ以上の解を出力
する音声認識モジュールと、これら文字認識モジュール
の出力および音声認識モジュールの出力の両方に含まれ
る文字を優先的に選択する最尤解選択モジュールとを有
することに特徴がある。
さらに、本発明の同時通訳音声タイプライタは、(ソ)
尤度が一定値以上の1つ以上の解を出力する第1および
第2の音声認識モジュールと、第1の音声認識モジュー
ルの出力と第2の音声認識モジュールの出力に対訳関係
を有する語の組が含まれるとき、これらの語の組を優先
的に選択する最尤解選択モジュールとを有することに特
徴がある。
〔作  用〕
本発明においては、音声あるいは表音記号による入力テ
キストの他に、その入力テキストの元になる原情報を装
置に入力し、原情報を解析することにより、入力テキス
トの構成語情報を予測する。
そして、この予測された情報を利用することにより、音
声あるいは表音記号から文字への変換における曖昧性を
解消し、高精度の変換を実現する。
本発明の翻訳テキスト入力用音声タイプライタまたはワ
ードプロセッサは、原言語の語と目標言語の対訳語やそ
の語から連想される目標言語の語とを対応付ける2言語
辞書と、原テキストを解析して、原テキストを構成する
語を認識した上で、2言語辞書を参照することにより翻
訳テキストを構成する語を予測する原テキスト解析モジ
ュールとを設ける。さらに、翻訳テキストの音声あるい
は表音記号から文字への変換において曖昧性が生じると
きには、原テキスト解析モジュールが予測した語を優先
的に選択する翻訳テキスト変換モジュールを設ける。こ
れにより、音声あるいは表音記号で入力される翻訳テキ
ストを、高精度で文字に変換することができる。
〔実施例〕
以下、本発明の実施例を、図面により詳細に説明する。
ここでは、第1の実施例として、翻訳用音声タイプライ
タを、第2の実施例として、仮名漢字変換方式の翻訳用
ワードプロセッサを、また、それらの変形例として、機
械翻訳の結果を後編集するため、翻訳テキストの断片を
入力する装置と、テキストの要約を入力する装置とを、
それぞれ説明する。次に、第3の実施例として、画像の
コメント文を入力してそれを文字化する装置を説明する
これは、例えば医用画像に対する医者の所見や、リモー
トセンシング画像に対する専門家の解釈を入力するシス
テムに適用が可能である。さらに、第4の実施例として
、音声入力機能付文字認識装置を、第5の実施例として
、同時通訳音声タイプライタを、それぞれ説明する。
第1図は、本発明の第1の実施例を示す翻訳用音声タイ
プライタの機能ブロック図であり、第2図は、そのハー
ドウェア構成図である。
本実施例の音声タイプライタを実現する機能の構成を示
すと、第1図のようになる。すなわち、原テキストを表
示して操作者に参照させる2言語テキスト表示機能13
と、原テキストを解析する原テキスト解析機能11と、
口述する操作者の音声を表音記号列に変換する音韻認識
機能41と、表音記号列を文字列に変換する表音記号・
文字変換機能12と、これらに付随する原テキストファ
イル23と、2言語辞書21と、目標言語辞書22と、
翻訳テキストファイル24とから構成されている。
これらの機能を遂行するハードウェアは、中央処理装置
lと、記憶装置2と、マイクロホン3と、音響処理装置
4と、CRTデイスプレィ5と、キボード6と、○CR
7と、プリンタ8とから構成される。第1図に示す原テ
キスト解析機能11と表音記号・文字変換機能12と2
言語テキスト表示機能13は、いずれもプログラムモジ
ュールであって、第2図の中央処理装置1により遂行さ
れる。また、第1図の音韻認識機能41は、第2図の音
響処理装置4により遂行される。また、2言語辞書21
、目標言語辞書22、原テキストファイル23および翻
訳テキストファイル24は、いずれも第2図の記憶装置
2に記憶されている。
ここで、2言語辞書21と原テキスト解析機能11と翻
訳テキスト変換機能(音韻認識機能41と表音記号・文
字変換機能12を合わせた機能)の作用を述べる。
2言語辞書21は、基本的には原言語の見出し語に対し
て目標言語の対訳語を収録した辞書であるが、本発明の
目的を達成するために対訳語を網羅的に収録しておく。
さらに、対訳語に限らず、見出し語が原テキストに含ま
れるときに、翻訳テキストに使用される可能性がある語
を広く収録しておく。
原テキスト解析機能11は、原テキストを形態素解析し
て、原テキストを構成する語を認識した後、原テキスト
を構成する語をキーとして2言語辞書21を検索し、原
テキストを構成する語に対応付けられた目標言語の語の
集合を求める。2言語辞書21には、前述のように見出
し語に関連のある目標言語の語が広範囲に収録されてい
る。従って、操作者がどのような翻訳テキストを作成し
た場合でも、原テキスト解析機能11が求めた語集合は
、翻訳テキストを構成する語をかなりの確率で含むこと
が予想される。この語集合を、翻訳テキスト構成語候補
集合91と呼ぶ。
音韻認識機能41は、音声波形を解析して、セグメンテ
ーションと特徴パラメータ抽出を行い、各セグメントを
音韻記号のような表音記号でラベル付けする。ここで、
セグメンテーション、表音記号のラベル付けのいずれに
関しても、曖昧性が生じるのが通常である。従って、音
韻認識機能41は、各セグメントに複数の表音記号を尤
度とともに付与し、テキスト全体に対してはラティス形
式(複数の表音記号列の束の形)の解を出力する。
音韻認識機能41については、例えば、「白井良明編′
パターン理解″ (オーム社、昭和62年発行)町に記
載されている技術により実現できる。
表音記号・文字変換機能12は、ラティスに含まれる表
音記号列の中で語にまとめられる部分を探し、その部分
を語に置き換える処理を繰り返すことにより、翻訳テキ
ストの文字表現を得る。この処理は、大きく分けて2つ
のフェーズから成る。
第1のフェーズでは、原テキスト解析機能11の出力で
ある翻訳テキスト構成語候補集合91に含まれる語の表
音記号表現と一致する部分があれば、その部分を語と認
識する。ここで、翻訳テキスト構成語候補集合91に含
まれる語は、原テキストの語と密接に関係する語である
から、音響的に多少尤度が低くても選択する。
第2のフェーズでは、翻訳テキスト構成語候補集合91
の範囲では、語に変換できなかった区間の処理である。
すなわち、語の候補を目標言語の語気全体に広げて、第
1のフェーズで語に変換できなかった区間の表音記号列
の中で、語の表音記号表現と一致する部分を探し、一致
する部分を語と認識する。ここで、1つの区間が複数の
語列に変換できるときには、できる限り少数の語からな
るものを優先して選択する。また、表音記号の尤度に基
づいて語の尤度を算出し、尤度の高い語を優先的に選択
する。このようにして、最終的に正解の可能性の高い語
列に変換する。なお、どの語の表音記号表現とも一致し
ない区間があれば、それは表音記号のままに残しておく
次に、操作者から見た翻訳用音声タイプライタの動作を
説明する。
先ず原テキストが0CR7を介して原テキストファイル
23に格納される。
この音声タイプライタの処理単位は文であり、操作者が
キーボード6から口述翻訳開始を指示すると、2言語テ
キスト表示機能13が原テキストファイル23から1文
だけを読み出して、これをCRTデイスプレィ5の原文
表示領域に表示する。
原テキスト解析機能+1は、前述の処理を実行して、翻
訳テキスト構成語候補集合91を求める。
CRTデイスプレィ5に表示された原文94を参照する
ことにより、操作者がこれを翻訳し、その翻訳文95を
口述すると、マイクロホン3がこの音声を電気信号に変
換する。この電気信号を受けた音韻認識機能41、続い
て表音記号・文字変換機能12が、それぞれ前述の処理
を実行して、翻訳文の文字表記93を得た後、これを翻
訳テキストファイル24に格納する。
翻訳文が翻訳テキストファイル24に格納されると、2
言語テキスト表示機能13が翻訳文96をCRTデイス
プレィ5の翻訳文領域に表示する。
そこで、操作者は、画面を参照することにより、正しく
文字化されたか否かを確認する。誤りがあれば、操作者
はキーボード6から次候補の表示を要求するか、再入力
することを指示する。再入力の場合には、装置は原文の
表示をそのままにして、音声入力の待機状態に移るので
、操作者は前回よりもさらに注意深く発声して音声入力
する。その後、文字化された結果に誤りがなければ、操
作者はキーボード6から次の文の翻訳に移ることを知ら
せる。これにより、2言語テキスト表示機能13は、C
RTデイスプレィ5の原文表示領域に次の文を表示して
、それ以降は前の文のときと全く同じように処理する。
なお、翻訳テキストファイル24に格納された翻訳テキ
ストは、プリンタ8により印刷される。
第3図は、第1図における2言語辞書のレコード構造と
内容の例を示す図である。
ここでは、原言語が英語で、目標言語が日本語の場合か
示されている。すなわち、2言語辞書21のレコードは
、原言語を見出し語2101としており、目標言語情報
としては見出し語の対訳語と見出し語から連想される語
を含む。目標言語情報は、語の数2102と各語の表音
記号表現2103、文字表現(漢字仮名混じり文におけ
る通常の表記)2104を含む。2言語辞書21のレコ
ードは、見出し語2101をキーとして検索することが
できる。
第4図は、第1図における目標言語辞書のレコードの構
造と内容の例を示す図である。
目標言語辞書22のレコードは、目標言語の表音記号表
現と文字表現(漢字仮名混じり文における通常の表記)
からなる。同一の表音記号表現を持つ語が複数個存在す
ることもあるため、1つのレコードには、1つの表音記
号表現2201と、文字表現の数2202と、その数だ
けの文字表現2203とが記憶されている。目標言語辞
1F22のレコードは、表音記号表現2201をキーと
して検索することができる。
第5図は、第1図における原テキスト解析機能llの処
理フローチャートである。
操作者がキーボード6から口述翻訳開始を指示すること
により、1つの文の処理が開始される。
先ず、原文中の処理位置を示す原文位置インジケタが文
頭を指すように初期化する(ステップ1101)。次に
、翻訳テキスト構成語候補集合91の格納エリアをクリ
アする(ステップ1102)。
次に、原文位置インジケータが文末を指すようになるま
で、それ以降の処理(ステップ1104〜1110)を
繰り返し行う(ステップ1103)。
先ず、原文中の原文位置インジケータが指す位置から語
を切り出しくステップ1104.)、切り出した語をキ
ーとして2言語辞書21を検索する(ステップ1105
)。検索に成功したときには(ステップ1106)、検
索したレコード中の目標言語情報(表音記号表]121
03と文字表現2104)を翻訳テキスト構成語候補の
格納エリアに登録しくステップ1107)、原文位置イ
ンジケタが次の語の先頭位置を指すように更新して(ス
テップ1108)、原文からの語の切り出し処理に戻る
(ステップ1104)。また、2言語辞書21の検索に
失敗したときには(ステップ1106)、原文中の語が
変化形である可能性があるため、語尾変形処理を施こし
た後(ステップ] 110)、再度2言語辞書21を検
索する(ステップ1105)。
なお、語尾変形処理としては、名詞複数形のS、動詞過
去形・過去分詞形のed、等の規則変化に対応した処理
が準備されている。例えば、原文から切り出された語の
末尾がedであれば、edを削除した文字列あるいはd
のみを削除した文字列とする。このような語尾変形処理
を、2言語辞書21の検索に成功するまで順次適用して
いく。どの語尾変形処理によっても、検索に失敗したと
きには(ステップ1109)、その語から翻訳テキスト
構成語を予測できなかったものとして、原文位置インジ
ケータの更新を行う(ステップ1108)。
第6図は、第1図における翻訳テキスト構成語候補集合
の例を示す図である。
原テキスト解析機能11から出力される翻訳テキスト構
成語候補集合91は、第6図に示すように、目標言語の
表音記号表現9101と文字表現9102の対の集合で
ある。
表音記号・文字変換機能12の説明の前に、それが扱う
ラティスについて説明する。ラティスの構成要素には、
音韻セグメントと語セグメントの2つがある。
第7図(a)は、音韻セグメントのレコードフォーマッ
トを示す図であり、第7図(b)は、語セグメントのレ
コードフォーマットを示す図である。
音韻セグメントのレコードは、第7図(a)図に示すよ
うに、そのセグメントを他のセグメントと区別するため
のセグメント識別番号9201、音韻セグメントである
ことを示すセグメントタイプ9202、そのセグメント
に与えられた表音記号を示す表音記号9203、そのセ
グメントの表音記号の確からしさを示す尤度9204、
そのセグメントに前接する音韻セグメントのセグメント
識別番号を示す前接音韻セグメントリスト9205、そ
のセグメントに後接する音韻セグメントのセグメント識
別番号を示す後接音韻セグメントリスト9206、その
セグメントに前接する語セグメントのセグメント識別番
号を示す前接語セグメントリスト9207、そのセグメ
ントに後接する語セグメントのセグメント識別番号を示
す後接語セグメントリスト9208から構成されている
音韻セグメントは、音韻認識機能41の認識の結果とし
て生成されるもので、前接語セグメントリスト9207
、後接語セグメントリスト9208以外は、音韻認識機
能41により値がセットされる。
音韻認識機能41から出力される音韻ラティス92の例
を、第10図(3)に示す。
この例で、「けJ 「げ」 「ん」 「こJ 「とj「
お」 「う■ 「の」 「も」In、Offめ、0 「
げ1「きA 「すj[’に」は、それぞれが音韻セグメ
ントであり、各々が第7図(a)に示すようなフオマッ
トのレコードを持っている。
語セグメントのレコードは、第7図(b)に示すように
、そのセグメントを他のセグメントと区別するためのセ
グメント識別番号9211.語セグメントであることを
示すセグメントタイプ9212、そのセグメントの語の
文字表現を示す文字表現9213、そのセグメントの語
の確からしさを示す尤度9214、そのセグメントに前
接する音韻セグメントのセグメント識別番号を示す前接
音韻セグメントリスト9215、そのセグメントに後接
する音韻セグメントのセグメント識別番号を示す後接音
韻セグメントリスト9216、そのセグメントに前接す
る語セグメントのセグメント識別番号を示す前接語セグ
メントリスト9217、そのセグメントに後接する語セ
グメントのセグメント識別番号を示す後接語セグメント
リスト9218、および語セグメントグループ識別番号
9219から構成される。語セグメントは、表音記号・
文字変換機能12が処理の過程で生成する。語セグメン
トグループ識別番号9219は、表音記号・文字変換機
能12か翻訳テキスト構成語候補集合に含まれる語を音
韻ラティスから認識した場合、隣接する語セグメントを
グループ化する役割を持つ。
1つの文に対するラティスには、音韻認識機能41によ
り認識された音韻に対応する音韻セグメント、表音記号
・文字変換機能12により認識された語に対応する語セ
グメントの他に、処理の都合上、文の始点、終点をそれ
ぞれ表わすダミーのセグメントが2つ作成される。ダミ
ーのセグメントは、処理の都合により、音韻セグメント
として扱われたり、あるいは語セグメントとして扱われ
たりする。すなわち、実際には、音韻ではないけれども
、先頭と終了の箇所で特殊な処理を行うためである。
第8図は、第1図における表音記号・文字変換機能の処
理フローチャートである。
表音記号・文字変換機能12の処理は、2つのフェーズ
に分割される。
第1のフェーズでは、音韻認識機能41の出力である音
韻ラティス92の中で、翻訳テキスト構成語候補集合9
1に含まれる語を優先的に認識する(ステップ1201
〜1203)。
第2のフェーズでは、音韻ラティス92の中の第1のフ
ェーズで語に変換できなかった区間に対して、目標言語
辞書22を参照して語の認識を行う(ステップ1204
〜l 213)。
すなわち、第1のフェーズでは、ラティス中の音韻セグ
メント列で翻訳テキスト構成語候補集合91に含まれる
語と一致するものを全て検索しくステップ1201)、
検索した音韻セグメント列のそれぞれに対応して、語セ
グメントを生成した後、音韻ラティスに接続する(ステ
ップ1202)。
次に、生成した語セグメントの中で互いに隣接するもの
を探して、隣接することをラティスのブタ構造中に明示
する(ステップ1203)。
なお、ステップ1202では、生成する藷セグメントの
内容を次のように決定する。セグメント識別番号921
1は、他のセグメントと異なる番号を与える。セグメン
トタイプ9212は′語セグメント′にする。そして、
文字表現9213は、翻訳テキスト構成語候補集合91
中の該出語の文字表J、[9102をコピーする。尤度
9214は、その語セグメントにまとめられる音韻セグ
メント列を構成する各音韻セグメントの尤度9204の
和を計算して記入する。前接音韻セグメントリスト92
15は、その音韻セグメント列の先頭音韻セグメントの
前接音韻セグメントリスト9205をコピーする。これ
と同時に、その音韻セグメント列の先頭音韻セグメント
の前接音韻セグメントリスト9205に書かれている各
音韻セグメントの後接語セグメントリスト9208に、
いま生成中の語セグメントのセグメント識別番号921
1を書き込む。後接音韻セグメントリスト9216は、
その音韻セグメント列の最終音韻セグメントの後接音韻
セグメントリスト92o6をコピーする。これと同時に
、その音韻セグメント列の最終音韻セグメントの後接音
韻セグメントリスト9206に書かれている各音韻セグ
メントの前接セグメントリスト9207に、いま生成中
の語セグメントのセグメント識別番号9211を書き込
む。
語セグメントグループ識別番号9219は、自分自身の
セグメント番号9211と同じにする。
第9図(a)(b)は、第8図におけるステップ120
3の処理の説明図である。
第9図(a)に示すように、語セグメントaの後接音韻
セグメントリスト9216に書かれた音韻セグメントで
、語セグメントbの前接音韻セグメントリスト9215
に書かれた音韻セグメントに後接するものがあれば、語
セグメントaに語セグメントbか後接していると判定し
て、第9図(b)に示す構造に変更する。すなわち、語
セグメントaの後接語セグメントリスト9218に語セ
グメントbのセグメント識別番号9211を、語セグメ
ントbの前接語セグメントリスト9217に語セグメン
トaの識別番号9211を書き込む。
次に、第2のフェーズでは、後接語セグメントを持たな
い語セグメントに対して、後接する音韻セグメント列を
語セグメントに変換する処理を、後方の語セグメントに
到達するまで繰り返す。すなわち、先ずラティス中の始
点および語セグメントで、後接語セグメントリスト92
18が空であるものを探し、それらの語セグメントグル
ープ識別番号9219を処理未了語セグメントグループ
リストに登録する(ステップ1204)。そして、処理
未了語セグメントリストが空になるまで(ステップ12
05)、処理未了語セグメントリストから語セグメント
グループ識別番号を1つたけ選択する(ステップ120
6)。そして、選択した語セグメントグループ識別番号
を持つ語セグメントに対して、それに後接する音韻セグ
メント列と表音記号表現2201が一致する語を目標言
語辞書22から検索する(ステップ1207)。検索に
成功すれば(ステップ1208)、検索した語に対する
語セグメントのレコードを生成する(ステップ1209
)。検索に失敗したならば(ステップ1208)、いま
処理中の語セグメントは後接語セグメントを持たないこ
とを意味するので、それを繰り返し探す処理を避けるた
めに、その語セグメントの語セグメントグループ識別番
号9219をnilにする(ステップ1210)。
また、語セグメントを生成する処理(ステップ1209
)で、生成した語セグメントが既に存在する語セグメン
トで異なる語セグメントグループ識別番号を持つものに
前接することがわかると(ステップ1211)、生成し
た語セグメントの語セグメントグループ識別番号921
9を処理未了語セグメントリストから削除する(ステッ
プ1212)。
処理未了語セグメントリストが空になると(ステップ1
205)、通常は、始点から終点に至る語セグメント列
が少なくとも1つはできたことを意味する。なお、どの
ような語列にも一致する表音記号列がない区間があると
きには、その区間は語セグメントが途切れている。処理
未了語セグメントリストが空になると、最も少ない数の
セグメントで始点と終点を結ぶセグメント列を選択する
そのようなセグメント列が複数ある場合には、セグメン
ト列を構成する各セグメントの尤度の和が最大のものを
選択する(ステップ1213)。表音記号・文字変換機
能12は、選択したセグメント列上の語セグメントの文
字表現9213 (音韻セグメントの場合には表音記号
9203)を順に並べて、これを出力とする。
なお、ステップ1209の諸セグメントの生成処理は、
ステップ1202.1203の処理とほぼ同一であるが
、次の2つの点のみ異なっている。
すなわち、第1に異なる点は、生成する語セグメントの
文字表記9213として、目標言語辞書22から検索し
たレコードの語の文字表12203をコピーすることで
ある。ここで、目標言語辞書22のレコードは、一般に
複数の文字表現2203を含むため(同音異語があるた
め)、各文字表現に対応した複数の語セグメントを生成
するものとする。第2に異なる点は、語セグメントグル
ープ識別番号9219を、前接語セグメントのグルプ識
別番号92I9と同じにすることである。
第1O図(1)〜(4)は、本実施例の音声タイプライ
タにより、口述された翻訳文が漢字仮名混じり文に変換
される例を示す図である。
同図(1)に示すように、原文はIdeadline 
 formanuscriptJという名詞句である。
 同図(2)に示すように、操作者が「げんこつのしめ
きりJと発声したとする。いま、2言語辞書21と目標
言語辞書22の内容が、それぞれ第3図および第4図に
示すものであるとすると、原テキスト解析機能11が出
力する翻訳テキスト構成語候補集合91は第6図に示す
ような集合となる。また、音韻認識機能41が出力する
音韻ラティス92が、第10図(3)に示すようなラテ
ィスであるとする。
そして、図において、複数のセグメントが並列になって
いる場合には、上方のセグメントの方が尤度が高いもの
とする。このとき、表音記号・文字変換機能12の変換
結果は、第10図(4)に示すようになり、「原稿の締
切り」とCRTに表示される。この表示中で、「の」だ
けが反転表示、つまり他が白ならば黒、他が黒ならば白
で表示されている。「のJについては、次候補として「
も」の可能性が残っているため、反転表示しているので
ある。
なお、第10図の例における表音記号・文字変換機能1
2の処理を、さらに詳細に説明する。
例えば、「げんこつJと発声した部分に対しては、音響
的には「けんこお」が最尤群であって、さらに 「けん
こう」、 「けんとお」、「けんとう」、「げんこお」
、「げんとお」、「げんとう」等の可能性があることを
、第10図(3)の音韻ラティスが表わしている。表音
記号・文字変換機能12は、これらの中から翻訳テキス
ト構成語候補集合91に含まれている「げんこつJを選
択して、翻訳テキスト構成語候補集合91が示す文字表
現「原稿」に変換する。このようにして、「げんこつ」
が音響的には尤度が最大ではないにもかがわらず選択さ
れている。また、「げんこつ」に対して「原稿」、「現
行」、「言行」のような同音異語の問題も生じていない
このように、本実施例の音声タイプライタにおいては、
音声認識における曖昧性(音韻の曖昧性と同音異語)が
解消されるので、実用的な認識率が達成できる。
次に、本発明の第2の実施例について説明する。
第2の実施例では、仮名漢字変換方式の翻訳用ワードプ
ロセッサの場合を述べる。
第11図は、本発明の翻訳用ワードプロセッサのハード
ウェア構成図である。
本実施例の翻訳用ワードプロセッサは、中央処理装置1
01と、記憶装置l○2と、キーボード103と、CR
Tデイスプレィ104と、第1フロツピーデイスク駆動
装置105と、第2フロツピーデイスク駆動装置106
と、プリンタ107から構成されている。
第12図は、第11図に示す翻訳用ワードプロセッサの
機能ブロック図である。
第12図に示す原テキスト解析機能1011、仮名漢字
変換機能1012.2言語テキスト表示機能1013お
よび翻訳テキストセーブ機能1014は、いずれもプロ
グラムモジュールであって、中央処理装置101の演算
回路により実行されることにより各機能を遂行する。
記憶装置102には、2言語辞書1021および目標言
語辞書1022が記憶され、さらに仮名漢字変換処理の
途中で翻訳文データを格納する翻訳文バッファ1023
の領域が確保されている。
また、第1フロツピーデイスク駆動装置105と第2フ
ロツピーデイスク駆動装置106にセットされたフロッ
ピーディスクを、それぞれ原テキストファイル1051
、翻訳テキストファイル1061として用いる。
次に、翻訳用ワードプロセッサの動作を説明する。
先ず、2言語テキスト表示機能1013は、原テキスト
ファイル1051から原テキストを読み出し、CRTデ
イスプレィ104の原テキスト表示領域に表示する。こ
の場合、処理すべき1文のみを反転表示する。
原テキスト解析機能1011は反転表示された文を形態
素解析し、2言語辞書1021を検索することにより、
翻訳テキスト構成語候補集合901を求める。
一方、CRTデイスプレィ104に表示された原テキス
トのうち反転表示された文904を操作者が翻訳し、翻
訳文905をキーボード103から仮名入力する。入力
された仮名データは、翻訳文バッファ1023に格納さ
れる。仮名漢字変換機能1012は、翻訳文バッファl
 023の内容を読み出して、仮名文字の部分に対して
仮名漢字変換を実行する。そして、変換できたときには
、翻訳文バッファ1023中の該当する仮名文字ブタを
漢字仮名混じり表記データに置き換える。
仮名漢字変換機能+012は、翻訳テキスト構成語候補
集合901に含まれる語を優先して選択し、翻訳テキス
ト構成語候補集合901に含まれる語に変換できないこ
とか判明した場合、その部分を目標言語辞書1022を
参照して漢字仮名混じり文に変換する。
2言語テキスト表示機能」013は、常時翻訳バッファ
1023を監視しており、最新のバッファ内容をCRT
デイスプレィ104の翻訳文表示領域に表示する。また
、キーボード103から入力された記号が文末記号であ
ることを検出すると、原テキスト表示領域の反転表示す
る文を次の文に変更する。
翻訳テキストセーブ機能1014も、翻訳文バッファ1
023を常時監視しており、文末記号を検出すると、翻
訳文バッファ1023の内容を翻訳テキストファイル1
061にセーブした後、翻訳文バッファ1023をクリ
アする。
第13図は、第12図における仮名漢字変換機能の処理
フローチャートである。
2言語辞書1021と目標言語辞書1022と原テキス
ト解析機能1011は、第1の実施例で説明したものと
全く同一であるため、説明を省略する。第13図におい
て、BUFは翻訳文バッファ1023を示し、バッファ
の第1番目の文字をBUF(j)、バッファの第1番目
から第3番目の文字列をBUF(i、  ・・・、J)
で示す。また、バッファ中の仮名漢字変換が済んでいな
い部分の先頭文字の位置を示す未変換部インジケータを
I、バッファ中の最後の文字の位置を示す最終文字イン
ジケータをJとする。
仮名漢字変換機能1012は、翻訳文バッファ1023
か翻訳テキス[・セーブ機能1014によりクリアされ
たことを検知すると、最終文字インジケータJを初期値
Oにリセットしくステップ101201)、また未変換
部インジケータ■を初期値lにリセットする(ステップ
101202)。
この後、キーボード103からの入力を待つ(ステップ
101203)。そして、入力があると、入力が文末記
号になるまでステップ101204〜101216の処
理を繰り返し行う。新たに仮名文字が入力されると、先
頭位置インジケータJをまたけ進め(ステップ1012
04)、BUF(J)に入力された仮名文字を格納する
(ステップ101205)。続いて、BUF (1,・
・・・J)の仮名漢字変換を実行する。先ず、BUF(
1゜・・・、J)の後方のできる限り長い仮名文字列と
仮名表記が一致する語を翻訳テキスト構成語候補集合9
01から検索する。このために、変数XをOから1ずつ
増加させながら、xfJ<J−Iになるまで、BUF(
I +x、  ・・・、J)と表音記号表現が一致する
語を翻訳テキスト構成語候補集合901から検索する(
ステップ101206,101207.101208,
101209.101210)。XがJ−1になるまで
の値について、いずれも検索に失敗したときには(ステ
ップ101208.101209)、次の仮名でのキー
入力を待つ(ステップ101203)。
翻訳テキスト構成語候補集合901からの検索に成功し
たときには(ステップ101208)、BUF内の仮名
文字列を漢字列に置き換えた後、次の仮名入力を待つ(
ステップ1. Ol 211〜101216.1012
03)。、:こで、XがOのとき、すなわちBUF(T
、  ・・・・、J)全体が翻訳テキスト構成語候補集
合901中の語であった場合、翻訳テキスト構成語候補
集合901に示されている漢字表記(第6図の文字表現
9102)を直ちにBUFに格納する。すなわち、長さ
Zの漢字表記をBUF(I、  ・・・、I+z−1)
に格納しくステップ101215)、■およびJが格納
した漢字表記の次の位置を指すように更新する(ステッ
プl O1216)。また、x > Oのとき、すなわ
ちBUF(I、  ・・・、J)の後方の一部が翻訳テ
キスト構成語候補集合901中の語であったときには、
未変換部分であるBUF(T、  ・・・I+x−1)
について、目標言語辞書1022を用いて仮名漢字変換
を実行する(ステップ1012]2)。この仮名漢字変
換は、従来の方法により行うが、変換精度を向上するた
めに、変換後の語数が少ないものを優先する等の処理を
行う。
次に、BUF(1,・・・、I+x−1)の仮名漢字変
換の結果が長さyの文字列であるとすると、これをBU
F(I、  ・・・・、r+y−1)に格納して(ステ
ップ101213)、■およびJを格納した漢字列の次
を指すように更新する(ステップ101214)。その
後、翻訳テキスト構成語候補集合901から検索され、
BUFへの格納が保留されていた語の漢字表記を前述と
同じようにBUFに格納しくステップ101215)、
■とJを格納した漢字列の次を指すように更新する(ス
テップ101216)。
最後に、キーボード1.03から入力された記号が末尾
記号になると(ステップ101203)、文末部分が仮
名漢字変換済みが否かを判定しくステップ101217
)、変換済みでなければ、目標言語辞書1022を用い
て仮名漢字変換を行い(ステップ101218)、変換
された結果をBUFに格納して(ステップ101219
)、処理を終了する。
第14図は、本発明による翻訳用ワードプロセッサの仮
名漢字変換例を示す図である。
仮名で入力された翻訳文が、漢字仮名混じり文に変換さ
れる場合を示す。操作者が画面で見る原文は、第14図
(1)に示すように、[f’deadlinefor 
 manuscriptJという名詞句である。操作者
はこれを翻訳して、キーボード103から第14図(2
)に示すように、「げんこうのていしゆつきげん」と仮
名で入力したものとする。
いま、2言語辞書1021、目標言語辞書1022が、
それぞれ第3図および第4図に示す内容であるとすれば
、原テキスト解析機能1011は第6図に示すような翻
訳テキスト構成語候補集合901を出力する。
第14図(3)には、仮名文字を1字入力する度に、C
RTデイスプレィ104の翻訳文表示が変化する状態を
示している。ここで、「げんこつJと「きげん」の部分
に見られるように、同音異語の問題が予め原テキスト解
析を行うことにより、解決されている。すなわち、従来
の仮名漢字変換処理では、rげんこつ」に対して「原稿
」 「現行」T言行」等が、「きげん」に対しては「期
限」「起源」 「紀元」等が、それぞれ候補となる。し
かし、本発明では、原テキスト解析機能1011が「原
稿Jと「期限」をそれぞれ予測することにより、他の候
補は棄却されてしまう。なお、「のていしゆつ」の部分
のように、原テキスト解析機能1o11が予測する語と
一致しない部分については、同音異語の問題が生じるこ
ともある。
本実施例の他の利点として、原テキスト解析機能101
1が予測する語と仮名表記が一致する部分を高い確信度
で語と判定できるので、べた入力の仮名文字列の場合で
も、語に分割する処理が高精度で行える。その結果、仮
名漢字変換処理における操作者の負担は格段に軽減され
る。
次に、第1の実施例(音声タイプライタ)および第2の
実施例(仮名漢字変換方式のワードプロセッサ)の変形
例について、説明する。
第1および第2の実施例においては、翻訳テキストの全
文を、第1の実施例は音声で、第2の実施例は仮名で、
それぞれ入力するものであった。
しかし、機械翻訳の結果を後編集するときのように、翻
訳テキストの断片を入力する場合にも、本発明は適用で
きる。すなわち、本発明の他の実施例として、翻訳テキ
スト中に挿入したり、置換する文や語句を音声や仮名で
入力する翻訳テキスト編集装置を実現することができる
。例えば、lrmanuscript、Qを機械翻訳が
「手書き」と翻訳したが、操作者かに原稿」に修正する
ため「げんこつAと口述入力したとする。この時、原テ
キスト中の[t’manuscripJから「原稿」が
予測されているので、「げんこつ」は「原稿↓に変換さ
れる。このように、原テキストを解析して、挿入や置換
する文や句を構成する語を予測することにより、挿入・
置換する文や語句の音声認識および漢字仮名変換の精度
を向上できる。
また、他の変形例として、翻訳ではなく、テキストの要
約を入力する装置も実現できる。要約を構成する語の大
部分は、原テキストに含まれる語であることが多いため
、原テキストを構成する語を要約テキストを構成する語
の候補と考えて、要約テキストの音声認識あるいは仮名
漢字変換に利用できる。
すなわち、文の要点だけで文を作成する際に、重要な単
語、例えば「誰が、jl[i’何時に」 「とこで」「
何をしたか」という語は、全て原テキスト中に含まれて
いるので、原テキストから予測情報を利用することによ
り、要約テキストの音声認識や仮名漢字変換を高精度で
実現できる。
次に、本発明の第3の実施例として、画像のコメント文
入力装置を詳述する。この装置は、専門家が画像を分析
して、コメントを音声で口述することにより、これを文
字化する装置である。
第15図は、本発明の第3の実施例を示す画像コメント
文入力装置のハードウェア構成図である。
コメント文入力装置は、中央処理装置210と、記憶装
置220と、マイクロホン230と、音響処理装置24
0と、画像スキャナ250と、画像記憶装置260と、
画像表示装置270と、プリンタ280とから構成され
ている。
第16図は、第15図における画像コメント文入力装置
の機能ブロック図である。
画像解析機能211と表音記号・文字変換機能212と
画像表示機能2]3とは、いずれもプログラムモジュー
ルであって、中央処理装置212により機能が遂行され
る。また、音韻認識機能241は、音響処理装置240
により機能が遂行される。
画像・言語変換辞書221と単語辞書222とコメント
文ファイル223は、いずれも記憶装置220にそれら
の領域が確保されている。また、画像ファイル261は
、メモリ容量が膨大となるため、画像記憶装置260の
領域を使用して格納される。なお、画像は、画像スキャ
ナ250を介して画像ファイル261に格納される。
以下、画像コメント・文入力装置の動作を説明す先ず、
画像表示機能213は画像ファイル261から操作者が
選んだ画像データを読み出し、その画像データを画像表
示装置270に表示する。
次に、画像解析機能211は、表示された画像の特徴抽
出を行い、画像・言語変換辞書221を参照することに
より、コメント文構成語候補集合291を求める。ここ
で、画像・言語変換辞書221は、画像の特徴パターン
とその特徴パターンから連想される用語を対応付ける辞
書であって、応用分野毎に用意されている。用語の情報
としては、その表音記号表現と文字表現を含んでいる。
画像解析機能211は、画像・言語変換辞書221中の
特徴パターンとのパターンマツチングにより、画像に含
まれる特徴パターンを検出して、その特徴パターンに対
応する用語の情報をコメント文構成語候補集合29]の
格納エリアに出力する。
一方、画像表示装置270の画面に表示された画像29
4を見ながら、操作者はコメント文、例えば画像の解釈
や所見等295を口述することにより、マイクロホン2
30が音声を電気信号に変換する。音韻認識機能241
は入力した電気信号の音声波形を解析し、セグメンテー
ションおよび特徴パラメータの抽出を行って、入力音声
を音韻ラティス292に変換する。
次に、表音記号・文字変換機能212は、音韻認識機能
241の出力である音韻ラティス292を語列に変換す
る。その際に、画像解析機能211の出力であるコメン
ト文構成語候補集合291に含まれる語を優先して選択
する。コメント文構成語候補集合291に含まれる語に
変換できない区間に対しては、単語辞書222を参照し
て語列に変換する。単語辞書222は、第]の実施例に
示した目標言語辞書と同じものであるため、内容の説明
は省略する。コメント文構成語候補集合291、単語辞
書222の内容には、いずれも語の文字表現が含まれて
いるので、音韻ラティス292から変換された語列を基
に、直ちにコメント文の文字表記293を作成して、コ
メント文ファイル223に格納する。なお、コメント文
ファイル223に格納されたコメント・文は、プリンタ
280により印刷される。
本実施例と第1の実施例とを比較すると、いずれも口述
テキストを文字に変換する点で同一であるが、第1実施
例では、翻訳テキスト構成語を原テキス[・から予測す
るのに対して、本実施例では、原画像からコメント文構
成語を予測する点のみが異なっている。従って、本実施
例でも、音声から文字への変換が高精度で行われること
は説明を要しない。画像データの解析は、あるレベルま
ては計算機で行うことができるが、それ以上は限界があ
り、最終的には専門家の判断に頼らなければならないこ
とか多い。本実施例によれば、このような要望に対して
、専門家が自然な状態で口述した音声を入力することに
より、確実に判断結果を入力することができる。
次に、本発明の第4の実施例として、音声入力機能付き
文字認識装置について説明する。
これは、文字認識装置において、文字認識の第1解と次
の解の尤度差がそれほど違わない場合に、その文字を操
作者に表示して、操作者がその文字ないしその文字を含
む単語の読みを音声で与えることにより、正解の選択を
可能にしたものである。
操作者が読みを発声すると、それによって音声認識を行
い、先の文字認識の結果と併用して解を求める。操作者
が全文を発声することなく、表示された一部の文字ない
し単語を見て発声するだけであるため、殆んど手間がか
からず、文字認識の結果と音声認識の結果とを組み合わ
せることで、それぞれが含む曖昧性を解消するので、認
識率が格段に向上する。
第17図は、本発明の第4の実施例を示す音声入力機能
付き文字認識装置のハードウェア構成図である。
本実施例の文字認識装置は、中央処理装置310と、記
憶装置320と、文字スキャナ330と、フロッピーデ
ィスク駆動装置340と、CRTデイスプレィ350と
、マイクロホン360と、音響処理装置370とで構成
されている。
第18図は、第17図における音声入力機能付き文字認
識装置の機能ブロック図である。
文字認識機能311とテキストデータ管理機能312と
文字図形表示機能313と文字単語認識機能314と音
声単語認識機能315と最尤単語選択機能316とは、
いずれもプログラムモジュールであって、中央処理装置
310の演算回路により実行されることによって、それ
ぞれの機能を遂行する。
また、記憶装置320には、文字認識辞書321と単語
辞書322か格納される他に、図形バッファ323およ
びテキストバッファ324の領域か確保されている。ま
た、フロッピーディスク駆動装置340にセットしたフ
ロッピーディスクは、テキストファイル341として用
いられる。
次に、音声入力機能付き文字認識機能の動作の概要を説
明する。
先ず、文字スキャナ330は、図形としての文字を読み
取り、読み取った文字を図形バッファ323に順次格納
していく。
文字認識機能311は、図形バッファ323内の文字パ
ターンを文字認識辞書321を参照することにより認識
する。テキストデータ管理機能312は、認識された文
字の中で、曖昧性があるものを検出し、文字図形表示機
能313によりCRTデイスプレィ350に出力して、
操作者にその文字を含む語の読みを口述させる。文字単
語認識機能314は、曖昧性のある文字に対して単語辞
書322を参照することにより最尤単語選択機能316
に第1単語候補集合391を出力する。
一方、音声単語認識装置315は、操作者が口述した音
声を認識することにより、第2単語候補集合395を最
尤単語選択機能316に出力する。
次に、最尤単語選択機能316は、文字単語認識機能3
14からの第1単語候補集合391および音声単語認識
機能315がらの第2単語候補集合395を受は取り、
これらに共通に含まれる語を選択する。最尤単語選択機
能316の選択結果に基づいて、テキストデータ管理機
能312はテキストバッファ324内のテキストデータ
を更新する。
次に、各機能の動作を詳細に説明する。
文字認識機能311は1図形バッファ323から1文字
ずつ図形データを取り出して、その特徴抽出を行い、文
字認識辞書321を参照することにより文字認識を行う
。文字認識辞書321は、図形としての文字の特徴パタ
ーンと文字コードとを対応付けるものである。文字認識
機能311は、図形バッファ323から読み出した図形
データと文字認識辞書321中の特徴パターンのマツチ
ングをとり、一致度が最大の特徴パターンに対応する文
字コードを第1の解として選び、これをテキストバッフ
ァ324に出力する。しかしながら、第1の解と一致度
の差が予め定めた値以下の特徴パターンが複数個存在す
る場合には、曖昧性があると判断して、それらの特徴パ
ターンにそれぞれ対応する複数の文字コードをテキスト
バッファ324に出力する。テキスバッファ324に出
力される文字コードとともに、パターンの一致度を解の
尤度とみなして、これも同時にテキストバッファ324
に出力する。
次に、テキストデータ管理機能312は、テキストバッ
ファ324を常時監視しており、曖昧性のある結果(文
字コードと一致度)がテキストバッファ324に書き込
まれると、テキスト中のその位置を文字図形表示機能3
13および文字単語認識機能314の両者に通知する。
文字図形表示機能313は、文字認識処理で曖昧性が生
じた位置を通知されると、図形バッファ323からその
前後を含む図形データを読み出し、CRTデイスプレィ
350に表示する。曖昧性のある文字のみをブリンク表
示し、その他の文字は通常の表示をする。
次に、文字単語認識機能314は、文字認識で曖昧性の
生じた位置が通知されると、テキストバッファ324か
らその前後を含むテキストデータを読み出し、文字認識
で曖昧性が生じた文字を含む文字列をキーとして単語辞
書322を検索する。
単語辞書322は、この文字認識装置が対象とする言語
の語気を集めたものであり、各語の文字表現と表音記号
表現とを対応付けて記憶している。
単語辞書322は、文字単語認識機能314の検索要求
を満たすために、文字表現をキーとして検索できるとと
もに、音声単語認識機能315の検索要求を満たすため
に、表音記号表現をキーとしても検索できるように構成
される。文字単語認識機能314は、テキストデータに
含まれる文字列の全ての可能性について単語辞書322
の検索を行い、検索に成功した文字列(単語)の集合を
出力する。このとき、単語を構成する文字の尤度をテキ
ストバッファ324から読み出し、その和を計算し、単
語の尤度として併せて出力する。文字単語認識機能31
4が出力する単語集合を、第1単語候補集合391と呼
ぶ。
方、文字図形表示機能313によりCRTデイスプレィ
350の画面上に文字392がブリンク表示されると、
操作者はそれを見て、その文字を含む単語の読み393
を発声する。マイクロホン360は、その読み393の
音声を電気信号に変換する。
音韻認識機能371は、読み393の音声波形を解析し
、セグメンテーション、特徴パラメータの抽出を行い、
入力音声を音韻ラティス394に変換する。音韻ラティ
ス394は、音声を表音記号列に変換する際に、セグメ
ンテーションおよびセグメントの表音記号によるラベル
づけにおける曖昧性を考慮し、可能性のある表音記号列
を全て含んだ形にしている。
次に、音声単語認識機能315は、音韻認識機能371
の出力である音韻ラティス394に含まれる表音記号列
の各々をキーとして、単語辞書322を検索する。検索
に成功した全ての表音記号列に対して、その表音記号列
に対応する単語の文字表現を単語辞書322から読み出
し、それらを第2単語候補集合395として出力する。
この際に、音韻ラティス394を参照して、単語が対応
する表音記号列を構成する各表音記号の尤度の和を求め
、これを単語の尤度として併せて出力する。
次に、最尤単語選択機能316は、第1単語候補集合3
91と第2hA語候補集合395に共通に含まれる単語
を探索する。共通に含まれる単語が1つ存在すれば、そ
れを解として選択し、テキストデータ管理機能312に
通知する。共通に含まれる単語が複数個存在する場合に
は、第]単語候補集合391における尤度と第2単語候
補集合395における尤度の和か最大のものを解として
選択し、これをテキストデータ管理機能312に通知す
る。共通に含まれる単語が1つも存在しないときには、
その旨をテキストデータ管理機能312に通知する。
テキストデータ管理機能312は、最尤単語選択機能3
16から処理結果の通知を受けると、それに応じてテキ
ストバッファ324内のテキストデータを更新する。最
尤単語選択機能316が解を得て、それをテキストデー
タ管理機能312に通知すると、管理機能312はその
解と両立しない文字をテキストデータから削除する。最
尤単語選択機能316が解を得ることができながったと
きには、文字認識機能311が最も高い尤度を与えた文
字を選択し、競合する他の解を削除する。
このようにして、テキストデータ管理機能312はテキ
ストバッファ324中のテキストデータを更新した後、
更新されたテキストデータをテキストバッファ324が
らテキストファイル341に転送する。
本実施例の音声入力機能付き文字認識装置は、このよう
にして音声認識と文字認識の組み合わせにより、曖昧性
を解消している。例えば、「一方」という語を文字認識
した場合、解の候補として、例えば「−万」、「一方」
、「−力Jが得られる。
これに対して、操作者が「いっぽう」と発音して読みを
与えた場合には、音声認識でも曖昧性が生じる。例えば
、「いっぽ」、「いっぽう」、「いはう」、rいっはう
」が得られ、これをキーとして単語辞書322を検索す
ると、解の候補としては、「−歩」、「一方」、「−報
」、「違法」、「異邦」が得られる。文字認識による解
の候補と音声認識による解の候補に共通に含まれている
のは、これらのうち「一方」のみであるため、この単語
が解と決定される。
このように、本発明では、文字認識装置に対する人間の
介入は、装置が提示する語を読むという自然な形で行う
ことができる。従来がらよく用いられる方法として、装
置が表示する複数の候補から正しいものを選択する方法
があるが、候補が多くなると正解を探すために時間がか
がるという問題がある。本発明は、装置が提示する語を
読むたけであるため、極めて効率的で簡易な方法と言え
る。
次に、本発明の第5の実施例として、同時通訳音声タイ
プライタについて説明する。
これは、第1言語の話者による原テキストと、それを同
時通訳者が翻訳した翻訳テキストの両方を、音声から文
字に変換する装置である。
第19図は、本発明の第5の実施例を示す同時通訳音声
タイプライタのハードウェア構成図である。
本実施例の同時通訳音声タイプライタは、中央処理装置
410と、記憶装置420と、第1マイグロホン430
と、第1音響処理装置440と、第1フロツピーデイス
ク駆動装置450と、第2マイクロホン460と、第2
音響処理装置470と、第2フロツピーデイスク駆動装
置480とで構成されている。
第20図は、第19図における同時通訳音声タイプライ
タの機能ブロック図である。
第1表音記号・文字変換機能411と第2表音記号・文
字変換機能412と最尤解選択機能413は、いずれも
プログラムモジュールであって、中央処理装置410の
演算回路により実行されることにより、その機能が遂行
される。また、第1音韻認識機能441と第2音韻認識
機能471は、それぞれ第1音響処理装置440、第2
音響処理装置470によりその機能が遂行される。また
、第1言語辞書421と第2言語辞書422と2言語辞
書423は、いずれも記憶装置420に格納されている
。また、第1言語テキストファイル451と第2言語テ
キストファイル481として、それぞれ第1フロツピー
デイスク駆動装置450、第2フロツピーデイスク駆動
装置480にセットしたフロッピーディスクが用いられ
る。
次に、同時通訳音声タイプライタの動作を説明する。
原話者が第1言語の原テキストを口述すると、第1マイ
クロホン430は、その音声を電気信号に変換する。第
1音韻認識機能441は、原テキストの音声波形を解析
し、セグメンテーション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第1表音記号・文字変
換機能411は、第1言語辞書421を参照して、音韻
ラティスを単語ラティスに変換する。単語ラティスは、
複数の単語列を束の形にしたものであって、音声認識の
結果を、曖昧性を含んだ形で表現している。
一方、原話者により口述される第1言語の原テキストを
同時通訳者が第2言語に翻訳して口述すると、第2マイ
クロホン460は、その音声を電気信号に変換する。第
2音韻認識機能471は、翻訳テキストの音声波形を解
析し、セグメンテション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第2表音記号・文字変
換機能412は、第2言語辞書422を参照して、音韻
ラティスを単語ラティスに変換する。
次に、最尤解選択機能413は、第1表音記号文字変換
機能411から原テキストの単語ラティスを、第2表音
記号・文字変換機能412から翻訳テキストの単語ラテ
ィスをそれぞれ受は取り、両者の突き合わせを行う。す
なわち、原テキストの単語ラティスに含まれる各単語を
2言語辞書423から検索して、各単語に対する第2言
語の訳語を求め、さらに、各訳語が翻訳テキストの単語
ラティスに含まれるか否かをチエツクする。このように
して、原テキストの単語ラティスと翻訳テキストの単語
ラティスに含まれている対訳関係を全て抽出する。抽出
した対訳関係に含まれている第1言語の単語の集合を、
第1表音記号・文字変換機能411に通知する。この単
語集合を、第1言語最尤単語集合と呼ぶ。同じく抽出し
た対訳関係に含まれている第2言語の単語の集合を、第
2表音記号・文字変換機能412に通知する。この単語
集合を、第2言語最尤単語集合と呼ぶ。
次に、第1表音記号・文字変換機能411は、最尤解選
択機能413から第1言語最尤単語集合を受は取ると、
原テキストの単語ラティスがら最尤単語列を求める。す
なわち、第1言語最尤単語集合に含まれる単語を優先的
に残し、それと競合する単語は削除することにより、単
語ラティスを1つの卑語列に縮退させる。なお、第1言
語最尤単語集合に含まれる単語どうしが競合する区間や
、第1言語最尤単語集合に含まれる単語がない区間につ
いては、音韻的に尤度の高い単語を残す。このようにし
て得られた単語列を、第1言語テキストファイル451
に出力する。
全く同じようにして、第2表音記号・文字変換機能41
2は、最尤解選択機能413がら第2言語最尤単語集合
を受は取ると、翻訳テキストの単語ラティスから最尤単
語列を求める。すなわち、第2言語最尤単語集合に含ま
れる単語を優先的に残し、それと競合する単語は削除す
ることにより、単語ラティスを1つの単語列に縮退させ
る。なお、第2言語最尤単語集合に含まれる単語どうし
が競合する区間や、第2言語最尤単語集合に含まれる単
語がない区間については、音韻的に尤度の高い単語を残
す。このようにして得られた単語列を、第2言語テキス
トファイル481に出ツノする。
本実施例の同時通訳音声タイプライタでは、原テキスト
の音声認識の結果と翻訳テキストの音声認識の結果とを
組合わせて、それぞれに含まれる曖昧性の解消を図るこ
とにより、最終的な音声認識の精度を大きく向上させる
このように、本発明では、組合せる対象によって種々の
装置が実現できる。すなわち、文字による原テキストと
音声による翻訳テキストの組合せにより、翻訳テキスト
を音声から文字表記に変換する翻訳用音声タイプライタ
が実現できる。また、文字による原テキストと仮名ある
いはローマ字による翻訳テキストの組合せにより、翻訳
テキストを仮名あるいはローマ字から漢字仮名混り文に
変換する翻訳用ワードプロセッサが実現できる。また、
テキストとその要約の組合せにより、テキストの要約を
口述したり、仮名やローマ字で入力して文字表記に変換
する要約テキスト入力装置が実現できる。また、画像と
それに対するコメント文の組合せにより、画像に対する
コメント文を口述したり、仮名やローマ字で入力して文
字表記に変換する画像コメント文入力装置が実現できる
。また、図形としての文字と文字あるいは単語の読みの
組合せにより、高精度の文字認識装置が実現できる。ま
た、第1言語の音声とその第2言語への同時通訳音声と
の組合せにょ番ハ同時通訳音声タイプライタが実現でき
る。
〔発明の効果] 以上説明したように、本発明によれば、相互に関連をも
つ複数の対象をそれぞれ解析して、変換あるいはHal
kを行って解を求め、それらに共通する解を選ぶことに
より、1つの対象のみを解析する場合に比較して、変換
あるいは認識の精度を著しく向上させることが可能であ
る。
【図面の簡単な説明】
第1図は本発明の第1の実施例を示す翻訳用音声タイプ
ライタの機能ブロック図、第2図は第1図における翻訳
用音声タイプライタのハードウェア構成図、第3図は第
1図における2言語辞書のレコードの例を示す図、第4
図は第1図における目標言語辞書のレコードの例を示す
図、第5図は第1図における原テキスト解析機能の処理
フロチャート、第6図は第1図における翻訳テキスト構
成語候補集合を示す図、第7図は第1図におけるラティ
ス構成要素のデータ構造を示す図、第8図は第1図にお
ける表音記号・文字変換機能の処理フローチャート、第
9図は第1図における隣接する語セグメントに対する処
理の説明図、第10図は第1図における音声から漢字仮
名混じり文への変換例を示す図、第11図は本発明の第
2の実施例を示す翻訳用ワードプロセッサのハードウェ
ア構成図、第12図は第11図における翻訳用ワードプ
ロセッサの機能ブロック図、第13図は第11図におけ
る仮名漢字変換機能の処理フローチャート、第14図は
第11図における仮名漢字変換例を示す図、第15図は
本発明の第3の実施例を示す画像のコメント文入力装置
のハードウェア構成図、第16区は第15図における画
像のコメント文入力装置の機能ブロック図、第17図は
本発明の第4の実施例の音声入力機能付き文字認識装置
のハードウェア構成図、第18図は第17図における音
声入力機能付き文字認識装置の機能ブロック図、第19
図は本発明の第5の実施例の同時通訳音声タイプライタ
のハードウェア構成図、第20図は第19図における同
時通訳音声タイプライタの機能ブロック図である。 1.101,210,310,410・中央処理装置、
2,102,220,320,420:記憶装置、3.
.230,360:vイ’70ホン、430.460:
第1および第2マイクロホン、4.240,370:音
響処理装置、440,470、第1および第2音響処理
装置、5,104゜350+CRTデイスプレイ、6,
103  キボー阻7 :OCR,8,]、07,28
0 :プリンタ、11.原テキスト解析機能、12,2
12:表音記号・文字変換機能、411,412+第1
および第2表音記号・文字変換機能、13.2言語テキ
スト表示機能、21,102]、4232言語辞書、2
2.1022+目標言語辞書、23.1051+原テキ
ストフアイル、24.1061 翻訳テキストファイル
、41,241,371・音韻認識機能、441,47
1+第1および第2音韻認識機能、105,106・第
1および第2フロツピーデイスク駆動装置、340  
フロッピーディスク駆動装置、450,480:第1お
よび第2フロツピーデイスク駆動装置、1011・原テ
キスト解析機能、1012:仮名漢字変換機能、101
3:2言語テキスト表示機能、+014・翻訳テキスト
セーブ機能、I 023翻訳文バッファ、250・画像
スキャナ、260画像記憶装置、270・画像表示装置
、21)画像解析機能、2131画像表示機能、221
・画像・言語変換辞書、222,322:単語辞書、2
23:コメント文ファイル、261・画像ファイル、3
300文字スキャナ、321 文字12に辞書、324
 テキストバッファ、341.テキストファイル、32
3 図形バッファ、314文字単語認識機能、316 
最尤単語選択機能、315:音声単語認識機能、311
0文字認識機能、312・テキストデータ管理機能、3
13文字図形表示機能、413.最尤解選択機能、42
1、第1言語辞書、422:第2言語辞書、451:第
1言語テキストファイル、481.第2言語テキストフ
ァイル。 第 図 3 3 第 図 第 6 図 第 図 第 1 図 第 1 図 町 顕 り 圀 ○ \J ニ 、j  (V 枯 賢 そ第 図 第 2 図

Claims (1)

  1. 【特許請求の範囲】 1、原情報に対応して作成されるテキストの入力方法に
    おいて、上記原情報を解析して、入力される上記テキス
    トを構成する語に関する情報を予測するとともに、第1
    の表現方法で入力されたテキストを、上記予測された語
    情報を利用して、目的とする第2の表現方法によるテキ
    ストに変換することを特徴とするテキスト入力方法。 2、第1の表現方法で入力される翻訳テキストを読み取
    り、目的とする第2の表現方法のテキストに変換する翻
    訳テキスト入力方法において、上記翻訳テキストが対応
    している原テキストを原テキスト解析モジュールを実行
    することにより解析して、上記翻訳テキストを構成する
    語を予測するとともに、翻訳テキスト変換モジュールを
    実行することにより、上記予測された語情報を利用して
    、第1の表現方法による翻訳テキストを第2の表現方法
    によるテキストに変換することを特徴とする翻訳テキス
    ト入力方法。 3、請求項2に記載の翻訳テキスト入力方法において、
    上記原テキスト解析モジュールは、原言語の語と目標言
    語の対訳語および連想される目標言語の語とを対応付け
    る2言語辞書を用いて、原テキストを構成する語から翻
    訳テキストを構成する語を予測し、上記翻訳テキスト変
    換モジュールは、第1の表現方法から第2の表現方法へ
    の変換処理の際に曖昧性が生じた場合に、上記原テキス
    ト解析モジュールが予測した語を優先的に選択すること
    により、上記曖昧性を解消することを特徴とする翻訳テ
    キスト入力方法。 4、第1の表現方法の音声で入力される翻訳テキストを
    読み取り、目的とする第2の表現方法の文字列に変換す
    る翻訳テキスト入力装置において、翻訳テキストが対応
    している原テキストを構成する語を認識して、該翻訳テ
    キストを構成する語を予測する原テキスト解析モジュー
    ルと、音声入力された翻訳テキストを尤度が予め定めた
    値を越える1つ以上の表音記号列に変換する音韻認識モ
    ジュールと、該音韻認識モジュールが変換した表音記号
    列の中で上記原テキスト解析モジュールが予測した語の
    表音記号表現と一致する区間を探索し、該一致する区間
    の表音記号列を該一致した語の文字表現に変換する表音
    記号・文字変換モジュールとを具備することを特徴とす
    る翻訳テキスト入力装置。 5、第1の表現方法の仮名ないしローマ字の表音記号を
    入力し、目的とする第2の表現方法の漢字仮名混じり文
    字列に変換する翻訳テキスト入力装置において、翻訳テ
    キストが対応している原テキストを構成する語を認識し
    、翻訳テキストを構成する語を予測する原テキスト解析
    モジュールと、仮名ないしローマ字入力された翻訳テキ
    ストの中で、上記原テキスト解析モジュールが予測した
    語の仮名ないしローマ字表現と一致する区間を探し、該
    一致する区間を該一致した語の文字表現に変換する表音
    記号・文字変換モジュールとを具備することを特徴とす
    る翻訳テキスト入力装置。 6、請求項4または5に記載の翻訳テキスト入力装置に
    おいて、上記原テキストの全部ないし一部を表示装置に
    表示する原テキスト表示モジュールを設け、上記原テキ
    スト解析モジュールは原テキストのうちの上記表示装置
    に表示された部分を解析の対象とし、上記表音記号・文
    字変換モジュールは、表示中の部分の解析により抽出さ
    れた情報を利用して、翻訳テキストを第1の表現方法か
    ら第2の表現方法に変換することを特徴とする翻訳テキ
    スト入力装置。 7、請求項6に記載の翻訳テキスト入力装置において、
    上記原テキスト表示モジュールは、原テキストのうちの
    一部を他と異なる様式で表示し、上記原テキスト解析モ
    ジュールは、原テキストのうち他と異なる様式で表示さ
    れている部分を解析の対象とし、上記表音記号・文字変
    換モジュールは、他と異なる様式で表示されている部分
    の解析により抽出された情報を利用して、翻訳テキスト
    を第1の表現方法から第2の表現方法に変換することを
    特徴とする翻訳テキスト入力装置。 8、請求項6または7に記載の翻訳テキスト入力装置に
    おいて、上記表示装置に表示中の部分あるいは他と異な
    る様式で表示されている部分に対応する翻訳テキストの
    入力および変換処理が終了したか否かを判定するモジュ
    ールを有し、処理が終了したときには、翻訳テキストの
    次の部分を上記表示装置に表示し、あるいは他と異なる
    様式で表示することを特徴とする翻訳テキスト入力装置
    。 9、請求項4または5に記載の翻訳テキスト入力装置に
    おいて、上記原テキスト解析モジュールが予測した語を
    、翻訳テキストを構成する語の候補として表示装置に表
    示する訳語候補表示モジュールを有することを特徴とす
    る翻訳テキスト入力装置。 10、請求項4または5に記載の翻訳テキスト入力装置
    において、上記表音記号・文字変換モジュールの出力で
    ある第2の表現方法による翻訳テキストを表示装置に表
    示する翻訳テキスト表示モジュールを有することを特徴
    とする翻訳テキスト入力装置。 11、翻訳テキストに対して、文および語句の置換およ
    び挿入を含む修正を行う翻訳テキスト編集装置において
    、原テキストを解析して、修正のために入力される修正
    テキストを構成する語の情報を予測する原テキスト解析
    モジュールと、該原テキスト解析モジュールが予測した
    情報を利用して、音声ないし表音記号により入力される
    修正テキストを文字に変換する修正テキスト変換モジュ
    ールとを有することを特徴とする翻訳テキスト編集装置
    。 12、原テキストを要約したテキストの入力装置におい
    て、上記原テキストを解析して、要約テキストを構成す
    る語の情報を予測する原テキスト解析モジュールと、該
    原テキスト解析モジュールが予測した情報を利用して、
    音声ないし表音記号により入力される要約テキストを文
    字に変換する要約テキスト変換モジュールとを有するこ
    とを特徴とする要約テキスト入力装置。 13、画像またはデータに対するコメント文の入力装置
    において、原画像・データを解析して、該画像・データ
    に対するコメント文を構成する語の情報を予測する原画
    像・データ解析モジュールと、該原画像・データ解析モ
    ジュールが抽出した情報を利用して、音声ないし表音記
    号により入力されるコメント文を文字に変換するコメン
    ト文変換モジュールとを有することを特徴とする画像・
    データのコメント文入力装置。 14、文字ないし語の読みを補助情報として音声で入力
    することが可能な文字認識装置において、尤度が予め定
    めた値以上の1つ以上の解を出力する文字認識モジュー
    ルと、尤度が予め定めた値以上の1つ以上の解を出力す
    る音声認識モジュールと、上記文字認識モジュールの出
    力および上記音声認識モジュールの出力の両方に含まれ
    る文字を優先的に選択する最尤解選択モジュールとを有
    することを特徴とする音声入力機能付き文字認識装置。 15、第1の言語による音声テキストとそれを第2の言
    語に同時通訳した音声テキストの両方ないしいずれか一
    方を文字に変換する同時通訳音声タイプライタにおいて
    、上記第1の言語による音声を認識し、尤度が予め定め
    た値以上の1つ以上の解を出力する第1の音声認識モジ
    ュールと、上記第2の言語による音声を認識し、尤度が
    予め定めた値以上の1つ以上の解を出力する第2の音声
    認識モジュールと、上記第1および第2の音声認識モジ
    ュールの出力に対訳関係を有する語の組が含まれるとき
    、該語の組を優先的に選択する最尤解選択モジュールと
    を有することを特徴とする同時通訳音声タイプライタ。
JP2019654A 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法 Expired - Lifetime JP2836159B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019654A JP2836159B2 (ja) 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法
DE69129163T DE69129163T2 (de) 1990-01-30 1991-01-30 Verfahren und Vorrichtung zur Texteingabe
EP91101211A EP0440197B1 (en) 1990-01-30 1991-01-30 Method and apparatus for inputting text
US08/231,901 US5526259A (en) 1990-01-30 1994-04-22 Method and apparatus for inputting text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019654A JP2836159B2 (ja) 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法

Publications (2)

Publication Number Publication Date
JPH03224055A true JPH03224055A (ja) 1991-10-03
JP2836159B2 JP2836159B2 (ja) 1998-12-14

Family

ID=12005235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019654A Expired - Lifetime JP2836159B2 (ja) 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法

Country Status (4)

Country Link
US (1) US5526259A (ja)
EP (1) EP0440197B1 (ja)
JP (1) JP2836159B2 (ja)
DE (1) DE69129163T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185487A (ja) * 1995-12-29 1997-07-15 Nec Corp 音声認識方式
JP2009087038A (ja) * 2007-09-28 2009-04-23 Canon Inc 画像処理装置および画像処理方法

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978421B1 (en) * 1994-06-19 2005-12-20 Mitsuhiro Aida Handwriting text input system
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5745875A (en) * 1995-04-14 1998-04-28 Stenovations, Inc. Stenographic translation system automatic speech recognition
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5737725A (en) * 1996-01-09 1998-04-07 U S West Marketing Resources Group, Inc. Method and system for automatically generating new voice files corresponding to new text from a script
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5764851A (en) * 1996-07-24 1998-06-09 Industrial Technology Research Institute Fast speech recognition method for mandarin words
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
KR19980035431A (ko) * 1996-11-13 1998-08-05 김광호 다국어 입력 설정 변환 방법
US6098085A (en) * 1997-03-17 2000-08-01 At&T Corp. Word-serial reader for network devices having limited display capabilities
KR100213910B1 (ko) 1997-03-26 1999-08-02 윤종용 한영 자동 변환기 및 방법
US6006185A (en) * 1997-05-09 1999-12-21 Immarco; Peter System and device for advanced voice recognition word spotting
US6629074B1 (en) 1997-08-14 2003-09-30 International Business Machines Corporation Resource utilization indication and commit mechanism in a data processing system and method therefor
WO1999046762A1 (en) * 1998-03-09 1999-09-16 Kelvin Lp Automatic speech translator
JP2000276482A (ja) 1999-03-25 2000-10-06 Matsushita Electric Ind Co Ltd 文書検索装置及び文書検索方法
US6205342B1 (en) * 1999-03-31 2001-03-20 Sony Corporation User interface for text message creation
US6754619B1 (en) * 1999-11-15 2004-06-22 Sony Corporation Digital recording and playback system with voice recognition capability for concurrent text generation
US7155517B1 (en) 2000-09-28 2006-12-26 Nokia Corporation System and method for communicating reference information via a wireless terminal
KR20020067692A (ko) * 2000-10-05 2002-08-23 소니 가부시끼 가이샤 로봇 장치 및 그 제어 방법
KR20010008073A (ko) * 2000-11-07 2001-02-05 조용범 음성 인식 및 번역 전용 에이직을 이용한 휴대용 다국어번역 단말장치
US20020091509A1 (en) * 2001-01-02 2002-07-11 Yacov Zoarez Method and system for translating text
US7136803B2 (en) * 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US6714441B1 (en) * 2002-09-17 2004-03-30 Micron Technology, Inc. Bridge-type magnetic random access memory (MRAM) latch
US6928495B2 (en) * 2002-09-27 2005-08-09 Broadcom Corporation Method and system for an adaptive multimode media queue
US20040098664A1 (en) * 2002-11-04 2004-05-20 Adelman Derek A. Document processing based on a digital document image input with a confirmatory receipt output
EP1677207A4 (en) * 2003-03-14 2010-05-05 Fujitsu Ltd TRANSLATION ASSISTING DEVICE
US7406662B2 (en) * 2003-11-10 2008-07-29 Microsoft Corporation Data input panel character conversion
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US8935316B2 (en) * 2005-01-14 2015-01-13 Citrix Systems, Inc. Methods and systems for in-session playback on a local machine of remotely-stored and real time presentation layer protocol data
US20060159432A1 (en) 2005-01-14 2006-07-20 Citrix Systems, Inc. System and methods for automatic time-warped playback in rendering a recorded computer session
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8166418B2 (en) * 2006-05-26 2012-04-24 Zi Corporation Of Canada, Inc. Device and method of conveying meaning
US20080046824A1 (en) * 2006-08-16 2008-02-21 Microsoft Corporation Sorting contacts for a mobile computer device
WO2008029881A1 (fr) * 2006-09-07 2008-03-13 Nec Corporation Système de traitement du langage naturel et système d'enregistrement de dictionnaire
JP2008152670A (ja) * 2006-12-19 2008-07-03 Fujitsu Ltd 翻訳文入力支援プログラム、該プログラムを記録した記憶媒体、翻訳文入力支援装置、および翻訳文入力支援方法
US20090326913A1 (en) * 2007-01-10 2009-12-31 Michel Simard Means and method for automatic post-editing of translations
US20090093506A1 (en) * 2007-10-04 2009-04-09 Cooper Garth J S Copper antagonist compositions
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US20100070482A1 (en) * 2008-09-12 2010-03-18 Murali-Krishna Punaganti Venkata Method, system, and apparatus for content search on a device
US8818992B2 (en) 2008-09-12 2014-08-26 Nokia Corporation Method, system, and apparatus for arranging content search results
US8326601B2 (en) * 2009-02-11 2012-12-04 Microsoft Corporation Queue based mechanism to support multi-language chat rooms
CN102411563B (zh) 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及***
US9852732B2 (en) * 2010-10-07 2017-12-26 Avaya Inc. System and method for near real-time identification and definition query
US8615159B2 (en) * 2011-09-20 2013-12-24 Citrix Systems, Inc. Methods and systems for cataloging text in a recorded session
CN103365834B (zh) * 2012-03-29 2017-08-18 富泰华工业(深圳)有限公司 语言歧义消除***及方法
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) * 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN104239323B (zh) * 2013-06-17 2019-03-26 腾讯科技(深圳)有限公司 数据输出的方法及装置
JP6417649B2 (ja) * 2013-08-22 2018-11-07 株式会社リコー 文章処理装置、文章表示システム、プログラム
JP6233798B2 (ja) * 2013-09-11 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データを変換する装置及び方法
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
US10943075B2 (en) * 2018-02-22 2021-03-09 Entigenlogic Llc Translating a first language phrase into a second language phrase
CN117094329B (zh) * 2023-10-13 2024-02-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种用于解决语音歧义的语音翻译方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63273165A (ja) * 1987-05-01 1988-11-10 Ricoh Co Ltd 翻訳支援装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3646576A (en) * 1970-01-09 1972-02-29 David Thurston Griggs Speech controlled phonetic typewriter
US4193119A (en) * 1977-03-25 1980-03-11 Xerox Corporation Apparatus for assisting in the transposition of foreign language text
JPS5723176A (en) * 1980-07-18 1982-02-06 Sharp Corp Electronic translator
JPS5924452B2 (ja) * 1980-09-22 1984-06-09 株式会社日立製作所 日本文入力装置
US4507750A (en) * 1982-05-13 1985-03-26 Texas Instruments Incorporated Electronic apparatus from a host language
JPS593629A (ja) * 1982-06-30 1984-01-10 Fujitsu Ltd 音声入力文書作成装置
IT1156544B (it) * 1982-11-08 1987-02-04 Olivetti & Co Spa Metodo ed apparecchiatura di riconoscimento fonetico di parole
JPS59132038A (ja) * 1983-01-17 1984-07-30 Nec Corp カナ文字列評定方法
JPS59132039A (ja) * 1983-01-17 1984-07-30 Nec Corp カナ文字列評定方法
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPS6084667A (ja) * 1983-10-17 1985-05-14 Mitsubishi Electric Corp 文章組立装置
US5091950A (en) * 1985-03-18 1992-02-25 Ahmed Moustafa E Arabic language translating device with pronunciation capability using language pronunciation rules
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPS63182735A (ja) * 1987-01-26 1988-07-28 Nec Corp 音声入力ワ−ドプロセツサ
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63273165A (ja) * 1987-05-01 1988-11-10 Ricoh Co Ltd 翻訳支援装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185487A (ja) * 1995-12-29 1997-07-15 Nec Corp 音声認識方式
JP2009087038A (ja) * 2007-09-28 2009-04-23 Canon Inc 画像処理装置および画像処理方法
US10013727B2 (en) 2007-09-28 2018-07-03 Canon Kabushiki Kaisha Information processing apparatus and information processing method
US10529045B2 (en) 2007-09-28 2020-01-07 Canon Kabushiki Kaisha Information processing apparatus and information processing method

Also Published As

Publication number Publication date
EP0440197A3 (en) 1992-01-29
US5526259A (en) 1996-06-11
JP2836159B2 (ja) 1998-12-14
DE69129163D1 (de) 1998-05-07
EP0440197A2 (en) 1991-08-07
EP0440197B1 (en) 1998-04-01
DE69129163T2 (de) 1998-12-03

Similar Documents

Publication Publication Date Title
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US6490563B2 (en) Proofreading with text to speech feedback
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US8751235B2 (en) Annotating phonemes and accents for text-to-speech system
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
JP2004046807A (ja) 表意文字言語のマルチモーダル入力
JP2005150841A (ja) 情報処理方法及び情報処理装置
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP4738847B2 (ja) データ検索装置および方法
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP2003162524A (ja) 言語処理装置
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2000285112A (ja) 予測入力装置及び予測入力方法並びに記録媒体
JPH11250063A (ja) 検索装置及び検索方法
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
KR20090041897A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP3069532B2 (ja) かな漢字変換方法およびその装置並びにかな漢字変換方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3048793B2 (ja) 文字変換装置
JPH0916575A (ja) 発音辞書装置