JPH1185756A - 翻訳装置及び翻訳装置制御プログラムを記憶した媒体 - Google Patents

翻訳装置及び翻訳装置制御プログラムを記憶した媒体

Info

Publication number
JPH1185756A
JPH1185756A JP9238539A JP23853997A JPH1185756A JP H1185756 A JPH1185756 A JP H1185756A JP 9238539 A JP9238539 A JP 9238539A JP 23853997 A JP23853997 A JP 23853997A JP H1185756 A JPH1185756 A JP H1185756A
Authority
JP
Japan
Prior art keywords
item
line
unit
translation
numbered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9238539A
Other languages
English (en)
Inventor
Noriyuki Hirai
徳行 平井
Naoko Shinozaki
直子 篠崎
Kazuo Nishiura
一夫 西浦
Ichiko Sada
いち子 佐田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP9238539A priority Critical patent/JPH1185756A/ja
Priority to US09/098,509 priority patent/US6081773A/en
Publication of JPH1185756A publication Critical patent/JPH1185756A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 原文中に含まれる各種レイアウト情報に柔軟
に対応して解析し、翻訳対象範囲をより正確に認識し、
認識した翻訳対象範囲の原文を他の言語に翻訳すること
により、翻訳精度を向上させる。 【解決手段】 自然言語の原文を入力する入力装置と、
前記入力部によって入力された原文からカスケード、箇
条書、番号付箇条書、ラベル付箇条書及びセパレータラ
インからなるレイアウト情報を解析しそのレイアウト情
報に基づいて翻訳対象範囲を認識するレイアウト解析C
PUと、認識された翻訳対象範囲の原文を他の言語に翻
訳する翻訳処理CPUと、前記翻訳処理CPUによって
翻訳された訳文を出力する出力装置とから構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ワードプロセッ
サ、パーソナルコンピュータ、携帯情報処理機器などに
適用され、入力された原文を翻訳して訳文を出力する翻
訳装置及び翻訳装置制御プログラムを記憶した媒体に関
する。
【0002】
【従来の技術】近年、電子計算機を用いた翻訳装置が多
数開発されているが、翻訳結果はまだまだ人間の翻訳レ
ベルにはおよばないのが実状である。この原因の一つと
して、原文には、その内容以外に改行位置、カスケー
ド、箇条書などのレイアウト情報が含まれている場合、
翻訳者には容易にその意味が認識できるにもかかわら
ず、翻訳装置にはその意味の抽出が困難であることがあ
げられる。
【0003】レイアウト情報を認識できないと、原文の
レイアウト情報を抽出できないばかりでなく、翻訳対象
範囲を誤認してしまうことから誤訳を生み出してしまう
結果となる。例えば、箇条書記号を文の一部と誤認識し
てしまうと、文の解析が誤ったものになる。
【0004】レイアウト情報を使用して翻訳する従来技
術として、例えば、特開平2−208775号公報の記
載によれば、文章外情報処理部で、箇条書、数式、表題
などの文章外情報をパターンマッチングデータと比較す
ることによって認識し、認識した文章外情報を利用した
訳文を生成して翻訳率を高める機械翻訳方式が提案され
ている。
【0005】また、特開平5−303589号公報の記
載によれば、レイアウト解析手段により、文の「見出
し」、「段落」、「箇条書」を構文パターンとして認識
し、それぞれに違う構文生成規則を適用することによっ
て、それぞれの訳し分けを行う翻訳装置が提案されてい
る。
【0006】
【発明が解決しようとする課題】しかしながら、特開平
2−208775号公報、特開平5−393589号公
報に開示されたようなレイアウト情報の利用技術は、固
定フォーマットを前提にしたものであり、様々な形状の
箇条書に柔軟に対応することができない。特に、近年、
盛んになっている電子メールでは、リプライ時に引用符
号を追加していく形式、例えば
【0007】 >> >> >> This is a test mail. Is there anything wrong? >> >> I received your mail. Everything seems fine. >> Thank you. I'm relieved. See you on Sunday! No problem. See you! : や、 John : This is a test mail. Is there anything wrong? Mary >> I received your mail. Everything seems fine. John : Thank you. I'm relieved. See you on Sunday! Mary >> No problem. See you! :
【0008】などの様々な形式が、自由に採用されてい
る。また、電子メール以外でも、文章作成時のレイアウ
トは、作者の好みによって多種多様なスタイルが生み出
されている。翻訳者には、大抵の場合、容易に理解でき
るが、従来の翻訳装置では、多種多様なレイアウト情報
を正確に抽出できるように構成されていないので、正確
な翻訳対象範囲を認識できない。
【0009】本発明は以上の事情を考慮してなされたも
ので、例えば、原文中に含まれる各種レイアウト情報に
柔軟に対応して解析し、翻訳対象範囲をより正確に認識
し、認識した翻訳対象範囲の原文を他の言語に翻訳する
ことにより、翻訳精度を向上させる翻訳装置及び翻訳装
置制御プログラムを記憶した媒体を提供する。
【0010】
【課題を解決するための手段】本発明は、自然言語の原
文を入力する入力部と、前記入力部によって入力された
原文からカスケード、箇条書、番号付箇条書、ラベル付
箇条書及びセパレータラインからなるレイアウト情報を
解析しそのレイアウト情報に基づいて翻訳対象範囲を認
識するレイアウト解析部と、認識された翻訳対象範囲の
原文を他の言語に翻訳する翻訳処理部と、前記翻訳処理
部によって翻訳された訳文を出力する出力部とを備えた
ことを特徴とする翻訳装置である。
【0011】なお、本発明において、入力部は、キーボ
ード、マウス、ペン・タブレット等の入力装置及びネッ
トワーク通信装置で構成されることが好ましい。レイア
ウト解析部、翻訳処理部は、CPU、ROM、RAM、
I/Oポートからなるマイクロコンピュータで構成され
ることが好ましい。このROMには、CPUがレイアウ
ト解析部、翻訳処理部として機能するプログラム、辞書
部として辞書情報が記憶されている。また、このRAM
には、翻訳対象原文、レイアウト情報が記憶される。出
力部は、液晶ディスプレイ、プラズマディスプレイから
なる表示装置や、サーマルプリンタ、レーザプリンタか
らなるプリンタで構成されることが好ましい。
【0012】本発明によれば、原文中に含まれる各種レ
イアウト情報に柔軟に対応して解析し、翻訳対象範囲を
より正確に認識し、認識した翻訳対象範囲の原文を他の
言語に翻訳することにより、翻訳精度を向上させること
ができる。
【0013】前記レイアウト解析部は、原文の行の先頭
文字列が次の行の先頭N文字列と同じである場合にカス
ケードと認識し、カスケードのヘッダー部分を原文から
分離するカスケード認識部をさらに備えた構成にしても
よい。
【0014】前記構成によれば、原文中に含まれるレイ
アウト情報の一つであるカスケード情報を抽出し、翻訳
対象範囲をより正確に認識し、レイアウト情報を訳文に
反映させることにより翻訳精度を向上させることができ
る。
【0015】前記カスケード認識部は、カスケードを認
識する際に、次の行だけとマッチさせるのではなく、所
定の行数までマッチさせ、1行でもマッチした場合には
それをカスケードと認め、マッチしなかった行を折り返
し行であると認識するよう構成してもよい。
【0016】前記カスケード認識部は、パラメータとし
て所定の行数をユーザ設定可能にした構成にしてもよ
い。
【0017】前記カスケード認識部は、同じ翻訳レベル
と認識された1訳文を1行にして、すべてにヘッダーを
付与するかわりに、同じ翻訳レベルの訳文に長さによっ
て改行を挿入し、各行にヘッダーを付与するよう構成し
てもよい。
【0018】前記構成によれば、カスケード情報を保持
した訳文を生成することができる。特に、一行の長さを
そろえる整形を行うことによって、カスケード情報を反
映した見やすい訳文を生成することができる。
【0019】前記レイアウト解析手段は、前記カスケー
ド認識部によりカスケードと認識されても、所定の長さ
の文字列がマッチしないとカスケードとは認めないカス
ケード例外認識部をさらに備えた構成にしてもよい。
【0020】前記構成によれば、カスケード認識部でカ
スケードと判断されるもののうち、実際にはカスケード
でないものを認識して、カスケード処理が施されないよ
うにできる。つまり、翻訳対象範囲をより正しく認識す
ることができる。
【0021】前記カスケード例外認識部は、パラメータ
として所定の長さの文字列をユーザ設定可能にした構成
にしてもよい。
【0022】前記レイアウト解析部は、行の先頭文字列
が次の行の先頭文字列と同じである場合に箇条書と認識
し、箇条書のヘッダー部分を原文から分離する箇条書認
識部をさらに備えた構成にしてもよい。
【0023】前記構成によれば、原文中に含まれるレイ
アウト情報の一つである箇条書情報を抽出し、翻訳対象
範囲をより正確に認識し、レイアウト情報を訳文に反映
させることにより翻訳精度を向上させることができる。
【0024】前記箇条書認識部は、箇条書きを認識する
際に、次の行だけとマッチさせるのではなく、所定の行
数までマッチさせ、1行でもマッチした場合にはそれを
箇条書と認識し、マッチしなかった行を折り返し行であ
ると認識するよう構成してもよい。
【0025】前記箇条書認識部は、パラメータとして所
定の行数をユーザ設定可能にした構成にしてもよい。
【0026】前記レイアウト解析部は、前記箇条書認識
部により箇条書と認識されても、所定の長さの文字列が
マッチしないと箇条書とは認識しない箇条書例外認識部
をさらに備えた構成にしてもよい。
【0027】前記構成によれば、箇条書認識部で箇条書
と判断されるもののうち、実際には箇条書でないものを
認識して、箇条書処理が施されないようにできる。つま
り、翻訳対象範囲をより正しく認識することができる。
【0028】前記箇条書例外認識部は、パラメータとし
て所定の行数をユーザ設定可能にした構成にしてもよ
い。
【0029】前記レイアウト解析部は、行の先頭文字列
が次の行の先頭文字列及び先頭文字列に1文字を加えて
比較して、記号の部分が完全に同一で、異なる部分が数
字またはアルファベットのみであった場合に番号付箇条
書と認識し、番号付箇条書のヘッダー部分を原文から分
離する番号付箇条書認識部をさらに備えた構成にしても
よい。
【0030】前記構成によれば、原文中に含まれるレイ
アウト情報の一つである番号付箇条書情報を抽出し、翻
訳対象範囲をより正確に認識し、レイアウト情報を訳文
に反映させることにより翻訳精度を向上させることがで
きる。
【0031】前記番号付箇条書認識部は、番号付箇条書
を認識する際に、次の行だけとマッチさせるのではな
く、所定の行数までマッチさせ、1行でもマッチした場
合にはそれを番号付箇条書と認識し、マッチしなかった
行を折り返し行であると認識するよう構成してもよい。
【0032】前記番号付箇条書認識部は、パラメータと
して所定の行数をユーザ設定可能にした構成にしてもよ
い。
【0033】前記レイアウト解析部は、前記番号付箇条
書認識部により番号付箇条書と認識されても、異なる文
字数が最大文字数以上の場合は番号付箇条書きとは認識
しない番号付箇条書例外認識部をさらに備えた構成にし
てもよい。
【0034】前記構成によれば、番号付箇条書認識部で
番号付箇条書と判断されるもののうち、実際には番号付
箇条書でないものを認識して、番号付き条書処理が施さ
れないようにできる。つまり、翻訳対象範囲をより正し
く認識することができる。
【0035】前記番号付箇条書例外認識部は、パラメー
タとして最大文字数をユーザ設定可能にした構成にして
もよい。
【0036】前記番号付箇条書例外認識部は、前記番号
付箇条書認識部により番号付箇条書と認識されても、所
定の長さの文字列がマッチしないと番号付箇条書とは認
識しない構成にしてもよい。
【0037】前記番号付箇条書例外認識部は、パラメー
タとして所定の長さの文字列をユーザ設定可能にした構
成にしてもよい。
【0038】前記番号付箇条書例外認識部は、前記番号
付箇条書認識部により番号付箇条書と認識されても、数
字またはアルファベットの順番が非連続の場合には番号
付箇条書とは認識しない構成にしてもよい。
【0039】前記番号付箇条書例外認識部は、数字また
はアルファベットの順番が非連続の場合に番号付箇条書
とするかどうかをユーザ指定可能にした構成にしてもよ
い。
【0040】前記レイアウト解析部は、ラベル付箇条書
認識セパレータを定義し、このセパレータを含む行が連
続した場合に、ラベル付箇条書と認識し、ラベル付箇条
書のヘッダー部分を原文から分離するラベル付箇条書認
識部をさらに備えた構成にしてもよい。
【0041】前記構成によれば、原文中に含まれるレイ
アウト情報の一つであるラベル付箇条書情報を抽出し、
翻訳対象範囲をより正確に認識し、レイアウト情報を訳
文に反映させることにより翻訳精度を向上させることが
できる。
【0042】前記ラベル付箇条書認識部は、箇条書を認
識する際に、次の行だけにラベル付箇条書認識セパレー
タをマッチさせるのではなく、所定の行数までマッチさ
せ、1行でもマッチした場合にはそれをラベル付箇条書
と認識し、マッチしなかった行を折り返し行であると認
識するよう構成してもよい。
【0043】前記ラベル付箇条書認識部は、パラメータ
として所定の行数をユーザ設定可能にした構成にしても
よい。
【0044】前記ラベル付箇条書認識セパレータとし
て、コロン(:)を設定してもよい。
【0045】前記ラベル付箇条書認識部は、前記ラベル
付箇条書認識セパレータをユーザ設定可能にした構成に
してもよい。
【0046】前記レイアウト解析部は、前記ラベル付箇
条書認識部によりラベル付箇条書抑制文字列を定義し、
ラベル付箇条書抑制文字列の直後にラベル付箇条書認識
セパレータがあっても、ラベル付箇条書とは認識しない
ラベル付箇条書例外認識部をさらに備えた構成にしても
よい。
【0047】前記構成によれば、ラベル付箇条書認識部
でラベル付箇条書と判断されるもののうち、実際にはラ
ベル付箇条書でないものを認識して、ラベル付箇条書処
理が施されないようにできる。つまり、翻訳対象範囲を
より正しく認識することができる。
【0048】前記ラベル付箇条書抑制文字列として、
「TEL」、「FAX」を設定してもよい。
【0049】前記ラベル付箇条書認識部は、前記ラベル
付箇条書抑制文字列をユーザ設定可能にした構成にして
もよい。
【0050】前記レイアウト解析部は、所定数以上の同
一文字連続で構成される行は、独立したセパレータライ
ンの行と認識するセパレータライン認識部をさらに備え
た構成にしてもよい。
【0051】前記構成によれば、原文中に含まれるレイ
アウト情報の一つであるセパレータラインを抽出し、翻
訳対象範囲をより正確に認識し、レイアウト情報を訳文
に反映させることにより翻訳精度を向上させることがで
きる。
【0052】前記セパレータライン認識部は、パラメー
タとして所定数をユーザ設定可能にした構成にしてもよ
い。
【0053】前記セパレータライン認識部は、所定数以
上の記号のみで構成される行は、独立したセパレータラ
インの行と認識するよう構成してもよい。
【0054】前記セパレータライン認識部は、パラメー
タとして所定数の記号をユーザ設定可能にした構成にし
てもよい。
【0055】
【発明の実施の形態】以下、図面に示す実施例に基づい
て本発明を詳述する。なお、これによって本発明が限定
されるものではない。図1は本発明の一実施例である機
械翻訳装置の構成を示すブロック図である。図1におい
て、1は原文やユーザの指示を入力する入力部であり、
キーボード、マウス、ペン・タブレット等の入力装置及
びネットワーク通信装置で構成される。2は入力部1か
ら入力された翻訳対象原文を記憶する原文記憶部であ
り、RAM、フロッピーディスク、ハードディスク等の
メモリで構成される。
【0056】3は翻訳処理に利用する辞書情報を記憶す
る辞書部であり、ROM、フロッピーディスク、ハード
ディスク等の不揮発性メモリで構成される。4は入力部
1から入力された原文を、辞書部3の内容を用いて翻訳
処理を実行する翻訳処理部であり、CPU、ROM、R
AM、I/Oポートからなるマイクロコンピュータで構
成される。5は翻訳処理部4により翻訳された訳文を記
憶する訳文記憶部であり、RAM、フロッピーディス
ク、ハードディスク等のメモリで構成される。
【0057】6は液晶ディスプレイ、プラズマディスプ
レイからなる表示装置や、サーマルプリンタ、レーザプ
リンタからなるプリンタで構成される出力部であり、原
文記憶部2に記憶された原文、および訳文記憶部5に記
憶された訳文を、表示装置やプリンタに出力する。7は
文字列や数値の比較など全般的に処理及び制御を行う汎
用処理部であり、CPU、ROM、RAM、I/Oポー
トからなるマイクロコンピュータで構成される。
【0058】17は本発明のレイアウト解析部であり、
CPU、ROM、RAM、I/Oポートからなるマイク
ロコンピュータで構成される。18はユーザがレイアウ
ト情報のパラメータを設定するユーザ設定部であり、キ
ーボード、マウス、ペン・タブレット等の入力装置で構
成される。
【0059】レイアウト解析部17のROMの中に、カ
スケードを認識し、その認識結果に従って処理を行うカ
スケード認識部8、カスケード認識の例外を認識して、
カスケードとしての処理が施されないようにするカスケ
ード例外認識部9、箇条書を認識し、その認識結果に従
って処理を行う箇条書認識部10、箇条書認識の例外を
認識し、箇条書としての処理が施されないようにする箇
条書例外認識部11、番号付箇条書を認識し、その認識
結果に従って処理を行う番号付箇条書認識部12、番号
付箇条書認識の例外を認識して、番号付箇条書としての
処理が施されないようにする番号付箇条書例外認識部1
3、ラベル付箇条書を認識し、その認識結果に従って処
理を行うラベル付箇条書認識部14、ラベル付箇条書認
識の例外を認識して、ラベル付箇条書としての処理が施
されないようにするラベル付箇条書例外認識部15、セ
パレータラインを認識し、その認識結果に従って処理を
行うセパレータライン認識部16として機能するプログ
ラムが格納されている。
【0060】19はCD−ROMやフロッピーディスク
(FD)などで構成される外部記憶媒体である。20は
媒体読取装置であり、外部記憶媒体19に記憶された本
発明のプログラムを翻訳処理部4、レイアウト解析部1
7のRAMにインストールして実行可能にするプログラ
ム入力部として機能する。
【0061】図1において、本発明によれば、翻訳装置
をコンピュータによって制御するためのプログラムを記
憶した媒体であって、前記制御プログラムはコンピュー
タに、入力部により自然言語の原文が入力されると、前
記入力部によって入力された原文からカスケード、箇条
書、番号付箇条書、ラベル付箇条書及びセパレータライ
ンからなるレイアウト情報を解析しそのレイアウト情報
に基づいて翻訳対象範囲をレイアウト解析部17に認識
させ、認識された翻訳対象範囲の原文を他の言語に翻訳
処理部4に翻訳させ、前記翻訳処理部4によって翻訳さ
れた訳文を出力部6に出力させる装置制御プログラムを
記憶した媒体19が提供される。
【0062】以下、図1の機械翻訳装置で実行される翻
訳処理の手順を説明する。なお、本実施例では、日本文
の解析を例にとって説明するが、これに限定されるもの
ではない。本発明の実施例1〜実施例6として、カスケ
ード認識部8とカスケード例外認識部9の処理について
説明する。ここで説明するカスケードとは、例えば、下
記のような原文パターンを示す。
【0063】>> マルチメディア処理を高速化する新世
代CPU、32MBメモリー、 >> 1.6GB HDDを搭載し、マルチメディア利用
や >> ビジネスで要求される高速処理、大容量データ処理
に >> 威力を発揮します。 >> マルチメディア処理を高速化する新世代CPU、3
2MBメモリー、 >> 1.6GB HDDを搭載し、マルチメディア利用
や >> ビジネスで要求される高速処理、大容量データ処理
に >> 威力を発揮します。
【0064】実施例1の処理として、入力部1より原文
記憶部2に渡された原文は、翻訳処理部4へと渡される
前に、本発明により付加されたレイアウト解析部17中
のカスケード認識部8の処理によって、カスケードの検
出が行われる。
【0065】カスケード認識部8でのカスケード検出処
理は、原文記憶部2の原文各行に対して、行の先頭から
の文字列を次行と比較することにより行われる。文字列
の比較処理は、汎用処理部7で行われる。先頭N2(>
0)文字が一致した場合にはこの行はカスケードである
とする。このカスケード認識部8の処理の詳細は、実施
例1から実施例6まで全て同一であり、図2、図3のフ
ローチャートを用いて後述する。
【0066】カスケード認識部8でカスケードが検出さ
れた場合には、カスケードに対して先頭N2文字をヘッ
ダーとして分離し、本来の文章部分のみを翻訳処理部4
に渡すように、レイアウト解析部17から原文記憶部2
へと指示が行われる。カスケードが検出されなかった場
合には、通常の翻訳処理として原文をそのまま翻訳処理
部4に渡すよう、レイアウト解析部17から原文記憶部
2に指示が送られる。
【0067】この結果、翻訳処理部4にはカスケードの
ヘッダーが除かれた原文のみが渡されるため、ヘッダー
のために原文解析結果に誤りが生じる、あるいは一文の
範囲が誤認されて処理が行われてしまう、というような
悪影響を回避することが可能となる。
【0068】翻訳処理が完了した訳文は訳文記憶部2に
記憶される。カスケードの訳文である時には、レイアウ
ト解析部17から訳文記憶部5への指示によって、各文
の先頭にヘッダーの再付加が行われた上で、出力部6へ
と送られる。カスケードでない訳文に関しては、そのま
ま出力部6へと送られる。
【0069】本発明による機械翻訳装置では、以上のよ
うに、レイアウト解析部中のカスケード認識部8の処理
によって、最終的に原文と同様のカスケードを持つ翻訳
結果が出力として得られることになる。
【0070】実施例2の処理として、カスケード認識部
8でのカスケード検出処理の際、原文各行を次行のみと
比較するのではなく、次のL1行と比較し、一行でも一
致するものがある場合には、これをカスケードとして検
出処理を行う。この処理により、カスケード中の長い行
の折り返しのためにヘッダーが不連続に出現している、
【0071】>> マルチメディア処理を高速化する新世
代CPU、32MBメモリー、 >> 1.6GB HDDを搭載し、マルチメディア利用
【0072】といったカスケードを含む原文を翻訳する
場合にも、カスケード処理が可能となる。実施例3の処
理として、カスケード認識部8のパラメータL1をユー
ザ設定部18によりユーザ設定を可能とし、これを用い
てカスケード処理を行う。
【0073】実施例4の処理として、カスケード認識部
8で検出されたカスケードに対して、更にカスケード例
外認識部9で検査を行う。この結果、カスケードのヘッ
ダー文字列の長さがN0に満たない場合には、これをカ
スケードであると見なさず、通常の翻訳処理を行うよう
レイアウト解析部17から原文記憶部2へと指示を行
う。
【0074】実施例5の処理として、カスケード例外認
識部9のパラメータN0をユーザ設定部18によりユー
ザ設定を可能とし、これを用いてカスケード処理を行
う。
【0075】実施例6の処理として、カスケード翻訳さ
れて訳文記憶部5に訳文が記憶されている状態でカスケ
ード認識部8からヘッダー再付加の指示を受け取った
際、単純に各文の先頭にヘッダーの付加を行うのではな
く、各文に対して一定の長さ毎に改行の挿入処理を行っ
て折り返しを行い、その上で各行にヘッダーの付加処理
を行って出力部6へと受け渡す。
【0076】以上、実施例1から実施例6までのカスケ
ード認識部8、カスケード例外認識部9の処理を、図
2、図3のフローチャートに沿って説明する。図2は本
発明のカスケード認識部の処理手順を示すフローチャー
トである。図2において、カスケード認識部8は、原文
記憶部2に記憶された原文に対して、まず、各行の先頭
文字列の検査を行い、カスケードの検出を行う。
【0077】先頭文字列の検査は原文記憶部2の先頭行
から開始し(S21)、原文記憶部2の全行が翻訳処理
部に送られるまで検査を繰り返す(S22)。カスケー
ドの判定条件は先にも述べた通り、検査行と、検査行以
降の次のL1行の行頭文字列を順次比較し、一致する行
が存在しない場合は、通常の文章、一致する行が存在す
る場合はカスケードとする(S23)。
【0078】通常の文章の場合は、カスケードが出現す
るまで検査行を先に進め(S24、S29)、通常の文
章部分をまとめて翻訳処理部4へと送るように原文記憶
部2に指示を行う(S25)。カスケードの場合には、
カスケードが終了するまで検査行を先に進めつつ(S2
6、S211)、ヘッダー部分を原文から分離するよう
に、原文記憶部2に指示を行う(S210)。
【0079】ヘッダーを分離したカスケードをまとめて
翻訳処理部4へと送るよう原文記憶部2に指示を行い
(S27)、その翻訳結果に対して、ヘッダーの再付加
を行うよう訳文記憶部5に指示を行う(S28)。
【0080】図3は本発明のカスケード例外認識部の処
理手順を示すフローチャートである。図3において、レ
イアウト解析部に、カスケード例外認識部9が備えられ
ている場合には、カスケード認識部8の処理S23で先
頭文字列の一致が確認された場合でもすぐにはS26以
降のカスケード処理には移らず、カスケードの例外検査
を行う(S31)。
【0081】カスケードの例外条件としては、先述した
とおり一致した先頭文字列の長さのチェックにより、こ
れがN2に満たない時はカスケードでない通常の行であ
ると見なして処理を進める(S32)。S32の処理
は、具体的にはカスケード認識部8のS24以降の処理
である。
【0082】例外条件にかからなかった場合には、カス
ケードとして処理を行う(S33)。S33の処理は、
具体的にはカスケード認識部8のS26以降の処理であ
る。以上が、カスケード認識部8、及びカスケード例外
認識部9で行われる処理の流れである。
【0083】本発明の実施例7〜実施例11として、箇
条書認識部10と箇条書例外認識部11の処理機能につ
いて説明する。ここで説明する箇条書とは、例えば以下
のような原文パターンである。
【0084】 ◆ 新世代CPUを搭載したハイパフォーマンス設計 ◆ 最新ビジネスソフト搭載 ◆ グループ活用を実現した“マルチメディア個人情報
管理ソフト”を搭載
【0085】実施例7として、入力部より原文記憶部2
に渡された原文は、翻訳処理部へと渡される前に、本件
発明により付加されたレイアウト解析部17中の箇条書
認識部10の処理によって、箇条書の検出が行われる。
箇条書認識部10での箇条書検出処理は、カスケード認
識部8と同様、原文記憶部の原文各行に対して、行の先
頭からの文字列を次行と比較することにより行われる。
先頭N7(>0)文字が一致した場合には、この行は箇
条書であるとする。この際の箇条書認識部10の処理
は、カスケード認識部8での処理と全く同一である。
【0086】箇条書が検出された場合には、箇条書に対
して先頭N7文字をヘッダーとして分離し、さらに箇条
書の行末を無条件に一文の区切りとして翻訳処理部4に
渡すよう、レイアウト解析部17から原文記憶部2へと
指示が行われる。箇条書が検出されなかった場合には、
通常の翻訳処理として原文をそのまま翻訳処理部4に渡
すよう、レイアウト解析部17から原文記憶部2に指示
が送られる。
【0087】この結果、ヘッダーのために原文解析結果
に誤りが生じる、あるいは箇条書であるにも関わらず次
行と文が連続していると誤認されて処理が行われてしま
う、というような悪影響を回避することが可能となる。
【0088】翻訳処理が完了した訳文は訳文記憶部5に
記憶される。箇条書の訳文である時には、レイアウト解
析部17から訳文記憶部5への指示によって、訳文の先
頭にヘッダーの再付加が行われた上で、出力部へと送ら
れる。箇条書でない訳文に関しては、そのまま出力部へ
と送られる。
【0089】本発明による翻訳装置では、以上のよう
に、レイアウト解析部中の箇条書認識部10の処理によ
って、最終的に原文と同様の箇条書を持つ翻訳結果が出
力として得られることになる。
【0090】実施例8の処理として、箇条書認識部10
での箇条書検出処理の際、原文各行を次行のみと比較す
るのではなく、次のL1行と比較し、一行でも一致する
ものがある場合にはこれを箇条書であるとして検出処理
を行う。この処理により、箇条書中の長い行の折り返し
のためにヘッダーが不連続に出現している箇条書を含む
原文を翻訳する場合にも箇条書処理が可能となる。
【0091】実施例9の処理として、箇条書認識部10
のパラメータL1をユーザ設定部18によりユーザ設定
可能とし、これを用いて箇条書の処理を行う。
【0092】実施例10の処理として、箇条書認識部1
0で検出された箇条書に対して、更に箇条書例外認識部
11で検査を行う。この結果、箇条書ヘッダー文字列の
長さがNOに満たない場合には、これを箇条書であると
見なさず、通常の翻訳処理を行うようレイアウト解析部
17から原文記憶部2へと指示を行う。
【0093】実施例11の処理として、箇条書例外処理
部11のパラメータNOをユーザ設定部18によりユー
ザ設定可能とし、これを用いて箇条書処理を行う。以
上、実施例7から実施例11までの箇条書認識部10、
箇条書例外認識部11での処理を、図4、図5のフロー
チャートに沿って説明する。図4は本発明の箇条書認識
部の処理手順を示すフローチャートである。図4におい
て、箇条書認識部10は、原文記憶部2に記憶された原
文に対して、まず各行の先頭文字列の検査を行い、箇条
書の検出を行う。
【0094】先頭文字列の検査は原文記憶部2の先頭行
から開始し(S41)、原文記憶部2の全行が翻訳処理
部に送られるまで検査を繰り返す(S42)。箇条書の
判定条件は先にも述べた通り、検査行と、検査行以降の
次のL1行の先頭文字列を順次比較し、一致する行が存
在しない場合は通常の文章、一致する行が存在する場合
は箇条書とする(S43)。
【0095】通常の文章の場合は、箇条書が出現するま
で検査行を先に進め(S44、S47)、通常の文章部
分をまとめて翻訳処理部4へと送るように原文記憶部2
に指示を行う(S45)。箇条書の場合には、箇条書が
終了するまで検査行を先に進めつつ(S46、S41
1)、ヘッダー部分を原文から分離するように原文記憶
部2に指示を行いながら(S48)、検査行から、検査
行と先頭文字列が一致した行の前行までを区切りとして
順に翻訳処理部4へ送るよう原文記憶部2に指示を行う
(S49)。箇条書の翻訳結果に対しては、ヘッダーの
再付加を行うよう訳文記憶部5に指示を行う。
【0096】図5は本発明の箇条書例外認識部の処理手
順を示すフローチャートである。図5において、レイア
ウト解析部に、箇条書例外認識部11が備えられている
場合には、箇条書認識部11の処理S43で先頭文字列
の一致が確認された場合でもすぐにはS46以降の箇条
書処理には移らず、箇条書の例外検査を行う(S5
1)。箇条書の例外条件としては、先にも述べたとおり
一致した先頭文字列の長さのチェックにより、これがN
2に満たない時は箇条書でない通常の行であると見なし
て処理を進める(S52)。S52の処理は、具体的に
は箇条書認識部10のS44以降の処理である。
【0097】例外条件でなかった場合には、箇条書とし
て処理を行う(S53)。S53の処理は、具体的には
箇条書認識部10のS46以降の処理である。以上が、
箇条書認識部10、及び箇条書例外認識部11で行われ
る処理の手順である。
【0098】本発明の実施例12〜実施例20として、
番号付箇条書認識部12と番号付箇条書例外認識部13
の処理について説明する。ここで説明する番号付箇条書
とは、例えば以下のような原文パターンである。
【0099】 1.新世代CPUを搭載したハイパフォーマンス設計 2.最新ビジネスソフト搭載 3.グループ活用を実現した“マルチメディア個人情報
管理ソフト”を搭載
【0100】実施例12の処理として、入力部より原文
記憶部2に渡された原文は、翻訳処理部4へと渡される
前に、本件発明により付加されたレイアウト解析部17
中の番号付箇条書認識部12の作用によって、番号付箇
条書の検出が行われる。
【0101】番号付箇条書認識部12での番号付箇条書
検出処理は、原文記憶部の原文各行の先頭N12(>
0)文字を、次行の先頭N12文字ないしはN12+1
文字と比較することにより行われる。記号の部分が同一
で、異なる部分が数字、またはアルファベットのみであ
った場合には、この行は番号付箇条書であるとする。番
号付箇条書が検出された場合には、番号付箇条書に対し
て先頭N12文字を番号付箇条書のヘッダーとして分離
し、さらに番号付箇条書のを無条件に一文の区切りの処
理として翻訳処理部4に渡すよう、レイアウト解析部1
7から原文記憶部2に指示が送られる。
【0102】この結果、翻訳処理部4には番号付箇条書
のヘッダーが除かれた原文のみが渡されるため、ヘッダ
ーのために原文解析結果に誤りが生じる、あるいは番号
付箇条書であるにも関わらず次行と文が連続していると
誤認されて処理が行われてしまう、というような悪影響
を回避することができる。
【0103】翻訳処理が完了した訳文は訳文記憶部5に
記憶される。番号付箇条書の訳文である時には、レイア
ウト解析部17から訳文記憶部5への指示によって、訳
文の先頭にヘッダーの再付加が行われた上で、出力部6
へと送られる。番号付箇条書でない訳文に関しては、そ
のまま出力部6へと送られる。
【0104】本発明による機械翻訳装置では、以上のよ
うに、レイアウト解析部中の番号付箇条書認識部12の
処理によって、最終的に原文と同様の番号付箇条書をも
つ翻訳結果が出力として得られることになる。
【0105】実施例13の処理として、番号付箇条書認
識部で検出された番号付箇条書に対して、更に番号付箇
条書例外認識部で検査を行う。この結果、検査行のヘッ
ダーと次行のヘッダーとで異なる文字数がNmax以上
の場合には、これを番号付箇条書であるとは見なさず、
通常の翻訳処理を行うようレイアウト解析部17から原
文記憶部2へと指示を行う。
【0106】実施例14の処理として、番号付箇条書例
外認識部13のパラメータNmaxをユーザ設定部18
によりユーザ設定可能とし、これを用いて番号付箇条書
の処理を行う。
【0107】実施例15の処理として、番号付箇条書認
識部12での番号付箇条書検出処理の際、原文各行を次
行のみと比較するのではなく、次のL1行と比較し、一
行でも一致するものがある場合にはこれを番号付箇条書
であるとして検出処理を行う。この処理により、番号付
箇条書中の長い行の折り返しのためにヘッダーが不連続
に出現している番号付箇条書を含む原文を翻訳する場合
にも番号付箇条書処理が可能となる。
【0108】実施例16の処理として、番号付箇条書認
識部12のパラメータL1をユーザ設定部18によりユ
ーザ設定可能とし、これを用いて番号付箇条書の処理を
行う。
【0109】実施例17の処理として、番号付箇条書認
識部12で検出された番号付箇条書に対して、更に番号
付箇条書例外認識部13で検査を行う。この結果、番号
付箇条書のヘッダー文字列の長さがN0に満たない場合
には、これを番号付箇条書であると見なさず、通常の翻
訳処理を行うようレイアウト解析部17から原文記憶部
2へと指示を行う。
【0110】実施例18の処理として、番号付箇条書認
識部12のパラメータNOをユーザ設定部18によりユ
ーザ設定を可能とし、これを用いて番号付箇条書処理を
行う。
【0111】実施例19の処理として、番号付箇条書認
識部12で検出された番号付箇条書に対して、更に番号
付箇条書例外認識部13で検査を行う。この結果、検査
行と次行の番号付箇条書のヘッダー文字列中の数字また
はアルファベットの順番が連続でない場合には、これを
番号付箇条書であると見なさず、通常の翻訳処理を行う
ようレイアウト解析部17から原文記憶部2へと指示を
行う。
【0112】実施例20の処理として、実施例19の機
械翻訳において、番号付箇条書例外認識部13での検査
の結果、検査行と次行の番号付箇条書のヘッダー文字列
中の数字またはアルファベットの順番が連続でない場合
に、これを番号付箇条書であると見なして処理を行う
か、番号付箇条書であると見なさないで処理を行うかを
ユーザ設定部18によりユーザ指定可能とする。
【0113】実施例12から実施例20までの番号付箇
条書認識部12、番号付箇条書例外認識部13の処理の
手順は、図4、図5で示した箇条書認識部10、箇条書
例外認識部11の手順と同様であるが、ただS43、S
44、S46、およびS51に相当する部分での文字列
比較処理の方法だけが異なる。
【0114】番号付箇条書認識部12では、S43、S
44、S46に相当する文字列比較処理の際に、先頭文
字列が完全に一致する場合だけでなく、数字あるいはア
ルファベットの部分だけが異なる場合にも番号付箇条書
として処理を行う。このような文字列の比較は、汎用処
理部7で行う。
【0115】番号付箇条書例外認識部13では、実施例
13においては、S51に相当する番号付箇条書の例外
条件として検査行のヘッダーと比較行のヘッダーの異な
り文字数を検査し、これがNmax以上のときには番号
付箇条書とは見なさずに通常行としてS52と同様の処
理を行う。異なり文字数の検査は汎用処理部7で行う。
【0116】実施例17においては、異なり文字を含む
ヘッダーの長さがN0に満たない場合には番号付箇条書
とはみなさずに通常行の処理としてS52と同様の処理
を行う。実施例19においては、ヘッダーの異なり文字
である数字またはアルファベットの順番が連続でない場
合に番号付箇条書とはみなさずに通常行としてS52と
同様の処理を行う。
【0117】本発明の実施例21〜実施例28の処理と
して、ラベル付箇条書認識部14とラベル付箇条書例外
認識部15の処理について説明する。
【0118】実施例21の処理として、入力部1より原
文記憶部2に渡された原文は、翻訳処理部4へと渡され
る前に、本件発明により付加されたレイアウト解析部1
7中のラベル付箇条書認識部14の処理によって、ラベ
ル付箇条書の検出が行われる。ここで説明するラベル付
箇条書認識とは、例えば以下のような原文パターンであ
る。
【0119】 メモリー :32MB ハードディスク :1.6GB 搭載ソフト :PowerE/J、Power 書院、Power PIMMなど多数 発売日 :○月○日
【0120】ラベル付箇条書認識部14では、実施例で
は、一例としてラベル付箇条書認識セパレータを「:」
と定義する。ラベル付箇条書検出処理は、箇条書認識部
10と同様、原文記憶部2の原文に対して、行中にラベ
ル付箇条書認識セパレータを含む行が連続していること
を検出することにより行われる。ラベル付箇条書認識セ
パレータを含む行がL1行連続している場合にそれらの
行はラベル付箇条書であるとする。この際のラベル付箇
条書認識部14の処理の詳細は、実施例21から実施例
28まで全て同一であり、図6、図7のフローチャート
を用いて後述する。
【0121】ラベル付箇条書認識部14でラベル付箇条
書が検出された場合には、ラベル付箇条書に対してラベ
ル付箇条書認識セパレータまでをヘッダーとして分離
し、本来の部分のみを翻訳処理部4に渡すように、レイ
アウト解析部17から原文記憶部2へと指示が行われ
る。
【0122】ラベル付箇条書が検出されなかった場合に
は、通常の翻訳処理の処理として原文をそのまま翻訳処
理部4に渡すよう、レイアウト解析部17から原文記憶
部2に指示が送られる。
【0123】この結果、翻訳処理部4にはラベル付箇条
書のヘッダーが除かれた原文のみが渡されるため、ヘッ
ダーのために原文解析結果に誤りが生じる、あるいは一
文の範囲が誤認されて処理が行われてしまう、というよ
うな悪影響を回避することが可能となる。
【0124】翻訳処理が完了した訳文は訳文記憶部2に
記憶される。ラベル付箇条書の訳文である時には、レイ
アウト解析部17から訳文記憶部5への指示によって、
各文の先頭にヘッダーの再付加が行われた上で、出力部
6へと送られる。ラベル付箇条書でない訳文に関して
は、そのまま出力部6へと送られる。
【0125】本発明による機械翻訳装置では、以上のよ
うに、レイアウト解析部中のラベル付箇条書認識部14
の処理によって、最終的に原文と同様のラベル付箇条書
を持つ翻訳結果が出力の処理として得られることにな
る。
【0126】実施例22の処理として、ラベル付箇条書
認識部14でのラベル付箇条書検出処理の際、原文各行
ラベル付箇条書認識セパレータを含む行が連続している
かどうかの判断を次行のみで判断するのではなく、次の
L1行に対してラベル付箇条書認識セパレータの検索を
行い、一行でもラベル付箇条書認識セパレータを含む行
がある場合にはこれをラベル付箇条書の処理として検出
処理を行う。
【0127】この処理により、ラベル付箇条書の本文が
長く複数行になっていて、ラベル付箇条書のヘッダーが
不連続に出現しているような、
【0128】 メモリー :32MB ハードディスク :1.6GB 搭載ソフト :PowerE/J、Power 書院、Power PIMMなど 多数 発売日 :○月○日
【0129】といったラベル付箇条書を含む原文を翻訳
する場合にも、ラベル付箇条書処理が可能となる。
【0130】実施例23の処理として、ラベル付箇条書
認識部14のパラメータL1をユーザ設定部18により
ユーザ設定可能とし、これを用いてラベル付箇条書処理
を行う。
【0131】実施例24の処理として、ラベル付箇条書
認識部14でラベル付箇条書認識セパレータをコロ
ン「:」とした機械翻訳装置である。
【0132】実施例25の処理として、ラベル付箇条書
生成セパレータをユーザ設定部18によりユーザ設定可
能とし、これを用いてラベル付箇条書処理を行う。
【0133】実施例26の処理として、ラベル付箇条書
認識部14で検出されたラベル付箇条書に対して、更に
ラベル付箇条書例外認識部15で検査を行う。ラベル付
箇条書例外認識部15ではラベル付箇条書抑制文字列を
定義し、ラベル付箇条書認識部14で検出されたラベル
付箇条書のヘッダがラベル付箇条書抑制文字列と一致す
るか比較する。この結果、ラベル付箇条書のヘッダーが
ラベル付箇条書抑制文字列と一致した場合には、これを
ラベル付箇条書であると見なさず、通常の翻訳処理を行
うようレイアウト解析部17から原文記憶部2へと指示
を行う。
【0134】実施例27の処理として、ラベル付箇条書
抑制文字列を「TEL」、「FAX」の処理として処理
を行う。
【0135】実施例28の処理として、ラベル付箇条書
抑制文字列をユーザ設定部18によりユーザ設定可能と
し、これを用いてラベル付箇条書例外処理を行う。
【0136】以上、実施例21から実施例28までのラ
ベル付箇条書認識部14、ラベル付箇条書例外認識部1
5での処理は、図6、図7のフローチャートに沿って説
明する。
【0137】図6は本発明のラベル付箇条書認識部の処
理手順を示すフローチャートである。図6において、ラ
ベル付箇条書認識部14は、原文記憶部2に記憶された
原文に対して、まず各行がラベル付箇条書認識セパレー
タを含むか検索(S56)し、ラベル付箇条書の検出を
行う。
【0138】ラベル付箇条書認識セパレータの検索は原
文記憶部2の先頭行から開始し(S54)、原文記憶部
2の全行が翻訳処理部に送られるまで検査を繰り返す
(S55)。ラベル付箇条書の判定条件は先にも述べた
通り、各行に対し、ラベル付箇条書認識セパレータを含
んでいるかを検査する。
【0139】検査行がラベル付箇条書認識セパレータを
含み(S56)かつ、検査行以降の次のL1行のいづれ
かがラベル付箇条書認識セパレータを含んでいる(S5
9)場合検査行をラベル付箇条書とする(S60)。通
常の文章の場合は、ラベル付箇条書認識セパレータが出
現するまで検査行を先に進め(S56)、通常の文章部
分をまとめて翻訳処理部4へと送るように原文記憶部2
に指示を行う(S57)。
【0140】ラベル付箇条書の場合には、ラベル付箇条
書が終了するまで検査行を先に進めつつ(S59)、ヘ
ッダー部分を原文から分離するように、原文記憶部2に
指示を行う(S60)。
【0141】ヘッダーを分離したラベル付箇条書本文を
まとめて翻訳処理部4へと送るよう原文記憶部2に指示
を行い(S591)、その翻訳結果に対して、ヘッダー
の再付加を行うよう訳文記憶部5に指示を行う(S59
2)。
【0142】図7は本発明のラベル付箇条書例外認識部
の処理手順を示すフローチャートである。図7におい
て、レイアウト解析部に、ラベル付箇条書例外認識部1
5が備えられている場合には、ラベル付箇条書14の処
理S56でラベル付箇条書認識セパレータが検出された
場合でもすぐにはS59以降のラベル付箇条書処理には
移らず、ラベル付箇条書例外検査を行う(S64)。
【0143】ラベル付箇条書の例外条件の処理として
は、先述したとおりラベル付箇条書抑制文字列との比較
により、ヘッダがラベル付箇条書抑制文字列と一致した
時は、ラベル付箇条書でない通常の行であると見なして
処理を進める(S65)。S65の処理は、具体的には
ラベル付箇条書認識部14のS57以降の処理である。
例外条件でなかった場合には、ラベル付箇条書として処
理を行う(S66)。S66の処理は、具体的にはラベ
ル付箇条書認識部14のS59以降の処理である。
【0144】以上が、ラベル付箇条書認識部14、及び
ラベル付箇条書例外認識部15で行われる処理の手順で
ある。
【0145】本発明の実施例29〜32の処理として、
セパレータライン認識部16の処理について説明する。
実施例29の処理として、入力部1より原文記憶部2に
渡された原文は、翻訳処理部4へと渡される前に、本発
明により付加されたレイアウト解析部17中のセパレー
タライン認識部16の処理によって、セパレータライン
の検出が行われる。ここで説明するセパレータラインと
は、例えば以下のような連続した文字列である。
【0146】 マルチメディア処理を高速化する新世代CPU、32MBメモリー、 1.6GB HDDを搭載し、マルチメディア利用や ビジネスで要求される高速処理、大容量データ処理に 威力を発揮します。 ================================== <お客さまのお問い合わせ先> コンマシューマセンター………」 (この例では=のみの行がセパレータラインである)
【0147】セパレータライン検出処理は、原文記憶部
2の原文に対して、同一文字が連続していることを検出
することにより行われる。同一文字がN29回以上連続
している場合にその文字連続をセパレータラインとす
る。この際のセパレータライン認識部16の処理の詳細
は、実施例29から実施例32まで全て同一であり、図
8のフローチャートを用いて後述する。
【0148】セパレータライン認識部16でセパレータ
ラインが検出された場合には、セパレータラインを独立
の行の処理として扱うために、セパレータラインの直前
の文字を文の区切りの処理として扱うようレイアウト解
析部17から原文記憶部2へと指示が行われる。同様に
セパレータラインの最後の文字を文の区切りの処理とし
て扱うようレイアウト解析部17から原文記憶部2へと
指示が行われる。
【0149】この結果、翻訳処理部4にはセパレータラ
インの前の文・セパレータライン・セパレータラインの
次の文がそれぞれ独立した文の処理として渡されるた
め、一文の範囲が誤認されて処理が行われてしまう、と
いうような悪影響を回避することが可能となる。
【0150】実施例30の処理として、セパレータライ
ン認識部16のパラメータN29をユーザ設定部18に
よりユーザ設定可能とし、これを用いて請求項29記載
のセパレータライン認識処理を行う。
【0151】実施例31の処理として、実施例29と同
様の処理を行うが、同一文字が連続していることを検出
する処理の代わりに記号のみが連続していることを検出
するようにした機械翻訳装置と見なすことができる。な
お、実施例31では実施例29と異なるパラメータN3
1を用いるが処理上の扱いは実施例29のパラメータN
29と同じである。異なるパラメータを用いユーザ設定
で独立に値を設定可能になっている。実施例31で示し
た機械翻訳装置のユーザ設定は実施例32で説明する。
【0152】実施例32の処理として、セパレータライ
ン認識部16のパラメータN31をユーザ設定部18に
よりユーザ設定可能とし、これを用いて実施例31記載
のセパレータライン認識処理を行う。以上、実施例29
から実施例32までのセパレータライン認識部16の処
理は、図8のフローチャートに沿って説明する。
【0153】図8は本発明のセパレータライン認識部の
処理手順を示すフローチャートである。図8において、
セパレータライン認識部16は、原文記憶部2に記載さ
れた原文に対して、文字がN29回以上連続しているか
どうか判断し、セパレータラインの検出を行う。セパレ
ータラインの検出は処理中に使用するセパレータライン
認識部16内部の変数c及びIを初期化(S67)後、
原文記憶部2の先頭文字から開始し(S68)、原文記
憶部2の全文字が翻訳処理部に送られるまで検査を繰り
返す(S69)。
【0154】セパレータラインの判定条件は、先述した
通り、文字がN29回以上繰り返すことを検査する。検
査対象の文字を変数cに記憶(S71)した前の文字と
比較し(S70)、等しくない場合次の検査に備え現在
の検査対象文字を変数cに記憶し、検査対象を次の文字
に移動(S72)し、検査を繰り返す(S69)。
【0155】等しければセパレータラインの可能性があ
るので検査対象の原文記憶部での位置をセパレータライ
ン認識部16内部の変数loに記憶する(S73)。カ
ウンタ用の変数Iをリセット後、同じ文字が続く間(S
75)、Iをインクリメント(S77)し、くり返し回
数をカウントする。繰り返し回数IをN29と比較し、
N29より大きければセパレータラインと判断し、セパ
レータラインの処理を行う。そうでない場合検査を繰り
返すループに戻る(S69)。
【0156】セパレータラインの処理では、loに記憶
してある連続文字列の先頭個所を(それより前の)文の
終りとするよう原文記憶部に指示する(S78)。この
処理で連続文字列はその前の部分と別の文として認識さ
れる。次に現在の検査対象位置すなわち連続文字列の終
りの位置を一文の終りとするよう原文記憶部に指示する
(S79)。この処理で連続文字列は、その後ろの部分
とは別の文として認識される。以上で連続文字列とその
前後の部分はそれぞれ別の文として認識され、連続文字
列は独立した文として扱われる。
【0157】以上が、セパレータライン認識処理部16
で行われる処理の手順である。実施例31では連続する
文字列の比較を文字列が等しいかではなくどちらも記号
かという判断におきかえればよく、処理の手順は前述の
ものと同様であり、説明は省略する。
【0158】[他の実施例] (1)本実施例では、レイアウト解析手段によって、ヘ
ッダーを抽出・分離した上で翻訳を行い、そこにヘッダ
ーを付与する方法について説明したが、ヘッダーそのも
のも翻訳して付与する方法もあるし、また、ヘッダーを
全く付与しない方法もある。あるいはそれらの選択をユ
ーザ指定可能にすると、よりユーザフレンドリなシステ
ムを提供することができる。
【0159】(2)本実施例では、レイアウト解析手段
によって、カスケードのヘッダー部分、箇条書のヘッダ
ー部分、など各行頭部分を翻訳した上で訳文に付与する
方法を説明したが、ヘッダー部分は全く付与せず、本体
部分だけを訳出する方法もある。
【0160】
【発明の効果】本発明によれば、原文中に含まれる各種
レイアウト情報に柔軟に対応して解析し、翻訳対象範囲
をより正確に認識し、認識した翻訳対象範囲の原文を他
の言語に翻訳することにより、翻訳精度を向上させるこ
とができる。
【図面の簡単な説明】
【図1】本発明の一実施例である機械翻訳装置の構成を
示すブロック図である。
【図2】本発明のカスケード認識部の処理手順を示すフ
ローチャートである。
【図3】本発明のカスケード例外認識部の処理手順を示
すフローチャートである。
【図4】本発明の箇条書認識部の処理手順を示すフロー
チャートである。
【図5】本発明の箇条書例外認識部の処理手順を示すフ
ローチャートである。
【図6】本発明のラベル付箇条書認識部の処理手順を示
すフローチャートである。
【図7】本発明のラベル付箇条書例外認識部の処理手順
を示すフローチャートである。
【図8】本発明のセパレータライン認識部の処理手順を
示すフローチャートである。
【符号の説明】
1 入力部 2 原文記憶部 3 辞書部 4 翻訳処理部 5 訳文記憶部 6 出力部 7 汎用処理部 8 カスケード認識部 9 カスケード例外認識部 10 箇条書認識部 11 箇条書例外認識部 12 番号付箇条書認識部 13 番号付箇条書例外認識部 14 ラベル付箇条書認識部 15 ラベル付箇条書例外認識部 16 セパレータライン認識部 17 レイアウト解析部 18 ユーザ設定部 19 外部記憶媒体 20 媒体読取装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐田 いち子 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 自然言語の原文を入力する入力部と、前
    記入力部によって入力された原文からカスケード、箇条
    書、番号付箇条書、ラベル付箇条書及びセパレータライ
    ンからなるレイアウト情報を解析しそのレイアウト情報
    に基づいて翻訳対象範囲を認識するレイアウト解析部
    と、認識された翻訳対象範囲の原文を他の言語に翻訳す
    る翻訳処理部と、前記翻訳処理部によって翻訳された訳
    文を出力する出力部とを備えたことを特徴とする翻訳装
    置。
  2. 【請求項2】 前記レイアウト解析部は、原文の行の先
    頭文字列が次の行の先頭N文字列と同じである場合にカ
    スケードと認識し、カスケードのヘッダー部分を原文か
    ら分離するカスケード認識部をさらに備えたことを特徴
    とする請求項1記載の翻訳装置。
  3. 【請求項3】 前記カスケード認識部は、カスケードを
    認識する際に、次の行だけとマッチさせるのではなく、
    所定の行数までマッチさせ、1行でもマッチした場合に
    はそれをカスケードと認め、マッチしなかった行を折り
    返し行であると認識することを特徴とする請求項2記載
    の翻訳装置。
  4. 【請求項4】 前記カスケード認識部は、同じ翻訳レベ
    ルと認識された1訳文を1行にして、すべてにヘッダー
    を付与するかわりに、同じ翻訳レベルの訳文に長さによ
    って改行を挿入し、各行にヘッダーを付与することを特
    徴とする請求項2記載の翻訳装置。
  5. 【請求項5】 前記レイアウト解析部は、前記カスケー
    ド認識部によりカスケードと認識されても、所定の長さ
    の文字列がマッチしないとカスケードとは認めないカス
    ケード例外認識部をさらに備えたことを特徴とする請求
    項1記載の翻訳装置。
  6. 【請求項6】 前記レイアウト解析部は、行の先頭文字
    列が次の行の先頭文字列と同じである場合に箇条書と認
    識し、箇条書のヘッダー部分を原文から分離する箇条書
    認識部をさらに備えたことを特徴とする請求項1記載の
    翻訳装置。
  7. 【請求項7】 前記箇条書認識部は、箇条書きを認識す
    る際に、次の行だけとマッチさせるのではなく、所定の
    行数までマッチさせ、1行でもマッチした場合にはそれ
    を箇条書と認識し、マッチしなかった行を折り返し行で
    あると認識することを特徴とする請求項6記載の翻訳装
    置。
  8. 【請求項8】 前記レイアウト解析部は、前記箇条書認
    識部により箇条書と認識されても、所定の長さの文字列
    がマッチしないと箇条書とは認識しない箇条書例外認識
    部をさらに備えたことを特徴とする請求項6記載の翻訳
    装置。
  9. 【請求項9】 前記レイアウト解析部は、行の先頭文字
    列が次の行の先頭文字列及び先頭文字列に1文字を加え
    て比較して、記号の部分が完全に同一で、異なる部分が
    数字またはアルファベットのみであった場合に番号付箇
    条書と認識し、番号付箇条書のヘッダー部分を原文から
    分離する番号付箇条書認識部をさらに備えたことを特徴
    とする請求項1記載の翻訳装置。
  10. 【請求項10】 前記番号付箇条書認識部は、番号付箇
    条書を認識する際に、次の行だけとマッチさせるのでは
    なく、所定の行数までマッチさせ、1行でもマッチした
    場合にはそれを番号付箇条書と認識し、マッチしなかっ
    た行を折り返し行であると認識することを特徴とする請
    求項9記載の翻訳装置。
  11. 【請求項11】 前記レイアウト解析部は、前記番号付
    箇条書認識部により番号付箇条書と認識されても、異な
    る文字数が最大文字数以上の場合は番号付箇条書きとは
    認識しない番号付箇条書例外認識部をさらに備えたこと
    を特徴とする請求項9記載の翻訳装置。
  12. 【請求項12】 前記番号付箇条書例外認識部は、前記
    番号付箇条書認識部により番号付箇条書と認識されて
    も、所定の長さの文字列がマッチしないと番号付箇条書
    とは認識しないことを特徴とする請求項11記載の翻訳
    装置。
  13. 【請求項13】 前記番号付箇条書例外認識部は、前記
    番号付箇条書認識部により番号付箇条書と認識されて
    も、数字またはアルファベットの順番が非連続の場合に
    は番号付箇条書とは認識しないことを特徴とする請求項
    11記載の翻訳装置。
  14. 【請求項14】 前記レイアウト解析部は、ラベル付箇
    条書認識セパレータを定義し、このセパレータを含む行
    が連続した場合に、ラベル付箇条書と認識し、ラベル付
    箇条書のヘッダー部分を原文から分離するラベル付箇条
    書認識部をさらに備えたことを特徴とする請求項1記載
    の翻訳装置。
  15. 【請求項15】 前記ラベル付箇条書認識部は、箇条書
    を認識する際に、次の行だけにラベル付箇条書認識セパ
    レータをマッチさせるのではなく、所定の行数までマッ
    チさせ、1行でもマッチした場合にはそれをラベル付箇
    条書と認識し、マッチしなかった行を折り返し行である
    と認識することを特徴とする請求項14記載の翻訳装
    置。
  16. 【請求項16】 前記レイアウト解析部は、前記ラベル
    付箇条書認識部によりラベル付箇条書抑制文字列を定義
    し、ラベル付箇条書抑制文字列の直後にラベル付箇条書
    認識セパレータがあっても、ラベル付箇条書とは認識し
    ないラベル付箇条書例外認識部をさらに備えたことを特
    徴とする請求項14記載の翻訳装置。
  17. 【請求項17】 前記レイアウト解析部は、所定数以上
    の同一文字連続で構成される行は、独立したセパレータ
    ラインの行と認識するセパレータライン認識部をさらに
    備えたことを特徴とする請求項1記載の翻訳装置。
  18. 【請求項18】 前記セパレータライン認識部は、所定
    数以上の記号のみで構成される行は、独立したセパレー
    タラインの行と認識することを特徴とする請求項17記
    載の翻訳装置。
  19. 【請求項19】 翻訳装置をコンピュータによって制御
    するためのプログラムを記憶した媒体であって、前記制
    御プログラムはコンピュータに、入力部により自然言語
    の原文が入力されると、前記入力部によって入力された
    原文からカスケード、箇条書、番号付箇条書、ラベル付
    箇条書及びセパレータラインからなるレイアウト情報を
    解析しそのレイアウト情報に基づいて翻訳対象範囲をレ
    イアウト解析部に認識させ、認識された翻訳対象範囲の
    原文を他の言語に翻訳処理部に翻訳させ、前記翻訳処理
    部によって翻訳された訳文を出力部に出力させる翻訳装
    置制御プログラムを記憶した媒体。
JP9238539A 1997-09-03 1997-09-03 翻訳装置及び翻訳装置制御プログラムを記憶した媒体 Pending JPH1185756A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9238539A JPH1185756A (ja) 1997-09-03 1997-09-03 翻訳装置及び翻訳装置制御プログラムを記憶した媒体
US09/098,509 US6081773A (en) 1997-09-03 1998-06-17 Translation apparatus and storage medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9238539A JPH1185756A (ja) 1997-09-03 1997-09-03 翻訳装置及び翻訳装置制御プログラムを記憶した媒体

Publications (1)

Publication Number Publication Date
JPH1185756A true JPH1185756A (ja) 1999-03-30

Family

ID=17031764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9238539A Pending JPH1185756A (ja) 1997-09-03 1997-09-03 翻訳装置及び翻訳装置制御プログラムを記憶した媒体

Country Status (2)

Country Link
US (1) US6081773A (ja)
JP (1) JPH1185756A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045637A (ja) * 2014-08-21 2016-04-04 富士ゼロックス株式会社 文書処理装置及びプログラム。

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553385B2 (en) * 1998-09-01 2003-04-22 International Business Machines Corporation Architecture of a framework for information extraction from natural language documents
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
JP4311365B2 (ja) * 2005-03-25 2009-08-12 富士ゼロックス株式会社 文書処理装置およびプログラム
US20080288239A1 (en) * 2007-05-15 2008-11-20 Microsoft Corporation Localization and internationalization of document resources
EP2378766A1 (en) * 2010-04-16 2011-10-19 Liberty Global Europe Holding B.V. Electronic Program Guide compression method and system
US10482344B2 (en) * 2018-01-04 2019-11-19 Wipro Limited System and method for performing optical character recognition

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1341310C (en) * 1988-07-15 2001-10-23 Robert Filepp Interactive computer network and method of operation
JPH02208775A (ja) * 1989-02-08 1990-08-20 Ricoh Co Ltd 機械翻訳方式
US5175684A (en) * 1990-12-31 1992-12-29 Trans-Link International Corp. Automatic text translation and routing system
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5416903A (en) * 1991-08-19 1995-05-16 International Business Machines Corporation System and method for supporting multilingual translations of a windowed user interface
JPH05303589A (ja) * 1992-04-06 1993-11-16 Nec Corp 翻訳装置
JPH05314175A (ja) * 1992-05-13 1993-11-26 Ricoh Co Ltd 対訳画像形成装置
GB2272091B (en) * 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
JPH07175813A (ja) * 1993-10-27 1995-07-14 Ricoh Co Ltd 複合通信処理装置
US5778350A (en) * 1995-11-30 1998-07-07 Electronic Data Systems Corporation Data collection, processing, and reporting system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045637A (ja) * 2014-08-21 2016-04-04 富士ゼロックス株式会社 文書処理装置及びプログラム。

Also Published As

Publication number Publication date
US6081773A (en) 2000-06-27

Similar Documents

Publication Publication Date Title
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6401060B1 (en) Method for typographical detection and replacement in Japanese text
US7353165B2 (en) Example based machine translation system
JP3768105B2 (ja) 翻訳装置、翻訳方法並びに翻訳プログラム
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Ofazer et al. Bootstrapping morphological analyzers by combining human elicitation and machine learning
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
KR101072460B1 (ko) 한국어 형태소 분석 방법
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Tufiş et al. DIAC+: A professional diacritics recovering system
JPH1185756A (ja) 翻訳装置及び翻訳装置制御プログラムを記憶した媒体
JP3309174B2 (ja) 文字認識方法及び装置
JP5203324B2 (ja) 誤字脱字対応テキスト解析装置及び方法及びプログラム
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Bach et al. Paraphrase identification in Vietnamese documents
Aytan et al. Deep learning-based Turkish spelling error detection with a multi-class false positive reduction model
Nguyen et al. Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics
Sornlertlamvanich Probabilistic language modeling for generalized LR parsing
Kavitha et al. Using svms for filtering translation tables for parallel corpora alignment