JP3408291B2

JP3408291B2 - 辞書作成支援装置

Info

Publication number: JP3408291B2
Application number: JP23264993A
Authority: JP
Inventors: 秀樹平川; 明熊野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-09-20
Filing date: 1993-09-20
Publication date: 2003-05-19
Anticipated expiration: 2018-05-19
Also published as: DE69427848D1; EP0645720A3; DE69427848T2; EP0645720A2; US5579224A; JPH0785056A; EP0645720B1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、機械翻訳システムな
ど自然言語システムに使用する辞書の作成を支援する辞
書作成支援装置に関する。

【０００２】

【従来の技術】近年、コンピュータを利用して第一言語
の文章を第二言語の文章に自動的に機械翻訳するシステ
ムが注目されている。この機械翻訳システムは、基本的
には入力原文を形態素解析、構文解析するなどして、語
（句）などの所定の処理単位に区分し、その処理単位ご
とに翻訳辞書を検索して適用する翻訳規則を決定し、対
応する訳語（訳語句）などを決定し、これを所定の訳文
生成規則にしたがって結合するなどして、その訳文を得
るように構成されている。

【０００３】一般に、このような機械翻訳システムが様
々な要求をもつ個々のユーザによって効果的に利用され
るように、システムにはユーザ登録用辞書（ユーザ辞
書）、ユーザ規則辞書などが用意されている。これらの
辞書を用いることにより、通常、標準辞書の内容より優
先されて訳語の選択や翻訳規則が適用されるため、ユー
ザ独特の表現や、文書固有の表現などに対して望まれる
訳語が出力されるように働く。

【０００４】このような、ユーザ辞書、ユーザ規則辞書
など、ユーザカスタマイズのための辞書を作成する場合
には、あらかじめユーザが持っている対訳リストをもと
に辞書登録データを用意し、システムの登録機能を使用
して一括登録をおこなったり、また、対話的に動作する
辞書編集システムを利用して辞書を作成するなどの方法
が行われている。

【０００５】これらの方法では、あらかじめ用語リスト
をもっていない場合には、既存の文書から対訳リストを
抽出するなどの作業が必要であり、この作業が辞書作成
などにおいて非常に大きな負担となっているという問題
があった。

【０００６】

【発明が解決しようとする課題】この様に、従来では、
ユーザ辞書やユーザ規則辞書を入力・編集するツールは
提供されていたが、登録すべきユーザ辞書情報・ユーザ
規則情報の収集が困難であるという問題点があった。

【０００７】本発明は上述した問題点を解決するために
なされたものであり、その目的とするところは、既存の
原文文書と訳文文書を入力とし、この２つの文書からユ
ーザ辞書やユーザ規則辞書に登録すべき登録データ候補
を出力するとともに、その登録データ候補を編集する際
に参照すると有用である原文文書情報、訳文文書情報を
出力する辞書作成支援装置を提供することにある。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め、本発明は次のように構成する。少なくとも第一言語
の文章および第二言語の文章を入力・記憶する手段と、
前記入力された第一言語および第二言語の文章の一部分
をそれぞれ抽出する手段と、第一の言語と第二の言語の
文字列（単語、句、節、文）の少なくとも対応関係を保
持した辞書と、前記抽出された第一言語あるいは第二言
語の文章の一部分から前記辞書を参照して知識登録すべ
き部分文字列を抽出する手段と、前記抽出された第一言
語の一部分と第二言語の文章の一部分の一致性を評価す
る手段と、前記一致性評価結果に基づいて前記抽出され
た第一言語の一部分と第二言語の文章の一部分の対応関
係を選択する手段を有する辞書作成支援方法において、
前記抽出された知識登録すべき部分文字列とその部分文
字列を含む前記抽出された文章の一部分およびその文章
の一部分と対応関係があると選択された相手言語の文章
の一部分を出力するよう構成する。

【０００９】

【作用】上記のように構成された方法は、原文書と訳文
書から所定の単位で文字列を抽出し、抽出された文字列
の一致性を原文・訳文対応を持つ辞書を参照して算出
し、この原文文字列より知識登録するための文字列候補
を抽出するとともに、この登録文字列候補と対応関係を
持つ原文情報と訳文情報を出力する。これにより、辞書
作成作業者は、辞書登録知識の修正を、その基となった
原文・訳文情報を参照しながら編集することが可能とな
り、辞書作成作業の効率を著しく向上することが可能と
なる。

【００１０】

【実施例】以下、図面を参照しながら、日本語文書と英
語文書より辞書作成支援情報を出力する、本発明の一実
施例の説明を行う。図１は本発明の一実施例のブロック
構成図を示す。図１において、１は第一言語（日本語）
の文章を記憶する記憶部、２は、第２言語（英語）の文
章を記憶する記憶部、３は第一言語の文章からその構成
要素である部分文字列（文、句など）を抽出する第一言
語文抽出部、４は第二言語の文章からその構成要素であ
る部分文字列（文、句など）を抽出する第二言語文抽出
部、５は抽出すべき文字列の特徴を指定する抽出文字列
特徴指定部、６は第一言語の文字列（文）から知識登録
すべき部分文字列を抽出する知識登録文字列抽出部、７
は第一言語と第二言語の文字列（単語、句、節、文）の
少なくとも対応関係を保持した第一言語第二言語対応辞
書、８は第一言語の部分文字列（文、句など）第二言語
の部分文字列（文、句など）の対応の良否を定める対応
評価選択部、９は知識登録文字列抽出部６と対応評価選
択部８の情報をもとに辞書作成支援情報を構成出力する
出力制御部、１０は出力制御部より出力される辞書作成
支援情報記憶部である。

【００１１】第一言語文抽出部３は、日本語の文章を記
憶した第一言語文書から日本語の文や句など所定の処理
単位の認識をおこないながら、その処理単位を、その文
書中の位置情報と共に出力する。処理単位の認識は、句
点や改行コード情報を基にして文や句の抽出を行うとい
う、従来、機械翻訳装置など各種自然言語処理装置にお
いて利用されている技術を利用する。第一言語文抽出部
３の出力は、図２に示すように、抽出文の位置情報およ
び抽出文を対応つけたものの集合である。ここでは、位
置情報として、文番号（文書中から抽出された文字列要
素の番号）、開始位置( 文書中から抽出された文字列要
素の文書中での開始文字位置）の２つを出力する。第
二言語文抽出部４は、第一言語文抽出部３と同様に、英
語の文章に対して文や句など所定の処理単位の認識をお
こないながら、抽出文の位置情報および抽出文を対応つ
けたデータを出力する。

【００１２】抽出文字列特徴指定部５は、抽出すべき文
字列の表層的な特徴、辞書上の特徴、文法的な特徴、あ
るいは構造的な特徴を指定するものである。文字列の表
層的な特徴としては、例えば、長さが１０文字以上の
語、カタカナのみで構成している語（日本語）、大文字
のみで構成している語（英語）、などが指定できる。辞
書上の特徴としては、例えば、専門用語辞書にも一般用
語辞書にも登録されている語、ユーザ辞書に登録されて
いるが訳語が設定されていない語、どの辞書にも登録さ
れていない未知語、などが指定できる。文法的な特徴と
しては、例えば、動詞連用形の連続（日本語）、動詞の
過去分詞分詞＋名詞の連続（英語）などが指定できる。
構造的な特徴としては、例えば、複数個の名詞の連続に
よって構成している複合語、主語のない動詞、などが指
定できる。

【００１３】知識登録文字列抽出部６は、形態素解析や
構文解析の手法を用いて、抽出文字列特徴指定部５で指
定された特徴に合致する知識登録文字列を抽出する。具
体的には、単語辞書と形態素解析手段を用いて、第一言
語文を形態素解析した後、構文解析文法と構文解析手段
を用いて構文解析を行う。形態素解析・構文解析の方法
は従来から多く提案されており、本発明でもそのいずれ
かを使用することで実現される。ここで得られた解析結
果と抽出文字列特徴指定部５で指定された特徴とを照合
する。例えば、抽出文字列特徴指定部５で指定された特
徴が文字列の表層的な特徴の場合は、形態素解析の結果
により各語が分離されているので、各語の長さや構成文
字の種類を調べることによって実現できる。また、抽出
文字列特徴指定部５で指定された特徴が辞書上の特徴の
場合は、形態素解析の結果により各語がどの辞書に登録
されていたか、あるいは、どの辞書にも登録されていな
かったかが明確になっているので、その辞書の種類を調
べることによって実現できる。また、抽出文字列特徴指
定部５で指定された特徴が文法的な特徴の場合は、形態
素解析の結果により各語の品詞が明確になっており、活
用語に対してはその活用形・変化形が判明しているの
で、その品詞や活用形・変化形を調べることによって実
現できる。また、抽出文字列特徴指定部５で指定された
特徴が構造的な特徴の場合は、構文解析の結果により、
単語間の係り受け関係や修飾関係などの構文構造が明確
になっているので、それら構文構造を調べることによっ
て実現できる。

【００１４】このような各種の特徴によって抽出された
知識登録文字列に対しては、その文字列に対する情報を
登録知識情報として記憶すると共に、その文字列が原文
のどこから抽出されたかを原文情報として記憶する。登
録情知識情報報は図４に示すように、タイプ、見出し文
字列、品詞、訳語、その他情報とからなる。タイプは抽
出文字列特徴指定部５で指定された特徴を記号で表わす
もので、「合成語」「カタカナ語」「未知語」「主語な
し動詞」などから選ばれる。見出し文字列は、知識登録
文字列抽出部６が抽出した文字列である。品詞は、見出
し文字列に対する品詞の種類である。訳語は、見出し文
字列を通常の方法で機械翻訳した訳語を記憶するもの
で、機械訳語システムを利用して得られる。その他情報
は、どの辞書に登録されている語かを示す記号や、見出
し語の上位語などの情報を記憶する。原文情報は図４に
示すように、原文ＩＤと登録知識・原文対応情報とから
なる。原文ＩＤは知識登録文字列が抽出された文番号を
記憶するものであり、登録知識・原文対応情報はその文
の中で文頭から何バイト目から何バイト目までに位置し
ていたかを記憶するものである。

【００１５】以下では、第一言語で複数の名詞からなる
合成語を第二言語での訳を制御するための情報を抽出す
る場合について説明する。図２の文番号３の１０バイト
目から２２バイト目までに位置している「文書ファイ
ル」という複合語を知識登録文字列として抽出する例で
は、図４の（ｂ）に示すように、登録知識情報２では、
タイプとしてｔｙｐｅ´＝合成語´、見出し文字列とし
てｍｉｄａｓｈｉ＝´文書ファイル´、品詞としてｈｉ
ｎｓｈｉ＝´名詞´、訳語としてｄｅｆｔｇｔ＝´ｔｅ
ｘｔｆｉｌｅ´、その他情報として上位語ｉｓａ´＝フ
ァイル´が記憶され、原文情報２では、原文ＩＤとして
ｓｉｄ＝３、登録知識・原文対応情報としてｍｄｓ＝
（１０−２２）というデータが記憶される。ここで上位
語の「ファイル」は、シソーラスをもつシステムではそ
れを参照して「文書ファイル」の上位語として取り出す
ことが可能であるが、シソーラスを持たない構成の場合
や、シソーラスを持っていても「文書ファイル」という
複合語が含まれていない場合は、構成語の最後の語であ
る「ファイル」を上位語と推定することで取り出すこと
ができる。

【００１６】第一言語第二言語対応辞書７は、第一言語
の語に対して標準的な第二言語の対応語を集めたもの
で、機械翻訳用の対訳辞書などを用いる。一般に第一言
語のひとつの語に対して複数個の第二言語対応語が納め
られている。

【００１７】知識登録文字列抽出部６の出力データは、
登録知識情報と原文情報の組である。対応評価選択部
８は、知識登録文字列抽出部６の出力データをもとに、
知識登録文字列候補が訳出されている第二言語の対応文
を選択的に出力するものである。その構成を図５に示
す。以下に、知識登録文字列抽出部６の出力データに含
まれている知識登録文字列候補が複数の語で構成されて
いる合成語の場合について、対応評価選択部８の動作
を、図６の流れ図を用いて説明する。

【００１８】ステップＳ６００１では、対応語検索部８
０１が、第一言語第二言語対応辞書７を用いて、各第一
言語構成語に対する第二言語対応語を取り出す。ここで
「文書ファイル」の構成語である「文書」に対して「ｔ
ｅｘｔ，ｄｏｃｕｍｅｎｔ，ｌｅｔｔｅｒ」の３種類
が、「ファイル」に対して「ｆｉｌｅ，ｆｉｌｉｎｇ」
の２種類が対応語として取り出され、対応語データ部８
０２に蓄積される。

【００１９】次にステップＳ６００２では、第二言語文
検索部８０３を用いて、すべての構成語の各対応語を一
つでも含む文を第二言語文書から検索する。この例で
は、ＤｏｃｕｍｅｎｔＦｉｌｅを含む文番号１の訳
文、ｄｏｃｕｍｅｎｔｆｉｌｅを含む文番号２の訳
文、ｄｏｃｕｍｅｎｔｆｉｌｅｓを含む文番号３の訳
文、ｔｅｘｔｆｉｌｅｓを含む文番号８の訳文、ｆｉ
ｌｅｓｆｏｒｔｈｅｔｅｘｔを含む文番号１０の
訳文が検索結果として取り出される。訳文中の語は内部
的にすでに原形にもどす処理が施されているため、Ｄｏ
ｃｕｍｅｎｔはｄｏｃｕｍｅｎｔと照合し、Ｆｉｌｅや
ｆｉｌｅｓはｆｉｌｅと照合する。このようにして取り
出された各訳文に対しては、検索された根拠を訳文情報
として記憶する。訳文情報は図４に示すように、訳文Ｉ
Ｄ、評価点、登録知識・対応情報、コンテキスト対応情
報とからなる。原文ＩＤは検索された訳文の文番号を記
憶するものであり、登録知識・原文対応情報はその検索
対象となった対応語が訳文中で何バイト目から何バイト
目までにどのような表現で位置しているかを記憶するも
のである。評価点、コンテキスト対応情報については、
後ほど説明する。説明に用いている例では、図４に示す
ように、訳文情報２−１では訳文ＩＤとしてｓｉｄ＝
１、登録知識・対応情報としてｔｇｔｃａｎｄ＝（０−
１４＝´ｄｏｃｕｍｅｎｔｆｉｌｅ´）というデータ
が、訳文情報２−５では訳文ＩＤとしてｓｉｄ＝１２、
登録知識・対応情報としてｔｇｔｃａｎｄ＝（６−２４
＝´ｆｉｌｅｆｏｒｔｈｅｔｅｘｔ´）というデー
タが記憶される。

【００２０】ステップＳ６００３以降では、ステップＳ
６００２で取り出された訳文を評価部８０５で評価す
る。ここでは、コンテキストを用いた評価と構成単語の
隣接性を用いた評価を併用する。評価点の詳細は図７に
示す。

【００２１】ステップＳ６００３からステップＳ６００
６では、コンテキストを用いた評価を次のように行う。
まずステップＳ６００３では、まず原文中で知識登録文
字列と関係の深い語（以下、コンテキスト語という）を
取り出す。これには、コンテキスト検索部８０６と第一
言語文検索部８０４を用いる。ここで、コンテキスト語
には、例えば知識登録文字列が名詞のときにはそれを受
ける用言や、それを修飾する用言や名詞を選んだり、例
えば知識登録文字列が動詞のときにはそれの格要素であ
る名詞を選んだりすることができる。またコンテキスト
語として、同じ文中のすべての名詞とかすべての自立語
を選んでもかまわない。ここでは図２の文番号３の原文
に対して、「本節」「作成（する）」「操作」「手順」
「説明（する）」の５語を選んだとする。選ばれたコン
テキスト語は、コンテキスト語データ部８０７に蓄積す
る。

【００２２】次にステップＳ６００４では、前ステップ
で選びコンテキスト語データ部８０７に蓄積したコンテ
キスト語のすべてに対して、対応語検索部８０１から第
一言語第二言語対応辞書７を用いて、第二言語対応語を
取り出す。「本節」の対応語としてｔｈｉｓｓｅｃｔ
ｉｏｎ，ｃｕｒｒｅｎｔｓｅｃｔｉｏｎ、「作成（す
る）」の対応語としてｃｒｅａｔｅ，ｃｒｅａｔｉｏ
ｎ，ｍａｋｅ，ｐｒｏｃｕｃｅ，ｐｒｏｄｕｃｔｉｏ
ｎ、「操作」の対応語としてｏｐｅｒａｔｉｏｎ，ｍａ
ｎｉｐｕｌａｔｉｏｎ、「手順」の対応語としてｐｒｏ
ｃｅｄｕｒｅ，ｐｒｏｃｅｓｓ，ｓｔｅｐ、「説明（す
る）」の対応語としてｅｘｐｌａｉｎ，ｅｘｐｌａｎａ
ｔｉｏｎ，ｄｅｓｃｒｉｂｅ，ｄｅｓｃｒｉｐｔｉｏ
ｎ，ｓｈｏｗが取り出されたとする。

【００２３】ステップＳ６００５では、ステップＳ６０
０２で取り出された各訳文に対して、コンテキスト語の
第２言語対応語が含まれているかを調べる。訳文ＩＤ情
報をもとに第二言語文検索部８０３で検索し、対応語語
が含まれている場合、ステップＳ６００６に進み、１つ
につき１０点を評価点点Ａとして与え、ステップＳ６０
０７に進む。含まれていない場合は、直接、ステップＳ
６００８に進む。説明の例の場合、訳文情報２−１には
「作成（する）」の対応語ｃｒｅａｔｉｏｎが含まれて
いるので評価点点Ａとして１０点、訳文情報２−２には
「作成（する）」の対応語ｃｒｅａｔｅが含まれている
ので評価点Ａとして１０点、訳文情報２−３には「本
節」の対応語ｔｈｉｓｓｅｃｔｉｏｎ、「説明（す
る）」の対応語ｄｅｓｃｒｉｂｅ、「作成（する）」の
対応語ｃｒｅａｔｅが含まれているので評価点Ａとして
３０点、訳文情報２−５には「説明（する）」の対応語
ｓｈｏｗが含まれているので評価点Ａとして１０点、訳
文情報２−４にはいずれの対応語も含まれていないので
評価点Ａは０点となる。この結果を、図７の３列目に示
す。

【００２４】ステップＳ６００７では、ステップＳ６０
０５で検出したコンテキスト語の対応語の情報を、訳文
情報のコンテキスト対応情報に記憶する。コンテキスト
対応情報は、原文中におけるコンテキスト語の位置と、
訳文中におけるその対応語の位置を組にしたもので、複
数個のコンテキスト語に対して対応語が検出される場合
は、その組を列挙することによって記憶する。訳文情報
２−３の場合は、原文中の０バイト目から４バイト目に
位置する「本節」に対する対応語ｔｈｉｓｓｅｃｔｉ
ｏｎが訳文中の０バイト目から１２バイト目に位置する
ので０−４／０−１２、原文中の２４バイト目から２８
バイト目に位置する「作成」に対する対応語ｃｒｅａｔ
ｅが訳文中の３０バイト目から３６バイト目に位置する
ので２４−２８／３０−３６、原文中の４８バイト目か
ら５２バイト目に位置する「説明」に対する対応語ｄｅ
ｓｃｒｉｂｅｓが訳文中の１３バイト目から２２バイト
目に位置するので４８−５２／１３−２２、を記憶する
ため、コンテキスト対応情報の内容は、ｃｏｎｔｅｘｔ
＝（０−４／０−１２，２４−２８／３０−３６，４８
−５２／１３−２２）となる。

【００２５】ステップＳ６００８では、構成単語の隣接
性を用いた評価を次のように行う。説明の例の知識登録
文字列は「文書」と「ファイル」が隣接した語である。
そこで、訳文においてもそれぞれの対応語が隣接してい
る場合には、ステップＳ６００９に進み評価点Ｂとして
２０点を与える。それ以外の場合はステップＳ６０１０
に進む。訳文情報２−１ではＤｏｃｕｍｅｎｔとＦｉｌ
ｅが隣接しているので評価点Ｂとして２０点、訳文情報
２−２ではｄｏｃｕｍｅｎｔとｆｉｌｅが隣接している
ので評価点Ｂとして２０点、訳文情報２−３ではｄｏｃ
ｕｍｅｎｔとｆｉｌｅｓが隣接しているので評価点Ｂと
して２０点、訳文情報２−４ではｔｅｘｔとｆｉｌｅｓ
が隣接しているので評価点Ｂとして２０点、訳文情報２
−５ではｆｉｌｅｓとｔｅｘｔが隣接していないので評
価点Ｂとして０点を与える。この結果を、図７の４列目
に示す。ステップＳ６０１０では、ステップＳ６００６
で与えた評価点Ａと、ステップＳ６００８で与えた評価
点Ｂを加算し、各訳文情報の評価点を決定する。訳文情
報２−１には１０＋２０＝３０点、訳文情報２−２には
１０＋２０＝３０点、訳文情報２−３には３０＋２０＝
５０点、訳文情報２−４には０＋２０＝２０点、訳文情
報２−５には１０＋０＝１０点が決定する。この結果
を、図７の５列目に示す。なお、評価点は、コンテキス
ト語や構成単語の隣接性以外の情報を利用して与えても
よい。例えば、原文と訳文の対応が１対１に付いている
ものが多い場合は、原文１文中の構成単語数と訳文１文
中の構成単語数を比較し、両者の単語数が近いものほど
高い評価点を与えることで、原文と訳文の対応を利用す
ることができる。また、対応語が訳文に存在するコンテ
キスト語のそれぞれに一定の評価点を与える代わりに、
原文または訳文の構成単語数と、対応のあるコンテキス
ト語の数との比の定数倍を評価点とすることで、文の絶
対的な長さに起因するもできる。

【００２６】最後にステップＳ６０１１で、評価結果と
しての訳文情報を、出力制御部に出力して終了する。次
に動詞とその目的語の組み合わせで、動詞の訳を制御す
るための情報を抽出する場合について図８の流れ図を用
いて説明する。

【００２７】図９は、対象とする文章の一部である。知
識登録文字列抽出部６では、この文章の構文解析結果か
ら、知識登録文字列として「動詞とその目的語」の組を
抽出する。その結果を、図１１の登録知識情報１から登
録知識情報３に示す。例えば、登録知識情報１は、文番
号１の原文にある「特徴を持っている」を抽出した結果
である。具体的には、タイプとしてｔｙｐｅ＝´動詞名
詞´見出し文字としてｍｉｄａｓｈｉ＝´持つ´、品詞
としてｈｉｎｓｈｉ＝´動詞、訳語として標準のｄｅｆ
ｔｇｔ＝´ｈａｖｅ´、その他情報として目的語のｏｂ
ｊｅｃｔ＝´特徴´、辞書種類のｄｉｃｔ＝´標準´が
記憶される。同じく図１１の原文情報１には、原文ＩＤ
としてｓｉｄ＝１、登録知識・原文対応情報として、見
出し語「持つ」の原文中の位置ｍｄｓ＝（３４−３
８）、目的語「特徴」の原文中の位置ｏｂｊ＝（２４−
２８）が記憶される。

【００２８】ステップＳ８００１では、対応語検索部８
０１が、第一言語第二言語対応辞書７を用いて、第一言
語の動詞と目的語に対する第二言語対応語を取り出す。
ここで「持つ」に対して「ｈａｖｅ，ｉｎｃｌｕｄｅ，
ｈｏｌｄ，ｓｕｐｐｏｒｔ，ｏｗｎ，ｐｏｓｅｓｓ，ｋ
ｅｅｐ」の７種類が、「特徴」に対して「ｆｅａｔｕｒ
ｅ，ｃｈａｒａｃｔｅｒｉｓｔｉｃ，ａｔｔｒｉｂｕｔ
ｅ」の３種類が対応語として取り出される。

【００２９】次にステップＳ８００２では、図１０に示
す第二言語文書の各文を構文解析する。続いてステップ
Ｓ８００３で、構文解析結果を調べることにより、動詞
と目的語の組に対して、動詞が「ｈａｖｅ，ｉｎｃｌｕ
ｄｅ，ｈｏｌｄ，ｓｕｐｐｏｒｔ，ｏｗｎ，ｐｏｓｅｓ
ｓ，ｋｅｅｐ」の内のいずれか、目的語が「ｆｅａｔｕ
ｒｅ，ｃｈａｒａｃｔｅｒｉｓｔｉｃ，ａｔｔｒｉｂｕ
ｔｅ」の内のいずれかである組を取り出す。ここでは、
ｈａｓの目的語がｆｅａｔｕｒｅｓを含む文番号１の訳
文が検索結果として取り出される。これに対する第１１
図の訳文情報１−１では訳文ＩＤとしてｓｉｄｅ＝１、
登録知識・対応情報として、ｈａｓの訳文中の位置とそ
の原形からｔｇｔｃａｎｄ＝（１２−１５＝´ｈａｖｅ
´）、ｆｅａｔｕｒｅｓの訳文中の位置とその原形から
ｏｂｊｃａｎｄ＝（２１−２９´＝´ｆｅａｔｕｒｅ
´）というデータが記憶される。

【００３０】同様にして、原文番号１５の「取っ手を持
つ」に対して、図１１の登録知識情報２、訳文情報２−
１が、原文番号２８の「部品を持つ」に対して、図１１
の登録知識情報３、訳文情報３−１が記憶される。

【００３１】上記のステップＳ８００３では、動詞の対
応語と目的語の対応語が両方とも照合する組を取り出し
たが、両方照合するものがない場合、一方の照合で他方
を推測して取り出すこともできる。例えば、「特徴を持
つ」の例に対して、Ｔｈｉｓｓｙｓｔｅｍｈａｓａ
ｌｏｔｏｆｇｏｏｄｆｕｎｃｔｉｏｎｓ．を取
り出すこともある。この場合、「特徴」の対応語がｆｕ
ｎｃｔｉｏｎであるだろうことを示すために、図１１の
訳文情報１−１ａに示すように、登録知識・対応情報と
してｏｂｊｃａｎｄ＝（２１−３０＝´ｆｕｎｃｔｉｏ
ｎ´）というデータが記憶される。同様の例に対して、
Ｔｈｉｓｓｙｓｔｅｍｐｒｏｖｉｄｅｓａｌｏ
ｔｏｆｇｏｏｄｆｕｎｃｔｉｏｎｓ．を取り出す
こともある。この場合、「持つ」の対応語がｐｒｏｖｉ
ｄｅであるだろうことを示すために、図１１の訳文情報
１−１ｂに示すように、登録知識・対応情報としてｔｇ
ｔｃａｎｄ＝（１２−２０＝´ｐｒｏｖｉｄｅ´）とい
うデータが記憶される。

【００３２】最後にステップＳ８００４で、評価結果と
しての訳文情報を、出力制御部９に出力して終了する。
上記の処理により、動詞「持つ」の訳を、目的語の違い
によって、ｈａｖｅ，ｈｏｌｄ，ｓｕｐｐｏｒｔに訳し
分けるための知識を登録することが有効であるとわか
る。

【００３３】また、動詞と目的語の組と同様の方法で、
日本語の名詞＋「の」＋名詞についても原文と訳文での
対応関係を抽出することが可能である。以下では、出力
制御部９の動作について説明する。出力制御部９は、こ
れまでの処理でえられた情報を適切な形式に編集して出
力提示する。出力提示形式は、辞書作成作業の形態に即
して種々のものがある。

【００３４】出力制御部９は、出力情報ソースファイル
（図４）、原文情報ファイル（図２）、訳文情報ファイ
ル（図３）の内容を参照しながら、辞書作成支援情報を
出力する。図１２は、登録知識情報、原文情報、訳文情
報をファイルへ一括出力する処理のフローである。

【００３５】基本的には、登録語選択処理ｓ１により出
力情報ソースファイル中の要素を選択し、それらをもと
に出力項目選択・出力処理により選択された要素を出力
制御パラメータｄ２の値に応じて所定の形式で出力し、
ｓ４で全登録語が出力されているかをチェックし、そう
であれば処理を終了する。

【００３６】登録語選択処理ｓ１は、登録語出力順序制
御パラメータｄ１の内容に応じて出力情報ソースファイ
ル中の要素を選択する機能を有する。登録語出力順序制
御パラメータｄ１の値には、「出現順」、「ソート
順」、「頻度順」、「確信度順」の４つの値が設定可能
である。

【００３７】登録語出力順序制御パラメータｄ１の値
「出現順」は、登録知識情報を原文の出現順に出力する
出力形態である。例えば、原文が「文書ファイルの作成
（改行）このシステムの作成対象ファイルには、プログ
ラムファイル、文書ファイル、実行モジュールファイル
の３種類がある。本節では、文書ファイルを作成する操
作手順について説明する。」において、「合成語」を登
録候補として出力する場合には、「文書ファイル」、
「作成対象ファイル」、「プログラムファイル」、「実
行モジュールファイル」、「操作手順」の順で出力され
る。この場合の登録語選択処理ｓ１の動作は、以下のよ
うである。

【００３８】（１）出力情報ソースファイルを検索し、
原文情報の文番号が最も小さく、かつ、表層位置（ｍｄ
ｓの値）の最も小さい要素を取り出す。これを要素１と
する。（２）要素１を出力情報ソースファイルから削
除する。

【００３９】（３）出力情報ソースファイルを検索し、
要素１と同じ登録情報を持つ要素を取り出す。これらを
要素２．．要素Ｎとする。（４）要素２．．要素Ｎを出力情報ソースファイルから
削除する。

【００４０】（５）要素１．．要素Ｎをもってステップ
ｓ２へ進む。出力項目選択・出力処理ｓ２では、送られてきた要素
１．．要素Ｎのうち要素１の部分を出力する。（１）の
処理で、文書の最も先頭に現れた登録語の文字列が得ら
れるので、これだけで「出現順」に原文情報を表示する
ことが可能である。このため、（３）の要素２．．要素
Ｎの順序を設定するにおいては、その方法は随意であ
り、いくつかが考えられる。

【００４１】例えば、「確信度」の高い順にならべるこ
とも可能であるし、「出現順」にならべることも可能で
ある。ここでは、「確信度」の高い順（すなわち、各要
素の訳文情報に含まれる「ｓｃｏｒｅ」が最も大きいも
のを順にならべることとする。確信度が大きいというこ
とは、原文と訳文の対応関係がよいということであり、
正しい訳語が含まれている可能性が高いからである。

【００４２】登録語出力順序制御パラメータｄ１の値が
「ソート順」の場合は、登録知識情報を見出しなど登録
文字列に基づいてソートした順に出力する出力形態であ
る。例えば、原文が「文書ファイルの作成（改行）この
システムの作成対象ファイルには、プログラムファイ
ル、文書ファイル、実行モジュールファイルの３種類が
ある。本節では、文書ファイルを作成する操作手順につ
いて説明する。」において、例えば、「カタカナ単語」
を登録候補として出力する場合には、「ファイル」、
「プログラム」、「モジュール」の順で出力される。

【００４３】この場合の登録語選択処理ｓ１の動作は、
以下のようである。（１）出力情報ソースファイルを検索し、登録表層（ｍ
ｉｄａｓｈｉの文字列）でソート順位が最も小さい要素
を取り出す。これを要素１とする。

【００４４】（２）要素１を出力情報ソースファイルか
ら削除する。（３）出力情報ソースファイルを検索し、要素１と同じ
登録情報を持つ要素を取り出す。これらを要素２．．要
素Ｎとする。

【００４５】（４）要素２．．要素Ｎを出力情報ソース
ファイルから削除する。（５）要素１．．要素Ｎをもってステップｓ２へ進む。登録語出力順序制御パラメータｄ１の値「頻度順」は、
登録知識情報の出現頻度をキーとして順に出力する出力
形態である。例えば、原文が「文書ファイルの作成（改
行）このシステムの作成対象ファイルには、プログラム
ファイル、文書ファイル、実行モジュールファイルの３
種類がある。本節では、文書フアイルを作成する操作手
順について説明する。」において、「合成語」を登録候
補として出力する場合には、「文書ファイル」、「作成
対象ファイル」、「プログラムファイル」、「実行モジ
ュールファイル」、「操作手順」の順で出力される。こ
の場合の登録語選択処理ｓ１の動作は、以下のようであ
る。（１）出力情報ソースファイルを検索し、出現頻度の最
も大きい要素を取り出す。これを要素１．．要素Ｎとす
る。（２）要素１．．要素Ｎを出力情報ソースファイルから
削除する。（３）要素１．．要素Ｎをもってステップｓ２へ進む。

【００４６】登録語出力順序制御パラメータｄ１の値
「確信度順」は、登録知識情報をそのスコア順に出力す
る出力形態である。この場合の登録語選択処理ｓ１の動
作は、以下のようである。

【００４７】（１）出力情報ソースファイルを検索し、
訳文情報が最も小さく、かつ、表層位置（ｍｄｓの値）
の最も小さい要素を取り出す。これを要素１とする。（２）要素１を出力情報ソースファイルから削除する。

【００４８】（３）出力情報ソースファイルを検索し、
要素１と同じ登録情報を持つ要素を取り出す。これらを
要素２．．要素Ｎとする。（４）要素２．．要素Ｎを出力情報ソースファイルから
削除する。

【００４９】（５）要素１．．要素Ｎをもってステップ
ｓ２へ進む。以上の処理により、登録語選択処理ｓ１からは、要素
１．．要素Ｎが選択され、出力項目選択処理ｓ２に送ら
れてくる。出力項目選択・出力処理ｓ２では、出力項目
制御パラメータｄ２の値に応じて、出力すべき情報の加
工を行う。送られてくる要素には、既に示したように登
録知識情報、原文情報、訳文情報が含まれており、登録
知識情報は、辞書登録用のフォーマットなど適切な形式
に変換出力される。登録語選択処理より送られるＮ個の
要素は、同じ登録知識情報を持ち、それぞれ１つの原文
情報および複数個の訳文情報を持っている。このため、
１種の登録知識情報に対してＮ個の原文情報を持ち、さ
らにＮ個以上の訳文情報を持つことになる。

【００５０】出力項目制御パラメータｄ２には、「原文
情報数」、「訳文情報数」、「対応表示種類」、「対応
表示形態」の４種類がある。「原文情報数」は、出力す
る登録知識情報１つに対して、いくつの原文情報数を出
力するかを指定するものである。また、「訳文情報数」
は、出力する原文情報１つに対していくつかの訳文情報
を出力するかを指定するものである。さらに「対応表示
種類」は、「登録情報の原文・訳文との対応関係」「マ
ッチングコンテキストの原文・訳文との対応関係」の２
種類の情報の表示の有無を制御するものである。また、
「対応表示形態」は、対応部をどのような形態で他の部
分と区別して表示するかを指定するものであり、下線、
括弧付け、強調など、通常使用されるさまざまな形態が
指定可能である。登録語出力順序制御パラメータ及び出
力項目制御パラメータは、マウス・キーボードなど、通
常のユーザ入力指示手段（図示しない）により、設定・
変更可能である。ここで、出力形態の具体例を示す。原
文が「文書ファイルの作成（改行）このシステムの作成
対象ファイルには、プログラムファイル、文書ファイ
ル、実行モジュールファイルの３種類がある。本節で
は、文書ファイルを作成する操作手順について説明す
る。」で、訳文が「Ｄｏｃｕｍｅｎｔｆｉｌｅｃｒｅ
ａｔｉｏｎ（改行）Ｔｈｉｓｓｙｓｔｅｍｃｒｅａ
ｔｅｓ３ｋｉｎｄｓｏｆｆｉｌｅｓ；ｐｒｏ
ｇｒａｍｆｉｌｅ，ｄｏｃｕｍｅｎｔｆｉｌｅａｎ
ｄｅｘｅｃｕｔｉｏｎｍｏｄｕｌｅｆｉｌｅ．Ｔ
ｈｉｓｓｅｃｔｉｏｎｄｅｓｃｒｉｂｅｓｈｏｗ
ｔｏｃｒｅａｔｅｄｏｃｕｍｅｎｔｆｉｌｅ
ｓ．」であるとする。図１３は、抽出対象を合成語とし
て、登録語出力順序制御パラメータを「出現順」とし、
「原文情報数」を２とし、訳文情報数を２とし、対応表
示種類を「登録情報の原文・訳文との対応関係」の表
示、「対応表示形態」を「強調」表示とした場合の出力
例である。第一行目文書ファイル；名詞；ｄｏｃｕｍｅ
ｎｔｆｉｌｅ；ｉｓａ＝ファイル；において、「文書
ファイル」は、登録すべき単語の見出し語、「名詞」は
その品詞、「ｄｏｃｕｍｅｎｔｆｉｌｅ」は、訳語、
「ｉｓａ＝ファイル」は、辞書属性情報である。これら
は、出力項目・選択出力処理により、要素の登録知識情
報から抽出・再構成されて出力される。デフォルト訳
は、要素中の´ｄｅｆｔｇｔ´（翻訳システムの標準
訳）を検索・出力したものである。

【００５１】［１］：文書／ファイルの作成は、原文情
報から、文番号（［１］）と原文を取り出し、原文中に
含まれていた見出しの部分を強調して（対応表示形態が
「強調」であるため）出力している。この強調文字列の
位置は、原文情報に含まれているｍｄｓ情報より求める
ことが可能である。また、「／」は、合成語の基となる
単語の区切りを示している。

【００５２】（１）：Ｄｏｃｕｍｅｎｔｆｉｌｅｃ
ｒｅａｔｉｏｎ（３）：Ｔｈｉｓｓｅｃｔｉｏｎｄｅｓｃｒｉｂｅ
ｓｈｏｗｔｏｃｒｅａｔｅｄｏｃｕｍｅｎｔ
ｆｉｌｅｓ．は、訳文情報を表示している。文番号
（（１）など）と訳文を取り出し、訳文中に含まれてい
た訳語候補の部分を強調して（対応表示形態が「強調」
であるため。ただし、原文の表示形態と異なった形態に
することも可能である。）出力している。

【００５３】この例では、登録語出力順序制御パラメー
タを「出現順」としたため、前記説明した登録語選択処
理の動作に応じて、原文文書で最初にあらわれる「文書
ファイルの作成」に対応する「文書ファイル」が要素１
として送られる。また、２番目以降に関しては、前節で
のべたように確信度（ｓｃｏｒｅ）の高さで選択するた
め、第３文「本節では．．．説明する。」に対応する
「文書ファイル」が要素２として、第２文「このシステ
ムの．．．３種類がある。」に対応する「文書ファイ
ル」が要素３として送られてくる。出力項目選択・出力
処理部は、第一に出力する原文情報および訳文情報とし
ては、図１３に示すように要素１のものを使用する。ま
た、「原文情報数」パラメータが「２」に設定されてい
るので、第２の原文情報・訳文情報を出力する（図１３
の原文［３］および訳文（３），（１）が対応する）。

【００５４】この第２の情報として何を出力するかは、
登録訳語選択処理によって決定される。図１３の場合
は、確信度の高さから第３番目の原文に対応する要素３
が選択され出力される。３番目以降の要素は、「原文情
報数」パラメータの制約から、出力されない。また、
「訳文情報数」パラメータが２であるという設定によ
り、訳文情報は最大２以上出力されないように出力項目
選択・出力処理により制御される。

【００５５】図１４は、抽出対象を合成語として、登録
語出力順序制御パラメータを「頻度順」とし、「原文情
報数」を１とし、訳文情報数を２とし、対応表示種類を
「登録情報の原文・訳文との対応関係」と「マッチング
コンテキストの原文・訳文との対応関係」の表示、「対
応表示形態」を「強調」表示とした場合の出力例であ
る。ここでは直接示さないが、文書中に現れた合成語で
頻度最大のものが「文書ファイル」であり、２番目が
「プログラムファイル」であるとしている。また、要素
中に現れるｃｏｎｔｅｘｔ情報により、原文と訳文で対
応関係にある要素が各種下線として対応出力されてい
る。この場合、一種類の表示形態（例えば、一重下線）
では、対応関係の把握が困難であるので、複数の表現形
態を用意し（カラー表示が可能な場合は色などの利用も
可能である）適宜割り当てて出力する。

【００５６】このような形態で辞書登録候補データを作
成しておくことにより、ユーザは、例えば、このデータ
を直接、計算機上で編集して最終登録形態までもってゆ
く事ができる。通常、機械翻訳システムなどは、ユーザ
辞書を一括登録する機能を有しており、本システムの出
力データをこのユーザ辞書の登録形式に合わせておくこ
と及び登録情報以外の原文情報、訳文情報などを登録時
に無視する（コメントとして扱う）ことにより、原文・
訳文文書を入力して、そこから容易にユーザ辞書を作成
することが可能である。

【００５７】また、本実施例では、ファイルの形式に登
録知識情報、原文情報、訳文情報を出力する場合につい
て説明したが、これらの情報を対話的に表示・編集する
出力形式も可能である。

【００５８】この場合には、登録知識情報を表示し、そ
の登録知識と関連する原文情報や訳文情報が分かるよう
に表示したり、原文と訳文の部分の対応関係を表示した
りすることができる上述した実施例では原文及び訳文情報を入力してユーザ
辞書を作成する方法であったが、例えば原文情報のみを
入力し、この情報から単語部分、あるいは動詞の部分等
を抽出し、辞書引きし、辞書引き結果（訳語）から適正
な（ユーザの意図する）ものを指示あるいは直接訳語を
入力してユーザ辞書を作成することも可能である。この
ようにすることにより、例えば技術用語のみを予め指定
あるいは入力しておけば訳文中技術用語のチェックの手
間が省ける。

【００５９】

【発明の効果】以上説明した様に、本発明によれば、既
存の原文文書と訳文文書を入力とし、この２つの文書か
らユーザ辞書やユーザ規則辞書に登録すべき登録データ
候補を出力するとともに、その登録データ候補を編集す
る際に参照すると有用である原文文書情報、訳文文書情
報を出力することが可能となる。これによりユーザは、
原文文書情報や訳文文書情報を、その関連する登録デー
タ候補情報と共に簡単に参照することができ、辞書登録
データの作成が極めて容易になる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る辞書作成支援装置の
全体構成を示すブロック図。

【図２】第一言語文抽出部の出力を示す図。

【図３】第二言語文抽出部の出力を示す図。

【図４】対応評価選択部の出力であり、出力制御部の
入力となる出力情報ソースファイルの例を示す図。

【図５】対応評価選択部の構成図。

【図６】合成語の対応評価選択処理を示す流れ図。

【図７】合成語の対応評価選択処理における評価点を
示す図。

【図８】動詞＋目的語の対応評価選択処理を示す流れ
図。

【図９】第一言語文章の例を示す図。

【図１０】第二言語文章の例を示す図。

【図１１】登録知識情報の例を示す図。

【図１２】出力制御部の処理の概要を示すフローチャ
ート。

【図１３】出力制御部が出力する辞書作成支援情報の
一例を示す図。

【図１４】出力制御部が出力する辞書作成支援情報の
一例を示す図。

【符号の説明】

１…第一言語文書２…第二言語文書３…第一言語文抽出部４…第二言語文抽出部５…抽出文字列特徴指定部６…知識登録文字列抽出部７…第一言語・第二言語対応辞書８…対応評価選択部９…出力制御部１０…辞書作成支援情報

Claims

(57)【特許請求の範囲】

【請求項１】第１言語及び第２言語の単語または句また
は節または文からなる文字列の対応関係を保持した辞書
と、第１言語の文章およびこの第１言語の文章の訳文である
第２言語の文章を記憶するための記憶手段と、知識として抽出すべき文字列の特徴を指定させるための
特徴指定手段と、この特徴指定手段によって指定された特徴に合致する文
字列である知識登録文字列を前記記憶手段に記憶されて
いる第１言語の文章から抽出するための抽出手段と、この抽出手段によって抽出された知識登録文字列に対応
する第２言語の文字列である対応語を前記辞書から検索
する対応語検索手段と、この対応語検索手段によって検索された対応語を含む第
２言語の文を前記記憶手段に記憶されている第２言語の
文章から検索するための第２言語文検索手段と、前記知識登録文字列と関係付けられた語を前記記憶手段
に記憶されている第１言語の文章から検索するための検
索手段と、この検索手段によって検索された知識登録文字列と関係
付けられた語に対応する第２言語の文字列を前記辞書か
ら取り出し、前記第２言語文検索手段で検索された前記
対応語を含む第２言語の文に含まれるかを調べて評価す
るための評価手段と、この評価手段による評価結果に基づいて、知識登録文字
列及びこの知識登録文字列と対応関係のある対応語を、
登録すべき原文情報及び訳文情報として出力する出力手
段とを有することを特徴とする辞書作成支援装置。
【請求項２】前記評価手段は、さらに前記対応語の隣接
性を評価することを特徴とする請求項１記載の辞書作成
支援装置。
【請求項３】前記知識登録文字列と関係付けられた語
は、前記知識登録文字列を受ける用言，修飾する用言や
名詞、前記知識登録文字列の各要素である名詞であるこ
とを特徴とする請求項１または請求項２いずれか記載の
辞書作成支援装置。