JP2008293457A - 言語処理システムおよびプログラム - Google Patents

言語処理システムおよびプログラム Download PDF

Info

Publication number
JP2008293457A
JP2008293457A JP2007159512A JP2007159512A JP2008293457A JP 2008293457 A JP2008293457 A JP 2008293457A JP 2007159512 A JP2007159512 A JP 2007159512A JP 2007159512 A JP2007159512 A JP 2007159512A JP 2008293457 A JP2008293457 A JP 2008293457A
Authority
JP
Japan
Prior art keywords
sentence
conditional
synonymous
variable
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007159512A
Other languages
English (en)
Inventor
Ryoma Terao
亮馬 寺尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2007159512A priority Critical patent/JP2008293457A/ja
Publication of JP2008293457A publication Critical patent/JP2008293457A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】入力文の記号論理式レベルの文への単純化、記号論理式レベルの単純な文を用いた推論、及び記号論理式レベルの文に基づく出力文の生成の統一的、単純な方法による実現、並びに同様な方法による論理又は言い換え表現の自動的学習の実現。
【解決手段】従来記号論理によって行われている推論処理を、記号論理式と同レベルの単純さの自然言語文を用いて行い、それにより入力文から出力文への変換処理を統一する。また、入力文から記号論理式レベルの単純さの文への言い換えを逆用して、記号論理式レベルの単純さの文に基づく出力文生成を実現する。さらに、同様の言い換えを利用して、単純化された論理又は言い換え表現を抽出して利用する。
【選択図】図7

Description

本発明は、言語処理システムに関し、特に記号論理を必ずしも用いず、比較的単純な条件文を繰り返し用いて入力文に対応する出力文の生成を行う言語処理システムに関する。また、条件文を繰り返し用いて原文から論理や言い換え表現を学習する言語処理システムに関する。
従来から、自然言語処理の分野では、原文(入力文)を記号論理式に変換し、記号論理式を用いて推論を進め、結論として得られた記号論理式に基づき出力文を生成するという方法が採られている。しかしながら、従来の方法は十分単純ではないのでシステムの構築が容易であるとはいえず、また、システム自体が変更に対して柔軟に対処できないという問題があった。出力文の生成に関しては、確立した一般的な方法は未だにないといえる。さらには、入力文に対応して出力文を生成するプロセス全体の改善に活かせる様な、一般的かつ自動的な学習の方法も提案されてこなかった。
上記の様な問題の一部を解決するために、特開2002−14990号公報(下記特許文献1参照)には、同義語のリストだけではなく、同義フレーズのリストもある程度自動的に生成するための方法が紹介されている。この方法は確かに、同義語と同義フレーズを利用して行う言い換えプロセスの改善につながる1つの方法である。しかし、言い換えには活用できても推論に活用できる方法であるとはいえず、また、出力文の一般的な生成法であるとも、入力文に対応して出力文を生成するプロセス全体を改善するための一般的な学習法であるともいえない。
特開2002−14990号公報
本発明は、入力文の記号論理式レベルの単純さの文への単純化、その様な文(自然言語文)を用いた推論、その様な文に基づく出力文の生成の3つを十分単純な、変更に対して柔軟に対処できる方法によって実現することを目的とする。また本発明によって、そのそれぞれのプロセスの改善に活かせる様な、一般性がある学習の方法も提案する。
本発明は、基本的には、従来記号論理によって行われている推論処理を、記号論理式と同レベルの単純さの自然言語文を用いて実現することにより、入力文から出力文への変換処理を統一し、単純化することに成功したものである。また、入力文の記号論理式レベルの文への言い換えを逆用することにより、記号論理式レベルの文の出力文への言い換えを実現できた。さらには、原文から同様の言い換えによって記号論理式レベルの条件文を得ることが可能になったことにより、一般性がある学習の仕組みも考案することができた。
すなわち、本発明によれば、上記で述べた問題の解決が可能である。
[第1の実施の形態]以下に述べる本発明の第1の実施の形態は、コンピュータおよびコンピュータ上で動作するソフトウェアにより実現される。もちろん、以下に述べる機能の一部または全部を、ソフトウェアでなくハードウェアで実現することも可能である。なお、第2の実施の形態以下の装置も、第1の実施の形態と同様のハードウェアにより実現される為、それらについてはハードウェアの説明は繰り返さない。
図1は、本実施の形態に係る言語処理システム10の基本構成を示すブロック図である。図1に示される様に、言語処理システム10は、CPU11、メモリ12、I/O13、CD−ROMドライブ14、およびディスプレイ15を具備する。そして、CPU11、メモリ12、I/O13、CD−ROMドライブ14、ディスプレイ15は、バス16に接続され、相互にデータ転送を行うことが出来る。なお、I/O13を介して、たとえば、ポインティングデバイスなどの入力装置と接続されていてもよい。また、メモリ12のうち、メインメモリには、たとえば、本発明を実装する制御プログラムが格納されていてもよい。入力装置から所定の情報が入力されると、CPU11は、メインメモリに格納された制御プログラムを読み出し、読み出した制御プログラムの指令に基づいて、メモリから適宜情報を読み出すとともに、演算処理を行い、必要に応じて演算結果をメモリに格納するとともに、出力装置から演算結果を出力すればよい。
なおここに示す言語処理システム10はあくまで一例であり、この他にも種々の構成が可能である。
以下の説明では、
・「前件」とは、命題“IfP,thenQ.”(PならばQ)に対して、条件節Pのことである。
・「後件」とは、命題“IfP,thenQ.”(PならばQ)に対して、帰結節Qのことである。
・「条件文」とは、(条件節である)前件と(帰結節である)後件から構成される文をいう。たとえば英語では、“If(前件),then(後件).”である。ただし、以下では説明の便宜上、下記「同義的条件文」と区別する為に、前件と後件が類義的(同義)ではない文だとする(本来は、前件と後件が類義的あるいは同義であってもよい)。
・「推論」とは、条件文を用いた文の変換をいう事にする。論理的な文の変換である。
・「同義的条件文」とは、(条件節である)前件と(帰結節である)後件から構成され、かつ、前件と後件が類義的である文(同義である文を含む。)をいう。
・「言い換え」とは、同義的条件文を用いた文の変換をいう事にする。変換前の文と変換後の文が類義的(あるいは同義)である文の変換である。
・「条件文データベース」とは、本発明に係るシステムが条件文のリストを記憶しているデータベースであり、記憶されている条件文は、必要に応じて検索され、抽出されて使用される。
・「同義的条件文データベース」とは、本発明に係るシステムが同義的条件文のリストを記憶しているデータベースであり、記憶されている同義的条件文は、必要に応じて検索され、抽出されて使用される。
・「述語」とは、入力文、条件文の前件または後件、もしくは同義的条件文の前件または後件のうち、変項および下記「変項対応語」以外の部分をいう事にする。たとえば、次の条件文において、前件から変項xを除いた部分“…is a star”、後件から変項xを除いた部分“…has gravity”はそれぞれの述語である。
条件文:If x is a star,then x has gravity.
・「変項対応語」とは、入力文に、比較対象の条件文または同義的条件文の前件(または後件)の「述語」が含まれているとき、その前件(またはその後件)の変項に対応する位置にある入力文中の語(または複合語)をいう。たとえば、上記条件文を適用した次の推論においては、入力文に、上記条件文の前件の述語“…is a star”が含まれており、入力文でこの前件の変項xに対応する位置にある語は“the sun”であるので、これが変項対応語である。
入力文:The sun is a star.
条件文:If x is a star,then x has gravity.
出力文:The sun has gravity.
・変項の「品詞情報」とは、変項について品詞を設定もしくは決定したものである。より正確にいえば、その変項に代入されるべき語の品詞の情報である。
・例文などにおいて「→」、「⇔」、「∧」は、それぞれ“and(および)”、“if…,then…(ならば)”、“if,and only if(同値)”を表すものとし、x,x,x,…およびy,y,y,…はそれぞれ変項を表すものとする。たとえば、上記条件文は「→」を使うと次のとおりに書き換えられる:
x is a star.→x has gravity.
・また、例文などにおいて[ ]内には直前の語(複合語)あるいは変項に対する品詞あるいは品詞情報をそれぞれ示す。
・また、「基底表現」とは、用いる言語によって設定する形式の単文をいう事にする。たとえば、以下では、「基底表現」は能動態の単文、とくに“名詞 動詞 名詞.”、“名詞 動詞 形容詞.”または“名詞 動詞 名詞 副詞.”の語順の能動態の単文であるという設定だとして、例文の説明を行う事にする(なお以下の説明で用いる例文はすべて英語文である)。これをもっと詳細に、あるいは限定的に規定することも出来る。また、同一言語内でもこの設定は(「単文」という範囲内で)変更可能なものであるとする。
本実施の形態(第1の実施の形態)では、「推論」が前件と後件の両方が「基底表現」である条件文を用いて行われる、全体入力文から全体出力文への変換を実現する(なお「言い換え」は、前記定義のとおりに同義的条件文を用いて行われる)。以下、その内容を説明する。
図2は、本実施の形態の概念図である。10は言語処理システム、101は文変換手段、201は同義的条件文データベース、202は条件文データベース、203は辞書、204は形態素解析手段を表す。
図3は、言語処理システム10による処理のフローチャートである。図3で、手順1の「文変換を実行」とは、図4にその詳細フローチャートを示す方法の実行を意味する。つまり、図3は、図4に示される文変換を繰り返すことを表している。そうすることで、全体入力文から全体出力文への変換が可能になるというわけである。ただし、次の2点が前提条件である。
前提1a:条件文データベース202にリストされている条件文では、前件と後件の両方が基底表現(たとえば能動態の単文であると設定される。)あるいはその組合せである。
前提1b:同義的条件文データベース201にリストされている同義的条件文では、前件が基底表現(あるいはその組合せ)ではない。
なお、以下では、前件と後件の両方が基底表現(の組合せ)である条件文を「基底表現からなる条件文」と呼ぶ。
この前提のもとに、以下にて本実施の形態の具体的な説明を行う。いま、図5に記載した合計4個の同義的条件文および条件文がそれぞれ同義的条件文データベース201および条件文データベース202にあるとしよう。このとき、全体入力文が、
The chimpanzee,the closest species to Man,is investigated by Jane Goodall.
であったとすると、図5に記載の1個目の同義的条件文を用いて、以下の様な文変換が可能である。
入力文:The chimpanzee,the closest species to Man,is investigated by Jane Goodall.
同義的条件文:x[名詞],x[形容詞] x[名詞] to x[名詞],is x[動詞] −cd by x[名詞].→x is x to x.∧ x is x−ed by x
出力文:The chimpanzee is the closest species to Man.∧ The chimpanzee is investigated by Jane Goodall.
すなわち、言語処理システム10に上記全体入力文が入力される(図3の手順0)と、文変換手段101は、上記全体入力文を受け取って、以下のとおり文変換を実行する(図3の手順1および図4参照)。
・ステップ1:文変換手段101は、上記全体入力文を入力文として、i=0とする。
・ステップ2:iの値を1だけ増やす(i=1)。
・ステップ3:(同義的条件文データベース201中の同義的条件文の数と条件文データベース202中の条件文の数を比較して大きい方をnとしたとき)文変換手段101は、i≦nであるかチェックする。ここでは、1≦nであるので、ステップ4へ進む。
・ステップ4:文変換手段101は、同義的条件文データベース201および条件文データベース202における1番目の同義的条件文あるいは条件文について、その前件の述語(変項を除いた部分)が上記入力文に含まれているかチェックする。含まれていれば、ステップ5へ進む。含まれていなければ、ステップ2へ戻り、以後同様にして適当な同義的条件文あるいは条件文が見つかるまでステップ2〜4を繰り返す。上記同義的条件文が同義的条件文データベースの50番目にあったとすると、文変換手段101がi=50になるまでステップ2〜4を繰り返し、50≦nであるので、再びステップ4に進む。すると、上記同義的条件文の前件の述語“…,…to…,is…−ed by….”が上記入力文に含まれているので、ステップ5へ進む。
・ステップ5:形態素解析手段204は、上記入力文の「変項対応語」(ここでは、xに対して“the chimpanzee”、xに対して“the closest”、xに対して“species”、xに対して“Man”、xに対して“investigate”、xに対して“Jane Goodall”)の品詞を、辞書203を参照して決定する。すると、それぞれ順番に名詞、形容詞、名詞、名詞、動詞、名詞だと判明する。
・ステップ6:形態素解析手段204は、決定した変項対応語の品詞が、あらかじめ定められた変項の品詞情報とそれぞれ一致するかどうかをチェックする。上記例では、すべて一致するので、ステップ7へ進む。
・ステップ7:上記同義的条件文の前件の変項と、対応する入力文の変項対応語をそれぞれペアにする。
・ステップ8:上記同義的条件文の後件の変項に、変項対応語をそれぞれ代入する。
以上により、上記出力文が得られる。すると言語処理システム10は、上記出力文を新しい入力文とするので(図3の手順2)、文変換手段101は、再び文変換を実行する(図3の手順1へ戻る)。今度は、図5に記載の2個目の同義的条件文を上記出力文(新たな入力文)に適用することが出来るから、図5に記載の1個目の同義的条件文を適用したときとまったく同様にして、新たな出力文を得られる(図6参照)。言語処理システム10は、この出力文も、前回同様新たな入力文として(図3の手順2)、次へ進む。以上2回の文変換は、いずれも同義的条件文を用いた文変換であり、すなわち言い換えである。
一方、条件文を用いた文変換すなわち推論も、まったく同様の手順によって実現される。以下では、図5に記載の1個目の基底表現からなる条件文(図5に記載の3個目の文)を用いた文変換を例にとって、それを説明する。
まず、この条件文を用いた文変換は下記のとおりである。(ここでは、入力文のうち、今回の文変換に関係がある左側の部分だけを取り出して解説する。文変換は、この様に、入力文の一部に対しても実行可能なものであるとする。)
入力文:The chimpanzee is the closest species to Man.
条件文:x11[名詞] is the closest species to x12[名詞].→x11 shares DNA with x12
出力文:The chimpanzee shares DNA with Man.
ここで、文変換手段101は、前述の2回の文変換によって新しい入力文を得ているので、引き続き文変換を実行しようとする(図3の手順1)。すなわち、前述の同義的条件文の適用の場合とまったく同様にして、文変換手段101は、上記入力文と同じ述語“…is the closest species to….”を持つ条件文または同義的条件文の前件を条件文データベース202または同義的条件文データベース201から検索して、上記条件文を見つけて抽出する。そして、変項対応語“the chimpanzee”、“Man”を決定し、辞書203を参照する形態素解析手段204により品詞を決定する。すると、それは順番に名詞、名詞であるので、あらかじめ定められている変項の品詞情報(上記条件文の[ ]内参照)と一致することを確認して、x11=“the chimpanzee”、x12=“Man”を上記条件文の後件に代入すれば、文変換手段101は、上記出力文を得られるというわけである。
言語処理システム10は、この出力文をさらに新しい入力文として(図3の手順2)、再び文変換手段101に文変換を実行させる(図3の手順1)。文変換手段101は、1回目の推論とまったく同様にして、図5に記載の2個目の基底表現からなる条件文(4個目の文)を上記出力文に適用して2回目の推論を実行し、次の新たな出力文を得る。言語処理システム10は、さらに続けてこの出力文を新しい入力文とする(図3の手順2)が、もう適用出来る同義的条件文または条件文がそれぞれのデータベースにないとすると、これが、全体出力文となる。この全体出力文は、基底表現からなる条件文を適用した結果出力されたものなので、基底表現あるいはその組合せである。但し、後述するとおり、基底表現ではない文を生成して、それを全体出力文として出力することも可能である。
The chimpanzee resembles Man somewhat,and Jane Goodall investigates the chimpanzee.
以上の全体入力文から全体出力文への変換の過程の詳細について、図6にまとめたので、参照されたい。
なお、以上では説明しなかったが、ステップ5とステップ6を省略した文変換の実施も可能である。その場合は、入力文とその比較対象の同義的条件文または条件文の間で品詞を比較しないから、文変換の正確性が落ちることになる。但し、ステップ5とステップ6を省略した文変換には、辞書203も形態素解析手段204も不要である。
この様な全体入力文から全体出力文への文変換は、2つの部分に分けて考えることができる。
文変換の第一の部分は、前件が基底表現(たとえば能動態の単文の組合せ)ではない同義的条件文を用いた、「言い換え」(の繰返し)である。第二の部分は、基底表現からなる条件文を用いた、「推論」(の繰返し)である。第一の部分である「言い換え」の繰返しと、第二の部分である「推論」(の繰返し)は自然と連続的に起こる。
その理由は、「推論」のために使われる、基底表現からなる条件文は、基底表現である文以外には適用出来ないことである(基底表現からなる条件文の前件は、当然常に基底表現であるから、自然とそうなる)。したがって、全体入力文が「言い換え」の繰返しによって基底表現の文に単純化されるまで、「推論」は発生しない。基底表現である文に単純化されて初めて、「推論」が発生するので、自然と「言い換え」の繰返し、「推論」の繰返しという順番になるというわけである。
ここであらためて強調されるべきなのは、「言い換え」と「推論」を順番に連続的に発生させる為に、図4の方法以外の方法あるいは特別な規定を、上記第一の部分、第二の部分、あるいはその境界の部分で、使用していないことである。但し当然ながら、図4に示された方法以外の方法や特別な規定を併用することはかまわない。
[第2の実施の形態]ここまで、全体出力文が基底表現でいい場合の、全体入力文から全体出力文への変換方法について述べてきた。以下で述べる本発明の第2の実施の形態では、全体入力文から上記文変換第二の部分の出力文への変換の後に、「逆変換」という、逆方向に同義的条件文を用いる文変換によって、上記文変換第二の部分の出力文から基底表現以外の(より複雑な)文への変換を実現する。本発明に係る言語処理システムは、この変換によって得た基底表現より複雑な文を全体出力文とすることも出来る。以下、本実施の形態の内容を説明する。
図7は、本実施の形態の概念図である。10は言語処理システム、101は文変換手段、102は逆変換手段、201は同義的条件文データベース、202は条件文データベース、203は辞書、204は形態素解析手段を表す。
図8は、言語処理システム10による処理のフローチャートである。図8で、手順3の「逆変換を実行」するとは、図9にその詳細フローチャートを示す方法による変換を実行することである。つまり、図8は、手順1〜2により文変換を繰り返した後に、手順3〜4により図9に示される逆変換を繰り返すことを表している。前述の文変換(第二の部分)の出力文から基底表現(たとえば“名詞 動詞 名詞.”、“名詞 動詞 形容詞.”または“名詞 動詞 名詞 副詞.”の語順の能動態の単文)より複雑な文への変換は、図9に示される方法を(繰り返し)実行することで可能になる。
いま言語処理システム10が、全体入力文を入力されて、第1の実施の形態の説明で述べたとおりの同義的条件文と基底表現からなる条件文を用いた文変換の繰返し(図8の手順1〜手順2の繰返し)によって、前出の文変換(第二の部分)の出力文を得たとしよう。
The chimpanzee resembles Man somewhat.∧ Jane Goodall investigates the chimpanzee.
(以下では、この文のうち、今回の逆変換に関係がある左側の部分“The chimpanzee resembles Man somewhat.”だけを取り出して説明する。逆変換は、この様に、変換対象の文の一部に対しても実行可能なものであるとする。)
このとき、次の2つの同義的条件文が同義的条件文データベース201に格納されていたとする:
同義的条件文1:x15 looks like x1617.→x15[名詞] resembles x16[名詞] x17[副詞].
同義的条件文2:x18 somewhat x192021.→x18[名詞] x19[動詞] x20[前置詞] x21[名詞] somewhat.
すると、言語処理システム10は、上記文変換の出力文を入力文として、逆変換手段102に逆変換を実行させる(図8の手順3)。ここで、図9は図4とほぼ同じであり、逆変換の手順は文変換の手順とほぼ同じであることを指摘しておく。わずかな違いは、それぞれのステップで、(同義的条件文または条件文の)「前件」という記載が(同義的条件文の)「後件」という記載に替わっており、逆に(同義的条件文または条件文の)「後件」という記載が(同義的条件文の)「前件」という記載に替わっている点である。この違いは、逆変換の性質をよく反映している。すなわち、逆変換とは、文変換で条件文または同義的条件文の前件を用いているところを、後件を用いており、逆に文変換で最後に条件文または同義的条件文の後件を(変項に変項対応語を代入して)出力するところを、前件を出力するだけの、文変換と非常に類似した変換だということである。
そこで逆変換手段102が、上記文変換第二の部分の出力文を入力文として逆変換を実行すれば、以下の様になる(図8の手順3および図9参照)。
・ステップ1:逆変換手段102は、上記文変換の出力文を入力文として、i=0とする。
・ステップ2:iの値を1だけ増やす(i=1)。
・ステップ3:(同義的条件文データベース201中の同義的条件文の数をnとしたとき)逆変換手段102は、i≦nであるかチェックする。ここでは、1≦nであるので、ステップ4へ進む。
・ステップ4:逆変換手段102は、同義的条件文データベース201における1番目の同義的条件文について、その後件の述語が上記入力文に含まれているかチェックする。含まれていれば、ステップ5へ進む。含まれていなければ、ステップ2へ戻り、以後同様にして適当な同義的条件文(その後件の述語が入力文に含まれている同義的条件文)が見つかるまでステップ2〜4を繰り返す。上記同義的条件文1が同義的条件文データベースの100番目にあったとすると、逆変換手段102がi=100として、100≦nであるので、再びステップ4に進む。すると、上記同義的条件文の後件の述語“…resembles….”が上記入力文に含まれているので、ステップ5へ進む。
・ステップ5:形態素解析手段204は、上記入力文の「変項対応語」(ここでは、x15に対して“the chimpanzee”、x16に対して“Man”、x17に対して“somewhat”)の品詞を、辞書203を参照して決定する。すると、それぞれ順番に名詞、名詞、副詞だとわかる。
・ステップ6:形態素解析手段204は、決定した変項対応語の品詞が、あらかじめ定められた変項の品詞情報とそれぞれ一致するかどうかをチェックする。上記例では、すべて一致するので、ステップ7へ進む。
・ステップ7:上記同義的条件文の後件の変項と、対応する入力文の変項対応語をそれぞれペアにする。
・ステップ8:上記同義的条件文の前件の変項に、変項対応語をそれぞれ代入する。すると、次の出力文を得る。
The chimpanzee looks like Man somewhat.∧ Jane Goodall investigates the chimpanzee.
この様にして得られた出力文は、言語処理システム10が、新しい入力文とし(図8の手順4)、再び逆変換手段102に逆変換を実行させる(図8の手順3へ戻る)。すると、逆変換102は、同義的条件文2を用いて、1回目の逆変換とまったく同様にして、2回目の逆変換を実行し、次の出力文を得る。
The chimpanzee somewhat looks like Man.∧ Jane Goodall investigates the chimpanzee.
言語処理システム10は、この文を新たな入力文とする(図8の手順4)が、もう同義的条件文データベース201にこの文に適用可能な同義的条件文がないとすると、この文を全体出力文として出力する。
以上の、文変換(第二の部分)の出力文から全体出力文への変換は、図10のとおりにまとめられる。図10を図6と同時に参照すれば、上記例の全体入力文から全体出力文への変換の過程がわかるだろう。
なお、以上では説明しなかったが、ステップ5とステップ6を省略した逆変換の実施も可能である。その場合は、入力文と比較対象の同義的条件文との間で品詞を比較しないから、逆変換の正確性が落ちることになる。但し、ステップ5とステップ6を省略した逆変換には、辞書203も形態素解析手段204も不要である。
なぜこの様な、同義的条件文を逆方向に使う変換が可能になるかといえば、同義的条件文は、本来、
(前件) → (後件)
と書かれるべきものではなく、前件と後件が同義あるいは類義的であるので、
(前件) ⇔ (後件)
と書かれるべきものだからである。よって同義的条件文は、
(前件) ← (後件)
という逆方向の変換にも用いることが出来るのである。
以上の考察から容易にわかる様に、文変換、逆変換によって、同義的条件文を順方向にも逆方向にも使うことが出来る。すなわち、上記例の様に双方向に同義的条件文を使う為に、逆変換が必要になるといえる。たとえば、全体入力文の“単純化”の為の言い換えに使われる同義的条件文を、逆変換に用いれば、推論の結果に基づく全体出力文の“複雑化”が可能になる。
上記の逆変換の例でも、全体入力文の“単純化”の為に使える同義的条件文を、逆変換によって逆方向に使用したが、もし同義的条件文1、2とは前件と後件とが逆転した次の2つの同義的条件文が同義的条件文データベース201にある場合は、最後まで文変換手段101(順方向の変換)のみで上記例の全体出力文の生成をすることが出来る。
同義的条件文1’:x15[名詞] resembles x16[名詞] x17[副詞]. →x15 looks like x1617
同義的条件文2’:x18[名詞] x19[動詞] x20[前置詞] x21[名詞] somewhat.→x18 somewhat x192021
これからわかる様に、実は、(適当な条件文および同義的条件文さえあれば)文変換の繰返しのみで全体入力文の単純化、単純化の結果に基づく推論、推論の結果に基づく全体出力文の複雑化をすべて実現出来る。つまり、ただ文変換の“繰返し”のみで、基底表現ではない全体出力文までの変換がすべて可能である。文変換の繰返しは、非常に単純であるにも拘わらず、非常に応用性がある一般的な方法である。第1の実施の形態は、そういう一般的に応用がきく形態に改良されることが可能である。
但し、この様に全体入力文から基底表現ではない全体出力文への変換を文変換のみで実現しようとする場合は、第1の実施の形態の前提1b(同義的条件文データベース201にリストされている同義的条件文では、前件が基底表現ではない。)を削除しなければならない。なぜならば、文変換(第二の部分)の出力文は基底表現であるので、それを複雑化して全体出力文にしようとすれば、前件が基底表現である同義的条件文を適用しなければならないからである。
[第3の実施の形態]ここまでは、変項が条件文中または同義的条件文中で決定済みである例について説明してきた。ここで、下記の例を用いて、第3の実施の形態である、変項が設定されていない場合の逆変換について説明する。(なおここで使用される方法は、前件と後件を置き換えれば、まったく同様にして文変換として使用出来る。)いま、基底表現の組合せである下記入力文に対して、下記の同義的条件文が同義的条件文データベース201にあったとすれば、基底表現(ここでは“名詞 動詞 名詞.”、“名詞 動詞 形容詞.”または“名詞 動詞 名詞 副詞.”の語順の能動態の単文とする。)ではない下記出力文が得られる。
入力文:She spoke Japanese.∧ She spoke French.
同義的条件文:She bought both a computer and a monitor.←She[名詞] bought[動詞] a comupter[名詞].∧ She[名詞] bought[動詞] a monitor[名詞].
出力文:She spoke both Japanese and French.
ところが、同義的条件文において変項が設定されていない為に、ここまでで述べた方法では、この様な変換は実行出来ない。どの様にすれば、上記の様な変換を実現出来るだろうか。
実際には、次の図11、図12によって示す構成、方法により上記例の変換を実現出来る。
図11は、本実施の形態の概念図である。10は言語処理システム、102は逆変換手段、201は同義的条件文データベース、203は辞書、205は変項決定手段を表す。
図12は、変項が設定されていない場合の逆変換の方法を詳細に述べたものである。これによれば、事前(あるいは直前)に同義的条件文データベース201中の同義的条件文の後件のそれぞれの単語または複合語の品詞が決定されているとき、まず、変項決定手段205が辞書203を参照して入力文のそれぞれの単語または複合語の品詞を決定し、入力文と対象の同義的条件文の後件を比較する。もし対応する位置の単語または複合語の品詞がすべてお互いに同じであれば、次に、変項決定手段205が語そのものについて入力文、対象の同義的条件文を比較する。たとえば、上記入力文と上記同義的条件文の後件の語の品詞はすべてお互いに同じであるが、入力文と対象の同義的条件文の後件の語は、「She….∧She….」という部分以外は、お互いに同じではない(但し、どちらも動詞が、組合せの文どうしで共通している)。そこで、変項決定手段205が同義的条件文側の一致しない語、“bought”、“a computer”、“a monitor”をそれぞれ変項とすると、逆変換手段102は入力文側の一致しない部分“spoke”、“Japanese”、“French”をそれぞれ変項対応語とする。そこで、変項に関して設けられる所定の基準を満たすかどうかをチェックする。ここでは、その所定の基準をたとえば「変項が4個以下であること」と「同義的条件文の前件にある変項がすべてその後件にもあること」だとすると、それぞれ満たすから、それらをペア“bought”=“spoke”、“a computer”=“Japanese”、“a monitor”=“French”に出来る。最後に、逆変換手段102が、同義的条件文の前件の“変項”にそれぞれ“変項対応語”を代入すれば、上記出力文を得られる。
以上にて述べた方法は、変項の設定を必要としないので、本発明に係る言語処理システムが文章を大量に記憶しているあるいは読み込んだ場合に、その文章中に上記の様な同義的条件文または基底表現からなる条件文があれば、それをそのまま(ほかの)変換に活用出来るという意味で、有用である。また、同じ理由で、後述する学習にて得た条件文(または同義的条件文も)の活用に有用である。
ここで、「推論」を一般的な条件文を用いて行う、全体入力文から全体出力文への変換について説明する。本発明の第1の実施の形態の説明部分で説明した、基底表現のみを用いて推論を行う方法は、基底表現以外からなる条件文を用いることが出来ず、限定的な方法だといえる。実は、より一般的に、基底表現を必ずしも用いないで推論を実行することも出来る。以下では、そういうきわめて一般的な方法について簡略に説明する。
その様な推論の実現の為には、まず、基底表現からなる条件文ではない、より一般的な条件文を作成出来なければならない。より一般的な条件文を作成するには、通常の記号論理の手法に従えばよい。たとえば、条件文データベース202または同義的条件文データベース201に、「p→q」と「q→r」が登録されている時に、この2つの条件文および/または同義的条件文をまとめて、「p→r」を生成するのである(但しp、q、rはそれぞれ文を表す)。
この様に、複数の、基底表現(たとえば能動態の単文)からなる条件文、および/または同義的条件文からより一般的な条件文を導出出来る。すると、基底表現を含まない条件文も導出出来る。そこで基底表現を含まない条件文を導出して、それを用いて推論を実行した場合には、基底表現を必要とせずに推論を実現出来る。これは、基底表現レベルを経由しない一般的な推論である。
この様にして、本発明の方法でも、基底表現を必ずしも経由しないきわめて一般的な推論が可能である。
以上の様にして作成された条件文および同義的条件文は、第1〜第3の実施の形態の箇所で説明したのとまったく同様の手順で、使用出来る。よって、非常に有用である。
但し、本発明の方法では、以上の様にして作成された条件文および同義的条件文だけが使用可能である。なぜならば、基底表現からなる条件文と同義的条件文の組合せに還元され得るからである。よって、それぞれの推論について正当な論理的基礎があるといえる。従来の一般的な条件文を用いる方法と異なり、基底表現に基づいた推論では、記号論理に基づいた推論の様に、論理的基礎を明確にしながら推論を進めることが出来る。
[第4の実施の形態]以下に述べる本発明の第4の実施の形態では、入力文が(一般的な)条件文であるとき、本発明に係る言語処理システムが、文変換の手法を応用して、基底表現からなる条件文(前件と後件の両方が基底表現あるいはその組合せである条件文)を自動的に生成し、学習する。
図13は、本実施の形態の概念図である。10は言語処理システム、101は文変換手段、103は基底表現確認手段、201は同義的条件文データベース、202は条件文データベース、203は辞書を表す。
図14は、言語処理システム10による処理のフローチャートである。図14は、入力文が(初めから)条件文であるときに、前述の同義的条件文を用いた文変換を繰り返すことを表している。なお、この入力文は、一般的な条件文であり、前件および/または後件が必ずしも基底表現ではないものとする。
たとえば、いま、テキスト入力文がその様な条件文であったとしよう。
入力文:If Mercury is a planet,then Mercury moves in the orbit that Theory of Relativity predicts.
ここで見やすいように“If…,then…”を“→”で書き換えれば、次のとおりである。
入力文:Mercury is a planet.→Mercury moves in the orbit that Theory of Relativity predicts.
また、同義的条件文データベース201にある同義的条件文の1つが次のとおりであったとしよう。
同義的条件文:y[名詞] y[動詞] in y[名詞] that y[名詞] y10[動詞].→y10.∧ y in y8・
すると、言語処理システム10は、上記入力文を外部から受け取って、文変換手段101に文変換を実行させる(学習手順1’)。文変換手段101は、上記同義的条件文を用いて文変換を実行して(図4参照)、次の出力文を得る。
出力文:Mercury is a planet.→Theory of Relativity predicts the orbit.∧ Mercury moves in the orbit.
言語処理システム10は、この出力文を新たな入力文として(学習手順2’)、さらに文変換を実行しようとするが、ここでは適用可能な同義的条件文が同義的条件文データベース201にないとする。すると、基底表現確認手段103が、上記出力文について、辞書203を参照して、すべての語または複合語の品詞を下記の[ ]内のとおり決定する(学習手順3’)。基底表現確認手段203が、さらに前件と後件のそれぞれが基底表現(の組合せ)かどうかをチェックして(学習手順4’)、この場合、それぞれ基底表現(ここでは能動態の単文)またはその組合せであるので、次へ進む。
出力文:Mercury[名詞] is[動詞] aplanet[名詞].→Theory of Relativity[名詞] predicts[動詞] the orbit[名詞].∧ Mercury[名詞] moves[動詞] in[前置詞] the orbit[名詞].
最後に、基底表現確認手段203は、上記出力文を条件文データベース202に記憶させて(学習手順5’)、学習手順を終了させる。
データベースに追加された上記条件文は、第3の実施の形態で説明した逆変換とまったく同様の文変換によって、述語がマッチする入力文への適用が可能である。学習された条件文の応用が可能だから、本発明の学習の方法は単なるデータベースへの条件文の記憶とは異なり、有用である。
[第5の実施の形態]第4の実施の形態の説明では、本発明に係る言語処理システムが、もともと一般的な条件文である入力文から、前件と後件がそれぞれ基底表現である条件文を自動的に生成し、学習することを説明した。一方、以下で述べる本発明の第5の実施の形態では、本発明に係る言語処理システムがまず一般的な条件文を生成し、それから第4の実施の形態と同様、基底表現からなる条件文を生成して、学習する。
図15は、本実施の形態の概念図である。10は言語処理システム、101は文変換手段、103は基底表現確認手段、201は同義的条件文データベース、202は条件文データベース、203は辞書、206は学習用同義的条件文データベースを表す。
図16は、言語処理システム10による処理のフローチャートである。図16は、入力文が一般的な文であるときに、第一段階として、条件文そのものを後件として含む同義的条件文を用いて、条件文である出力文を生成し、第二段階として、既述の同義的条件文を用いた言い換えを繰り返すことによって基底表現からなる条件文を得る方法を示している。
第一段階として、前件および/または後件が必ずしも基底表現ではない条件文を得る為には、文変換手段101がそういう条件文そのものを後件として含む同義的条件文を用いて文変換を実行するのがよい。たとえば、いま、テキスト入力文が次のとおりであったとしよう。
入力文:Every planet moves in the orbit that Theory of Relativity predicts.
このとき、下記の様な同義的条件文が、学習用同義的条件文データベース206にあったとすれば、言語処理システム10が入力文を受け取ったときに、文変換手段101に、図4に示すとおりの方法で、文変換を実行させて(学習手順1)下記の出力文を得ることが出来る(ここでXは新たに導入する変項を表す)。なお、下記同義的条件文は、条件文そのものを後件として含む同義的条件文の一例であり、下記出力文は、それ自体が条件文である出力文の一例である。
同義的条件文:{Every y[名詞] y[動詞]in y[名詞] that y[名詞] y[動詞].}→{X is a y.→X y in y that y.}
出力文:X is a planet.→X moves in the orbit that Theory of Relativity predicts.
すると、言語処理システム10は、この出力文を新しい入力文とするから(学習手順2)、前出の同義的条件文(下記に再掲)が同義的条件文データベース201にあれば、第二段階として、文変換手段101は、文変換を実行して(学習手順3)下記の出力文を得る(第4の実施の形態の説明で述べたとおり)。
前出の同義的条件文:y[名詞] y[動詞] in y[名詞] that y[名詞] y10[動詞].→y10.∧ y in y
出力文: X is a planet.→Theory of Relativity predicts the orbil.∧ X moves in the orbit.
以下、学習手順4〜7は、それぞれ順に図14の学習手順2’〜5’と同様(第4の実施の形態の例と同様)だが、基底表現確認手段103が、この出力文の前件と後件の両方が能動態の単文(この場合の基底表現)であることを確認して、この出力文を条件文データベース202に追加すれば、その応用が可能になる(第4の実施の形態の説明で述べたとおり)ので、学習は完了である。
なお、以上では説明しなかったが、同義的条件文の学習も本実施の形態と同様にして、同義的条件文そのものを後件として含む同義的条件文を用いて原文を変換すれば、実現出来る。但し、同義的条件文の学習には、基底表現確認手段103も辞書203も不要である。文変換手段101は、同義的条件文を新たに得られたら、その前件、後件が基底表現であるか否かには関係なく、単にそれを同義的条件文データベース201に追加してよい。
データベースに追加された上記同義的条件文は、第1の実施の形態で説明した文変換によって、述語がマッチする入力文への適用が可能である。学習された同義的条件文の応用が可能だから、本発明の学習の方法は単なるデータベースへの同義的条件文の記憶とは異なり、有用である。
本発明は、情報処理などの分野において利用され得る。
第1の実施の形態及び第2以下の実施の形態に係る言語処理システムの基本構成を示すブロック図である。 第1の実施の形態の概念図である。 文変換を用いた全体入力文から全体出力文への変換手順のフローチャートである。 文変換のフローチャートである。 第1の実施の形態で用いる条件文及び同義的条件文の例を示す図である。 文変換の例における変換過程を示す図である。 第2の実施の形態の概念図である。 文変換及び逆変換を用いた全体入力文から全体出力文への変換手順のフローチャートである。 逆変換のフローチャートである。 逆変換の例における変換過程を示す図である。 第3の実施の形態の概念図である。 同義的条件文中で変項が設定されていない場合に対応する逆変換手順のフローチャートである。 第4の実施の形態の概念図である。 条件文の入力がある場合の、学習手順のフローチャートである。 第5の実施の形態の概念図である。 学習手順のフローチャートである。
符号の説明
10 言語処理システム
101 文変換手段
102 逆変換手段
103 基底表現確認手段
201 同義的条件文データベース
202 条件文データベース
203 辞書
204 形態素解析手段
205 変項決定手段
206 学習用同義的条件文データベース

Claims (8)

  1. 同義的条件文が記憶された同義的条件文記憶手段と、
    条件文が記憶された条件文記憶手段と、
    前記同義的条件文記憶手段及び前記条件文記憶手段に接続された文変換手段を備え、
    前記文変換手段は、
    テキスト入力文と対応する同義的条件文、又はテキスト入力文と対応する条件文を、前記同義的条件文記憶手段又は前記条件文記憶手段から検索抽出し、
    前記テキスト入力文の変項対応語を決定し、
    前記決定された変項対応語を、前記抽出された同義的条件文又は前記抽出された条件文の後件の変項に代入し、
    前記変項対応語が変項に代入された後件としてのテキスト文を、出力文として出力する、
    テキスト入力文を文変換して出力文を得る言語処理システム。
  2. 前記文変換手段によりテキスト入力文を文変換して出力文を得た後、前記得られた出力文を新たなテキスト入力文として、前記文変換手段による文変換を繰り返し行う、請求項1に記載の言語処理システム。
  3. 同義的条件文が記憶された同義的条件文記憶手段と、
    条件文が記憶された条件文記憶手段と、
    前記同義的条件文記憶手段及び前記件文記憶手段に接続された文変換手段と、
    前記同義的条件文記憶手段に接続された逆変換手段を備え、
    前記文変換手段は、
    テキスト入力文と対応する同義的条件文、又はテキスト入力文と対応する条件文を、前記同義的条件文記憶手段又は前記条件文記憶手段から検索抽出し、
    前記テキスト入力文の変項対応語を決定し、
    前記決定された変項対応語を、前記抽出された同義的条件文又は前記抽出された条件文の後件の変項に代入し、
    前記変項対応語が変項に代入された後件としてのテキスト文を出力し、
    前記逆変換手段は、
    前記出力されたテキスト文と対応する同義的条件文の後件を、前記同義的条件文記憶手段から検索し、
    前記出力されたテキスト文に対応する同義的条件文を前記同義的条件文記憶手段から抽出し、
    前記出力されたテキスト文の前記後件の変項に対応する変項対応語を決定し、
    前記決定された変項対応語を、前記抽出された同義的条件文の前件の変項に代入し、前記変項対応語が変項に代入された前件であるテキスト文を、前記出力されたテキスト文を逆変換した出力文として出力する、
    前記出力されたテキスト文を逆変換して出力文を得る言語処理システム。
  4. さらに単語又は複合語の品詞情報が記憶された辞書と、
    前記辞書に接続され、前記辞書を参照して単語又は複合語の品詞を決定する形態素解析手段を備え、
    前記形態素解析手段は、
    前記逆変換手段が前記出力されたテキスト文の変項対応語を決定し、
    前記決定された変項対応語の品詞を決定し、
    既に決定されて前記同義的条件文記憶手段に記憶されている前記抽出された同義的条件文の後件の変項の品詞情報と、前記変項対応語の品詞とがそれぞれ一致するかをチェックし、一致した場合に、前記決定された変項対応語を前記抽出された同義的条件文の前件の変項にそれぞれ代入する、
    請求項3に記載の言語処理システム。
  5. さらに単語又は複合語の品詞情報が記憶された辞書と、
    前記辞書に接続され、前記辞書を参照して単語又は複合語の品詞を決定する変項決定手段を備え、
    前記変項決定手段は、
    前記辞書を参照して、前記出力されたテキスト文に属する単語又は複合語の品詞を決定し、
    前記同義的条件文記憶手段に記憶されている任意の同義的条件文について、その後件に属する単語又は複合語の品詞を、前記出力されたテキスト文に属する単語又は複合語の品詞と比較し、それらが冠詞を除いてそれぞれ一致するかチェックし、
    冠詞を除いた品詞がそれぞれ一致した同義的条件文が見つかった場合に、前記同義的条件文の後件に含まれる単語又は複合語と、前記入力文の単語又は複合語とを冠詞を除いて順番に比較し、
    前記冠詞を除いた品詞がそれぞれ一致した同義的条件文の後件の中の一致しない単語又は複合語を変項として出力し、
    前記逆変換手段は、さらに、
    前記冠詞を除いた品詞がそれぞれ一致した同義的条件文を前記同義的条件文記憶手段から抽出し、
    前記後件の変項に対応する前記出力されたテキスト文の変項対応語を決定する、
    請求項3に記載の言語処理システム。
  6. 前記逆変換作業を繰り返す請求項3〜請求項5のいずれかに記載の言語処理システム。
  7. 単語又は複合語の品詞情報が記憶された辞書と、
    同義的条件文又は条件文が記憶された同義的条件文記憶手段と、
    前記同義的条件文記憶手段に接続され、テキスト入力文を文変換する文変換手段と、
    前記辞書に接続された基底表現確認手段と、を具備し、
    前記文変換手段は、
    テキスト入力文と対応する同義的条件文、又はテキスト入力文と対応する条件文を、前記同義的条件文記憶手段から検索抽出し、
    前記テキスト入力文の変項対応語を決定し、
    前記決定された変項対応語を、前記抽出された同義的条件文又は前記抽出された条件文の後件の変項に代入し、
    前記変項対応語が変項に代入された後件としての文変換されたテキスト入力文を、出力文として出力し、
    前記基底表現確認手段は、
    前記文変換手段によって文変換されたテキスト入力文に含まれる単語又は複合語の品詞を、前記辞書を参照して決定し、
    前記文変換手段によって文変換されたテキスト入力文の前件及び後件が基底表現であるか否かを確認する、
    基底表現の条件文を自動生成する言語処理システム。
  8. さらに条件文を後件として含む同義的条件文を記憶する学習用同義的条件文記憶手段を備え、
    前記文変換手段は、さらに前記学習用同義的条件文記憶手段に接続され、
    前記文変換手段は、
    前記同義的条件文記憶手段に記憶された同義的条件文の替わりに、前記学習用同義的条件文記憶手段に記憶された前記条件文を後件として含む同義的条件文を用いた文変換により、テキスト入力文を文変換することにより条件文を抽出し、
    前記抽出された条件文を新しい入力文として、前記同義的条件文記憶手段を用いた文変換を行う請求項7に記載の言語処理システム。
JP2007159512A 2007-05-22 2007-05-22 言語処理システムおよびプログラム Pending JP2008293457A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007159512A JP2008293457A (ja) 2007-05-22 2007-05-22 言語処理システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007159512A JP2008293457A (ja) 2007-05-22 2007-05-22 言語処理システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2008293457A true JP2008293457A (ja) 2008-12-04

Family

ID=40168082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007159512A Pending JP2008293457A (ja) 2007-05-22 2007-05-22 言語処理システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2008293457A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序
CN108140019B (zh) * 2015-10-09 2021-05-11 三菱电机株式会社 语言模型生成装置、语言模型生成方法以及记录介质

Similar Documents

Publication Publication Date Title
Blackburn et al. Inference and computational semantics
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2002312357A (ja) 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
US20210271810A1 (en) Proficiency and native language-adapted grammatical error correction
US4833611A (en) Machine translation system
CN112214608A (zh) 基于知识推理的文本生成方法、介质、装置和计算设备
US11501055B2 (en) Mathematical and scientific expression editor for computer systems
CN112699675B (zh) 文本处理方法、装置、设备及计算机可读存储介质
US20100218200A1 (en) Method for programmatic editing of text files
JP2008293457A (ja) 言語処理システムおよびプログラム
KR101497411B1 (ko) 문체 변환 장치, 문체 변환 방법, 저장 매체, 자동 대화 서비스 시스템 및 방법
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
JPH03222065A (ja) 機械翻訳装置
JP2008282371A (ja) 言語処理システムおよびプログラム
CN113761945A (zh) 基于翻译的自动输入方法、装置、设备及计算机存储介质
JP2010170162A (ja) 言語処理システムおよびプログラム
JPS61260366A (ja) 学習機能付機械翻訳システム
JPH08190562A (ja) 機械翻訳装置
EP4318300A1 (en) Natural language processing system and method using synapper model unit
US20230196011A1 (en) Data Augmentation and Adaptive Curriculum Learning for Sentence-level Relation Extraction
JPS6180359A (ja) 翻訳装置
Berment et al. Heloise—A reengineering of Ariane-G5 SLLPs for application to π-languages
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JPS63136265A (ja) 機械翻訳装置
JPH01112368A (ja) 機械翻訳装置