JP2012520527A

JP2012520527A - ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法

Info

Publication number: JP2012520527A
Application number: JP2011554249A
Authority: JP
Inventors: ジェイムズトッドハンター; イゴールソーペル; ジアニスパスタノハウ
Original assignee: インベンションマシーンコーポレーション
Priority date: 2009-03-13
Filing date: 2010-03-12
Publication date: 2012-09-06
Also published as: US8666730B2; CN102439590A; EP2406738A2; JP2012520528A; KR20120009446A; CN102439595A; KR20110134909A; EP2406731A4; US8583422B2; WO2010105214A3; EP2406731A2; WO2010105216A3; US20100235165A1; EP2406738A4; US20100235164A1; WO2010105216A2; WO2010105214A2

Abstract

ユーザにより自然言語で表現された質問に対する的確な答えを電子的又はデジタルの形態で提供されるテキスト文書群の中からサーチするための質問応答システムは、テキスト文書群とユーザの質問の自動意味ラベリングに基づいている。このシステムは、基礎的知識タイプ、それらの構成要素及び属性に関するマーカー、ターゲットについての所定の分類辞からの質問タイプに関するマーカー、及びあり得る答えの構成要素に関するマーカーの助けにより意味ラベリングを実行する。照合処理では、意味ラベルの対応を利用して、質問に対する的確な答えを求め、ユーザに対してそれら答えを文の断片又は新たに合成された自然言語の句の形で提示する。ユーザは、独立的に、システムの分類器に新たなタイプの質問を追加し、システムの言語知識ベースのために必要な言語パターンを生成することができる。

Description

本発明は、「ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法」("Question-Answering System And Method Based On Semantic Labeling Of Text Documents And User Questions")と題される２００９年３月１３日に出願された米国仮出願第６１／１５９，９５９号、及び「自然言語テキストの自動的意味ラベリングのためのシステム及び方法」("System And Method For Automatic Semantic Labeling Of Natural Language Texts")と題される２００９年３月１３日に出願された米国仮出願第６１／１５９，９７２号に対する優先権を主張し、それら出願の各々を全体として参照のためにこの明細書に組み込む。

本出願は、優先権は主張していないものの、「コンピュータを用いた自然言語文書の要約処理」（"Computer based summarization of natural language documents"）と題されるバチロら（Batchilo et al.）に対する２００７年７月３１日に発行された米国特許第７，２５１，７８１号、「言語間の知識検索のためのシステム及び方法」（"System And Method for Cross-Language Knowledge Searching"）と題されるトッドハンターら（Todhunter et al.）に対して２０１０年３月２日に発行された米国特許第７，６７２，８３１号、「意味的応答システム及び方法」（"Semantic Answering System and Method"）と題される、２００１年１１月１６日に出願された米国特許出願第０９／９９１，０７９号（米国特許出願公開第２００２０１１６１７６号として公開）に関連しており、それら各々を全体として参照のためにこの明細書に組み込む。

この出願は、ユーザが自然言語で表現した質問に対して、テキスト文書データベースの中から回答を取り出すためのサーチを実行する、コンピュータを用いた質問応答システムに関する。

以下の米国特許文書は、本出願に関連する分野の説明を提供する。ダールグレンら（Dahlgren et al.）に対して１９９８年８月に発行された米国特許第５，７９４，０５０号、ブレイデン-ハーダーら（Braden-Harder et al.）に対して１９９９年８月に発行された米国特許第５，９３３，８２２号、ヘイドーンら（Heidorn et al.）に対して１９９９年１０月に発行された米国特許第５，９６６，６８６号、メサーリーら（Messerly et al.）に対して２００１年６月に発行された米国特許第６，２４６，９７７号、パイクら（Paik et al.）に対して２００１年６月に発行された米国特許第６，２６３，３３５号。

コンピュータを用いた情報検索システムの分野には、自然言語（ＮＬ：natural language）で表現された異なる複数の種類の質問に対する回答を引き出すための情報システムとみなされる、いくつかの種類の質問応答（Ｑ−Ａ）システムが存在する。回答は、様々なソース（情報源）（例えばテキスト文書、百科事典、データベース等）から求められる。

そのようなクエリが来た場合、従来のシステムは、例えば特別の解析を用いるなどの形式的方法で回答を提示しようとする。そのような試みはＮＬ（自然言語）理解システムと呼ばれる。提示の最初の形態は、キーワードの列、すなわち複数のキーワード、特定の単位等から構成されるブール論理式であった。この場合、回答の検索は、つまるところ、テキスト又はその断片内において、理想的にはその質問のすべてのキーワードをいくつかの予め定められた形態のうちの一つの形態で含んだ文をサーチすることであった。例えば、"What is the color of octopus blood?"（「タコの血の色は何色か？」）という質問に対する回答は、"color"（「色」）、 "blood" （「血」）、及び "octopus"（「タコ」）についてのキーワードサーチを、"the color of octopus blood is …"（「タコの血の色は…」）、 "blood of octopus has … color"（「タコの血は、…色を持つ」）等といったパターンの助けを受けつつ実行した結果から求めることができた。しかしながら、この方法は、そのような質問に対する答えが、"The octopus blood is blue."（「タコの血は青い。」）という文（この文は使用可能なすべての情報源に存在する唯一の回答かも知れない）に表現されているかもしれないことを考慮に入れていなかった。従来のシステムでは、この文内にキーワード"color"（「色」）がないことにより、元のクエリに対する答えは、この文からは得られなかった。

一般的には、従来のキーワードサーチは、大量の情報と無制約の自然言語によるユーザクエリを取り扱う場合には、大変非効率になる。例えば、前述の例では、単語"color"（「色」）を除くことにより、返ってくる回答は管理できないほど膨大な量となる一方、単語"color"（「色」）を含めることにより極めて有益な回答が無視されてしまうことになりかねなかった。

そのようなシステムの欠点のため、更なる研究が行われてきた。コンピュータ技術は進歩してきた。コンピュータ技術は、入手できる情報の前処理や、ユーザの要求／テキスト文書についての品詞タグ付与、構文解析、意味解析等の言語的手段（これによりユーザの要求／テキスト文書の、より正確な形式的表現が得られる）を用いた解析に取り組んできた。以下に示すのは、このようなシステムに関連する特許の概要である。

ダールグレンらに対する米国特許第５，７９４，０５０号には、ＮＬ（自然言語）理解モジュールを用いることが記載されている。そのモジュールは、素朴意味語彙目録（naive semantic lexicon）、及び、名詞及び動詞句認識を含み、ＮＬ入力を受け取り、第１階論理（ＦＯＬ：first order logic）の出力を生成する。

ブレイデン-ハーダーらに対する米国特許第５，９３３，８２２号及びヘイドーンらに対する米国特許第５，９６６，６８６号には、ユーザの要求を論理形式グラフ（ＬＦＧ: logical form graph）に変換することが記載されている。ＬＦＧは、論理形式の三つ組（トリプル：triple）の集合である。それらの特許は、一つの句の中の重要な単語（すなわち深層主語、深層目的語など）同士の間の意味関係を求めるものとされているが、実際には、これらＬＦＧ法は、文法上の主語、目的語等の間の意味関係を求めるものに過ぎず、「深層」の主語や「深層」の目的語等の意味関係を求めるものではない。

これらの方法に関しては、一般に、ＮＬ処理システムに新たな意味ルールを追加することはますます困難になってきていることに注意すべきである。新たなルールを追加することは、新たな処理手順上のロジックにつながり、これは意味サブシステム内に既にプログラム済みのロジックと矛盾するかも知れない。ＬＦＧ及びＦＯＬのサイズ及び複雑さにより、それらを用いることはかなり困難であり、多くの問題を解決するには不十分である。それにもかかわらず、人間の振る舞いをモデル化し、テキスト文書群の中からクエリに対する回答をサーチするアルゴリズムと組み合わされたユーザ要求／テキスト文書の先進的な言語解析は、効率的なＱ−Ａシステムを構築するのに有望な手段であることが明らかになってきた。

言語解析の深さに関しては、その種の開発済みのシステムは、一般には、概念化の二項関係のみを用いる。

このような方法では、メサーリーらに対する米国特許第６，２４６，９７７号には、論理形式「深層主語−動詞−深層目的語」（"deep subject-verb-deep object"）の形式でテキストの意味解析を実行することが記載されているが、上述の論理形式は純粋に文法的な概念である。「深層主語」と「深層目的語」はそれぞれ「名詞」でしかなく、「動詞」は「本動詞」（"principle verb"）にすぎない。このように、深層主語、深層目的語等の判定及び解析は、この特許には本当のところでは説明されているとはいえない。

パイクらに対する米国特許第６，２６３，３５５号には、ドメイン非依存であり、自分自身の主語（主題）知識ベースを自動的に構築する情報抽出システムが説明されている。この知識ベースの基礎は、概念−関係−概念のトリプル（三つ組）（ＣＲＣ）から構成されており、ＣＲＣにおいて最初の概念は一般には固有名詞である。これは、単一の概念に関連づけられている単項関係と概念とのペアを組み合わせる二項関係の認識に依拠する、かなり単純化され厳格に規定された深層意味解析の一例である。システムは、事前に品詞タグを付され統語論的に構文解析されたテキストから、特殊な概念種類といくつかの前置詞、句読点、又は特殊なフレーズなどの言語的な手がかりとを探すことにより、意味関係を抽出する。

もちろん、意味ラベリングの処理は、この例では、ＣＲＣ関係の枠組みによって制限される。例えば、因果関係の認識は、ある種の動詞と共に現れる目的語についてのみ実行することができる。そのような認識にはしばしばより広い文脈が必要となるが、一般的なケースでは、それは、いわゆる事実という、テキスト内で自動認識された意味構成要素の集合に基づいているべきであることがわかる。例えば、そのような事実の構成要素群のうちの１つは、単なる「動詞」とは対照的に、「アクション（行為・動作）」の意味概念である。課されたＣＲＣ関係の枠組みに内在する制約を考慮すると、このケースでの意味ラベリングには、非常に多大な労力を要する、多数のパターンの作成が必要である。最終的には、そのような意味ラベリングは、実際にはテキストの話題（トピックス）内容のみを取り扱うものであって、テキストの論理的な内容を考慮に入れていない。このように、そのような言語解析に基づくＱ−Ａシステムは、いわゆる擬似事実（factoid）タイプの質問に回答することができるのみである。まとめると、このことは、個人ユーザの現実世界での実務におけるそのようなシステムの利用に深刻な制限をもたらす。

米国特許出願公開第２００８０３１９７３５号明細書米国特許出願公開第２００８０２９４６３７号明細書米国特許出願公開第２００２０１６９５９８号明細書米国特許出願公開第２００４０００１０９９号明細書

GIRJU, ET AL, "Automatic Discovery of Part-Whole Relations", Association for Computational Linguistics, 2006年3月, 83-135頁, Vol. 32, No.1, MIT Press, アメリカ合衆国マサチューセッツ州ケンブリッジ Davidov, et al."Classification of Semantic Relationships between Nominals Using Pattern Clusters" In:Proc of ACL-08:HTL, アメリカ合衆国オハイオ州コロンバス, 227-235頁, 2008年６月３０日

本発明のいくつかの側面では、ユーザにより自然言語で提示された話題内容及び論理内容に関する異なる性質の質問群に対して、テキスト文書群から答えを自動抽出するための質問応答システム及び方法が提供される。それはセマンティックプロセッサ（Semantic Processor）に基づくものであり、このセマンティックプロセッサは、テキスト文書群の事前フォーマット処理（プレフォーマット：preformatting）、テキスト文書群／ユーザクエリの基礎言語解析（例えば語彙的、品詞的、統語（構文）的、意味的な解析）、及び、基礎知識種類（例えば、外側の世界／知識ドメイン（領域）の規則性を因果関係の形で反映したルール群、事実群、及びオブジェクト／オブジェクトのクラス）の用語（例えば、マーカー）、それらの構成要素及び属性を用いたそれら文書／クエリの意味ラベリング、を実行する。同時に、そのシステム及び方法は、（テキスト文書についての）あり得る回答及び質問種類の構成要素のあらかじめ定められた分類辞を用いて、いわゆるターゲット（目標）語について、質問種類の用語による意味ラベリング（このように、それは人間の振る舞いをモデル化する）を実行することができる。

照合処理では、上述した種類の意味ラベルを利用し、入力された質問に対する的確な答えが見つけられるようにし、それら答えを文、文の断片、又は新たに合成した自然言語のフレーズ（句）などの形でユーザに提示する。従来の情報検索システムと比較した場合、本照合処理の重点は、テキスト文書群のターゲット意味ラベリング（target semantic labeling）に移っている。このとき、テキスト文書／ユーザクエリの上記意味解析の深さにより、答えの意味的コンテキスト（文脈）を正確に定めることができ、テキスト文書／ユーザクエリの意味ラベリングのために必要な言語パターン群の作成のための効率的な技術が提供される。彼／彼女の情報の必要性、及びテキスト文書群内でのその表現の言語的手段を解析して、ユーザは、独自に、システム分類辞に対して新たな種類の質問を追加することができ、更に、特定の技術に従い、要求された言語パターンを作成することができる。

本発明の一つの側面では、テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答方法が提供される。この方法では、少なくとも一つの一時的でない記憶媒体に接続された少なくとも一つのコンピュータプロセッサを設けるステップを含む。当該少なくとも一つのコンピュータプロセッサは、その方法を実行する。この方法は、自然言語のテキスト文書群を電子的に受け取るステップと、自然言語で表現されたユーザの質問を電子的に受け取るステップと、前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベリング（意味ラベル付与）済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成し、合成した答えを前記ユーザに電子的に提示するステップと、を含む。

この方法は、更に、前記テキスト文書群及び前記ユーザの質問に対して品詞タグを付与することによりタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、タグ付与済みのテキスト文書群及びユーザの質問を構文解析することにより、構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を意味解析することにより、意味解析済み且つ構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、を含んでいてもよい。

品詞タグを付与するステップは、非自然言語のシンボルが除去されたテキストを含む事前フォーマット（プレフォーマット）済みのテキストに対して実行されるようにしてもよい。

意味解析は、前記テキスト文集群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語（ｅＳＡＯ：expanded Subject-Action-Object）セットの形態の、一以上の事実を認識するステップであって、各ｅＳＡＯセットは一以上のｅＳＡＯ構成要素を含むところのステップと、前記前記テキスト文集群及び前記ユーザの質問の中から、外側の世界／知識ドメインの規則性を反映するルール群を前記ｅＳＡＯセット群における複数の因果関係の形式で認識するステップであって、前記複数の因果関係の各々は、原因ｅＳＡＯと結果ｅＳＡＯを含むところのステップと、を含んでいてもよい。

前記少なくとも一つのｅＳＡＯ構成要素は、主語、目的語、アクション（行為）、形容詞、前置詞、間接目的語、及び副詞からなるグループの中から選ばれた一以上の要素に関係するテキストを含んでいてもよい。

原因ｅＳＡＯは、前記一以上のｅＳＡＯセットのうちの一以上のｅＳＡＯ構成要素を含んでいてもよく、結果ｅＳＡＯは、前記一以上のｅＳＡＯセットのうちの一以上の他のｅＳＡＯ構成要素を含んでいてもよい。

前記因果関係は、前記原因ｅＳＡＯの前記ｅＳＡＯ構成要素を前記結果ｅＳＡＯの前記他のｅＳＡＯ構成要素に対して語彙的、文法的、及び／又は意味的言語手段により関係づける順次演算子（sequential operator）を含んでいてもよい。

前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語（ｅＳＡＯ）セットを認識する処理では、前記テキスト文書群及び前記ユーザの質問の一以上の文の中の一以上の主語、目的語、アクション（行為）、形容詞、前置詞、間接目的語、及び副詞を認識してもよい。

前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語（ｅＳＡＯ）セット及び複数の因果関係を認識する処理では、ｅＳＡＯ及び原因-結果（因果）の構成要素を規定する複数のパターンを含むデータベースを有する言語知識ベースにアクセスしてもよい。

前記意味解析されたテキスト文書群の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類（question classification）に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合する処理に基づいていてもよい。その方法は、前記テキスト文書群の中のテキストについて、品詞タグ、統語タグ、及び意味ラベル及びｅＳＡＯセット及び因果（原因-結果）セットを求めるステップ、ｅＳＡＯラベル及び因果（原因-結果）ラベルを生成するステップ、及び前記ｅＳＡＯラベル及び前記因果ラベルを、ターゲット語についての答え要素及び質問種類の意味ラベルと照合するステップ、を含んでいてもよい。

前記意味解析されたユーザの質問の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類に基づく言語パターン群に対して前記意味解析済みのユーザの質問を照合する処理に基づいていてもよい。その方法は、前記ユーザの質問の中の単語群の品詞タグ、統語タグ、及び意味ラベルを求めるステップ、前記ユーザの質問の単語群からｅＳＡＯラベル及び因果ラベルを生成するステップ、及び前記ｅＳＡＯラベル及び前記因果ラベルを、ターゲット語についての質問種類の意味ラベルと照合するステップ、を含んでいてもよい。

前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済み（意味ラベリング済み）のユーザの質問に関連を持つテキスト断片群をサーチするステップは、前記ラベル付与済みテキスト文書データベースからの文に対して、前記意味ラベル付与済みのユーザの質問を照合する処理に基づいていてもよい。これは、単語群と意味ラベル群を照合する処理、及び前記ユーザの質問に関連を持つ文と関連の程度の指標のリストを構築する処理、を含んでいてもよい。

この方法は、オプションとして、前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの文を、各文からの意味情報を前記ユーザの質問からの意味情報と照合するためのあらかじめ定められた基準に従って求められる、ユーザの質問に対する各文の関連の程度に基づきランク付けする処理を含んでいてもよい。

前記答えを合成するステップでは、関連する複数の文からユーザの質問に対する自然言語の答えを合成する処理が、テキスト文書群の意味ラベリングの段階での答えの構成要素のラベルで印を付けられた関連する複数の文の元の断片群の形で、及びｅＳＡＯ形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語のフレーズ（句）の形で、実行されてもよい。

本発明の別の側面では、テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答のための方法を実行する、コンピュータが実行可能な命令群が格納されたコンピュータ読み取り可能な媒体を含んだコンピュータプログラム製品が提供される。この方法は、自然言語のテキスト文書群を電子的に受け取るステップと、自然言語で表現されたユーザの質問を電子的に受け取るステップと、前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベル付与（意味ラベリング）済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、前記関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成するステップと、を含む。

この方法は、更に、前記ユーザに対して前記答えを電子的に提示するステップを含んでもよい。

本発明の他の側面では、自然言語で表現された電子的又はデジタル的形式のテキスト文書群及びユーザの質問の自動意味ラベリングを用いる質問応答システムが提供される。このシステムは、言語知識ベースと、言語解析されたテキスト文書群及びユーザの質問を生成する言語解析部とを備える。前記言語解析部は、意味解析部を備え、この意味解析部は、拡張主語−アクション−目的語（ｅＳＡＯ）認識部及び原因-結果認識部を備え、前記テキスト文書群及び前記ユーザの質問に基づいて、一以上のｅＳＡＯセットの形の一以上の事実を認識し、意味解析されたテキスト文書群を生成する。ここで、ｅＳＡＯ及び原因-結果（因果）の認識は、前記言語知識ベースに記憶されたパターン群に基づく。

前記言語解析部は、更に、電子的又はデジタル的形式の前記テキスト文書群に基づいた事前フォーマット済みのテキスト文書群及び前記ユーザの質問を受け取る品詞タグ付与部と、前記品詞タグ付与部によりタグが付与された前記テキスト文書及びユーザの質問を受け取り、構文解析済みのテキスト文書群及びユーザの質問を前記意味解析部に提供する構文解析部と、を備えていてもよい。前記タグ付与部及び前記構文解析部は、前記言語知識ベースに記憶されたデータを用いて処理を行ってもよい。

前記質問応答システムは、更に、電子的又はデジタル的形式の前記テキスト文書群を受け取って事前フォーマット済みのテキスト文書群を生成する事前フォーマット部と、前記言語知識ベースに記憶された質問分類に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合し、前記意味解析済みのテキスト文書群と前記照合とに基づいて意味関係ラベルを生成し、意味ラベル付与済みのテキスト文書群がラベル付与済みテキスト文書データベースに格納されるようにするテキスト文書ラベル付与部と、前記言語知識ベースに記憶された質問分類ベースの言語パターン群に対して前記意味解析済みのユーザの質問を照合し、前記意味解析済みのユーザの質問と前記照合とに基づいて意味関係ラベルを生成する質問ラベル付与部と、前記意味ラベル付与済みのユーザの質問をラベル付与済みテキスト文書データベースからの文と照合するサーチ部であって、単語群及び意味ラベル群を照合し、関連の程度の指標を有する前記ユーザの質問に関連を持つ文のリストを構築するサーチ部と、前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの各文をユーザの質問に対する各文の関連の程度に従ってソートする答えランク付け部と、前記関連を持つ文から前記ユーザに対する自然言語の答えを生成し、それら答えを前記ユーザに電子的に提示するテキスト合成部と、を含んでいてもよい。

前記事前フォーマット部は、以下に示す機能のうちの少なくとも一つを実行するように構成されていてもよい。前記テキスト文書群のデジタル的又は電子的表現の中から自然言語テキストの部分を構成しないシンボルを除去する機能、テキスト文書群内の食い違い及び誤りを検出及び修正する機能、そのテキストを文及び単語の構造へ分割する機能。

前記テキスト文書ラベル付与部は、単語、品詞タグ、統語タグ、ｅＳＡＯ及び因果セットを照合することにより、前記意味解析済みのテキスト文書群を言語パターンと照合するように構成してもよい。

前記テキスト文書ラベル付与部は、ｅＳＡＯ及び因果（原因-結果）ラベルを生成することにより、及び、ターゲット語についての答え構成要素と質問種類の意味ラベルの照合に基づいて、意味関係ラベルを生成するように構成してもよい。

前記質問ラベル付与部は、単語、品詞タグ、統語タグ、質問語のラベル、ｅＳＡＯ及び因果セットを照合することにより、前記意味解析済みのユーザの質問を言語パターンと照合するように構成してもよい。

前記質問ラベル付与部は、ｅＳＡＯ及び因果ラベルを生成することにより、ターゲット語についての質問種類の意味ラベルの照合に基づき、意味関係ラベルを生成するように構成してもよい。

前記テキスト合成部は、関連する複数の文の元の断片群の形で、及びｅＳＡＯ形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語のフレーズ（句）の形で、答えを生成することにより、前記ユーザの質問に対する自然言語の答えを生成するように構成してもよい。

前記意味解析部は、前記ｅＳＡＯセットから因果関係を生成するように構成されてもよく、ここで、前記因果関係の各々は、原因ｅＳＡＯ、結果ｅＳＡＯ、及び前記原因ｅＳＡＯを前記結果ｅＳＡＯに関連づける少なくとも一つの順次演算子を含む。

前記各ｅＳＡＯセットは、ｅＳＡＯ構成要素を含んでいてもよく、ここで前記原因ｅＳＡＯは一以上のｅＳＡＯ構成要素を含み、前記結果ｅＳＡＯは前記原因ｅＳＡＯの前記一以上のｅＳＡＯ構成要素以外の一以上のｅＳＡＯ構成要素を含む。

前記一以上のｅＳＡＯ構成要素は、主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞からなるグループの一以上の要素を含んでいてもよい。

図面は、好適な実施の形態を例示のために図示するものであって、限定的なものではない。それら図面において、類似の符号は同一又は類似の要素を指し示す。それら図面は、必ずしも寸法に合ったものである必要はなく、その代わりに本発明の例示した側面を強調する。
本発明のいくつかの側面に従って、質問応答システムを構成するための、一以上のコンピュータ内に実装可能な、一組の機能モジュール又はプロセッサの実施形態の高レベルアーキテクチャの図である。本発明のいくつかの側面に従って、言語解析部を構成するための、一以上のコンピュータ内に実装可能な、一組の機能モジュール又はプロセッサの実施形態の高レベルアーキテクチャの図である。本発明のいくつかの側面に従って、意味解析部を構成するための、一以上のコンピュータ内に実装可能な、一組の機能モジュール又はプロセッサの実施形態の高レベルアーキテクチャの図である。本発明に従う具体的すなわち特定の文についてのｅＳＡＯ認識部の出力の例を示す図である。本発明に従う別の具体的すなわち特定の文についてのＣ−Ｅ認識部の出力の例を示す図である。本発明に従って、２つの具体的すなわち特定の文の例と、それらについての言語解析の結果と、記載された言語パターンに基づいて求められたそれらの形式的表現と、を例示する図である。本発明に従って、２つの具体的すなわち特定の文の例と、それらについての言語解析の結果と、記載された言語パターンに基づいて求められたそれらの形式的表現と、を例示する図である。本発明のいくつかの側面に従って、適切に構成されると、この明細書に記載される一以上の機能又は方法を実行するのに用いることができるコンピュータ実装例のアーキテクチャーの図である。本発明が実装され得る、コンピュータ装置群のネットワークの例を示す図である。

以下では、本発明のいくつかの側面が、添付の図面を参照しつつ、それら側面の例示のための実施の形態を説明することにより記述される。それら実施形態を説明するに当たっては、周知の項目や機能、構成などの詳細な説明は典型的には簡潔さのために省略する。

了解されるように、「第１の」、「第２の」等の用語は、この明細書では、様々な要素を記述するために用いられ、それら要素はそれら用語により限定されるべきではない。これらの用語は、ある要素を別の要素から区別するのに用いられるものであり、複数の要素の間に要求される順序を示すものではない。本発明の範囲から逸脱することなく、例えば、第１の要素を第２の要素と呼んでもよいし、同様に、第２の要素を第１の要素と呼んでもよい。この明細書内で用いるように、「及び／又は」という用語は、対応するリスト内の複数の項目の一以上のものについての、いかなる組合せ、すべての組合せを含んでいる。

了解されるように、ある要素が他の要素に「接して」、「接続されて」、又は「結合されて」いると表現される場合、その要素は当該他の要素に直接に接して、又は接続されて、又は結合されていてもよいし、間に介在する要素が存在していてもよい。これに対し、ある要素が他の要素に対して「直接接して」、「直接接続されて」、又は「直接結合されて」いると表現される場合、間に介在する要素は存在しない。要素間の関係を記述するのに用いられる他の語句も、同様の方式で解釈されるべきである（例えば、「（二者の）間に」と「（二者の）直接の間に」との関係、「隣り合う」と「直接隣り合う」との関係など）。

この明細書で用いられる用語は、特定の実施形態を説明する目的のためのものであって、本発明を限定することを意図したものではない。この明細書で用いられるように、単数形の記載（「ａ」、「ａｎ」、及び「ｔｈｅ」）は、文脈上明らかにそうでない限り、複数形をも含むことを意図している。更に了解されるように、「含む」、「含んでいる」、「包含する」、及び／又は「包含している」という用語は、この明細書で使用される場合、記載された特徴、ステップ、処理、要素、及び／又は構成要素が存在することを示すものであって、一以上の他の特徴、ステップ、処理、要素、構成要素、及び／又はそれら特徴等のグループが存在すること又はそれらを付加することを排除するものではない。

本発明の実施の形態は、テキストデータベースにおける何らかの自然言語（ＮＬ）で表現されたユーザクエリのサーチを実行し、そのクエリに関連を持つ、すなわちその質問に対する的確な答えを含んだ文書の断片（例えば、文又はその一部）だけでなく、質問に向いた冗長性が最小限の新たなＮＬフレーズ（自然言語の句）の形で合成された答えも検索する、質問応答システムに関する。このシステムは、厳密にではないが、あらかじめ定められたそのような質問種類の集合からの質問に対する答えの検索を指向したものである。質問の分類は、当該Ｑ−Ａシステム内で最も頻繁な質問についての既知のデータに基づくと共に、外側の世界／主語ドメイン（実際のところ、テキスト文書群はそのような種類の知識を表現する手段として機能する）についての三つのよく知られた主たる種類の知識に基づいている。このような種類の知識は、テキストＤＢのインデキシング（インデックス付け）／ラベリング（ラベル付け）の段階で認識されると共に、とりわけ、答えの意味的なコンテキスト（文脈）を制約することを可能にする。ユーザには、自分にとっての関心を表現するあらたな質問種類を生成して、言及した質問の集合に含めるための機構が提供される。

このシステムは、例えばユーザから、受け取った質問と、データベース（ＤＢ）内のテキスト文書群と、の言語解析を実行し、前記主たる種類の知識とその構成要素の観点からそれら質問及び文書群の意味ラベリングを実行する。同時に、このシステムは、質問種類と、あり得る答えの構成要素、の観点から、いわゆる「ターゲット語彙単位」（"target lexical units."）について、テキストのラベリングを実行する（テキスト文書群の場合）。このシステムは人間の振る舞いに対応するテキストラベリングモデルを用いる。この場合、照合手順では、言及された種類の意味ラベルを用い、提出された質問に対する的確な答えが見つけられるようにする。必要ならば、その答えは、認識した種類の知識とその構成要素の意味ラベルに基づいて、新たなＮＬ（自然言語）フレーズの形で合成してもよい。

本発明のいくつかの側面では、自動意味ラベリングに基づいた質問応答システムの実施形態（この明細書ではＱ−Ａシステム１５０又はシステム１６０と呼ぶ）は、図１の例示的な実施形態を参照することで理解される。Ｑ−Ａシステム１５０は、受け取ったユーザの質問７０を処理し、その質問に対する答えを、ラベル付与済みテキスト文書データベース５０に記憶されている既に処理済みのテキスト文書群の中からサーチし、それら答えを答え１３０の形でユーザに適用する。答えは、テキスト文書群からの元（オリジナル）のフレーズを含み、要求されるならば、それらフレーズに基づいて合成されたＮＬ（自然言語）フレーズを含む。この実施形態では、Ｑ−Ａシステム１５０は、（元のテキスト文書群を事前フォーマットする）事前フォーマット部２０と、（事前フォーマット済みのテキストの言語解析のための）言語解析部３０と、（テキスト文書分のサーチインデックスを構築し、ラベル付与済みテキスト文書データベース５０を生成する）テキスト文書ラベル付与部と、（ユーザの質問の言語解析のための）言語解析部８０と、（その質問のサーチインデックスを構築する）質問ラベル付与部９０と、（ラベル付与済みテキスト文書データベースからのその質問に対する答えのサーチを実行する）サーチ部１００と、（ユーザの質問７０に対してＱ−Ａシステム１５０により検索された複数の答えを、例えば関連性に基づいて、ランク付けする）答えランク付け部１１０と、（ユーザの質問７０に対する答えをテキスト文書群の元の断片群の形、及び合成されたＮＬフレーズの形で生成する）テキスト合成部１２０とを含む。

Ｑ−Ａシステム１５０の各モジュールの機能は、少なくとも一つのプロセッサにより実行可能な言語知識ベース６０内に保持されるコンピュータプログラムコードとして具現化されていてもよい。この代わりに、又はこれに加えて、この意味処理機能は、ハードウエア、ファームウエア、又はこれらの組合せとして具現化してもよく、このことはこの明細書に記載する他の機能モジュール又はプロセッサでも成り立つ。言語知識ベース６０は、辞書、分類辞（classifiers）、統計データ等の様々なデータベースと、テキストから単語への分割、名詞及び動詞の句、主語、目的語、アクション及びそれらの属性の認識、因果関係の認識等に用いられる言語モデル又は言語パターンを認識するデータベースと、を含んでいてもよい。事前フォーマット部２０により実行されるテキスト事前フォーマット処理は、この実施形態では、好適には、米国特許第７，２５１，７８１号に記載される技術に従って実行される。好適には、テキストの事前フォーマット処理にて、句読点などの非自然言語のシンボルを除去する。

図２には、言語解析部３０を構成し得るモジュール群の実施形態が示されている。言語解析部３０は、事前フォーマット部２０からの事前フォーマット済みテキスト１２を処理して意味解析済みテキスト１６を生成する。事前フォーマット済みテキスト１２は、品詞タグ付与部３２により受け取られ、品詞タグ付与部３２は、事前フォーマット済みテキスト１２に対して、品詞タグ群を求めて付与する。次に構文解析部３４は、意味解析部３００による処理のために、ＰＯＳ（品詞）タグ付与済みテキストを構文解析する。品詞タグ付与部３２及び構文解析部３４により実行される機能は、この実施形態では、好適には、米国特許第７，２５１，７８１号に記載された技術に従って実行される。

図３には、意味解析部３００を構成し得るモジュール群の実施形態が示されている。意味解析部３００は、構文解析済みテキスト１４を受け取り、意味解析済みのテキスト１６を生成する。意味解析部３００は、拡張主語−アクション−目的語（ｅＳＡＯ）意味関係（又は関係性）認識を実行し、ｅＳＡＯセットの形のｅＳＡＯ群を見つけるｅＳＡＯ認識部３１０と、ｅＳＡＯ内又はｅＳＡＯ間での原因-結果（因果）意味関係（又は関係性）認識を実行するＣ−Ｅ認識部３２０とを有する。ｅＳＡＯタイプの意味関係とは、主語（Ｓ）-アクション（Ａ）-目的語（Ｏ）のタイプの関係であり、それら各構成要素についての前置詞、間接目的語、形容詞、副詞相当語句などの属性を含む。

図４Ａには、次の文についてｅＳＡＯ認識部３１０により実行されるｅＳＡＯタイプの意味関係の認識の例を示す。
"The maximum value of x is dependent of the ionic radius of the lanthanide element"（「ｘの最大値は、ランタニド元素のイオン半径に依存する」）

一般に、主語、目的、及び間接目的語は内部構造（すなわちその構成要素自身とその属性）を有しており、それらは意味関係、すなわちパラメータ、全体-部分等に対応する。ｅＳＡＯ関係の認識は、この実施形態では、好適には、米国特許第７，２５１，７８１号に記載された技術に従って実行される。

この実施形態に従って因果関係を求める処理は、原因としての一以上のｅＳＡＯ（完全であるにせよ不完全であるにせよ）を、結果としての一以上のｅＳＡＯ（これも完全であるにせよ不完全であるにせよ）とペアにする処理を含んでいる。単一のｅＳＡＯが原因ｅＳＡＯ及び結果ｅＳＡＯの両方を生み出すことができることに留意されたい。また、知識工学及び自然言語の特殊性の観点から見れば、因果関係は個々のｅＳＡＯから見出すことができる。

Ｃ−Ｅ認識部３２０は、言語知識データベース６０からの言語パターンを用いて、テキスト内の、単一のｅＳＡＯ内、及び異なる複数のｅＳＡＯ同士の間の因果関係を検出する。

図４Ｂには、言語知識ベース６０内に提示される言語パターンの一つに従って、Ｃ−Ｅ認識部３２０により認識された、入力された文内の二つのｅＳＡＯ内の因果関係が例示される。
"The register contains the proper bit pattern to begin its shift-out operation,"（「レジスタは、シフトアウト操作を開始するための適切なビットパターンを含んでいる」）
因果（原因-結果）関係の認識は、本実施形態では、好適には、米国特許出願公開第２００６００４１４２４号に記載された技術に従って実行される。

言語解析部３０により設定される、言語解析段階での入力テキスト内の意味ラベル（主語｜目的語｜間接目的語、ｅＳＡＯ、Ｃ−Ｅ）は、外側の世界／主語ドメインについての三つの主要な種類の知識（すなわち、オブジェクト（もの）群、事実群、及び外側の世界／知識ドメインの規則性を反映したルール群）に対応し、語彙的、文法的及び統語的タグと一緒になって、実用的には、入力された文のすべての語彙単位（lexical units）をカバー（包含）し、目標とする意味ラベリングのための、目的に応じた更なるテキスト意味ラベリングのための言語パターン群を生成するための効率的なコンピュータ利用の技術を提供する。この技術のアイデアは、言語解析部３０が、専門家に対して、言語ドメイン及び知識ドメインに依存しない、語彙的、文法的、統語的及び意味的解析などのような言語解析の互いに異なる複数のレベルについての、ラベルを有する新たなタグ付けされた意味関係のいかなる特定の例をも「ラップする」（包み込む）能力を提供することである。ユーザは、例えばコンピュータディスプレイ上のテキストの断片内の対応する単語群を強調表示することにより、新たなタグ付与済み意味関係を指定することができる。このように、言語解析部３０は、一方では、テキスト内の意味関係を認識するための言語パターンの一般化のための能力、もう一方では、生成された言語パターンに基づいてどのようなテキスト中の意味関係の自動認識をも機能的に支援する能力、を提供する。なぜなら、言語解析部は、言語パターンにより用いられるレベルのテキスト解析にアクセスすることができるからである。この認識処理は、話題（トピック）内容のみならず、論理内容についても実行することができる。

説明した意味ラベリングの方法、及び必要な言語パターンの生成の技術は、テキスト文書ラベル付与部４０がテキスト文書群の効率的なサーチインデックスを生成するのに用いられる。Ｑ−Ａシステム１５０には、あらかじめ、言語知識ベース６０の構成要素群の一つを表す主要な質問の種類の分類辞６２が、ターゲットの質問として供給されていてもよい。それに基づいて、質問に対する的確な答えの検索には、一般には、ユーザのクエリ（すなわち質問）／テキスト文書群の言語的解析だけでなく意味解析も必要であり、それらの照合のための効率的な手順が必要であることを考慮すると、その手順の戦略の強調点は、テキスト文書群のターゲット意味ラベリングの段階に移る。

この段階では、いわゆるターゲット語が、テキストの中で、言語パターン群に基づいて認識される。ターゲット語は、定められた分類の中の種類の質問を提示することができる対象の単語である。そのような単語には、対応する質問種類のマーカーと、それら単語のコンテキスト（文脈）のある種の構成要素のマーカーとが割り当てられる。そのような構成要素がこれらの質問に対する潜在的な答えを表現する。ターゲット語群及びそれらのコンテキストを表す語群がｅＳＡＯ及び因果（原因-結果）のタイプの意味関係の構成要素である（かつ、対応する意味ラベルを持つ）という事実に起因して、必要な言語パターンの生成は、上述した効率的な方法に従って実行される。同時に、ターゲット語は、ある意味クラスに属すれば、その意味を認識しないにせよその意味を認識するにせよ、言及した意味関係の構成要素として、その語に対する直接の質問の答えになるかも知れないことを考慮に入れる。したがって、その答えの意味コンテキストは非常に厳密に設定される。ｅＳＡＯ形式の厳密さにより、ＮＬフレーズの形式の質問に対する答えを正しく合成するためのすべての前提条件が存在する。

このように、言語解析されたテキスト文書群は、テキスト文書ラベル付与部４０に進み、この付与部４０はまず、それら文書群の語彙的、文法的、及び統語的タグと、意味ラベルとを登録し、次に、言語知識ベース６０内に設定されている対応する言語パターン群と質問の分類とに基づいて、それら文書群のターゲット意味ラベリングを実行する。例えば、システム１５０により処理されるテキスト文書１０の文の一つが次の文であるとしよう。
Da Vinci was 51 years old when he painted Mona Lisa.（モナリザを描いたとき、ダ・ビンチは５１歳であった。）

事前フォーマット部２０及び言語解析部３０によるその文書処理の後、次のような表現が求められる（簡潔にするため、主語と目的語の内部構造の「主／属性」マーカーは省略している。

ここで、ＮＰ，ＢＥ，ＣＤ，ＮＮＳ，ＪＪ，ＶＢは単語のＰＯＳ（品詞）タグであり、主語、アクション等は意味ラベル、すなわちいわゆるｅＳＡＯラベルである。

更に、テキスト文書ラベル付与部４０は、言語知識ベース６０からの言語パターンの一つに基づいて、例えば、単語の並び"Da Vinci"（ダ・ビンチ）が"Age"（年齢）タイプの質問の一つについてのターゲットであると判定する。すなわち、この並びに対して意味ラベル"QT_Age"を割り当てる。以下に示すのは、上述した言語パターンの形式的記述である。

同様に、テキスト文書ラベル付与部４０は、文"Oxygen also has a similar harmful effect on the grain growth"（「酸素は穀物の生育に関しても同様の有害な作用をもたらす。」）内で、単語"oxygen"（「酸素」）が、"disadvantage"（「不利益」）の種類の質問についてのターゲットであると判定し、この単語に対して"QT_Disadvantage"という意味ラベルを割り当てる。また、例えば、文"Mr. Mark Chapman is a killer of John Lennon"（「マーク・チャップマン氏はジョン・レノンの殺害者である」）において、ターゲット語"killer"（「殺害者」）には意味ラベル"QT_SubjectPerson"が割り当てられるであろう。

単一のターゲット語は、様々な種類の質問を表すいくつかの異なった種類のラベルを持ってもよいことに留意すべきである。

ターゲット語のその意味ラベルを検出するのと同時に、テキスト文書ラベル付与部４０は、同じ言語パターンに基づき、その質問種類に対する答えを構成する文の各構成要素を登録し、印付けする。このように、例えば、最初の文の意味ラベル"QT_Age"を有するターゲット語"Da Vinci"については、形容詞１フィールドが、上述したパターンの形式的表現からのマーカー"ANS_Adj"に基づいた答え、すなわち"51 years"として登録される。である。二番目の文の意味ラベル"QT_Disadvantage"を有するターゲット語"oxygen"については、目的語フィールド＋前置詞フィールド＋間接目的語フィールドが答え、すなわち"harmful effect on the grain growth"として登録され、三番目の文からの意味ラベル"QT_SubjectPerson"を持つターゲット語"killer"については、主語フィールドが答え、すなわち"Mr. Mark Chapman"として登録されるであろう。

ｅＳＡＯ形式の厳密さを考慮に入れると、上述した答えはｅＳＡＯのある種の構成要素を表し、したがって、ＮＬ（自然言語）の文の形式で合成されてもよい。

言語解析部３０とテキスト文書ラベル付与部４０の補助によりラベルが付与されると、テキスト文書群はラベル付与済みテキスト文書データベース５０へと進み、入力された質問７０に対する答えの検索を実行するシステム１５０内の他の要素の利用に供される。

事前に、質問７０は、テキスト文書群に対して言語解析部３０により実行される言語解析と同様の言語解析を実行する言語解析部８０による処理を受ける。

例えば、質問"How old was Da Vinci when he painted Mona Lisa?"（「モナリザを描いたときダ・ビンチはいくつだったか？」）の言語解析の結果として、次の形式的表現が求められる。

更にこの段階で、その質問内の単語"how"にマーカー"QWord"を与えられ、単語"old"にマーカー"QHowClassifier"が与えられる。この処理は、言語知識ベース６０からの言語パターン群に基づいて実行される。

求められた形式的表現は、更に質問ラベル付与部９０に進む。質問ラベル付与部９０は、言語パターン群に基づき、質問のターゲット語と、定められた分類に従った質問の種類とを求め、その質問のターゲット語に対して対応する意味マーカーを割り当てる。以下に示すのは、上述の質問を処理するのに利用されることになる言語パターンのうちの一つの例である（パターンにとって重要でないｅＳＡＯの構成要素は記述から省かれている）。

このパターンに基づいて、質問についての上述した言語解析結果を考慮に入れ、質問ラベル付与部９０は、上述の質問"How old was Da Vinci when he painted Mona Lisa?"について以下に示す最終的な形式的表現を生成する。

この形式的表現に従って、サーチ部１００は、ラベル付与済みテキスト文書データベース５０をサーチして、テキスト文書群の中の意味マーカーQT_Ageを含んだ文を求める。更に、そのようなマーカーが、名詞グループ（ＮＧ）に対して、当該名詞グループの持つｅＳＡＯマーカーが何であるか、すなわち主語、目的語又は間接目的語のいずれであるか、に無関係に、付与されてもよい。また、そのような文は、主語、アクション及び目的語のフィールドが以下に示す対応する値、すなわち"Da Vinci"、 "paint"、 "Mona Lisa"、を有する一以上のｅＳＡＯを含んでいるべきである。この場合、このｅＳＡＯは、答えの意味コンテキストを決定する。図５Ａ及び５Ｂは、二つの更なる質問"What are the disadvantages of oxygen?"（「酸素の不利益は何か？」）及び"Who killed John Lennon?"（「誰がジョン・レノンを殺したのか？」）についての、対応する言語パターン群に基づいた言語解析及び意味ラベリングの結果を例示している。コンパクトにするために、そこには空でないｅＳＡＯフィールドのみが示されている。

後者の例では、質問の形式的記述は、言い換え（リフレーズ：rephrasing）（REPH）の言語手段を用いた結果として得られる三つの表現からなるグループから構成される。これは、言語パターンの対応するフィールド内のマーカーREPHにより示される。図５Ｂを参照。

どんな場合でも、質問ラベル付与部９０により求められる質問の形式的表現は、実際のところ、選言標準形（disjunctive normal form）である。その標準形の連言（論理和：Conjunctions）は、対応する意味マーカーを有する質問のある種の語彙単位を表現する。このように、例として提示した、一番目及び二番目の表現は一つの連言項を含み、一方、三番目の表現は三つの連言項を含む。そこで、単一のターゲット語が、それら連言項の各々の中で選択される。そのような語には、ｅＳＡＯマーカーに加え、例えばQT_Age、 QT_Disadvantage、 QT_SubjectPersonなどの質問タイプを示す意味マーカーが割り当てられる。

意味ラベル付与済みの質問は、更にサーチ部１００に進む。サーチ部１００は、入力された質問に対する答えの自動サーチを実行する。このサーチは、ラベル付与済みテキスト文書データベース５０に対して、その質問から求められた形式的表現に基づいて、行われる。

結果として、サーチ部１００は、以下の基準に従って、意味ラベル付与済みのテキスト文書群から、質問の形式的表現の連言項の少なくとも一つを完全に又は部分的に満足する文を、関連するものとして登録する。
１．ターゲット語と答えのコンテキストを規定する単語群とを含む、連言項のすべての単語は、意味ラベル付与済みの文内に存在する。
２．質問種類のマーカーを含む、同じ単語とそれらのセットの意味ラベルが、質問の連言項内及びその文の中で一致する。

それらの基準に従って選択された文は、更に、答えランク付け部１１０に進む。答えランク付け部１１０は、上述の基準に対するそれら各文の関連の程度に従って、それら文のランク付けを実行する。ここで、ユーザは、どの特定の基準が優先されるべきかを、例えばコンピュータディスプレイを介する答えランク付け部１１０との対話処理により、独自に設定することもできる。どのような場合でも、最も関連するのは、その定式化された基準に完全に対応する文である。

質問に関連する文は、更に、テキスト合成部１２０に進む。テキスト合成部１２０は、その文からのフレーズ、又は新たなＮＬ（自然言語）フレーズの形で、答え１３０を合成する。これは、テキスト文書ラベル付与部４０によりその文に設定されたマーカー、すなわちその質問に対する答えの構成要素を判定するマーカー、に基づいて行われる。新たなＮＬフレーズの形での答えの提示は、質問の形式的表現の形式（ｅＳＡＯ形式）の厳密さと、言語知識ベース６０からの対応する言語パターン群と、によって達成される。例えば、上述の質問のうちの最初のものについては、この種の答えは"Da Vinci was 51 years old"（「ダ・ビンチは５１歳だった」）であり、二番目の質問については"Disadvantage of oxygen is harmful effect on the grain growth"（「酸素の不利な点は、穀物の生育に関する有害な作用である」）である。

このようにして、例えば、次に示す三つの関連する文が、システム１５０により、上述の例の各問題に対する答えとして、この明細書に示す方法に基づいて、選ばれる。
１．Da Vinci was 51 years old when he painted Mona Lisa.（モナリザを描いたとき、ダ・ビンチは５１歳であった。）
２．Oxygen also has a similar harmful effect on the grain growth.（「酸素は穀物の生育に関しても同様の有害な作用をもたらす。」）
３．Mr. Mark Chapman is a killer of John Lennon.（マーク・チャップマン氏はジョン・レノンの殺害者である）

これに応じて、システムは以下のような短い答えをそれぞれ求める。
１．51 years（５１歳）
２．harmful effect on grain growth（穀物の生育に関する有害な作用）
３．Mark Chapman（マーク・チャップマン）

これまでに説明したように、テキスト文書ラベル付与部４０及び質問ラベル付与部９０の機能は、質問種類の分類辞６２と、言語知識ベース６０からの多数の対応する言語パターン群とにより保証される。ユーザの情報の必要性とテキスト文書群の中でのその表現の言語的手段を解析することで、ユーザは新たな種類の質問を表現する能力を持ち、その分類辞６２をそれらに付加し、対応する言語パターン群を、それらを効率的に生成する技術を用いることにより生成する。

好適な実施形態では、言語知識ベース６０は、以下に示す例を含む（ただしこれらに限定されるわけではない）異なる複数の種類の質問とこれらに対応する言語パターン群とを体現する。ここで、大まかに示すのは、質問種類のマーカーと、質問種類の各々についての特定の例と、この明細書で説明した方法に基づいてシステム１５０により最も関連するものとして選ばれた、テキスト文書群からの文の例と、その質問に対するそれら文書の元の断片群の形の答え（簡潔にするために、対応する形式的な記述はすべて省略されている）と、であり、質問と文のターゲット語には下線が付されている。

本発明のいくつかの側面に従った実施形態は、一以上のコンピュータ、マイクロプロセッサ、マイクロコントローラその他の処理装置により実行可能な、コンピュータ実行可能な命令群により提供することができる。そのシステム及び方法を実行するためのコンピュータ実行可能な命令群は、その処理装置によりアクセス可能なメモリ内にあるか、フレキシブルディスクやハードディスク、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、リードオンリーメモリ（ＲＯＭ）、その他の記憶媒体により、処理装置に提供されてもよい。

例えば、本発明のいくつかの側面に従った実施形態は、図６に示されるコンピュータシステム６００のような、特別に構成されたコンピュータシステム内に実装されてもよい。コンピュータシステム６００は、少なくとも１つの処理要素６０１と、ディスプレイ６０３と、入力装置６０５と、上述した意味ラベリングを実現するために必要な情報を提供するデータベース６０７（又は他のコンピュータ読み取り可能な記憶媒体）へのリンクとを含んでいてもよい。

様々な実施形態では、この明細書に説明したアプリケーション群、機能モジュール群、及び／又はプロセッサ群には、ハードウエア、ソフトウエア、ファームウエア、又はそれらの何らかの組合せが含まれ得る。機能群が全体的又は部分的にプログラムコード内に実現される範囲で、それらの機能は、一以上の特定のマシンとして、一緒になって本発明の概念の機能群を実行するように適応した、一以上のプロセッサにより実行される。また、様々な実施形態においてソフトウエア又はコンピュータプログラムコード又は命令群（「アプリケーション」と呼ぶこともある）が使用される範囲で、そのソフトウエアは、様々な一時的でない記憶装置又は媒体のうちのいずれに格納されてもよく、この明細書に記載したシステム又は方法の明示的な、暗黙の、及び／又は固有の機能を実現するように一以上のプロセッサやマイクロプロセッサ、マイクロコントローラ、その他の処理装置により実行されてもよい。例えば、コンピュータプログラムコードは、処理装置内のメモリ内にあってもよいし、フレキシブルディスクやハードディスク、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、リードオンリーメモリ（ＲＯＭ）、又はその他の一時的でない記憶媒体により、処理装置に提供されてもよい。そのような記憶装置又は媒体、及びそのようなプロセッサは、論理的にせよ物理的にせよ、同じ場所配置されてもよいし互いに離れていてもよい。例えば、本発明の概念に従ったシステムは、一以上の他のコンピュータやデータベース等に対して、インターネット（及びＷＷＷ）やイントラネット、エクストラネット、ＶＰＮ、その他のネットワーク等のうちの一以上のようなネットワークを介して、アクセスしてもよい。

ことさら指示することがなければ、この明細書で用いているように、コンピュータは、少なくとも一つのプロセッサと記憶媒体とを含んだ、既知の又はこれから開発されるいかなる装置の形態をとってもよい。例えば、図７を参照すると、コンピュータ又はコンピュータシステムには、サーバ７８、ＰＤＡ（personal digital assistant）９１、ラップトップコンピュータ７２、携帯音楽装置７３、パーソナルコンピュータ７４、携帯電話７５、ワークステーション（図示省略）、メインフレーム（図示省略）等、又はそれらの何らかの組合せが含まれ得る。それらの装置は、例えばキーパッドやキーボード、マイク、ビデオカメラ、タッチスクリーン等の一以上の入力装置を備えていてもよい。またそのような装置は、更に、例えばビデオ画面（例えばコンピュータや携帯電話、ＰＤＡの画面）、タッチスクリーン、画像投影システム、スピーカー、プリンタ等の一以上の出力装置を備えていてもよい。いくつかの実施形態では、データポートを入力装置又は出力装置又はその両方と見なしてもよい。いくつかの実施形態では、様々なユーザ装置７０は、例えばインターネットを介してアクセス可能なコンピュータ７８にて実行される知識サーチ・マッピングシステム１０と協働してもよい。

この明細書に記載された要素群が互いに離れている場合、それら要素同士は、ローカルエリアネットワーク、ワイドエリアネットワーク、ＶＰＮ、イントラネット、コンピュータベースのソーシャルネットワーク、ケーブルネットワーク、携帯電話ネットワーク、インターネット、ＷＷＷ、又はそれらの何らかの組合せなどの、様々な既知の、又はこれから開発されるネットワーク７６を介して情報を通信及び／又は交換してもよい。

上述した例示的な好適な実施の形態の詳細な説明は、あくまで説明のために提示されるものである。この説明は、網羅性を意図したものでも、記載した厳密な形に発明を限定することを意図したものでもなく、本発明がどのようにして特定の用途又は実装に適応させられるかを当業者に理解でいるようにすることを意図したものに過ぎない。この明細書を理解すれば、当業者には、改良や変形が可能であることが明らかであろう。例示の実施形態の説明は、いかなる限定をも意図しておらず、様々な公差、様々な特徴の寸法、様々な特定の動作条件、様々な技術上の仕様（工業規格）等を含んでいてもよく、実装が異なれば異なり得ると共に技術水準に応じて変化するものであり、その説明はいかなる限定も含意するものではない。

この明細書は、現在の技術水準に応じて作成されたものであるが、進歩を考慮しており、将来におけるこの技術の適応はそのような進歩、すなわちその時点での技術水準、を考慮に入れてもよい。本発明の範囲は、記載した特許請求の範囲と応用上のその均等物により規定されるものである。また、この明細書の中のどの要素、どの構成要素又はどの方法・処理のステップも、それら要素、構成要素、又はステップが特許請求の範囲内に明示的に記載されているか否かによらず、一般公衆に開放することを意図してはいない。ここに記載される請求項の要素は、その要素が「〜のための手段」という言い回しを用いてはっきりと記載されない限り、米国特許法１１２条第６項の規定の下で解釈されるべきではなく、ここに記載される処理ステップは、その１つ又は複数のステップが「〜のステップを含む」という言い回しを用いてはっきりと記載されない限り、それらの規定の下で解釈されるべきではない。

このように、様々な変形がなし得ること、本発明が様々な形式及び実施形態として実行し得ること、及びそれらを数多くの応用分野に適用できることが理解され、この明細書にはそのうちのいくつかのみが記載される。以下に示す各請求項は、文字通り記載されていること、及び、それら各請求項の範囲内のすべての改良及び変形を含む、そのすべての均等物を請求することを意図している。

Claims

テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答方法であって、
少なくとも一つの一時的でない記憶媒体に接続された少なくとも一つのコンピュータプロセッサを設けるステップを含み、当該少なくとも一つのコンピュータプロセッサは、
自然言語のテキスト文書群を電子的に受け取るステップと、
自然言語で表現されたユーザの質問を電子的に受け取るステップと、
前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、
意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベル付与済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、
意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、
前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、
関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成し、合成した答えを前記ユーザに電子的に提示するステップと、を含む。
請求項1に記載の方法であって、更に、
前記テキスト文書群及び前記ユーザの質問に対して品詞タグを付与することによりタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、
タグ付与済みのテキスト文書群及びユーザの質問を構文解析することにより、構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、
構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を意味解析することにより、意味解析済み且つ構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、
を含むことを特徴とする方法。
請求項２に記載の方法であって、前記品詞タグを付与するステップが、非自然言語のシンボルが除去されたテキストを含む事前フォーマット済みのテキストに対して実行されることを特徴とする方法。
請求項２に記載の方法であって、前記意味解析のステップは、
前記テキスト文集群及び前記ユーザの質問の中の、一以上の拡張された主語−アクション−目的語（ｅＳＡＯ：expanded Subject-Action-Object）セットの形態の、一以上の事実を認識するステップであって、各ｅＳＡＯセットは一以上のｅＳＡＯ構成要素を含むところのステップと、
前記前記テキスト文集群及び前記ユーザの質問の中から、外側の世界／知識ドメインの規則性を反映するルール群を前記ｅＳＡＯセット群における複数の因果関係の形式で認識するステップであって、前記複数の因果関係の各々は、原因ｅＳＡＯと結果ｅＳＡＯを含むところのステップと、
を含むことを特徴とする方法。
請求項４に記載の方法であって、前記少なくとも一つのｅＳＡＯ構成要素は、主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞からなるグループの中から選ばれた一以上の要素を含むことを特徴とする方法。
請求項４に記載の方法であって、前記原因ｅＳＡＯは、前記一以上のｅＳＡＯセットのうちの一以上のｅＳＡＯ構成要素を含んでいてもよく、前記結果ｅＳＡＯは、前記一以上のｅＳＡＯセットのうちの一以上の他のｅＳＡＯ構成要素を含むことを特徴とする方法。
請求項６に記載の方法であって、前記因果関係は、前記原因ｅＳＡＯの前記ｅＳＡＯ構成要素を前記結果ｅＳＡＯの前記他のｅＳＡＯ構成要素に対して語彙的、文法的、及び／又は意味的言語手段により関係づける順次演算子を含むことを特徴とする方法。
請求項４に記載の方法であって、前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語（ｅＳＡＯ）セットを認識する処理では、前記テキスト文書群及び前記ユーザの質問の一以上の文の中の一以上の主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞を認識することを特徴とする方法。
請求項４に記載の方法であって、前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語（ｅＳＡＯ）セット及び複数の因果関係を認識する処理では、ｅＳＡＯ構成要素及び原因-結果の構成要素を規定する複数のパターンを含むデータベースを有する言語知識ベースにアクセスすることを特徴とする方法。
請求項１に記載の方法であって、前記意味解析済されたテキスト文書群の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合する処理に基づいており、
前記方法は、
前記テキスト文書群の中のテキストについて、品詞タグ、統語タグ、及び意味ラベル及びｅＳＡＯセット及び因果セットを求めるステップ、
ｅＳＡＯラベル及び因果ラベルを生成するステップ、及び、
前記ｅＳＡＯラベル及び前記因果ラベルを、ターゲット語についての答え要素及び質問種類の意味ラベルと照合するステップ、
を含むことを特徴とする方法。
請求項１に記載の方法であって、前記意味解析されたユーザの質問の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類に基づく言語パターン群に対して前記意味解析済みのユーザの質問を照合する処理に基づいており、
前記方法は、
前記ユーザの質問の中の単語群の品詞タグ、統語タグ、及び意味ラベルを求め、前記ユーザの質問の単語群からｅＳＡＯセット及び因果セットを求めるステップ、
前記ｅＳＡＯセット及び前記因果セットからｅＳＡＯラベル及び因果ラベルを生成するステップ、及び、
前記ｅＳＡＯラベル及び前記因果ラベルを、ターゲット語についての質問種類の意味ラベルと照合するステップ、を含むことを特徴とする方法。
請求項１に記載の方法であって、前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップは、前記ラベル付与済みテキスト文書データベースからの文に対して、前記意味ラベル付与済みのユーザの質問を照合する処理に基づいており、
単語群と意味ラベル群を照合する処理、及び、
関連の程度の指標を有する前記ユーザの質問に関連を持つ文のリストを構築する処理、
を含むことを特徴とする方法。
請求項１に記載の方法であって、更に、前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの文を、各文からの意味情報を前記ユーザの質問からの意味情報と照合するためのあらかじめ定められた基準に従って求められる、ユーザの質問に対する各文の関連の程度に基づきランク付けする処理を含む、ことを特徴とする方法。
請求項1に記載の方法であって、前記答えを合成するステップでは、関連する複数の文からユーザの質問に対する自然言語の答えを合成する処理が、テキスト文書群の意味ラベリングの段階での答えの構成要素のラベルで印を付けられた関連する複数の文の元の断片群の形で、及びｅＳＡＯ形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語の句の形で、実行される、ことを特徴とする方法。
テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答のための方法を実行する、コンピュータが実行可能な命令群が格納されたコンピュータ読み取り可能な媒体を含んだコンピュータプログラム製品であって、前記方法は、
自然言語のテキスト文書群を電子的に受け取るステップと、
自然言語で表現されたユーザの質問を電子的に受け取るステップと、
前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、
意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベル付与済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、
意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、
前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、
前記関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成するステップと、を含むことを特徴とするコンピュータプログラム製品。
請求項１５に記載のコンピュータプログラム製品であって、前記方法は、更に、前記ユーザに対して前記答えを電子的に提示するステップを含むことを特徴とする方法。
自然言語で表現された電子的又はデジタル的形式のテキスト文書群及びユーザの質問の自動意味ラベリング処理を用いる質問応答システムであって、
言語知識ベースと、言語解析されたテキスト文書群及びユーザの質問を生成する言語解析部と、を備え、前記言語解析部は意味解析部を備え、当該意味解析部は、
前記テキスト文書群及び前記ユーザの質問に基づいて、一以上のｅＳＡＯセットの形の一以上の事実を認識し、意味解析されたテキスト文書群を生成する、拡張主語−アクション−目的語（ｅＳＡＯ）認識部及び原因-結果認識部を備え、
ｅＳＡＯ及び原因-結果の認識は、前記言語知識ベースに記憶されたパターン群に基づく、ことを特徴とする質問応答システム。
請求項１７に記載の質問応答システムであって、前記言語解析部は、更に、
電子的又はデジタル的形式の前記テキスト文書群に基づいた事前フォーマット済みのテキスト文書群及び前記ユーザの質問を受け取る品詞タグ付与部と、
前記品詞タグ付与部によりタグが付与された前記テキスト文書及びユーザの質問を受け取り、構文解析済みのテキスト文書群及びユーザの質問を前記意味解析部に提供する構文解析部と、
を備え、
前記タグ付与部及び前記構文解析部は、前記言語知識ベースに記憶されたデータを用いて処理を行うことを特徴とする質問応答システム。
請求項１８に記載の質問応答システムであって、更に、
電子的又はデジタル的形式の前記テキスト文書群を受け取って事前フォーマット済みのテキスト文書群を生成する事前フォーマット部と、
前記言語知識ベースに記憶された質問分類に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合し、前記意味解析済みのテキスト文書群と前記照合とに基づいて意味関係ラベルを生成し、意味ラベル付与済みのテキスト文書群がラベル付与済みテキスト文書データベースに格納されるようにするテキスト文書ラベル付与部と、
前記言語知識ベースに記憶された質問分類に基づく言語パターン群に対して前記意味解析済みのユーザの質問を照合し、前記意味解析済みのユーザの質問と前記照合とに基づいて意味関係ラベルを生成する質問ラベル付与部と、
前記意味ラベル付与済みのユーザの質問をラベル付与済みテキスト文書データベースからの文と照合するサーチ部であって、単語群及び意味ラベル群を照合し、関連の程度の指標を持つ前記ユーザの質問に関連を持つ文のリストを構築するサーチ部と、
前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの各文を、ユーザの質問に対する各文の関連の程度に従ってソートする答えランク付け部と、
前記関連を持つ文から前記ユーザに対する自然言語の答えを生成し、それら答えを前記ユーザに電子的に提示するテキスト合成部と、
を含む質問応答システム。
請求項１９に記載の質問応答システムであって、前記事前フォーマット部は、以下に示す機能のうちの少なくとも一つを実行するように構成されていることを特徴とする質問応答システム。
前記テキスト文書群のデジタル的又は電子的表現の中から自然言語テキストの部分を構成しないシンボルを除去する機能、
テキスト文書群内の食い違い及び誤りを検出及び修正する機能、及び、
そのテキストを文及び単語の構造へ分割する機能。
請求項１９に記載の質問応答システムであって、前記テキスト文書ラベル付与部は、単語、品詞タグ、統語タグ、ｅＳＡＯ及び因果セットを照合することにより、前記意味解析済みのテキスト文書群を言語パターンと照合するように構成されていることを特徴とする質問応答システム。
請求項１９に記載の質問応答システムであって、前記テキスト文書ラベル付与部は、ｅＳＡＯ及び因果ラベルを生成することにより、及び、ターゲット語についての答え構成要素と質問種類の意味ラベルの照合に基づいて、意味関係ラベルを生成するように構成されることを特徴とする質問応答システム。
請求項１９に記載の質問応答システムであって、前記質問ラベル付与部は、単語、品詞タグ、統語タグ、質問語のラベル、ｅＳＡＯ及び因果セットを照合することにより、前記意味解析済みのユーザの質問を言語パターンと照合するように構成されることを特徴とする質問応答システム。
請求項１９に記載の質問応答システムであって、前記質問ラベル付与部は、ｅＳＡＯ及び因果ラベルを生成することにより、ターゲット語についての質問種類の意味ラベルの照合に基づき、意味関係ラベルを生成するように構成されることを特徴とする質問応答システム。
請求項１９に記載の質問応答システムであって、前記テキスト合成部は、関連する複数の文の元の断片群の形で、及びｅＳＡＯ形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語の句の形で、答えを生成することにより、前記ユーザの質問に対する自然言語の答えを生成するように構成されることを特徴とする質問応答システム。
請求項１７に記載の質問応答システムであって、前記意味解析部は、前記ｅＳＡＯセットから因果関係を生成するように構成されており、前記因果関係の各々は、原因ｅＳＡＯ、結果ｅＳＡＯ、及び前記原因ｅＳＡＯを前記結果ｅＳＡＯに関連づける少なくとも一つの順次演算子、を含むことを特徴とする質問応答システム。
請求項２６に記載の質問応答システムであって、前記各ｅＳＡＯセットは、ｅＳＡＯ構成要素を含み、前記原因ｅＳＡＯは一以上のｅＳＡＯ構成要素を含み、前記結果ｅＳＡＯは前記原因ｅＳＡＯの前記一以上のｅＳＡＯ構成要素以外の一以上のｅＳＡＯ構成要素を含むことを特徴とする質問応答システム。
請求項２７に記載の質問応答システムであって、前記一以上のｅＳＡＯ構成要素は、主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞からなるグループの一以上の要素を含むことを特徴とする質問応答システム。