JP4467184B2 - 知識創造可能性を有するドキュメントの意味論的分析及び選択 - Google Patents
知識創造可能性を有するドキュメントの意味論的分析及び選択 Download PDFInfo
- Publication number
- JP4467184B2 JP4467184B2 JP2000569327A JP2000569327A JP4467184B2 JP 4467184 B2 JP4467184 B2 JP 4467184B2 JP 2000569327 A JP2000569327 A JP 2000569327A JP 2000569327 A JP2000569327 A JP 2000569327A JP 4467184 B2 JP4467184 B2 JP 4467184B2
- Authority
- JP
- Japan
- Prior art keywords
- sao
- request
- document
- extraction
- rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【優先権主張の基礎となる出願の参照】
この出願では、1998年9月9日に出願された米国特許仮出願第60/099,641号に基づく優先権を主張する。
【0002】
【発明の属する技術分野】
本発明は、特定のコンテンツ又は主題を含む候補となっている文書(ドキュメント)を意味論(セマンティクス、semantics)的に分析(=解析)、選択及び要約するコンピュータ・ベースの装置及び方法に関する。
【0003】
【従来の技術】
コンピュータ・ベースのドキュメント・サーチ・プロセッサは、インターネット及びワールド・ワイド・ウェブ上に公表されたもの(publications)に対するキーワード・サーチを実行することが知られている。今日では、情報の持ち主やサービス・プロバイダは、自らのデータベースを個人的な嗜好や要求に適応させている。例えば、ボストン所在のエージェンツ社(Agents, Inc.)は、ウェブ上で音楽ファン向けの個人ごとに個別化された(personalized)ニューズレターを提供しており、このニューズレターでは、クラシック音楽愛好者はラップ音楽に関する広告を受け取ることがなく、ラップ音楽愛好者はクラシック音楽に関する広告を受け取ることはない。香港のKD社(KD, Inc.)は、ウェブをサーチする際に意味が類似している単語を考慮するようなシステムを開発している。今日では、ユーザは、「Screen」という単語を打ち込むことによって、ウェブから1万もの文書をダウンロードすることができる。KD社によって設計されたサーチ・システムでは、ユーザは、「Computer Screen」、「TV Screen」又は「Window Screen」に関する文書を求めているかどうかが質問される。この場合には、関係のない文書の数は、劇的に減少することになる。
【0004】
ソフトウェア・ベースのサーチ・プロセッサは、1人のユーザからのリクエストを記憶しておき、ウェブ上で個人ごとに個別化されたノンストップのサーチを実行することができる。従って、ユーザは、朝、目を覚ますと、自分自身が興味を有する領域に関する参考文献と複数の新しい文書の要約とを見ることができる。1997年には、基本的な技術文献、ジャーナル、雑誌及びすべての工業国の特許のほとんどすべてが、ウェブ上で、すなわち電子的なフォーマットで、入手可能となった。
【0005】
ウェブのキーワード・サーチは、ユーザに大きな価値を与えてくれるのであるが、同時に、この価値に悪影響を及ぼす重大な問題を既に生じており、将来も生じることになろう。特に、ウェブ上で入手可能な情報量は膨大であるから、キーワード・サーチ・プロセッサがダウンロードする情報は多すぎるのであって、その大部分は、ユーザが欲している情報とは無関係であるか、重要性を持たないものである。多くのユーザは、特定のリクエストに関係する数本の論文を要求しているだけであるのに、数百もの論文を与えられれば、当惑し諦めてしまうことになる。
【0006】
この問題は、科学及び工学という技術分野でも経験されている。その理由は、図書館、特許庁、大学、国立の研究機関などの数が増加し、また、それ以外にもウェブ・アクセスができる科学技術情報の総量が増加しているからである。技術者、科学者及び博士にとっては、自らの関心対象であるトピックに関する論文、文書、特許及び一般的情報があまりに多すぎて圧倒されてしまっている。更に、ユーザは、現時点では、ダウンロードした内容を調べてそれがユーザの目的と関係するかどうかを判断する際には、2つの選択肢を有しているだけである。ユーザは、著者自身による要約を読むか、及び/又は、内容全体の幾つかの部分を精査して、この特定のドキュメントを保存又はプリントアウトするかどうかを決定することができるだけである。著者自身による要約は総括的ではないことが多く、ユーザにとって興味がある特定の課題への言及が省略されていたり、その課題の取扱いが総括的にはなされていないことがある。従って、要約の精査や、内容全体の精査には、ほとんど価値がなく、ユーザの側で非常識なほどに時間を要する可能性がある。
【0007】
従来の米国特許第5,774,833号及び第5,794,050号などの様々な試みでは、選択の検索能力(recall)や精度を向上させることが目的とされているが、これらの方法では、単に、多様なキーワードやテキスト内のフレーズの理解に基づく様々な選択技術を用いたキーワード又はフレーズによるサーチに依存しているだけである。これらの従来の方法で、検索能力を向上させる可能性はあるが、なぜ特定のドキュメントが選択されたのか、そして、関連のある部分はどこなのかを判断するには、依然として、物理的及び心理的な労力を必要とする。これは、概要(サマリ)又はコンセプトを発生させずにドキュメント又は要約の全体が与えられることの結果として生じる。
【0008】
【発明の概要】
本発明の原理によるコンピュータ・ベースのソフトウェア・システム及び方法は、上述の問題を解決することができ、ウェブ又はそれ以外のネットワーク上のあらゆるデータベースをキーワードを用いてノンストップでサーチし、候補ドキュメント(candidate documents)を特定の技術的機能及び特定の物理的効果を求めて意味論的に処理し、それによって、サーチ基準を満たす優先順位が高くごく少数の又はただ1つの検索結果をユーザに提示又は識別する。
【0009】
更に、本発明の原理によるコンピュータ・ベースのソフトウェア・システムは、これら少数の関連性が極めて高いドキュメントを捕捉し、サーチ基準によって指定された正確な技術的又は物理的特徴の圧縮された短いサマリを作成する。
【0010】
本発明の別の特徴には、選択されたドキュメントの意味論的分析結果を用いて知識コンセプト(knowledge concepts)に関する新規なアイデアを作成することが含まれる。このシステムは、ドキュメントにおいて言及されている主語(subject)、作用(action)及び目的語(object)を分析し、表現を上述の構成要素に関する新たな及び/又は異なるプロファイルに再構成することによって、これを実行している。以下で更に説明するように、これらの構成要素間の関係を再構成したものの幾つかは、これまでだれも考えたことのない新規なコンセプトを含んでいる。
【0011】
本発明の1つの特徴によれば、この方法及び装置は、ユーザが、自らがこれに関する刊行物又はドキュメントの取得を望んでいるタスク又はコンセプトに関係する自然言語テキストを入力することで開始する。システムは、このリクエスト・テキストを分析し、それぞれの単語にその単語のタイプを指示するコードをタグとして自動的に付ける。リクエストにおけるすべての単語にいったんタグが付けられると、システムは、意味論的な分析を実行する。この意味論的な分析は、ある例においては、リクエストの最初の文における動詞グループを決定して記憶するステップと、更に、その文における名詞グループを決定して記憶するステップとを含む。このプロセスは、リクエストの中のすべての文に対して反復される。
【0012】
次に、システムは、階層的アルゴリズムを用いて、それぞれのリクエスト文をパージング(構文解析)して、その文の意味を実質的に示す符号化(コード化)されたフレームワークを作成する。システムには、この符号化されたフレームワークを作成する際の補助となる、例えば、文法ルール、パージング・ルール、辞書シノニム(類義語)など、様々なタイプのデータベースが含まれる。いったんパージングされると、文のコードは記憶され、システムは、それぞれの文における主語−作用−目的語(SAO)抽出(extractions)を識別し、それらを記憶する。1つの文は、以下の詳細な説明で見られるように、1、2又は更に多くのSAO抽出を有しうる。それぞれの抽出は、以下で説明されるある種のルールに従って処理されることにより、正規化されてSAO構造となる。従って、リクエスト・テキストに対して実行された意味論的分析ルーチンの結果は、リクエストのコンテンツを示す一連のSAO構造である。リクエストのこれらのSAO構造は、(1)候補ドキュメントのSAO構造を以下で説明するように比較する比較モジュールと、(2)キーワード及びキーワードの組合せやそれらのシノニムを識別して候補ドキュメントを求めてインターネットのウェブ、イントラネット及びローカルなデータベースをサーチするサーチ・リクエスト及びキーワード発生器とに適用される。例えば、アルタビスタ(Alta Vista)などの任意の適切なサーチエンジンを用いることにより、発生されたキーワードに基づいて、候補ドキュメントを識別し、選択し、ダウンロードすることができる。
【0013】
既に述べたように、キーワードによるサーチは、あまりに多くの候補ドキュメントを与えてくれる。しかし、本発明の原理によれば、システムは、それぞれの候補ドキュメントに対して、ユーザが入力したサーチ・リクエストに対して実行されたのと実質的に同じ意味論的分析を実行する。すなわち、システムは、それぞれの候補ドキュメントのそれぞれの文に対してSAO構造を発生し、それらを比較ユニットに送る。比較ユニットでは、リクエストSAO構造が候補ドキュメントのSAO構造と比較される。リクエストのSAO構造のプロファイルと実質的に一致するSAO構造を有する少数の候補ドキュメントは、検索済ドキュメント・ユニットの中に送られる。検索済ドキュメント・ユニットでは、これらの少数の候補ドキュメントは、関連性の順序によってランク付けされる。次に、システムは、リクエストのSAO構造に一致するドキュメントのSAO構造を統合(シンセサイズ)することによってそれぞれの検索されたドキュメントの核心(エッセンス)を要約し、この要約をユーザが表示又は印刷するために記憶する。ユーザは、後でこの要約を読み、検索されたドキュメントの全体とそのSAOとを表示又は印刷するのか、それとも、削除するのかを決定することができる。
【0014】
既に述べたように、それぞれの検索されたドキュメントのそれぞれの文に対するSAO構造は、本発明によるシステムに記憶される。本発明の知識創造性(knowledge creativity)の側面によると、システムは、これらの記憶されている構造を分析して、共通又は同等の主語及び目的語がどこに存在するのかを識別し、ユーザが考慮するための新たなSAO構造又はSAO構造の新たな系列を再構成、発生及び統合する。これらの新たな構造及び系列は一意的であり、ユーザがリクエストした主題に関する問題への新たな解答を含むことがありえる。例えば、2つの構造S1−A1−O1及びS2−A2−O2が記憶されており、このシステムが、S2がO1と同等である、そのシノニムである、又は、それ以外の何らかの関係を有していると認識する場合には、システムは、ユーザのアクセスのために、S1−A1−S2−A2−O2という要約を発生し記憶する。あるいは、システムは、S1とA2との間の関連性を記憶している場合には、S1−A1/A2−O1を発生し、所望の結果に向かってのO1の改善を示唆することができる。
【0015】
これ以外の別の効果及び長所は、図面を参照しながら以下の詳細な説明を読むことによって明らかになるはずである。
【0016】
【発明の実施の形態】
本発明の原理による意味論的処理システムの1つの実施例には、以下のものが含まれる。
【0017】
CPU12は、汎用パーソナル・コンピュータ又はネットワークに接続されたサーバ又はミニコンピュータとして構成されており、キーボード14、マウス16、スキャナ19、CDリーダ17及びプリンタなどの標準的なユーザ入力及び出力ドライバを備えている。システム10は、また、LAN、WAN及び/又は公衆若しくは私的切換式ネットワークを介してウェブに接続されている標準的な通信ポート21を含む。
【0018】
図1ないし図6を参照すると、意味論的処理システム10は、ウェブ若しくはローカル・エリア・ネットからダウンロードされた、又は、キーボード14若しくはそれ以外の入力デバイスの中の1つを用いてユーザ・リクエスト・テキストとして発生されたドキュメントを受け取り記憶する一時的記憶装置又はデータベースを含む。ユーザは、以下で例が開示されているこのリクエストをタイプするか、又は、ドキュメント全体をデータベース(DB)12に入力してそのドキュメントをユーザのリクエストとして指定することができる。システム10は、更に、それぞれのドキュメントのテキスト全体を受け取る意味論的プロセッサ14を含み、また、それぞれの文のそれぞれの単語にタグとしてコード・タイプ(例えば、マルコフ・チェーン理論コード)を付する主語−作用−目的語(SAO)分析ユニット16を含む。ユニット16は、次に、それぞれの文の中でそれぞれの動詞グループと名詞グループ(後述する)とを識別し、それぞれの文のパージング(構文解析)及び正規化をして、その文の意味を表すSAO構造を作成する。ユニット16は、その出力をSAO構造18のDBに与える。SAOプロセッサ・ユニット20は、リクエストのSAO構造を記憶し、ユニット18に記憶されているそれぞれのドキュメントのそれぞれの文のSAO構造を受け取る。ユニット20は、ドキュメントのSAOをリクエストのSAOと比較して、一致のないドキュメントを削除する。一致したドキュメントのSAO構造は、ユニット18又は他のいずれかの記憶装置に再び記憶される。更に、ユニット20は、1つのドキュメントの中のSAO構造や、1つ又は複数の他の関連するドキュメントのSAO構造を分析して、SAO構造の間の関係を求め、ユーザが考慮するための新たなSAO構造を発生する。これらの新たな構造は、ユニット18又はシステムの中の他のいずれかの記憶装置に記憶される。
【0019】
ユニット14は、更に、SAO構造をテーブル形式で受け取る自然言語ユニット22を含み、これらの構造を自然言語形式すなわち文に統合する。
ユニット14は、また、SAO構造を受け取り、その中からキーワード及びフレーズを抽出して、追加的なキーワード/フレーズとして用いるためのシノニムを取得する。
【0020】
データベース26、28及び30は、全体が示されているように、ユニット14から出力を受け取り、以下で説明するように、選択されたSAO構造の自然言語のサマリと、ポート21を介してサーチエンジンに送られるユーザ・リクエストを形成するキーワード/フレーズとを記憶する。
【0021】
ユニット16は、ユニット12からドキュメントのテキスト全体を受け取り、そのテキスト及びそれ以外のコンテンツを標準的な平文(plain text)のフォーマットに変換するドキュメント・プレフォーマッタ32を含む。テキスト・コーダ34は、テキストのそれぞれの文のそれぞれの単語を分析して、単語のタイプを指定するすべての単語にコードをタグとして付ける。図8を参照のこと。図4において指定された様々なデータベース44は、ユニット16の各ユニットを補助することができる。タグを付した後では、認識ユニット36が、それぞれの文の動詞グループ(図9)と名詞グループ(図10)とを識別する。次に、文パーザ38が、それぞれの文をパージングして、その文の意味を表す階層的なコード化された形式を作成する。図11では、SAO抽出器40が、それぞれの文のSAOを抽出されたテーブル形式(図12)として構成する。ノーマライザ(正規化器)42は、既に述べたように、抽出結果を正規化してSAO構造を作成する(図13)。
【0022】
SAOプロセッサ20は、3つの主なユニットを含む。比較ユニット46は、データベース18からSAO構造を受け取る。これらの構造の1つの組が、上述したユーザ・リクエスト・テキストから生じ、別の組が、候補ドキュメントから生じる。次に、ユニット46は、これらの2つの組のSAO構造の間に一致があるかどうかを求めて、これらの2つの組を比較する。結果的に一致がない場合には、候補ドキュメントと関連するSAOは削除される。一致が認められる場合には、ドキュメントは関連性ありとマークが付され、ランクが付けられ、ユニット12に記憶され、そのSAO構造はユニット18に記憶される。次に、ユニット46は、順にすべての候補ドキュメントを以上と同じ態様で比較する。
【0023】
ユニット20はまた、SAO構造再構成ユニット48を含むが、このユニットでは、同じ事柄に関する別のドキュメントからの新たなSAO構造を統合し、それらを上述したように新たな構造に合成して、ユニット18に与える。
【0024】
フィルタリング・ユニット50は、それぞれのドキュメントのすべてのSAO構造を分析して、リクエストのSAO構造と関連しないものをブロックすなわち削除する。
【0025】
参照番号52は、ユニット20のサブユニットに利用可能なデータベースを示している。
SAOシンセサイザ(統合)ユニット22(図6)は、それぞれの受け取られたSAO構造に対して主語のコンテンツを検出する主語検出器54を含む。Sが検出される場合には、SAOは、ユニット56に与えられるが、このユニット56では、動詞グループのツリー構造が、文法、意味論、スピーチ・パターン及びシノニムに関するルール・データベース66を用いて、自然言語として回復されている。シンセサイザ58は、主語の名詞グループについて同じことを行い、シンセサイザ60は、目的語の名詞グループに対して同じことを行う。そして、コンバイナ68が、これらのグループを合成して、自然言語による文を作成する。
【0026】
Sがユニット54によって検出されなかった場合には、SAO構造はシンセサイザ62によって処理され受動態の形式の動詞グループが回復される。シンセサイザ64は、受動態の文に対して目的語の名詞グループを処理し、コンバイナ70は、これらのグループを合成して自然言語の文を作成する。
【0027】
ユニット54によって受け取られたSAO構造が新たな構造マーキングを生じる場合には、コンバイナ68及び70がその出力をユニット28に与え、それらがマークが付された既存のSAO構造である場合には、ユニット68及び70は、出力をユニット26に与える。図3を参照のこと。
【0028】
本発明の原理による方法への顕著なステップが、図3に示されている。図3では、括弧内の数字は、プロセスのステップが生じる図2のユニットを指している。セッションは、ユーザが、キーボードを用いることによってカスタマイズすることができる又は図1に示された入力デバイスの1つを介して入力される自然言語ドキュメントである自然言語リクエストを入力することから開始する。典型的なユーザは、図7のシステム10のユニット14に示されているように、カスタマイズされたリクエストを発生し、次に、最初にそれぞれの単語にタイプ・コードをタグとして付し(図8)、次に、それぞれの文の動詞グループ(図9)と名詞グループ(図10)とを識別し、それぞれの文を処理して階層的なツリーを作成し(図11)、SAO抽出を抽出してすべての抽出された単語がリクエストのオリジナルとなるようにする(図12)。次に、この方法は、これらの単語のそれぞれを正規化(修正)して、それぞれの作用がその不定詞形(infinitive form)に変更されるようにする。従って、図12の「is isolated」は「ISOLATE」に変更され、「to」という単語が理解される(図13)。図11に現れている主語、作用及び動詞のすべての属性が図12及び図13に示されているとは限らないことを理解すべきであるが、システムは、SAO要素に関連する完全な属性を知っており、これらの属性はSAO構造の一部である。また、図13においては、最後の作用に対応する主語はリストに含まれていない。この理由は、計画ルールに従って示されているからである。この存在しないことが、方法全体の信頼性に影響を与えることはない。というのは、候補ドキュメントのすべての文は、分離−スライド(Isolate-slides)というA−Oを含んでおり、主語とは無関係な事項であると考えられるからである。正規化されたSAOは、ここでは、SAO構造と称される。これらのユーザ・リクエストのSAO構造は、次の2つのステップで記憶され与えられる。すなわち、(i)ユーザ・リクエストのキーワード/フレーズの統合と、(ii)以下で説明されるような、それぞれの候補ドキュメントのそれぞれの文のSAO構造の比較分析との2つのステップである。
【0029】
リクエストのSAO構造のキーワード/フレーズは、記憶され、標準的なサーチエンジンに送られて、ローカルなデータベース、LAN及び/又はウェブにおいて候補ドキュメントがサーチされる。アルタビスタ(AltaVistaTM)、ヤフー(YahooTM)又はそれ以外の一般的なサーチエンジンを用いることができる。このサーチエンジンは、リクエストのSAO構造のキーワード/フレーズを用いて、候補ドキュメントを識別し、それら(テキスト全体)をシステム10による分析のために記憶する。次に、サーチ・リクエストに対する上述のSAO分析が、それぞれの候補ドキュメントのそれぞれの文に対して反復され、それによって、図3に示されているように、SAO構造が発生され記憶される。更に、それぞれのドキュメントのSAO構造は、リクエストのSAO構造が候補ドキュメントのSAO構造と比較される比較ステップにおいて用いられる。一致が見いだされない場合には、そのドキュメントと関連のSAO構造とは、システムから削除される。1つ又は複数の一致が見いだされる場合には、ドキュメントと関連のSAO構造とは関連性ありとしてマークされる。その関連性の度合いは、例えば、1.0から10.0のスケールでマークが付される。関連性のあるドキュメントのテキストは、ユーザが望むのであれば、表示又は印刷のために、全体が恒久的に記憶される(ただし、ユーザが望むのであれば、後で削除可能である)。関連性のあるSAO構造もまた、関連性ありとしてマークが付されて、恒久的に記憶される。
【0030】
次に、システム10は、最も関連性の低いSAO構造をフィルタリングによって除去し、それぞれの関連するドキュメントの一致したSAO構造を用いて、一致したSAO構造とその一致したSAO構造に関連する完全な文が存在するページ数とを統合して自然言語によるサマリ文を統合する。このサマリは記憶され、希望する場合にはユーザが表示又は印刷ができる。
【0031】
関連するドキュメントの関連するSAO構造は、フィルタリングがなされた後で、分析され、すべての関連する構造の間で、主語、作用及び動詞の間の関係が識別される。そして、SAO構造が処理され、記憶されて自然言語による新たな文に統合されるように、新たなSAO構造に再構成される。新たな文は、おそらくはその中の幾つかの文は、ユーザが考慮すべき新しいアイデア、コンセプト及び思想を表現又は凝縮しているはずである。これらの新たな文は、ユーザが表示又は印刷するために記憶される。
【0032】
例えば、
S1−A1−O1
S2−A2−O2
S3−A3−O3
であり、S1はO3と同一であるかそのシノニムである場合には、S3−A3−S1−A1−O1は統合されて新たな文となり記憶される。
【0033】
従って、本発明による方法及び装置は、ユーザがリクエストした関心対象である領域に直接に関係する新たなアイデアを自動的に提供する。これらのアイデアの中の幾つかは、新規なものであって、ユーザが考察している問題、及び/又は、特定のドキュメント及びユーザのリクエストに直接に関係する特定のドキュメントの関係する部分のサマリに新たな解答を示唆する可能性がある。
【0034】
以上では本発明のシステム及び方法の応用例として技術的、科学的及び医学的な分野について述べたが、これらに限定されるという意味ではない。本発明は、歴史、哲学、神学、詩論、芸術又は書かれた言語が用いられるあらゆる分野において有用である。
【0035】
以上で開示されている実施例に対しては、本発明の精神及び範囲から逸脱することなく、様々な強化及び修正が可能であることを理解すべきである。
【図面の簡単な説明】
【図1】 本発明の原理によるシステムの1つの実施例の図解的な表現である。
【図2】 本発明によるシステムのアーキテクチャに関する主な構成要素の概略的な表現である。
【図3】 本発明の原理による方法の概略的な表現である。
【図4】 図2のユニット16の概略的な表現である。
【図5】 図2のユニット20の概略的な表現である。
【図6】 図2のユニット22の概略的な表現である。
【図7】 ユーザによって入力されたユーザ・リクエスト・テキストの典型的な例である。
【図8】 図7のテキストにタグを付し符号化した表現の例である。
【図9】 図8のテキストの動詞グループの識別である。
【図10】 図8の符号化されたテキストの名詞グループの識別である。
【図11】 図8のテキストがパージングされ階層的に符号化されたものの表現である。
【図12】 図7のテキストのSAO抽出の表現である。
【図13】 図12の抽出のSAO構造の表現である。
Claims (18)
- 自然言語によるドキュメントの分析及び選択システムであって、
モニタと、中央処理装置(CPU)と、記憶手段と、自然言語によるリクエストを表すリクエスト・データを発生するユーザ入力装置と、ローカル及びリモート自然言語ドキュメント・データベースと通信する通信装置と、を有し、前記CPUにより前記リクエスト・データが前記記憶手段に記憶されるようにした、汎用コンピュータと、
前記リクエスト・データの動詞グループ及び名詞グループを識別する意味論的プロセッサであって、これら動詞グループ及び名詞グループを用いてリクエストの主語・作用・目的語(SAO)抽出の表現を生成し、各リクエストのSAO抽出を正規化してリクエストのSAO構造を形成し、かつ該リクエストのSAO構造をSAOデータベースに記憶し、該リクエストのSAO構造からキーワード/キーフレーズを抽出し、該キーワード/キーフレーズに対する同義語を追加のキーワード/キーフレーズとして取得し、これらのキーワード/キーフレーズをサーチ・エンジンに通信して、前記通信装置による候補ドキュメント検索に供するようにした意味論的プロセッサと
を備えていることを特徴とするシステム。 - 請求項1記載のシステムにおいて、前記意味論的プロセッサは、前記リクエストのSAO抽出の前記表現と前記候補ドキュメントのSAO抽出の表現との間の一致を識別することを特徴とするシステム。
- 請求項2記載のシステムにおいて、前記意味論的プロセッサは、リクエストのSAO抽出の少なくとも1つの表現と一致する候補ドキュメントのSAO抽出の表現を少なくとも1つ含む候補ドキュメント・データを関連性ありとしてマークする手段を備えていることを特徴とするシステム。
- 請求項3記載のシステムにおいて、前記意味論的プロセッサは、候補ドキュメントのSAO抽出の表現がリクエストのSAO抽出の表現と一致しないようなドキュメントに対して、記憶されている候補ドキュメント・データと候補ドキュメントのSAO抽出の記憶された表現とを消去する手段を備えていることを特徴とするシステム。
- 請求項2記載のシステムにおいて、前記意味論的プロセッサは、複数の記憶されたテキスト・フォーマット化ルール、符号化ルール、単語タグ付けルール、SAO再構成ルール、パージング・ルール、SAO抽出ルール及び正規化ルールを有するSAOテキスト・アナライザを含んでおり、これらのルールは前記リクエスト・データ及び候補ドキュメント・データに適用され、候補ドキュメント及びリクエストのSAO抽出の表現がそれぞれ候補ドキュメント及びリクエストのSAO構造を構成することを特徴とするシステム。
- 請求項5記載のシステムにおいて、リクエストのSAO構造を統合し、統合されたSAO構造を発生しサーチワード/フレーズとして前記通信装置に適用してウェブ又はローカル・データベース上のドキュメント・サーチエンジンに適用し、候補ドキュメント・データのこのシステムへのダウンロードを生じさせる手段を更に備えていることを特徴とするシステム。
- 請求項5記載のシステムにおいて、ドキュメントのSAO構造の受信に少なくとも部分的に応答して、マークの付されたドキュメントの自然言語によるサマリを、前記モニタ上に表示するために発生し記憶するSAOシンセサイザを更に備えていることを特徴とするシステム。
- 請求項5記載のシステムにおいて、該システムはさらに、前記リクエストに関連性がありかつ記憶されている前記候補ドキュメントのSAO構造の間で主語、作用及び目的語の間の関係を分析し、少なくとも1つの他のSAO構造との関係を有するSAO構造を処理して別のSAO構造を発生し、前記別のSAO構造をユーザに表示するために記憶するSAOシンセサイザを更に備えていることを特徴とするシステム。
- 請求項8記載のシステムにおいて、前記関係は、S1がO2のシノニムであるとして、
S1−A1−O1
S2−A2−O2
を含む場合には、S2−A2−S1−A1−O1であることを特徴とするシステム。 - ワールド・ワイド・ウェブと、モニタ、中央処理装置(CPU)、ユーザ入力装置、記憶装置、並びにローカル及びリモートの自然言語ドキュメント・データベースとの通信のための通信装置を有する汎用コンピュータとを含むデジタル・データ処理システムにおいて、自然言語ドキュメントを分析及び選択する方法であって、
自然言語によるリクエストを受け取り、該リクエストをリクエスト・データとして記憶するステップと、
前記リクエスト・データを意味論的に処理するステップであって、
前記リクエスト・データの動詞グループ及び名詞グループを識別するステップと、
これら動詞グループ及び名詞グループを用いてリクエストの主語・作用・目的語(SAO)抽出の表現を生成するステップと、
各リクエストのSAO抽出を正規化してリクエストのSAO構造を形成するステップと、
該リクエストのSAO構造からキーワード/キーフレーズを抽出するステップと、
該キーワード/キーフレーズに対する同義語を追加のキーワード・キーフレーズとして取得するステップと、
これらのキーワード/キーフレーズをサーチ・エンジンに通信して、前記通信装置による候補ドキュメント検索に供するようにするステップと
からなる意味論的処理ステップと
を含むことを特徴とする方法。 - 請求項10記載の方法において、前記リクエストのSAO抽出と前記候補ドキュメントのSAO抽出との表現の間の一致を識別するステップを更に含むことを特徴とする方法。
- 請求項11記載の方法において、前記意味論的な処理は、リクエストのSAO抽出の少なくとも1つの表現と一致する候補ドキュメントのSAO抽出の表現を少なくとも1つ含む候補ドキュメント・データを関連性ありとしてマークすることを含むことを特徴とする方法。
- 請求項12記載の方法において、前記意味論的な処理は、リクエストのSAO抽出の表現と一致する候補ドキュメントのSAO抽出の表現を有していないドキュメントに対して、記憶されている候補ドキュメント・データと候補ドキュメントのSAO抽出の記憶されている表現とへのアクセスを削除することを含むことを特徴とする方法。
- 請求項11記載の方法において、前記意味論的な処理は、複数の記憶されたテキスト・フォーマット化ルール、名詞並びに動詞認識ルール、符号化ルール、単語タグ付けルール、SAO再構成ルール、パージング・ルール、SAO抽出ルール及び正規化ルールを前記リクエスト・データ及び候補ドキュメント・データに適用することを含んでおり、候補ドキュメント及びリクエストのSAO抽出の表現がそれぞれ候補ドキュメント及びリクエストのSAO構造を構成することを特徴とする方法。
- 請求項14記載の方法において、リクエストのSAO構造を統合し、統合されたSAO構造をサーチ・ワード/フレーズとして発生してウェブ又はローカル・データベース上のドキュメント・サーチエンジンに適用し、候補ドキュメント・データの前記CPUへのダウンロードを生じさせることを特徴とする方法。
- 請求項14記載の方法において、前記それぞれの関連するドキュメントのSAO構造の受信に関係して、マークの付された関連するドキュメントの自然言語によるサマリを、記憶し前記モニタ上に表示するステップを更に含むことを特徴とする方法。
- 請求項14記載の方法において、前記リクエストに関連性がありかつ記憶されている前記候補ドキュメントのSAO構造の間で主語、作用及び目的語の間の関係を分析するステップと、少なくとも1つの他の関連性を有し記憶されているSAO構造との関係を有するSAO構造を処理するステップと、少なくとも部分的に前記関係に基づいて別のSAO構造を発生するステップと、前記別のSAO構造を記憶し、前記別のSAO構造をユーザに表示するステップを更に含むことを特徴とする方法。
- 請求項17記載の方法において、前記関係が、
S1−A1−O1が1つの関連性を有し記憶されているSAO構造を含み、
S2−A2−O2が第2の関連性を有し記憶されているSAO構造を含む、
ということで構成され、前記関係は、S1がO2のシノニムであることを含む場合には、S2−A2−S1−A1−O1であることを特徴とする方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9964198P | 1998-09-09 | 1998-09-09 | |
US09/321,804 | 1999-05-27 | ||
US60/099,641 | 1999-05-27 | ||
US09/321,804 US6167370A (en) | 1998-09-09 | 1999-05-27 | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
PCT/US1999/019699 WO2000014651A1 (en) | 1998-09-09 | 1999-08-31 | Document semantic analysis/selection with knowledge creativity capability |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002524799A JP2002524799A (ja) | 2002-08-06 |
JP4467184B2 true JP4467184B2 (ja) | 2010-05-26 |
Family
ID=26796312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000569327A Expired - Lifetime JP4467184B2 (ja) | 1998-09-09 | 1999-08-31 | 知識創造可能性を有するドキュメントの意味論的分析及び選択 |
Country Status (9)
Country | Link |
---|---|
US (2) | US6167370A (ja) |
EP (1) | EP1112541A1 (ja) |
JP (1) | JP4467184B2 (ja) |
KR (1) | KR100594512B1 (ja) |
CN (1) | CN1325513A (ja) |
AU (1) | AU5790399A (ja) |
CA (1) | CA2341583A1 (ja) |
NO (1) | NO20011194L (ja) |
WO (1) | WO2000014651A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583422B2 (en) | 2009-03-13 | 2013-11-12 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
Families Citing this family (165)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7051024B2 (en) * | 1999-04-08 | 2006-05-23 | Microsoft Corporation | Document summarizer for word processors |
CN1212578C (zh) * | 1997-06-04 | 2005-07-27 | 盖瑞·L·夏普 | 用于在计算机***中创建信息数据库的方法 |
GB9821969D0 (en) * | 1998-10-08 | 1998-12-02 | Canon Kk | Apparatus and method for processing natural language |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US7509572B1 (en) * | 1999-07-16 | 2009-03-24 | Oracle International Corporation | Automatic generation of document summaries through use of structured text |
AU7564200A (en) * | 1999-09-22 | 2001-04-24 | Oleg Kharisovich Zommers | Interactive personal information system and method |
EP1275042A2 (en) * | 2000-03-06 | 2003-01-15 | Kanisa Inc. | A system and method for providing an intelligent multi-step dialog with a user |
US6311194B1 (en) * | 2000-03-15 | 2001-10-30 | Taalee, Inc. | System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US8478732B1 (en) * | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
US6711561B1 (en) | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
WO2001090934A1 (fr) * | 2000-05-23 | 2001-11-29 | Daniel Vinsonneau | Procede de recherche de donnees automatise et securise au moyen d'un reseau de transmission de donnees |
JP2001344243A (ja) * | 2000-05-31 | 2001-12-14 | Fuji Xerox Co Ltd | 文書データ送信装置、文書データ送受信システム及び文書データ送信方法 |
US6941513B2 (en) * | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6732097B1 (en) | 2000-08-11 | 2004-05-04 | Attensity Corporation | Relational text index creation and searching |
US6738765B1 (en) | 2000-08-11 | 2004-05-18 | Attensity Corporation | Relational text index creation and searching |
US6741988B1 (en) | 2000-08-11 | 2004-05-25 | Attensity Corporation | Relational text index creation and searching |
US6732098B1 (en) | 2000-08-11 | 2004-05-04 | Attensity Corporation | Relational text index creation and searching |
US6728707B1 (en) | 2000-08-11 | 2004-04-27 | Attensity Corporation | Relational text index creation and searching |
US7171349B1 (en) | 2000-08-11 | 2007-01-30 | Attensity Corporation | Relational text index creation and searching |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
EP1225517B1 (en) * | 2001-01-17 | 2006-05-17 | International Business Machines Corporation | System and methods for computer based searching for relevant texts |
US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
US6904428B2 (en) | 2001-04-18 | 2005-06-07 | Illinois Institute Of Technology | Intranet mediator |
JPWO2002097727A1 (ja) * | 2001-05-28 | 2004-09-16 | 善彌 河野 | 知識の自動生成方法、知識の自動生成システム、知識の自動生成プログラム、自動設計方法及び自動設計システム |
US20020184196A1 (en) * | 2001-06-04 | 2002-12-05 | Lehmeier Michelle R. | System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata |
GB2412988B (en) * | 2001-06-04 | 2005-12-07 | Hewlett Packard Co | System for storing documents in an electronic storage media |
US7376620B2 (en) * | 2001-07-23 | 2008-05-20 | Consona Crm Inc. | System and method for measuring the quality of information retrieval |
US8799776B2 (en) * | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
WO2003012661A1 (en) * | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
US6609124B2 (en) | 2001-08-13 | 2003-08-19 | International Business Machines Corporation | Hub for strategic intelligence |
US7283951B2 (en) | 2001-08-14 | 2007-10-16 | Insightful Corporation | Method and system for enhanced data searching |
US7398201B2 (en) * | 2001-08-14 | 2008-07-08 | Evri Inc. | Method and system for enhanced data searching |
US7526425B2 (en) | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
US7403938B2 (en) * | 2001-09-24 | 2008-07-22 | Iac Search & Media, Inc. | Natural language query processing |
US7353247B2 (en) * | 2001-10-19 | 2008-04-01 | Microsoft Corporation | Querying applications using online messenger service |
US20030084066A1 (en) * | 2001-10-31 | 2003-05-01 | Waterman Scott A. | Device and method for assisting knowledge engineer in associating intelligence with content |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US20030154071A1 (en) * | 2002-02-11 | 2003-08-14 | Shreve Gregory M. | Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents |
US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
EP1351156A1 (en) * | 2002-03-14 | 2003-10-08 | Universita' Degli Studi di Firenze | System and method for automatically performing functional analyses of technical texts |
US20030187632A1 (en) * | 2002-04-02 | 2003-10-02 | Menich Barry J. | Multimedia conferencing system |
US7107261B2 (en) * | 2002-05-22 | 2006-09-12 | International Business Machines Corporation | Search engine providing match and alternative answer |
US20040015481A1 (en) * | 2002-05-23 | 2004-01-22 | Kenneth Zinda | Patent data mining |
US20030229470A1 (en) * | 2002-06-10 | 2003-12-11 | Nenad Pejic | System and method for analyzing patent-related information |
AU2003243635A1 (en) * | 2002-06-17 | 2003-12-31 | Beingmeta, Inc. | Systems and methods for processing queries |
US20040039562A1 (en) * | 2002-06-17 | 2004-02-26 | Kenneth Haase | Para-linguistic expansion |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
US20040064447A1 (en) * | 2002-09-27 | 2004-04-01 | Simske Steven J. | System and method for management of synonymic searching |
CA2504680C (en) * | 2002-10-30 | 2014-04-01 | Vidius Inc. | A method and system for managing confidential information |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US7401072B2 (en) * | 2003-06-10 | 2008-07-15 | Google Inc. | Named URL entry |
US20050010559A1 (en) * | 2003-07-10 | 2005-01-13 | Joseph Du | Methods for information search and citation search |
US7813916B2 (en) | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
US20050144177A1 (en) * | 2003-11-26 | 2005-06-30 | Hodes Alan S. | Patent analysis and formulation using ontologies |
US7536368B2 (en) * | 2003-11-26 | 2009-05-19 | Invention Machine Corporation | Method for problem formulation and for obtaining solutions from a database |
US20050234738A1 (en) * | 2003-11-26 | 2005-10-20 | Hodes Alan S | Competitive product intelligence system and method, including patent analysis and formulation using one or more ontologies |
US7415101B2 (en) | 2003-12-15 | 2008-08-19 | At&T Knowledge Ventures, L.P. | System, method and software for a speech-enabled call routing application using an action-object matrix |
US20050138556A1 (en) * | 2003-12-18 | 2005-06-23 | Xerox Corporation | Creation of normalized summaries using common domain models for input text analysis and output text generation |
US7512545B2 (en) * | 2004-01-29 | 2009-03-31 | At&T Intellectual Property I, L.P. | Method, software and system for developing interactive call center agent personas |
US7689543B2 (en) * | 2004-03-11 | 2010-03-30 | International Business Machines Corporation | Search engine providing match and alternative answers using cumulative probability values |
US20050216828A1 (en) * | 2004-03-26 | 2005-09-29 | Brindisi Thomas J | Patent annotator |
US7620159B2 (en) | 2004-05-12 | 2009-11-17 | AT&T Intellectual I, L.P. | System, method and software for transitioning between speech-enabled applications using action-object matrices |
US7685118B2 (en) * | 2004-08-12 | 2010-03-23 | Iwint International Holdings Inc. | Method using ontology and user query processing to solve inventor problems and user problems |
US7623632B2 (en) * | 2004-08-26 | 2009-11-24 | At&T Intellectual Property I, L.P. | Method, system and software for implementing an automated call routing application in a speech enabled call center environment |
TWI340329B (en) * | 2004-10-01 | 2011-04-11 | Inst Information Industry | Patent summarization system, method and machine-readable storage medium |
US7672831B2 (en) * | 2005-10-24 | 2010-03-02 | Invention Machine Corporation | System and method for cross-language knowledge searching |
US7464078B2 (en) * | 2005-10-25 | 2008-12-09 | International Business Machines Corporation | Method for automatically extracting by-line information |
US7805455B2 (en) * | 2005-11-14 | 2010-09-28 | Invention Machine Corporation | System and method for problem analysis |
NZ569107A (en) | 2005-11-16 | 2011-09-30 | Evri Inc | Extending keyword searching to syntactically and semantically annotated data |
US20070260450A1 (en) * | 2006-05-05 | 2007-11-08 | Yudong Sun | Indexing parsed natural language texts for advanced search |
KR100785927B1 (ko) | 2006-06-02 | 2007-12-17 | 삼성전자주식회사 | 데이터 요약 생성 방법 및 장치 |
US8843475B2 (en) * | 2006-07-12 | 2014-09-23 | Philip Marshall | System and method for collaborative knowledge structure creation and management |
US7668791B2 (en) * | 2006-07-31 | 2010-02-23 | Microsoft Corporation | Distinguishing facts from opinions using a multi-stage approach |
CN101075308B (zh) * | 2006-11-08 | 2010-12-15 | 腾讯科技(深圳)有限公司 | 一种编辑电子邮件的方法 |
US9865240B2 (en) * | 2006-12-29 | 2018-01-09 | Harman International Industries, Incorporated | Command interface for generating personalized audio content |
US8954469B2 (en) | 2007-03-14 | 2015-02-10 | Vcvciii Llc | Query templates and labeled search tip system, methods, and techniques |
US9031947B2 (en) * | 2007-03-27 | 2015-05-12 | Invention Machine Corporation | System and method for model element identification |
US8301633B2 (en) | 2007-10-01 | 2012-10-30 | Palo Alto Research Center Incorporated | System and method for semantic search |
WO2009052308A1 (en) | 2007-10-17 | 2009-04-23 | Roseman Neil S | Nlp-based content recommender |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US8412516B2 (en) | 2007-11-27 | 2013-04-02 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8266519B2 (en) | 2007-11-27 | 2012-09-11 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8271870B2 (en) * | 2007-11-27 | 2012-09-18 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8417513B2 (en) * | 2008-06-06 | 2013-04-09 | Radiant Logic Inc. | Representation of objects and relationships in databases, directories, web services, and applications as sentences as a method to represent context in structured data |
US9953651B2 (en) | 2008-07-28 | 2018-04-24 | International Business Machines Corporation | Speed podcasting |
CN101404031B (zh) * | 2008-11-12 | 2012-05-30 | 北京搜狗科技发展有限公司 | 识别概念型网页的方法与*** |
TWI406199B (zh) * | 2009-02-17 | 2013-08-21 | Univ Nat Yunlin Sci & Tech | 線上閱讀輔助系統及方法 |
WO2010105218A2 (en) * | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | System and method for knowledge research |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
WO2011029474A1 (en) * | 2009-09-09 | 2011-03-17 | Universität Bremen | Document comparison |
US8364679B2 (en) * | 2009-09-17 | 2013-01-29 | Cpa Global Patent Research Limited | Method, system, and apparatus for delivering query results from an electronic document collection |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
US8281238B2 (en) * | 2009-11-10 | 2012-10-02 | Primal Fusion Inc. | System, method and computer program for creating and manipulating data structures using an interactive graphical interface |
US9262520B2 (en) | 2009-11-10 | 2016-02-16 | Primal Fusion Inc. | System, method and computer program for creating and manipulating data structures using an interactive graphical interface |
US20110119250A1 (en) * | 2009-11-16 | 2011-05-19 | Cpa Global Patent Research Limited | Forward Progress Search Platform |
US8793208B2 (en) * | 2009-12-17 | 2014-07-29 | International Business Machines Corporation | Identifying common data objects representing solutions to a problem in different disciplines |
CN102117283A (zh) * | 2009-12-30 | 2011-07-06 | 安世亚太科技(北京)有限公司 | 一种基于语义索引的数据检索方法 |
CN102117284A (zh) * | 2009-12-30 | 2011-07-06 | 安世亚太科技(北京)有限公司 | 一种跨语言知识检索的方法 |
CN102117285B (zh) * | 2009-12-30 | 2015-01-07 | 安世亚太科技股份有限公司 | 一种基于语义索引的检索方法 |
EP2354967A1 (en) | 2010-01-29 | 2011-08-10 | British Telecommunications public limited company | Semantic textual analysis |
EP2362333A1 (en) | 2010-02-19 | 2011-08-31 | Accenture Global Services Limited | System for requirement identification and analysis based on capability model structure |
US9710556B2 (en) | 2010-03-01 | 2017-07-18 | Vcvc Iii Llc | Content recommendation based on collections of entities |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US8620890B2 (en) | 2010-06-18 | 2013-12-31 | Accelerated Vision Group Llc | System and method of semantic based searching |
US8566731B2 (en) | 2010-07-06 | 2013-10-22 | Accenture Global Services Limited | Requirement statement manipulation system |
US8838633B2 (en) | 2010-08-11 | 2014-09-16 | Vcvc Iii Llc | NLP-based sentiment analysis |
CN102385596A (zh) * | 2010-09-03 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 一种诗句的搜索方法及装置 |
US9405848B2 (en) | 2010-09-15 | 2016-08-02 | Vcvc Iii Llc | Recommending mobile device activities |
CN102455997A (zh) * | 2010-10-27 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | 元件名称提取***及方法 |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US9317595B2 (en) | 2010-12-06 | 2016-04-19 | Yahoo! Inc. | Fast title/summary extraction from long descriptions |
US9400778B2 (en) | 2011-02-01 | 2016-07-26 | Accenture Global Services Limited | System for identifying textual relationships |
US9116995B2 (en) | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
US8935654B2 (en) | 2011-04-21 | 2015-01-13 | Accenture Global Services Limited | Analysis system for test artifact generation |
KR101268503B1 (ko) * | 2011-04-29 | 2013-06-04 | 포항공과대학교 산학협력단 | 특허지도 생성 시스템 및 그 방법 |
US9135237B2 (en) * | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
KR101327514B1 (ko) * | 2011-07-28 | 2013-11-08 | 포항공과대학교 산학협력단 | 의미론적 특허 유사성을 이용한 특허 네트워크 분석 시스템 및 이를 이용한 특허 네트워크 분석 방법 |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
US9715625B2 (en) * | 2012-01-27 | 2017-07-25 | Recommind, Inc. | Hierarchical information extraction using document segmentation and optical character recognition correction |
US9799040B2 (en) | 2012-03-27 | 2017-10-24 | Iprova Sarl | Method and apparatus for computer assisted innovation |
US8747115B2 (en) | 2012-03-28 | 2014-06-10 | International Business Machines Corporation | Building an ontology by transforming complex triples |
ITTO20120303A1 (it) * | 2012-04-05 | 2012-07-05 | Wolf S R L Dr | Metodo e sistema per effettuare analisi e confronti automatici di brevetti e descrizioni tecniche. |
US8539001B1 (en) | 2012-08-20 | 2013-09-17 | International Business Machines Corporation | Determining the value of an association between ontologies |
US9501469B2 (en) | 2012-11-21 | 2016-11-22 | University Of Massachusetts | Analogy finder |
US10810193B1 (en) | 2013-03-13 | 2020-10-20 | Google Llc | Querying a data graph using natural language queries |
US10713261B2 (en) | 2013-03-13 | 2020-07-14 | Google Llc | Generating insightful connections between graph entities |
US20140280050A1 (en) * | 2013-03-14 | 2014-09-18 | Fujitsu Limited | Term searching based on context |
US9646260B1 (en) * | 2013-06-24 | 2017-05-09 | Amazon Technologies, Inc. | Using existing relationships in a knowledge base to identify types of knowledge for addition to the knowledge base |
US9235653B2 (en) | 2013-06-26 | 2016-01-12 | Google Inc. | Discovering entity actions for an entity graph |
US9817823B2 (en) * | 2013-09-17 | 2017-11-14 | International Business Machines Corporation | Active knowledge guidance based on deep document analysis |
EP3055786A4 (en) | 2013-10-09 | 2017-05-17 | Google, Inc. | Automatic definition of entity collections |
US9916284B2 (en) | 2013-12-10 | 2018-03-13 | International Business Machines Corporation | Analyzing document content and generating an appendix |
US9659056B1 (en) | 2013-12-30 | 2017-05-23 | Google Inc. | Providing an explanation of a missing fact estimate |
CN103761264B (zh) * | 2013-12-31 | 2017-01-18 | 浙江大学 | 基于商品评论文档集的概念层次创建方法 |
RU2564641C1 (ru) * | 2014-05-27 | 2015-10-10 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Кубанский государственный технический университет" (ФГБОУ ВПО "КубГТУ") | Интеллектуальная информационная система выбора "оптимэль" |
US9818307B2 (en) * | 2014-07-28 | 2017-11-14 | Sparkting Llc | Communication device interface for a semantic-based creativity assessment |
US9916375B2 (en) * | 2014-08-15 | 2018-03-13 | International Business Machines Corporation | Extraction of concept-based summaries from documents |
CN112270925B (zh) * | 2014-09-14 | 2024-05-10 | 谷歌有限责任公司 | 用于创建可定制对话***引擎的平台 |
CN104391969B (zh) * | 2014-12-04 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 确定用户查询语句句法结构的方法及装置 |
US10459925B2 (en) | 2014-12-08 | 2019-10-29 | Iprova Sarl | Computer-enabled method of assisting to generate an innovation |
US10339122B2 (en) * | 2015-09-10 | 2019-07-02 | Conduent Business Services, Llc | Enriching how-to guides by linking actionable phrases |
US20200168343A1 (en) * | 2016-02-29 | 2020-05-28 | Koninklijke Philips N.V. | Device, system, and method for classification of cognitive bias in microblogs relative to healthcare-centric evidence |
CN106227714A (zh) * | 2016-07-14 | 2016-12-14 | 北京百度网讯科技有限公司 | 一种基于人工智能的获取生成诗词的关键词的方法和装置 |
CN107168950B (zh) * | 2017-05-02 | 2021-02-12 | 苏州大学 | 一种基于双语语义映射的事件短语学习方法及装置 |
US11544799B2 (en) | 2017-12-05 | 2023-01-03 | Sureprep, Llc | Comprehensive tax return preparation system |
US11238540B2 (en) | 2017-12-05 | 2022-02-01 | Sureprep, Llc | Automatic document analysis filtering, and matching system |
US11314887B2 (en) * | 2017-12-05 | 2022-04-26 | Sureprep, Llc | Automated document access regulation system |
US10489644B2 (en) | 2018-03-15 | 2019-11-26 | Sureprep, Llc | System and method for automatic detection and verification of optical character recognition data |
US11048762B2 (en) * | 2018-03-16 | 2021-06-29 | Open Text Holdings, Inc. | User-defined automated document feature modeling, extraction and optimization |
US10762142B2 (en) | 2018-03-16 | 2020-09-01 | Open Text Holdings, Inc. | User-defined automated document feature extraction and optimization |
RU2707917C1 (ru) * | 2019-01-24 | 2019-12-02 | Открытое акционерное общество "МБКИ" ОАО "МБКИ" | Способ поиска методов разрешения технических противоречий и система на основе обучаемой нейронной сети для его осуществления |
US11610277B2 (en) | 2019-01-25 | 2023-03-21 | Open Text Holdings, Inc. | Seamless electronic discovery system with an enterprise data portal |
US11829723B2 (en) | 2019-10-17 | 2023-11-28 | Microsoft Technology Licensing, Llc | System for predicting document reuse |
US11790165B2 (en) * | 2021-01-26 | 2023-10-17 | Microsoft Technology Licensing, Llc | Content element recommendation system |
US11860950B2 (en) | 2021-03-30 | 2024-01-02 | Sureprep, Llc | Document matching and data extraction |
CN116069922B (zh) * | 2023-04-06 | 2023-06-20 | 广东远景信息科技有限公司 | 基于检索信息进行法律法规筛选的方法及*** |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829423A (en) * | 1983-01-28 | 1989-05-09 | Texas Instruments Incorporated | Menu-based natural language understanding system |
US5696916A (en) * | 1985-03-27 | 1997-12-09 | Hitachi, Ltd. | Information storage and retrieval system and display method therefor |
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US4864502A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Sentence analyzer |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
NL8900247A (nl) * | 1989-02-01 | 1990-09-03 | Bso Buro Voor Systeemontwikkel | Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave. |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
US5559940A (en) * | 1990-12-14 | 1996-09-24 | Hutson; William H. | Method and system for real-time information analysis of textual material |
US5377103A (en) * | 1992-05-15 | 1994-12-27 | International Business Machines Corporation | Constrained natural language interface for a computer that employs a browse function |
US5369575A (en) * | 1992-05-15 | 1994-11-29 | International Business Machines Corporation | Constrained natural language interface for a computer system |
JPH0635961A (ja) * | 1992-07-17 | 1994-02-10 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
JP3202381B2 (ja) * | 1993-01-28 | 2001-08-27 | 株式会社東芝 | 文書検索装置及び文書検索方法 |
JP2821840B2 (ja) * | 1993-04-28 | 1998-11-05 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置 |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
JPH07160684A (ja) * | 1993-12-03 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 文書圧縮装置および文書圧縮方法 |
US5802504A (en) * | 1994-06-21 | 1998-09-01 | Canon Kabushiki Kaisha | Text preparing system using knowledge base and method therefor |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5873076A (en) * | 1995-09-15 | 1999-02-16 | Infonautics Corporation | Architecture for processing search queries, retrieving documents identified thereby, and method for using same |
JPH09160929A (ja) * | 1995-12-11 | 1997-06-20 | Ricoh Co Ltd | 文書処理装置及び方法 |
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
-
1999
- 1999-05-27 US US09/321,804 patent/US6167370A/en not_active Expired - Lifetime
- 1999-08-31 CA CA002341583A patent/CA2341583A1/en not_active Abandoned
- 1999-08-31 WO PCT/US1999/019699 patent/WO2000014651A1/en active IP Right Grant
- 1999-08-31 CN CN99813079A patent/CN1325513A/zh active Pending
- 1999-08-31 JP JP2000569327A patent/JP4467184B2/ja not_active Expired - Lifetime
- 1999-08-31 KR KR1020017003095A patent/KR100594512B1/ko not_active IP Right Cessation
- 1999-08-31 EP EP99945272A patent/EP1112541A1/en not_active Withdrawn
- 1999-08-31 AU AU57903/99A patent/AU5790399A/en not_active Abandoned
-
2001
- 2001-02-07 US US09/745,261 patent/US20010014852A1/en not_active Abandoned
- 2001-03-08 NO NO20011194A patent/NO20011194L/no unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US8583422B2 (en) | 2009-03-13 | 2013-11-12 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
US8666730B2 (en) | 2009-03-13 | 2014-03-04 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
Also Published As
Publication number | Publication date |
---|---|
EP1112541A1 (en) | 2001-07-04 |
CA2341583A1 (en) | 2000-03-16 |
CN1325513A (zh) | 2001-12-05 |
US20010014852A1 (en) | 2001-08-16 |
WO2000014651A1 (en) | 2000-03-16 |
NO20011194D0 (no) | 2001-03-08 |
KR100594512B1 (ko) | 2006-06-30 |
KR20010075026A (ko) | 2001-08-09 |
AU5790399A (en) | 2000-03-27 |
JP2002524799A (ja) | 2002-08-06 |
NO20011194L (no) | 2001-05-03 |
US6167370A (en) | 2000-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4467184B2 (ja) | 知識創造可能性を有するドキュメントの意味論的分析及び選択 | |
US10650087B2 (en) | Systems and methods for content extraction from a mark-up language text accessible at an internet domain | |
JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
US6714905B1 (en) | Parsing ambiguous grammar | |
US8645405B2 (en) | Natural language expression in response to a query | |
US6745181B1 (en) | Information access method | |
Alexa et al. | A review of software for text analysis | |
US20020010574A1 (en) | Natural language processing and query driven information retrieval | |
US20040073874A1 (en) | Device for retrieving data from a knowledge-based text | |
US20040117352A1 (en) | System for answering natural language questions | |
JP2012520527A (ja) | ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 | |
JP4200834B2 (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
KR20120001053A (ko) | 문서 감성 분석 시스템 및 그 방법 | |
WO2002021324A1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
US7127450B1 (en) | Intelligent discard in information access system | |
JP3191762B2 (ja) | 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
WO2001024053A9 (en) | System and method for automatic context creation for electronic documents | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2001034630A (ja) | 文書ベース検索システム、およびその方法 | |
Smits et al. | Personal semantic indexation of images using textual annotations | |
JPH0540783A (ja) | 自然言語解析装置 | |
JP2001273328A (ja) | データベース処理装置、データベース処理方法、およびデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JPH06187329A (ja) | 自然言語処理装置 | |
Kim | Noun phrases in documents: Preprocessing, automatic extraction, and statistical analysis in different categories of text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090528 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090828 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100223 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |