JP2002108856A - 言語談話モデルを用いる文書分析のためのシステム及び方法 - Google Patents

言語談話モデルを用いる文書分析のためのシステム及び方法

Info

Publication number
JP2002108856A
JP2002108856A JP2001226901A JP2001226901A JP2002108856A JP 2002108856 A JP2002108856 A JP 2002108856A JP 2001226901 A JP2001226901 A JP 2001226901A JP 2001226901 A JP2001226901 A JP 2001226901A JP 2002108856 A JP2002108856 A JP 2002108856A
Authority
JP
Japan
Prior art keywords
text
discourse
unit
node
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001226901A
Other languages
English (en)
Inventor
Pooranii Ribia
ポーラニー リビア
Henck Van Den Berg Martin
ヘンク ヴァン デン バーグ マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2002108856A publication Critical patent/JP2002108856A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 本発明は、記述文書の内容の分析に関する。 【解決手段】 談話の理論を用いる文書分析のための技
法は、内容、機能成句、及び修飾成句のテキスト構築単
位に、テキストを分類し、且つ該分類されたテキスト構
築単位に、等位、従属及び二項対立関係を用いる相互の
関連付けを与える。相互関係により作成される談話の構
造的表現は、容易に表示され得るので、談話の図式的な
表現が示され得る。テキストの文書構造の分析及び図式
的な表現は、著述者が文書を分析し且つ比較することを
支援する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、記述文書の内容の
分析に関する。
【0002】
【従来の技術】現在の文書分析は、著述者のレビュー
(検閲)プロセスを含んでいる。これらのプロセスは、
作者、指導者、編集者及び/又は一人かそれ以上の記述
文書をレビューする同僚を含む。これらのプロセスは、
例えばEメールを介してコンピュータネットワーク上で
レビュープロセスが行なわれることを可能とすることに
より、コンピュータ拡張されることもできる。代わり
に、前記レビュープロセスは、コンピュータ拡張された
共同製作的なレビュー環境内において、行なわれること
もでき、そこでは、参加者が前記文書を論評する。
【0003】
【発明が解決しようとする課題】これらの文書分析プロ
セスは、多数の問題を含んでいる。著述の仕事場におい
て、指導者は、対象読者の視点から当該テキストをレビ
ューする。該指導者は、問題のある言葉に対してフィー
ドバックを与える。指導者は、しばしば文が正しくない
ことを示唆するが、通常は、テキストが何故正しくない
かを正確に説明するミクロ分析を与えることはない。
【0004】実際に、レビュー者は、レビューにおける
構造の2つのレベルに注意を集中しがちである。レビュ
ー者は、文法チェックによって安心するので、レビュー
者はテキスト全体について文法チェックを実行するかも
しれない。少ない頻度ではあるが、不明瞭又はあいまい
な文が識別される。しかしながら、レビュー者は、通常
の場合、何故文が不明瞭なのか、あいまいなのか、又は
異議があるかを説明しない。問題の個所が識別され、そ
してユーザは、問題をどのように修正するかを理解する
ことが求められている。
【0005】第2の問題は、各レビュー者の文体上の好
みに由来する。レビュー者の主観的な文体の好みは、結
果として記述文書についてのレビュー者の批評に影響を
及ぼすであろう。したがって、その文書が、所望の情報
をいかに良好に読者に伝達するかという客観的な指示を
受け取らずに、レビュー者は、主観的な文体の好みに注
目してしまうかもしれない。
【0006】さらに、レビューされるべき材料の全量
は、レビュー者を相対的に一層容易な問題に注目すべく
強要しがちである。例えば、テキストの全体構成は、詳
細に分析された偶発的な具体例としての文構成のみによ
って批評されるかもしれない。
【0007】ゼロックス社(Xerox Corpor
ation)の「ノートカード(Notecard
s)」及びイーストゲート社(EastGate Co
rporation)の「ストーリースペース(Sto
rySpace)」ツール、ばかりでなく、マイクロソ
フトワード(Microsoft Word)(商標)
ワードプロセッサアプリケーションにおける「アウトラ
インビュー(outline view)」のようなア
ウトラインツールは、著述者がより高いレベルのコンセ
プト及びイシューを作成するのを助ける。次に著作者
は、骨組み内で各アイデアを発展させることに集中すれ
ばよい。しかしながら、これらのツールは、コンセプト
及びトピックレベル以下のテキストの構造及び編成のた
めのものではない。これらのツールは、意味の単位をど
のようにして相互に関係付けるかの分析をサポートして
いないので、それらは、コンセプト及びイシューレベル
よりも下位のテキストをどのようにして改善するかを著
述者に示すために使用されることはできない。
【0008】「グラマティックII(Grammati
ck II)」及びマイクロソフトワード(商標)にお
ける文法ツールのような、文法チェックツールは、フレ
ッシュの読み易さ指標(Flesch Reading
Ease Index)又はフレッシュ−キンケード
グレードレベル指標(Flesch−KincaidG
rade Level index)のような、種々の
異なる法則に基づき読み易さを決定するために、選択さ
れたテキストに統計に基づく法則を適用する。これらの
ツールは、句またがり文、文断片、古体表現及び性限定
的な表現を識別するために文書テキストに適用され得る
ルールのセットをも提供する。しかしながら、これらの
ツールは、単に、テキストがルールを満足しているか否
かを示すだけである。これらのツールは、識別されたル
ール違反に基づいてテキストを改善するための示唆を与
えるかもしれないが、これらのツールは、テキストの構
造的表現を与えることはない。それゆえ、これらのツー
ルは、テキストの単位間の意味の関係をどのように改善
するかをユーザに示すことはできない。
【0009】テキスト解析ツールは、マルク(Marc
u)、「自然言語テキストの修辞的構文解析(The
Rhetorical parsing of nat
ural language texts)」Proc
eedings of the 35th Annual
Meeting of the Associati
on for Computational Ling
uistics and the 8th Confer
ence of the EuropeanChapt
er of the Association for
Computational Linguistic
s(コンピュータ言語学協会の第35回年次総会及びコ
ンピュータ言語学協会のヨーロッパ支部の第8回カンフ
ァレンス会報)、マドリッド、1997年7月、96−
103、に記述されているように、分析的骨組みに基づ
くテキストの構造的表現を提供し得る。マルクに記述さ
れたシステムは、例えば、改善された談話レベルの自動
自然言語処理を目的とするテキストの分析に向けられた
ものである。それは、テキストの構造又はスタイルの改
善、又は生成されるであろう将来の著述物の編成をどの
ように改善するかということにおいて著述者を教育する
ことに向けたものではない。
【0010】マルクに開示された修辞的構造理論は、高
度に複雑な理論である。分析の基本単位は、明確に表現
されてはいない。その上に、それらが採用する単位間に
おける基本的な関係において互いに異なる修辞的構造理
論のいくつかのバリエーションが存在する。関係それ自
体は、非常に複雑であり、重複しており、そしてあいま
いである。例えば、マン(Mann)及びトムソン(T
hompson)により開発されたように(1988
年)、古典的な修辞的構造理論は、少なくとも、10個
の表現上の関係、5個の多核関係及び15個の主題関係
を含んでいる。トレーニングコーダは、何週間もの集中
的な調査及び監修を必要とする非常に長いタスクであ
る。単位を一緒にリンクする関係について、経験を積ん
だコーダ間に見解の強い相違が生じる。コーダ間の信頼
性は、非常に低い。異なるコーダによって選定される分
析のレベルに依存して、修辞的構造関係にラベル付けさ
れた完全に異なる構造ツリーが作成される。それゆえ
に、異なる修辞的構造理論アナライザは、同一のテキス
トの著しく異なる構造表現を作成するかもしれない。一
緒に生じるこれらの事実は、最終目標が、テキストにミ
クロ分析が適用されることにより、学生に彼らの著述伝
達手腕の改善を支援する学習環境において修辞的構造理
論を適用しようとするときに、特別な問題を引き起こ
す。
【0011】サマリストシステムは、ホービー(Hov
y)及びリン(Lin)、Proceedings o
f the Workshop of Intelli
gent Scalable Text Summar
ization(インテリジェントスケーラブルテキス
トサマライゼーションのワークショップの会報)、19
97年7月、における「サマリストにおける自動化され
たテキストのサマライゼーション(Automated
Text Summarization in SU
MMARIST」によって論じられているように、著述
者の意図の判別において、辞書に基づく単語の意味の象
徴的な世界知識と共に、統計的な技法を使用する。該サ
マリストシステムは、主題に関するキーワードサマリを
作成する重要なキーワードを識別するために統計的な技
法を使用している。
【0012】したがって、これらの従来の自然言語処理
システムは、テキスト言語資料における意図された意味
を識別しようとする。これらのシステムは、テキスト内
に提供される言語学上の制約情報を活用しておらず、そ
の代わりに統計的な分析及び頻度カウントに頼ってい
る。著者が伝達しようとする情報についてはこの統計的
な情報から決定がなされている。それから、この情報が
質問を促進するのに用いられる。
【0013】上述した従来のシステムは、テキストのミ
クロ分析は提供しない。それらは、何故テキストが正し
くないかをユーザに示すこと、又は該テキストをどのよ
うに直すかを決定するための基礎を提供する。そのよう
なミクロ分析システムは、高価なツールとなるであろ
う。コーダ間での高信頼を達成している間にユーザにど
のようなテキストも分析することを許容するシステム及
び方法も望まれる。そのようなシステムは、テキスト単
位間の意味の関係をどのように改善するかをユーザに示
すべきであり、そして著述されたテキストが視覚化され
ることを可能としなければならない。
【0014】
【課題を解決するための手段】本発明は、談話分析の言
語談話モデル理論を用いて文書を分析するためのシステ
ム及び方法を提供する。
【0015】本発明に従ったシステム及び方法は、高い
コーダ間信頼性を提供し、且つ容易に教示され且つ理解
される。その上に、本発明に従ったシステム及び方法
は、著述者が、多くの異なるアプリケーションにおいて
テキスト編成及び構造を改善することを許容させる伝達
手段を提供する。本発明は、言語的談話モデルを用いる
テキストの分析を提供する。本発明に従ったシステム及
び方法は、著述物のジャンル及び特定の文書の視覚化を
も提供する。特に、本発明に従ったシステム及び方法
は、引用によりここに組み込まれた同時係属中の合衆国
特許出願に開示されたツールのような、コンピュータ介
在著述教示ツールに集積化され得る。
【0016】本発明の第1の態様では、テキストを分析
するために使用することができる談話分析システムであ
って、単位テキストが、テキスト内のさらにエンコード
される情報について文脈設定情報を与えるか否かを決定
する修飾成句決定回路と、単位テキストが、編成構造、
論理構造の局面での注釈、及び文脈に対する感情的な反
応の表現、の少なくともいずれか1つを与えるか否かを
決定する機能成句決定回路と、単位テキストが、ある実
体の属性であり、状態、行為及び所信の少なくとも1つ
の表現を与えるか否かを決定する内容決定回路と、第2
の単位テキストが、第1の単位テキストにより始められ
た又は継続された談話活性を継続して、談話の構造的表
現における該第1の単位テキストに対して該第2の単位
テキストをリンクする等位決定回路と、前記第2の単位
テキストが、前記第1の単位テキストにより始まった談
話活性をさらに詳しく述べ又は中途妨害する場合に、談
話の構造的表現における第1の単位テキストに対して第
2の単位テキストをリンクする従属決定回路と、前記第
1の単位テキストと前記第2の単位テキストとの関係が
等位関係でなく、従属関係でもない場合に、談話の構造
的表現における第1の単位テキストに対して第2の単位
テキストをリンクする二項対立決定回路と、を具備する
談話分析システムを提供する。
【0017】第2の態様では、第1の態様における前記
システムは、文書テキストを分析するために用いられて
もよい。
【0018】第3の態様では、第1の態様における前記
システムは、発話から複数のテキスト単位に変換された
話し言葉テキストを分析するために用いられてもよい。
【0019】第4の態様では、第1の態様における前記
システムは、英語テキストを分析するために用いられて
もよい。
【0020】第5の態様では、第1の態様における前記
システムは、法律文書を分析するために用いられてもよ
い。
【0021】第6の態様では、第1の態様における前記
システムは、医学文書を分析するために用いられてもよ
い。
【0022】第7の態様では、第1の態様における前記
システムは、あらゆるタイプの通信を分析するために用
いられてもよい。
【0023】第8の態様では、第1の態様における前記
システムは、あらゆるタイプの記録された通信を分析す
るために用いられてもよい。
【0024】第9の態様では、第1の態様において、前
記構造的表現はツリー構造であってもよい。
【0025】第10の態様では、第9の態様において、
前記ツリー構造は、右開放ツリー構造であってもよい。
【0026】第11の態様では、第1の態様において、
前記分析は、特定のジャンルについての談話の構造的表
現を、テキストについての談話の構造的表現と比較する
ことにより達成されてもよい。
【0027】第12の態様では、第1の態様において、
前記分析は、特定のジャンルについての談話の構造的表
現を視覚化したものを、テキストについての談話の構造
的表現と比較することにより達成されてもよい。
【0028】本発明の第13の態様では、テキストの談
話分析の方法であって、テキストを複数の単位テキスト
にセグメント区分するステップと、複数の前記単位テキ
ストの各々について、単位テキストが、テキスト内のさ
らにエンコードされる情報について文脈設定情報を与え
るか否かを決定するステップと、単位テキストが、編成
構造及び論理構造の局面での注釈、並びに文脈に対する
感情的な反応の表現のうちの少なくともいずれか1つを
与えるか否かを決定するステップと、単位テキストが、
ある実体の属性であり、状態、行為及び所信の少なくと
も1つの表現を与えるか否かを決定するステップと、第
1の単位テキストを談話の構造的表現内に根ノードとし
て挿入するステップと、未だツリー内に挿入されていな
い複数の単位テキストの各々について、単位テキストを
現在の単位テキストとして選択するステップと、前記現
在の単位テキストを結合するために談話の構造的表現に
おけるノードを選択するステップと、前記現在の単位テ
キストが、談話の構造的表現における第1のノードによ
り始められた又は継続された談話活性を継続する場合、
前記現在の単位テキストが該談話を継続すると決定され
た場合には、前記選択されたノードを等位ノードと置き
換えるステップと、該選択されたノードを、前記等位ノ
ードの左側子ノードに加え、及び、前記現在の単位テキ
ストを表現する新たなノードを前記等位ノードの右側子
ノードとして加えるステップと、次の単位テキストが、
談話の構造的表現における第1のノードにより、始まっ
た談話活性をさらに詳しく述べ又は中途妨害する場合に
は、第1のノードを従属ノードと置き換え、第1のノー
ドを左側子ノードとして加え、選択された次の単位テキ
ストを右側子ノードとして加えるステップと、次の単位
テキストと談話の構造的表現における前記第1のノード
との関係が等位でなく、従属でもない場合には、前記第
1のノードを二項対立ノードと置き換え、第1のノード
を左側子ノードとして加え、次の単位テキストを右側子
ノードとして加えるステップと、を有する談話分析方法
を提供する。
【0029】第14の態様では、第13の態様における
前記方法は、文書を分析するために用いられてもよい。
【0030】第15の態様では、第13の態様における
前記方法は、少なくとも第1の単位のテキスト単位及び
第2の単位のテキスト単位に変換された話し言葉を分析
するために用いられてもよい。
【0031】第16の態様では、第13の態様における
前記方法は、英語テキストを分析するために用いられて
もよい。
【0032】第17の態様では、第13の態様における
前記方法は、他の人間言語テキストを分析するために用
いられてもよい。
【0033】第18の態様では、第14の態様における
前記方法は、法律文書を分析するために用いられてもよ
い。
【0034】第19の態様では、第14の態様における
前記方法は、医学文書を分析するために用いられてもよ
い。
【0035】第20の態様では、第13の態様における
前記方法は、あらゆるタイプの通信を分析するために用
いられてもよい。
【0036】第21の態様では、第13の態様における
前記方法は、あらゆるタイプの記録された通信を分析す
るために用いられてもよい。
【0037】第22の態様では、第13の態様におい
て、前記構造的表現はツリー構造であってもよい。
【0038】第23の態様では、第22の態様におい
て、前記構造的表現は右開放ツリー構造であってもよ
い。
【0039】第24の態様では、第13の態様におい
て、前記分析は、談話ジャンルの構造的表現を、テキス
トの談話の構造的表現と比較することにより達成されて
もよい。
【0040】第25の態様では、第13の態様におい
て、前記分析は、談話ジャンルの構造的表現の視覚化し
たものを、テキストの談話の構造的表現と比較すること
により達成されてもよい。
【0041】
【発明の実施の形態】本発明は、同様の要素には同様の
番号で標識化して添付図面を参照して説明されるであろ
う。
【0042】図1は、言語談話モデルに基づいて著述物
を分析するシステム100の一つの具体的な実施の形態
のブロック図である。テキストは、言語談話モデルアナ
ライザ100を用い、言語談話モデルに従って分析され
る。言語談話モデルアナライザ100は、入出力インタ
フェース110、プロセッサ120、メモリ130、テ
キスト構築単位内容決定回路140、機能成句決定回路
150、修飾成句決定回路160、関係等位決定回路1
70、従属決定回路180及び二項対立決定回路190
を備え、それらの全てはデータ通信リンク195を介し
て接続されている。図1に示されるように、メモリ13
0は、構造表現メモリ132を含んでいる。入出力イン
タフェース110は、外部通信リンク112にも接続さ
れている。通信リンク112及び195は、各々、デー
タ/制御バス、光ファイバ、無線、ローカルエリアネッ
トワーク、ワイドエリアネットワーク又は他の既知の又
はその今後開発される任意の通信リンクをも含むどのよ
うなタイプの通信リンクであることもできる。現在存在
する又は将来開発されるあらゆるタイプの通信リンクが
使用され得る。
【0043】ユーザは、音声入力、ユニックス(UNI
X(登録商標))のエディタvi、EMACS又はマイ
クロソフトのワードプロセッシングエディタのワード
(商標)のような、編集プログラム、等のような、テキ
スト入力の任意の方法を用いて著述テキストを作成す
る。テキストは、ASCII(アスキー)テキストファ
イル、ワードプロセッシングファイル、本発明のシステ
ム及び方法を用いて分析されるであろうテキストを表現
するための既知の又は今後開発される任意の方法を含む
HTML、XMLのようなウェブページを含むが、本発
明はこれらに限定されず、任意の著述物であって良い。
前記テキストは、通信リンク112を経由し、入出力イ
ンタフェース110を通ってメモリ130にロードされ
ても良い。
【0044】前記テキストは、それから、文における意
味の最小のパッケージを反映する離散的なテキスト構築
単位にセグメント区分される。1つの文にはいくつかの
テキスト構築単位が存在してもよく、あるいはたった一
つ存在しても良い。日付、感嘆文、文の断片及びタイト
ルのような、不完全な文も、言語談話著述モデルアナラ
イザ100によって取り扱われてもよい。他の理論と異
なり、言語談話モデルは、適切に機能するために、よい
形態に形成され且つ完全な文であることが要求されな
い。文における意味のパッケージに関するさらなる議論
は、「談話の言語談話構造(The Linguist
ic Discourse Structure of
Discourse)」、Technical Re
port,Center for the Study
of Language andInformati
on(言語及び情報研究センタ、テクニカルレポー
ト)、スタンフォード大学(Stanford Uni
versity)、1996年11月、に見出されるで
あろう。
【0045】一旦、テキストがメモリ130にロードさ
れると、テキスト構築単位タイプ決定回路140〜16
0のうちの1つが作動される。各テキスト構築単位につ
いての1つの具体的な実施の形態においては、現在のテ
キスト構築単位が内容テキスト構築単位であるか否かを
決定するために、内容決定回路140が作動される。議
論の目的のために、前記タイプ決定回路は、順番に説明
される。しかしながら、テキスト構築単位のタイプの決
定は、どのような順序で行なわれてもよく、あるいは並
列的に行なわれてもよい。内容テキスト構築単位は、明
示されていようと明示されていまいと、それらの中心に
動詞を有する。内容テキスト構築単位は、いくつかの状
態、行為又は所信、すなわち達成又はいくつかの実体の
属性、を説明する。例えば、「John is my
friend(ジョンは私の友達である)」というフレ
ーズにおいて、friend(友達)であるという特性
がJohn(ジョン)に割り当てられている。それゆ
え、該フレーズは、内容テキスト構築単位である。「J
ohn ran to the fire stati
on at the corner(ジョンは、角にあ
る消防署へ走っていった)」というフレーズにおいて、
John(ジョン)の行為がrunning(走るこ
と)であることは明確である。「John belie
ves in something(ジョンは、何かを
信じている)」というフレーズにおいて、John(ジ
ョン)の所信が説明されており、これが内容構築単位で
あることを示唆している。「John believe
s Mary ran to the fire st
ation at the corner(ジョンは、
メアリーが角にある消防署へ走っていったと信じてい
る)」というフレーズにおいて、「John beli
eves(ジョンは、…と信じている)」なるフレーズ
は、1つの内容テキスト構築単位であると同時に、「M
ary ran tothe fire statio
n at the corner(メアリーは角にある
消防署へ走っていった)」は、第2の内容テキスト構築
単位である。
【0046】現在のテキスト構築単位が、内容テキスト
構築単位でなければ、現在のテキスト構築単位が機能成
句テキスト構築単位であるか否かを決定するために、機
能成句決定回路150が作動される。機能成句テキスト
構築単位は、テキスト編成又は論理構成の局面について
の注釈を提供し、あるいは文脈内における何かに対する
感情的な反応を説明しても良い。
【0047】機能成句テキスト構築単位のいくつかの例
は、「Anyway(いずれにしても)」、「Wow
(ワウ)」、「OK(オーケー)」、「As ment
ioned above(上述したように)」、「So
(そう)」、及び「However(カンマ又は抑揚に
よって区分されているとき:しかしながら)」を含んで
いる。内容テキスト構築単位は、間投詞、感嘆詞及び論
理的な連結語又はフレーズ内にエンコードされる。
【0048】現在のテキスト構築単位が、内容テキスト
構築単位でも機能成句テキスト構築単位でもなければ、
現在のテキスト構築単位が修飾成句テキスト構築単位で
あるか否かを決定するために、修飾成句決定回路150
が作動される。修飾成句テキスト構築単位は、テキスト
内でさらにエンコードされる情報について文脈設定情報
を提供する。
【0049】修飾成句及び内容テキスト構築単位のいく
つかの例は、「having arrived hom
e early, John ate lunch(家
に早く着いたので、ジョンは昼食を食べた)」を含んで
いる。「having arrived home e
arly(家に早く着いたので)」というフレーズは、
John ate lunch(ジョンは昼食を食べ
た)という内容情報についての文脈を与える。同様にし
て、「By doing her homework
on the bus, Mary had time
for piano practice(バスの上で
彼女の宿題をすることにより、メアリーにはピアノの練
習のための時間があった)」というフレーズにおいて、
「by doing her homework on
the bus(バスの上で彼女の宿題をすることに
より)」は、修飾成句テキスト構築単位である。
【0050】普通は、修飾成句テキスト構築単位は、文
の一部であるけれども、そこには例外がある。例えば、
「On the side of the housi
ngfor each drum: do X. Do
Y. Do Z(各太鼓のハウジングの側方におい
て、Xをする。Yをする。Zをする)」というフレーズ
において、「On the side of the
housing for each drum(各太鼓
のハウジングの側方において)」という修飾成句テキス
ト構築単位は、「X」をするという文の一部ではなく、
むしろ、この修飾成句テキスト構築単位は、続く3つの
文の全てにわたる範囲を持つ独立した単位である。
【0051】修飾成句テキスト構築単位は、場所、時
間、状況又は方法を特定する前置詞句ばかりでなく、し
ばしば「(動詞)ing」又は「having (動
詞)ed」の形態でエンコードされる。英語の直接的な
編成においては、修飾成句テキスト構築単位は、通常そ
れらが修飾する節の前に配置される。著述される英語の
慣例は、これらの修飾成句テキスト構築単位が、文の残
りの部分からカンマによって分離されることを必要とす
る。このカンマは、該文を声に出して読む際に「聞く」
ことができ、そこでは、韻律的なイントネーション、言
葉の区切り方及び休止のきっかけが区切り点を示唆す
る。
【0052】上述において議論されたテキスト構築単位
の各々のタイプの決定は、議論を容易にするためのもの
であり、上述した順序に限定されるものではない。特
に、テキスト構築単位の各々についての単位の決定は、
どのような順序ででも実行することができる。一旦、テ
キスト構築単位が、内容決定回路140、機能成句決定
回路150及び/又は修飾成句決定回路160により、
タイプによって、分類されると、種々の例示的な実施の
形態において、分析されたテキストを視覚化するために
適する談話の構造的表現が組み立てられるであろう。代
わりに、他の例示的な実施の形態では、談話の構造的表
現は、各テキスト構築単位のタイプが決定された通りに
作成されるかもしれない。
【0053】例示的な実施の形態においては、第1のテ
キスト構築単位は、構造的表現メモリ132における右
側開談話ツリーの根ノードすなわち要素として挿入され
る。等位決定回路170は、それから、談話ツリーの根
ノードとして挿入された第1のテキスト構築単位とその
次のテキスト構築単位の間に等位関係が存在するか否か
を決定するために作動される。
【0054】等位関係は、それ以前に第1のテキスト構
築単位により開始され又は継続された談話活性を第2の
テキスト構築単位が継続するときに2つのテキスト構築
単位の間に存在する。等位は、テキスト構築単位がリス
ト状の方法で組み合わせられた構成である。「Pari
s is the capital of Franc
e. Vienna is the capital
of Austria. Amsterdam is
the capital of the Nether
lands(パリはフランスの首都である。ウィーンは
オーストリアの首都である。アムステルダムは、オラン
ダの首都である)」のような列挙が、等位である。列挙
には、「John came in. He walk
ed into the kitchen. He p
ut the groceries on the t
able(ジョンは入ってきた。彼は歩いてキッチンへ
入った。彼はテーブルの上に食品雑貨類を置いた)」の
ようなイベントシーケンスの物語のリストも含んでい
る。等位結合された単位は、全て共通の何かを有し、且
つ、しかも独立している。
【0055】この場合、テキスト構築単位は、等位ノー
ドによって談話ツリーにリンクされる。特に、第1のテ
キスト構築単位を表現する第1のテキストノードは、新
たな等位ノードにより置換され、且つ、前記第1のテキ
ストノードは、前記新たな等位ノードのリーフノードと
なる。前記新たな等位ノードは、前記第1のテキスト構
築単位を表現する第1のテキストノードを、前記新たな
等位ノードの左側の子ノードとして談話ツリー内にリン
クしている。次に、加えられるべき第2のテキスト構築
ユニットを表現する第2のテキストノードは、新たな等
位ノードの右側子ノードとして、新たな等位ノードにリ
ンクされる。いくつかのケースにおいて、後続のテキス
ト構築単位は、談話ツリー内で等位ノードのもとに兄弟
として既に互いに関係付けられたテキスト構築単位で達
成される活性を延長するかもしれない。この場合におい
て、第3のテキスト構築ユニットを表現する第3のテキ
ストノードが、既存の等位ノードのもとに新たな右側子
ノードとして加えられるであろう。前記第2のノード
は、中間子ノードとなる。付加的なノードが同様にして
加えられても良い。該等位は、子ノードとして関連し得
るノードの数によって制限されることはない。
【0056】第2のテキスト構築単位が第1のテキスト
構築単位に、等位として関係付けられていなければ、談
話ツリーの根ノードとして挿入された第1のテキスト構
築単位と第2のテキスト構築単位との間に従属関係が存
在するか否かを決定するために、従属決定回路180が
作動される。
【0057】テキスト構築単位間の関係が等位関係でな
ければ、第2のテキスト構築単位は、当該テキスト構築
単位が談話ツリーにおける活性談話をさらに詳しく述べ
るか又は中途妨害するか否かを決定するために分析され
る。談話は、それが談話ツリーの右縁に沿って配置され
ているテキスト構築単位を表現する関係ノード又はテキ
ストノードを持っていれば、活性である。第2のテキス
ト構築単位が、活性談話を、さらに詳しく述べ、又は中
途妨害するならば、第2のテキスト構築単位と先のテキ
スト構築単位との関係は、従属関係として定義される。
言語談話モデルにおいては、従属は、実際の内容を収容
する従属テキスト構築単位を、従属テキスト構築単位に
直接的に加えていない従属テキスト構築単位に関係付け
る。例えば、「Paris is the capit
al of France. It has a nu
mber of interesting museu
ms(パリはフランスの首都である。それは、多数の興
味深い博物館を有している)」である。従属テキスト構
築単位「It has a number ofint
eresting museums(それは、多数の興
味深い博物館を有している)」は、「Paris is
the capital of France(パリ
はフランスの首都である)」を述べるフレーズに直接付
加しない。同様に、談話の進行における中途妨害は、従
属として分類される。「Johncame in. W
hy do I tell you this?(ジョ
ンは入ってきた。私がこれをあなたに何故伝えるのか
?)」というフレーズは、John came in
(ジョンは入ってきた)ということを述べるテキスト構
築単位に直接的に加えない従属テキスト構築単位を含ん
でいる。したがって、それは、関係に従属ノードの内容
を加えない。
【0058】このケースにおいて、第1のテキストノー
ドは、新たな従属ノードによって置換され、且つ第1の
テキストノードは、前記従属ノードのリーフノードとな
る。第2のテキスト構築単位を表現する第2のテキスト
ノードは、新たな従属ノードの右側子ノードとして談話
ツリーにリンクされる。
【0059】従属テキスト構築単位が談話の進行を中断
するというコンセプトは、それが、言語談話モデルが、
これらの中断が著述されたテキストにおいて見出される
までの延長を取得し且つ作成することを可能とするの
で、重要である。カッコ間の情報、テキストにおける情
報をどのように解釈するかについての情報、又はテキス
トそれ自体の形成についての情報は、良く構造化された
テキストにさえも見出される中断の例である。従属テキ
ストは、談話の主たる進行に対する2次的な定義による
ので、従属テキストは、テキストの主たる見解に影響す
ることなく、考慮から除去しても良い。
【0060】テキスト構築単位の間の関係が等位でなく
且つ従属でもなければ、二項対立決定回路190が、談
話ツリーの根ノードに挿入された第1のテキスト構築単
位と第2のテキスト構築単位との間に二項対立関係が存
在するか否かを決定するために作動される。言語談話モ
デルにおいては、2項対立は、特定の言語に又は特定の
言語内の特定のジャンルに特有の2個又はそれ以上のノ
ードにより構成される。二項対立関係は、二項対立関係
により関係付けられるべきテキスト構築単位間の関係か
ら直接的には推定されない。それよりもむしろ、二項対
立関係は、質問/回答の対、及びマニュアル、レシピ、
小説及びよくある質問のリストのような文書レベルのジ
ャンルを作るテキスト構築単位を関係付けるために用い
られる。これらのタイプの文書の各々において、トップ
レベル構造は二項対立関係として説明される。
【0061】それゆえ、第2のテキスト構築単位と談話
ツリーの右縁を形成する第1のテキスト構築単位との間
の関係が等位でなく且つ従属でなければ、第2のテキス
ト構築単位は談話ツリーにおける第1のテキスト構築単
位と共に二項対立の関係を有するものとして分類され
る。第1のテキストノードは、新たな二項対立ノードに
置き換えられ、且つ該第1のテキストノードは、二項対
立ノードの左側の子ノードとなる。第2のテキスト構築
単位を表現する第2のテキストノードは、それから、新
たな二項対立ノードの右側の子ノードとして加えられ
る。
【0062】いくつかのケースにおいて、付加される後
続のテキスト構築単位は、二項対立ノードのもとに兄弟
として、談話ツリーにおいて、二項対立のもとに互いに
関係付けられた付加的なノードとして加えられても良
い。この場合、例えば第3のテキスト構築単位を表現す
る新たな第3のテキストノードは、既存の二項対立ノー
ドのもとに、新たな右側子ノードとして加えられるであ
ろう。既存の第2のノードは、中間の子ノードとなる。
付加されるノードは、同様にして加えられる。二項対立
ノードは、子ノードとして、関係付け可能なノードの数
に限定されない。
【0063】議論のために、関係決定回路170〜19
0は、ある順序に沿って説明してきた。しかしながら、
該回路が任意の順序で動作しても、並列的に動作しても
良いことは明らかであろう。
【0064】言語談話モデルを用いる1つの例示的な実
施の形態においては、ユーザは、テキストを通して進行
し、談話の構造的表現は、右側開ツリーである。したが
って、テキスト構築単位を表現するテキストノードは、
談話ツリーの右縁においてのみ談話ツリーに加えられ
る。結果として、談話ツリーに次のテキスト構築単位が
加えられ得る潜在的な挿入点は、容易に決定され且つユ
ーザに提供され得る。種々の例示的実施の形態におい
て、挿入点のリストは、制約されたドロップダウン選択
ボックス又は他の表示又はプロンプトの形態でユーザに
対して表示され得る。その代わりに、談話の構造的表現
は、テキストの視覚化を提供するどのような表現であっ
てもよい。
【0065】図2及び図3は、本発明に従って言語談話
モデルを用いる記述テキストを分析するための方法の1
つの例示的な実施の形態を要約するフローチャートを示
している。ステップS100において始まり、制御はス
テップS110に続き、そこでは、言語談話モデルによ
ってテキストが分析される。次に、ステップS120に
おいて、テキストはテキスト構築単位にセグメント区分
される。テキスト構築単位は、言語談話モデルにおける
意味の最小の単位である。文は、単一のテキスト構築単
位により形成されても良く、あるいは多重のテキスト構
築単位により形成されても良い。上述において議論した
ように、言語談話モデルは、タイトル、日付、感嘆文及
び文の断片のような、不完全な言語構造を分析するのに
用いることができる。これは、機能させるために、完全
な、良く形成された文章を必要とする他の談話の理論と
対照的である。それから、ステップS130において、
分析されるべき、セグメント区分されたテキストの部分
が選択される。次に、ステップ140において、第1の
テキスト構築単位が選択される。それから、制御はステ
ップ150へ続く。
【0066】ステップS150において、選択されたテ
キスト構築単位が、内容テキスト構築単位であるかどう
かの決定がなされる。テキスト構築単位が、内容テキス
ト構築単位であれば、制御はステップS160へ続く。
テキスト構築単位が、内容テキスト構築単位でなけれ
ば、制御はステップS170へ移る。ステップS160
においては、決定されたタイプが内容に設定される。そ
れから、制御は、ステップS200へ移る。
【0067】対照的に、ステップS170においては、
テキスト構築単位が修飾成句であるかどうかが決定され
る。テキスト構築単位が修飾成句テキスト構築単位であ
れば、制御はステップS190へ移る。テキスト構築単
位が修飾成句テキスト構築単位でなければ、制御はステ
ップS180へ続く。ステップS180において、テキ
スト構築単位は、機能成句タイプテキスト構築単位であ
ると決定され、且つ決定されたタイプは、機能成句に設
定される。制御は、それから、ステップS200へ移
る。対照的に、ステップS190において、決定された
修飾成句は、修飾成句タイプに設定される。制御は、そ
れから、ステップS200へ継続する。
【0068】ステップS200において、割り当てられ
たタイプは、決定されたタイプと等しくセットされる。
次に、ステップS210において、全てのテキスト構築
単位が割り当てられたかどうかが決定される。全てのテ
キスト構築単位が割り当てられたのであれば、制御は、
ステップS230へ続く。さもなければ、制御はステッ
プS220へ移る。ステップS220において、次のテ
キスト構築単位が選択される。それから、制御は、ステ
ップS150へ戻る。
【0069】一旦、全てのテキスト構成単位がテキスト
構成単位タイプに割り当てられると、制御は、ステップ
S230へ移り、そしてそこでは、第1のテキスト構築
単位が選択され、且つ根ノードとして談話の構造的表現
内に挿入される。例示的な実施の形態においては、構造
的表現は、右側が開いたツリーである。それから、ステ
ップS240において、次のテキスト構築単位が現在の
テキスト構築単位として選択される。次に、ステップS
250において、結合されるべきノードは、ツリー内に
既に存在するノードの1つから選択される。談話の構造
的表現内にリンクされるの数が増大するにつれて、結合
されるために選択されるノードの数も増大することは明
らかである。上述において論じたように、潜在的な結合
点は、談話の構造的表現におけるノードの制限されたリ
ストか否かという形態でユーザに提供される。適切な結
合点についてのあいまいさは、談話の構造的な表現にお
けるノードの色、フォント、サイズ又は他の何らかの特
性のような特性によって指示される。いくつかのテキス
トは、ジャンルにおけるあいまいさを利用する。例え
ば、詩著述は、言語談話モデルアナライザ100を用い
ることによって分析される著述の形態である。詩におい
ては、多重のレベルにおいて意味を伝達するためにあい
まいさが用いられる。言語談話モデルアナライザ100
は、あいまいなノードについての談話の構造的表現にお
ける視覚的なきっかけ及び情報のエンコードを通してこ
れらのあいまいさの分析を許容する。結合すべきノード
が有効な結合点のリストから選択された後に、制御は、
ステップS260に続く。
【0070】ステップS260において、結合すべきノ
ードと次の選択されたテキスト構築単位との間に存在す
る関係が等位であるかどうかの決定がなされる。関係が
等位であると決定されたら、制御はステップS270へ
移り、そこでは結合されるべきノードが等位ノードと置
き換えられる。そして、制御はステップS310へ移
る。決定ステップS260が等位ノードを示さなけれ
ば、制御はステップS280へ移行する。
【0071】ステップS280において、該関係が従属
関係であるかどうかが決定される。関係が従属であると
決定されたならば、制御はステップS290に移り、そ
こでは結合されるべきノードが従属ノードと置き換えら
れる。次に、制御はステップS310へ移る。
【0072】ステップS280における決定が、関係は
従属でないことを示したならば、制御はステップS30
0へ移る。ステップS300において、関係が二項対立
関係であると決定され、結合されるべきノードは新たな
二項対立ノードと置き換えられる。制御は、次に、ステ
ップS310へ移行する。
【0073】ステップ310において、第1のテキスト
構築単位は、ステップS260、S280及びS300
において決定された新たに加えられた関係ノードの左側
子ノードとして加えられる。選択されたノードは、前記
新たに加えられた関係ノードの右側子ノードとして加え
られる。それから、ステップS340に移る。ステップ
S340において、未だ談話ツリーに加えられていない
テキスト構築単位があるかどうかの決定がなされる。ツ
リーに加えられるべきテキスト構築単位が残っているな
らば、制御はステップS240へジャンプし、そして次
のテキスト構築単位が選択される。ツリーに加えられる
べきテキスト構築単位が残っていなければ、制御はステ
ップS350へ移行し、そして処理は終了する。
【0074】談話の言語談話モデル理論のルールを用い
るテキストの編成構造を構築することは、あらゆるテキ
ストにおけるテキスト構築単位の間の関係のより良い理
解をユーザが得ることを可能とする。編成的ツリーの構
築の間に、ユーザは、読者に所望の情報を伝達するため
に、テキスト構築単位が、どのようにして相互に関連付
けられなければならないかを理解することが促される。
このツリー構築プロセスは、ユーザ自身の著述及び他の
人々の著述又は特定ジャンルの著述の伝達局面のユーザ
の理解を増大させる。テキスト構築単位についての適切
な挿入点に関してあいまいさが存在すれば、このあいま
いさは、読者が次のテキスト構築単位により表現される
同一の意味の単位についての経験をするであろうあいま
いさを強調する。言語談話モデルを用いて作成される談
話の構造的表現の視覚化は、例えば、法律文書、詩、フ
ィクション、説明的な著述又は任意のタイプの著述又は
談話のような、異なるタイプの著述スタイルをユーザが
速やかに理解することを可能とする。
【0075】言語談話モデルアナライザ100を用いる
著述分析のためのシステム及び方法は、プログラムされ
た汎用コンピュータ上にインプリメントされ得ることが
理解されるべきである。しかしながら、言語談話モデル
アナライザ100を用いる著述分析のためのシステム及
び方法は、特定用途向けのコンピュータ、プログラムさ
れたマイクロプロセッサ又はマイクロコントローラ及び
周辺の集積化された回路要素、ASIC又は他の集積回
路、ディジタルシグナルプロセッサ、ディスクリート要
素回路のようなハードワイヤド電子又はロジック回路、
PLD、PLA、FPGA又はPAL等のようなプログ
ラマブル論理デバイス上にもインプリメントされ得る。
概して、有限の状態のマシンを少なくともインプリメン
トすることができる、すなわちその結果図2及び図3に
示されるフローチャートをインプリメントすることがで
きる、どのようなデバイスも、言語談話モデルアナライ
ザ100を用いる著述分析のためのシステム及び方法を
実施するために用いることができる。
【0076】言語談話モデルアナライザ100を用いる
著述分析のためのシステム及び方法は、処理回路及びル
ーチンが、ネットワーク共同的環境全体にわたって分配
される又は中央に配置されるであろう回路又はルーチン
を含む言語談話モデルアナライザ100コンポーネント
を用いる著述分析のためのシステム及び方法のいくつか
又は全てが共同的なネットワークされた学習環境に用い
られても良いことは明らかであろう。前記環境はウェブ
サーバ、アプリケーションサーバ、又は他のあらゆるタ
イプのコンピュータシステムを含んでいてもよい。一般
に、該システムは、単独で又はあらゆる数の他の汎用プ
ログラム可能な又は特定用途のコンピュータ又はコンポ
ーネント及びネットワークされた共同的学習環境、クラ
イアントサーバ環境及びウェブベースの環境を含むあら
ゆるタイプの環境との組み合わせにおいて使用されるで
あろう。
【0077】言語談話モデル(LDM)の公式の定義
は、次のパラグラフにおいて説明される。
【0078】LDM内において、談話構造ツリーTのセ
ットは、内容単位C、機能成句O、修飾成句Mの基本カ
テゴリに基づいて定義される。定義の記述を単純化する
ために、ツリーは、線形形態で記述する。例えば、トッ
プノードcoord及び子ノードt1からtnを有するツ
リーは、coord(t1…tn)と記述する。
【0079】c∈Cならば、c∈T cが内容単位ならば、cはツリー。
【0080】内容単位の例は「A man walke
d in(男が入ってきた)」及び「What is
John’s phone number(ジョンの電
話番号は何番ですか)」である。
【0081】o∈Oならば、o∈T oが機能成句単位ならば、oはツリー。
【0082】機能成句の例は、「Anyway(とにか
く)」、「Oh(オー)」及び「Hello(ハロ
ー)」である。機能成句は、談話の流れについての情報
を説明する。
【0083】t1…tn∈Tならば、coord(t1
n)∈T t1…tnがn個のツリーならば、coord(t1
n)はツリーであり、t 1…tnの等位と呼ばれる。等
位の例は「John came in through
the backdoor. He put the
groceries on the table(ジ
ョンは裏口を通って入ってきた。彼は食料雑貨をテーブ
ル上に置いた)」である。この場合、等位関係が2つの
(内容)単位間に存在し、それらは口語においては等し
い要素である。
【0084】t1,t2 ∈ Tならば、sub(t1
2) ∈ T t1,t2がツリーならば、sub(t1,t2)はツリー
であり、t2からt1の従属と呼ばれる。従属の例は、
「Sue came in through the
garage. She had forgotten
her keys(スーはガレージを通って入ってき
た。彼女はキーを忘れた)」である。この場合、従属関
係は、2つの(内容)単位の間に存在し、第2の単位は
第1の単位についての情報、すなわち、ガレージを通っ
て入ってくる理由は何か、を与えている。注記:従属は
常に2つの間にある。
【0085】t1…tn ∈ Tならば、bin(t1
n) ∈ T t1…tnがツリーならば、bin(t1…tn)はツリー
であり、t1…tnの二項対立の組み合わせと呼ばれる。
二項対立の例は、「how are youdoing
? I’m doing fine!(ご機嫌はいかが
ですか?元気です!)」という挨拶、及び「Do yo
u want more coffee? Yes(も
っとコーヒーが欲しいですか?はい)」という質問/回
答の対である。
【0086】m ∈ M で且つt ∈ Tならば、b
in(m,t) ∈ T mが修飾成句単位で、tがツリーならば、bin(m,
t)はツリーである。修飾成句の例は、「Every
other Saturday in July, t
here is a concert in the
park(7月の隔週の土曜日に公園でコンサートがあ
る)」における「Every other Satur
day in July(7月の隔週の土曜日に)」で
ある。「There is a concert in
the park(公園でコンサートがある)」とい
う単位だけからなる談話は、今、コンサートがあること
(又は我々が論じることになった時点におけるある瞬間
に)を意味しているのに対し、修飾された談話「Eve
ry other Saturday in Jul
y, there is a concert in
the park(7月の隔週の土曜日に公園でコンサ
ートがある)」は、7月の隔週の土曜日にコンサートが
あることを意味している。これは、単位が解釈される文
脈を修飾成句がどのように変更するかを説明している。
他の例は、「Usually, Kimtakes t
he bus to work and Robin
takes the train(いつも、キムは、仕
事に行くのにバスを使い、そしてロビンは列車を使
う)」における「Usually(いつも)」である。
これは、修飾成句は、基本的でない談話単位を修飾する
ことを説明している。第3の例は、「When Mar
y arrived, Ann was happy
(メアリーが到着したとき、アンは幸福であった)」に
おける「When Mary arrived(メアリ
ーが到着したとき)」である。このことは、修飾成句
は、それら自体に前置詞的な内容を含み得るということ
を説明している。注記:修飾成句は、特定の2個所の二
項対立として、それらの主題と組み合わされる。
【0087】この定義は、談話ツリーが構築される全て
の方法を与える。2つの単位u1及びu2の等位からなる
ツリーは、2つの子ノードu1及びu2と、トップノード
coordとのツリー、coord(u1,u2)と記述
される。これに、第3の単位u3を、多数の異なる方法
で組み合わせることができる。 1.等位を継続して、結果としてツリーcoord(u
1,u2,u3)となる。 2.ノードu2に従属されて、結果としてツリーcoo
rd(u1,sub(u2,u3))となる。 3.ツリーのトップノードに従属されて、結果としてツ
リーsub(coord(u1,u2),u3)となる。 4.ノードu2に対して二項対立関係を形成して、結果
としてツリーcoord(u1,bin(u2,u3))
となる。 5.ツリーのトップノードに対して二項対立関係を形成
して、結果としてツリーbin(coord(u1
2),u3)となる。 6.ノードu2に対して等位とされて、結果としてツリ
ーcoord(u1,coord(u2,u3))とな
る。 7.ツリーのトップノードに対して等位とされて、結果
としてツリーcoord(coord(u1,u2),u
3)となる。
【0088】修正及び変更は、当該技術分野における熟
達者には明らかであろう。したがって、上述したような
発明の例示的な実施の形態は、限定ではなく、説明的で
あることを意図している。発明の精神及び範囲から逸脱
することなく、種々の変更がなされて良い。
【図面の簡単な説明】
【図1】本発明に従ったシステムの1つの具体的な実施
の形態のブロック図である。
【図2】本発明に従って言語談話モデルを用いて著述さ
れたテキストを分析するための方法の1つの具体的な実
施の形態を略述するフローチャートである。
【図3】本発明に従って言語談話モデルを用いて著述さ
れたテキストを分析するための方法の1つの具体的な実
施の形態を略述するフローチャートである。
【符号の説明】
100 言語談話モデルアナライザ 110 入出力インタフェース 112 外部通信リンク 120 プロセッサ 130 メモリ 140 テキスト構築単位内容決定回路 150 機能成句決定回路 160 修飾成句決定回路 170 関係等位決定回路 180 従属決定回路 190 二項対立決定回路 195 データ通信リンク
フロントページの続き (72)発明者 マーティン ヘンク ヴァン デン バー グ アメリカ合衆国 94304 カリフォルニア 州 パロ アルト ヒルビュー アベニュ ー 3400 ビルディング 4 エフエック ス パロ アルト ラボラトリー インコ ーポレイテッド内 Fターム(参考) 5B009 QA01 QA09 5B091 AA15 CA07 CA14

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 テキストを分析するために使用すること
    ができる談話分析システムであって、 単位テキストが、テキスト内のさらにエンコードされる
    情報について文脈設定情報を与えるか否かを決定する修
    飾成句決定回路と、 単位テキストが、編成構造、論理構造の局面での注釈、
    及び文脈に対する感情的な反応の表現、の少なくともい
    ずれか1つを与えるか否かを決定する機能成句決定回路
    と、 単位テキストが、ある実体の属性であり、状態、行為及
    び所信の少なくとも1つの表現を与えるか否かを決定す
    る内容決定回路と、 第2の単位テキストが、第1の単位テキストにより始め
    られた又は継続された談話活性を継続して、談話の構造
    的表現における該第1の単位テキストに対して該第2の
    単位テキストをリンクする等位決定回路と、 前記第2の単位テキストが、前記第1の単位テキストに
    より始まった談話活性をさらに詳しく述べ又は中途妨害
    する場合に、談話の構造的表現における第1の単位テキ
    ストに対して第2の単位テキストをリンクする従属決定
    回路と、 前記第1の単位テキストと前記第2の単位テキストとの
    関係が等位関係でなく、従属関係でもない場合に、談話
    の構造的表現における第1の単位テキストに対して第2
    の単位テキストをリンクする二項対立決定回路と、 を具備する談話分析システム。
  2. 【請求項2】 前記システムは、文書テキストを分析す
    るために用いられる請求項1に記載の談話分析システ
    ム。
  3. 【請求項3】 前記システムは、発話から複数のテキス
    ト単位に変換された話し言葉テキストを分析するために
    用いられる請求項1に記載の談話分析システム。
  4. 【請求項4】 前記システムは、あらゆるタイプの記録
    された通信を分析するために用いられる請求項1に記載
    の談話分析システム。
  5. 【請求項5】 前記構造的表現はツリー構造である請求
    項1に記載の談話分析システム。
  6. 【請求項6】 前記ツリー構造は、右開放ツリー構造で
    ある請求項5に記載の談話分析システム。
  7. 【請求項7】 前記分析は、特定のジャンルについての
    談話の構造的表現を、テキストについての談話の構造的
    表現と比較することにより達成される請求項1に記載の
    談話分析システム。
  8. 【請求項8】 前記分析は、特定のジャンルについての
    談話の構造的表現を視覚化したものを、テキストについ
    ての談話の構造的表現と比較することにより達成される
    請求項1に記載の談話分析システム。
  9. 【請求項9】 テキストの談話分析の方法であって、 テキストを複数の単位テキストにセグメント区分するス
    テップと、 複数の前記単位テキストの各々について、 単位テキストが、テキスト内のさらにエンコードされる
    情報について文脈設定情報を与えるか否かを決定するス
    テップと、 単位テキストが、編成構造及び論理構造の局面での注
    釈、並びに文脈に対する感情的な反応の表現のうちの少
    なくともいずれか1つを与えるか否かを決定するステッ
    プと、 単位テキストが、ある実体の属性であり、状態、行為及
    び所信の少なくとも1つの表現を与えるか否かを決定す
    るステップと、 第1の単位テキストを談話の構造的表現内に根ノードと
    して挿入するステップと、 未だツリー内に挿入されていない複数の単位テキストの
    各々について、 単位テキストを現在の単位テキストとして選択するステ
    ップと、 前記現在の単位テキストを結合するために談話の構造的
    表現におけるノードを選択するステップと、 前記現在の単位テキストが、談話の構造的表現における
    第1のノードにより始められた又は継続された談話活性
    を継続する場合、前記現在の単位テキストが該談話を継
    続すると決定された場合には、前記選択されたノードを
    等位ノードと置き換えるステップと、 該選択されたノードを、前記等位ノードの左側子ノード
    に加え、及び、前記現在の単位テキストを表現する新た
    なノードを前記等位ノードの右側子ノードとして加える
    ステップと、 次の単位テキストが、談話の構造的表現における第1の
    ノードにより、始まった談話活性をさらに詳しく述べ又
    は中途妨害する場合には、第1のノードを従属ノードと
    置き換え、第1のノードを左側子ノードとして加え、選
    択された次の単位テキストを右側子ノードとして加える
    ステップと、 次の単位テキストと談話の構造的表現における前記第1
    のノードとの関係が等位でなく、従属でもない場合に
    は、前記第1のノードを二項対立ノードと置き換え、第
    1のノードを左側子ノードとして加え、次の単位テキス
    トを右側子ノードとして加えるステップと、を有する談
    話分析方法。
  10. 【請求項10】 前記方法は、文書を分析するために用
    いられる請求項9に記載の談話分析方法。
  11. 【請求項11】 前記方法は、少なくとも第1の単位の
    テキスト単位及び第2の単位のテキスト単位に変換され
    た話し言葉を分析するために用いられる請求項9に記載
    の談話分析方法。
  12. 【請求項12】 前記方法は、あらゆるタイプの記録さ
    れた通信を分析するために用いられる請求項9に記載の
    談話分析方法。
  13. 【請求項13】 前記構造的表現は、ツリー構造である
    請求項9に記載の談話分析方法。
  14. 【請求項14】 前記構造的表現は、右開放ツリー構造
    である請求項13に記載の談話分析方法。
  15. 【請求項15】 前記分析は、談話ジャンルの構造的表
    現を、テキストの談話の構造的表現と比較することによ
    り達成される請求項9に記載の談話分析方法。
  16. 【請求項16】 前記分析は、談話ジャンルの構造的表
    現の視覚化したものを、テキストの談話の構造的表現と
    比較することにより達成される請求項9に記載の談話分
    析方法。
JP2001226901A 2000-08-01 2001-07-27 言語談話モデルを用いる文書分析のためのシステム及び方法 Pending JP2002108856A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/630,371 US6961692B1 (en) 2000-08-01 2000-08-01 System and method for writing analysis using the linguistic discourse model
US630371 2000-08-01

Publications (1)

Publication Number Publication Date
JP2002108856A true JP2002108856A (ja) 2002-04-12

Family

ID=24526906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001226901A Pending JP2002108856A (ja) 2000-08-01 2001-07-27 言語談話モデルを用いる文書分析のためのシステム及び方法

Country Status (2)

Country Link
US (1) US6961692B1 (ja)
JP (1) JP2002108856A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11880645B2 (en) 2022-06-15 2024-01-23 T-Mobile Usa, Inc. Generating encoded text based on spoken utterances using machine learning systems and methods

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295966B2 (en) * 2002-01-14 2007-11-13 Microsoft Corporation System for normalizing a discourse representation structure and normalized data structure
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
US7295967B2 (en) * 2002-06-03 2007-11-13 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University System and method of analyzing text using dynamic centering resonance analysis
US7584092B2 (en) 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US20060256937A1 (en) * 2005-05-12 2006-11-16 Foreman Paul E System and method for conversation analysis
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US20080133221A1 (en) * 2006-05-17 2008-06-05 Smith Sharon S Threat assessment based on written communication
US8463594B2 (en) * 2008-03-21 2013-06-11 Sauriel Llc System and method for analyzing text using emotional intelligence factors
US10839154B2 (en) * 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US12001804B2 (en) 2017-05-10 2024-06-04 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US10817670B2 (en) * 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US11960844B2 (en) * 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
EP3622412A1 (en) * 2017-05-10 2020-03-18 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US11809825B2 (en) * 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
EP3688609A1 (en) * 2017-09-28 2020-08-05 Oracle International Corporation Determining cross-document rhetorical relationships based on parsing and identification of named entities
US20190317979A1 (en) * 2017-12-14 2019-10-17 Sang C. Lee Tripartite poetry paradigm
US10599783B2 (en) * 2017-12-26 2020-03-24 International Business Machines Corporation Automatically suggesting a temporal opportunity for and assisting a writer in writing one or more sequel articles via artificial intelligence
JP7258047B2 (ja) 2018-05-09 2023-04-14 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築
US10902188B2 (en) * 2018-08-20 2021-01-26 International Business Machines Corporation Cognitive clipboard
US11556698B2 (en) 2019-10-22 2023-01-17 Oracle International Corporation Augmenting textual explanations with complete discourse trees
US11580298B2 (en) 2019-11-14 2023-02-14 Oracle International Corporation Detecting hypocrisy in text
US11501085B2 (en) 2019-11-20 2022-11-15 Oracle International Corporation Employing abstract meaning representation to lay the last mile towards reading comprehension
US11847420B2 (en) 2020-03-05 2023-12-19 Oracle International Corporation Conversational explainability

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US6112168A (en) * 1997-10-20 2000-08-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text
CA2408819C (en) * 2000-05-11 2006-11-07 University Of Southern California Machine translation techniques
WO2001098942A2 (en) * 2000-06-19 2001-12-27 Lernout & Hauspie Speech Products N.V. Package driven parsing using structure function grammar

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11880645B2 (en) 2022-06-15 2024-01-23 T-Mobile Usa, Inc. Generating encoded text based on spoken utterances using machine learning systems and methods

Also Published As

Publication number Publication date
US6961692B1 (en) 2005-11-01

Similar Documents

Publication Publication Date Title
JP2002108856A (ja) 言語談話モデルを用いる文書分析のためのシステム及び方法
Bunt et al. Dialogue act annotation with the ISO 24617-2 standard
Fischer Conversation, construction grammar, and cognition
Weisser DART–The dialogue annotation and research tool
Finlayson et al. Overview of annotation creation: Processes and tools
Maulsby Instructible agents.
JP2002091276A (ja) 解説的な著述を教示するための方法及びシステム
Mozgovoy et al. WordBricks: a virtual language lab inspired by Scratch environment and dependency grammars
Mahlow et al. Extraction of transforming sequences and sentence histories from writing process data: a first step towards linguistic modeling of writing
Dall’Acqua et al. Toward a linguistically grounded dialog model for chatbot design
Turner et al. The influence of technological literacy on students' writing
US20090269730A1 (en) Simulation authoring tool
Van Enschot et al. Taming our wild data: On intercoder reliability in discourse research
Nasution et al. ChatGPT Label: Comparing the Quality of Human-Generated and LLM-Generated Annotations in Low-resource Language NLP Tasks
Vinogradova et al. Review of Practices of Collecting and Annotating Texts in the Learner Corpus REALEC
Swaelens et al. Linguistic annotation of Byzantine book epigrams
Pugh et al. Developing finite-state language technology for maya
Theune et al. Generating varied narrative probability exercises
Bourgonje Shallow discourse parsing for German
Kovář Automatic syntactic analysis for real-world applications
Camilleri Analysing normative contracts-on the semantic gap between natural and formal languages
González-Mora et al. Applying natural language processing techniques to generate open data web APIs documentation
Lane Morphological Complexity and Interactive Language Processing
Qabbaah et al. Using Visual Analytics and K-Means Clustering for Monetising Logistics Data, a Case Study with Multiple E-Commerce Companies
Majewski Design and implementation of a research infrastructure for a corpus of spoken ELF

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060523