JP6564811B2 - パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム - Google Patents

パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム Download PDF

Info

Publication number
JP6564811B2
JP6564811B2 JP2017099360A JP2017099360A JP6564811B2 JP 6564811 B2 JP6564811 B2 JP 6564811B2 JP 2017099360 A JP2017099360 A JP 2017099360A JP 2017099360 A JP2017099360 A JP 2017099360A JP 6564811 B2 JP6564811 B2 JP 6564811B2
Authority
JP
Japan
Prior art keywords
passage
texts
text
display area
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017099360A
Other languages
English (en)
Other versions
JP2018195147A (ja
Inventor
幸徳 本間
幸徳 本間
九月 貞光
九月 貞光
京介 西田
京介 西田
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017099360A priority Critical patent/JP6564811B2/ja
Publication of JP2018195147A publication Critical patent/JP2018195147A/ja
Application granted granted Critical
Publication of JP6564811B2 publication Critical patent/JP6564811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラムに係り、特に、構造化言語で記述された構造化文書に関する質問及び検索に対してパッセージを回答する際に、要求に適したパッセージの作成及び提示を制御する技術に関する。
インターネット上に大量のテキストデータが利用可能になっており、文書から必要な知識を検索する技術の重要性が高まっている。特定の文書に関する文書検索においては、ユーザの入力した検索要求と関連の高い文書の一部分を取り出して出力するパッセージレベルの検索が求められている。ここで、「パッセージ」とは、文書中で検索要求の内容と強く関連する内容を持つ任意の範囲の部分文書をいい、少なくとも1つ以上の文(テキスト)を含む。
文書のうち、例えばHTML/XML等の構造化言語(マークアップ言語ともいう)で記述された構造化文書に対して、構造化文書中のタグ構造の一部分をパッセージとして自動的に作成し、検索結果として提示する手法がある(例えば、非特許文献1参照)。
当該手法では、構造化文書において上位・下位関係にある複数のタグ構造部を一つのパッセージとして作成することで、情報を記述したテキストだけでなく、見出し、ヘッダ、及び条件に関するテキストを検索結果として提示することができる。
欅惇志、 宮崎純、 波多野賢治、 山本豪志朗、 武富貴史、 加藤博一著 「XML部分文書検索技術のWeb文書への適用」、DEIM Forum、2014
構造化文書(以降、「文書」という)における検索では、検索要求に関連する知識も同時に確認したいという期待もあり、文書中のパッセージに関するテキストを強調表示する等、文書の閲覧と同時に確認できるインターフェースが望ましい。
ここで、例えば文書から生成されたパッセージをブラウザ上で閲覧する場合について考える。
ブラウザ上では文書を一度に表示できる範囲(以下、「表示可能範囲」という)が存在するために、連続したテキストからなる巨大なパッセージや文書中に散在するテキストからなるパッセージが存在する場合、当該パッセージを一度に検索結果としてブラウザ上に提示することができないという問題が発生する場合がある。
連続したテキストからなる巨大なパッセージについては、情報量が過大で検索要求に対して適切なパッセージでない場合が多いため、非特許文献1では、テキストサイズが一定以上のパッセージを作成しない、又はテキストサイズが一定以上のパッセージを出力結果として除く対応を行っている。当該対応により、表示可能範囲以上のテキストサイズを含むパッセージの提示が制御される。
一方、文書中に散在するテキストからなり、表示可能範囲を超えるパッセージについては、検索要求に対して適切なパッセージである場合とそうでない場合が存在する。
図4は、文書におけるパッセージの表示上の種別例を示す図である。図4(A)は、表示領域8の表示可能範囲に含まれるテキスト1及びテキスト2を含むパッセージを表している。この場合、各々のテキストが表示可能範囲に含まれるため、テキスト1及びテキスト2をブラウザ上に一度に提示することが可能である。
図4(B)は、表示可能範囲を超える連続したテキスト1を有するパッセージを表している。この場合には、当然ながらテキスト1をブラウザ上に一度に提示することはできない。
図4(C)は、各々のテキスト単体であれば表示可能範囲に含まれるが、テキスト1及びテキスト2を合わせた場合には表示可能範囲を超える複数のテキストを有するパッセージを表している。
図4(D)は、特定の対応関係、例えば見出しや条件等を示すヘッダとコンテンツとの対応関係を有するテキスト1及びテキスト2を含むパッセージを表している。この場合、各々のテキスト単体であれば表示可能範囲に含まれるが、テキスト1及びテキスト2を合わせた場合には表示可能範囲を超える例を表している。
図4(E)は、図4(C)に示すパッセージと図4(D)に示すパッセージの複合例であり、テキスト1とテキスト3、並びに、テキスト2とテキスト4がそれぞれヘッダとコンテンツの対応関係を有する。その上で、各々のテキストは表示可能範囲に含まれるが、テキスト1〜テキスト4全体は表示可能範囲を超える複数のテキストを有するパッセージを表している。
図4(C)、図4(D)、及び図4(E)に示すパッセージが、散在するテキストからなるパッセージの例である。
ここで、図4(C)、図4(E)に示すパッセージはそれぞれコンテンツに対応する複数のテキストを含み、一度に提示するパッセージとしては情報量が過大で検索要求に対して適切でない場合が多い。したがって、特定のテキストは提示しない、又はテキストの集合を分割して提示するなどの制御が求められる。
図5は、図4(D)に示すパッセージの詳細例を示す図である。
図5で示されるパッセージは、検索要求に対して適切な情報を提示しうるコンテンツが記述されたテキスト(表示可能範囲に含まれるテキスト)と、当該テキストに対する見出しや条件等を示すヘッダが記述されたテキスト(<h2>及び<h3>のタグで示されるテキスト)からなるパッセージ例である。この場合、図5に示すように、例えばコンテンツを記述するテキストのみを提示する等の制御を行うことで、検索要求に対して適切な内容を含み、かつ、ブラウザ上に一度に提示するができるパッセージが提示可能と考えられる。
しかしながら、非特許文献1のように、テキストサイズ等の指標を用いてパッセージの提示を制御する方法では、図4(C)、図4(D)、及び図4(E)に示すような文書中に散在するテキストからなるパッセージに対して、何れの例に該当するか種別の判定ができないため、パッセージの提示のための適切な制御が実施できないという課題がある。
本発明は、上記の事情を鑑みて成されたものであり、表示可能範囲を考慮した上で、階層的な文書構造を有する構造化文書から要求に適したパッセージを提示することができるパッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係るパッセージ提示制御装置は、テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定する表示可能判定部と、2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するヘッダ・コンテンツ関係推定部と、前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに対して、パッセージに含まれる2つのテキストの全ての組み合わせを抽出し、抽出したテキストの各々の組み合わせについての前記ヘッダ・コンテンツ関係推定部の推定結果を用いて、コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するパッセージフィルタ部と、前記表示可能判定部でパッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示するパッセージ提示部と、を備える。
第1の発明に係るパッセージ提示制御装置において、前記ヘッダ・コンテンツ関係推定部は、受け付けた前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木に基づいて、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。
第1の発明に係るパッセージ提示制御装置において、前記ヘッダ・コンテンツ関係推定部は、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。
第1の発明に係るパッセージ提示制御装置において、前記パッセージ提示部は、パッセージの全体のサイズが前記表示領域の範囲内に含まれず、かつ、パッセージが複数のテキストで構成されると判定された場合、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示し、かつ、前記パッセージフィルタ部から受け付けたテキストの部分集合に対応してヘッダと推定されたテキストを、前記表示装置におけるヘッダ表示領域に表示する。
第2の発明に係るパッセージ提示方法は、テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定するステップと、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに含まれる2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップと、コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するステップと、パッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、分割されたテキストの部分集合を優先して前記表示領域に表示するステップと、を含む。
第2の発明に係るパッセージ提示方法の受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木を用いることで、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。
第2の発明に係るパッセージ提示方法の受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。
第3の発明に係るパッセージ提示プログラムは、コンピュータを、請求項1〜請求項4の何れか1項に記載のパッセージ提示制御装置の各部として機能させる。
以上説明したように、本発明のパッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラムによれば、表示可能範囲を考慮した上で、階層的な文書構造を有する構造化文書から要求に適したパッセージを提示することができる、という効果を有する。
パッセージ提示制御装置の構成例を示す図である。 パッセージ提示制御ルーチンの流れの一例を示すフローチャートである。 パッセージ提示制御ルーチンの流れの一例を示すフローチャートである。 パッセージの表示上の種別例を示す図である。 パッセージの詳細例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、以下では、同じ働きを担う構成要素又は処理には全図面を通して同じ符号を付与し、重複する説明を適宜省略する。
<本発明の実施の形態に係るパッセージ提示制御装置の構成>
図1は、本発明の実施の形態に係るパッセージ提示制御装置100の構成例を示す図である。
パッセージ提示制御装置100は、CPUと、RAMと、後述するパッセージ提示制御ルーチンを実行するためのパッセージ提示プログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には図1に示すように構成されている。
すなわち、パッセージ提示制御装置100は、入力部10、演算部20、及び記憶部30を含んで構成される。また、演算部20は、表示可能判定部22、パッセージフィルタ部24、ヘッダ・コンテンツ関係推定部26、及びパッセージ提示部28を含んで構成される。
入力部10は、例えば文書に関する質問及び検索に対する結果として得られたパッセージ候補(以降、単に「パッセージ」という)を受け付け、受け付けたパッセージを記憶部30に記憶すると共に、受信通知を演算部20に通知する。
演算部20において入力部10からパッセージの受信通知を受け付けると、まず、表示可能判定部22は、例えば受け付けたパッセージ全体のサイズが、表示装置に表示されるブラウザ上の表示領域8の表示可能範囲内に含まれるか否かを判定する。表示可能範囲内に受け付けたパッセージのサイズが含まれるか否かは、例えば非特許文献1に示されるように、パッセージに含まれるテキストの文字数(テキストサイズ)をカウントし、表示領域8に表示可能なテキストサイズと比較することで判定される。
表示可能判定部22は、表示可能範囲内にパッセージ全体のサイズが含まれる場合は、受け付けたパッセージをパッセージ提示部28に出力する。
一方、表示可能範囲内にパッセージ全体のサイズが含まれない場合で、かつ、パッセージが途中に句点等の区切りを含まない連続した1つのテキストからなる場合には、表示可能判定部22は、表示領域8にパッセージを出力できないことを示す情報、すなわち、出力不可情報をパッセージ提示部28に出力する。
また、表示可能範囲内にパッセージ全体のサイズが含まれない場合で、かつ、パッセージが句点等の区切りによって複数の分割されたテキストからなる場合には、表示可能判定部22は、受け付けたパッセージをパッセージフィルタ部24に出力する。
パッセージフィルタ部24は、複数のテキストからなるパッセージを表示可能判定部22から受け付け、テキスト間のヘッダ・コンテンツ関係に基づいて、受け付けたパッセージから、ヘッダに相当するテキストとコンテンツに相当するテキストとであることを対応付けたパッセージを生成し、生成したパッセージをパッセージ提示部28に出力する。
具体的には、パッセージフィルタ部24は、パッセージに含まれる2つのテキストの全ての組み合わせを選択し、後述するヘッダ・コンテンツ関係推定部26の推定結果を用いて、選択したテキストの各々の組み合わせに対して、2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。
パッセージフィルタ部24は、パッセージに含まれるテキストのうち、コンテンツと推定されたテキスト(以降、「コンテンツテキスト」という)の集合に対して、サイズが表示可能範囲内に含まれるか否かを判定する。コンテンツテキストの集合のサイズが表示可能範囲を超える場合、パッセージフィルタ部24は、タグ構成を用いて表される文書構造木に基づいて、上位にあるタグを用いてコンテンツテキストの集合を部分集合に分割する。この際、パッセージフィルタ部24は、分割したコンテンツテキストの部分集合のサイズが表示可能範囲内に含まれるまで、コンテンツテキストの集合の分割単位を上位のタグから下位のタグに順次細分化しながら、コンテンツテキストの集合を部分集合に分割する処理を繰り返す。
パッセージフィルタ部24は、サイズが表示可能範囲内に含まれるまで分割されたコンテンツテキストの部分集合と、当該部分集合内の各コンテンツテキストに対応してヘッダと推定されたテキスト(以降、「ヘッダテキスト」という)の集合とを1つのパッセージとみなして、パッセージ提示部28に出力する。
ヘッダ・コンテンツ関係推定部26は、タグを含む2つのテキストをパッセージフィルタ部24から受け付けると、受け付けた2つのテキストの一方がヘッダであり、他方が当該ヘッダの内容を表すコンテンツであるか否かを推定し、推定結果をパッセージフィルタ部24に出力する。
このヘッダ・コンテンツ関係を推定する推定方法には、例えば非特許文献2に記載されている教師あり学習の手法を用いることができる。
[非特許文献2]:Richard Socher, Eric H. Huang, Jeffrey Pennington, Andrew Y.Ng, Christopher D.Manning. "Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection" Advances in Neural Information Processing Systems, pp.801-809, 2011.
具体的には、ヘッダ・コンテンツ関係推定部26は、2つのテキストの各々に対して、例えば非特許文献3に記載されている系列ラベリングを用いた係り受け解析を行うことで、テキストを構成する文節の係り受け関係を表す係り受け木をテキスト毎に取得する。
[非特許文献3]Kenji Imamura, Genichiro Kikui and Norihito Yasuda. "Japanese Dependency Parsing Using Sequential Labeling for Semi-spoken Language" In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pp.225-228, 2007.
次に、ヘッダ・コンテンツ関係推定部26は、パッセージ全体を表す文書構造木に対して各々のテキストに対応した係り受け木を結合し、パッセージ全体を表す文書構造木から、各々のテキストを表す係り受け木を含む最小部分木を生成する。
そして、ヘッダ・コンテンツ関係推定部26は、生成した最小部分木に対して、教師あり学習により得られた分類器を用いて、2つのテキストの一方がヘッダであり、他方が当該ヘッダの内容を表すコンテンツであるか否かを推定する。
また、ヘッダ・コンテンツ関係を推定する他の方法として、2つのテキストに含まれるタグを利用する方法が考えられる。
具体的には、ヘッダ・コンテンツ関係推定部26は、例えばテキストがHTML文書である場合、一方のテキストがヘッダを表す<hn>(nは1以上の整数)タグを含み、他方のテキストがコンテンツの記述に用いられるタグの一例である段落を表す<p>タグを含む場合、一方のテキストがヘッダであり、他方のテキストがコンテンツであると推定することができる。
パッセージ提示部28は、受け付けたデータの種別に応じてパッセージの提示に関する制御を行う。
パッセージ提示部28は、表示可能判定部22からパッセージ全体を受け付けた場合、パッセージの全体が表示領域8に表示されるようにパッセージの提示を行う。ここでパッセージの提示とは、表示領域8に表示するパッセージの範囲、及び表示領域8におけるパッセージの表示位置等、パッセージの表示に関する属性(表示属性)を設定することをいう。
また、パッセージ提示部28は、表示可能判定部22から出力不可情報を受け付けた場合は、文書に関する質問及び検索に対するパッセージを表示することができないことを示すメッセージが表示領域8に表示されるように、表示属性を設定する。
また、パッセージ提示部28は、パッセージフィルタ部24からパッセージを受け付けた場合、受け付けたパッセージの種別に応じてパッセージの提示を行う。
具体的には、受け付けたパッセージに含まれるテキスト全体のサイズが表示可能範囲内に含まれる場合、パッセージ提示部28は、パッセージに含まれる全てのテキストが表示領域8に表示されるように、パッセージの提示を行う。
また、受け付けたパッセージに含まれるヘッダテキストを含めるとテキスト全体が表示領域8に含まれない場合、パッセージ提示部28は、コンテンツテキストが優先して表示領域8に表示されるように、パッセージの提示を行う。
この場合、パッセージ提示部28は、表示領域8に表示できないヘッダテキストを表示するインターフェース(ヘッダ表示領域)を用意することで、受け付けたパッセージの全体を表示領域8とヘッダ表示領域とに階層的に提示できるように、パッセージの提示を行ってもよい。
<本発明の実施の形態に係るパッセージ提示制御装置の作用>
次に、本発明の実施の形態に係るパッセージ提示制御装置100の作用について説明する。パッセージ提示制御装置100のCPUは、ROMに記憶されたパッセージ提示プログラムを読み込んでおき、文書に関する質問及び検索の回答を表すパッセージを受け付けると、パッセージ提示プログラムで規定された、図2及び図3に示すパッセージ提示制御ルーチンを実行する。なお、パッセージ提示制御装置100は、パッセージ提示制御ルーチンを実行する前に、受け付けたパッセージに対する文書構造木を公知の手法を用いて予め生成し、記憶部30に記憶するものとする。
まず、ステップS10では、入力部10で受け付けたパッセージに含まれるテキストのサイズをカウントして、表示領域8の表示可能範囲内にパッセージ全体が含まれるか否かを判定する。なお、表示可能範囲に表示可能なテキストのサイズは、例えば記憶部30に予め記憶しておけばよい。パッセージ全体のサイズが表示可能範囲内に含まれる場合にはステップS130に移行する。
この場合、パッセージ全体のサイズが表示可能範囲内に含まれることから、入力部10で受け付けたパッセージをそのまま表示領域8に表示して、パッセージ提示制御ルーチンを終了する。
一方、ステップS10の判定処理が否定判定の場合、すなわち、パッセージ全体のサイズが表示可能範囲内に含まれないと判定した場合には、ステップS20に移行する。
ステップS20では、受け付けたパッセージが連続した1つのテキストで構成されているか否かを判定する。パッセージが連続した1つのテキストで構成されている場合にはステップS140に移行する。
この場合、パッセージが連続した1つのテキストで構成されているため、パッセージを分割してしまうと意味をなさないパッセージとなる。したがって、これ以上パッセージを分割することができない上、パッセージ全体のサイズが表示可能範囲内に含まれるように表示することができないため、ステップS140では、パッセージを出力することができないことを示すメッセージを作成して表示領域8に表示し、パッセージ提示制御ルーチンを終了する。
一方、ステップS20の判定処理が否定判定の場合、すなわち、受け付けたパッセージが複数の分割されたテキストからなる場合には、ステップS30に移行する。
ステップS30では、受け付けたパッセージに含まれる2つのテキストに関する全ての組み合わせのうち、未選択の組み合わせを1つ選択する。
ステップS40では、ヘッダ・コンテンツ関係推定部26において説明した方法を用いて、ステップS30で選択した2つのテキストに対して、一方がヘッダであり、他方がコンテンツであるか否かを推定する。
ステップS50では、受け付けたパッセージに対して、2つのテキストに関する全ての組み合わせを選択したか否かを判定する。否定判定の場合、すなわち、未選択のテキストの組み合わせが存在する場合にはステップS30に移行し、選択していない2つのテキストの組み合わせを選択する。ステップS30〜S50の処理を繰り返し実行することで、受け付けたパッセージに含まれる2つのテキストに関する全ての組み合わせに対して、一方がヘッダであり、他方がコンテンツであるか否かの推定が行われることになる。
2つのテキストに関する全ての組み合わせが選択されると、ステップS50の判定処理が肯定判定となり、ステップS60に移行する。
ステップS60では、ステップS40でコンテンツと対応付けられたテキスト、すなわちコンテンツテキストの集合全体のサイズが表示可能範囲内に含まれるか否かを判定する。コンテンツテキストの集合全体が表示可能範囲内に含まれる場合には、後述するステップS90に移行する。
一方、ステップS60の判定処理が否定判定の場合、すなわち、コンテンツテキストの集合全体のサイズが表示可能範囲内に含まれない場合、ステップS70に移行する。
ステップS70では、予め記憶部30に記憶されている、受け付けたパッセージを表す文書構造木に基づいて、上位にあるタグを参照し、コンテンツテキストの集合を部分集合に分割する。
ステップS80では、ステップS70で分割したコンテンツテキストの部分集合の各々のサイズが、表示可能範囲内に含まれるか否かを判定する。コンテンツテキストの部分集合に、表示可能範囲内に含まれないサイズを有する部分集合が含まれる場合にはステップS70に移行する。そして、ステップS70では、表示可能範囲内に含まれないコンテンツテキストの部分集合に対応する文書構造木の部分木において、上位に位置するタグを用いて、当該コンテンツテキストの部分集合を更に複数の部分集合に分割する。
すなわち、ステップS70及びS80を繰り返し実行することで、各々が表示可能範囲内に含まれるサイズを有するコンテンツテキストの部分集合が複数生成されることになる。
ステップS90では、ステップS70で表示可能範囲内に含まれるサイズまで分割したコンテンツテキストの部分集合の1つと、当該部分集合内の各コンテンツテキストに対応するヘッダテキストの集合を編集パッセージとして生成する。
ステップS100では、ステップS90で生成した編集パッセージのサイズが表示可能範囲内に含まれるか否かを判定する。編集パッセージのサイズが表示可能範囲内に含まれる場合はステップS110に移行し、ステップS110で、当該編集パッセージを表示領域8に表示する。したがって、コンテンツテキスト及び当該コンテンツテキストに対応したヘッダテキストがテキストの途中で途切れない適切なパッセージを提示することができる。
一方、ステップS100の判定が否定判定の場合、すなわち、編集パッセージのサイズが表示可能範囲内に含まれない場合には、ステップS120に移行する。
ヘッダテキストよりコンテンツテキストの方が、文書に関する質問及び検索に対する回答として適切な内容が含まれる場合が多いため、ステップS120では、編集パッセージに含まれるコンテンツテキストが優先して表示領域8に含まれるように、パッセージを表示領域8に表示する。
すなわち、ヘッダテキストを含めると表示可能範囲内に表示しきれないパッセージであっても、コンテンツテキストがテキストの途中で途切れないような適切なパッセージを表示領域8に表示することができる。
なお、ここでは一例として、分割したコンテンツテキストの部分集合の1つから生成されたパッセージを表示領域8に表示する例を説明したが、ステップS70で分割した各々のコンテンツテキストの部分集合にそれぞれ対応した編集パッセージを生成し、ユーザの指示に基づいて、各編集パッセージに対してステップS100〜S120を実行し、編集パッセージの各々を表示領域8に順次表示するようにしてもよい。
例えば、編集パッセージが複数存在する場合、次の回答が存在することを示すリンク付きのメッセージを表示領域8に表示し、ユーザがマウス等でリンク付きメッセージを選択した場合に、未表示の編集パッセージの内容を表示領域8に表示するようにしてもよい。
このように本発明の実施の形態に係るパッセージ提示制御装置100によれば、階層的な文書構造を有する文書から、質問及び検索の回答に適したパッセージを生成して表示領域8に表示する際、表示可能範囲を考慮してパッセージを生成して表示する。したがって、階層的な文書構造を有する文書から、ユーザが把握しやすい形態でユーザの要求に適したパッセージを提示することができる。
また、パッセージ提示制御装置100は、2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する推定結果を用いて、パッセージ内で散在するテキストの対応付けを行うため、パッセージの種別に応じてパッセージの提示が可能となる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、パッセージ提示制御装置100を、通信回線で接続された複数のコンピュータで実現するようにしてもよい。
また、パッセージ提示プログラムが予めROMにインストールされている実施の形態について説明したが、当該プログラムをコンピュータ読み取り可能な記録媒体に格納して提供することも可能であり、通信回線を介して提供することも可能である。
8 表示領域
10 入力部
20 演算部
22 表示可能判定部
24 パッセージフィルタ部
26 ヘッダ・コンテンツ関係推定部
28 パッセージ提示部
30 記憶部
100 パッセージ提示制御装置

Claims (8)

  1. テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定する表示可能判定部と、
    2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するヘッダ・コンテンツ関係推定部と、
    前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに対して、パッセージに含まれる2つのテキストの全ての組み合わせを抽出し、抽出したテキストの各々の組み合わせについての前記ヘッダ・コンテンツ関係推定部の推定結果を用いて、コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するパッセージフィルタ部と、
    前記表示可能判定部でパッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示するパッセージ提示部と、
    を備えたパッセージ提示制御装置。
  2. 前記ヘッダ・コンテンツ関係推定部は、受け付けた前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木に基づいて、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
    請求項1記載のパッセージ提示制御装置。
  3. 前記ヘッダ・コンテンツ関係推定部は、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
    請求項1又は請求項2記載のパッセージ提示制御装置。
  4. 前記パッセージ提示部は、パッセージの全体のサイズが前記表示領域の範囲内に含まれず、かつ、パッセージが複数のテキストで構成されると判定された場合、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示し、かつ、前記パッセージフィルタ部から受け付けたテキストの部分集合に対応してヘッダと推定されたテキストを、前記表示装置におけるヘッダ表示領域に表示する
    請求項1〜請求項3の何れか1項に記載のパッセージ提示制御装置。
  5. テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定するステップと、
    前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに含まれる2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップと、
    コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するステップと、
    パッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、分割されたテキストの部分集合を優先して前記表示領域に表示するステップと、
    を含むパッセージ提示方法。
  6. 受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木を用いることで、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
    請求項5記載のパッセージ提示方法。
  7. 受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
    請求項5又は請求項6記載のパッセージ提示方法。
  8. コンピュータを、請求項1〜請求項4の何れか1項に記載のパッセージ提示制御装置の各部として機能させるためのパッセージ提示プログラム。
JP2017099360A 2017-05-18 2017-05-18 パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム Active JP6564811B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017099360A JP6564811B2 (ja) 2017-05-18 2017-05-18 パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017099360A JP6564811B2 (ja) 2017-05-18 2017-05-18 パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム

Publications (2)

Publication Number Publication Date
JP2018195147A JP2018195147A (ja) 2018-12-06
JP6564811B2 true JP6564811B2 (ja) 2019-08-21

Family

ID=64570543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017099360A Active JP6564811B2 (ja) 2017-05-18 2017-05-18 パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム

Country Status (1)

Country Link
JP (1) JP6564811B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512276A (ja) * 1991-07-04 1993-01-22 Sharp Corp 文書処理装置
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
JP5520732B2 (ja) * 2010-07-27 2014-06-11 日本電信電話株式会社 本文抽出方法、本文抽出装置、本文抽出プログラム
US9710440B2 (en) * 2013-08-21 2017-07-18 Microsoft Technology Licensing, Llc Presenting fixed format documents in reflowed format
JP5884814B2 (ja) * 2013-11-27 2016-03-15 カシオ計算機株式会社 表示処理装置及びプログラム

Also Published As

Publication number Publication date
JP2018195147A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
US5774118A (en) Method and device for displaying help for operations and concepts matching skill level
JP5469244B2 (ja) 選択的なコンテンツ抽出
JP4344693B2 (ja) ブラウザの文書編集のためのシステムおよびその方法
JP4929704B2 (ja) コンピュータ処理方法及びコンピュータ処理装置
US20180039907A1 (en) Document structure extraction using machine learning
US9710440B2 (en) Presenting fixed format documents in reflowed format
KR20170123331A (ko) 정보 추출 방법 및 장치
JP2001184344A (ja) 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
WO2015053236A1 (ja) 矛盾表現収集装置及びそのためのコンピュータプログラム
US20210303792A1 (en) Content analysis utilizing general knowledge base
US11645095B2 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
US20130124684A1 (en) Visual separator detection in web pages using code analysis
CN112417338A (zh) 一种页面适配方法、***及设备
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
JP6564811B2 (ja) パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム
JP6154072B2 (ja) 情報分析システム、情報分析方法及び情報分析プログラム
CN113806667B (zh) 一种支持网页分类的方法和***
WO2021117483A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN114461749A (zh) 对话内容的数据处理方法、装置、电子设备和介质
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN112257400A (zh) 表格数据提取方法、装置、计算机设备和存储介质
Figueroa-Gutiérrez et al. Towards Automatic Interpretation Of Statistical Graphs For The Visually Impaired
US20240126978A1 (en) Determining attributes for elements of displayable content and adding them to an accessibility tree
CN113553435B (zh) 智能标签的确定方法、装置、设备及存储介质
CN116629242A (zh) 文本处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190729

R150 Certificate of patent or registration of utility model

Ref document number: 6564811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150