JP2005063283A - 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 - Google Patents
文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2005063283A JP2005063283A JP2003294832A JP2003294832A JP2005063283A JP 2005063283 A JP2005063283 A JP 2005063283A JP 2003294832 A JP2003294832 A JP 2003294832A JP 2003294832 A JP2003294832 A JP 2003294832A JP 2005063283 A JP2005063283 A JP 2005063283A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- unit
- holding unit
- appearance position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】文書に含まれる情報をある程度詳細にチェックするために、文書の主題をあらわす複数のキーワードが文書の構造を反映して出現することを用いて、文書の構造を提示する文書ブラウズ装置を提供する。
【解決手段】この文書ブラウズ装置は、指定されたカーソル位置の近傍の文書内容を提示する文書提示部と、カーソル位置をコントロールするスライダー部とを備えており、指定された文書から複数のキーワードを抽出してキーワード保持部に記録し、キーワード保持部に記録されたキーワードに対して、文書中での出現位置を算出してキーワード保持部を更新し、キーワード保持部に記録されたキーワードの出現位置を第1軸に、キーワードを第2軸にとって、文書中でのキーワードの出現位置と現在のカーソル位置を提示するようにして、文書構造の概要を提示するようにした。
【選択図】図1
【解決手段】この文書ブラウズ装置は、指定されたカーソル位置の近傍の文書内容を提示する文書提示部と、カーソル位置をコントロールするスライダー部とを備えており、指定された文書から複数のキーワードを抽出してキーワード保持部に記録し、キーワード保持部に記録されたキーワードに対して、文書中での出現位置を算出してキーワード保持部を更新し、キーワード保持部に記録されたキーワードの出現位置を第1軸に、キーワードを第2軸にとって、文書中でのキーワードの出現位置と現在のカーソル位置を提示するようにして、文書構造の概要を提示するようにした。
【選択図】図1
Description
本発明は、文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体に関し、より詳細には、文書の概要を高速に把握したい場合に用いられる速読支援技術に関し、文書データベースにおける検索結果表示画面、一般の文書エディタやワープロなどに応用して好適である。
種々の情報が大量に入手できるようになった現在、文書に含まれる情報をできるだけ早く把握することは、ひとつの大きな課題である。
文書の概要を把握するのは、通常、文書が必要か不必要か、あるいは要求仕様に対して適当か不適当かなどの判断に用いられることが多い。
文書の概要を把握するのは、通常、文書が必要か不必要か、あるいは要求仕様に対して適当か不適当かなどの判断に用いられることが多い。
典型的な例としては、検索結果に対して、必要な文書をピックアップするために種々の概要表示技術が存在し、例えば、検索要求語によって生成される空間に個別文書を配置し、1文書1点で文書を表現するようなもの(特許文献1参照)、一般のWWW検索エンジンのように、検索要求にヒットした部分の前後を表示して、その検索観点での概要に替えるものなどがある。また、このため、特許文献2などの要約技術も開発されている。
これらとは別に、文書がすぐに不必要/不適格と判別できなかった場合、より詳細に内容をチェックする必要がある。これらのチェックは、文書の内容そのものにある程度目を通す必要があり、速読支援技術によってサポートされる。
速読支援技術には、例えば予め文書の目次から本文にリンクを張って実現されるもの、また、検索語の文書中の次の位置に次々とジャンプしていくもの、特許文献3などのようにキーワードを抽出し、その位置をハイライトするものなどがあり、それぞれに文書内容を拾い読みする機能を提供している。
特開平7−192020号公報
特公平7−043728号公報
特開平11−24549号公報
しかしながら、ある文書が不必要/不適格とすぐに判断できなかった場合に、その文書をある程度詳細にチェックするためには、文書の構造を知っておく必要があり、上記のように文書中を次の語位置に次々とジャンプする技術や、特定のキーワードをハイライトする技術では、その部分のみがピックアップされるため、比較的短い文書でないと機能不足である。
また、目次からリンクを張っておく技術では、予めこれらの情報が用意されていない場合には目次の自動生成などの複雑で処理誤りの起きやすい技術が必要となってくる。
本発明は、上述の実情を考慮してなされたものであって、文書に含まれる情報をある程度詳細にチェックするために、文書の主題をあらわす複数のキーワードが文書の構造を反映して出現することを用いて、文書の構造を提示する文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体を提供することを目的とする。
以上の課題を解決するために、請求項1の発明の文書ブラウズ装置は、指定されたカーソル位置の近傍の文書内容を文書内容保持部から取り出して提示する文書提示部と、カーソル位置をコントロールするスライダー部とを備えた文書ブラウズ装置において、前記文書内容保持部の指定された文書から複数のキーワードを抽出するとともに、前記文書中での出現位置を算出してキーワード保持部に記録するキーワード抽出部と、前記キーワード保持部に記録されたキーワードの出現位置を第1軸に、該キーワードを第2軸にとって、文書中でのキーワードの出現位置および現在のカーソル位置を提示する構造提示部を備えることを特徴とする。
また、請求項2の発明は、請求項1に記載の文書ブラウズ装置において、文境界の出現位置を検出する文境界検出部を有し、構造提示部は、前記文境界検出部で検出した文境界の出現位置も前記第1軸と合わせて提示するようにしたことを特徴とする。
また、請求項3の発明は、請求項2に記載の文書ブラウズ装置において、前記文境界検出部は、空行による章境界、改行後の空白配置による段落境界を文境界として検出することを特徴とする。
また、請求項4の発明は、請求項1乃至3のいずれかに記載の文書ブラウズ装置において、前記キーワード保持部に記録されたキーワードの出現位置の平均出現位置を算出して該キーワード保持部を更新するキーワード配置計算部を有し、前記構造提示部は、前記キーワード保持部に記録されたキーワードの平均出現位置が前方に位置するものから順番に前記第2軸に割り当てるようにしたことを特徴とする。
また、請求項5の発明は、請求項1乃至4のいずれかに記載の文書ブラウズ装置において、前記キーワード配置計算部におけるキーワードの出現位置、および前記文境界検出部における文境界の出現位置の計算を文書のページ単位で行い、構造提示部は、前記第1軸のスケールをページ単位としたことを特徴とする。
また、請求項6の発明は、請求項1乃至5のいずれかに記載の文書ブラウズ装置において、前記文書内容保持部に保持された文書の一部を指定された場合、この指定された部分のキーワードを抽出して、前記キーワード保持部へ記録するキーワード再抽出部を備えることを特徴とする。
また、請求項7の発明の文書ブラウズ方法は、指定されたカーソル位置の近傍の文書内容を文書内容保持部から取り出して提示する文書提示部と、カーソル位置をコントロールするスライダー部とを備えた文書ブラウズ装置における文書ブラウズ方法において、前記文書内容保持部の指定された文書から複数のキーワードを抽出してキーワード保持部に記録し、前記キーワード保持部に記録されたキーワードに対して、前記文書中での出現位置を算出して前記キーワード保持部を更新し、前記キーワード保持部に記録されたキーワードの出現位置を第1軸に、該キーワードを第2軸にとって、文書中でのキーワードの出現位置および現在のカーソル位置を提示するようにして、文書構造の概要を提示することを特徴とする。
また、請求項8の発明のプログラムは、コンピュータに、請求項1乃至6のいずれかに記載の文書ブラウズ装置の機能を実行させるためのプログラムである。
また、請求項9の発明の記録媒体は、請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
また、請求項9の発明の記録媒体は、請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
以上の構成により、文書の主題をあらわす複数のキーワードが文書の構造を反映して出現することを用いて、文書の構造を提示するようにしたので、文書に含まれる情報をある程度詳細にチェックすることができる。
以下、図面を参照して本発明の文書ブラウズ装置に係る好適な実施形態を説明する。
<実施形態1>
図1は、本発明の文書ブラウズ装置に係る実施形態1の機能構成を示すブロック図である。同図において、文書ブラウズ装置は、文書提示部10、文書内容保持部11、文境界検出部12、キーワード抽出部13、キーワード保持部14、キーワード配置計算部15、構造提示部16、スライダー部17とからなっている。
図1は、本発明の文書ブラウズ装置に係る実施形態1の機能構成を示すブロック図である。同図において、文書ブラウズ装置は、文書提示部10、文書内容保持部11、文境界検出部12、キーワード抽出部13、キーワード保持部14、キーワード配置計算部15、構造提示部16、スライダー部17とからなっている。
文書提示部10は、文書概要を把握したい文書のうち、少なくともテキスト情報を保持する文書内容保持部11からテキスト情報を読み取り、スライダー部17によって指示された文書中のカーソル位置前後の情報をディスプレイ等の表示装置へ表示する。
図2は、文書提示部10で文書の内容を表示した例である。図2において、波線で表示した位置は現在のカーソル位置を示している。
図2は、文書提示部10で文書の内容を表示した例である。図2において、波線で表示した位置は現在のカーソル位置を示している。
文境界検出部12は、文書内容保持部11によって保持される文書のテキスト情報から、文書の論理構造(例えば、章境界、段落境界等)を検出し、その位置を構造提示部16に通知する。このように、文書の論理構造が検出可能である場合、これも含めて提示することにより、より把握しやすい形で文書構造を提示することができる。
章境界は、例えば、テキスト情報中に空行がある場合に、章が分割されていると解釈して検出する。段落境界は、テキスト情報中に改行された直後の行先頭に空白を持つ行がある場合に、段落が区切られていると解釈して検出する。
これらの章境界や段落境界の検出はページ単位で行われ、構造提示に際しては、検出した章境界や段落境界が何ページに出現したかで表示される。
このように、文書の物理構造をページで取り扱うことによって、検索語位置の表示単位を適性に丸め、概要表示に適切な提示を行える。
これらの章境界や段落境界の検出はページ単位で行われ、構造提示に際しては、検出した章境界や段落境界が何ページに出現したかで表示される。
このように、文書の物理構造をページで取り扱うことによって、検索語位置の表示単位を適性に丸め、概要表示に適切な提示を行える。
また、文書の論理構造として章境界、段落境界を検出することにより、多段階の構造表示を可能にし、概要把握に必要な構造面での情報提示をより豊富なものにすることができる。
次に、文境界検出部12の処理手順を図3のフローチャートを用いて説明する。
次に、文境界検出部12の処理手順を図3のフローチャートを用いて説明する。
まず、文書内容保持部11から文書を読み込む(ステップS10)。初期値としてページ数カウンタnを1に、文字カウンタjを0に設定する(ステップS11)。
この読み込んだ文書について、文字カウンタjの位置と次の文字カウンタj+1の位置に改行コードが存在するかを調べる(ステップS12)。
2つの改行コードが続いている場合(ステップS12のYES)、章境界であると解釈して、n(ページ)を章境界位置テーブルへ累積し、文字カウンタjを2つ目の改行コードの位置へ進める(ステップS13)。
一方、2つの改行コードが続いていない場合(ステップS12のNO)、ステップS14へ進む。
この読み込んだ文書について、文字カウンタjの位置と次の文字カウンタj+1の位置に改行コードが存在するかを調べる(ステップS12)。
2つの改行コードが続いている場合(ステップS12のYES)、章境界であると解釈して、n(ページ)を章境界位置テーブルへ累積し、文字カウンタjを2つ目の改行コードの位置へ進める(ステップS13)。
一方、2つの改行コードが続いていない場合(ステップS12のNO)、ステップS14へ進む。
文字カウンタjの位置に改行コードがあり、文字カウンタj+1の位置の文字が空白であるかを調べる(ステップS14)。
改行の後に空白がきている場合(ステップS14のYES)、段落境界であると解釈して、n(ページ)を段落境界位置テーブルへ累積する(ステップS15)。
一方、改行の後に空白がきていない場合(ステップS14のNO)、ステップS16へ進む。
改行の後に空白がきている場合(ステップS14のYES)、段落境界であると解釈して、n(ページ)を段落境界位置テーブルへ累積する(ステップS15)。
一方、改行の後に空白がきていない場合(ステップS14のNO)、ステップS16へ進む。
文字カウンタjの位置に改ページコードがある場合(ステップS16のYES)、ページカウンタnを1つ進め(ステップS17)、改ページコードでない場合(ステップS16のNO)、次のステップS18へ進む。
文字カウンタjを1つ進め(ステップS18)、文字カウンタjが文書の終わりにきていない場合(ステップS19のNO)、ステップS12へ戻って次の境界を探索する。
一方、文字カウンタjが文書の終わりにきた場合(ステップS19のYES)、章境界位置テーブルと段落境界位置テーブルを構造提示部16へ渡して処理を終了する。
文字カウンタjを1つ進め(ステップS18)、文字カウンタjが文書の終わりにきていない場合(ステップS19のNO)、ステップS12へ戻って次の境界を探索する。
一方、文字カウンタjが文書の終わりにきた場合(ステップS19のYES)、章境界位置テーブルと段落境界位置テーブルを構造提示部16へ渡して処理を終了する。
キーワード抽出部13は、文書内容保持部11によって保持される文書のテキスト情報からキーワードを抽出してキーワード保持部14へ格納する。
キーワードの抽出方法として、例えば、形態素解析後、名詞連続であることを条件に名詞句を抽出し、部分構成要素ごとに出現数を累計することによってスコアリングする方法を用いる。
キーワード保持部14は、図4に示したようなデータ構造からなり、抽出されたキーワードごとに、文書中に出現したすべての位置を保持する。この出現位置はページ単位で表される。
キーワードの抽出方法として、例えば、形態素解析後、名詞連続であることを条件に名詞句を抽出し、部分構成要素ごとに出現数を累計することによってスコアリングする方法を用いる。
キーワード保持部14は、図4に示したようなデータ構造からなり、抽出されたキーワードごとに、文書中に出現したすべての位置を保持する。この出現位置はページ単位で表される。
このように、文書の物理構造をページで取り扱うのは、文書の構造として何も構造が指定されていない場合には、文字数あるいは先頭からのバイト単位で行うしか方法がないが、この場合には、非常に細かな単位の表示が必要となり、また、単に概要を知りたいという機能仕様に対し、不必要に詳細な表示となり、把握しにくい提示になってしまうことになるからである。したがって、このように、文書の物理構造をページで取り扱うことによって、キーワードの出現位置の表示単位を適性に丸め、概要表示に適切な提示を行えることができる。
次に、キーワード抽出部13の処理手順を図5のフローチャートを用いて説明する。
文書内容保持部11から解析対象となる文書を読み込む(ステップS20)。
単語辞書等を参照して、入力した文書を形態素解析して、形態素列およびその形態素に対する品詞を抽出する(ステップS21)。
文書内容保持部11から解析対象となる文書を読み込む(ステップS20)。
単語辞書等を参照して、入力した文書を形態素解析して、形態素列およびその形態素に対する品詞を抽出する(ステップS21)。
形態素解析された形態素列に対して、一般名詞・サ変名詞・固有名詞・接尾辞の連続を抽出する(ステップS22)。
上記抽出された中から名詞連続の名詞句を抽出して、キーワード候補としてキーワード抽出テーブルへ記憶させる(ステップS23)。
このキーワード抽出テーブルは、図6に示すように次の項目からなっている。
上記抽出された中から名詞連続の名詞句を抽出して、キーワード候補としてキーワード抽出テーブルへ記憶させる(ステップS23)。
このキーワード抽出テーブルは、図6に示すように次の項目からなっている。
名詞句:キーワード候補として抽出された名詞句。
各要素出現数:この名詞句が文書中に出現する回数を示し、名詞句全体の出現する回数と、この名詞句を構成する単語ごとの出現回数とを記録する。
単語数:名詞句を構成する単語の数。
スコア:キーワードとしての妥当性を示す評価値。
順位:スコアの大きい方から並べたときの順番号。
各要素出現数:この名詞句が文書中に出現する回数を示し、名詞句全体の出現する回数と、この名詞句を構成する単語ごとの出現回数とを記録する。
単語数:名詞句を構成する単語の数。
スコア:キーワードとしての妥当性を示す評価値。
順位:スコアの大きい方から並べたときの順番号。
抽出された名詞句は、例えば、図6の名詞句欄に示すように記録される。さらに、この名詞句に対して文書中に出現する回数をカウントして、図6の各要素出現数として記録する。
例えば、「構造/改革」は2つの単語からなることを単語数欄で示し、各要素出現数欄では「構造/改革」は8回出現し、「構造」では9回、「改革」は15回出現したことを示している。また、図6で、「構造/改革」の各要素出現数欄に「8/9,15」と表記されているのは、「構造/改革」としては8回出現し、「構造/改革」の構成単語「構造」と「改革」とでは、それぞれ順に9回、15回ずつ出現したことを示している。
例えば、「構造/改革」は2つの単語からなることを単語数欄で示し、各要素出現数欄では「構造/改革」は8回出現し、「構造」では9回、「改革」は15回出現したことを示している。また、図6で、「構造/改革」の各要素出現数欄に「8/9,15」と表記されているのは、「構造/改革」としては8回出現し、「構造/改革」の構成単語「構造」と「改革」とでは、それぞれ順に9回、15回ずつ出現したことを示している。
キーワード候補のそれぞれに対して、その構成要素である単語の単語数で重み付けして総和を求め、キーワード候補の単語数で割ることによって、キーワード候補のスコアが求められる(ステップS24)。
i番目のキーワード候補をキーワード候補iと記し、キーワード候補iを構成するj番目の構成単語を構成単語jと記し、キーワード候補iを構成するすべての構成単語についての和を求めることをΣjと記すと、キーワード候補iに対するスコアP(i)は次の式で求められる。
i番目のキーワード候補をキーワード候補iと記し、キーワード候補iを構成するj番目の構成単語を構成単語jと記し、キーワード候補iを構成するすべての構成単語についての和を求めることをΣjと記すと、キーワード候補iに対するスコアP(i)は次の式で求められる。
P(i)={Σj(キーワード候補iの構成単語jの出現回数)×(構成単語jの単語数)}/(キーワード候補iの単語数)
例えば、キーワード候補「構造/改革」を例にとると、図6において、構成要素「構造/改革」は、この単位で8回、構成要素「構造」は、この単位で9回、構成要素「改革」は、この単位で15回出現しているので、スコアは次のように計算される。
キーワード候補「構造/改革」のスコア=(8×2+9×1+15×1)/2=20
キーワード候補「北/朝鮮」のスコア=(9×2+9×1+9×1)/2=18
キーワード候補「構造/改革」のスコア=(8×2+9×1+15×1)/2=20
キーワード候補「北/朝鮮」のスコア=(9×2+9×1+9×1)/2=18
計算したスコアが上位から所定数(例えば、5位まで)をキーワードとして抽出する(ステップS25)。
この抽出されたキーワードについて、その文書中の出現位置を求め、図4に示したようなキーワードリストを作成して、キーワード保持部14へ格納する(ステップS26)。
この抽出されたキーワードについて、その文書中の出現位置を求め、図4に示したようなキーワードリストを作成して、キーワード保持部14へ格納する(ステップS26)。
次に、キーワードリストの作成処理を図7のフローチャートを用いて説明する。
まず、文書内容保持部11から文書を読み込む(ステップS30)。初期値としてページ数カウンタnを1に、文字カウンタjを0に設定する(ステップS31)。
この読み込んだ文書について、文字カウンタjの位置以降に先に求めた所定の数のキーワードと同じ文字列が存在するかを調べる(ステップS32)。
同じものがある場合(ステップS32のYES)、一致したキーワードが出現したページnを割り当てて、累積する(ステップS33)。
一方、同じ文字列がない場合(ステップS32のNO)、ステップS34へ進む。
まず、文書内容保持部11から文書を読み込む(ステップS30)。初期値としてページ数カウンタnを1に、文字カウンタjを0に設定する(ステップS31)。
この読み込んだ文書について、文字カウンタjの位置以降に先に求めた所定の数のキーワードと同じ文字列が存在するかを調べる(ステップS32)。
同じものがある場合(ステップS32のYES)、一致したキーワードが出現したページnを割り当てて、累積する(ステップS33)。
一方、同じ文字列がない場合(ステップS32のNO)、ステップS34へ進む。
例えば、キーワードリストは、キーワードごとにページ単位で示された出現位置のリストとして表現される(図4参照)。
「構造改革」の出現位置は、「1,2,9,10,14,14,14,20」、
「景気」の出現位置は、「1,2,2,7,8,9,13,…」、
「北朝鮮」の出現位置は、「3,5,5,5,17,17,19,20」。
「構造改革」の出現位置は、「1,2,9,10,14,14,14,20」、
「景気」の出現位置は、「1,2,2,7,8,9,13,…」、
「北朝鮮」の出現位置は、「3,5,5,5,17,17,19,20」。
文字カウンタjの位置に改ページコードがある場合(ステップS34のYES)、ページカウンタnを1つ進め(ステップS35)、改ページコードでない場合(ステップS34のNO)、次のステップS36へ進む。
文字カウンタjを1つ進め(ステップS36)、文字カウンタjが文書の終わりにきていない場合(ステップS37のNO)、ステップS32へ戻って次のキーワード出現位置を探索する。
一方、文字カウンタjが文書の終わりにきた場合(ステップS37のYES)、キーワードリストをキーワード保持部14へ格納して処理を終了する。
文字カウンタjを1つ進め(ステップS36)、文字カウンタjが文書の終わりにきていない場合(ステップS37のNO)、ステップS32へ戻って次のキーワード出現位置を探索する。
一方、文字カウンタjが文書の終わりにきた場合(ステップS37のYES)、キーワードリストをキーワード保持部14へ格納して処理を終了する。
キーワード配置計算部は、キーワード保持部14からキーワードリスト(キーワードおよびその出現位置からなるリスト)を読み出し、個々のキーワードに対して、出現位置の平均値を求める。求めた平均出現位置をキーワードリストに加え、この平均出現位置を小さい順にキーワードリストを並び替えて、キーワード保持部14を更新する。
例えば、図4のように求めたキーワードリストに対して、平均出現位置を計算すると、それぞれ次のようになる。
「構造改革」=(1+2+9+10+14+14+14+20)/8=10.5
「景気」=(1+2+2+7+8+9+13+…)/8=13.2
「北朝鮮」=(3+5+5+5+17+17+19+20)/8=11.4
これらの平均出現位置を小さい順にソートすると、図8に示したような順、「構造改革」、「北朝鮮」、「景気」、…となる。
「構造改革」=(1+2+9+10+14+14+14+20)/8=10.5
「景気」=(1+2+2+7+8+9+13+…)/8=13.2
「北朝鮮」=(3+5+5+5+17+17+19+20)/8=11.4
これらの平均出現位置を小さい順にソートすると、図8に示したような順、「構造改革」、「北朝鮮」、「景気」、…となる。
構造提示部16は、キーワード保持部14に記憶されたキーワード、その出現位置と平均出現位置、文境界検出部12によって検出された文境界位置(章境界位置、段落境界位置)およびスライダー部17によって指示されたカーソル位置の情報をディスプレイ等の表示装置へ表示して、ユーザに文書の構造および文書の内容を提示する。
これにより、文書中の出現位置に沿った形で複数キーワードをリストにすることで、構造表示をより見やすいものにすることができる。
これにより、文書中の出現位置に沿った形で複数キーワードをリストにすることで、構造表示をより見やすいものにすることができる。
文書構造は、図9に示されるように、キーワードを縦軸に、各キーワードの出現位置を横軸にとって表示されるキーワード出現位置表示領域と、文境界検出部12によって検出される文境界表示領域と、スライダー表示領域とに分かれている。
キーワード保持部14に記録されているキーワードは、キーワード配置計算部15で計算したキーワードの平均出現位置の小さい順に縦軸の上から下へ配置される。
また、キーワード出現位置表示領域、文境界表示領域およびスライダー表示領域の横軸方向は、カーソルまたはスライダーの左右方向への移動と連動してそれぞれ移動するようになっている。
キーワード保持部14に記録されているキーワードは、キーワード配置計算部15で計算したキーワードの平均出現位置の小さい順に縦軸の上から下へ配置される。
また、キーワード出現位置表示領域、文境界表示領域およびスライダー表示領域の横軸方向は、カーソルまたはスライダーの左右方向への移動と連動してそれぞれ移動するようになっている。
すなわち、スライダーを左に移動させると、文書の先頭方向の構造(キーワードの出現位置および文境界)が表示され、右に移動させると文書の後方の構造(キーワードの出現位置および文境界)が表示される。
また、このカーソルやスライダーは図2に示した文書提示でのカーソルと連動して表示される。すなわち、構造提示のカーソルやスライダーを移動させると、それに伴って文書提示のカーソルも移動したように文書内容を表示させる。逆に、文書提示のカーソルを移動させると、それに伴って構造提示のカーソルやスライダーも移動するようになっている。
また、このカーソルやスライダーは図2に示した文書提示でのカーソルと連動して表示される。すなわち、構造提示のカーソルやスライダーを移動させると、それに伴って文書提示のカーソルも移動したように文書内容を表示させる。逆に、文書提示のカーソルを移動させると、それに伴って構造提示のカーソルやスライダーも移動するようになっている。
図9において、キーワードが出現したページが表示されるときには、キーワード出現位置表示領域の該当ページ位置へマーク(ここでは黒い四角形)が表示される。
また、文境界位置を表示するときには、文境界表示領域の該当ページ位置へマーク(ここでは△が章境界位置、▲が段落境界位置)が表示される。
また、文境界位置を表示するときには、文境界表示領域の該当ページ位置へマーク(ここでは△が章境界位置、▲が段落境界位置)が表示される。
スライダー部17は、マウスのようなポインタを用いて、スライダーまたはカーソルをドラッグすることによって移動させて、カーソル位置を変更する。図9に示したように、スライダーはスライダー表示領域に矩形(矩形の大きさは、画面に表示されているページ数/文書の全ページ数に比例した大きさになる)で表示され、カーソルは縦軸に平行な線分で表されている。
スライダー表示領域全体で文書全体に対応しており、スライダーの横方向における位置によって文書のどの部分を見ているのかがわかるようになっている。
また、上述したように、図9の構造表示におけるスライダーやカーソルと、図2の文書提示でのカーソルとは連動して表示される。
スライダーを移動させると、カーソルはスライダーの中央から垂直に引かれた線分として移動する。また、逆にカーソルを横軸の左端または右端までの移動ではスライダーは動かないが、左端または右端を越えて移動させるようにすると、スライダーもそれに合わせて移動する。
また、上述したように、図9の構造表示におけるスライダーやカーソルと、図2の文書提示でのカーソルとは連動して表示される。
スライダーを移動させると、カーソルはスライダーの中央から垂直に引かれた線分として移動する。また、逆にカーソルを横軸の左端または右端までの移動ではスライダーは動かないが、左端または右端を越えて移動させるようにすると、スライダーもそれに合わせて移動する。
以上のように構成した文書ブラウザ装置は、次のような手順で使用する。
(1)ユーザがチェックしたい文書を文書内容保持部11から選択する。
(2)文書ブラウザ装置は、次のことを行う。
(a)指定された文書を文書内容保持部11から読み出し、文書提示部10を起動して、表示装置上に文書内容を表示する。
(b)文境界検出部12を起動して、文境界(章境界、段落境界)位置を検出し、それぞれ構造提示部16へ渡す。
(c)キーワード抽出部13によってキーワードを抽出し、そのキーワードの出現位置とその平均出現位置(キーワード配置計算部15によって計算する)を計算して、キーワードリストを作成し、キーワード保持部14へ格納する。
(1)ユーザがチェックしたい文書を文書内容保持部11から選択する。
(2)文書ブラウザ装置は、次のことを行う。
(a)指定された文書を文書内容保持部11から読み出し、文書提示部10を起動して、表示装置上に文書内容を表示する。
(b)文境界検出部12を起動して、文境界(章境界、段落境界)位置を検出し、それぞれ構造提示部16へ渡す。
(c)キーワード抽出部13によってキーワードを抽出し、そのキーワードの出現位置とその平均出現位置(キーワード配置計算部15によって計算する)を計算して、キーワードリストを作成し、キーワード保持部14へ格納する。
(3)文書ブラウザ装置は、(2)の実行が終了すると、構造提示部16を呼び出して、先に計算した、キーワードリストおよび文境界位置とをカーソル位置にあわせて表示する。
このカーソル位置は、文書提示部10で表示している文書内容をユーザが見ている場所(カーソル位置)である。
このカーソル位置は、文書提示部10で表示している文書内容をユーザが見ている場所(カーソル位置)である。
(4)ユーザは文書提示部10で表示された文書内容をカーソルを進めることによって閲覧すると、カーソルの進行・後退にしたがって、構造提示の表示画面のカーソルとスライダーが移動し、その文書提示の表示画面に存在するキーワードや文境界が識別できる。
また、この文書の構造面から見たいときには、構造提示部16で表示されたキーワードが出現する位置へスライダー部17を使って、カーソルまたはスライダーを移動させることにより、そのキーワードが現れる文書の内容が文書提示部の表示画面へ表示される。
また、この文書の構造面から見たいときには、構造提示部16で表示されたキーワードが出現する位置へスライダー部17を使って、カーソルまたはスライダーを移動させることにより、そのキーワードが現れる文書の内容が文書提示部の表示画面へ表示される。
以上説明したように、文書の主題を表すキーワードを用いてその文書内での出現位置を提示することにより、文書構造を提示することができる文書ブラウズ装置を提供できる。
<実施形態2>
上述した実施形態1では、文書構造を文書全体にわたって解析して、その構造を構造提示するようにしている。本実施形態2は、文書のサイズが大きい場合や部分的に詳細に文書構造を見たい場合には、文書の部分だけを指定して、その部分についてのみ構造提示できるようにした。
上述した実施形態1では、文書構造を文書全体にわたって解析して、その構造を構造提示するようにしている。本実施形態2は、文書のサイズが大きい場合や部分的に詳細に文書構造を見たい場合には、文書の部分だけを指定して、その部分についてのみ構造提示できるようにした。
図10は、実施形態2に係る文書ブラウズ装置の機能構成を示すブロック図である。同図において、文書ブラウズ装置は、文書提示部10、文書内容保持部11、文境界検出部12、キーワード抽出部13、キーワード保持部14、キーワード配置計算部15、構造提示部16、スライダー部17、キーワード再抽出部18とからなっている。ここで、実施形態1と同じ機能については、同じ符号を付してその説明を省略し、相違点についてのみ説明する。
文書の部分を指定するときには、図9に示すような構造提示において、例えば、マウスの左ボタンでスライダーやカーソルをドラッグして、文書の部分の開始位置へカーソルを移動させて、マウスの右ボタンを1回クリック(ON)して開始位置を指定する。
続いて、マウスの左ボタンでスライダーやカーソルをドラッグして、文書の部分の終了位置へカーソルを移動させて、マウスの右ボタンを1回クリック(OFF)して終了位置を指定する。
このような一連のマウス操作は、スライダー部17において実行され、詳細な構造を表示させたい文書のうちの部分の開始位置と終了位置を指定することができる。
続いて、マウスの左ボタンでスライダーやカーソルをドラッグして、文書の部分の終了位置へカーソルを移動させて、マウスの右ボタンを1回クリック(OFF)して終了位置を指定する。
このような一連のマウス操作は、スライダー部17において実行され、詳細な構造を表示させたい文書のうちの部分の開始位置と終了位置を指定することができる。
キーワード再抽出部18は、スライダー部17で文書の部分が指定されると起動され、指定された文書の部分からキーワードの抽出がおこなわれる。
キーワード再抽出部18は、指定された文書の開始位置と終了位置を受け取り、文書内容保持部11からこの範囲の文書のテキスト情報を読み出す。この読み出した文書の部分に対してキーワード抽出部13およびキーワード配置計算部15を呼び出して、抽出されたキーワード、出現位置、平均出現位置をキーワード保持部14へ格納する。
キーワードの抽出が終了すると、構造提示部16が再抽出されたキーワードを用いて、指定された文書の部分の構造提示を行う。
キーワード再抽出部18は、指定された文書の開始位置と終了位置を受け取り、文書内容保持部11からこの範囲の文書のテキスト情報を読み出す。この読み出した文書の部分に対してキーワード抽出部13およびキーワード配置計算部15を呼び出して、抽出されたキーワード、出現位置、平均出現位置をキーワード保持部14へ格納する。
キーワードの抽出が終了すると、構造提示部16が再抽出されたキーワードを用いて、指定された文書の部分の構造提示を行う。
このように、構造提示の手がかりとしてのキーワードを部分構造から再抽出することにより、対話的に構造を詳細化しながら文書の概要表示ができる。
本発明は、上述した実施形態のみに限定されたものではない。上述した実施形態の文書ブラウズ装置を構成する各機能をそれぞれプログラム化し、予めROM等の記録媒体に書き込んでおき、文書ブラウズ装置にこの記録媒体を装着して、これらのプログラムをマイクロプロセッサで実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されて実行された状態が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
この場合、記録媒体から読み出されて実行された状態が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、このような機能を実現するプログラムは、半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれの形態の記録媒体で提供されてもよい。
あるいは、ネットワーク等の通信網を介して記憶装置に格納されたプログラムをサーバコンピュータから直接供給を受けるようにしてもよい。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
あるいは、ネットワーク等の通信網を介して記憶装置に格納されたプログラムをサーバコンピュータから直接供給を受けるようにしてもよい。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このような記録媒体で提供された場合は、その記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置にインストールし、そのインストールされたプログラムをマイクロプロセッサが実行することによって上述した実施形態の機能が実現される。または、記録媒体に記録されたプログラムを直接実行するようにしてもよい。
10…文書提示部、11…文書内容保持部、12…文境界検出部、13…キーワード抽出部、14…キーワード保持部、15…キーワード配置計算部、16…構造提示部、17…スライダー部、18…キーワード再抽出部。
Claims (9)
- 指定されたカーソル位置の近傍の文書内容を文書内容保持部から取り出して提示する文書提示部と、カーソル位置をコントロールするスライダー部とを備えた文書ブラウズ装置において、前記文書内容保持部の指定された文書から複数のキーワードを抽出するとともに、前記文書中での出現位置を算出してキーワード保持部に記録するキーワード抽出部と、前記キーワード保持部に記録されたキーワードの出現位置を第1軸に、該キーワードを第2軸にとって、文書中でのキーワードの出現位置および現在のカーソル位置を提示する構造提示部を備えることを特徴とする文書ブラウズ装置。
- 請求項1に記載の文書ブラウズ装置において、文境界の出現位置を検出する文境界検出部を有し、構造提示部は、前記文境界検出部で検出した文境界の出現位置も前記第1軸と合わせて提示するようにしたことを特徴とする文書ブラウズ装置。
- 請求項2に記載の文書ブラウズ装置において、前記文境界検出部は、空行による章境界、改行後の空白配置による段落境界を文境界として検出することを特徴とする文書ブラウズ装置。
- 請求項1乃至3のいずれかに記載の文書ブラウズ装置において、前記キーワード保持部に記録されたキーワードの出現位置の平均出現位置を算出して該キーワード保持部を更新するキーワード配置計算部を有し、前記構造提示部は、前記キーワード保持部に記録されたキーワードの平均出現位置が前方に位置するものから順番に前記第2軸に割り当てるようにしたことを特徴とする文書ブラウズ装置。
- 請求項1乃至4のいずれかに記載の文書ブラウズ装置において、前記キーワード配置計算部におけるキーワードの出現位置、および前記文境界検出部における文境界の出現位置の計算を文書のページ単位で行い、構造提示部は、前記第1軸のスケールをページ単位としたことを特徴とする文書ブラウズ装置。
- 請求項1乃至5のいずれかに記載の文書ブラウズ装置において、前記文書内容保持部に保持された文書の一部を指定された場合、この指定された部分のキーワードを抽出して、前記キーワード保持部へ記録するキーワード再抽出部を備えることを特徴とする文書ブラウズ装置。
- 指定されたカーソル位置の近傍の文書内容を文書内容保持部から取り出して提示する文書提示部と、カーソル位置をコントロールするスライダー部とを備えた文書ブラウズ装置における文書ブラウズ方法において、前記文書内容保持部の指定された文書から複数のキーワードを抽出してキーワード保持部に記録し、前記キーワード保持部に記録されたキーワードに対して、前記文書中での出現位置を算出して前記キーワード保持部を更新し、前記キーワード保持部に記録されたキーワードの出現位置を第1軸に、該キーワードを第2軸にとって、文書中でのキーワードの出現位置および現在のカーソル位置を提示するようにして、文書構造の概要を提示することを特徴とする文書ブラウズ方法。
- コンピュータに、請求項1乃至6のいずれかに記載の文書ブラウズ装置の機能を実行させるためのプログラム。
- 請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003294832A JP2005063283A (ja) | 2003-08-19 | 2003-08-19 | 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003294832A JP2005063283A (ja) | 2003-08-19 | 2003-08-19 | 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005063283A true JP2005063283A (ja) | 2005-03-10 |
Family
ID=34371246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003294832A Pending JP2005063283A (ja) | 2003-08-19 | 2003-08-19 | 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005063283A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010511936A (ja) * | 2006-11-30 | 2010-04-15 | マイクロソフト コーポレーション | ランク・グラフ |
JP2010257169A (ja) * | 2009-04-24 | 2010-11-11 | Fujifilm Corp | 検索結果表示方法及び装置、並びに検索結果表示プログラム |
JP2010267062A (ja) * | 2009-05-14 | 2010-11-25 | Ntt Data Corp | 文書管理システム、文書管理方法及びコンピュータプログラム |
WO2011036755A1 (ja) * | 2009-09-24 | 2011-03-31 | 株式会社 東芝 | キーワード抽出装置、およびプログラム |
WO2014050981A1 (ja) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム |
JP2014531671A (ja) * | 2011-09-23 | 2014-11-27 | アマゾン テクノロジーズ インコーポレイテッド | デジタル作品のための補足情報の視覚表現 |
US9449526B1 (en) | 2011-09-23 | 2016-09-20 | Amazon Technologies, Inc. | Generating a game related to a digital work |
US9613003B1 (en) | 2011-09-23 | 2017-04-04 | Amazon Technologies, Inc. | Identifying topics in a digital work |
US9639518B1 (en) | 2011-09-23 | 2017-05-02 | Amazon Technologies, Inc. | Identifying entities in a digital work |
-
2003
- 2003-08-19 JP JP2003294832A patent/JP2005063283A/ja active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010511936A (ja) * | 2006-11-30 | 2010-04-15 | マイクロソフト コーポレーション | ランク・グラフ |
JP4746136B2 (ja) * | 2006-11-30 | 2011-08-10 | マイクロソフト コーポレーション | ランク・グラフ |
JP2010257169A (ja) * | 2009-04-24 | 2010-11-11 | Fujifilm Corp | 検索結果表示方法及び装置、並びに検索結果表示プログラム |
JP2010267062A (ja) * | 2009-05-14 | 2010-11-25 | Ntt Data Corp | 文書管理システム、文書管理方法及びコンピュータプログラム |
WO2011036755A1 (ja) * | 2009-09-24 | 2011-03-31 | 株式会社 東芝 | キーワード抽出装置、およびプログラム |
JPWO2011036755A1 (ja) * | 2009-09-24 | 2013-02-14 | 株式会社東芝 | キーワード抽出装置、およびプログラム |
JP5238886B2 (ja) * | 2009-09-24 | 2013-07-17 | 株式会社東芝 | キーワード抽出装置、およびプログラム |
US8904285B2 (en) | 2009-09-24 | 2014-12-02 | Kabushiki Kaisha Toshiba | Keyword extraction apparatus and program |
JP2014531671A (ja) * | 2011-09-23 | 2014-11-27 | アマゾン テクノロジーズ インコーポレイテッド | デジタル作品のための補足情報の視覚表現 |
US9128581B1 (en) | 2011-09-23 | 2015-09-08 | Amazon Technologies, Inc. | Providing supplemental information for a digital work in a user interface |
US9449526B1 (en) | 2011-09-23 | 2016-09-20 | Amazon Technologies, Inc. | Generating a game related to a digital work |
US9471547B1 (en) | 2011-09-23 | 2016-10-18 | Amazon Technologies, Inc. | Navigating supplemental information for a digital work |
US9613003B1 (en) | 2011-09-23 | 2017-04-04 | Amazon Technologies, Inc. | Identifying topics in a digital work |
US9639518B1 (en) | 2011-09-23 | 2017-05-02 | Amazon Technologies, Inc. | Identifying entities in a digital work |
US10108706B2 (en) | 2011-09-23 | 2018-10-23 | Amazon Technologies, Inc. | Visual representation of supplemental information for a digital work |
US10481767B1 (en) | 2011-09-23 | 2019-11-19 | Amazon Technologies, Inc. | Providing supplemental information for a digital work in a user interface |
WO2014050981A1 (ja) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム |
CN104685493A (zh) * | 2012-09-27 | 2015-06-03 | 日本电气株式会社 | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 |
JPWO2014050981A1 (ja) * | 2012-09-27 | 2016-08-22 | 日本電気株式会社 | テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9411788B2 (en) | Methods and apparatus for improved navigation among controlled terms in one or more user documents | |
US9613003B1 (en) | Identifying topics in a digital work | |
KR100682897B1 (ko) | 사전 업데이트 방법 및 그 장치 | |
Li et al. | The role of discourse units in near-extractive summarization | |
US9639518B1 (en) | Identifying entities in a digital work | |
US10650186B2 (en) | Device, system and method for displaying sectioned documents | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
JP4521343B2 (ja) | 文書処理装置及び文書処理方法 | |
US20110219304A1 (en) | Dictionary information display device | |
US20140019852A1 (en) | Document association device, document association method, and non-transitory computer readable medium | |
JP2011513810A (ja) | 用語識別方法および装置 | |
JP2005063283A (ja) | 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 | |
JP5056133B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
US20120150530A1 (en) | Information processing device and display control method | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
CN111008519A (zh) | 阅读页面的展示方法、电子设备及计算机存储介质 | |
JP2005107931A (ja) | 画像検索装置 | |
CN114912002A (zh) | 电子元器件搜索方法、装置、电子设备及存储介质 | |
US20120154436A1 (en) | Information display apparatus and information display method | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
KR101421819B1 (ko) | 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법 | |
JP4213900B2 (ja) | 文書分類装置と記録媒体 | |
JP2020160514A (ja) | 検索装置、辞書作成プログラム、辞書データ作成方法 | |
JP5233424B2 (ja) | 検索装置およびプログラム | |
Hong et al. | FireCite: Lightweight real-time reference string extraction from webpages |