JP2020060811A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2020060811A JP2020060811A JP2018189515A JP2018189515A JP2020060811A JP 2020060811 A JP2020060811 A JP 2020060811A JP 2018189515 A JP2018189515 A JP 2018189515A JP 2018189515 A JP2018189515 A JP 2018189515A JP 2020060811 A JP2020060811 A JP 2020060811A
- Authority
- JP
- Japan
- Prior art keywords
- extracted
- document
- character string
- documents
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、第1実施形態に係る情報処理装置100の構成の一例を示す図である。図1には、情報処理装置100に接続されるディスプレイ210、キーボード220およびマウス230も例示されている。情報処理装置100は、Central Processing Unit(CPU
)101、主記憶部102、補助記憶部103、通信部104、入出力インターフェース(図中では、入出力IFと表記)105を備えるコンピュータである。CPU101、主記憶部102、補助記憶部103、通信部104および入出力インターフェース105は、接続バスB1によって相互に接続される。
IC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field-Programmable Gate Array(FPGA)を含む。CPU101は、プロセッサと集積回路
との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラユニット(MCU)、System-on-a-chip(SoC)、システムLSI、チップセットなどと呼ばれる。
、補助記憶部103は、例えば、ネットワーク上のコンピュータ群であるクラウドシステムの一部であってもよい。
ステートドライブ(Solid State Drive、SSD)、ハードディスクドライブ(Hard Disk
Drive、HDD)等である。また、補助記憶部103は、例えば、Compact Disc(CD)ドライブ装置、Digital Versatile Disc(DVD)ドライブ装置、Blu-ray(登録商標) Disc(BD)ドライブ装置等である。また、補助記憶部103は、Network Attached Storage(NAS)あるいはStorage Area Network(SAN)によって提供されてもよい。
210は、入出力インターフェース105を介して情報処理装置100に接続される。
図2は、第1実施形態に係る情報処理装置100の機能ブロックの一例を示す図である。情報処理装置100は、同義語展開部301、同義語辞書301a、テキスト検索部302、テキストデータベース(図中では、テキストDBと表記)302a、形態素解析部303、文書ベクトル生成部304、ストップワード辞書304a、単語ベクトル生成部305、単語分類度計算部307、分類器308、特徴モデル308a、分類度ベクトル生成部309、基点決定部310,表示データ生成部311、近接規則リスト311a、特定特徴データリスト311b、属性データリスト311c、表示対象データリスト311d、単語特徴量比較部312、ノード文書検索部313、エッジ文書検索部314、テキスト表示部315、詳細データ検索部316を備える。情報処理装置100は、主記憶部102に実行可能に展開されたコンピュータプログラムをCPU101が実行することで、上記各部としての処理を実行する。
するリソースである場合には、文書の実体の代わりに、文書の実体へのUniform Resource
Identifier(URI)をテキストデータベース302aに格納してもよい。テキストデ
ータベース302aは、「データベース」の一例である。
同義語として返す。
成する複合語や係り受け関係を持っている単語や句を形成する複合語の対を選定してもよい。例えばチャンキング処理を含む構文解析を利用することにより、意味的にまとまりのある複合語や語句を抽出することが可能となる。また、形態素解析部303は、形態素解析の結果から単語N−gramを生成してもよい。この場合、形態素解析部303によって最終的に出力される文字列は「単語」ではなく「複数の単語からなる複合語または語句」となるが、これ以降の処理において「単語」と「複合語」と「語句」を区別したり、「単語」か「複合語」か「語句」かで処理を変えたりする必要は特段ない。したがって、以下の説明では便宜的に「単語」という表現を用いるが、形態素解析部303から出力される文字列が「語句」または「複合語」の場合は以下の説明における「単語」を「語句」または「複合語」と読み替えればよい。上述した、登場回数の閾値、抽出する単語数、単語N−gramにおけるパラメータNなどの設定をユーザに指定可能とするとよい。なお、単語N−gramを生成する場合には、N個の単語から構成される語句のみを抽出してもよいし、N個以下の単語から構成される語句を抽出してもよい。
。)。例えば、入力文書を「果物に関する文書」か否かに分類する2クラス分類器の場合は、0〜1の変域のスコアを出力するように設計ないし学習するとよい。この場合、出力スコアが1に近いほど「入力文書は果物に関する文書である可能性が高い」と判断でき、出力スコアが0に近いほど「入力文書は果物に関する文章ではない可能性が高い」と判断できる。また、入力文書を「野菜に関する文書」か「果物に関する文書」か「それ以外の文書」かに分類する3クラス分類器の場合は、−1(野菜)〜0〜+1(果物)の変域のスコアを出力するように設計ないし学習するとよい。この場合、出力スコアが−1に近いほど「入力文書は野菜に関する文書である可能性が高い」と判断でき、出力スコアが+1に近いほど「入力文書は果物に関する文書である可能性が高い」と判断でき、出力スコアが0に近いと「入力文書は野菜に関する文書でも果物に関する文書でもない可能性が高い」と判断できる。このような分類器308は、多数の教師データ(トレーニング用の文書サンプル)を用いた機械学習によって作成してもよいし、人が設計したルールやモデルに基づいて作成してもよい。機械学習の方法は何でもよく、例えば、サーポートベクターマシン(SVM)、ベイジアンネットワーク、ニューラルネットワーク(NN)、ディープニューラルネットワーク(DNN)などを利用できる。本実施形態ではSVMを用いる。分類器308の出力スコアは、入力文書が有する特徴を数値化したものといえるので、以下では「文書特徴スコア」と呼ぶ。分類器308は、抽出文書ごとの文書特徴スコアを算出する「文書特徴算出部」の一例である。
「スイカ」の分類度=6×0.8+3×(−0.1)=4.5
と求まる。なお本実施形態では、文書特徴スコアと出現回数の積の合計値を分類度と定義したが、合計値の代わりに別の統計量を用いてもよい。例えば、平均、標準偏差等によって分類度が求められてもよい。
100の補助記憶部103上に構築されたデータベースやLAN上に構築されたデータベースやウェブサイトであってもよい。
図17から図20を参照して、第1実施形態に係る情報処理装置100が実行する処理フローについて説明する。図17から図20は、第1実施形態に係る処理フローの一例を示す図である。図17の「A」は図18の「A」に接続し、図18の「B」は図19の「B」に接続し、図19の「C」は図20の「C」に接続する。
点ノードが「空」の場合は、例えば、残りの単語の中から、単語の分類度が最も大きい単語と最も小さい単語のペア、又は、単語の分類度ベクトルの大きさが最も大きい単語と最も小さい単語のペアを選択するとよい。基点ノードが「空」でない場合は、例えば、残りの単語の中から、基点ノードの単語に最も類似する単語を選択するとよい(なお、単語間の類似度については単語特徴量比較部312と同じ方法で計算すればよい)。選択された追加候補の単語は、単語特徴量比較部312に渡される。
)、処理はステップS21へ進められる。
次に、表示データ生成部311による木構造の表示処理のバリエーションを説明する。以下の表示処理は必須の機能ではなく、必要に応じて表示データ生成部311に実装すればよい。
表示データ生成部311は、属性データリスト311cに登録されている単語については、対応するノードを特定の色や効果を付して表示してもよい。図11は、属性データリスト311cの一例を示す図である。属性データリスト311cでは、単語と当該単語が対応付けられたノードに付与する属性(アトリビュート)とが対応付けられる。図11では、属性の一例として、ノードの背景色が指定される。例えば、単語「みかん」のノードでは、背景色は「橙」となる。
図12は、特定特徴データリスト311bの一例を示す図である。特定特徴データリスト311bは、アトリビュート付与の対象となる単語のリストである。ここで、特定特徴データリスト311bに登録されている単語を「対象単語」と呼び、対象単語が対応付けられたノードを「対象ノード」と呼ぶ。また、対象ノードに隣接するノード(つまり、親ノード又は子ノード)を「隣接ノード」と呼び、隣接ノードに対応付けられた単語を「隣接単語」と呼ぶ。
イン類似度やユークリッド距離などから求めてもよい。また、所定の閾値の設定は、ユーザが変更可能であるとよい。
表示データ生成部311は、近接規則リスト311aに登録された規則に基づいてノードの表示態様を変更してもよい。図13は、近接規則リスト311aの一例を示す図である。近接規則リスト311aは、ルールID、隣接色、個数、アトリビュート、の4つの項目を含む。ルールIDは、近接規則リスト311aに登録された各規則を一意に識別するIDである。隣接色は、隣接するノードの背景色である。個数は、隣接するノードの個数である。アトリビュートは、隣接色および個数の条件を満たした場合に変更するノードの背景色である。例えば、ルールID:4の近接規則の場合、背景色が「赤」の隣接ノードが2つ存在するノードの背景色は「黄色」に変更される。図14は、近接規則リスト311aに登録された規則に基づいてノードの表示態様を変更した場合を例示する図である。図14(A)は変更前の状態を例示し、図14(B)は変更後の状態を例示する。図14では、ノード1001に隣接する2つのノード(親ノードと子ノード)が赤色であるため、ルールID:4の近接規則にしたがい、ノード1001の色が黄色に変更されている。
第1実施形態では、文書ベクトル生成部304は、単語毎に文書ベクトル3041を生成し、同義語は考慮しなかった。しかしながら、文書ベクトル生成部304は、同義語辞書301aを参照して、同義語の中から選択された代表語に同義語を置き換えて文書ベクトル3041を生成してもよい。図21は、同義語をまとめて生成した文書ベクトル3041aの一例を示す図である。図21の上段は同義語を代表語に置き換える前の文書ベクトル3041の一例であり、図21の下段は同義語を代表語に置き換えた後の文書ベクトル3041aの一例である。図21の上段において、例えば、同じ「リンゴ」を示す単語「リンゴ」、「りんご」および「林檎」について、それぞれ異なる文書ベクトル3041が生成されている。また、同じ「スイカ」を示す単語「スイカ」および「西瓜」について、それぞれ異なる文書ベクトル3041が生成されている。図21の下段では、同義語を代表語による表記に置き換えた結果、「リンゴ」、「りんご」および「林檎」が代表語「リンゴ」に置き換えられて文書ベクトル3041aが生成され、「スイカ」および「西瓜」が代表語「スイカ」に置き換えられて文書ベクトル3041aが生成されていることがわかる。同義語を代表語に置き換えた後における出現回数は、各同義語の出現回数の合計となる。同義語を代表語に置き換えて文書ベクトル3041aが生成される場合、木構造で表示される各ノードも同義語を代表語に置き換えて表示されてもよい。同義語を代表語に置き換えることで、文書の各々における単語の表記の揺れを吸収することができる。
第1実施形態では、テキスト検索部302は、検索条件として与えられたキーワードを含むすべての文書をテキストデータベース302aから抽出した。しかしながら、テキスト検索部302は、検索条件として日時が指定される場合、文書の作成日と指定された日
時とが一致する文書、指定された日時以降に作成された文書または指定された日時以前に作成された文書を抽出してもよい。この場合、文書の各々には、当該文書を作成した作成日を示す作成日付情報が付されており、テキスト検索部302が作成日付情報と指定された日時とを照合すればよい。検索条件として日時が指定される場合、表示データ生成部311は、例えば、指定された日時と文書に付された作成日付情報とに基づいて、ノードの表示態様を変更してもよい。例えば、表示データ生成部311は、指定された日時と作成日付情報とが一致する文書に出現する単語のノードを他のノードと異なる態様で表示することで、ユーザが他のノードと区別しやすいように表示してもよい。
第1実施形態では、文書ベクトル生成部304は、ストップワード辞書304aに登録されている単語を除いて、文書に含まれるすべての単語を用いて文書ベクトル3041を生成した。しかしながら、文書ベクトル3041に用いる単語の単語数に関して閾値を設けて制限してもよい。例えば、文書中における単語の出現順に文書ベクトル3041の要素として採用し、採用した単語の数が閾値に達した時点で、残りの単語については文書ベクトル3041の要素として採用しない方法も可能である。また、文書ベクトル3041の要素として採用した単語の数が閾値に達すると、それ以降は最も古く要素として採用された単語を文書ベクトル3041から除外して、新しい単語を文書ベクトル3041の要素として採用する方法も可能である。また、単語に重みづけを行う所定のアルゴリズム(例えば、TF-IDF、Okapi BM25等)によって単語に重みづけを行い、重みの高い単語から順に文書ベクトル3041の要素として採用し、文書ベクトル3041の要素として採用した単語の数が閾値に達すると、それ以降の単語は文書ベクトル3041の要素として採用しない方法も可能である。
文書は、他の文書への参照情報を含んでもよい。例えば、文書が論文である場合、引用した論文を示す情報を他の文書への参照情報として含んでもよい。このような場合、テキスト検索部302は、文書の各々が他の文書から参照される被参照数を集計し、被参照数の多い文書を優先して抽出してもよい。優先して抽出とは、例えば、抽出する文書の数に閾値が設けられている場合、検索クエリに基づいて抽出した文書のうち被参照数の多い文書から順番に文書を抽出し、抽出した文書の数が閾値に達すると抽出を終了すればよい。被参照数が多い文書は、それだけ重要度の高い文書である可能性が高い。そのため、このような構成を採用することで、重要な情報を得られる可能性が高い文書が優先して抽出されるようになるという利点がある。
第1実施形態では、木構造の初期の基点は基点決定部310が決定したが、木構造が表示された後はユーザにより基点を変更できるようにしてもよい。例えば、キーボード220またはマウス230等の入力手段によって、ユーザが基点としたいノードを指定すると、基点決定部310は、指定されたノードを基点として表示データ生成部311に渡し、表示データ生成部311は指定されたノードを基点として二分木を生成すればよい。この
ような処理を実行する基点決定部310および表示データ生成部311は、「基点変更部」の一例である。
第1実施形態では、二分木を例示したが、木構造としては、三分木またはそれ以上に分岐する木構造であってもよい。この場合、ユーザがキーボード220等の入力手段を介して、表示データ生成部311に対して分岐する分岐数を指定すればよい。例えば、木構造を三分木とする場合、分岐数として「3」が指定されればよい。
第1実施形態では、基点ノードが「空」の場合に、基点の下に接続するノードとして、分類度又は分類度ベクトルの大きさ(以下まとめて「分類度」と記す)が最大の単語と最小の単語のペアを選択し(ステップS10参照)、それ以降追加するノードとして、残りの単語の中から、分類度が最大の単語と最小の単語のペアを選択することとした(ステップS12参照)。このような選択手順は、木構造が二分木であり、かつ、分類度が「当該単語があるクラスに属するか否か」を表す指標である場合に好適な例である。もし、木構造が二分木であり、かつ、分類度が「当該単語が第1のクラスに属するか第2のクラスに属するか」を表す指標である場合は、ステップS10やS12において、第1のクラスへの分類度が最大の単語と第2のクラスへの分類度が最大の単語の2つを選択すればよい。また、木構造が三分木であり、かつ、分類度が「当該単語が第1のクラスに属するか第2のクラスに属するか第3のクラスに属するか」を表す指標である場合は、ステップS10やS12において、第1のクラスへの分類度が最大の単語と第2のクラスへの分類度が最大の単語と第3のクラスへの分類度が最大の単語の3つを選択すればよい。分岐数が3より多い場合も同様である。
以上述べた第1実施形態による利点をまとめると次のとおりである。上述した木構造では、単語の特徴を表す特徴量(分類度又は分類度ベクトル)の差に基づいて各ノードの配置が決定されているので、各ノード(単語)の配置や接続関係などから、検索結果である複数の抽出文書に出現する単語の傾向などを容易に把握できる。また、上記実施形態では、単語の特徴を、単語そのものではなく、当該単語を使用している文書(テキスト、文脈)の特徴である文書特徴スコアを使って表現している。それゆえ、木構造における各ノードの配置や接続関係は、文書同士の関連性・類似性を反映したものとなる。したがって、上述した木構造を用いることにより、複数の文書について、文書同士の関連性・類似性や文書に登場する単語同士の関係を適切かつ直感的に表現することができ、ユーザによる情報探索作業を支援することが可能となる。
図22を参照して、本発明の第2実施形態について説明する。第2実施形態では、単語分類器(文字列の分類器)を用いて単語から直接的に単語の特徴量である分類度を求める。
器と呼んでもよい。)。このような単語分類器401は、多数の教師データを用いた機械学習によって作成してもよいし、人が設計したルールやモデルに基づいて作成してもよい。機械学習の方法は何でもよく、例えば、サーポートベクターマシン(SVM)、ベイジアンネットワーク、ニューラルネットワーク(NN)、ディープニューラルネットワーク(DNN)などを利用できる。本実施形態ではSVMを用いる。
以上述べた第2実施形態の構成によっても、第1実施形態と同様の作用効果を得ることができる。
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させる情報処理プログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ルーレイディスク(BD)、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
210・・・ディスプレイ
220・・・キーボード
230・・・マウス
3041・・・文書ベクトル
3051・・・単語ベクトル
3091・・・分類度ベクトル
Claims (20)
- データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出する検索部と、
前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出する解析部と、
前記複数の抽出文書の各々について、当該文書が有する特徴を数値化した文書特徴スコアを算出する文書特徴算出部と、
前記複数の抽出文字列の各々について、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアから当該抽出文字列の特徴を表す文字列特徴量を求める文字列特徴算出部と、
前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力する出力部と、
を有する情報処理装置。 - 前記文字列特徴算出部は、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアから計算される統計値を、当該抽出文字列の文字列特徴量とする、
請求項1に記載の情報処理装置。 - 前記統計値は、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアの合計値、平均値、又は、標準偏差である、
請求項2に記載の情報処理装置。 - 前記文字列特徴算出部は、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアに基づく値を要素としてもつベクトルを、当該文字列の文字列特徴量とする、
請求項1に記載の情報処理装置。 - 前記文書特徴スコアに基づく値は、抽出文書の文書特徴スコアに当該抽出文書における当該抽出文字列の出現頻度を乗じた値である、
請求項4に記載の情報処理装置。 - 前記文書特徴算出部は、入力文書をn個のクラス(nは2以上の整数)に分類する分類器から構成され、前記抽出文書を前記分類器に入力したときの出力スコアを当該抽出文書の文書特徴スコアとする、
請求項1から5のいずれか一項に記載の情報処理装置。 - データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出する検索部と、
前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出する解析部と、
前記複数の抽出文字列の各々について、当該抽出文字列の特徴を表す文字列特徴量を求める文字列特徴算出部であって、入力文字列をn個のクラス(nは2以上の整数)に分類する文字列分類器から構成され、前記抽出文字列を前記文字列分類器に入力したときの出力スコアを当該抽出文字列の文字列特徴量とする文字列特徴算出部と、
前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力する出力部と、
を有する情報処理装置。 - 前記検索条件は、キーワードを含み、
前記検索部は、同じ意味を有する同義語を記憶する同義語辞書から前記キーワードの同義語を取得し、前記キーワードおよび前記同義語の少なくともいずれか一方を含む文書を
、前記抽出文書として抽出する、
請求項1から7のいずれか一項に記載の情報処理装置。 - 前記複数の抽出文字列の間の文字列特徴量の平均を算出し、前記複数の抽出文字列のうち前記平均に最も近い文字列特徴量をもつ抽出文字列を前記木構造の基点に決定する基点決定部を有する、
請求項1から8のいずれか一項に記載の情報処理装置。 - 前記木構造の基点をユーザにより指定された抽出文字列に変更する基点変更部をさらに備える、
請求項1から9のいずれか一項に記載の情報処理装置。 - 前記基点変更部は、出力された前記木構造のいずれかのノードをユーザにより指定させ、現在の木構造の基点をユーザにより指定されたノードに対応付けられた抽出文字列に変更するものである、
請求項10に記載の情報処理装置。 - 前記出力部は、所定の抽出文字列に対応するノード、及び/又は、前記所定の抽出文字列に対応するノードであって且つ隣接するノードに対応付けられた抽出文字列と前記所定の抽出文字列とが所定の条件を満たすノード、及び/又は、隣接するノードと所定の条件を満たすノードを、他のノードとは異なる態様で出力する、
請求項1から11のいずれか一項に記載の情報処理装置。 - 前記データベースに蓄積された前記文書群の各々は、参照する他の文書を示す参照情報を含み、
前記検索部は、前記参照情報に基づいて他の文書から参照される被参照数が少ない文書を優先して抽出する、
請求項1から12のいずれか一項に記載の情報処理装置。 - 前記データベースに蓄積された前記文書群の各々は、参照する他の文書を示す参照情報を含み、
前記検索部は、前記参照情報に基づいて他の文書から参照される被参照数が多い文書を優先して抽出する、
請求項1から12のいずれか一項に記載の情報処理装置。 - 前記解析部は、所定の単語数以下の連続する単語を一つの抽出文字列として抽出する、
請求項1から14のいずれか一項に記載の情報処理装置。 - 前記出力部は、前記木構造のいずれかのノードがユーザにより指定されると、指定されたノードに対応付けられた抽出文字列を含む抽出文書の情報を出力する、
請求項1から15のいずれか一項に記載の情報処理装置。 - 前記出力部は、前記木構造のいずれかのエッジがユーザにより指定されると、指定されたエッジによって接続される2つのノードにそれぞれ対応付けられた2つの抽出文字列を両方とも含む抽出文書の情報を出力する、
請求項1から16のいずれか一項に記載の情報処理装置。 - データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出するステップと、
前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を
抽出文字列として抽出するステップと、
前記複数の抽出文書の各々について、当該文書が有する特徴を数値化した文書特徴スコアを算出するステップと、
前記複数の抽出文字列の各々について、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアから当該抽出文字列の特徴を表す文字列特徴量を求めるステップと、
前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力するステップと、
を有する情報処理方法。 - データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出するステップと、
前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出するステップと、
入力文字列をn個のクラス(nは2以上の整数)に分類する文字列分類器を用いて、前記複数の抽出文字列の各々を前記文字列分類器に入力したときの出力スコアを、各抽出文字列の特徴を表す文字列特徴量として求めるステップと、
前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力するステップと、
を有する情報処理方法。 - 請求項18または19に記載の情報処理方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189515A JP7203554B2 (ja) | 2018-10-04 | 2018-10-04 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189515A JP7203554B2 (ja) | 2018-10-04 | 2018-10-04 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060811A true JP2020060811A (ja) | 2020-04-16 |
JP7203554B2 JP7203554B2 (ja) | 2023-01-13 |
Family
ID=70218979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018189515A Active JP7203554B2 (ja) | 2018-10-04 | 2018-10-04 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7203554B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883687A (zh) * | 2021-02-05 | 2021-06-01 | 北京科技大学 | 一种基于合同文本标记语言的法律合同交互式标注方法 |
CN116611514A (zh) * | 2023-07-19 | 2023-08-18 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JP2003223466A (ja) * | 2002-01-31 | 2003-08-08 | Seiko Epson Corp | 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体 |
JP2005025465A (ja) * | 2003-07-01 | 2005-01-27 | Toshiba Corp | 文書検索方法及び文書検索装置 |
-
2018
- 2018-10-04 JP JP2018189515A patent/JP7203554B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JP2003223466A (ja) * | 2002-01-31 | 2003-08-08 | Seiko Epson Corp | 特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体 |
JP2005025465A (ja) * | 2003-07-01 | 2005-01-27 | Toshiba Corp | 文書検索方法及び文書検索装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883687A (zh) * | 2021-02-05 | 2021-06-01 | 北京科技大学 | 一种基于合同文本标记语言的法律合同交互式标注方法 |
CN116611514A (zh) * | 2023-07-19 | 2023-08-18 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
CN116611514B (zh) * | 2023-07-19 | 2023-10-10 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7203554B2 (ja) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US20180260860A1 (en) | A computer-implemented method and system for analyzing and evaluating user reviews | |
TW201638803A (zh) | 文本挖掘系統和工具 | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
JP2012027845A (ja) | 情報処理装置、関連文提供方法、及びプログラム | |
US11625537B2 (en) | Analysis of theme coverage of documents | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
Rogers et al. | Real-time text classification of user-generated content on social media: Systematic review | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
JP2012073804A (ja) | キーワード提示装置、方法及びプログラム | |
JP7203554B2 (ja) | 情報処理装置 | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
Li et al. | A hybrid model for role-related user classification on twitter | |
Bayomi et al. | C-hts: A concept-based hierarchical text segmentation approach | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
US9886488B2 (en) | Conceptual document analysis and characterization | |
JP7170487B2 (ja) | 情報処理装置およびプログラム | |
CN111831884B (zh) | 一种基于信息查找的匹配***与方法 | |
JP2009217406A (ja) | 文書検索装置及び方法、並びに、プログラム | |
Hajjem et al. | Features extraction to improve comparable tweet corpora building | |
Wijewickrema et al. | Automatic document classification using a domain ontology | |
Shen et al. | A hybrid model combining formulae with keywords for mathematical information retrieval | |
Vasili et al. | A study of summarization techniques in Albanian language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7203554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |