JP7413214B2 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP7413214B2 JP7413214B2 JP2020151010A JP2020151010A JP7413214B2 JP 7413214 B2 JP7413214 B2 JP 7413214B2 JP 2020151010 A JP2020151010 A JP 2020151010A JP 2020151010 A JP2020151010 A JP 2020151010A JP 7413214 B2 JP7413214 B2 JP 7413214B2
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- nodes
- cluster
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 47
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000009471 action Effects 0.000 claims description 42
- 239000000284 extract Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000000547 structure data Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
[第1の実施形態]
図1は、各実施形態に係る情報処理装置の一例の構成を示す図である。情報処理装置1は、入力部11と、割当部12と、単語分類部13と、頻出単語抽出部14と、グラフ生成部15とを有する。
次に、第1の実施形態の変形例を説明する。前述した第1の実施形態では、1つのクラスタに割り当てられるノードの数に制限が設けられていない。このため、最終ノードからの距離が閾値を超える複数のノードがクラスタ候補ノードとして抽出され、クラスタ候補ノードのうちで互いにエッジで接続されているノード同士であればそれらのノードは1つのクラスタに割り当てられる。これに対し、1つのクラスタに割り当てられるノードの数に上限が設けられていてもよい。この場合、割当部12は、クラスタに割り当てられるノードの数が上限に達したときには、残りのノードは別のクラスタに割り当てる。
次に、第2の実施形態を説明する。ここで、第1の実施形態で説明した部分については説明を省略する。
次に、第3の実施形態を説明する。ここで、第1の実施形態で説明した部分については説明を省略する。
次に、第4の実施形態を説明する。ここで、第1の実施形態で説明した部分については説明を省略する。
次に、第5の実施形態を説明する。ここで、第1の実施形態で説明した部分については説明を省略する。
Claims (11)
- テキストを含む複数のノードと前記ノードの間を接続するエッジとを有するグラフ構造の入力を受け、前記グラフ構造の前記ノードを1以上のクラスタに割り当てる割当部と、
各々の前記クラスタに割り当てられた前記ノードに含まれる前記テキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、前記動作の内容又は状態を表す単語と、その他の単語とに分類する単語分類部と、
各々の前記クラスタについて、動作の主体又は対象を表す単語に分類された1以上の第1の単語の出現頻度をカウントすることで第1の頻出単語を抽出し、前記動作の内容又は状態を表す単語に分類された1以上の第2の単語の出現頻度をカウントすることで第2の頻出単語を抽出する頻出単語抽出部と、
を備えた情報処理装置。 - 前記クラスタを前記頻出単語抽出部で抽出された前記第1の頻出単語と前記第2の頻出単語とを列挙したテキストを含むノードに置き換えて要約されたグラフ構造を生成するグラフ生成部をさらに備えた請求項1に記載の情報処理装置。
- 前記頻出単語抽出部は、前記第1の単語が予め定義された第1の特定単語を含むときには前記第1の特定単語の出現頻度のカウントを他の第1の単語の出現頻度のカウントよりも多くし、前記第2の単語が予め定義された第2の特定単語を含むときには前記第2の特定単語の出現頻度のカウントを他の第2の単語の出現頻度のカウントよりも多くする請求項1に記載の情報処理装置。
- 前記割当部は、前記グラフ構造が予め定義された部分グラフ構造を含むときに、前記グラフ構造に含まれる前記部分グラフ構造に相当する前記ノードを1つのノードに割り当て、
前記頻出単語抽出部は、前記部分グラフ構造に相当するノードについては、前記部分グラフ構造に予め紐づけられた定義済みテキストを抽出し、前記部分グラフ構造に相当するノードから抽出される単語については前記第1の頻出単語及び前記第2の頻出単語を抽出するためのカウントの対象から除外する請求項1に記載の情報処理装置。 - 前記エッジは、有向エッジであり、
前記割当部は、前記ノードの中で前記有向エッジの先が接続されていない最終ノードからの距離が閾値よりも遠い複数の前記ノードをクラスタ候補ノードとして抽出し、前記クラスタ候補ノードのうちで前記有向エッジが接続されているノード同士を1つのクラスタに割り当てる請求項1に記載の情報処理装置。 - 前記クラスタの大きさをユーザが指定するための指定部をさらに備え、
前記割当部は、前記指定部によって指定された大きさに応じて前記閾値を変える請求項5に記載の情報処理装置。 - 前記割当部は、複数の前記クラスタの間を接続する前記エッジの数が少なくなるように前記ノードを前記クラスタに割り当てる請求項1に記載の情報処理装置。
- 前記頻出単語抽出部は、前記クラスタに割り当てられたノード毎に前記第1の単語と前記第2の単語からなる共起対を生成し、各々の共起対が生成された回数をカウントし、カウントの多い共起対を抽出する請求項1に記載の情報処理装置。
- 前記グラフ構造は、プログラム又は装置の動作を表すグラフ構造である請求項1に記載の情報処理装置。
- 情報処理装置により、テキストを含む複数のノードと前記ノードの間を接続するエッジとを有するグラフ構造の入力を受け、前記グラフ構造の前記ノードを1以上のクラスタに割り当てることと、
前記情報処理装置により、各々の前記クラスタに割り当てられた前記ノードに含まれる前記テキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、前記動作の内容又は状態を表す単語と、その他の単語とに分類することと、
前記情報処理装置により、各々の前記クラスタについて、動作の主体又は対象を表す単語に分類された1以上の第1の単語の出現頻度をカウントすることで第1の頻出単語を抽出し、前記動作の内容又は状態を表す単語に分類された1以上の第2の単語の出現頻度をカウントすることで第2の頻出単語を抽出することと、
を備えた情報処理方法。 - テキストを含む複数のノードと前記ノードの間を接続するエッジとを有するグラフ構造の入力を受け、前記グラフ構造の前記ノードを1以上のクラスタに割り当てることと、
各々の前記クラスタに割り当てられた前記ノードに含まれる前記テキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、前記動作の内容又は状態を表す単語と、その他の単語とに分類することと、
各々の前記クラスタについて、動作の主体又は対象を表す単語に分類された1以上の第1の単語の出現頻度をカウントすることで第1の頻出単語を抽出し、前記動作の内容又は状態を表す単語に分類された1以上の第2の単語の出現頻度をカウントすることで第2の頻出単語を抽出することと、
をプロセッサに実行させるための情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020151010A JP7413214B2 (ja) | 2020-09-09 | 2020-09-09 | 情報処理装置、情報処理方法及び情報処理プログラム |
US17/186,258 US11704491B2 (en) | 2020-09-09 | 2021-02-26 | Information processing apparatus, information processing method, and storage medium storing information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020151010A JP7413214B2 (ja) | 2020-09-09 | 2020-09-09 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022045417A JP2022045417A (ja) | 2022-03-22 |
JP7413214B2 true JP7413214B2 (ja) | 2024-01-15 |
Family
ID=80470708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020151010A Active JP7413214B2 (ja) | 2020-09-09 | 2020-09-09 | 情報処理装置、情報処理方法及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11704491B2 (ja) |
JP (1) | JP7413214B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004341911A (ja) | 2003-05-16 | 2004-12-02 | Sanyo Electric Co Ltd | 迷惑メール自動判定機能を有する通信装置 |
JP2013225251A (ja) | 2012-04-23 | 2013-10-31 | Mitsubishi Electric Corp | 情報処理装置及び情報処理方法及びプログラム |
JP2014106719A (ja) | 2012-11-27 | 2014-06-09 | Toshiba Corp | 影響関係解析装置 |
JP2014110026A (ja) | 2012-12-04 | 2014-06-12 | Fujitsu Ltd | 言語処理装置、言語処理方法、及びプログラム |
JP2016134079A (ja) | 2015-01-21 | 2016-07-25 | 富士通株式会社 | 分析プログラム、分析方法及び分析装置 |
JP2019021232A (ja) | 2017-07-21 | 2019-02-07 | 富士通株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2630267B2 (ja) * | 1994-08-30 | 1997-07-16 | 日本電気株式会社 | 情報出力履歴提示装置 |
US7340674B2 (en) * | 2002-12-16 | 2008-03-04 | Xerox Corporation | Method and apparatus for normalizing quoting styles in electronic mail messages |
JP2012233979A (ja) | 2011-04-28 | 2012-11-29 | Sanyo Electric Co Ltd | 投写型映像表示装置 |
JP5834883B2 (ja) | 2011-12-20 | 2015-12-24 | 日本電気株式会社 | 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム |
US8879103B2 (en) * | 2013-03-04 | 2014-11-04 | Xerox Corporation | System and method for highlighting barriers to reducing paper usage |
US9324038B2 (en) * | 2013-11-15 | 2016-04-26 | Xerox Corporation | Method and system for clustering, modeling, and visualizing process models from noisy logs |
RU2586577C2 (ru) * | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
JP6583899B1 (ja) * | 2018-10-04 | 2019-10-02 | 株式会社Fronteo | コンピュータ、データ要素提示方法、及びプログラム。 |
-
2020
- 2020-09-09 JP JP2020151010A patent/JP7413214B2/ja active Active
-
2021
- 2021-02-26 US US17/186,258 patent/US11704491B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004341911A (ja) | 2003-05-16 | 2004-12-02 | Sanyo Electric Co Ltd | 迷惑メール自動判定機能を有する通信装置 |
JP2013225251A (ja) | 2012-04-23 | 2013-10-31 | Mitsubishi Electric Corp | 情報処理装置及び情報処理方法及びプログラム |
JP2014106719A (ja) | 2012-11-27 | 2014-06-09 | Toshiba Corp | 影響関係解析装置 |
JP2014110026A (ja) | 2012-12-04 | 2014-06-12 | Fujitsu Ltd | 言語処理装置、言語処理方法、及びプログラム |
JP2016134079A (ja) | 2015-01-21 | 2016-07-25 | 富士通株式会社 | 分析プログラム、分析方法及び分析装置 |
JP2019021232A (ja) | 2017-07-21 | 2019-02-07 | 富士通株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Non-Patent Citations (1)
Title |
---|
桐村 綾子,GUIによる非構造データ統合分析方式,第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online],電子情報通信学会データ工学研究専門委員会,2010年05月25日,DEIM Forum 2010 B6-4, Internet<URL:http://db-event.jpn.org/deim2010/proceedings/files/B6-4.pdf> |
Also Published As
Publication number | Publication date |
---|---|
JP2022045417A (ja) | 2022-03-22 |
US11704491B2 (en) | 2023-07-18 |
US20220075943A1 (en) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10831984B2 (en) | Web page design snapshot generator | |
Akimushkin et al. | Text authorship identified using the dynamics of word co-occurrence networks | |
JP7289047B2 (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
US9501540B2 (en) | Interactive visualization of big data sets and models including textual data | |
US8762873B2 (en) | Graphical user interface component identification | |
US11880382B2 (en) | Systems and methods for generating tables from print-ready digital source documents | |
AU2015203818B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
US20150213002A1 (en) | Personal emotion state monitoring from social media | |
US9626353B2 (en) | Arc filtering in a syntactic graph | |
US20110099498A1 (en) | Graphical user interface hierarchy generation | |
JP2004192434A (ja) | 文書抽出装置及び文書抽出プログラム並びに文書抽出方法 | |
JP6524790B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2018112853A (ja) | 話題分類装置およびそのプログラム | |
CN109478191B (zh) | 文本挖掘方法、记录介质及文本挖掘装置 | |
Gries | Corpus and quantitative methods | |
JP7413214B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2006301959A (ja) | 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体 | |
WO2021106028A1 (ja) | 機械学習装置、機械学習方法、及び、機械学習プログラムが格納された記録媒体 | |
JP2009252185A (ja) | 情報検索装置、情報検索方法、制御プログラム及び記録媒体 | |
CN111832258A (zh) | 文档的分割方法、装置及电子设备 | |
CN111832310B (zh) | 一种文本处理方法及装置 | |
JP6496025B2 (ja) | 文書処理システム及び文書処理方法 | |
CN117236347B (zh) | 交互文本翻译的方法、交互文本的显示方法和相关装置 | |
Brie et al. | VisionAPI: An API for Offline and Online Segmentation and Identification of Hand-Sketched Graphical User Interfaces | |
JP2004318527A (ja) | 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220826 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231227 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7413214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |