JP2022117019A - 情報解析プログラム、情報解析方法及び情報解析装置 - Google Patents
情報解析プログラム、情報解析方法及び情報解析装置 Download PDFInfo
- Publication number
- JP2022117019A JP2022117019A JP2021013489A JP2021013489A JP2022117019A JP 2022117019 A JP2022117019 A JP 2022117019A JP 2021013489 A JP2021013489 A JP 2021013489A JP 2021013489 A JP2021013489 A JP 2021013489A JP 2022117019 A JP2022117019 A JP 2022117019A
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- occurrence
- dependencies
- extracting
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 67
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 230000014509 gene expression Effects 0.000 claims abstract description 28
- 239000000284 extract Substances 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 17
- 150000001875 compounds Chemical class 0.000 claims description 11
- 239000003607 modifier Substances 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 21
- 230000001364 causal effect Effects 0.000 abstract description 9
- 238000012360 testing method Methods 0.000 description 12
- 206010023126 Jaundice Diseases 0.000 description 11
- 208000024891 symptom Diseases 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000004383 yellowing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 6
- 210000000795 conjunctiva Anatomy 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 238000009534 blood test Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 239000003990 capacitor Substances 0.000 description 3
- 238000001816 cooling Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004159 blood analysis Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
固有表現を抽出した上で、文章の因果関係を解析することで、専門用語などにも対応したキーワードの対応関係を解析する。
【解決手段】
情報解析プログラムは、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップを実行させるプログラムである。
【選択図】図2
Description
実施形態1では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。
図1は、本実施形態のサーバ10の全体構成を示す図である。サーバ10は、汎用のコンピュータである。サーバ10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC等により実現される。また、サーバ10は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。
以下、サーバ10の構成を詳細に説明する。図2に示すように、本実施形態に係るサーバ10は、通信部101、記憶部102、制御部103とを備える。通信部101は、サーバ10が他の装置と通信するための処理を行う。通信部101は、制御部103で生成された信号に送信処理を施し、外部へ送信する。通信部101は、外部から受信した信号に受信処理を施し、制御部103へ出力する。
以下、固有表現抽出部1032の固有表現抽出の具体例を示す。例えば、図3に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。
係り受け抽出部1033の係り受けの抽出の具体例を示す。図4に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部1033は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム-停止」、「停止-発生」、「電源-異常」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」の係り受けを抽出することができる。
共起度算出部1034は、係り受け抽出部1033で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部1033で、W1-W2の係り受けと、W3-W4の係り受けが抽出されたとする。このとき、W1-W2又はW3-W4のいずれか又は両方の係り受けを含む文の数が全部で100文であり、W1-W2及びW3-W4の両方の係り受けを含む文の数が全部で10文あったとき、共起度は、(W1-W2又は/及びW3-W4の係り受けを含む文の数)/(W1―W2及びW3-W4の係り受けを含む文の数)=0.1として算出される。
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法(実験方法、検査方法)が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の2種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象:症例」、「事象:部位」、「事象:状態」、「分析:検査項目」、「分析:検査結果」のタグを用意し、以下の説明をする。
図10は、本開示の実施形態1における情報解析装置の処理の流れを示す。
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。
実施形態2では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。
図11に本実施形態におけるサーバ20の構成を示す。サーバ20の制御部203は、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035、表示部2036を備える。なお、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035はサーバ10の制御部103と同様である。
図12に表示部2036が表示する係り受けの視覚的表現の具体例を示す。表示部2036は、係り受け抽出部1033により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図12の例では、事象について、「システム-停止」「電源-可能性」「電源-異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図12の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。
図14は、本開示の実施形態2における情報解析装置の処理の流れを示す。
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。
Claims (16)
- プロセッサを備えるコンピュータに処理を行わせるプログラムであって、前記プロセッサに、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラム。 - 前記タグは、階層構造をもつタグを含む請求項1に記載のプログラム
- 前記固有表現及び前記タグは、少なくとも事象を表す事象タグと事象に対する分析方法表す分析タグとを含む請求項1又は請求項2に記載のプログラム
- 前記固有表現抽出ステップは、固有表現抽出用のモデルを用いて、前記テキスト情報に対して機械学習を用いて固有表現を抽出し、前記タグを付与する請求項1から請求項3のいずれか一項に記載のプログラム。
- 前記係り受け抽出ステップは、修飾語と被修飾語の関係を係り受けとして解析する請求項1から請求項4のいずれか一項に記載のプログラム。
- 前記係り受け抽出ステップは、修飾語と被修飾語の関係に加え、予め定めた手がかり表現により解析された単語を係り受けとして解析する請求項5に記載のプログラム。
- 前記係り受け抽出ステップは、名詞句が係り受けとして抽出されたときに、該名詞句のさらに先を探索して係り受け先を抽出する請求項1から請求項6のいずれか一項に記載のプログラム。
- 前記係り受け抽出ステップは、第1の語を係り受け元とする第1の係り受けと、第2の語を係り受け元とする第2の係り受けがあり、第1の語と第2の語が複合語を構成するときに、該複合語を係り受け元とし第1の係り受け及び第2の係り受けの係り受け先を係り受け先とする係り受けのそれぞれの係り受けを追加して拡張する請求項1から請求項7のいずれか一項に記載のプログラム。
- 前記共起度算出ステップは、係り受けの組合せ及び、係り受けと単語の組合せ、及び/又は単語と単語の組合せについて共起度を算出する請求項1から請求項8のいずれか一項に記載のプログラム。
- 前記共起抽出ステップは、共起度が閾値を超える係り受けの組合せを抽出する請求項1から請求項9のいずれか一項に記載のプログラム
- 前記共起抽出ステップは、選択された係り受けとの共起度が高い方から、指定された数の係り受けの組合せを抽出する請求項1から請求項10のいずれか一項に記載のプログラム。
- 前記タグは、階層構造をもつタグを含み、前記共起抽出ステップは、選択された前記タグとの共起度に応じて係り受けの組合せを抽出する請求項1から請求項11のいずれか一項に記載のプログラム。
- 前記共起抽出ステップにより抽出された係り受けの組合せを表示する表示ステップをさらに備える請求項1から請求項12のいずれか一項に記載のプログラム。
- 前記表示ステップは、前記共起度とともに係り受けの組合せを表示する請求項13に記載のプログラム。
- プロセッサを備えるコンピュータに処理を行わせるための方法であって、前記方法は、前記プロセッサが、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行する方法。 - 制御部を備える情報解析装置であって、前記制御部が、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行する情報解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013489A JP7032582B1 (ja) | 2021-01-29 | 2021-01-29 | 情報解析プログラム、情報解析方法及び情報解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013489A JP7032582B1 (ja) | 2021-01-29 | 2021-01-29 | 情報解析プログラム、情報解析方法及び情報解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7032582B1 JP7032582B1 (ja) | 2022-03-08 |
JP2022117019A true JP2022117019A (ja) | 2022-08-10 |
Family
ID=81212839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021013489A Active JP7032582B1 (ja) | 2021-01-29 | 2021-01-29 | 情報解析プログラム、情報解析方法及び情報解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7032582B1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133492A (ja) * | 2005-11-08 | 2007-05-31 | Oki Electric Ind Co Ltd | 係り受け抽出装置、方法及びプログラム |
JP2008225560A (ja) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 相互に関係する固有表現の組抽出装置及びその方法 |
WO2009123260A1 (ja) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
JP2009282903A (ja) * | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | 知識抽出・検索装置およびその方法 |
JP2012068755A (ja) * | 2010-09-21 | 2012-04-05 | Nomura Research Institute Ltd | 検索システム及び検索プログラム |
JP2017078976A (ja) * | 2015-10-21 | 2017-04-27 | ダイキン工業株式会社 | 製品検索装置 |
-
2021
- 2021-01-29 JP JP2021013489A patent/JP7032582B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133492A (ja) * | 2005-11-08 | 2007-05-31 | Oki Electric Ind Co Ltd | 係り受け抽出装置、方法及びプログラム |
JP2008225560A (ja) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 相互に関係する固有表現の組抽出装置及びその方法 |
WO2009123260A1 (ja) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
JP2009282903A (ja) * | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | 知識抽出・検索装置およびその方法 |
JP2012068755A (ja) * | 2010-09-21 | 2012-04-05 | Nomura Research Institute Ltd | 検索システム及び検索プログラム |
JP2017078976A (ja) * | 2015-10-21 | 2017-04-27 | ダイキン工業株式会社 | 製品検索装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7032582B1 (ja) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10102254B2 (en) | Confidence ranking of answers based on temporal semantics | |
US9715531B2 (en) | Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system | |
US20170192955A1 (en) | System and method for sentiment lexicon expansion | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
US20150356456A1 (en) | Real-Time or Frequent Ingestion by Running Pipeline in Order of Effectiveness | |
Park et al. | Evaluating ontology extraction tools using a comprehensive evaluation framework | |
Borsje et al. | Semi-automatic financial events discovery based on lexico-semantic patterns | |
Quasthoff et al. | Building large resources for text mining: The Leipzig Corpora Collection | |
Dami et al. | News events prediction using Markov logic networks | |
Soto et al. | Similarity-based support for text reuse in technical writing | |
Eichler et al. | LINSPECTOR WEB: A multilingual probing suite for word representations | |
WO2014000764A1 (en) | A system and method for automatic generation of a reference utility | |
Zhong et al. | Natural language processing for systems engineering: automatic generation of systems modelling language diagrams | |
Chen et al. | An automatic method for extracting innovative ideas based on the scopus® database | |
Zanuz et al. | Fostering judiciary applications with new fine-tuned models for legal named entity recognition in portuguese | |
CN110516157A (zh) | 一种文献检索方法、设备和存储介质 | |
KR101983477B1 (ko) | 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 | |
JP7032582B1 (ja) | 情報解析プログラム、情報解析方法及び情報解析装置 | |
US11188716B2 (en) | Text display with visual distinctions per class | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 | |
Malak | Text Preprocessing: A Tool of Information Visualization and Digital Humanities | |
POSEDARU et al. | Natural Learning Processing based on Machine Learning Model for automatic analysis of Online Reviews related to Hotels and Resorts. | |
Höffner et al. | User interface for a template based question answering system | |
Abedissa et al. | Amharic Question Answering for Biography, Definition, and Description Questions | |
Börner et al. | Replicable Science of Science Studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210201 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210201 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7032582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |