JP7032582B1 - 情報解析プログラム、情報解析方法及び情報解析装置 - Google Patents
情報解析プログラム、情報解析方法及び情報解析装置 Download PDFInfo
- Publication number
- JP7032582B1 JP7032582B1 JP2021013489A JP2021013489A JP7032582B1 JP 7032582 B1 JP7032582 B1 JP 7032582B1 JP 2021013489 A JP2021013489 A JP 2021013489A JP 2021013489 A JP2021013489 A JP 2021013489A JP 7032582 B1 JP7032582 B1 JP 7032582B1
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- word
- occurrence
- text information
- extraction step
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 72
- 238000000605 extraction Methods 0.000 claims abstract description 127
- 239000000284 extract Substances 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000014509 gene expression Effects 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 25
- 150000001875 compounds Chemical class 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 15
- 239000003607 modifier Substances 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000001364 causal effect Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 abstract description 6
- 208000024891 symptom Diseases 0.000 description 14
- 238000012790 confirmation Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 206010023126 Jaundice Diseases 0.000 description 10
- 238000004043 dyeing Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 238000009534 blood test Methods 0.000 description 5
- 210000005252 bulbus oculi Anatomy 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000001816 cooling Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000003990 capacitor Substances 0.000 description 2
- 210000000795 conjunctiva Anatomy 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
固有表現を抽出した上で、文章の因果関係を解析することで、専門用語などにも対応したキーワードの対応関係を解析する。
【解決手段】
情報解析プログラムは、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップを実行させるプログラムである。
【選択図】図2
Description
実施形態1では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。
図1は、本実施形態のサーバ10の全体構成を示す図である。サーバ10は、汎用のコンピュータである。サーバ10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC等により実現される。また、サーバ10は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。
以下、サーバ10の構成を詳細に説明する。図2に示すように、本実施形態に係るサーバ10は、通信部101、記憶部102、制御部103とを備える。通信部101は、サーバ10が他の装置と通信するための処理を行う。通信部101は、制御部103で生成された信号に送信処理を施し、外部へ送信する。通信部101は、外部から受信した信号に受信処理を施し、制御部103へ出力する。
以下、固有表現抽出部1032の固有表現抽出の具体例を示す。例えば、図3に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。
係り受け抽出部1033の係り受けの抽出の具体例を示す。図4に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部1033は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム-停止」、「停止-発生」、「電源-異常」、「電源-可能性」、「異常-可能性」、「異常-推察」、「可能性-推察」の係り受けを抽出することができる。
共起度算出部1034は、係り受け抽出部1033で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部1033で、W1-W2の係り受けと、W3-W4の係り受けが抽出されたとする。このとき、W1-W2又はW3-W4のいずれか又は両方の係り受けを含む文の数が全部で100文であり、W1-W2及びW3-W4の両方の係り受けを含む文の数が全部で10文あったとき、共起度は、(W1-W2又は/及びW3-W4の係り受けを含む文の数)/(W1―W2及びW3-W4の係り受けを含む文の数)=0.1として算出される。
共起抽出部1035は、共起度算出部1034において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法(実験方法、検査方法)が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の2種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象:症例」、「事象:部位」、「事象:状態」、「分析:検査項目」、「分析:検査結果」のタグを用意し、以下の説明をする。
図10は、本開示の実施形態1における情報解析装置の処理の流れを示す。
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。
実施形態2では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。
図11に本実施形態におけるサーバ20の構成を示す。サーバ20の制御部203は、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035、表示部2036を備える。なお、テキスト情報取得部1031、固有表現抽出部1032、係り受け抽出部1033、共起度算出部1034、共起抽出部1035はサーバ10の制御部103と同様である。
図12に表示部2036が表示する係り受けの視覚的表現の具体例を示す。表示部2036は、係り受け抽出部1033により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図12の例では、事象について、「システム-停止」「電源-可能性」「電源-異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図12の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。
図14は、本開示の実施形態2における情報解析装置の処理の流れを示す。
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。
Claims (13)
- プロセッサを備えるコンピュータに処理を行わせるプログラムであって、前記プロセッサに、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行させ、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
プログラム。 - 前記タグは、階層構造をもつタグを含む請求項1に記載のプログラム
- 前記固有表現及び前記タグは、少なくとも事象を表す事象タグと事象に対する分析方法表す分析タグとを含む請求項1又は請求項2に記載のプログラム
- 前記固有表現抽出ステップは、固有表現抽出用のモデルを用いて、前記テキスト情報に対して機械学習を用いて固有表現を抽出し、前記タグを付与する請求項1~請求項3の何れかに記載のプログラム。
- 前記係り受け抽出ステップは、修飾語と被修飾語の関係を係り受けとして解析する請求項1~請求項4の何れかに記載のプログラム。
- 前記係り受け抽出ステップは、修飾語と被修飾語の関係に加え、予め定めた手がかり表現により解析された単語を係り受けとして解析する請求項5に記載のプログラム。
- 前記係り受け抽出ステップは、名詞句が係り受けとして抽出されたときに、該名詞句のさらに先を探索して係り受け先を抽出する請求項1~請求項6の何れかに記載のプログラム。
- 前記共起度算出ステップは、係り受けの組合せ及び、係り受けと単語の組合せ、及び/又は単語と単語の組合せについて共起度を算出する請求項1~請求項7の何れかに記載のプログラム。
- 前記共起抽出ステップは、共起度が閾値を超える係り受けの組合せを抽出する請求項1~請求項8の何れかに記載のプログラム
- 前記共起抽出ステップは、選択された係り受けとの共起度が高い方から、指定された数の係り受けの組合せを抽出する請求項1~請求項9の何れかに記載のプログラム。
- 前記タグは、階層構造をもつタグを含み、前記共起抽出ステップは、選択された前記タグとの共起度に応じて係り受けの組合せを抽出する請求項1~請求項10の何れかに記載のプログラム。
- プロセッサを備えるコンピュータに処理を行わせるための方法であって、前記方法は、前記プロセッサが、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
方法。 - 制御部を備える情報解析装置であって、前記制御部が、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第1の語、第2の語、第3の語、及び第4の語が固有表現であり、前記第1の語を係り受け元とし、前記第3の語の係り受け先とする係り受け、及び前記第2の語を係り受け元とし、前記第4の語の係り受け先とする係り受けが存在し、かつ、前記第1の語と前記第2の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第3の語を係り受け先とする第3の係り受け、及び、前記複合語を係り受け元とし、前記第4の語を係り受け先とする第4の係り受けを、前記抽出した係り受けに追加して拡張する
情報解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013489A JP7032582B1 (ja) | 2021-01-29 | 2021-01-29 | 情報解析プログラム、情報解析方法及び情報解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021013489A JP7032582B1 (ja) | 2021-01-29 | 2021-01-29 | 情報解析プログラム、情報解析方法及び情報解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7032582B1 true JP7032582B1 (ja) | 2022-03-08 |
JP2022117019A JP2022117019A (ja) | 2022-08-10 |
Family
ID=81212839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021013489A Active JP7032582B1 (ja) | 2021-01-29 | 2021-01-29 | 情報解析プログラム、情報解析方法及び情報解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7032582B1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133492A (ja) | 2005-11-08 | 2007-05-31 | Oki Electric Ind Co Ltd | 係り受け抽出装置、方法及びプログラム |
JP2008225560A (ja) | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 相互に関係する固有表現の組抽出装置及びその方法 |
WO2009123260A1 (ja) | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
JP2009282903A (ja) | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | 知識抽出・検索装置およびその方法 |
JP2012068755A (ja) | 2010-09-21 | 2012-04-05 | Nomura Research Institute Ltd | 検索システム及び検索プログラム |
JP2017078976A (ja) | 2015-10-21 | 2017-04-27 | ダイキン工業株式会社 | 製品検索装置 |
-
2021
- 2021-01-29 JP JP2021013489A patent/JP7032582B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133492A (ja) | 2005-11-08 | 2007-05-31 | Oki Electric Ind Co Ltd | 係り受け抽出装置、方法及びプログラム |
JP2008225560A (ja) | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 相互に関係する固有表現の組抽出装置及びその方法 |
WO2009123260A1 (ja) | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
JP2009282903A (ja) | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | 知識抽出・検索装置およびその方法 |
JP2012068755A (ja) | 2010-09-21 | 2012-04-05 | Nomura Research Institute Ltd | 検索システム及び検索プログラム |
JP2017078976A (ja) | 2015-10-21 | 2017-04-27 | ダイキン工業株式会社 | 製品検索装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2022117019A (ja) | 2022-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649786B (zh) | 基于深度问答的答案检索方法及装置 | |
US10089296B2 (en) | System and method for sentiment lexicon expansion | |
KR20120063442A (ko) | 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
Raharjana et al. | User story extraction from online news for software requirements elicitation: A conceptual model | |
CN111052123A (zh) | 同义词辞典制作装置、同义词辞典制作程序以及同义词辞典制作方法 | |
KR20170134191A (ko) | 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템 | |
Quasthoff et al. | Building large resources for text mining: The Leipzig Corpora Collection | |
WO2014000764A1 (en) | A system and method for automatic generation of a reference utility | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Zanuz et al. | Fostering judiciary applications with new fine-tuned models for legal named entity recognition in portuguese | |
JP7032582B1 (ja) | 情報解析プログラム、情報解析方法及び情報解析装置 | |
Pettersson et al. | HistSearch-Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text. | |
WO2014064777A1 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
Hashfi et al. | Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method | |
CN110516157A (zh) | 一种文献检索方法、设备和存储介质 | |
KR101983477B1 (ko) | 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 | |
KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
US20190354589A1 (en) | Data analyzer and data analysis method | |
US11188716B2 (en) | Text display with visual distinctions per class | |
CN112989795A (zh) | 一种文本信息提取方法、装置、计算机设备及存储介质 | |
JP2011070541A (ja) | ネットマーケティング支援方法及びネットマーケティング支援装置 | |
JP5614687B2 (ja) | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 | |
Vo et al. | VietSentiLex: A sentiment dictionary that considers the polarity of ambiguous sentiment words | |
JP5187187B2 (ja) | 体験情報検索システム | |
Malak | Text Preprocessing: A Tool of Information Visualization and Digital Humanities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210201 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210201 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7032582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |