JP7032582B1

JP7032582B1 - 情報解析プログラム、情報解析方法及び情報解析装置

Info

Publication number: JP7032582B1
Application number: JP2021013489A
Authority: JP
Inventors: 智大磯; 春樹横山; 昌也近藤; 耕也大橋
Original assignee: Ｋｐｍｇコンサルティング株式会社
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-03-08
Anticipated expiration: 2041-01-29
Also published as: JP2022117019A

Abstract

【課題】
固有表現を抽出した上で、文章の因果関係を解析することで、専門用語などにも対応したキーワードの対応関係を解析する。
【解決手段】
情報解析プログラムは、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップを実行させるプログラムである。
【選択図】図２

Description

本開示は、テキストデータから固有表現の関連性を解析する情報解析プログラム、情報解析方法及び情報解析装置に関する。

近年の自然後処理技術及び機械学習技術の進歩に伴い、テキストデータをコンピュータが自動的に解析する方法が提案されている。例えば、テキストデータの因果関係を解析することができれば、大量の文献データの中から、当該文献の主要な主張点などを解析することで、効率的に知識を体系化することが可能となる。

例えば、特許文献１では、自然言語処理を用いて、因果関係を幅広く解析するための方法を提案している。

特開平８－２２１４１５号

しかし、特許文献１に開示された方法は、単に因果関係について解析するのみであって、目的と手段、あるいは、方法と効果など、その他の対応関係にまで適用することには触れられていない。

例えば、専門技術に関する文献を解析する場面などにおいては、原因・結果という因果関係の解析のみではなく、ある事象と、その事象を裏付けるための実験、試験、検査、根拠などの分析方法といった関係が解析できると、当該文献を体系化するに際して、より本質的な要素を抽出することが可能となる。

そこで、本開示では、因果関係の解析に際して、固有表現を抽出した上で、係り受けを抽出することで、キーワードを含んだ係り受けを抽出する。さらに、本開示では、係り受けの共起関係を抽出することにより、より精度の高い因果関係を解析し、また、因果関係の解析に留まらず、ある事象とその分析方法の関係など、様々な単語間の関係を解析することを目的とする。

プロセッサとメモリとを備えるコンピュータに実行させるためのプログラムである。プログラムは、プロセッサに、テキスト情報を取得するテキスト情報取得ステップと、テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、テキスト情報から、係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、共起度に基づいて係り受けの組合せを抽出する共起抽出ステップとを実行させるプログラムである。

本開示によれば、自然言語処理を用いて、固有名詞、専門用語などを含むテキストデータに対しても、精度よく因果関係を解析することが可能となる。加えて、因果関係の解析に留まらず、ある事象とその分析方法の関係など、ユーザが所望する様々な単語間の関係を解析することが可能となる。

本開示の実施形態１のサーバの全体構成を示す図である。本開示の実施形態１に係るサーバ構成の一例を示す図である。固有表現抽出の具体例を示す図である。係り受けを解析する具体例を示す図である。固有表現の情報を用いた係り受け解析の具体例を示す図である。科学技術用語を含む文の具体例を示す図である。固有表現抽出の具体例を示す図である。係り受けを解析する具体例を示す図である。係り受けとして最終的に抽出された具体例を示す図である。情報解析装置における実施形態１の処理の流れの一例を示すフローチャートである。本開示の実施形態２に係る情報解析装置の構成の一例を示す図であるャートである。表示部において係り受けを表示した具体例を示す図である。表示部において階層構造に着目して係り受けを表示した具体例を示す図である。情報解析装置における実施形態２の処理の流れの一例を示すフローチャートである。ネットワークを介した情報解析装置の具体例を示す図である。

以下、本開示の実施形態に係る情報解析装置、情報解析方法及び情報解析プログラムを、図面を参照しながら説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。また、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。

＜実施形態１＞
実施形態１では、テキスト情報を取得して分析し、固有表現を抽出した上で、固有表現の係り受けと共起関係を分析し、任意の固有表現ごとに、共起度を算出する。

＜全体構成＞
図１は、本実施形態のサーバ１０の全体構成を示す図である。サーバ１０は、汎用のコンピュータである。サーバ１０は、例えば、据え置き型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップＰＣ等により実現される。また、サーバ１０は、スマートフォン、又はタブレット端末などの携行性を備えたコンピュータであってもよい。

図１に示すように、サーバ１０は、プロセッサ１１、メモリ１２、ストレージ１３、通信ＩＦ１４、入出力ＩＦ１５とを備える。

プロセッサ１１は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。メモリ１２は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性のメモリにより実現される。ストレージ１３は、データを保存するための記憶装置であり、例えばフラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）により実現される。通信ＩＦ１４は、サーバ１０が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力ＩＦ１５は、ユーザからの入力を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。

＜サーバの構成＞
以下、サーバ１０の構成を詳細に説明する。図２に示すように、本実施形態に係るサーバ１０は、通信部１０１、記憶部１０２、制御部１０３とを備える。通信部１０１は、サーバ１０が他の装置と通信するための処理を行う。通信部１０１は、制御部１０３で生成された信号に送信処理を施し、外部へ送信する。通信部１０１は、外部から受信した信号に受信処理を施し、制御部１０３へ出力する。

記憶部１０２は、例えばフラッシュメモリ等により構成され、サーバ１０が使用するデータ、及びプログラムを記憶する。

制御部１０３は、プロセッサ１１が記憶部１０２に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部１０３は、サーバ１０の動作を制御する。具体的には、例えば、制御部１０３は、テキスト情報取得部１０３１と、固有表現抽出部１０３２と、係り受け抽出部１０３３と、共起度算出部１０３４と、共起抽出部１０３５としての機能を発揮する。

以下、サーバ１０の制御部１０３における機能的な構成について説明する。

テキスト情報取得部１０３１は、解析対象とするテキストデータを取得する。解析対象とするテキストデータは、複数の文からなるテキストデータが想定される。また、テキスト情報取得部１０３１は、必ずしもテキストデータそのものを取得すること限られず、文書の画像データを取得した上で、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）などにより、テキスト化してもよい。

テキスト情報取得部１０３１は、入出力インタフェース１５を介して、ＵＳＢ（Universal Serial Bus）メモリ、ＣＤ－ＲＯＭ（Compact Disc－Read Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＨＤＤ等のコンピュータ読み取り可能な記録媒体からテキストデータを取得してもよい。

テキスト情報取得部１０３１は、有線通信又は無線通信を行うためのＮＩＣ（Network Interface Card controller）を備える通信ＩＦ１５を介して、ネットワーク上からテキストデータを取得してもよい。

固有表現抽出部１０３２は、テキスト情報取得部１０３１で取得したテキストデータに対して、固有表現を抽出し、タグを付与する。

固有表現とは、データから情報抽出を行う際にキー要素となる表現である。固有表現は、人名、地名、組織名、商品名などの固有名詞、数量、金額、パーセンテージなどの数値表現、日付、時間などの時間表現などを含む。また、固有表現は、特定の物質、構造、機能、処理方法、分析方法、専門用語などを含めてもよい。なお、固有表現は、あらゆる表現の中から、予めその範囲を定義してよい。

タグは、固有表現を分類するための識別情報を示すものである。タグは、例えば、「人名」、「地名」などの固有名詞を表すタグ、「数量」、「日付」、「時間」など数値表現を表すタグなどを用意し、固有表現に対して付与してもよい。

また、タグは、専門的な文献、自然科学分野の文献の解析を行うことを目的として、「事象」を示す事象タグ、事象に対する「分析方法」を示す分析タグなどのタグを用意してもよい。タグは、予め複数のものを用意しておく。

さらに、タグは、階層構造を持たせて定義してもよい。

例えば、論文などの専門的な文献、特に自然科学分野の文献では、仮説、状態、結果などある「事象」に対して、その裏付けとなる実験、試験、検査、根拠などの「分析方法」が示されることが想定される。そして、「事象」では、「ＡがＢである」というように、「対象が状態である」といった形で示されることが想定される。また、「分析方法」では、事象を裏付けるために、「ＡがＢである」というように、「試験等により結果となった」といった形で示されることが想定される。

上記を踏まえ、例えば、タグは、「事象：対象」、「事象：状態」、「分析：試験方法」、「分析：試験結果」などのように、階層構造を持たせて定義してもよい。なお、この場合、「事象」及び「分析」が上位概念であり、「対象」及び「試験方法」が下位概念として階層構造をもつタグとして定義される。

固有表現抽出部１０３２は、固有表現抽出の方法として、固有表現を表す辞書を予め用意しておき、当該辞書を用いて、入力された文から固有表現を抽出し、タグ付けを行ってもよい。

固有表現抽出部１０３２は、固有表現抽出の方法として、一般的に知られているＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）などの方法を用いてよい。また、固有表現抽出部１０３２は、学習用データを用いて、機械学習による固有表現抽出用のモデルを作成した上で、固有表現の抽出を行ってもよい。

一般的なＮＥＲでは、抽出対象とする固有表現は、固有名詞及び数値表現などである。したがって、固有表現として、これ以外の表現、例えば、事象及び分析方法などを抽出したい場合には、抽出対象としたい表現を対象とした学習用のデータを用意した上で、固有表現抽出用のモデルを作成する。

例えば、固有表現抽出部１０３２は、予め用意したテキストデータに対し、予め定義したタグを付した学習用データを用意し、これらを用いて、固有表現抽出のための機械学習用のモデルを用意しておく。そして、テキスト情報取得部１０３１が取得した分析対象とするテキストデータを形態素解析した上で、作成したモデルを用いてＮＥＲの方法を用いる。これにより、固有表現抽出部１０３２は、固有表現を抽出した上で、抽出された固有表現に対して予め定義したタグのいずれかを付与する。

固有表現抽出部１０３２において、固有表現を抽出し、タグ付けしておくことで、テキスト情報取得部１０３１で取得したテキストデータの中から、特に意味をもつ可能性の高い単語をタグ付けし、予め抽出することが可能となる。

係り受け抽出部１０３３は、係り受けを抽出する。これには、一般的に用いられている係り受け解析器を用いてよい。

係り受けとは、構文解析を行った際に主語と述語、修飾語と被修飾語の関係等をもつ二つの単語のペアの関係をいう。そして、主語と述語であれば、主語が係り受け元、述語が係り受け先となり、修飾語と被修飾語であれば、修飾語が係り受け元、被修飾語が係り受け先となる。このように、係り受けは、係り受け元と係り受け先のペアからなる。

一般的な係り受け解析器では、主語と述語の関係、修飾語と被修飾語の関係を係り受けとして抽出する。係り受け抽出部１０３３は、これらの双方又はどちらか一方を係り受けとして抽出してよい。

また、一般的に用いられている係り受け解析の方法として、「～なので」「～によって」などの手がかり表現を解析し、その前後のキーワードに着目して係り受け抽出を行う方法もある。係り受け抽出部１０３３は、手がかり表現を用いて、及び／又は主語・述語の関係、修飾語・被修飾語の関係を用いて抽出を行ってもよい。

また、一般的な係り受け抽出を行う場合において、Ｗ１、Ｗ２、Ｗ１Ｗ２（例えば、Ｗ１は「精密」、Ｗ２は「機械」、Ｗ１Ｗ２は「精密機械」など）が固有表現であるとき、Ｗ１－Ｗ２が係り受けとして抽出されることがある。このとき、名詞句が係り受けとして抽出された場合には、名詞句のさらに先を探索して係り受け先を解析し、Ｗ１－Ｗ３などの係り受けを抽出してもよい。なお、ここでいう名詞句とは、複数の語からなり、全体として一つの名詞と同じはらたきをするものをいう。

係り受け抽出部１０３３は、テキスト情報取得部１０３１が取得したテキストデータに対して、係り受けを解析した上で、固有表現抽出部１０３２によりタグが付された固有表現を含む係り受けを抽出する。このとき、係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出すると、より望ましい。

係り受け抽出部１０３３において、係り受けを抽出することにより、原因と結果、目的と手段、事象と分析方法などのように、何らかの意味をもつ単語間の関係を抽出することが可能となる。

また、固有表現を含む係り受け、特に係り受け元と係り受け先の両方が固有表現である係り受けのみを抽出することにより、そのテキストにおいて特に重要な表現を抽出できる。

係り受け抽出部１０３３は、抽出された固有表現を含む係り受けに対して、例えば、Ｗ１、Ｗ２、Ｗ３、Ｗ４がいずれも固有表現であるときに、第１の語Ｗ１を係り受け元とする第１の係り受けＷ１－Ｗ３と、第２の語Ｗ２を係り受け元とする第２の係り受けＷ２－Ｗ４との係り受けがあり、かつ、Ｗ１Ｗ２となる複合語も固有表現であるときに、Ｗ１Ｗ２－Ｗ３、Ｗ１Ｗ２－Ｗ４のように、Ｗ１Ｗ２となる複合語を係り受け元とし、第１の係り受けの係り受け先の語Ｗ３と第２の係り受けの係り受け先の語Ｗ４にも係り受けがあるものとして係り受けを追加して拡張してもよい。なお、複合語とは、本来独立した単語が二つ以上結合して新たに一つの単語としての意味、機能をもつようになった語をいう。

なお、係り受け抽出部１０３３における係り受けの拡張は、二語の複合語に限られず、三語以上の複合語において拡張してもよい。

固有表現における係り受けについては、複合語において、それが分節された固有表現の係り受けを複合語に拡張することにより、そのテキストの中で表現したい内容を適切に把握可能となる。

また、係り受け抽出部１０３３は、固有表現を用いて係り受けを拡張することにより、より上位概念の係り受けを生成することも可能となる。

共起度算出部１０３４は、係り受け抽出部１０３３において抽出した係り受けについて、係り受けごとに、当該係り受けが文中に出現する共起関係を解析し、テキスト情報取得部１０３１で取得したテキストデータ内において、当該係り受けのいずれかが現れる文の数と、当該係り受けの共起が発生する文の数とを解析し、その割合を共起度として算出する。これには、一般的に用いられている例えば、Ｊａｃｃａｒｄ係数などの手法を用いてもよい。

共起度算出部１０３４は、例えば、係り受け抽出部１０３３において、係り受けＷ１－Ｗ２及びＷ３－Ｗ４が抽出されたときに、テキスト情報取得部１０３１で取得したテキストデータ内から、Ｗ１－Ｗ２又はＷ３－Ｗ４の係り受けを含む文の数と、Ｗ１－Ｗ２及びＷ３－Ｗ４の係り受けを含む文との割合を共起度として算出する。

共起度算出部１０３４により、係り受けに関する共起度の算出をすることで、共起度の高い係り受けの組合せを分析することが可能となる。

共起抽出部１０３５は、係り受けに関する共起度に基づいて係り受けの組合せを抽出する。

共起抽出部１０３５は、例えば、共起度算出部１０３４において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出してもよい。

例えば、共起抽出部１０３５は、閾値をＴとして、係り受けＫｉとＫｊの共起度をＶｉｊとすると、Ｖｉｊ＞Ｔとなる係り受けＫｉとＫｊの組合せを抽出してもよい

共起抽出部１０３５は、例えば、共起度算出部１０３４において算出された任意の係り受けの組合せに対する共起度に対して、選択されたある係り受けを起点として、共起度の高い方から順に指定された数、すなわち上位Ｎ個を抽出してもよい。

例えば、係り受けＫｉとＫｊの共起度をＶｉｊとすると、Ｋｉを起点として、Ｖｉｊが高いものから上位Ｎ件となるＫｊを抽出してもよい。

共起抽出部１０３５は、例えば、共起度算出部１０３４において算出された任意の係り受けの組合せに対する共起度に対して、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。

共起抽出部１０３５により、閾値を超える共起度を有し、又はある係り受けを起点とした上位Ｎ個の共起関係を抽出することにより、テキストデータにおいて特に意味のある共起関係の組合せを抽出することが可能となり、大量のテキストデータから特に意味があり重要と推測される関係を抽出することが可能となる。

（固有表現抽出部１０３２における処理の具体例）
以下、固有表現抽出部１０３２の固有表現抽出の具体例を示す。例えば、図３に示すように、「2006年6月29日、小泉首相は、ワシントンを訪問し、ブッシュ大統領と首脳会談に臨みました。」との一文があり、固有表現タグとして、「人名」、「地名」、「数量」、「日付」、「時間」があるものとする。

固有表現抽出部１０３２は、まず、形態素解析を実施し、形態素の列に分解する。その上で、固有表現抽出部１０３２は、予め定義した「人名」、「地名」、「数量」、「日付」、「時間」のタグを抽出するための学習モデルを用意する。そして、固有表現抽出部１０３２は、形態素の列に分解された文に対して、タグ付けをしていく。

図３の例では、「2006年6月29日」は日付を表し、「小泉」は人名を、「ワシントン」は地名を、「ブッシュ」は人名を表すため、それぞれタグ付けがされる。

図３に示すように、固有表現抽出部１０３２は、固有表現となる単語を抽出した上で、タグ付けを行う。これによって、固有表現が予め定義されたタグに該当する単語を抽出し、分類することが可能となる。

（係り受け抽出部１０３３の処理の具体例）
係り受け抽出部１０３３の係り受けの抽出の具体例を示す。図４に示すように、例えば、「システムの停止が発生。」「電源異常の可能性を推察。」との二文があるとする。係り受け抽出部１０３３は、係り受けを抽出する。このとき、一般的な係り受け解析器を用いて係り受けを解析すると、「システム－停止」、「停止－発生」、「電源－異常」、「電源－可能性」、「異常－可能性」、「異常－推察」、「可能性－推察」の係り受けを抽出することができる。

係り受け抽出部１０３３は、名詞句があるときは、その先の係り受け先を抽出するため、「電源－異常」の係り受けはスキップされて、「異常－可能性」のみを抽出する。

係り受け抽出部１０３３は、固有表現抽出部１０３２によって、固有表現として、タグを付した係り受けのみを抽出する。

例えば、固有表現として「性能」「状態」の二種類のタグが存在するとき、図４の文は、図５に示すように、「システム」＝性能、「停止」＝状態、「発生」＝状態、「電源」＝性能、「異常」＝状態、「可能性」＝状態、「推察」＝状態といったタグがつけられる。また、「電源異常」という複合語に対しても「電源異常」＝状態といったタグがつけられる

係り受け抽出部１０３３において、係り受けの双方の単語にタグが付された係り受けのみを抽出すると、いずれも係り受け元、係り受け先ともに固有表現としてのタグが付されているため、「システム－停止」、「停止－発生」、「電源－可能性」、「異常－可能性」、「異常－推察」、「可能性－推察」を抽出する。

さらに、係り受け抽出部１０３３は、Ｗ１－Ｗ３、Ｗ２－Ｗ４の関係があり、Ｗ１Ｗ２が固有表現であるとき、Ｗ１Ｗ２－Ｗ３、Ｗ１Ｗ２－Ｗ４の係り受けに拡張する。ここでは、Ｗ１＝「電源」、Ｗ２＝「異常」の関係があるから、「電源異常－可能性」、「電源異常－推察」が係り受けとして抽出する。

（共起度算出部１０３４における具体的処理）
共起度算出部１０３４は、係り受け抽出部１０３３で抽出された係り受けに対して、共起度を算出する。例えば、係り受け抽出部１０３３で、Ｗ１－Ｗ２の係り受けと、Ｗ３－Ｗ４の係り受けが抽出されたとする。このとき、Ｗ１－Ｗ２又はＷ３－Ｗ４のいずれか又は両方の係り受けを含む文の数が全部で１００文であり、Ｗ１－Ｗ２及びＷ３－Ｗ４の両方の係り受けを含む文の数が全部で１０文あったとき、共起度は、（Ｗ１－Ｗ２又は／及びＷ３－Ｗ４の係り受けを含む文の数）／（Ｗ１―Ｗ２及びＷ３－Ｗ４の係り受けを含む文の数）＝０．１として算出される。

（共起抽出部１０３５における具体的処理）
共起抽出部１０３５は、共起度算出部１０３４において算出された任意の係り受けの組合せに対する共起度に対して、閾値を超える共起度を有する係り受けの組合せを抽出する。

例えば、係り受けＫ１，Ｋ２，Ｋ３があったとき、共起度算出部１０３４により、Ｋ１・Ｋ２の共起度は０．５、Ｋ１・Ｋ３は０．１、Ｋ２・Ｋ３は０．２と算出され、閾値を０．３として定めると、共起抽出部１０３５は、閾値を超える共起度を有するＫ１－Ｋ２の共起関係を抽出する。

（変形例１：）
以下、係り受けの共起のみでなく、係り受けと単語の共起、又は単語の共起についても抽出を行う変形例を示す。

共起度算出部１０３４は、係り受け抽出部１０３３で抽出した係り受けが共起する割合を共起度として算出することに加え、係り受け抽出部１０３３で抽出した係り受けと、固有表現抽出部１０３２で固有表現として抽出した単語との共起度、及び／又は、固有表現抽出部１０３２で固有表現として抽出した単語同士の共起度を算出する。

共起抽出部１０３５は、共起度算出部１０３４において算出された任意の係り受けの組合せ、係り受けと単語の組合せ、及び／又は単語同士の組合せにおける共起度に対して、閾値を超える共起度を有する係り受けの組合せ、係り受けと単語の組合せ、及び／又は単語同士の組合せを抽出する。このとき、閾値は、係り受けの組合せ、係り受けと単語の組合せ、単語同士の組合せにおいてそれぞれ別の値を設定してもよい。

共起抽出部１０３５は、係り受けの組合せ、係り受けと単語の組合せ、及び／又は単語同士の組合せを抽出するに際して、固有表現抽出部１０３２で付与したタグについて、特定のタグを付与したものに限定して共起関係を抽出してもよい。

上記のように共起関係を抽出することで、係り受けの共起関係に加えて、係り受けと単語、及び／又は単語の共起も抽出し、分析に役立てることが可能となる。

（変形例２：専門的な文献の解析例）
以下、特に専門的な文献の解析を行う際の変形例を示す。専門的な文献、特に科学技術の分野においては、論文などの文献において、その仮説、結論、主張、状態、性能、性質などの事象と、それを裏付けるための分析方法（実験方法、検査方法）が示されることが多い。したがって、事象と分析方法を抽出することにより、そのテキスト内で重要な点を抽出することができる。そこで、特に固有表現を示すタグとして、「事象」、「分析」の２種類のタグを用意する。なお、「事象」の下位分類として、例えば、「症例」、「部位」があり、「分析」の下位分類として、「検査項目」、「検査結果」があるものとして、「事象：症例」、「事象：部位」、「事象：状態」、「分析：検査項目」、「分析：検査結果」のタグを用意し、以下の説明をする。

テキスト情報取得部１０３１は、例えば、科学技術分野の論稿などをテキストデータとして取得する。そして、その中の例文として、図６に示すように、「眼球結膜に黄染が発生した。黄疸症状の可能性を推察し、血液検査でビリルビンの異常を確認した。」との例文が含まれるものとして具体的な処理を示す。

固有表現抽出部１０３２は、固有表現を取得して、タグ付けを行う。例えば、図６に示す文は、図７に示すように、「眼球」＝事象：部位、「結膜」＝事象：部位、「黄染」＝事象：状態、「発生」＝事象：状態、「黄疸」＝事象：症例、「症状」＝事象：状態、「可能性」＝事象：状態、「推察」＝事象：状態、「血液」＝事象、部位、「検査」＝分析：検査項目、「ビリルビン」＝分析：検査項目、「異常」=分析：検査結果、「確認」＝事象：状態として固有表現を抽出し、タグ付けを行う。

さらに、固有表現抽出部１０３２は、複合語に対しても、「眼球結膜」＝事象：部位、「黄疸症状」＝事象：症例、「血液検査」＝分析：検査項目のようにタグ付けを行う。複合語に対してもタグ付けを行った具体例を示しているのが図８である。

係り受け抽出部１０３３は、係り受けの抽出を行う。図７のように固有表現が抽出された文に対して、固有表現を含む係り受けを解析すると、図９左側のようになる。すなわち、「眼球－結膜」、「眼球－黄染」、「結膜－黄染」、「結膜－発生」、「黄染－発生」、「発生－した」、「黄疸－症状」、「黄疸－可能性」、「症状－可能性」、「症状－推察」、「可能性－推察」、「血液－検査」、「血液－異常」、「検査－異常」、「検査－確認」、「ビリルビン－異常」、「ビリルビン－確認」、「異常－確認」、「確認－した」を係り受けとして抽出する。

係り受け抽出部１０３３は、名詞句があるときは、さらにその先の係り受けを探索して抽出するため、「眼球－結膜」、「黄疸－症状」、「血液－検査」は抽出されず、図９の右側のような係り受けを抽出する。

係り受け抽出部１０３３は、さらに、係り受け元及び係り受け先のいずれもが、固有表現抽出部１０３２によって、固有表現として、タグを付した係り受けのみを抽出する。すなわち、図９右側で丸が付されている「眼球－結膜」、「眼球－黄染」、「結膜－黄染」、「結膜－発生」、「黄染－発生」、「黄疸－症状」、「黄疸－可能性」、「症状－可能性」、「症状－推察」、「可能性－推察」、「血液－検査」、「血液－異常」、「検査－異常」、「検査－確認」、「ビリルビン－異常」、「ビリルビン－確認」、「異常－確認」を係り受けとして抽出する。

係り受け抽出部１０３３は、Ｗ１－Ｗ３、Ｗ２－Ｗ４の関係があり、Ｗ１Ｗ２が固有表現であるとき、Ｗ１Ｗ２－Ｗ３、Ｗ１Ｗ２－Ｗ４の係り受けに拡張する。例えば、「眼球－黄染」「結膜－黄染」「結膜－発生」は、「眼球結膜－黄染」「眼球結膜－発生」となり、「黄疸－可能性」「症状－可能性」「症状－推察」は「黄疸症状－可能性」「黄疸症状－推察」となり、「血液－異常」「検査－異常」「検査－確認」は「血液検査－異常」「血液検査－確認」となる。すなわち、係り受け抽出部１０３３は、図７下部右側に示す係り受けを抽出する。

共起度算出部１０３４は、一般的に用いられている例えば、Ｊａｃｃａｒｄ係数などの手法を用いて、共起度を算出する。本変形例では、特に、事象に関する観点と、分析に関する観点の二つから共起度を算出する。

まず、事象に関する観点では、係り受け元を事象とし、係り受け先も事象とする係り受けについて共起度を抽出する。すなわち、事象に関するＷ１－Ｗ２という係り受けと、Ｗ３－Ｗ４という係り受けがあるときに、Ｗ１－Ｗ２及びＷ３－Ｗ４のいずれも含む文の数を、Ｗ１－Ｗ２及び／又はＷ３－Ｗ４の係り受けがある文の数で割る（除する）ことによって、共起度を算出する。

次に、分析に関する観点では、係り受け元と係り受け先のいずれも事象をタグとする係り受けに加え、分析をタグとする単語との組み合わせについて共起度を算出してもよい。つまり、Ｗ１－Ｗ２の事象タグが付された係り受けとＢ１の分析タグのワードがあるとき、Ｗ１－Ｗ２の係り受けとＢ１を含む文のいずれも含む文の数を、Ｗ１－Ｗ２の係り受け及び／又はＢ１のワードを含む文の数で割る（除する）ことによって、共起度を算出する。

例えば、テキスト中に、Ｗ１－Ｗ２、Ｗ３－Ｗ４の事象に関する係り受けと、Ｂ１、Ｂ２の分析タグが付されたワードがあるとき、（Ｗ１－Ｗ２，Ｂ１）（Ｗ１－Ｗ２，Ｂ２）（Ｗ３－Ｗ４，Ｂ１）（Ｗ３－Ｗ４，Ｂ２）のいずれの組み合せについても共起度を算出する。

共起抽出部１０３５は、事象の観点、分析の観点それぞれにおいて、共起度が閾値を超える組合せを抽出する。

共起抽出部１０３５は、テキストが階層構造を有するタグが付されている場合、階層関係も含めた特定のタグとの共起度に着目して抽出してもよい。

（処理の流れ）
図１０は、本開示の実施形態１における情報解析装置の処理の流れを示す。

テキスト情報取得部１０３１は、解析対象とするテキストデータを取得する（ステップＳ１０３１）。

固有表現抽出部１０３２は、テキスト情報取得部１０３１で取得したテキストデータに対して、固有表現を抽出し、タグを付与する（ステップＳ１０３２）。なお、タグの種類は予め定めておいてよい。

係り受け抽出部１０３３は、固有表現が抽出されたテキストデータに対して、係り受けを解析する（ステップＳ１０３３）。

係り受けの抽出に際しては、名詞句が係り受けとして抽出された場合に、さらに文の先を探索して、係り受けを抽出してもよい。また、固有表現抽出部１０３２によって固有表現としてタグ付けされたワードが係り受け元と係り受け先となる関係の係り受けのみを抽出してもよい。

共起度算出部１０３４は、抽出された係り受けのワードに対して、共起度を算出する（ステップＳ１０３４）。

共起抽出部１０３５は、閾値を超える共起度を有する係り受けの組合せを抽出する（ステップＳ１０３５）。

（効果）
本実施形態によれば、係り受け解析をする前提として、固有表現を抽出し、固有表現に係る係り受けのみを抽出することにより、より重要な単語、特に科学技術分野においてはキーワードとなる単語の係り受けを抽出することが可能となる。

加えて、係り受け及び共起度を算出し、共起度の高い係り受けを抽出することが可能となることにより、取得した文献から、専門用語などを含む内容に対しても、因果関係、及び／又は事象と分析方法の関係などを解析することが可能となる。

＜実施形態２＞
実施形態２では、取得したテキスト情報に対して行った解析について、ユーザに対して視覚的に表示する機能をさらに備える。

＜情報解析装置の構成＞
図１１に本実施形態におけるサーバ２０の構成を示す。サーバ２０の制御部２０３は、テキスト情報取得部１０３１、固有表現抽出部１０３２、係り受け抽出部１０３３、共起度算出部１０３４、共起抽出部１０３５、表示部２０３６を備える。なお、テキスト情報取得部１０３１、固有表現抽出部１０３２、係り受け抽出部１０３３、共起度算出部１０３４、共起抽出部１０３５はサーバ１０の制御部１０３と同様である。

表示部２０３６は、共起抽出部１０３５において解析された係り受けの組合せについて、ユーザに対して視覚的に表現して表示する。具体的には、係り受けのある係り受け元の単語と係り受け先の単語を表示した上で、係り受けを線で結び、ネットワーク図の形で表現してもよい。

表示部２０３６は、事象タグでタグ付けされた単語の係り受け関係と、分析タグでタグ付けされた単語の組合せについて、ユーザに対して視覚的に表現して表示してもよい。

表示部２０３６は、テキスト階層構造を有するタグが付されたときに、階層構造も含めて係り受けの組合せを表示してもよい。

表示部２０３６は、共起度の大きさに応じて、ネットワーク図の線の太さを変えたり、色を変えたりすることで表現してもよい。また、表示部２０３６は、共起度を併せて示してもよい。

（具体例）
図１２に表示部２０３６が表示する係り受けの視覚的表現の具体例を示す。表示部２０３６は、係り受け抽出部１０３３により解析された係り受けについて、例えばネットワーク図の表現を用いて係り受けを視覚的に表現して表示する。図１２の例では、事象について、「システム－停止」「電源－可能性」「電源－異常」といった係り受けの組合せ、及び、これらの係り受けと、「部品目視確認」「コンデンサ」「冷却装置」「電圧測定」「テスター」といった分析方法の単語との組み合わせについて、閾値を超える共起度を有するものが線で結ばれて表示されている。なお、図１２の例では、事象の係り受け関係を白背景、分析方法の単語を黒背景として表示している。

表示部２０３６は、共起抽出部１０３５がタグの階層構造を考慮して共起関係を抽出するとき、タグの階層構造を考慮して表示してもよい。

例えば、分析方法のタグについて、「分析：原因特定方法」のタグがあり、「部品目視確認」「電圧測定」に付されており、「分析：対象物」のタグがあり、「コンデンサ」「冷却装置」に付されており、「分析：測定機器」のタグがあり、「テスター」に付されているとする。ここで、「分析：原因特定方法」に着目して共起関係を抽出すると、事象における共起関係と、「分析：原因特定方法」の関係が抽出されて図示される。

図１３に表示部２０３６が表示する係り受けについて、「分析：原因特定方法」に着目して共起関係を抽出したときの視覚的表現の具体例を示す。図１２と比較すると、着目している共起関係のみが抽出されるため、より関係性の把握がしやすくなる。

なお、図１３では、「分析：原因特定方法」に着目しているため、係り受けと、かかるタグが付された単語との間の共起関係しか抽出されない。一方で、「コンデンサ」、「冷却装置」、「テスター」は、「部品目視確認」又は「電圧測定」の単語との間で共起関係があるため、それらと結びついて共起関係が抽出され、図示されている。

表示部２０３６は、共起度算出部１０３４で算出された共起度をネットワーク図と合わせて表示してもよい。

このように、視覚的な表現を用いることにより、係り受けのみならず、重要なワードの関係をユーザに視覚的に分かりやすく理解させることが可能となる。

（処理の流れ）
図１４は、本開示の実施形態２における情報解析装置の処理の流れを示す。

係り受け抽出部１０３３は、固有表現が抽出されたテキストデータに対して、係り受けを抽出する（ステップＳ１０３３）。

表示部２０３６は、係り受けについて、視覚的表現を用いてユーザに対して表示させる（ステップＳ２０３６）。このとき、表示部２０３６は、共起度を併せて表示し、また、共起度に応じて表示方法を変更させてもよい。

（効果）
本実施形態によれば、抽出された係り受けについて、共起度なども考慮に入れて表示を行うことが、ユーザが重要なワードを的確に把握するのに資する。

特に専門分野、科学技術などの文献では、専門用語が多いため、これまで一般的に用いられている自然言語の処理方法では重要あるいは意味のあるワードを抽出することが難しかったが、これを的確に抽出した上で表現することが可能となる。

以上で実施形態の説明を終了するが、上記実施形態は一例に過ぎない。そのため、サーバ１０、２０の具体的な構成、処理内容等は上記実施形態で説明したものに限られない。

本開示に係る情報解析装置は、例えば、スタンドアロンで動作するコンピュータ上に実現されることに留まらず、例えばサーバ型コンピュータとして動作させてもよい。

例えば、図１５に示すように、サーバ１０と、ユーザが操作するユーザ端末３０とをネットワークを介して接続させ、ユーザ端末３０から操作させて、サーバ１０に文献を解析させ、その結果をユーザ端末３０に表示させてもよい。

また、本開示に係る情報解析装置は、上記装置によらず、例えば、コンピュータがプログラムを実行することで、その機能を実現してもよい。情報解析装置の機能を実現するためのプログラムは、ＵＳＢ（Universal Serial Bus）メモリ、ＣＤ－ＲＯＭ（Compact Disc－Read Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＨＤＤ（Hard Disc Drive）等のコンピュータ読み取り可能な記録媒体に記憶されてもよいし、ネットワークを介してコンピュータにダウンロードされてもよい。

以上、本開示の好ましい実施形態について説明したが、本開示は係る特定の実施形態に限定されるものではなく、本開示には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。また、上記実施形態及び変形例で説明した装置の構成は、技術的な矛盾が生じない限り、適宜組み合わせ可能である。

１０，２０…サーバ、１１…プロセッサ、１２…メモリ、１３…ストレージ、１４…通信ＩＦ、１５…入出力ＩＦ、３０…ユーザ端末、１０１…通信部、１０２…記憶部、１０３…制御部、１０３１…テキスト情報取得部、１０３２…固有表現抽出部、１０３３…係り受け抽出部、１０３４…共起度算出部、１０３５…共起抽出部、２０３６…表示部、２１１…表示部が表示させる具体例

Claims

プロセッサを備えるコンピュータに処理を行わせるプログラムであって、前記プロセッサに、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行させ、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第１の語、第２の語、第３の語、及び第４の語が固有表現であり、前記第１の語を係り受け元とし、前記第３の語の係り受け先とする係り受け、及び前記第２の語を係り受け元とし、前記第４の語の係り受け先とする係り受けが存在し、かつ、前記第１の語と前記第２の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第３の語を係り受け先とする第３の係り受け、及び、前記複合語を係り受け元とし、前記第４の語を係り受け先とする第４の係り受けを、前記抽出した係り受けに追加して拡張する
プログラム。
前記タグは、階層構造をもつタグを含む請求項１に記載のプログラム
前記固有表現及び前記タグは、少なくとも事象を表す事象タグと事象に対する分析方法表す分析タグとを含む請求項１又は請求項２に記載のプログラム
前記固有表現抽出ステップは、固有表現抽出用のモデルを用いて、前記テキスト情報に対して機械学習を用いて固有表現を抽出し、前記タグを付与する請求項１～請求項３の何れかに記載のプログラム。
前記係り受け抽出ステップは、修飾語と被修飾語の関係を係り受けとして解析する請求項１～請求項４の何れかに記載のプログラム。
前記係り受け抽出ステップは、修飾語と被修飾語の関係に加え、予め定めた手がかり表現により解析された単語を係り受けとして解析する請求項５に記載のプログラム。
前記係り受け抽出ステップは、名詞句が係り受けとして抽出されたときに、該名詞句のさらに先を探索して係り受け先を抽出する請求項１～請求項６の何れかに記載のプログラム。
前記共起度算出ステップは、係り受けの組合せ及び、係り受けと単語の組合せ、及び／又は単語と単語の組合せについて共起度を算出する請求項１～請求項７の何れかに記載のプログラム。
前記共起抽出ステップは、共起度が閾値を超える係り受けの組合せを抽出する請求項１～請求項８の何れかに記載のプログラム
前記共起抽出ステップは、選択された係り受けとの共起度が高い方から、指定された数の係り受けの組合せを抽出する請求項１～請求項９の何れかに記載のプログラム。
前記タグは、階層構造をもつタグを含み、前記共起抽出ステップは、選択された前記タグとの共起度に応じて係り受けの組合せを抽出する請求項１～請求項１０の何れかに記載のプログラム。
プロセッサを備えるコンピュータに処理を行わせるための方法であって、前記方法は、前記プロセッサが、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第１の語、第２の語、第３の語、及び第４の語が固有表現であり、前記第１の語を係り受け元とし、前記第３の語の係り受け先とする係り受け、及び前記第２の語を係り受け元とし、前記第４の語の係り受け先とする係り受けが存在し、かつ、前記第１の語と前記第２の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第３の語を係り受け先とする第３の係り受け、及び、前記複合語を係り受け元とし、前記第４の語を係り受け先とする第４の係り受けを、前記抽出した係り受けに追加して拡張する
方法。
制御部を備える情報解析装置であって、前記制御部が、
テキスト情報を取得するテキスト情報取得ステップと、
前記テキスト情報から固有表現を抽出してタグを付与する固有表現抽出ステップと、
前記テキスト情報から、係り受けを解析し、係り受け元又は係り受け先の一方又は両方が固有表現となる係り受けを抽出する係り受け抽出ステップと、
前記テキスト情報から、前記係り受け抽出ステップにおいて抽出された係り受けにおいて、係り受けの組合せについて共起度を算出する共起度算出ステップと、
前記共起度に基づいて係り受けの組合せを抽出する共起抽出ステップと、
を実行し、
前記係り受け抽出ステップは、抽出した係り受けにおいて、第１の語、第２の語、第３の語、及び第４の語が固有表現であり、前記第１の語を係り受け元とし、前記第３の語の係り受け先とする係り受け、及び前記第２の語を係り受け元とし、前記第４の語の係り受け先とする係り受けが存在し、かつ、前記第１の語と前記第２の語との複合語が固有表現である場合、前記複合語を係り受け元とし、前記第３の語を係り受け先とする第３の係り受け、及び、前記複合語を係り受け元とし、前記第４の語を係り受け先とする第４の係り受けを、前記抽出した係り受けに追加して拡張する
情報解析装置。