JP7413214B2

JP7413214B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7413214B2
Application number: JP2020151010A
Authority: JP
Inventors: 泰豊武山; 快行爰島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2024-01-15
Anticipated expiration: 2040-09-09
Also published as: JP2022045417A; US11704491B2; US20220075943A1

Description

実施形態は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

プログラム又は装置の動作条件及び動作内容をグラフ構造にまとめる作業は、これらのプログラム又は装置の設計の際に一般的に行われている。これらの動作条件や動作内容は多岐に渡ることが多い。このため、まとめられるグラフ構造は、ノード数が多い大きなものになることが多い。ディスプレイの画面の制限のため、大きすぎるグラフ構造の全体が一度に表示されても、ユーザはそのグラフ構造の内容を読むことができない。一方、大きすぎるグラフ構造の一部だけが拡大表示されると、ユーザはそのグラフ構造の全容を把握することができない。このため、大きすぎるグラフ構造では、概要の把握、抜け又は漏れの確認が困難である。そこで、ノード数が多い大きなグラフ構造を要約することで全容の把握を容易にする技術の需要が高まっている。

従来の技術では、グラフ構造がグラフカットによって複数のクラスタに分けられ、各クラスタを表すテキストがクラスタ内に含まれるノードに現れる頻出単語によって決定される。各クラスタを表すテキストにより、ユーザは、複数のクラスタに分けられた状態であってもグラフ構造の全容を把握しやすくする。

ここで、各クラスタを表すテキストは、グラフ構造によっては似たようなものになる。例えば、プログラムの動作を表すグラフ構造であれば、「データ」、「エラー」、「更新」、「保存」、「表示」等の単語がすべてのクラスタで頻出しやすく、装置の動作を表すグラフ構造であれば、「スイッチ」、「電圧」、「検出」「起動」等の単語がすべてのクラスタで頻出しやすい。この場合、複数のクラスタが同様にこれらの単語で表されることになる。複数のクラスタが同じテキストで表されてしまうと、クラスタ毎の違いがわからなくなる。この場合、ユーザはグラフ構造の全容を把握することが困難である。

特開２０１３－１３０９２９号公報

実施形態は、クラスタを表すテキストを適切に決定することができる情報処理装置、情報処理方法及び情報処理プログラムを提供する。

一態様の情報処理装置は、割当部と、単語分類部と、頻出単語抽出部とを備える。割当部は、テキストを含む複数のノードとノードの間を接続するエッジとを有するグラフ構造の入力を受け、グラフ構造のノードを１以上のクラスタに割り当てる。単語分類部は、各々のクラスタに割り当てられたノードに含まれるテキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、動作の内容又は状態を表す単語と、その他の単語とに分類する。頻出単語抽出部は、各々のクラスタについて、動作の主体又は対象を表す単語に分類された１以上の第１の単語の出現頻度をカウントすることで第１の頻出単語を抽出し、動作の内容又は状態を表す単語に分類された１以上の第２の単語の出現頻度をカウントすることで第２の頻出単語を抽出する。

図１は、各実施形態に係る情報処理装置の一例の構成を示す図である。図２は、入力されるグラフ構造の例を示す図である。図３は、情報処理装置のハードウェア構成の一例を示す図である。図４は、情報処理装置によるグラフ構造の要約の動作を示すフローチャートである。図５Ａは、クラスタへのノードの割り当ての例を示す図である。図５Ｂは、要約されたグラフ構造の例を示す図である。図６は、要約されたグラフ構造の表示例を示す図である。

以下、図面を参照して実施形態を説明する。
［第１の実施形態］
図１は、各実施形態に係る情報処理装置の一例の構成を示す図である。情報処理装置１は、入力部１１と、割当部１２と、単語分類部１３と、頻出単語抽出部１４と、グラフ生成部１５とを有する。

入力部１１は、グラフ構造のデータの入力を受け付ける。グラフ構造は、複数のものの関連をノードとエッジとの組み合わせで表したものである。ノードは、グラフ構造における頂点である。エッジは、ノード間を結ぶ辺である。グラフ構造のデータは、ユーザによって事前に入力され得る。

図２は、入力されるグラフ構造の例を示す図である。実施形態におけるグラフ構造は、例えばプログラム又は装置の動作を表す。このとき、ノードは、テキストを含むノードと論理演算子を含むノードとの２種類のノードを有する。テキストは、プログラム又は装置の動作の内容又は動作の条件を表す。また、論理演算子は、ＡＮＤ、ＯＲ、ＮＯＴといった論理演算子である。また、ノード間は、有向エッジによって接続されている。有向エッジにより、プログラム又は装置の動作の遷移又は入出力の関係が表される。ここで、図２のグラフ構造は、表示装置に表示された記事に対してユーザがコメントを投稿するコメント投稿処理を実行するためのプログラムの動作を表すグラフ構造である。

グラフ構造のデータは、例えば、インデックス番号と、内容と、接続先インデックス番号とを含む。インデックス番号は、各ノードに割り当てられたインデックス番号である。内容は、各ノードの内容を表すテキストデータ又は論理演算子である。接続先インデックス番号は、対応するインデックス番号のノードの接続先のノードのインデックス番号である。

割当部１２は、グラフ構造におけるクラスタの範囲を決定する。このために、割当部１２は、入力部１１から受け取ったグラフ構造に含まれているノードをクラスタに割り当てる。ここで、割当部１２は、１つのグラフ構造が複数のクラスタを含むように割り当てをしてもよいし、１つのクラスタだけを含むように割り当てをしてもよい。クラスタに割り当てるノードは、例えば以下のように決定されてよい。

割当部１２は、グラフ構造の中で、接続先のノードがないノード（最終ノードと呼ぶ）を抽出する。最終ノードは、接続先インデックス番号が記録されていないノードである。最終ノードの抽出後、割当部１２は、最終ノードからの距離が閾値を超える複数のノードをクラスタ候補ノードとして抽出し、クラスタ候補ノードのうちで互いにエッジで接続されているノード同士を１つのクラスタに割り当てる。例えば、割当部１２は、最終ノードから逆方向にノードを遡りながら、遡ったエッジの数をカウントする。そして、割当部１２は、遡ったエッジの数が閾値となるエッジに繋がるノード及びそのノードから遡れるノードを１つのクラスタに割り当てる。

このようにしてクラスタにノードが割り当てられたとき、グラフ構造上の近い位置にある複数のノードが１つのクラスタに割り当てられる。プログラム又は装置の動作を表すグラフ構造の場合、グラフ構造上の距離が近いノードの内容は近いか又は関連していることが多い。したがって、このような割り当てでは、比較的に簡易な処理で比較的に適切なクラスタの割り当てが行われる。

単語分類部１３は、割当部１２からグラフ構造のデータと、各クラスタに属するノードのインデックス番号とを受け取る。そして、単語分類部１３は、各クラスタに含まれるノードの中のテキストデータを含むノードについて、テキストデータを単語（形態素）の単位に分割し、分割した単語を種類毎に分類する。単語分類部１３は、各々の単語をその品詞に応じて例えば３種類に分類する。実施形態では、単語分類部１３は、単語を、動作の主体又は対象を表す単語と、動作の内容又は状態を表す単語と、その他の単語とに分類する。動作の主体又は対象を表す単語は、名詞、代名詞等である。動作の内容又は状態を表す単語は、動詞、形容詞等である。その他の単語は、助詞、助動詞等である。ここで、単語の分割と分類は一般的な日本語向け形態素解析によって実現され得る。勿論、単語の分割と分類は日本語以外の言語向けの形態素解析によって行われてもよい。

頻出単語抽出部１４は、単語分類部１３からグラフ構造のデータと、各クラスタに属するノードのインデックス番号と、各クラスタに含まれる単語のデータと、各単語の分類結果の情報とを受け取る。そして、頻出単語抽出部１４は、各クラスタに含まれる単語のうち、動作の主体又は対象を表す単語のクラスタ内での重複回数と、動作の内容又は状態を表す単語のクラスタ内での重複回数とをカウントする。そして、頻出単語抽出部１４は、動作の主体又は対象を表す単語についてカウントされた重複回数の上位の特定数の単語である第１の頻出単語と、動作の内容又は状態を表す単語についてカウントされた重複回数の上位の特定数の単語である第２の頻出単語とを抽出する。つまり、実施形態では、頻出単語抽出部１４は、単語の種類毎に頻出単語を抽出する。

ここで、抽出される単語の特定数は、任意に決められてよい。また、抽出される単語の特定数は、すべての種類で同じであってもよいし、種類毎に異なっていてもよい。また、動作の主体又は対象を表す単語と動作の内容又は状態を表す単語との少なくとも何れかの種類において、重複回数の上位の単語が特定数に満たない場合には、頻出単語抽出部１４は、対応する種類に分類されるすべての単語を抽出してもよい。逆に、動作の主体又は対象を表す単語と動作の内容又は状態を表す単語との少なくとも何れかの種類において、重複回数の上位の単語が特定数よりも多いときには、頻出単語抽出部１４は、重複回数の上位のすべての単語を抽出してもよいし、重複回数の上位の単語の中から特定数だけの単語を抽出してもよい。特定数だけの単語の抽出の仕方は特に限定されない。例えば、ランダムに特定数の単語が抽出されてもよい。

グラフ生成部１５は、頻出単語抽出部１４からグラフ構造のデータと、クラスタに属するノードの情報と、クラスタで抽出された頻出単語のデータとを受け取る。そして、グラフ生成部１５は、グラフ構造のデータから、要約されたグラフ構造のデータを生成する。

具体的には、グラフ生成部１５は、クラスタの各々を１つのノードで置き換える。また、グラフ生成部１５は、置き換えたノードにクラスタを表すテキストデータを持たせる。クラスタを表すテキストデータは、第１の頻出単語と第２の頻出単語とが列挙されたテキストデータである。

さらに、グラフ生成部１５は、クラスタに含まれるノードの接続先インデックス番号がクラスタの外のノードを指定している場合には、置き換えたノードからクラスタの外のノードに向けて有向エッジを接続する。また、グラフ生成部１５は、クラスタの外のノードの接続先インデックス番号がクラスタの中のノードを指定している場合には、クラスタの外のノードから置き換えたノードに向けて有向エッジを接続する。

図３は、情報処理装置１のハードウェア構成の一例を示す図である。情報処理装置１は、例えばプロセッサ１０１と、メモリ１０２と、入力装置１０３と、表示装置１０４と、通信装置１０５と、ストレージ１０６とをハードウェアとして有している。プロセッサ１０１と、メモリ１０２と、入力装置１０３と、表示装置１０４と、通信装置１０５と、ストレージ１０６とは、バス１０７に接続されている。情報処理装置１は、パーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット端末といった端末装置であってよい。しかしながら、情報処理装置１は、これに限るものではない。情報処理装置１は、グラフ構造によって規定される動作を実行する任意の装置又はグラフ構造によって規定される動作を実行するためのプログラムを搭載した任意の装置に組み込まれていてもよい。

プロセッサ１０１は、情報処理装置１の全体的な動作を制御するプロセッサである。プロセッサ１０１は、例えばストレージ１０６に記憶されているプログラムを実行することによって、入力部１１と、割当部１２と、単語分類部１３と、頻出単語抽出部１４と、グラフ生成部１５として動作する。プロセッサ１０１は、例えばＣＰＵである。プロセッサ１０１は、ＭＰＵ、ＧＰＵ、ＡＳＩＣ、ＦＰＧＡ等であってもよい。プロセッサ１０１は、単一のＣＰＵ等であってもよいし、複数のＣＰＵ等であってもよい。

メモリ１０２は、ＲＯＭ及びＲＡＭを含む。ＲＯＭは、不揮発性のメモリである。ＲＯＭは、情報処理装置１の起動プログラム等を記憶している。ＲＡＭは、揮発性のメモリである。ＲＡＭは、例えばプロセッサ１０１における処理の際の作業メモリとして用いられる。

入力装置１０３は、タッチパネル、キーボード、マウス等の入力装置である。入力装置１０３の操作がされた場合、操作内容に応じた信号がバス１０７を介してプロセッサ１０１に入力される。プロセッサ１０１は、この信号に応じて各種の処理を行う。入力装置１０３は、例えばグラフ構造のデータの入力に用いられ得る。

表示装置１０４は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置である。表示装置１０４は、各種の画像を表示する。

通信装置１０５は、情報処理装置１が外部の機器と通信するための通信装置である。通信装置１０５は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。

ストレージ１０６は、例えばハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ１０６は、情報処理プログラム等のプロセッサ１０１によって実行される各種のプログラムを記憶している。また、ストレージ１０６は、テキストを形態素解析し、単語を分類するための単語辞書１０６１を記憶している。また、ストレージ１０６は、グラフ構造のデータ１０６２を記憶している。グラフ構造のデータ１０６２は、ユーザによって入力されたグラフ構造のデータを含む。グラフ構造のデータ１０６２は、ユーザによって入力されたグラフ構造のデータに加えて、ユーザによって入力されたグラフ構造のデータに基づいて要約されたグラフ構造のデータも含んでいてよい。単語辞書１０６１及びグラフ構造のデータ１０６２は、必ずしもストレージ１０６に記憶されている必要はない。例えば、単語辞書１０６１及びグラフ構造のデータ１０６２は、情報処理装置１の外部のサーバに記憶されていてもよい。この場合、情報処理装置１は、通信装置１０５を用いてサーバにアクセスすることで必要な情報を取得する。

バス１０７は、プロセッサ１０１と、メモリ１０２と、入力装置１０３と、表示装置１０４と、通信装置１０５と、ストレージ１０６との間のデータのやり取りのためのデータ転送路である。

次に情報処理装置１の動作を説明する。図４は、情報処理装置１による情報処理方法としてのグラフ構造の要約の動作を示すフローチャートである。図４の処理は、プロセッサ１０１によって実行される。

ステップＳ１において、プロセッサ１０１は、グラフ構造のデータを取得する。前述したように、グラフ構造のデータは、ユーザによって入力され得る。ユーザは、例えば入力装置１０３を操作してグラフ構造のデータを入力する。なお、プロセッサ１０１は、ストレージ１０６に記憶されているグラフ構造のデータ１０６２の中からユーザによって選択されたグラフ構造のデータを取得してもよい。

ステップＳ２において、プロセッサ１０１は、グラフ構造の各ノードをクラスタに割り当てる。前述したように、プロセッサ１０１は、グラフ構造の中の最終ノードを抽出する。例えば、図２のグラフ構造のデータが入力された場合、最終ノードは、ノードＮ１２である。最終ノードの抽出後、プロセッサ１０１は、最終ノードから逆方向にノードを遡りながら遡ったエッジの数が閾値となるエッジに繋がるノード及びそのノードから遡れるノードを１つのクラスタに割り当てる。例えば、距離の閾値が「３」に設定されているとき遡ったエッジの数が閾値となるエッジは、図５Ａに示すように、最終ノードＮ１２から３つ目のエッジＥ１及びＥ２である。したがって、プロセッサ１０１は、エッジＥ１に繋がるノードＮ７、及びノードＮ７から遡ることができるノードＮ６、Ｎ５、Ｎ４、Ｎ３、Ｎ２、Ｎ１を１つのクラスタＣに割り当てる。なお、エッジＥ２に繋がるノードは、ノードＮ９だけである。したがって、ノードＮ９のクラスタへの割り当ては行われなくてよい。

ステップＳ３において、プロセッサ１０１は、各クラスタに属するノードのテキストを単語の単位に分割し、分割した単語を種類毎に分類する。図２の例では、動作の主体又は対象を表す単語は、「記事」、「コメント」、「処理」、「ボタン」、「画面」といった単語である。また、動作の内容又は状態を表す単語は、「表示する」、「入力する」、「押す」、「計算する」といった単語である。なお、「ＡＮＤ」、「ＮＯＴ」といった論理演算子は単語として抽出されなくてもよい。

ステップＳ４において、プロセッサ１０１は、種類毎に頻出単語を抽出する。例えば、各々の種類についての特定数が「１」に設定されているとき、プロセッサ１０１は、動作の主体又は対象を表す単語から重複回数が１位の単語を第１の頻出単語として抽出し、また、動作の内容又は状態を表す単語から重複回数が１位の単語を第２の頻出単語として抽出する。図２の例では、第１の頻出単語は重複回数が２回の「コメント」、「入力」であり、第２の頻出単語は重複回数が２回の「表示する」である。

ステップＳ５において、プロセッサ１０１は、第１の頻出単語と第２の頻出単語とを列挙してクラスタを表すテキストデータを生成する。クラスタを表すテキストデータが生成されるのに際して、頻出単語が列挙される順序は限定されない。例えば、第１の頻出単語、第２の頻出単語の順に単語が列挙されてよい。この他、例えば、重複回数の多い順に単語が列挙されてもよい。

ステップＳ６において、プロセッサ１０１は、要約されたグラフ構造のデータを生成する。具体的には、プロセッサ１０１は、クラスタをノードに置き換える。置き換えたノードに含まれるテキストデータは、ステップＳ５において生成されたテキストデータである。そして、プロセッサ１０１は、置き換えたノードと他のノードとをエッジで接続する。図５Ｂは、要約されたグラフ構造の例を示す図である。図５ＢのノードＮ１３がクラスタの置き換え後のノードである。

ステップＳ７において、プロセッサ１０１は、要約されたグラフ構造を表示装置１０４の画面上に表示させる。図６は、要約されたグラフ構造の表示例を示す図である。図６に示すように、プロセッサ１０１は、要約されたグラフ構造とともに、スライダー１０４１と、終了ボタン１０４２とを表示装置１０４に表示させてもよい。スライダー１０４１は、ユーザがクラスタの大きさを指定するためのタッチパネル等で操作可能な指定部としてのユーザインターフェースである。終了ボタン１０４２は、ユーザが要約されたグラフ構造の表示を終了させる操作をするためのタッチパネル等で操作可能なユーザインターフェースである。

ステップＳ８において、プロセッサ１０１は、クラスタの大きさを変更するか否かを判定する。例えば、ユーザによってスライダー１０４１が操作されたときにクラスタの大きさを変更すると判定される。ステップＳ８において、クラスタの大きさを変更すると判定されたときには、処理はステップＳ９に移行する。ステップＳ８において、クラスタの大きさを変更すると判定されていないときには、処理はステップＳ１０に移行する。

ステップＳ９において、プロセッサ１０１は、スライダー１０４１の操作に応じてクラスタの割り当てのための距離の閾値を変更する。プロセッサ１０１は、例えば、ノードをクラスタに割り当てるときの最終ノードからの距離の閾値をスライダー１０４１の操作に応じて変更する。クラスタの大きさが大きくされるようにスライダー１０４１が操作されたときには、１つのクラスタに割り当てられるノードの数が多くなるように閾値が変更される。つまり、プロセッサ１０１は、距離の閾値を小さくする。逆に、クラスタの大きさが小さくされるようにスライダー１０４１が操作されたときには、１つのクラスタに割り当てられるノードの数が少なくなるように閾値が変更される。つまり、プロセッサ１０１は、距離の閾値を大きくする。距離の閾値の変更の後、処理はステップＳ２に戻る。この場合、プロセッサ１０１は、変更した距離の閾値に基づいてクラスタへのノードの割り当てを行う。このようにして、ユーザがクラスタに割り当てられるノードの数を変えることができる。これにより、ユーザは、グラフ構造の複雑さを変えることができる。

ステップＳ１０において、プロセッサ１０１は、グラフ構造の要約の処理を終了するか否かを判定する。例えば、ユーザによって終了ボタン１０４２が操作されたときにグラフ構造の要約の処理を終了すると判定される。ステップＳ１０において、グラフ構造の要約の処理を終了すると判定されていないときには、処理はステップＳ７に戻る。この場合、要約されたグラフ構造の表示が継続される。ステップＳ１０において、グラフ構造の要約の処理を終了すると判定されたときには、プロセッサ１０１は、図４の処理を終了させる。

以上説明したように第１の実施形態によれば、グラフ構造のノードに含まれるテキストにおける動作の主体又は対象を表す単語から抽出される頻出単語と動作の内容又は状態を表す単語から抽出される頻出単語との各々が列挙されることによってクラスタを表すテキストが生成される。つまり、クラスタを表すテキストは、動作の主体と内容とを含む。したがって、ユーザは、クラスタを表すテキストを見るだけでも「何が」、「どうした」のかを把握することができる。このようにしてクラスタを表すテキストを適切に決定され得る。

また、実施形態ではクラスタへのノードの割り当ての際に、最終ノードからの距離が閾値を超える複数のノードがクラスタ候補ノードとして抽出され、クラスタ候補ノードのうちで互いにエッジで接続されているノード同士が１つのクラスタに割り当てられる。このようにしてクラスタにノードが割り当てられることにより、グラフ構造上の近い位置にある複数のノードが１つのクラスタに割り当てられる。プログラム又は装置の動作を表すグラフ構造の場合、グラフ構造上の距離が近いノードの内容は近いか又は関連していることが多い。したがって、このような割り当てでは、比較的に簡易な処理で比較的に適切なクラスタの割り当てが行われる。

［変形例］
次に、第１の実施形態の変形例を説明する。前述した第１の実施形態では、１つのクラスタに割り当てられるノードの数に制限が設けられていない。このため、最終ノードからの距離が閾値を超える複数のノードがクラスタ候補ノードとして抽出され、クラスタ候補ノードのうちで互いにエッジで接続されているノード同士であればそれらのノードは１つのクラスタに割り当てられる。これに対し、１つのクラスタに割り当てられるノードの数に上限が設けられていてもよい。この場合、割当部１２は、クラスタに割り当てられるノードの数が上限に達したときには、残りのノードは別のクラスタに割り当てる。

また、第１の実施形態では、クラスタが置き換えられた後のノードは、通常のノードと同様の形状である。これに対し、クラスタが置き換えられた後のノードは、通常のノードと異なる形状であってもよい。また、クラスタが置き換えられた後のノードは、通常のノードと異なる色であってもよい。さらには、クラスタの大きさに応じてクラスタが置き換えられた後のノードの大きさ、形状、色等が変えられてもよい。

また、第１の実施形態では、情報処理装置１において、要約されたグラフ構造が生成され、生成されたグラフ構造が表示装置に表示される。これに対し、要約されたグラフ構造の生成及び表示は、必ずしも情報処理装置１において行われなくてもよい。この場合、情報処理装置１は、グラフ構造のデータと、クラスタに属するノードの情報と、クラスタで抽出された頻出単語のデータとを例えばストレージ１０６に記憶しておき、必要なタイミングでこれらの情報を外部に送信する。

［第２の実施形態］
次に、第２の実施形態を説明する。ここで、第１の実施形態で説明した部分については説明を省略する。

第１の実施形態では、クラスタを表すテキストを生成するための単語は、クラスタに割り当てられたノードに含まれるテキストにおける重複回数によって決められる。第２の実施形態では、頻出単語抽出部１４は、予め定義された特定の単語については重複回数のカウントを３倍、１０倍等に増やす。この場合、特定の単語が頻出単語として抽出されやすくなる。

予め定義される単語は、例えば「非常」、「緊急」といった動作を表す上で重要な単語である。予め定義される単語は、例えば単語辞書１０６１に予め記憶されていてよい。また、予め定義される単語は、ユーザによって指定されてもよい。

第２の実施形態では、クラスタを表すテキストを生成する際の頻出単語の抽出のときに特定の単語が抽出されやすくなることにより、クラスタを表すテキストにおいて重要な単語が表示されない状況が回避されやすくなる。

［第３の実施形態］
次に、第３の実施形態を説明する。ここで、第１の実施形態で説明した部分については説明を省略する。

第３の実施形態では、部分グラフ構造のデータと、部分グラフ構造のデータに紐づけられたテキストデータとが例えばストレージ１０６に記憶されている。部分グラフ構造は、複数のノードの配置とノードの間のエッジの接続関係とが予め定義されたものであるグラフ構造である。部分グラフ構造は、「エラー処理」等の典型的で頻出する処理を表すグラフ構造である。このような部分グラフ構造には、「エラー処理」といった部分グラフ構造の内容を表すテキストデータが紐づけられる。この他、例えば、図２のノードＮ２、Ｎ３、Ｎ４、Ｎ５、Ｎ６、Ｎ７は、これら全体として「コメントの入力処理」を表す部分グラフ構造であると定義され得る。このような部分グラフ構造に、例えば「コメントの入力処理」といったテキストデータが紐づけられる。

第３の実施形態において、割当部１２は、クラスタにノードを割り当てる際に、受け取ったグラフ構造から部分グラフ構造を抽出する。割当部１２は、受け取ったグラフ構造から部分グラフ構造を抽出できたときには、部分グラフ構造に相当する複数のノードを１つのノードに置き換える。

頻出単語抽出部１４は、部分グラフ構造に相当するノードから抽出される単語については、仮にクラスタに割り当てられたノードであっても頻出単語のカウントを行う対象から除外する。

第３の実施形態では、要約される対象のグラフ構造のデータが予め定義された部分グラフ構造を有しているときには、その部分グラフ構造と一致したノードが１つのノードに置き換えられる。さらに、部分グラフ構造と一致したノードについては重複回数のカウントの対象から除外される。これにより、抽出される頻出単語が典型的な処理を表すもののみになることが防止され得る。

［第４の実施形態］
次に、第４の実施形態を説明する。ここで、第１の実施形態で説明した部分については説明を省略する。

第１の実施形態では、割当部１２は、最終ノードからの距離が閾値を超える複数のノードをクラスタ候補ノードとして抽出し、クラスタ候補ノードのうちで互いにエッジで接続されているノード同士を１つのクラスタに割り当てている。ノードのクラスタへの割り当ては、これに限るものではない。割当部１２は、例えばspectral clusteringのような、グラフ構造をクラスタで分割した際にクラスタをまたぐエッジの数が少なくなるような手法でノードをクラスタに割り当ててもよい。具体的には、割当部１２は、以下のような計算を行ってノードをクラスタに割り当ててよい。ここで、第４の実施形態では、グラフ構造は、有向グラフでなくてもよいし、ループ構造を含んでいてもよい。

割当部１２は、グラフ構造のデータからグラフラプラシアン行列Ｌを作成する。グラフラプラシアン行列Ｌは、行数と列数の各々がノード数と同じ数の行列である。ｉ，ｊをノードのインデックス番号とすると、グラフラプラシアン行列Ｌの対角成分Ｌ_ｉｊ（ｉ＝ｊ）はノードｉに接続されたエッジの数とする。一方、グラフラプラシアン行列Ｌの非対角成分Ｌ_ｉｊ（ｉ≠ｊ）はノードｉとノードｊとの間にエッジがある場合には－１とし、ない場合には０とする。

次に、割当部１２は、グラフラプラシアン行列Ｌの固有値と、固有値に対応する固有ベクトルとを算出する。そして、割当部１２は、非ゼロの固有値のうちの最小値を抽出し、この最小値に対応する固有ベクトルＡを抽出する。抽出された固有ベクトルＡの要素Ａ_ｉは、ノードｉと対応している。例えば、割当部１２は、要素Ａ_ｉを正負で分ける。この場合、ノードは２個のクラスタに分けられる。また、例えば、割当部１２は、要素Ａ_ｉをk-meansを用いて分ける。この場合、ノードは、ｋ個のクラスタに分けられる。

割当部１２は、分割したクラスタを１つのグラフ構造とみなし、クラスタの数が所定数になるまで同様の処理を繰り返す。ここで、クラスタの所定数は、各々のクラスタの大きさによって決められ得る。つまり、クラスタの所定数は、図６で示したスライダー１０４１と同様のユーザインターフェースによってユーザにより指定され得る。

第４の実施形態では、クラスタへのノードの割り当ての際に、クラスタによって分断されるエッジの数が減り、また、クラスタに割り当てられるノードは、より関連のあるもの同士になりやすくなる。

［第５の実施形態］
次に、第５の実施形態を説明する。ここで、第１の実施形態で説明した部分については説明を省略する。

第１の実施形態では、頻出単語抽出部１４は、動作の主体又は対象を表す単語と動作の内容又は状態を表す単語との各々について別個に重複回数をカウントしている。これに対し、頻出単語抽出部１４は、単語の組み合わせの重複回数をカウントして頻出単語を抽出してもよい。例えば、頻出単語抽出部１４は、各ノードに含まれる単語のうち、動作の主体又は対象を表す単語と動作の内容又は状態を表す単語との２つのいずれかに分類される単語を抽出し、抽出した単語のうちの２つを合わせたすべての組み合わせを共起対として生成する。次に、頻出単語抽出部１４は、クラスタに割り当てられたノードの各々について生成された共起対の重複回数をカウントし、重複回数が多い共起対の上位の特定数を頻出単語として抽出する。

第５の実施形態では、動作の主体又は対象を表す単語と動作の内容又は状態を表す単語との組み合わせで重複回数がカウントされることにより、動作とその対象或いは動作とその主体といった、意味の繋がりのある単語が抽出され得る。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１情報処理装置、１１入力部、１２割当部、１３単語分類部、１４頻出単語抽出部、１５グラフ生成部、１０１プロセッサ、１０２メモリ、１０３入力装置、１０４表示装置、１０５通信装置、１０６ストレージ、１０７バス。

Claims

テキストを含む複数のノードと前記ノードの間を接続するエッジとを有するグラフ構造の入力を受け、前記グラフ構造の前記ノードを１以上のクラスタに割り当てる割当部と、
各々の前記クラスタに割り当てられた前記ノードに含まれる前記テキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、前記動作の内容又は状態を表す単語と、その他の単語とに分類する単語分類部と、
各々の前記クラスタについて、動作の主体又は対象を表す単語に分類された１以上の第１の単語の出現頻度をカウントすることで第１の頻出単語を抽出し、前記動作の内容又は状態を表す単語に分類された１以上の第２の単語の出現頻度をカウントすることで第２の頻出単語を抽出する頻出単語抽出部と、
を備えた情報処理装置。
前記クラスタを前記頻出単語抽出部で抽出された前記第１の頻出単語と前記第２の頻出単語とを列挙したテキストを含むノードに置き換えて要約されたグラフ構造を生成するグラフ生成部をさらに備えた請求項１に記載の情報処理装置。
前記頻出単語抽出部は、前記第１の単語が予め定義された第１の特定単語を含むときには前記第１の特定単語の出現頻度のカウントを他の第１の単語の出現頻度のカウントよりも多くし、前記第２の単語が予め定義された第２の特定単語を含むときには前記第２の特定単語の出現頻度のカウントを他の第２の単語の出現頻度のカウントよりも多くする請求項１に記載の情報処理装置。
前記割当部は、前記グラフ構造が予め定義された部分グラフ構造を含むときに、前記グラフ構造に含まれる前記部分グラフ構造に相当する前記ノードを１つのノードに割り当て、
前記頻出単語抽出部は、前記部分グラフ構造に相当するノードについては、前記部分グラフ構造に予め紐づけられた定義済みテキストを抽出し、前記部分グラフ構造に相当するノードから抽出される単語については前記第１の頻出単語及び前記第２の頻出単語を抽出するためのカウントの対象から除外する請求項１に記載の情報処理装置。
前記エッジは、有向エッジであり、
前記割当部は、前記ノードの中で前記有向エッジの先が接続されていない最終ノードからの距離が閾値よりも遠い複数の前記ノードをクラスタ候補ノードとして抽出し、前記クラスタ候補ノードのうちで前記有向エッジが接続されているノード同士を１つのクラスタに割り当てる請求項１に記載の情報処理装置。
前記クラスタの大きさをユーザが指定するための指定部をさらに備え、
前記割当部は、前記指定部によって指定された大きさに応じて前記閾値を変える請求項５に記載の情報処理装置。
前記割当部は、複数の前記クラスタの間を接続する前記エッジの数が少なくなるように前記ノードを前記クラスタに割り当てる請求項１に記載の情報処理装置。
前記頻出単語抽出部は、前記クラスタに割り当てられたノード毎に前記第１の単語と前記第２の単語からなる共起対を生成し、各々の共起対が生成された回数をカウントし、カウントの多い共起対を抽出する請求項１に記載の情報処理装置。
前記グラフ構造は、プログラム又は装置の動作を表すグラフ構造である請求項１に記載の情報処理装置。
情報処理装置により、テキストを含む複数のノードと前記ノードの間を接続するエッジとを有するグラフ構造の入力を受け、前記グラフ構造の前記ノードを１以上のクラスタに割り当てることと、
前記情報処理装置により、各々の前記クラスタに割り当てられた前記ノードに含まれる前記テキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、前記動作の内容又は状態を表す単語と、その他の単語とに分類することと、
前記情報処理装置により、各々の前記クラスタについて、動作の主体又は対象を表す単語に分類された１以上の第１の単語の出現頻度をカウントすることで第１の頻出単語を抽出し、前記動作の内容又は状態を表す単語に分類された１以上の第２の単語の出現頻度をカウントすることで第２の頻出単語を抽出することと、
を備えた情報処理方法。
テキストを含む複数のノードと前記ノードの間を接続するエッジとを有するグラフ構造の入力を受け、前記グラフ構造の前記ノードを１以上のクラスタに割り当てることと、
各々の前記クラスタに割り当てられた前記ノードに含まれる前記テキストを単語に分割し、分割された単語を、動作の主体又は対象を表す単語と、前記動作の内容又は状態を表す単語と、その他の単語とに分類することと、
各々の前記クラスタについて、動作の主体又は対象を表す単語に分類された１以上の第１の単語の出現頻度をカウントすることで第１の頻出単語を抽出し、前記動作の内容又は状態を表す単語に分類された１以上の第２の単語の出現頻度をカウントすることで第２の頻出単語を抽出することと、
をプロセッサに実行させるための情報処理プログラム。