JP2022019123A

JP2022019123A - 情報処理装置およびその制御方法、情報処理システム、並びにプログラム。

Info

Publication number: JP2022019123A
Application number: JP2020122738A
Authority: JP
Inventors: 家朋劉; jia peng Liu
Original assignee: Canon Electronics Inc
Current assignee: Canon Electronics Inc
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-01-27

Abstract

【課題】異なる業務に共通のテキストであったとしても、適切に分析を実行する情報処理装置およびその制御方法、情報処理システム及びプログラムを提供する。【解決手段】テキスト分類装置は、対象文の文脈と、前記対象文と文距離が近い類似文の文脈とを用いて、対象文と類似文の文脈距離を算出する文脈距離算出部と、前記文距離と、文脈距離算出部が算出した文脈距離とを損失関数に加えてテキストを分類するテキスト分類部と、文の分散表現を生成する文の分散表現生成部と、前記文の分散表現と、文の分散表現データベースにある文の分散表現との文距離を算出し、前記文距離が近い類似文を抽出する類似文検索部と、前記文距離が近い類似文の文脈を文脈データベースから抽出する類似文文脈抽出部と、を備える。【選択図】図１

Description

本発明は、情報処理装置およびその制御方法、情報処理システム、並びにプログラムに関する。

働き方改革の一環として、多くの企業が労働生産性向上に取り組んでいる。分析されていないものは改善できないので、業務を正しく分析することが生産性向上の鍵となる。その中、コンピュータを使用する業務を分析するため、コンピュータ操作ログを記録する方法がある。

コンピュータ操作ログは、各業務を遂行するためコンピュータを用いて行った操作の記録であり、ファイル編集、ファイル閲覧、ウェブサイト閲覧等の際に表示されたウインドウタイトルのログ等の例が挙げられる。極めて単純な作業の場合は、コンピュータ操作ログが業務と一対一の対応関係となる可能性がある。しかし多くの場合、１つの業務を行うため、複数のコンピュータ操作が必要であって、コンピュータ操作ログが業務と多対一の対応関係となる。

複数のコンピュータ操作ログを１つの業務として纏めるため、コンピュータ操作ログを自然言語の文として、業務をカテゴリとして分類することができる。その場合、テキスト分類装置を用いて、複数のコンピュータ操作ログを１つの業務に分類することが可能となる。

そのような方法の一例はいわゆる「ｂａｇ‐ｏｆ‐ｗｏｒｄｓ」（ＢｏＷ）法である。ＢｏＷ法は、自然言語処理（ＮＬＰ）において広く用いられてきた方法であり、文書に現われる単語の非順序のコレクションを用いて類似度を算出しテキスト分類を行う。しかし、コンピュータ操作ログまたはマイクロブログのような比較的短いテキスト（短文）の場合は、複数のテキストに共通する単語が少ないので、ＢｏＷ法で正しく分類することが困難となる。

非特許文献１に開示されている単語の分散表現を生成する技術を適用すれば、単語の意味をよく反映するようになるので、共通単語が少ない問題をある程度解決できる。また、非特許文献１の技術を単語から文まで拡張し、文の分散表現を生成する非特許文献２または非特許文献３に開示されている技術を適用すれば、文の意味を反映した分類が可能となる。

Mikolov Tomas, Sutskever Ilya., Chen Kai., Corrado Greg. and Dean Jeffrey. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems. 2013. p.3111-3119 Quoc Le and Tomas Mikolov. Distributed representations of sentences and documents. In ICML. 2014. volume 32. p.1188-1196. Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, Richard Zemel, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. Skip-thought vectors. In Advances in Neural Information Processing Systems 28. 2015. p.3294-3302.

しかしながら、非特許文献２または非特許文献３に開示されたテキスト分類技術では、コンピュータ操作ログを処理対象とした場合に、異なる業務のコンピュータ操作ログに共通したログ、例えば共通のファイルの閲覧、または、共通のウェブサイトの閲覧等が記録された場合、正しく分類されないことがあり、この点が問題となっている。

以下に、具体例を挙げて、上記問題について説明する。例えば、次のような業務（業務例１と業務例２）を行ったものとする。
［業務例１］
タピオカ市場調査
［業務例２］
自動車市場調査

上記の業務例１に関してのコンピュータ操作ログとして、以下に示すように、テキスト例１、テキスト例２とテキスト例３があったものとする。
テキスト例１：「世界のタピオカドリンク市場2019」
テキスト例２：「世界のマクロ経済分析」
テキスト例３：「タピオカドリンクの規模および生産能力」

上記の業務例２に関してのコンピュータ操作ログとして、以下に示すように、テキスト例４、テキスト例５、テキスト例６とテキスト例７があったものとする。
テキスト例４：「2019 自動運転市場の将来展望」
テキスト例５：「自動運転関連のベンチャー企業動向」
テキスト例６：「世界のマクロ経済分析」
テキスト例７：「自動運転関連の法律整備」

別の日時に行った未分類の業務に関してのコンピュータ操作ログとして、以下に示すように、テキスト例８とテキスト例９があったものとする。
テキスト例８：「世界のマクロ経済分析」
テキスト例９：「世界のタピオカドリンク市場2019」

業務例１と業務例２のコンピュータ操作ログの全ての情報を知っている人間であれば、分類対象となるテキスト例８とその周囲にあるテキスト例９とから、テキスト例８が業務例１に関してのコンピュータ操作ログであると判断することができる。

非特許文献２または非特許文献３に開示されたテキスト分類技術では、分類の対象となる対象文の周囲の単語または文を予測することで学習された文の分散表現の高次元空間上の距離で文の類似度を表現できる。

しかしながら、業務例１と業務例２に関してのコンピュータ操作ログの知識に基づいて学習されたテキスト例２とテキスト例６の共通の文の分散表現は、周囲の単語または周囲の文が矛盾するので、テキスト例１とテキスト例３のグループにも、テキスト例４、テキスト例５とテキスト例６のグループにも、明確に分類できるほど十分に近づくことはない。従って、非特許文献２または非特許文献３に開示されたテキスト分類技術では、テキスト例８を業務例１に分類することは困難となる。

以上のように、異なる業務のコンピュータ操作ログに共通したログ、例えば共通のファイルの閲覧、または、共通のウェブサイトの閲覧等が記録された場合、文の分散表現の学習のノイズとなりやすい。従って、上述したように、非特許文献２または非特許文献３に開示されたテキスト分類技術では、異なる業務に共通のコンピュータ操作ログを対象とした場合に、適切に分類を行うことは困難である。

本発明の目的は、上記問題を解消し、異なる業務に共通のテキスト（例えば、コンピュータ操作ログ）であったとしても、適切に分析し得る、情報処理装置およびその制御方法、情報処理システム、並びにプログラムを提供することにある。

上記課題を解決するために本発明は以下の構成を有する。すなわち、情報処理装置であって、
対象文の文脈と、前記対象文と文距離が近い類似文の文脈とを用いて、前記対象文と前記類似文の文脈距離を算出する文脈距離算出部
を備える。

以上のように、本発明によれば、異なる業務に共通のテキストであったとしても、適切に分析することができる。

本発明の実施の形態におけるテキスト分類装置の構成を示すブロック図である。本発明の実施の形態において対象文の一例を示す図である。本発明の実施の形態において類似文の一例を示す図である。本発明の実施の形態において対象文の文脈の一例を示す図である。本発明の実施の形態において類似文の文脈の一例を示す図である。本発明の実施の形態におけるテキスト分類装置の動作を示すフロー図である。本発明の実施の形態におけるテキスト分類装置のハードウェア構成の一例を示すブロック図である。

以下、本発明の実施の形態における、情報処理装置およびその制御方法、情報処理システム、並びにプログラムについて、図１～図７を参照しながら説明する。なお、以下では、情報処理装置をテキスト分類装置として説明するが、これに限定されず例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、タブレット端末などでもよい。

［装置構成］
最初に、図１を用いて、本実施の形態におけるテキスト分類装置１００の構成について説明する。図１は、本発明の実施の形態におけるテキスト分類装置の構成を示すブロック図である。以下では文脈を、検索対象の文（以下、対象文という）以外の周囲の文として説明するが、文脈は、同じ業務を継続的に行った際に取得したコンピュータ操作ログの全てとしてもよいし、類似文の前後N行の文または前後N個の単語としてもよいし、コンピュータ操作ログのメタデータとして時間を取得した場合における任意の時間間隔の範囲を含むものでもよい。

図１に示すテキスト分類装置１００は、テキストを対象として分類を行なう装置である。図１に示すように、テキスト分類装置１００は、主に、類似文検索部２０と、類似文文脈抽出部４０と、文脈距離算出部６０とを備えている。

類似文検索部２０が、文の分散表現生成部１０で生成された対象文の文の分散表現と、文の分散表現データベース３０に保存された文の分散表現との文距離に基づき、文の分散表現データベース３０から、対象文との文距離が近い類似文をN個抽出する。

類似文文脈抽出部４０は、類似文検索部２０による類似文検索の結果に基づいて、類似文の文脈を文脈データベース５０から抽出する。

文脈距離算出部６０は、入力装置８０から受け取った（送信された）対象文の文脈と類似文文脈抽出部４０が抽出した類似文文脈との文脈距離を算出し、テキスト分類部７０に入力する。

このように、本実施の形態におけるテキスト分類装置１００では、対象文との文距離が近い類似文を特定し、さらに対象文と類似文の文脈距離を算出し、文距離と文脈距離の両方を鑑み対象文の分類を実行する。このため、本実施の形態におけるテキスト分類装置１００によれば、分類対象となるテキストが異なる業務で出現したとしても、業務の分類は適切に実行することができる。

ここで、図１に加えて、図２～４を用いて、本実施の形態におけるテキスト分類装置１００の構成を更に具体的に説明する。図１に示すように、テキスト分類装置１００は、類似文検索部２０、類似文文脈抽出部４０および文脈距離算出部６０に加えて、文の分散表現生成部１０と、文の分散表現データベース３０と、文脈データベース５０と、テキスト分類部７０とを備えている。

文の分散表現生成部１０は、対象文の文の分散表現を生成する。文の分散表現生成部１０は、テキスト分類処理の対象となる対象文を、入力装置８０から受け付け、対象文から文の分散表現を生成し、生成した対象文の文の分散表現を類似文検索部２０に入力する。入力装置８０の具体例としては、キーボード等の入力機器、ネットワークを介して接続されたコンピュータ、テキスト集合が記録されている記録媒体の読取装置等が挙げられる。入力装置８０は、テキストを入力可能な装置であれば良い。なお、図１においては、情報処理システムとして、入力装置８０がコンピュータである場合が例示されている。

図２は、本実施の形態においてテキスト分類処理の対象となるコンピュータ操作ログの一例を示す図である。また、図２には、文の分散表現生成部１０が入力を受け付けた対象文（テキストID１００）に加え、対象文の文の分散表現と、対象文の文脈（テキストID１０１）も示されている。文の分散表現は、公知の自然言語処理技術、例えば非特許文献２または非特許文献３のような技術を用いて生成される高次元の実数ベクトルである。

具体的には、図２の例に示された各テキストは、ユーザがコンピュータを使用する未分類の業務を行った際に取得されたコンピュータ操作ログである。更に、図２の例では、表形式によって、コンピュータ操作ログを構成するテキストが示されており、行毎に、未分類の業務に必要なコンピュータ操作のログを構成する各テキストが示されている。

また、図２において、１列目の「テキストＩＤ」は、各テキストを区別するための便宜上のＩＤである。例えば、文の分散表現生成部１０が、管理のために、各テキストにテキストＩＤを付与することができる。

２列目の「テキスト」は、各テキストの内容を示している。３列目の「文の分散表現」は、実数ベクトルの一例である。なお、対象文の文脈のテキストの文の分散表現は生成する必要がないので、＜なし＞と設定される。

類似文検索部２０が、文の分散表現生成部１０で生成された対象文の文の分散表現と文の分散表現データベース３０に保存された文の分散表現の文距離を算出し、文の分散表現データベース３０から、対象文との文距離が近い類似文をN個抽出する。

図３は、本実施の形態において文の分散表現データベース３０に保存されたラベル付きコンピュータ操作ログの一例を示す図である。また、図３には、コンピュータ操作ログのテキスト（テキストID１～７）に加え、各テキストの文の分散表現とラベルも示されている。

具体的には、図３の例に示された各テキストは、ユーザがコンピュータを使用する既知の業務を行った際に取得されたコンピュータ操作ログである。更に、図３の例では、表形式によって、コンピュータ操作ログを構成するテキストが示されており、行毎に、各業務を遂行するためコンピュータを用いて行った操作のログ、例えばファイル編集、ファイル閲覧、ウェブサイト閲覧等の際に表示されたウインドウタイトル等のログが示されている。

また、図３において、１列目の「ラベル」は、各テキストに対して該当業務を示すラベルである。２列目の「テキストＩＤ」、３列目の「テキスト」、４列目の「文の分散表現」は、図２と同じである。

類似文検索部２０の処理は、以下の通りであり、図２と図３の例を用いて説明する。まず、テキストＩＤ１００の文の分散表現と、テキストＩＤ1～７の文の分散表現との文距離を、

を用いて、V次元の前記対象文の文の分散表現s^qと、同じくV次元の前記文の分散表現データベースにある文の分散表現s^dとの文距離d_sを算出する。具体的に下記のように、ベクトルの要素ごとの差を算出し、差の２乗の和の平方根を文距離として出力する。
テキストＩＤ１００とテキストＩＤ１の文距離＝sqrt((0.123-0.542)^2 + (0.421-0.829)^2 + (0.877-0.311)^2 + … + (0.672-0.102)^2)=0.975
テキストＩＤ１００とテキストＩＤ２の文距離＝sqrt((0.123-0.123)^2 + (0.421-0.421)^2 + (0.877-0.877)^2 + … + (0.672-0.672)^2)=0
…
テキストＩＤ１００とテキストＩＤ６の文距離＝sqrt((0.123-0.123)^2 + (0.421-0.421)^2 + (0.877-0.877)^2 + … + (0.672-0.672)^2)=0
テキストＩＤ１００とテキストＩＤ７の文距離＝sqrt((0.123-0.831)^2 + (0.421-0.827)^2 + (0.877-0.877)^2 + … + (0.672-0.239)^2)=1.456

次に、類似文検索部２０はテキストＩＤ１００との文距離が近い類似文をN個抽出する。具体的に下記のように、Nが２である場合、文距離が０になるテキストＩＤ２とテキストＩＤ６を類似文として、文の分散表現データベース３０から抽出する。Nは１０または１００のような値でも良い。

類似文文脈抽出部４０は、類似文検索部２０から出力された類似文のIDを文脈データベース５０から抽出する。図５は、本実施の形態において文脈データベース５０に保存された文脈の一例を示す図である。また、図５には文脈（単語ID１～９および単語ID１０１～１１２）に加え、各単語の分散表現とテキストIDも示されている。単語の分散表現は、公知の自然言語処理技術、例えば非特許文献１のような技術を用いて生成される高次元の実数ベクトルである。

文脈の単語は、コンピュータ操作ログの各文の周囲の文に対して、公知の自然言語処理技術を用いて、形態素解析処理を行って抽出されたものである。文脈の範囲は、同じ業務を継続的に行った際に取得したコンピュータ操作ログの全てを範囲として定義することができるし、類似文の前後N行の文または前後N個の単語を範囲として定義することもできる。または、コンピュータ操作ログのメタデータとして時間等を取得した場合、時間間隔等で範囲を定義しても良い。

具体的に、図５の例の場合、類似文テキストＩＤ２の文脈は、テキストＩＤ２の周囲の文であるテキストＩＤ１とテキストＩＤ３に対して、形態素解析処理を行って抽出された単語ID１～９である。類似文テキストＩＤ６の文脈は、テキストＩＤ６の周囲の文であるテキストＩＤ４、テキストＩＤ５とテキストＩＤ７に対して、形態素解析処理を行って抽出された単語ID１０１～１１２である。類似文文脈抽出部４０は、類似文検索部２０からもらった類似文のテキストID（キストＩＤ２とテキストＩＤ６）を用いて、文脈データベース５０から、単語ID１～９と単語ID１０１～１１２の単語の分散表現を取得し、文脈距離算出部６０に入力する。

文脈距離算出部６０は、入力装置８０から受け取った対象文の文脈と、類似文文脈抽出部４０で抽出された類似文の文脈との文脈距離を算出する。

具体的には、図４の例に示された各テキストは、入力装置８０から受け取ったコンピュータ操作ログから、対象文（テキストID１００）の周囲にある文（テキストID１０１）に対して、形態素解析処理を行って抽出された単語（単語ID１００１～１００７）である。

文脈距離算出部６０は、対象文の文脈（単語ID１００１～１００７）と、類似文テキストID２の文脈（単語ID１～９）および類似文テキストID６の文脈（単語ID１０１～１１２）との文脈距離を、

を用いて、単語数N_qcの対象文の文脈と、単語数N_scの類似文の文脈との文脈距離d_cを算出する。

または、単語距離d_wが最小値になる単語が類似文までの単語数の常用対数を単語位置距離d_wjとして算出し、

を用いて、文脈距離d_cを算出する。

まず、文脈距離算出部６０は、単語ID１００１と、単語ID１～９との単語距離を、

を用いて、V次元の対象文の文脈の単語の分散表現w^qcと、同じくV次元の類似文の文脈の単語の分散表現w^scとの単語距離d_wを算出する。

具体的に下記のように、ベクトルの要素ごとの差を算出し、差の２乗の和の平方根を単語距離として出力する。
単語ID１００１と単語ID１の単語距離＝sqrt((0.235-0.235)^2 + (0.165-0.165)^2 + (0.832-0.832)^2 + … + (0.735-0.735)^2)=0
単語ID１００１と単語ID２の単語距離＝sqrt((0.235-0.756)^2 + (0.165-0.328)^2 + (0.832-0.362)^2 + … + (0.735-0.872)^2)=1.563
…
単語ID１００１と単語ID９の単語距離＝sqrt((0.235-0.575)^2 + (0.165-0.232)^2 + (0.832-0.936)^2 + … + (0.735-0.087)^2)=1.037

次に、文脈距離算出部６０は、単語ID１００１と、単語ID１～９との単語距離の最小値を求めて、それを用いて単語ID１００１と類似文テキストID２の文脈距離を算出する。具体的に上述した、

を用いて算出する場合、単語距離の最小値が単語ID１との単語距離（０）になるので、単語ID１００１と類似文テキストID２の文脈距離が０となる。

または、

を用いて算出する場合、単語距離の最小値に、単語位置距離を加算する。単語位置距離は、単語距離が最小値になる単語から類似文までの単語数の常用対数として算出できる。

具体的に、単語ID１「世界」は、単語距離が最小値になる単語であり、これはテキストID１において出現する単語である。図３で示したように、類似文テキストID１における「世界」と類似文テキストID２の間には、「タピオカ」と「ドリンク」と「市場」と「２０１９」の４つの単語が存在するので、類似文までの単語数が４となる。つまり、単語ID１の単語位置距離は、４の常用対数を算出し、０．６０２となる。最後に、単語ID１００１と類似文テキストID２の文脈距離は、単語距離の最小値（０）と単語位置距離（０．６０２）とを合計し、０．６０２となる。なお、単語位置距離は常用対数に限らず、１を超えない変数を乗算してもよい。

さらに、単語位置距離は、単語距離が最小値になる単語から類似文までの単語数を類似文の文脈の総単語数で割った値として算出することもできる。具体的には、図３で示したように、単語ID１「世界」から類似文テキストID２までの単語数は４である。また、図５を参照すれば、類似文テキストID２の文脈の総単語数は９であることが分かる。つまり、単語ID１の単語位置距離は、類似文までの単語数（４）を類似文文脈の総単語数（９）で割って、０．４４４となる。最後に、単語ID１００１と類似文テキストID２の文脈距離は、単語距離の最小値（０）と単語位置距離（０．４４４）とを合計し、０．４４４となる。

また、文脈距離算出部６０は、前記方法を繰り返すことによって単語ID１００２～１００７と類似文テキストID２の文脈距離を算出する。最後に単語ID１００１～１００７と類似文テキストID２のそれぞれの文脈距離を合計し、対象文テキストID１００と類似文テキストID２の文脈距離を算出する。

以上の方法によって、対象文テキストＩＤ１００と類似文テキストＩＤ２との文脈距離の算出を終了し、他に類似文が存在すれば、同じ方法で文脈距離の算出を行う。本実施形態の場合、類似文テキストＩＤ６が存在するので、文脈距離算出部６０は、前記方法を繰り返すことにより、対象文テキストID１００と類似文テキストID６の文脈距離を算出し、前記類似文テキストID２との文脈距離と合わせて、テキスト分類部７０に出力する。すなわち、異なる業務に共通のテキストであったとしても、適切に分析することができる。

テキスト分類部７０は、類似文検索部２０から入力された文距離と、文脈距離算出部６０から入力された文脈距離とを損失関数に加えることによって、K近傍法、サポートベクターマシン、ニューラルネットワーク、または他の公知の方法によって、対象文と距離が近い類似文に設定された業務ラベルに、対象文を分類する。

［装置動作］
次に、本発明の実施の形態におけるテキスト分類装置１００の動作について、図６を用いて説明する。図６は、本発明の実施の形態におけるテキスト分類装置の動作を示すフロー図である。以下の説明においては、適宜図１～図５を参酌する。また、本実施の形態では、テキスト分類装置１００を動作させることによって、テキスト分類方法が実施される。よって、本実施の形態におけるテキスト分類方法の説明は、以下のテキスト分類装置１００の動作説明に代える。

図６に示すように、まず、文の分散表現生成部１０が、入力装置８０から受け取った対象文から文の分散表現を生成する(ステップＳ６０１)。また、ステップＳ６０１において、文の分散表現生成部１０は、生成した対象文の文の分散表現を類似文検索部２０に入力する。

次に、類似文検索部２０が、ステップＳ６０１で生成された対象文の文の分散表現と文の分散表現データベース３０に保存された文の分散表現の文距離に基づき、文の分散表現データベース３０から、対象文との文距離が近い類似文をN個抽出する(ステップＳ６０２)。

次に、類似文文脈抽出部４０が、類似文の文脈を文脈データベース５０から抽出する(ステップＳ６０３)。具体的には、ステップＳ６０３では、文脈データベース５０からステップＳ６０２で抽出されたN個の類似文を検索し、ヒットした類似文の文脈を抽出し、文脈距離算出部６０に入力する。

次に、文脈距離算出部６０が、入力装置８０から受け取った対象文の文脈とステップＳ６０３で抽出された類似文の文脈との文脈距離を算出する(ステップＳ６０４)。また、ステップＳ６０４において、文脈距離算出部６０は、算出した文脈距離をテキスト分類部７０に入力する。

最後に、テキスト分類部７０が、ステップＳ６０２で算出された文距離と、ステップＳ６０４で算出された文脈距離とを損失関数に加えることによって、K近傍法、サポートベクターマシン、ニューラルネットワーク等周知の方法で、対象文を、対象文と距離が近い類似文に設定された業務ラベルに分類する（ステップＳ６０５）。ステップＳ６０５の実行により、テキスト分類装置１００における処理は終了する。

以上のように、本実施の形態におけるテキスト分類装置１００は、対象文との文距離が近い類似文を特定し、さらに対象文と類似文の文脈距離を算出し、文距離と文脈距離の両方を鑑み分類を実行する。このため、本実施の形態におけるテキスト分類装置１００によれば、分類対象となるテキストが異なる業務で出現したとしても、業務の分類を適切に実行される。

本実施の形態におけるプログラムは、コンピュータに、図６に示すステップＳ６０１～Ｓ６０５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるテキスト分類装置１００とテキスト分類方法とを実現することができる。この場合、コンピュータのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、文の分散表現生成部１０、類似文検索部２０、類似文文脈抽出部４０、文脈距離算出部６０、およびテキスト分類部７０として機能し、処理を行なう。

また、本実施の形態では、文の分散表現データベース３０、文脈データベース５０は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、実現できる。また、文の分散表現データベース３０、文脈データベース５０は１つのデータベースでもよい。

ここで、実施の形態におけるプログラムを実行することによって、テキスト分類装置１００を実現するコンピュータ１１０について図７を用いて説明する。図７は、本発明の実施の形態におけるテキスト分類装置のハードウェア構成の一例を示すブロック図である。

図７に示すように、コンピュータ１１０は、ＣＰＵ２１１と、各種のＲＯＭやＲＡＭからなるメモリ２１２と、ハードディスクなどの記憶装置２１３と、入力装置２１４と、表示装置２１５と、通信I/F２１７とを備える。これらの各部は、バス２１８で接続される。

ＣＰＵ２１１は、記憶装置２１３に格納された、本実施の形態におけるプログラム（コード）をメモリ２１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な光ディスクなどの記録媒体に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス２１７を介して接続されたインターネット上で流通するものであっても良い。

以上のように、本発明によれば、分類対象となるテキストが異なる業務で出現したとしても、業務の分類を適切に実行することができる。よって、本発明は、コンピュータ操作ログを業務毎に分類し、コンピュータを使用する業務を分析する目的に有用である。

１０文の分散表現生成部
２０類似文検索部
３０文の分散表現データベース
４０類似文文脈抽出部
５０文脈データベース
６０文脈距離算出部
７０テキスト分類部
１００テキスト分類装置

Claims

対象文の文脈と、前記対象文と文距離が近い類似文の文脈とを用いて、前記対象文と前記類似文の文脈距離を算出する文脈距離算出部
を備えていることを特徴とする情報処理装置。
さらに、
前記文距離と、前記文脈距離算出部が算出した文脈距離とを損失関数に加えてテキストを分類するテキスト分類部と
を備えることを特徴とする請求項１に記載の情報処理装置。
さらに、
前記対象文から文の分散表現を生成する文の分散表現生成部と、
前記文の分散表現と、文の分散表現データベースにある文の分散表現との文距離を算出し、前記文距離が近い類似文を抽出する類似文検索部と、
前記文距離が近い類似文の文脈を文脈データベースから抽出する類似文文脈抽出部と
を備えることを特徴とする請求項１または２に記載の情報処理装置。
類似文検索部は、

を用いて、V次元の前記対象文の文の分散表現s^qと、同じくV次元の前記文の分散表現データベースにある文の分散表現s^dとの文距離d_sを算出することを特徴とする請求項１または３に記載の情報処理装置。
前記文脈距離算出部は、

を用いて、V次元の前記対象文の文脈の単語の分散表現w^qcと、同じくV次元の前記類似文の文脈の単語の分散表現w^scとの単語距離d_wを算出し、

を用いて、単語数N_qcの対象文の文脈と、単語数N_scの類似文の文脈との文脈距離d_cを算出することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記文脈距離算出部は、
前記単語距離d_wが最小値になる単語が前記類似文までの単語数の常用対数を単語位置距離d_wjとして算出し、

を用いて、文脈距離d_cを算出することを特徴とする請求項５に記載の情報処理装置。
前記文脈距離算出部は、
前記単語距離d_wが最小値になる単語が前記類似文までの単語数を前記類似文の文脈の総単語数で割った値を単語位置距離d_wjとして算出し、

を用いて、前記文脈距離d_cを算出することを特徴とする請求項５に記載の情報処理装置。
対象文の文脈と、前記対象文と文距離が近い類似文の文脈とを用いて、前記対象文と前記類似文の文脈距離を算出する文脈距離算出工程
を備えていることを特徴とする情報処理方法。
請求項１から請求項７の何れか１項に記載された情報処理装置と、
ネットワークを介して前記情報処理装置に前記対象文の文脈を送信する入力装置と
を有することを特徴とする情報処理システム。
コンピュータを、請求項１乃至７の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。