JP2002351899A

JP2002351899A - データ分析装置及びデータ分析方法並びにプログラム

Info

Publication number: JP2002351899A
Application number: JP2001157198A
Authority: JP
Inventors: Shigeaki Sakurai; 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-05-25
Filing date: 2001-05-25
Publication date: 2002-12-06
Anticipated expiration: 2021-05-25
Also published as: JP3813837B2; US20020178155A1

Abstract

(57)【要約】【課題】時間情報を持つテキストの系列をもとに、意
思決定支援に適用できる概念時系列モデルを獲得するた
めのデータ分析装置を提供すること。【解決手段】格納部１と格納部２には、テキストと時
間情報と属性情報を含むドキュメントの集合と、キー概
念辞書をそれぞれ格納する。概念抽出部３は、属性情報
に基づいて、ドキュメントの集合から、互いに関連する
複数のドキュメントからなる部分集合を選択し、キー概
念辞書に基づいて、部分集合に属する複数のドキュメン
トの各々から、キー概念を抽出する。ドキュメント時間
抽出部４は、該部分集合に属する複数のドキュメントの
各々から、時間情報を抽出する。概念時系列データ生成
部５は、抽出されたキー概念と時間情報に基づいて、キ
ー概念を時系列的に並べた概念時系列データを生成す
る。概念時系列モデル学習部６は、概念時系列データを
モデル化する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストデータ及
び時間情報を含むドキュメントを分析するデータ分析装
置及びデータ分析方法に関する。

【０００２】

【従来の技術】データの電子媒体上への格納が進むに連
れて、蓄積されている大量のデータの中から必要な情報
を効率よく抽出することが必要になってきている。

【０００３】この問題に対して、特開２００１−２２７
７６（以下、文献１）に開示されたルール生成結果通知
システムでは、ある時点においてデータベースに格納さ
れているデータを入力として与えることにより、データ
に内在する規則性を発見する一方、別時点において同様
に規則性を発見し、それら規則性を比較することによっ
て、時間変化に伴う規則性の推移を示すことができるよ
うになっている。

【０００４】一方、「対話タスクモデルのサンプル単語
時系列からの自己組織化」、電子情報通信学会Ｊ８３−
Ｄ−ＩＩ、Ｎｏ．２、ｐ．８２７−８３９（２００
０年）（以下、文献２）に開示された技術では、単語時
系列とその応答を示す単語からなるデータを多数集める
ことにより、単語時系列とその応答を示す単語との間の
関係をネットワーク構造にモデル化することができる。
また、当該モデルを利用することにより、新たに与えら
れた単語時系列に対応する応答を示す単語を予測するこ
とができる。

【０００５】また、特開平１１−１２３１９８（以下、
文献３）に開示されたデータ処理装置では、時系列デー
タを与えることにより、時系列データを意味のある単位
に分割し、意味的に類似した単位ごとにモデルを学習す
ることができる。また、当該モデルを利用することによ
り、新たに与えられた時系列データに対応する次の結果
を予測することができる。

【０００６】

【発明が解決しようとする課題】文献１に開示された従
来技術では、変化した規則をユーザに提示するだけであ
り、時間変化に伴って発生する現象を予測することはで
きなかった。また、文献２に開示された従来技術では、
時系列データの一種である単語時系列を獲得する方法に
関しては示されておらず、問題に応じて単語時系列の生
成方法を設計する必要がある。また、文献３に開示され
た従来技術では、学習されるモデルがパターンに基づい
てなされているため、モデルの意味を直感的に理解する
ことができず、かつまた、時系列データに対する意味付
けが明示的になされていないため、予測結果に意味付け
を与えることができなかった。

【０００７】本発明は、上記事情を考慮してなされたも
ので、蓄積されたテキストデータ及び時間情報を含むド
キュメントの集合から、規則性をモデル化するためのも
ととなる、単語（概念）時系列モデルを生成可能にする
データ分析装置及びデータ分析方法並びにプログラムを
提供することを目的とする。

【０００８】また、本発明は、時間系列の中で与えられ
るテキストデータに対して、その一連のテキストデータ
に従って発生する結果を示す規則性をモデル化すること
を可能にするためのデータ分析装置及びデータ分析方法
並びにプログラムを提供することを目的とする。

【０００９】また、本発明は、獲得されたモデルを利用
することにより、時間情報を含んだ新たなテキストデー
タに対して、その後に発生する結果を予測し、ユーザの
意思決定を支援することを可能にするためのデータ分析
装置及びデータ分析方法並びにプログラムを提供するこ
とを目的とする。

【００１０】

【課題を解決するための手段】本発明に係るデータ分析
装置は、テキストデータ及び時間情報を含むドキュメン
トの集合を格納するためのドキュメント格納手段と、前
記ドキュメントのテキストデータが有する可能性のある
キー概念を含むキー概念辞書を格納するためのキー概念
辞書格納手段と、所定の基準に従って、前記ドキュメン
ト格納手段に蓄積された前記ドキュメントの集合から、
互いに関連する複数のドキュメントからなる部分集合を
選択するための選択手段と、前記キー概念辞書に基づい
て、選択された前記部分集合に属する複数のドキュメン
トの各々から、キー概念の集合を抽出するための第１の
抽出手段と、選択された前記部分集合に属する複数のド
キュメントの各々から、前記時間情報を抽出するための
第２の抽出手段と、前記部分集合に属する複数のドキュ
メントの各々から抽出された前記キー概念の集合及び該
複数のドキュメントの各々に含まれる前記時間情報に基
づいて、キー概念を時系列的に並べた概念時系列データ
を生成するための概念時系列データ生成手段とを備えた
ことを特徴とする。

【００１１】好ましくは、複数の前記ドキュメントから
抽出された、複数の前記概念時系列データをもとにし
て、少なくともキー概念間の遷移関係を示すモデルを生
成するためのモデル生成手段を更に備えるようにしても
よい。

【００１２】好ましくは、予測対象とする複数の前記ド
キュメントから生成した前記概念時系列データに前記モ
デルを適用して、該概念時系列データの持つ時間情報よ
り後に発生すると予測されるキー概念を抽出するための
予測手段を更に備えるようにしてもよい。

【００１３】また、本発明に係るデータ分析方法は、テ
キストデータ及び時間情報を含むドキュメントの集合を
ドキュメント格納手段に格納し、所定の基準に従って、
前記ドキュメント格納手段に蓄積された前記ドキュメン
トの集合から、互いに関連する複数のドキュメントから
なる部分集合を選択し、選択された前記部分集合に属す
る複数のドキュメントの各々から、ドキュメントのテキ
ストデータが有する可能性のあるキー概念を含むキー概
念辞書に基づいて、キー概念の集合を抽出するととも
に、該ドキュメントに含まれる前記時間情報をそれぞれ
抽出し、前記部分集合に属する複数のドキュメントの各
々から抽出された前記キー概念の集合及び該複数のドキ
ュメントの各々に含まれる前記時間情報に基づいて、キ
ー概念を時系列的に並べた概念時系列データを生成する
ことを特徴とする。

【００１４】なお、装置に係る本発明は方法に係る発明
としても成立し、方法に係る本発明は装置に係る発明と
しても成立する。また、装置または方法に係る本発明
は、コンピュータに当該発明に相当する手順を実行させ
るための（あるいはコンピュータを当該発明に相当する
手段として機能させるための、あるいはコンピュータに
当該発明に相当する機能を実現させるための）プログラ
ムとしても成立し、該プログラムを記録したコンピュー
タ読取り可能な記録媒体としても成立する。

【００１５】本発明によれば、蓄積されたテキストデー
タ及び時間情報を含むドキュメントの集合から、規則性
をモデル化するためのもととなる、単語（概念）時系列
モデルを生成することが可能になる。

【００１６】また、本発明によれば、時間的に推移する
一連のテキストデータの中から抽出されたキー概念の系
列から、キー概念間の関係を記述するモデルを獲得する
ことができる。

【００１７】また、本発明によれば、時間的に推移する
一連のテキストデータの中から抽出されたキー概念の系
列と一連のテキストデータの最後に抽出されるキー概念
の系列を分類する分類クラスから、キー概念の系列とそ
の分類クラスの関係を記述するモデルを獲得することが
できる。

【００１８】また、本発明によれば、獲得したモデルに
基づいて、一連の新たなテキストデータから、引き続い
て発生すると考えられるキー概念あるいは分類クラスを
予測することができ、ユーザの意思決定を支援すること
ができる。

【００１９】例えば、営業日報等の日々蓄積されるテキ
ストデータに対して、時系列的な内容の推移に基づいて
将来を予測するモデルを抽出し、そのモデルを利用した
予測を行うことにより、利用者の意思決定を支援するこ
とができる。

【００２０】

【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。

【００２１】（第１の実施形態）図１に、本発明の第１
の実施形態に係る時系列テキストデータ分析装置の構成
例を示す。図１に示されるように、本時系列テキストデ
ータ分析装置は、ドキュメント格納部１、キー概念辞書
格納部２、概念抽出部３、ドキュメント時間抽出部４、
概念時系列データ生成部５、概念時系列モデル学習部
６、概念時系列モデル格納部７を備えている。

【００２２】この時系列テキストデータ分析装置は、ソ
フトウェアによって実現することができる（すなわち計
算機上でプログラムを実行する形で実現することができ
る）。その際、そのソフトウェアの一部または全部の機
能をチップ化あるいはボード化して該計算機に組み込ん
で実現することもできる。また、この時系列テキストデ
ータ分析装置は、ソフトウェアによって実現する場合に
は、他のソフトウェアの一機能として組み込むようにす
ることも可能である。また、この時系列テキストデータ
分析装置を専用のハードウェアとして構成することも可
能である。

【００２３】ドキュメント格納部１、キー概念辞書格納
部２、概念時系列モデル格納部７は、いずれも、例えば
ハードディスクや光ディスクや半導体メモリなどの記憶
装置によって構成される。なお、各記憶部は、別々の記
憶装置によって構成されていてもよいし、それらの全部
または一部が同一の記憶装置によって構成されていても
よい。

【００２４】なお、図１では省略しているが、時系列テ
キストデータ分析装置は、外部とデータをやり取りする
ための入出力装置を備えている。もちろん、ＧＵＩ（グ
ラフィカル・ユーザ・インタフェース）を備えてもよい
し、ネットワーク接続インタフェースを備えてもよい。

【００２５】ドキュメント格納部１に格納されるドキュ
メントは、それぞれ、テキストデータと、時間情報と、
１又は複数の属性を含む。具体的には、小売業務におけ
る販売員の営業活動及び商品の売上動向を記載した時間
的に推移する一連のテキスト、ヘルプデスク業務におけ
る顧客からの様々な問い合わせと回答内容を記載した時
間的に推移する一連のテキストなど、種々の分野あるい
は目的に適用可能である。

【００２６】以下、本時系列テキストデータ分析装置に
よる処理について説明する。

【００２７】図２に、本時系列テキストデータ分析装置
の処理手順の一例を示す。

【００２８】ここで、具体例として、ドキュメント格納
部１には、図３に示すドキュメントの集合が格納されて
いるものとする。なお、ｔ１〜ｔ２１は、各ドキュメン
トの通し番号である。

【００２９】まず、ステップＳ１１においては、ドキュ
メント格納部１に格納されているドキュメントを概念抽
出部３に渡し、ドキュメントに付随する特徴に基づい
て、関連するドキュメントからなるドキュメント部分集
合を生成する。

【００３０】例えば、ドキュメントの特徴として、「相
手先」、「担当」を選択した場合、「相手先」と「担
当」とからなる組が一致するドキュメントごとに関連す
るドキュメントの集合を収集する。この場合、図３のド
キュメントの集合から、図４〜図７に示す４種類のドキ
ュメントの部分集合が生成される。

【００３１】なお、この関連するドキュメントを分類す
るキーは、例えば、外部から指定するようにしてもよ
い。また、クラスタリング手法を利用して、関連するド
キュメントを集めるようにすることも可能である。その
他にも、種々の方法が考えられる。

【００３２】ステップＳ１２においては、概念抽出部３
は、ステップＳ１１で得られたドキュメントの部分集合
の各々ごとに、当該ドキュメントの部分集合に属する各
ドキュメントに付随する時間に関する情報（図３の例で
は、項目名「日時」の年月日のデータ）（例えば、当該
ドキュメントが作成された年月日（年月日時分）、ある
いは当該ドキュメントの本文に関係する年月日（年月日
時分））を参照することにより、時間の早い順にドキュ
メントの並べ替えを行う。なお、図４〜図７の例におい
ては、既にドキュメントは時間順に整列されているの
で、並べ替えによるドキュメントの格納位置の変更は発
生しない。

【００３３】ステップＳ１３においては、概念抽出部３
は、ドキュメントの部分集合を一つ取り出す。このと
き、取り出すドキュメントの部分集合が存在しなけれ
ば、ステップＳ１９に処理を進める。一方、取り出すド
キュメントの集合が存在する場合には、ステップＳ１４
に処理を進める。例えば、図４のドキュメント部分集合
が取り出されたとする。

【００３４】ステップＳ１４においては、概念抽出部３
は、取り出したドキュメントの部分事例集合の中から、
上から順に、ドキュメントを一つ取り出す（すなわち、
時間の早い順に取り出されることになる）。このとき、
取り出すドキュメントがない場合には、ステップＳ１７
に処理を進める。一方、取り出すドキュメントがある場
合には、ステップＳ１５に処理を進める。例えば、図４
のドキュメント部分集合から、その先頭のドキュメント
ｔ１が取り出されたとする。

【００３５】ステップＳ１５においては、概念抽出部３
は、ステップＳ１４にて取り出されたドキュメントに対
して、形態素解析を適用して、ドキュメントを形態素に
分割する。図８のｌ１に、この結果の一例を示す（な
お、ｌ１〜ｌ５は、各ドキュメントを形態素解析した結
果の通し番号である）。例えば、図４のドキュメントの
部分集合の先頭のドキュメントｔ１の項目「本文」の内
容（すなわち、“製品の売り込みに行ったところ手応え
があった。”）に対して、形態素解析を実施することに
より、図８のｌ１に示す形態素の集合（すなわち、「製
品」、「の」、「売り込み」、「に」、「行く」、「と
ころ」、「手応え」、「が」、「ある」、「。」）が得
られる。

【００３６】ステップＳ１６においては、概念抽出部３
は、キー概念辞書格納部２に格納されているキー概念辞
書とステップＳ１５にて形態素解析された結果とを利用
して、当該ドキュメントに対応する特徴を抽出して、当
該ドキュメントに割り当てる。

【００３７】例えば、キー概念辞書格納部２に、図９に
例示するキー概念辞書が格納されているものとして、図
８のｌ１に示す形態素の集合に基づいて特徴を求める場
合を考える。このとき、概念クラス「状況」、キー概念
「売り込み」、表層表現「売り込み」が、形態素の集合
の「売り込み」と一致するので、特徴「売り込み」が抽
出される。また、概念クラス「印象」、キー概念「良
好」、表層表現「手応えがある」が、形態素の集合の
「手応え」、「が」、「ある」と一致するので、特徴
「良好」が抽出される。図１０に、この結果の一例を示
す（なお、ｃ１〜ｃ５は、ドキュメントに対して生成さ
れる特徴量の集合の通し番号である）。

【００３８】以上は、繰り返し処理となり、図４の他の
ドキュメントについても同様に処理が行われる（図８の
ｌ２〜ｌ５、図１０のｃ２〜ｃ５がこれに対応する）。

【００３９】さて、一つのドキュメント部分集合に属す
るすべてのドキュメントについて特徴の抽出が行われた
ならば、ステップＳ１４からステップＳ１７に移ること
になる。

【００４０】ステップＳ１７においては、概念時系列デ
ータ生成部５は、当該一つのドキュメント部分集合にお
ける時間的に最後のドキュメントを除いたドキュメント
の集合に対して生成された特徴の集合と、ドキュメント
に割り当てられている「時間」とを利用して、時系列デ
ータを生成する。なお、ドキュメントに割り当てられて
いる「時間」は、ドキュメント時間抽出部４により与え
られる。

【００４１】なお、ここでは、一例として、１日を基準
として時系列データを生成するものとする。

【００４２】例えば、図４のドキュメントの部分集合の
各ドキュメントに対して図１０に例示する特徴量の集合
が生成されているとすると、最後の特徴量の集合（ｃ
５）を除いた特徴量に対して、時系列データが生成され
る。すなわち、最初のドキュメントの時間を基準とし、
特徴量の与えられている日には、特徴量の集合を与え、
特徴量が与えられていない日には、特徴量が与えられて
いないことを示すデータ（例えば「しない」）を与える
ことにより、時系列データを生成する。

【００４３】この場合、図４のドキュメントの部分集合
に対しては、図１１（ｗ１〜ｗ４は、時系列データと分
類クラスを組とした訓練事例の通し番号である）に例示
する番号ｗ１に対応する時系列データが生成される。こ
の時系列データにおいて、特徴量の後に書かれている数
値（例えば、（売り込み，良好）／１における１）が、
当該特徴量が連続する回数を表している。

【００４４】ステップＳ１８においては、概念時系列デ
ータ生成部５は、当該ドキュメントの部分集合における
時間的に最後のドキュメントを利用して、ステップＳ１
７にて生成された時系列データに対応する分類クラスを
生成する。なお、ドキュメントに割り当てられている
「時間」は、ドキュメント時間抽出部４により与えられ
る。

【００４５】例えば、図４のドキュメントの部分集合か
ら生成された図１０の特徴量の集合において、番号ｃ５
の特徴量が最後の特徴量となるので、「受注成功」が分
類クラスとなる。この場合、図１１に例示する番号ｗ１
に対応する分類クラスが生成される。

【００４６】なお、これまでと同様の手順が、図５〜図
７のドキュメントの部分集合に対しても実行され、ステ
ップＳ１３で処理ループを抜けた時点で、図１１の時系
列データと分類クラスの組が完成することになる（図１
１において番号ｗ２〜ｗ４の時系列データと分類クラス
の組がそれぞれ図５〜図７に対応する）。

【００４７】ところで、上記の手順例では、時系列デー
タとその分類クラスを生成する際に、時間的に最後のド
キュメントから分類クラスを生成していたが、時間的に
一連のドキュメントに対して、ユーザが分類クラスを指
定するよう構成することも可能である。このような場合
には、最後のドキュメントに対しても時系列データが生
成されるようにして構わない。

【００４８】さて、ステップＳ１９においては、概念時
系列モデル学習部６は、図１１に例示したような時系列
データと分類クラスの組をもとに、モデルの自己組織化
を行う。モデルの自己組織化が終了したら、当該モデル
を概念時系列モデル格納部７に格納して、本モデル化処
理を終了する。

【００４９】モデルの自己組織化の手法としては、ここ
では、文献「対話タスクモデルのサンプル単語時系列か
らの自己組織化」、電子情報通信学会Ｊ８３−Ｄ−Ｉ
Ｉ、Ｎｏ．２、ｐ．８２７−８３９（２０００年）に
開示されている拡張画像オートマトンの自己組織化法を
利用することができる。この手法は、６つの基本ルール
と時系列データ間の関係に関する２種類の背景知識を利
用することにより、モデルを自己組織化するものであ
る。この手法を、時系列データとその分類クラスからな
るデータに適用することによって、ネットワーク構造を
持つモデルを自己組織化することができる。

【００５０】例えば、図１１の４種類の時系列データと
分類クラスの組が順に与えられるとすると、図１２のモ
デルを得ることができる。ここで、Ａａ１〜Ａａ１３
は、概念時系列モデル格納部７に格納されるモデルを構
成する通常アーク（意味的に類似した複数の単語を格納
するアーク）を示す番号であり、Ａｂ１，Ａｂ２は、概
念時系列モデル格納部７に格納されるモデルを構成する
ナル遷移アーク（単語を格納しないアーク）を示す番号
であり、Ｎａ１〜Ｎａ６は、概念時系列モデル格納部７
に格納されるモデルを構成する途中ノード（複数のアー
クの入力及び出力を可能としたノード）を示す番号であ
り、Ｎｂ１〜Ｎｂ３は、概念時系列モデル格納部７に格
納されるモデルを構成する終了ノード（複数のアークの
入力及び単語時系列に対応した応答の格納を可能とした
ノード）を示す番号である。

【００５１】ここで、上記文献に開示された拡張画像オ
ートマトンの自己組織化法について簡単に説明する（詳
しくは上記の文献に開示されている）。

【００５２】拡張画像オートマトンは、ネットワーク表
現をもった知識表現であり、有向アークとノードから構
成される。有向アークには、通常アーク及びナル遷移ア
ークと呼ばれる２種類の有向アークが存在し、通常アー
クが意味的に類似した複数の単語を格納するのに対し
て、ナル遷移アークは単語を格納しない。また、通常ア
ークを経由することにより、１単位時刻が経過するのに
対して、ナル遷移アークを経由したとしても、時刻は経
過しない。ここで、１単位時刻は、単語時系列における
１単語の入力に対応する。このナル遷移アークを利用す
ることにより、単語時系列に存在する複数種類の連続し
たノイズを表現することができる。

【００５３】一方、ノードには、途中ノード及び終了ノ
ードと呼ばれる２種類のノードが存在する。途中ノード
は、複数のアークの入力及び出力を可能としたノードで
あり、終了ノードは、複数のアークの入力及び単語時系
列に対応した応答の格納を可能としたノードである。こ
のようなノードに対して、ノードとノードとの間に多数
のアークが存在すると、多数の単語の組合せを表現する
ことができる。ただし、同一方向をもった複数のアーク
がノード間に存在すると、どのアークを利用したかが不
明確になり、単語時系列の識別が困難になるため、単語
時系列に対して、適切な応答を推論することが難しくな
る。したがって、任意のノード間の同一方向に対して
は、各アークの種類ごとに、せいぜい一つのアークしか
設定しないものとしている。

【００５４】ここで、本手法においては、６つの基本ル
ールと時系列データ間の関係に関する２種類の背景知識
を利用することにより、モデルを自己組織化する。

【００５５】まず、６つの基本ルールについて簡単に説
明する。

【００５６】（１）アーク利用ルール：現在の状態に対
応するノードを起点とする通常のアークに、入力された
単語と同一の単語が割り当てられ、単語のタイプとアー
クの終点となるノードのタイプが同一ならば、当該アー
クを利用して、終点となるノードに状態を遷移する。

【００５７】（２）ナル遷移アーク利用ルール：現在の
状態に対応するノードを起点とするナル遷移アークの終
点となるノードを起点とする通常のアークに、入力され
た単語と同一の単語が割り当てられ、単語のタイプと到
達するノードのタイプが同一ならば、これらのアークを
利用して、通常のアークの終点となるノードに状態を遷
移する。

【００５８】（３）自己ループ生成ルール：終端にない
連続する二つの単語が同一であり、現在の状態に対応す
るノードに自己ループを生成可能であれば、当該ノード
を起点かつ終点とする通常のアークを生成して、当該ア
ークに一つの単語を割り当てる。このとき、状態の遷移
は行われない。

【００５９】（４）先読みアーク利用ルール：現在の単
語の次の単語と同一の単語が割り当てられたアークで、
当該アークの終点となるノードのタイプが次の単語のタ
イプと一致し、現在のノードから当該アークの起点とな
るノードに通常のアークが生成可能ならば、現在のノー
ドと当該アークの起点となるノードの間にアークを生成
し、生成したアークに現在の単語を割り当て、当該アー
クの終点となるノードに状態を遷移する。

【００６０】（５）ナル遷移アーク生成ルール：現在の
単語と同一の単語が割り当てられたアークで、当該アー
クの終点となるノードのタイプが次の単語のタイプと一
致し、現在のノードから当該アークの起点となるノード
にナル遷移アークが生成可能ならば、現在のノードと当
該アークの起点となるノード間にナル遷移アークを生成
し、当該アークの終点となるノードに状態を遷移する。

【００６１】（６）新規ノード生成ルール：新たにノー
ドを一つ生成し、現在のノードとそのノードの間に現在
の単語を割り当てた通常アークを生成し、生成したノー
ドに状態を遷移する。

【００６２】次に、２種類の背景知識について簡単に説
明する。

【００６３】（１）同一視可能知識：単語時系列の識別
能力を保持しつつ、コンパクトなネットワーク表現を獲
得するためには、同一のアークに割り当てられる単語を
制限する必要がある。そこで、同一のアークに割当て可
能な単語の組合せを同一視可能知識として記述する。こ
のような単語に隣接する単語集合は、類似したものにな
ると期待できるので、単語時系列の識別能力を保持しつ
つ、コンパクトなネットワーク表現を獲得することがで
きる。また、同一視可能な単語と隣接する単語とのすべ
ての組合せを入力しなくても、単語の組合せを表現する
ことができるので、少ない単語時系列とその応答からネ
ットワーク表現を自己組織化することができる。

【００６４】（２）交換可能知識：単語の出現順序を入
れ替えた場合に、その応答が同じとなる単語時系列であ
ったとしても、基本ルールを適用するだけでは、すべて
の出現順序の組合せを入力しないと、対応するネットワ
ーク表現を自己組織化することができない。しかしなが
ら、同じ応答に対応する類似した単語時系列を、個々に
入力しなければならないとすれば、多くの単語時系列の
入力が必要となる。そこで、単語の出現順序を入れ替え
てもその応答が同じとなる単語を交換可能な単語として
記述し、交換可能な単語の組合せが単語時系列内に出現
した場合に、与えられている出現順序ばかりか、入れ替
えた出現順序をも表現するネットワーク表現を自己組織
化する。このとき、既存のネットワーク表現の中に交換
可能な単語を格納する通常アークが存在する場合には、
できるだけそのアークを利用するような自己組織化を行
う。

【００６５】次に、自己組織化フローについて簡単に説
明する。

【００６６】先の６つの基本ルールと２種類の背景知識
を利用することにより、単語時系列とその応答からネッ
トワーク表現を下記の手順にしたがって自己組織化す
る。（ステップ１）単語時系列を入力する。（ステップ２）単語時系列の中から次の単語を取り出
し、現在の単語とする。取り出せない場合には、現在の
ノードを終了ノードとして、単語時系列とその応答を割
当て、自己組織化を終了する。（ステップ３）現在の単語が直前に適用した先読みアー
ク利用ルールにより、既に利用されている場合には、ス
テップ６に進む。また、直前に適用した自己ループ生成
ルールにより、既に利用されている場合には、ステップ
２に戻る。（ステップ４）同一視可能知識を考慮して、基本ルール
を評価する。（ステップ５）条件が成立した最も上位の基本ルールを
実行する。（ステップ６）単語時系列における前出の単語を一つ取
り出す。（ステップ７）取り出す単語がない場合には、ステップ
２に戻る。（ステップ８）取り出した単語と現在の単語との間に交
換可能性が成立しない場合には、ステップ６に戻る。（ステップ９）取り出した単語と現在の単語との間で、
交換可能知識による自己組織化を行い、ステップ６に戻
る。

【００６７】この手順においては、基本ルールの判定に
同一視可能知識を適用し、単語が一致するかどうかの判
定の代わりに、単語が同一視可能かどうかの判定を行っ
ている。また、単語時系列の最初の単語に対しては、起
点となるノードを同時に決定する必要があるため、ナル
遷移に関連する基本ルールが成立する場合には、アーク
利用ルールが必ず成立する。したがって、最初の単語の
場合には、ナル遷移に関連する基本ルールを判定する必
要がない。最後に、交換可能知識に関しては、単語時系
列に現れるすべての単語の組合せに対して、検討する必
要があるので、現在の単語とそれ以前に出現しているす
べての単語との間に交換可能性が成立するかどうかを判
定し、交換可能性が成立する場合に、対応する自己組織
化を行っている。

【００６８】以上が、拡張画像オートマトンの自己組織
化法についての簡単な説明である。

【００６９】（第２の実施形態）図１３に、本発明の第
２の実施形態に係る時系列テキストデータ分析装置の構
成例を示す。図１３に示されるように、本時系列テキス
トデータ分析装置は、ドキュメント格納部１、キー概念
辞書格納部２、概念抽出部３、ドキュメント時間抽出部
４、概念時系列データ生成部５、概念時系列モデル学習
部６、概念時系列モデル格納部７、概念時系列予測部８
を備えている。

【００７０】本時系列テキストデータ分析装置は、第１
の実施形態の構成に、新たなドキュメントの系列に対し
て次に発生する状況を予測する処理等を行うための概念
時系列予測部８を付加したものである。

【００７１】本実施形態においては、モデルの自己組織
化を行う機能の部分は、第１の実施形態と同様であるの
で、以下では、第２の実施形態で付加した予測する処理
等の機能の部分について説明する。

【００７２】図１４に、本時系列テキストデータ分析装
置の処理手順の一例を示す。

【００７３】ここで、第１の実施形態で説明したような
処理によって、図１２に例示したモデルが得られ、概念
時系列モデル格納部７に格納されているものとする。

【００７４】また、予測のもとになる新たなドキュメン
ト（評価対象のドキュメント）の系列として、図１５に
例示する関連するドキュメントが、ドキュメント格納部
１に与えられているものとする。なお、ｅ１，ｅ２は、
評価対象のドキュメントの通し番号である。

【００７５】まず、ステップＳ２１においては、概念抽
出部３により、評価対象となる関連するドキュメントに
付随する時間に従って、ドキュメントを時間順に並べ
る。図１５の例においては、既に時間順にドキュメント
が与えられているので、本ステップにおいては特に何も
行われない。

【００７６】ステップＳ２２においては、概念抽出部３
により、評価対象となる関連するドキュメントの中から
ドキュメントを一つ取り出す。このとき、取り出すドキ
ュメントがなければ、ステップＳ２５に処理を進める。
また、取り出すドキュメントがあれば、ステップＳ２３
に処理を進める。

【００７７】ステップＳ２３においては、概念抽出部３
により、図２の処理手順のステップＳ１５と同様の処理
を行い、ドキュメントに対応する形態素の集合を生成す
る。

【００７８】ステップＳ２４においては、概念抽出部３
により、図２の処理手順のステップＳ１６と同様の処理
を行い、ドキュメントに対応する特徴を抽出し、ステッ
プＳ２２に処理を戻す。

【００７９】ステップＳ２５においては、概念時系列デ
ータ生成部５（とドキュメント時間抽出部４）により、
図２の処理手順のステップＳ１７と同様の処理を行い、
ドキュメントに対応する特徴と時間から時系列データを
生成する。ただし、図２のステップＳ１７においては、
時間的に最後のドキュメントを処理対象としなかった
が、このステップＳ２５においては、最後のドキュメン
トも処理対象とする。従って、ここでは、図１５の関連
するドキュメントに対して、図１６に示す時系列データ
が生成される。なお、ｘ１は、評価対象のドキュメント
から生成される時系列データの通し番号である。

【００８０】さて、ステップＳ２６においては、概念時
系列予測部８は、概念時系列モデル格納部７に格納され
ている自己組織化されたモデル（図１２参照）と、ステ
ップＳ２５で得られた時系列データ（図１６参照）をも
とにして、推論を行う。

【００８１】推論の手法としては、文献「対話タスクモ
デルのサンプル単語時系列からの自己組織化」、電子情
報通信学会Ｊ８３−Ｄ−ＩＩ、Ｎｏ．２、ｐ．８２
７−８３９（２０００年）に開示されている拡張画像オ
ートマトンの推論法に従った推論を利用することができ
る。この手法では、各時系列データを一つずつモデルに
適用することにより、各ノードが保持する時系列データ
及び時系列データに対応する評価値を更新する。

【００８２】例えば、図１６の時系列データを図１２の
モデルに順次適用していくと、すべての時系列データを
適用した段階で、ノードＮａ６にこの時系列データが伝
播し、その評価値が１．０（最大値）となる。

【００８３】ステップＳ２７においては、概念時系列予
測部８は、時系列データが何もないという特別なデータ
をモデルに適用することにより、拡張画像オートマトン
の推論法に従って、モデル内の時間を進める。また、末
端ノードにおいて、到達した時系列データ及び評価値を
評価し、評価値が高い場合に、当該末端ノードに対応す
る応答を出力する。また、概念時系列予測部８は、応答
が出力される様子を観測することにより、発生しやすい
状況を予測する。例えば、図１６の時系列データをすべ
て図１２に適用し、時間を進めると、本時系列データ
は、すべての末端ノードＮｂ１〜Ｎｂ３に到達する。こ
のとき、末端ノードＮｂ２には、末端ノードＮｂ１，Ｎ
ｂ３よりも速い時間で、時系列データが到達する。従っ
て、現状では、「受注失敗」に到達する可能性の方が高
いことがわかる。この結果、それらの予測結果をユーザ
に呈示することができる。

【００８４】なお、上記の予測において、現在の時系列
データから生じる可能性を示すだけでなく、望ましい方
向あるいは目標とする方向に進むための方法をユーザに
提示することも可能である。すなわち、ステップＳ２７
において、到達した末端ノードのうち、望ましい応答を
与える末端ノードから、隣接するアーク及びノードを辿
り、時間を遡っていくことにより、当該方向に進むため
の方法あるいは条件をユーザに提示することができる。

【００８５】なお、以上の各機能は、ソフトウェアとし
て実現可能である。また、本実施形態は、コンピュータ
に所定の手段を実行させるための（あるいはコンピュー
タを所定の手段として機能させるための、あるいはコン
ピュータに所定の機能を実現させるための）プログラム
として実施することもでき、該プログラムを記録したコ
ンピュータ読取り可能な記録媒体として実施することも
できる。

【００８６】なお、この発明の実施の形態で例示した構
成は一例であって、それ以外の構成を排除する趣旨のも
のではなく、例示した構成の一部を他のもので置き換え
たり、例示した構成の一部を省いたり、例示した構成に
別の機能あるいは要素を付加したり、それらを組み合わ
せたりすることなどによって得られる別の構成も可能で
ある。また、例示した構成と論理的に等価な別の構成、
例示した構成と論理的に等価な部分を含む別の構成、例
示した構成の要部と論理的に等価な別の構成なども可能
である。また、例示した構成と同一もしくは類似の目的
を達成する別の構成、例示した構成と同一もしくは類似
の効果を奏する別の構成なども可能である。また、この
発明の実施の形態で例示した各種構成部分についての各
種バリエーションは、適宜組み合わせて実施することが
可能である。また、この発明の実施の形態は、装置全体
としての発明、装置内部の構成部分についての発明、ま
たはそれらに対応する方法の発明等、種々の観点、段
階、概念またはカテゴリに係る発明を包含・内在するも
のである。従って、この発明の実施の形態に開示した内
容からは、例示した構成に限定されることなく発明を抽
出することができるものである。

【００８７】本発明は、上述した実施の形態に限定され
るものではなく、その技術的範囲において種々変形して
実施することができる。

【００８８】

【発明の効果】本発明によれば、蓄積されたテキストデ
ータ及び時間情報を含むドキュメントの集合から、規則
性をモデル化するためのもととなる、単語（概念）時系
列モデルを生成することが可能になる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る時系列テキストデー
タ分析装置の構成例を示す図

【図２】同実施形態に係る時系列テキストデータ分析装
置の処理手順の一例を示すフローチャート

【図３】ドキュメント格納部に格納されているドキュメ
ントの一例を示す図

【図４】ドキュメント格納部に格納されているドキュメ
ント集合から抽出されたＣ１社かつＭ１氏に関連するド
キュメント部分集合の一例を示す図

【図５】ドキュメント格納部に格納されているドキュメ
ント集合から抽出されたＣ２社かつＭ２氏に関連するド
キュメント部分集合の一例を示す図

【図６】ドキュメント格納部に格納されているドキュメ
ント集合から抽出されたＣ３社かつＭ１氏に関連するド
キュメント部分集合の一例を示す図

【図７】ドキュメント格納部に格納されているドキュメ
ント集合から抽出されたＣ４社かつＭ２氏に関連するド
キュメント部分集合の一例を示す図

【図８】図４のドキュメント部分集合に含まれる各ドキ
ュメントの本文を形態素解析した結果の一例を示す図

【図９】キー概念辞書格納部に格納されるキー概念辞書
の一例を示す図

【図１０】図８の形態素解析結果を図９のキー概念定義
辞書に適用することにより生成される特徴量の集合の一
例を示す図

【図１１】ドキュメント格納部に格納されるドキュメン
トに対して生成される時系列データと分類クラスの組の
一例を示す図

【図１２】自己組織化されたモデルの一例を示す図

【図１３】同実施形態に係る時系列テキストデータ分析
装置の他の構成例を示す図

【図１４】同実施形態に係る時系列テキストデータ分析
装置の自己組織化されたモデルに基づいて一連の新たな
ドキュメントから生じる結果を予測する処理手順の一例
を示すフローチャート

【図１５】評価対象となる関連するドキュメントの一例
を示す図

【図１６】図１５の関連するドキュメントから生成され
る時系列データの一例を示す図

【符号の説明】

１…ドキュメント格納部２…キー概念辞書格納部３…概念抽出部４…ドキュメント時間抽出部５…概念時系列データ生成部６…概念時系列モデル学習部７…概念時系列モデル格納部８…概念時系列予測部

Claims

【特許請求の範囲】

【請求項１】テキストデータ及び時間情報を含むドキュ
メントの集合を格納するためのドキュメント格納手段
と、前記ドキュメントのテキストデータが有する可能性のあ
るキー概念を含むキー概念辞書を格納するためのキー概
念辞書格納手段と、所定の基準に従って、前記ドキュメント格納手段に蓄積
された前記ドキュメントの集合から、互いに関連する複
数のドキュメントからなる部分集合を選択するための選
択手段と、前記キー概念辞書に基づいて、選択された前記部分集合
に属する複数のドキュメントの各々から、キー概念の集
合を抽出するための第１の抽出手段と、選択された前記部分集合に属する複数のドキュメントの
各々から、前記時間情報を抽出するための第２の抽出手
段と、前記部分集合に属する複数のドキュメントの各々から抽
出された前記キー概念の集合及び該複数のドキュメント
の各々に含まれる前記時間情報に基づいて、キー概念を
時系列的に並べた概念時系列データを生成するための概
念時系列データ生成手段とを備えたことを特徴とするデ
ータ分析装置。
【請求項２】前記キー概念辞書は、表層表現とキー概念
との対応を示す情報を含み、前記第１の抽出手段は、前記ドキュメントの形態素解析
結果と、前記キー概念辞書の表層表現を比較して、該表
層表現に対応する前記キー概念を抽出することを特徴と
する請求項１に記載のデータ分析装置。
【請求項３】前記ドキュメントは、時間情報以外の１又
は複数の属性情報を含み、前記選択手段は、外部から指定された１又は複数の前記
属性情報に基づいて、前記ドキュメント格納手段に蓄積
された前記ドキュメントの集合から、互いに関連する複
数のドキュメントからなる部分集合を選択することを特
徴とする請求項１に記載のデータ分析装置。
【請求項４】前記ドキュメントは、時間情報以外の１又
は複数の属性情報を含み、前記選択手段は、前記属性情報の全部又は一部にクラス
タリングを適用した結果に基づいて、前記ドキュメント
格納手段に蓄積された前記ドキュメントの集合から、互
いに関連する複数のドキュメントからなる部分集合を選
択することを特徴とする請求項１に記載のデータ分析装
置。
【請求項５】前記概念時系列データは、そのもととなっ
た前記部分集合において時間的に最も遅い時間情報を持
つ前記ドキュメントから抽出された前記キー概念を、該
概念時系列データに対応する分類クラスとして保持する
ものであることを特徴とする請求項１に記載のデータ分
析装置。
【請求項６】前記時間情報は、前記ドキュメントが作成
された日付又は日付及び時刻を示すものであることを特
徴とする請求項１ないし５のいずれか１項に記載のデー
タ分析装置。
【請求項７】前記時間情報は、前記ドキュメントに含ま
れる前記テキストデータの内容に関係する日付又は日付
及び時刻を示すものであることを特徴とする請求項１な
いし５のいずれか１項に記載のデータ分析装置。
【請求項８】複数の前記ドキュメントから抽出された、
複数の前記概念時系列データをもとにして、少なくとも
キー概念間の遷移関係を示すモデルを生成するためのモ
デル生成手段を更に備えたことを特徴とする請求項１な
いし７のいずれか１項に記載のデータ分析装置。
【請求項９】予測対象とする複数の前記ドキュメントか
ら生成した前記概念時系列データに前記モデルを適用し
て、該概念時系列データの持つ時間情報より後に発生す
ると予測されるキー概念を抽出するための予測手段を更
に備えたことを特徴とする請求項８に記載のデータ分析
装置。
【請求項１０】前記予測手段は、前記発生すると予測さ
れるキー概念が複数存在し、そのうちに目標とするキー
概念と、それ以外のキー概念とが存在する場合に、目標
とするキー概念に到達するための条件を抽出することを
特徴とする請求項９に記載のデータ分析装置。
【請求項１１】テキストデータ及び時間情報を含むドキ
ュメントの集合をドキュメント格納手段に格納し、所定の基準に従って、前記ドキュメント格納手段に蓄積
された前記ドキュメントの集合から、互いに関連する複
数のドキュメントからなる部分集合を選択し、選択された前記部分集合に属する複数のドキュメントの
各々から、ドキュメントのテキストデータが有する可能
性のあるキー概念を含むキー概念辞書に基づいて、キー
概念の集合を抽出するとともに、該ドキュメントに含ま
れる前記時間情報をそれぞれ抽出し、前記部分集合に属する複数のドキュメントの各々から抽
出された前記キー概念の集合及び該複数のドキュメント
の各々に含まれる前記時間情報に基づいて、キー概念を
時系列的に並べた概念時系列データを生成することを特
徴とするデータ分析方法。
【請求項１２】テキストデータ及び時間情報を含むドキ
ュメントの集合を格納するためのドキュメント格納機能
と、前記ドキュメントのテキストデータが有する可能性のあ
るキー概念を含むキー概念辞書を格納するためのキー概
念辞書格納機能と、所定の基準に従って、前記ドキュメント格納機能に蓄積
された前記ドキュメントの集合から、互いに関連する複
数のドキュメントからなる部分集合を選択するための選
択機能と、前記キー概念辞書に基づいて、選択された前記部分集合
に属する複数のドキュメントの各々から、キー概念の集
合を抽出するための第１の抽出機能と、選択された前記部分集合に属する複数のドキュメントの
各々から、前記時間情報を抽出するための第２の抽出機
能と、前記部分集合に属する複数のドキュメントの各々から抽
出された前記キー概念の集合及び該複数のドキュメント
の各々に含まれる前記時間情報に基づいて、キー概念を
時系列的に並べた概念時系列データを生成するための概
念時系列データ生成機能とをコンピュータに実現させる
ためのプログラム。