JP6206840B2

JP6206840B2 - テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム

Info

Publication number: JP6206840B2
Application number: JP2013128454A
Authority: JP
Inventors: 大樹佐野; イシュトヴァーンヴァルガ; 健太郎鳥澤; 力橋本; 清敬大竹; 剛巨河合; 鍾勲呉; デサーガステイン
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2013-06-19
Filing date: 2013-06-19
Publication date: 2017-10-04
Anticipated expiration: 2033-06-19
Also published as: EP3012746A1; US20160140217A1; CN105339936A; JP2015005027A; US10803103B2; KR20160021110A; WO2014203659A1; KR102188292B1; CN105339936B; EP3012746A4

Description

この発明は、インターネット等のネットワーク上の情報を整理してユーザに提示するための技術に関し、特に、ネットワーク上の様々なシステムで投稿される情報の間でのマッチングをとり、何らかの情報を必要としているユーザに、必要とされる情報を効率よく提供するシステムに関する。

インターネットが普及し、その上で様々なシステムが動いている。例えばインターネット上では、ウェブページ及びブログ等だけでなく、Twitter、Facebook、LinkedIn等のいわゆるソーシャルネットワークサービス（ＳＮＳ）の利用が特に進んでいる。こうしたシステムは、ユーザ間の情報交換等に用いられており、インターネットの普及前には考えられなかったような情報の流通を可能にしている。このようなシステム上には、常時膨大な情報が流れており、ある個人がある問題に対する回答を捜そうとしているときに、その回答が存在している可能性は極めて高い。しかし、大量の情報の中から自分が探す情報を見出すのは不可能である。

こうした需要を満たすことを目的としているサービスに、いわゆる情報検索サービスがある。典型的な情報検索サービスでは、常時、インターネット上から大量の情報を収集し、データベース化してインデックスを付加しておく。何らかの情報検索要求（例えばキーワードを指定した情報検索要求）を受信すると、これらサービスを提供するサイトのコンピュータ（群）は、キーワードを用いたインデックス検索により関連情報を検索し、情報検索技術に基づいて定義されたスコア（検索要求に対する回答の的確さを表す数値）を付して、そのスコアの降順で検索の要求者にデータを返信する。この情報は、キーワードによる検索要求に対する回答として適切と思われる順番でユーザに提供される。その結果、ユーザは、こうした情報検索サービスに接続して検索をすれば、ある程度、自分の必要とする情報を入手できる。

ところが、ネットワーク上には大量の情報があふれているため、ユーザが情報検索をする際には、求める情報を捜すのが極めて困難な場合が多いという問題がある。例えば、表示される項目が多く、ユーザが必要としない情報が上位に表示された場合には、ユーザは適切なキーワードを追加したり、キーワードを変更したり、検索条件を変更したりして検索結果を絞り込む必要がある。しかし元になる情報が多すぎる場合、的確な情報を探し出せるようなキーワードを探すことは困難である。

しかし、インターネット上には、ある問題に対する解決策、ある支援情報に対して、それを必要としている人の要望に関する記載（これを以下「要望連絡」と呼ぶ。）等が存在している可能性は極めて高い。例えば、「妹がアトピーに困っています」という問題についての報告をあるユーザがブログ等に記載し、発信した場合を考える。このように、問題について報告する記載を、以下、「問題報告」と呼ぶ。ウェブ上には、こうした問題報告に対して、「甜茶がアトピーに効くという説明を、近所の医者から聞きました」等といった、問題を解決するために有用な情報が存在することは間違いない。以下、こうした情報を「支援情報」と呼ぶ。また、「コンピュータのあるＯＳ上で動くアプリケーションＸが強制的に閉じられてしまい困っています。強制的に閉じられない方法を教えてください。」というように、何かを要望する記載（以下、こうした記載を「要望連絡」と呼ぶ。）が発信された場合に、「ソフトａを使うと、アプリケーションＸが落ちないです。」というような解決策がウェブ上に存在することもほぼ間違いないと思われる。しかし、前述したとおり、インターネット上には情報があふれているため、ユーザが自分の求める情報を的確に入手することは極めてむずかしい。こうした問題は、インターネット上の情報が多くなるほど大きくなるし、ユーザが求める情報がより詳細なものになるほど解決が難しくなる。

こうした問題が特に顕在化するのは、災害時である。現在では、災害時には大量の情報がインターネット上に発生する。電話が使えなくなる可能性も高い。そのために、人及び組織間のコミュニケーションには大きな困難が発生する。

災害時に最も問題となるのは、いかにして早期に被災者を支援するかということと、被災者の必要としている支援と、支援グループ等が提供する支援とを持続的に効率よくマッチングさせることである。被災者と支援団体等との間でのコミュニケーションが円滑にいけば、被災者に対する支援が迅速に行なえる可能性がある。しかし、前述のように災害時には被災者と支援団体等とのコミュニケーションは極端に難しくなる。時間がたつとさらに情報の数が多くなり、必要な情報を見出すことは困難になる。そのために、何らかの支援を必要とする被災者のもとに適切な支援物資を適時に届けることができないケースが考えられる。

例えば、２０１１年３月の東日本大震災では、ウェブ及びＳＮＳ等を介して、「○○市でアレルギー体質の幼児用粉ミルクが不足しています」という問題報告、「○○市にアレルギー体質の幼児用粉ミルクを送ってください」という要望連絡等が被災者から多数発信された。しかし、これら情報は、震災とともに発生した大量の情報に埋没し、その多くは支援を提供できる行政機関、支援団体、ボランティア等に認識されなかった。一方で、行政機関、支援団体及びボランティアらも、「○○市にアレルギー体質の子供のための粉ミルクを二千個届けました」という支援情報を発信していたが、その大部分は情報を必要としている被災者には届かなかった。行政機関、支援団体又はボランティア等が被災者からの問題及び要望を認識することに成功した場合でも、複数の組織が同じ問題及び要望に対応した結果、一箇所に必要以上の支援物資が集中してしまい、支援物資及び時間を浪費するだけでなく、支援物資の保管が困難になったりするという問題も発生した。本来、必要量が被災者のもとに送られておれば、それ以外の支援物資は他の被災者に送られるべきである。こうした問題は、いずれも、実際に救援を必要としている人たちと、支援しようとする人たちとのコミュニケーションがうまく行なわれなかったことに起因していると考えられる。

ただし、こうした問題は、災害時に限らず日常的に発生し得る。例えばコンピュータに関するある問題に対する回答を探したり、アトピーに対する対策を探したりする場合でも、いわゆる検索サービスサイトで回答を探すことも可能である。しかし検索サイトで検索できる情報は、問題に対する回答だけでなく、それ以外の大量の情報を含んでいる。したがって、特定の問題に対する回答を探しているユーザ、特に適切な回答を早期に発見することが重要であるユーザにとって、検索サイトは決して使いやすいものではない。

逆に、ある問題に対して自分が解決した結果を提供しようとするユーザが、その回答を必要としているユーザに適時に回答を与えることもまた難しい。たまたま別のユーザがある問題に対する回答を求めていることがわかっており、しかも自分がその問題に対する回答を知っていれば、そのユーザに回答を連絡することは難しいことではない。しかし、インターネットのように多数のユーザが多数の情報を発信している場では、そのようなことはまれである。有用な情報を適時に適切な人又は組織に連絡するための仕組みが求められている。そのためには、問題報告、要望連絡及び支援情報を収集し、適切にマッチングさせる技術が必要である。

Aron Culotta. 2012. Lightweight methods to estimate influenza rates and alcohol sales volume from twitter messages. Language Resources and Evaluation, pages 1-22. Sarah Vieweg, Amanda L. Hughes, Kate Starbird, and Leysia Palen. 2010. Microblogging during two natural hazards events: what twitter may contribute to situational awareness. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, CHI ’10, pages 1079-1088, New York, NY, USA. ACM. Andrew B. Goldberg, Nathanael Fillmore, David Andrzejewski Zhiting Xu, Bryan Gibson and Xiaojin Zhu 2009. May All Your Wishes Come True: A Study of Wishes and How to Recognize Them. In Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the ACL, pages 263-271, Boulder, Colorado, USA. ACM. Hiroshi Kanayama and Tetsuya Nasukawa. 2008. Textual demand analysis: Detection of users’ wants and needs from opinions. In Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 409-416, Manchester, UK, August. Coling 2008 Organizing Committee. Robert Munro. 2011. Subword and spatiotemporal models for identifying actionable information in Haitian Kreyol. In Proceedings of the Fifteenth Conference on Computational Natural Language Learning, pages 68-77, Portland, Oregon. ACM.

問題報告を特定し収拾するという技術に関し、ＳＮＳに投稿されるメッセージの中で、インフルエンザの流行に関する問題報告を特定し、収集する技術として、前掲の非特許文献１に開示されたものがある。また、ＳＮＳに投稿されるメッセージの中で、山火事に関する問題報告を特定し収集する技術として、前掲の非特許文献２に開示されたものがある。しかしこれらには以下のような問題がある。

先行技術は、特定の災害（例:山火事）又は感染病（例:インフルエンザ）等、対象を限定して問題報告を特定・収集する。しかし、特に災害等では、一つの問題から想定外の問題へと発展していく場合も多い。例えば、東日本大震災では、地震が津波及び原発事故へと発展した。さらに、放出された放射能への対策として部屋を閉め切り換気を怠ったことで、一酸化炭素中毒が発生するという問題が生じた。すなわち、特定の範疇に限って問題報告を収集するだけでは不十分で、そうした制約なしに問題報告の特定・収集を行なうようにする必要がある。それが可能であれば、特定の範疇の問題だけでなく、その問題から派生する二次的な問題までをも特定・収集できる。

要望連絡を特定し収集する技術に関し、教師あり学習でメッセージの分類器を作成し、要望連絡を特定し収集するものが前掲の非特許文献３に開示されている。同様に、教師なし学習で分類器を作成して要望連絡を特定し収集するものが前掲の非特許文献４に開示されている。これら手法はいわゆる機械学習の手法を用いたものである。

これらの分類器では、一般的な素性として要望テンプレート又は要求マーカとよばれる表現のリスト（例:I wish …、 Please …、〜ほしい、〜ください）を利用しており、そうした表現に合致する又は類似する情報でなければ収集できないという問題がある。したがって、これらとは別の、要望を特定するのに貢献する新しい素性の発見が課題である。

さらに、要望連絡と支援情報とを収集する技術として、前掲の非特許文献５に開示されたものがある。しかしこの技術では、要望連絡と支援情報とを区別せずに収集している。現実の要求として問題連絡と支援情報又は要望連絡と支援情報の自動マッチングを行なおうとする場合、要望連絡と支援情報との区別は必須であり、先行技術だけでは達成できない。

さらに、問題報告と、その問題報告で報告された問題を解決するような支援情報とをネットワーク上で収集し、自動的にマッチングしたり、要望連絡と、その要望連絡に係る要望を充足させるような支援情報とを自動的にネットワーク上で収集しマッチングしたりする技術は、現在のところ見出すことはできない。問題連絡と支援情報とをマッチングさせるためには、問題連絡にある表現に基づいて、どのような支援情報が必要になるかを特定する技術、又は、支援情報にある表現からどのような問題連絡に対応するものかを特定する技術が必要である。これを自動で行なうことはこれまで困難な課題と考えられてきた。

したがって本発明の目的は、一般的な問題報告、要望連絡及びそれらにより報告される問題を解決したり、要望を充足させたりする支援情報等のように、あるカテゴリに属する情報を自動的に、かつ信頼性高く収集し、適切にかつ適時にそれら情報をマッチングできるテキストマッチング装置及びテキスト分類装置を提供することである。

本発明の第１の局面に係るテキストマッチング装置は、第１及び第２のカテゴリのいずれかに分類されたテキストの集合において、第１のカテゴリのテキストに対して、第２のカテゴリのテキストを対応付ける。集合に含まれるテキストは、当該テキストを構成する１又は複数の形態素、当該１又は複数の形態素の係り受け情報、及び、テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核内に含まれる名詞の分類と述部の分類との組合せとを素性として用いた機械学習を用いたテキスト分類装置により第１及び第２のカテゴリに分類されている。このテキストマッチング装置は、第１のカテゴリのテキストと、第２のテキストとを互いに区別して記憶する記憶手段と、記憶手段から、第１のカテゴリのテキストと第２のカテゴリのテキストとからなるテキストのペアを生成するテキストペア生成手段と、テキストペア生成手段により生成されたペア内のテキストがテキスト分類装置により分類されたときの素性を含むマッチング用の素性を、ペアから生成するマッチング用素性生成手段と、マッチング用素性生成手段により生成されたマッチング用素性を用いて、ペアを構成する２つのテキストが互いにマッチするか否かを判定するマッチング手段とを含む。マッチング手段は、予めマッチング用の学習データを用い、マッチング素性により、テキストのペアがマッチするか否かを判定するように学習済の、機械学習モデルを含む。

好ましくは、マッチング用素性はさらに、ペア内のテキストの各々について求められた、核内の名詞を含む係り受け関係の部分木上のｎ−グラムを含む。当該ｎ−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含む。

より好ましくは、第１及び第２のカテゴリの一方は問題の報告を表すテキストからなるカテゴリであり、他方は問題を解決するための支援情報を表すテキストからなるカテゴリである。

第１及び第２のカテゴリの一方は問題の解決を要望するテキストであり、他方は問題を解決するための支援情報を表すテキストであってもよい。

本発明の第２の局面に係るテキスト分類装置は、第１の局面に係るテキストマッチング装置とともに好適に用いられ、テキストを、問題の報告又は解決に関連する特定のカテゴリに分類するための装置である。この装置は、テキストを形態素解析し、品詞情報が付された形態素列を出力する形態素解析手段と、形態素解析手段の出力する形態素列に対し、形態素間の係り受けを解析し、テキストの係り受け関係を表す係り受け情報を出力する係り受け解析手段と、形態素列と、テキストの係り受け関係とに基づいて、テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定し、当該核内の名詞の分類と述部の分類との組合せを用いて、テキストを特定のカテゴリとそれ以外のカテゴリとに分類する分類手段を含む。

好ましくは、分類手段は、形態素列と、テキストの係り受け関係とに基づいて、テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定する核特定手段と、核特定手段により特定された核内の名詞を、問題の発生に関連した問題系の名詞と、問題の発生と関連しない非問題系の名詞とに分類する名詞分類手段と、核特定手段により特定された核内の述部を、その述部に係る名詞により表される事物機能が活性化することを表す述部か、不活性化することを表す述部かに分類する述部分類手段と、核特定手段により特定された核について、当該核内の名詞について名詞分類手段により分類された結果と、当該核内で当該名詞が係る述部について述部分類手段により分類された結果との組合せから、テキストを特定のカテゴリとそれ以外のカテゴリとに分類する手段とを含む。

より好ましくは、分類する手段は、少なくとも、核特定手段により特定された核について、当該核内の名詞について名詞分類手段が分類した結果と、当該核内で当該名詞が係る述部について述部分類手段が分類した結果との組合せを表す情報を素性として、与えられたテキストが特定のカテゴリに属するか否かを判定する、機械学習による判定手段を含む。

素性はさらに、テキストの各々について求められた、核内の名詞を含む係り受け関係の部分木上のｎ−グラムを含み、当該ｎ−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含むようにしてもよい。

本発明の第３の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかのテキスト分類装置又はテキストマッチング装置の全ての手段として機能させる。

本発明の一実施の形態に係る問題報告・支援情報マッチングシステムのブロック図である。図１に示す問題報告収集装置の構成を簡略化して示すブロック図である。図１に示す問題報告・支援情報マッチング装置の構成を簡略化して示すブロック図である。マッチング情報を用いる問題・要望・支援情報マッチングシステムの入力画面の一例を示す模式図である。問題・要望・支援情報マッチングシステムの出力画面の一例を示す図である。問題・要望・支援情報マッチングシステムにおいて、入力とマッチする情報を探索するプログラムの一例の制御構造を示すフローチャートである。本発明の実施の形態に示すシステムを実現するコンピュータシステムの概観図である。図７に示すコンピュータシステムのハードウェア構成を示すブロック図である。

以下に説明する実施の形態の説明及び図面では、同じ部品には同じ参照符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰返さない。

［基本的考え方］
最初に、問題報告、要望連絡及び支援情報という３つのカテゴリに属するテキストを特定・収集するための核構成マトリックス手法（テーブル１）について説明し、続いて、その作用と効果について説明する。次に、問題報告と支援情報のマッチング・要望連絡と支援情報のマッチングのために開発した共起対マトリックス手法（テーブル２）について説明した後、その作用・効果について述べる。なお、以下では、問題報告というカテゴリに属するテキスト、要望連絡というカテゴリに属するテキスト及び支援情報というカテゴリに属するテキストを、それぞれ問題報告、要望連絡及び支援情報と呼ぶことがある。

＜核構成マトリックス手法＞

本実施の形態では、問題報告、要望連絡、支援情報の特定・収集のために、核構成マトリックス手法と呼ばれる新規な方法を用いる。テーブル１を参照して、この手法は、テキストに表現されている名詞と述部との係り受け関係を、名詞の分類と述部の極性の組合せによって細分化する。ここでは、名詞はトラブル表現と非トラブル表現に、述部の極性は活性と非活性とに分類する。この極性にしたがい、各述部を活性テンプレートと非活性テンプレートとに分類する。

トラブル表現とは、問題又は負担を表す名詞のことをいう。例えば、「故障」、「インフルエンザ」、「間違い」、「ヘドロ」、「インフルエンザ」、「アトピー」等が該当する。非トラブル表現とは、「お風呂」、「医療品」、「食料」等、一般的には、問題又は負担を表さない表現である。

活性テンプレートとは、変数Ｘを含む表現パターンで、変数Ｘにより表される事物の機能等が「オン」になること（機能等が活性化すること）を示す助詞と述部との組合せのことをいう。例えば「Ｘを引き起こす」、「Ｘを使う」、「Ｘを買う」、「Ｘを進行させる」、「Ｘを輸入する」、「Ｘが増える」等が該当する。これらはいずれもＸにより表されるものの機能が発揮されるような表現である。

不活性テンプレートとは、変数Ｘを含む表現パターンで、変数Ｘにより表される事物の機能等が「オフ」になること（機能等が不活性化すること）を示すもののことをいう。例えば「Ｘを防ぐ」、「Ｘを捨てる」、「Ｘが減る」、「Ｘを破壊する」、「Ｘが不可能になる」が該当する。

本明細書では、活性と不活性とをまとめて「極性」と呼ぶ。

このように核構成マトリックス手法では名詞と述部とをそれぞれ２つに分類した。その結果、４つの分類が得られる。これら４つの分類に細分化される係り受け関係は、以下の４タイプである。

（Ａ）問題核（１）
問題核（１）とは、名詞＋述部のうち、名詞＝トラブル表現、かつ、述部＝活性テンプレートの係り受け表現のことをいう。例えば、「ヘドロが蓄積する」(ヘドロ＝トラブル表現、Ｘが蓄積する＝活性テンプレート)等が該当する。問題核（１）に該当する係り受け関係は、トラブル表現に該当する問題や負担の機能がオンになることをあらわし、問題が存在すること、影響を及ぼすこと等を示す傾向がある。

（Ｂ）問題核（２）
問題核（２）とは、名詞が非トラブル表現で、かつ、述部が不活性テンプレートの係り受け関係のことをいう。例えば、「お風呂に困る」(お風呂＝非トラブル表現、Ｘに困る＝不活性テンプレート)等が該当する。災害時、断水又は停電のためにお風呂に入れないことが問題となっていたが、そのような場合に発生する可能性の高い表現である。問題核（２）に該当する係り受け関係は、非トラブル表現に該当する事象の機能がオフになることをあらわし、対処又は支援行為等が機能していないこと等を示す傾向がある。

（Ｃ）支援核（１）
支援核（１）とは、名詞がトラブル表現で、述部が不活性テンプレートの係り受け関係のことをいう。例えば、「ヘドロを除去する」(ヘドロ＝トラブル表現、Ｘを除去する＝不活性テンプレート)等が該当する。支援核（１）に該当する係り受け関係は、トラブル表現に該当する問題又は負担の機能がオフになることをあらわすことで問題の解決又は弱体化等を示す傾向がある。

（Ｄ）支援核（２）
支援核は、名詞が非トラブル表現で、述部が活性テンプレートの係り受け関係のことをいう。例えば、「お風呂を開放する」(お風呂＝非トラブル表現、Ｘを開放する＝活性テンプレート)等が該当する。支援核（２）に該当する係り受け関係は、非トラブル表現に該当する事象の機能がオンになることをあらわし、対処又は支援行為等が実行又は準備されていること等を示す傾向がある。

本実施の形態では、支援核に要求マーカが付与されたものを要望核とする。要求マーカは、先行技術のうち、要望事項の収集に使用されているものと同様のものである。要望核には以下の２タイプがある。

（Ｅ）要望核（１）
要望核（１）は、支援核（１）に要求マーカが付与されたものをいう。例えば「ヘドロを片付けてください」（ヘドロ＝トラブル表現、Ｘを片付ける＝不活性テンプレート、ください＝要求マーカ）等が該当する。このタイプに該当する係り受け関係は、トラブル表現に該当する問題や負担の機能がオフになることを要求するもので、問題の解決や弱体化等に対する要望を示す傾向がある。

（Ｆ）要望核（２）
要望核（２）は、支援核（２）に要求マーカが付与されたものをいう。例えば「お風呂を提供してほしい」（お風呂＝非トラブル表現、Ｘを提供する＝活性テンプレート、ほしい＝要求マーカ）等が該当する。このタイプに該当する係り受け関係は、非トラブル表現に該当する事象の機能がオンになることを要求するもので、対処又は支援行為等の実行又は準備に対する要望を示す傾向がある。

本実施の形態では、これら６タイプの核を用いることで、問題報告・要望連絡・支援情報の特定、収集の性能を向上させる。より具体的には、文の核（名詞＋述部）がこれらのタイプのいずれであるかの情報を、インターネット上の各種のメッセージを分類するための分類器を学習させるための素性として用いる。以下、具体的に説明する。

〈問題核の作用と効果〉
問題報告には、２つの問題核のいずれかが含まれる傾向が認められる。例えば、「〇〇市でアレルギー用の粉ミルクが足りないとのことです。」という問題報告には、問題核（１）に該当する表現が含まれている。そこで、分類器の素性として、テキスト中に問題核が有るか無いかを分類器の素性として利用する。後述する実験によれば、この素性を利用した場合、利用しない場合と比較して問題報告の特定・収集の性能が向上することが明らかとなった。

〈支援核の作用と効果〉
支援情報には、２つの支援核のいずれかが含まれる傾向が認められる。例えば、「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報は、「粉ミルクを配布する」（粉ミルク＝非トラブル、Ｘを配布する＝活性テンプレート）という支援核に該当する表現を含む。そこで、本実施の形態では、分類器の素性として、テキスト中に支援核が有るか無いかを利用する。後述するように、この素性を利用した場合には、しない場合と比較して、支援情報の特定・収集の性能が向上することが実験の結果明らかになった。

〈要望核の作用と効果〉
要望連絡には、２つの要望核のいずれかが含まれる傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクを届けてください！」という要望連絡は、「粉ミルクを届けてください」（粉ミルク＝非トラブル、Ｘを届ける＝活性テンプレート、ください＝要求マーカ）という要望核（２）に該当する表現を含む。そこで、本実施の形態では、分類器の素性として、テキスト中に要望核が有るか無いかを利用する。この素性を利用した場合には、しない場合と比較して、要望連絡の特定・収集の性能が向上することが実験の結果明らかになった。

＜共起対マトリックス手法＞
本実施の形態では、問題報告と支援情報とのマッチング及び要望連絡と支援情報とのマッチングのために、「共起対マトリックス手法」と呼ぶ新規な手法を用いる。この手法は、例えば問題報告に含まれる問題核と支援情報に含まれる支援核とが同じ名詞を共有する場合に、その問題報告と支援情報とからなるペアに対して適用できる。要望連絡と支援情報とのペアの場合も同様である。この手法は、これらペアの種類を、それらに含まれる核の分類と、述部の極性とによって細分化する。共起対マトリックス手法において、核の種類と、核に含まれる述部の極性とによる分類をマトリックス化したものを次のテーブル２に示す。

共起対マトリックス手法で細分化されるペアは、以下の２タイプである。

（１）問題核‐支援核ペア
核の種類が問題核と支援核ペアで、かつ、述部の極性が問題核と支援核で反対となるペアのことをいう。すなわち、問題核（１）と支援核（１）のペアか、問題核（２）と支援核（２）のペアが該当する。核が他の関係となるペアは該当しない。問題‐支援核ペアの例は以下のテーブル３に示す通りである。それぞれの核は同じ名詞を共有することが前提である。

（２）要望核‐支援核ペア
核の種類が要望核と支援核ペアで、かつ、述部の極性が要望核と支援核で同じペアのことをいう。すなわち、要望核（１）と支援核（１）とのペアか、要望核（２）と支援核（２）とのペアが該当する。核が他の関係となるペアは該当しない。要望核‐支援ペアの例は以下のテーブル４に示す通りである。この場合も、それぞれの核が同じ名詞を共有することが前提である。

問題核と支援核のペア及び要望核と支援核とのペアの各々を上記したように２タイプに分類する。この分類を素性として用いることで、問題報告と支援情報とのマッチング及び要望連絡と支援情報とのマッチングの精度を向上させることができる。

〈問題核‐支援核ペアの作用と効果〉
問題報告と支援情報とが適切にマッチできる場合は、これら情報の組合せが問題核‐支援核ペアを含む傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクが足りないとのことです」という問題報告と「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報とは、前者の問題が後者の支援情報によって解決する、又は、後者の情報が前者の問題解決に貢献する、という意味で適切なマッチングと考えられる。このペアには、「粉ミルクが足りない⇔粉ミルクを配布する」という問題核‐支援核ペアに該当する表現が含まれている。そこで、本実施の形態では、分類器の素性として、問題報告と支援情報のペアに問題核‐支援核ペアが有るか無いかを利用する。後述するように、この素性を利用した場合には、利用しない場合と比較して適切な問題要望‐支援情報ペアをマッチングできる性能が向上することが実験の結果明らかになった。

〈要望核‐支援核ペアの作用と効果〉
要望報告と支援情報が適切にマッチできる場合は、これら情報の組合せが要望核‐支援核ペアを含む傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクを届けてください！」という要望連絡と「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報とは、前者の要望が、後者の支援情報によって解決する、又は、後者の情報が前者の問題の解決に貢献する、という意味で適切なマッチングと考えられる。これらの情報の組合せは、「粉ミルクを届けてください⇔粉ミルクを配布する」という要望核‐支援核ペアに該当する表現を含む。そこで、以下に述べる実施の形態では、分類器の素性として、要望報告と支援情報とのペアに要望核‐支援核ペアが有るか無いかを利用する。この素性を利用した場合には、利用しない場合と比較して適切な要望連絡‐支援情報ペアをマッチングできる性能が向上することが実験の結果明らかになった。

［システムの構成］
図１を参照して、この実施の形態に係る情報マッチングシステム３０は、インターネット４０から、問題報告、要望連絡及び支援情報を含む様々な情報（以下これらを「メッセージ」と呼ぶ。）を収集し、後続する情報処理に適した形式に整形する情報収集部５０と、情報収集部５０により収集され整形されたメッセージに対して形態素解析を行なって、品詞等の情報が付与された形態素列の形式で出力する形態素解析部５２と、形態素解析部５２が出力する形態素解析後のメッセージに対して係り受け解析を行ない、形態素間の係り受け関係をメッセージに付与して出力する係り受け解析部５４と、係り受け解析部５４により係り受け関係が付与されたメッセージの出所である地名又は場所名を特定し、各メッセージに付与する地名・場所特定部５８と、地名・場所特定部５８がメッセージの出所を特定するために利用する地名・場所辞書を記憶する地名・場所辞書記憶装置５６とを含む。携帯電話等から発信されるＴｗｉｔｔｅｒ等のメッセージには、地名ではなくその発信地の緯度・経度情報が付与されることがある。地名・場所特定部５８は、そのような緯度・経度情報から地名・場所名を特定する機能も持っている。

情報マッチングシステム３０はさらに、情報収集部５０により収集され、形態素解析部５２、係り受け解析部５４及び地名・場所特定部５８により処理されたメッセージを蓄積する情報蓄積部６０と、処理対象の情報を分類するための機械学習モデルによる判定に用いる複数種類の素性を算出するために必要な情報（分類用素性の生成用データ）を格納する記憶装置６２とを含む。

情報マッチングシステム３０はさらに、記憶装置６２に記憶されたデータを用い、情報蓄積部６０に蓄積されたメッセージの各々について素性を算出し、同じ素性を用いて学習済の機械学習モデルを用いて、メッセージを問題報告というカテゴリに属するテキストとそれ以外のテキストとに分類して問題報告のテキストを収集する問題報告収集装置６４と、問題報告収集装置６４により収集された問題報告を蓄積する問題報告蓄積部７０と、記憶装置６２に記憶されたデータを用いて情報蓄積部６０に蓄積されたメッセージの各々について所定の素性を算出し、予め学習データにより学習済の機械学習モデルを用いることによりメッセージを支援情報というカテゴリに属するテキストとそれ以外のテキストとに分類し、支援情報を収集する支援情報収集装置６６と、支援情報収集装置６６により収集された支援情報を蓄積する支援情報蓄積部７２と、記憶装置６２に記憶されたデータを用い、情報蓄積部６０に蓄積されたメッセージの各々について所定の素性を算出し、学習済の機械学習モデルを用いてメッセージを要望連絡というカテゴリに属するものとそれ以外とに分類し、要望連絡を収集する要望連絡収集装置６８と、要望連絡収集装置６８により収集された要望連絡を蓄積する要望連絡蓄積部７４とを含む。問題報告収集装置６４、支援情報収集装置６６及び要望連絡収集装置６８は、この情報マッチングシステム３０で情報をマッチさせる準備として、予めテキストを分類するために好適に用いられる装置である。これらは分類のための機械学習モデルの素性として同じものを使用する。学習時と、実際の分類処理時とでも同じ素性を用いる。ただし、学習時には人手で教師データが付加されている。

本実施の形態では、問題報告収集装置６４、支援情報収集装置６６及び要望連絡収集装置６８は記憶装置６２に記憶されたデータを用いた機械学習により実現される。

機械学習の素性としては、核構成マトリックスにしたがい、メッセージ中の核（問題核、支援核、要望核）が持つ名詞の分類（トラブル系／非トラブル系）と核の述部の極性（活性／不活性）とから判定した核の種類と、図示しない評価表現辞書を用いて得られる、メッセージ中の評価表現、評価タイプ及び評価極性と、核中の名詞の意味クラスと、メッセージの係り受け関係において核に含まれる名詞を含むｎ−グラム等を用いる。後述するとおり、このｎ−グラムによって、メッセージに含まれる時間情報と、メッセージに関連した地域の情報と、メッセージのモダリティとがマッチングのための素性に含まれることになる。

メッセージのモダリティとは、メッセージの記載の仕方に関連する主観的な意味内容のことをいう。例えば、「水が無い」「水が届く」というペアとして以下の３つの文脈（Ａ）〜（Ｃ）があったときに、（Ａ）と、（Ｂ）及び（Ｃ）とを区別するためのものである。

（Ａ）「水が無い」「水が届く予定です」
（Ｂ）「水が無い」「水が届くというのはデマ」
（Ｃ）「水が無い」「水が届くことを予想してます」
モダリティの分類の仕方には様々な立場があるが、大きく分けると、メッセージの内容に対する書き手の判断のあり方を表すモダリティと、読み手に対する態度を表すモダリティとの２つがある。前者はさらに、真偽判断のモダリティと、価値判断のモダリティとに分けられる。これらは、メッセージ中の述部に付随した表現（モダリティ要素）を手掛かりとして判定できる。例えば、真偽判断のモダリティとしては、断定、推量、判断、伝聞、説明等がある。上の例では「デマ」及び「予想してます」という語が、この文が推量、又は伝聞の類であることを示し、本実施の形態のような用途ではマッチングに対象として不適切であることを示す。一方、（Ａ）のように文の述部が動詞等の終止形で終わる場合には、事実を述べているため、マッチングの対象として適切である。モダリティを判断するための語は、メッセージの核を中心としてその核に関連した位置に配されることが多い。したがって、メッセージの係り受け関係において核に含まれる名詞を含むｎ−グラムを素性に使用することにより、メッセージのモダリティを考慮した形でメッセージのマッチングができる。

メッセージ内の時間情報、及び地域に関する情報についても同様である。

記憶装置６２が記憶する情報は、メッセージに関する前述の核構成マトリックスを構成するために、名詞の分類（トラブル系／非トラブル系）を記憶する図示しないトラブル表現辞書と、述部の極性（活性／不活性）を記憶した図示しない極性辞書と、メッセージが含む評価表現を特定するために使用される評価表現辞書と、メッセージが何らかの要求表現を含むか否かを判定するために使用される図示しない要求表現辞書と、各名詞についてその属する意味クラスを特定するための、名詞の意味クラス辞書とを含む。

評価表現辞書とは、前述したように、メッセージ中に、何らかの事物に対する評価が存在しているか否かを判定するための辞書である。評価表現の判定とは、テキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価（以下、これらをまとめて「評価情報」と呼ぶ。）がテキスト中の各文に存在するかどうかの判定を行なう処理である。その文に評価情報が存在すると認められた場合、その評価情報を表す表現の抽出（評価表現抽出）、その評価情報の意味的な分類（評価タイプ分類）及びその評価情報が肯定的なニュアンス（ポジティブ）を表すのか、否定的なニュアンス（ネガティブ）を表すのかの判定（評価極性判定）等を行なう。

トラブル表現辞書とは、核の名詞がトラブルを表すか、表さないかを判断するための辞書で、病気、災害、故障等に関連する名詞を収録してある。

極性辞書は、核に含まれる助詞と述部の組合せが、活性か、不活性か、それ以外かを判定するためのものである。様々な述部の表現と、各述部の極性が活性か不活性かを人手で判定した情報とを収録してある。

要求表現辞書とは、メッセージ内又は核に含まれる述部が、要求マーカを含むか否かを判定するもので、人手で収集した要求マーカを収録してある。

意味クラス辞書とは、単語を意味的に類似した単語からなるクラス（意味クラス）に分類したものを収録した辞書である。例えば、「インフルエンザ」「アトピー性皮膚炎」が同じ意味クラスとして登録されている。

情報マッチングシステム３０はさらに、問題報告蓄積部７０に蓄積された問題報告と支援情報蓄積部７２に蓄積された支援情報とについて、それぞれから１つずつ情報を取り出すことでペアを作成し、学習済の機械学習モデルを用いてそのペア内の情報のマッチングを行ない、マッチした問題報告と支援情報とを関連付けた情報（マッチ情報）を出力する問題報告・支援情報マッチング装置７６を含む。問題報告・支援情報マッチング装置７６は、問題報告と支援情報とについて、共起対マトリックス手法に基づいてそれぞれから得られる素性を含む所定の素性の組を用いてマッチングを行なう。

情報マッチングシステム３０はさらに、支援情報蓄積部７２に蓄積された支援情報と要望連絡蓄積部７４に蓄積された要望連絡とについて、それぞれから１つずつ情報を取り出すことでペアを作成し、学習済の機械学習モデルを用いてそのペア内の情報のマッチングを行ない、マッチした支援情報と要望連絡とを関連付けたマッチ情報を出力する要望連絡・支援情報マッチング装置７８を含む。要望連絡・支援情報マッチング装置７８も、要望連絡と支援情報とについて、共起対マトリックス手法に基づいてそれぞれから得られる素性を用いてマッチングを行なう。

情報マッチングシステム３０はさらに、問題報告・支援情報マッチング装置７６及び要望連絡・支援情報マッチング装置７８により出力されたマッチ情報を記憶する関連情報ＤＢ８０と、問題報告・支援情報マッチング装置７６及び要望連絡・支援情報マッチング装置７８で行なわれるマッチングの際のマッチング用素性を生成するためのデータ（マッチング用素性生成用データ）を記憶した記憶装置８２とを含む。関連情報ＤＢ８０はデータベースであるから、例えば各情報の識別子により任意のマッチ情報を呼出したり、特定のキーワードを含むメッセージを含むマッチ情報を呼出したり、特定の地名と関連した場所をキーとして任意のメッセージを含むマッチ情報を呼出したりできる。

問題報告・支援情報マッチング装置７６と要望連絡・支援情報マッチング装置７８とは互いに同じ構成であり、本実施の形態では機械学習手法の一例であるＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いる点でも同様である。ただし、ＳＶＭの学習の際に用いられるデータが異なっている。

情報マッチングシステム３０はさらに、インターネットに接続されたウェブサーバ８６と、関連情報ＤＢ８０を用いた情報検索のためのプログラムからな出力生成部８４とを含む。出力生成部８４は、ウェブサーバ８６を介して受信した問合せに応答して、上記した情報マッチングシステム３０の各部を用いて、この問合せに含まれるメッセージを問題報告、支援情報及び要望連絡に分類して蓄積する。出力生成部８４はまた、問合せに含まれるメッセージと、既存の問題報告、支援情報及び要望連絡とのマッチングをしてマッチング結果を関連情報ＤＢ８０に蓄積する。出力生成部８４はさらに、問合せに含まれるメッセージを含むマッチ情報であって、かつ問合せに含まれる検索条件を満足するマッチ情報を関連情報ＤＢ８０から読出し、整形した出力データをウェブサーバ８６を介して相手に送信する。

関連情報ＤＢ８０が生成されれば、その後は、関連情報ＤＢ８０内の情報から、マッチした問題報告と支援情報又は要望連絡と支援情報とを抽出して端末に表示したり、他の装置にデータとして提供したりできる。この処理は、出力生成部８４で実行されるプログラムにより行われる。ここでは、一例として、ウェブサーバ８６を介して他の端末から問題報告、要望連絡又は支援情報等を含むメッセージの入力を受けたときに、そのメッセージとマッチするメッセージを返信する処理を出力生成部８４で実現する。後述するように、出力生成部８４によるマッチングでは、メッセージが発信された位置に関する地理的情報までマッチングの要素にできる。

いうまでもなく、この情報マッチングシステム３０は通信機能を有するコンピュータハードウェアと、そのハードウェアにより実行されるコンピュータプログラムと、そのコンピュータプログラムの実行時に出力生成のために必要なデータとにより実現される。これらのうち、図１に示す情報収集部５０、形態素解析部５２、係り受け解析部５４及び地名・場所特定部５８は、従前の技術により容易に実現できる。したがってここでは、インターネット４０から収集したメッセージから問題報告、支援情報、要望連絡を収集する処理と、それら情報をマッチングしてマッチ情報を生成し記憶する処理と、マッチ情報を利用して有用な情報を生成する処理とについて説明する。

図２に、図１に示す問題報告収集装置６４の構成をブロック図形式で示す。図１に示す支援情報収集装置６６及び要望連絡収集装置６８の構成も問題報告収集装置６４と同様である。したがって以下では主として問題報告収集装置６４の構成について説明する。

図２を参照して、問題報告収集装置６４は、情報蓄積部６０から新たなメッセージを読出して、入力されたメッセージの係り受け関係の情報、形態素列等に基づき、記憶装置６２に記憶されたデータを用いて所定の素性を算出する素性算出部１００と、予め学習データにより、素性算出部１００により算出された素性により学習済で、入力された素性ベクトルに基づいて、メッセージが問題報告か否かの判定結果をそのスコアとともに出力するＳＶＭ１０２と、ＳＶＭ１０２により問題報告であると判定されたメッセージを選択して、ＳＶＭ１０２のスコアを付して問題報告蓄積部７０に格納する選択部１０４とを含む。ＳＶＭ１０２は、多数のメッセージについて、それらから得た上記した素性の組と、メッセージが問題報告か否かを示すフラグ（正解データ）とにより構成される学習データを用いて学習済である。本実施の形態では、前述した核構成マトリックスという考え方により得られる素性（名詞の分類及び述部の極性）が使用されている点に特徴がある。

支援情報収集装置６６及び要望連絡収集装置６８も、その構成は問題報告収集装置６４と同じである。ただし、支援情報収集装置６６ではＳＶＭ１０２の学習に、メッセージが支援情報か否かのフラグが付された学習データを使用して学習を行なう点及び要望連絡収集装置６８ではメッセージが要望連絡か否かを示すフラグが付された学習データを使用して学習を行なう点が問題報告収集装置６４と異なる。

図３は、図１に示す問題報告・支援情報マッチング装置７６の簡略化したブロック図である。要望連絡・支援情報マッチング装置７８も基本的には問題報告・支援情報マッチング装置７６と同じ構成である。したがって、以下では問題報告・支援情報マッチング装置７６の構成のみについて説明する。

図３を参照して、問題報告・支援情報マッチング装置７６は、問題報告蓄積部７０及び支援情報蓄積部７２の双方から１つずつメッセージを読出し、その２つのメッセージの組から、記憶装置８２に記憶されたデータを用いて所定の素性を算出し素性ベクトルとして出力する素性算出部１３０と、素性算出部１３０から出力される素性ベクトルに基づいて、処理対象の問題報告と支援情報とがマッチするか否かを出力するよう、予め学習済のＳＶＭ１３２と、ＳＶＭ１３２の出力に基づいて、素性算出部１３０が処理した問題報告と支援情報との組合せのうち、マッチするもののみを選択して関連情報ＤＢ８０に格納する選択部１３４とを含む。素性算出部１３０が算出する素性は、前述した共起対マトリックス手法に基づく素性である、「名詞＋述部」を構成する名詞における共通語の有無、共通する意味クラスの有無を含み、さらに、問題報告収集装置６４のＳＶＭ１０２（図２参照）による判定時のスコアを含む。

ＳＶＭ１３２についても、予めマッチしていると判定された問題報告と支援情報とを含む学習データにより、素性算出部１３０が算出する素性と同じ素性を用いて学習を行なっている。学習済のＳＶＭ１３２は、問題報告と支援情報とが与えられると、それらがマッチするか否かを出力する。

要望連絡・支援情報マッチング装置７８の構成は問題報告・支援情報マッチング装置７６と同一である。ただし、ＳＶＭ１３２の学習を行なう際の学習データが、要望連絡と支援情報との組合せに関するものである点が問題報告・支援情報マッチング装置７６の場合と異なる。

本実施の形態に係る出力生成部８４は、ユーザが入力したメッセージに対し、そのメッセージとマッチする情報を出力するという機能を持つ。ここでは、入力されるメッセージとして、典型的には、「アレルギー対応の幼児ミルクが不足しています。」、「アレルギー対応の幼児粉ミルクを○○市役所で配布します。」等のような、問題報告、支援情報、または要望連絡のいずれかを含むメッセージを想定する。出力生成部８４は、入力されたメッセージがこれらのいずれに相当するかに応じ、入力されたメッセージとマッチする情報を関連情報ＤＢ８０から検索して一覧表示する。以下に説明するのは、出力生成部８４を実現するプログラムとその入出力画面の一例である。

図４を参照して、遠隔地の端末からウェブブラウザを経由して出力生成部８４にアクセスすることにより表示される入力画面２２０は、メッセージの入力フィールド２３０と、検索に関する日付情報の入力パネル２３２と、地理的条件の入力パネル２３４と、検索のリクエストを情報マッチングシステム３０に対して送信するトリガーとなる検索ボタン２３６とを含む。日付情報の入力パネル２３２及び地理的条件の入力パネル２３４は、メッセージの入力フィールド２３０とマッチする情報の内でも、さらに特定の条件で情報を絞り込むためのものである。ここでは日付及び地理的条件で情報を絞り込むことにしているが、さらに別の情報（たとえばキーワード、発信者、発信時刻、完了しているか否か）等を絞り込みの条件にしてもよい。

図５は、図４に示す画面で何らかのメッセージを入力して情報マッチングシステム３０に送信した後、情報マッチングシステム３０から返信されてくる画面の一例を示す。この例では、画面２５０は、ユーザにより入力されたメッセージを確認のために表示する入力表示領域２６０と、入力されたメッセージとマッチする情報を表示するマッチング情報表示パネル２６２と、マッチング情報表示パネル２６２に表示されたメッセージの発信地域又は関連地点を地図上にピン２６６の形式で表示する地図パネル２６４と、ユーザによって入力された検索条件を確認のために表示する検索条件表示パネル２６８と、条件を変えて検索するときにユーザが操作する再検索ボタン２７０とを含む。再検索ボタン２７０をクリックすると、図４に示す入力画面２２０が表示される。

図６に、出力生成部８４を実現するプログラムの一例として、図４及び図５に示す画面を用いてユーザから入力されたメッセージとマッチする情報をユーザ端末に返信するプログラムの制御構造を示す。出力生成部８４は、これ以外にも関連情報ＤＢ８０を利用した様々な形のウェブアプリケーションとして実現可能である。

図６を参照して、このプログラムは、ウェブサーバ８６がユーザ端末からの検索要求を受信し、出力生成部８４に引き渡すことで起動される。引数として、ユーザにより入力されたメッセージ、日付に関する検索条件及び地理的な検索条件がこのプログラムに渡される。この要求を発行した端末のＧＰＳ情報を、地理的情報に加えて、このプログラムに渡すようにしてもよい。この例ではそうしたＧＰＳ情報が出力生成部８４に引数として渡されるものとする。

最初に、メッセージに対する形態素解析を行ない（ステップ２９０）、形態素列を出力する。この形態素列に対する係り受け解析を行ない（ステップ２９２）、このメッセージに付与されている地理的情報又はＧＰＳ情報に基づいて、図１に示される地名・場所辞書記憶装置５６を用いてメッセージが発行された場所を特定して（ステップ２９４）メッセージに付加し、図１の情報蓄積部６０に追加する。これらの処理は、図１に示す形態素解析部５２、係り受け解析部５４及び地名・場所特定部５８が実行する。

続いて、入力されたメッセージから、ステップ２９８で記憶装置６２に格納された情報及び所定の素性算出方法にしたがって、メッセージの素性の組を算出し、素性ベクトルを形成する。続くステップ３００で、図１に示す問題報告収集装置６４、支援情報収集装置６６及び要望連絡収集装置６８のそれぞれのＳＶＭ１０２（図２参照）により、処理中のメッセージが問題報告、問題報告及び要望連絡のいずれかに該当するか否かを判定する。判定の結果、メッセージが問題報告であれば問題報告蓄積部７０に、支援情報であれば支援情報蓄積部７２に、要望連絡であれば要望連絡蓄積部７４に、それぞれ蓄積する（ステップ３０２）。

このように、入力されたメッセージを問題報告、支援情報及び要望連絡のいずれかに分類して蓄積するのは、このメッセージを、後に入力されるメッセージとのマッチング対象として追加するためである。

その後、分類結果が何であったかを判定する（ステップ３０４）。入力されたメッセージが問題報告又は要望連絡である場合は、ステップ３０６で支援情報とのマッチングを行ない、メッセージが支援情報である場合はステップ３０８でこのメッセージと問題報告及び要望連絡とマッチングを行なう。続いて、ステップ３０６又はステップ３０８のマッチングの結果、メッセージとマッチした情報があるか否かを判定する（ステップ３０９）。このメッセージとマッチした情報があれば、マッチした情報とこのメッセージとを関連付けて関連情報ＤＢ８０に追加する（ステップ３１０）。

この後、関連情報ＤＢに追加されたマッチ情報に基づいて、図５に示す画面２５０に対応するＨＴＭＬ文書をステップ３１２で生成し、最初のメッセージを送信してきた端末に返信して、入力されたメッセージに対する処理を終了する。

ステップ３０９の判定が否定の場合、すなわちステップ３０６及びステップ３０８で入力メッセージとマッチした情報がなかった場合には、制御はステップ３１４に進む。ステップ３１４では、入力されたメッセージとマッチした情報がなかったことを示す画面を出力して処理を終了する。この画面には、例えば「入力メッセージにマッチした情報はありませんでした。今後、マッチした情報が発見されたら通知しますか？」というテキストが画面２５０に表示され、通知をするか否かを選択するボタン等と、通知する際に必要な情報（メールアドレス等）を入力するためのフィールド、ボタン等とが表示される。ここで通知することが選択されたときには、このメッセージを含むマッチ情報を関連情報ＤＢ８０で検索し、何らかのマッチ情報が発見されたら記録されているメールアドレスにその情報を送信する処理が必要になる。しかし、この情報送信の処理は本発明の本質的な部分には直接関連しないので、ここではその詳細は述べない。

入力されたメッセージが問題報告、支援情報、及び要望連絡のいずれでもないとステップ３０４で判定された場合には、制御はステップ３１６に進む。この場合は、入力されたメッセージが適切なものでなかったことが予想される。したがって、ステップ３１６で、先に入力したメッセージの表現等の条件を変えて再度メッセージを入力することを示すメッセージを画面２５０に表示させて処理を終了する。ユーザが再検索ボタン２７０を押すと図４に示す入力画面２２０が表示される。ユーザは、メッセージの表現、及び日時、場所等の検索条件を変えて再検索を実行できる。

［システムの動作］
以上説明した情報マッチングシステム３０は以下のように動作する。図１を参照して、これに先立って、図１に示す問題報告収集装置６４、支援情報収集装置６６、要望連絡収集装置６８、問題報告・支援情報マッチング装置７６及び要望連絡・支援情報マッチング装置７８のＳＶＭは、予め適切な学習データで学習を完了しているものとする。

情報マッチングシステム３０の情報収集部５０は、最初にインターネット４０上に存在する様々な情報を収集し、形態素解析部５２に与える。ここでは、例えばＴｗｉｔｔｅｒ等のように、比較的短い文で問題報告、要望連絡及び支援情報を伝達するようなシステム上で発信されている情報を主として収集する。形態素解析部５２は各情報に対して形態素解析し、係り受け解析部５４はさらに係り受け解析をして、各情報に各文の係り受け情報を付する。これら情報にはさらに、地名・場所特定部５８が、関連する地域又は発信された地域等に関する情報を付与する。最終的にこれら情報は情報蓄積部６０に蓄積される。なお、情報収集部５０が収集する情報には、通常はその情報が発信された日付及び時刻が付されている。

問題報告収集装置６４の素性算出部１００（図２参照）は、情報蓄積部６０から情報を読出し、記憶装置６２に記憶された素性生成用データを用いて問題報告の判定のための素性をその情報から抽出して、素性ベクトルを生成する。これらの素性の中には、前述した通り、核構成マトリックス手法に基づき、情報中の名詞＋述部の名詞に関する分類（トラブル系／非トラブル系）と、述部の極性（活性／不活性）とを表す素性が含まれる。
ＳＶＭ１０２は、この素性ベクトルを受け、その素性ベクトルに対応する情報が問題報告か否かを判定し、判定結果を出力する。選択部１０４は、判定が肯定（情報は問題報告である。）ならこの情報を問題報告蓄積部７０に追加する。判定が否定ならこの情報については何もせず、問題報告収集装置６４は次の情報の処理に移る。

支援情報収集装置６６及び要望連絡収集装置６８も問題報告収集装置６４と同様に動作する。ただし、それぞれのＳＶＭは、問題報告収集装置６４のＳＶＭと異なる学習データで学習を行なっているため、それぞれ、入力された情報が支援情報か否かと、要望連絡か否か、とを判定する。それ以外の点では問題報告収集装置６４、支援情報収集装置６６及び要望連絡収集装置６８の動作に異なる点はない。

こうして、問題報告蓄積部７０、支援情報蓄積部７２及び要望連絡蓄積部７４には、問題報告、支援情報及び要望連絡がそれぞれ蓄積される。

問題報告・支援情報マッチング装置７６は、問題報告蓄積部７０又は支援情報蓄積部７２に新たな情報が蓄積されるたびに、その情報についてのマッチング処理を行なう。新たな情報が問題報告の場合には、支援情報蓄積部７２に蓄積された支援情報の全てとマッチングを行ない、新たな情報が支援情報の場合には問題報告蓄積部７０に蓄積された問題報告の全てとマッチングを行なう。ここでは、新たに問題報告蓄積部７０に問題報告が追加されたときの問題報告・支援情報マッチング装置７６の動作を説明する。

図３を参照して、素性算出部１３０は、問題報告蓄積部７０から新たな問題報告を読出すと、支援情報蓄積部７２に蓄積された支援情報を読出し、その各々と、新たな問題報告とを組合せて、問題報告と支援情報との組合せを生成する。素性算出部１３０はさらに、これら組合せの全てについて、記憶装置８２に記憶されたデータを用いて素性を算出し、素性ベクトルを生成する。これら素性は、問題報告収集装置６４で使用された素性の全てに加え、前述した共起対マトリックス手法に基づく素性である、「名詞＋述部」を構成する名詞における共通語の有無、共通する意味クラスの有無を含み、さらに、問題報告収集装置６４のＳＶＭ１０２（図２参照）による判定時のスコアを含む。

ＳＶＭ１３２は、素性算出部１３０により生成された素性ベクトルを受け、その素性ベクトルに対応する組合せに含まれる問題報告と支援情報とが、互いにマッチするか否かを判定し、その判定結果を出力する。

選択部１３４は、ＳＶＭ１３２の判定が肯定である組合せには関連情報ＤＢ８０に追加し、そうでないときは何もしない。

新たに問題報告・支援情報マッチング装置７６が読出した情報が支援情報であるときは、問題報告・支援情報マッチング装置７６は、上記した説明で支援情報と問題報告とを入れ替えた動作を行なう。

したがって、問題報告・支援情報マッチング装置７６により、関連情報ＤＢ８０には、互いにマッチする問題報告と支援情報とが関連付けられて蓄積されていく。

要望連絡・支援情報マッチング装置７８の動作も同様である。したがって要望連絡・支援情報マッチング装置７８の動作の詳細は繰返さない。要望連絡・支援情報マッチング装置７８のＳＶＭが使用する素性も、この実施の形態では問題報告・支援情報マッチング装置７６が使用する素性と同じである。要望連絡・支援情報マッチング装置７８により、関連情報ＤＢ８０には、互いにマッチする支援情報と要望連絡とが関連付けられて蓄積されていく。

このようにして、関連情報ＤＢ８０には、互いにマッチする問題報告と支援情報とからなるマッチ情報及び支援情報と要望連絡とからなるマッチ情報が蓄積される。このマッチ情報が蓄積できれば、後はこの情報を様々に利用できる。本実施の形態で出力生成部８４が実行する処理は、マッチ情報の利用方法の一例に過ぎない。これ以外にもこの情報の利用方法は数多く考えられる。

本実施の形態に係る情報マッチングシステム３０を利用しようとするユーザがある問題に遭遇し、その問題に対する解決策を知りたい場合を考える。ユーザは、情報マッチングシステム３０を利用するために、図４に示す入力画面２２０を端末に表示させる。例えば、情報マッチングシステム３０を利用するためのＵＲＬにブラウザでアクセスするとこの画面が表示される。

ユーザは、メッセージの入力フィールド２３０に自分が遭遇した問題、自分が提供しようとする支援に関する情報、何らかの要望事項等を表すメッセージを入力し、必要に応じて入力パネル２３２及び入力パネル２３４に検索条件を入力する。ユーザが検索ボタン２３６をクリックすると、メッセージのテキストと、入力された検索条件とをパラメータとして、検索要求が情報マッチングシステム３０のウェブサーバ８６に送信される。

図１を参照して、ウェブサーバ８６はこの検索要求を受信すると、メッセージのテキストと、入力された検索条件とをパラメータとして出力生成部８４に渡す。出力生成部８４は、図６に制御構造を示すプログラムにパラメータを渡してこのプログラムを起動する。

図６を参照して、出力生成部８４は、入力されたメッセージに対して形態素解析（ステップ２９０）、係り受け解析（ステップ２９２）及び場所特定処理（ステップ２９４）をしたうえで、入力されたメッセージとステップ２９０，２９２及び２９４で得られた情報とを図１に示す情報蓄積部６０に蓄積する。検索条件が入力された場合、それらは「○月○日に」、「○○において」というような形でメッセージに付加される。

問題報告収集装置６４、支援情報収集装置６６及び要望連絡収集装置６８は、情報蓄積部６０に新たな情報が蓄積されるたびに、問題報告、支援情報及び要望連絡をそれぞれ収集し、問題報告蓄積部７０、支援情報蓄積部７２及び要望連絡蓄積部７４にそれぞれ蓄積する。

問題報告・支援情報マッチング装置７６は、問題報告蓄積部７０又は支援情報蓄積部７２に新たな問題報告又は支援情報が蓄積されるたびに、その情報とマッチする支援情報又は問題報告を支援情報蓄積部７２及び問題報告蓄積部７０からそれぞれ検索し、マッチする情報同士を関連付ける情報を関連情報ＤＢ８０に蓄積する。同様に、要望連絡・支援情報マッチング装置７８は、支援情報蓄積部７２又は要望連絡蓄積部７４に新たな情報が蓄積されるたびに、その情報とマッチする要望連絡又は支援情報を要望連絡蓄積部７４及び支援情報蓄積部７２からそれぞれ読出し、マッチする情報同士を関連付ける情報を関連情報ＤＢ８０に蓄積する。出力生成部８４は、関連情報ＤＢ８０を検索して、入力されたメッセージと関連付けられた情報を抽出し、その情報を図５のマッチング情報表示パネル２６２に一覧表示する。関連付けられた情報が多数ある場合にはマッチング情報表示パネル２６２はスクロール可能とする。出力生成部８４はさらに、マッチング情報表示パネル２６２に表示された各情報について、それらに付されている地理的情報に基づいて、地図パネル２６４に各情報の発信された位置又は各情報が関連付けられている位置にピン２６６等を表示する。

このように、入力されたメッセージとマッチする情報だけでなく、それらマッチした情報が発信された位置等を地図上に表示することで、どこでどのような問題が生じているか、どのような支援が提供されているか、どのような要望事項が発生しているかを容易に確認できる。したがって、効率的に、自分の持つ問題を解決したり、支援を有効に活用したり、必要性の高い地域に優先的に支援を回したりすることが可能になる。

なお、図５に示すような表示をする場合、既に解決した問題、災害時に既に必要な救援が得られ解決した問題報告、災害時に支援物資の配布が終了した支援情報等については、表示から取り除くことが望ましい。そのためには、例えば図５に示すような画面を元に支援の分配先等を定めてそれら支援の提供者に連絡した後に、その処置によって解決した問題、支援物資が消尽した支援情報、及び充足された要望連絡等については、図５において完了を示すフラグを入力できるようにすればよい。このフラグを問題報告蓄積部７０、支援情報蓄積部７２及び要望連絡蓄積部７４に蓄積される情報、並びに関連情報ＤＢ８０に蓄積されるマッチ情報に付与しておくことにより、既に解決済の問題報告、要求が充足された要望連絡、支援作業が完了した支援情報等については図５の画面２５０に表示されなくなる。

そのような構成の結果、次々に状況が変わるような環境下であっても、効率的に問題又は要望とその解決とをマッチさせることができる。

［実施の形態の効果］
本実施の形態に係るシステムの効果が最も発揮される利用例の１つは、大規模災害時における被災者と支援団体のコミュニケーションの円滑化に関連する。大規模災害時には、先述したように、被災者からの問題報告及び要望連絡がＴｗｉｔｔｅｒ等を介して発信されるものの、多量に発信されるツイートにこれらの情報が埋没してしまうという傾向がある。支援団体等が発信する支援情報についても同様である。こうした現象は、被災者が支援情報を必要としているにもかかわらず入手しにくいという問題に繋がる。一方で、支援団体にとっては、最も支援を必要としている相手が発見できないという問題に繋がる。仮に、被災者の要望及び問題を支援団体が認識できても、どの問題等が対処されたのかわからない状況では、複数の支援団体が同じ要望や問題に対応し、結果として、資源や時間が無駄に消費されるという問題にも繋がる。

本実施の形態は、このような問題を解決する。問題報告・要望連絡・支援情報を特定し収集する技術は、必要とされる情報の埋没を防ぎ、被災者が支援情報を入手するのを容易にし、被災者が抱える問題及び要望を支援団体が把握することに貢献する。さらに、問題報告‐支援情報又は要望連絡‐支援情報のマッチング技術は、ある被災者が発信した問題報告に直接的に関連する支援情報を見つけ出し、リプライすること等を可能とする。また、支援団体にとっては、支援情報とマッチングされた問題報告又は要望連絡と、マッチングが見つからない問題報告又は要望連絡とを区別することで、どのような問題又は要望に対処できており、どのようなものに対処ができていないかを概観できるようになる。この結果、支援団体の資源及び時間の浪費を減らすことに貢献できる。

なお、上記した実施の形態に係るシステム及びその考え方は、災害時に限定して利用可能なわけではない。日常的な商用利用においても価値が高い。例えば、上記実施の形態と同じ考え方で、あるユーザがコンピュータに関する問題、病気に関する問題又は何らかの要望を入力すると、ウェブ上にある情報をソースとして対処方法を支援情報として自動的に列挙する検索システム等を開発できる。

上記実施の形態では、問題報告蓄積部７０、支援情報蓄積部７２及び要望連絡蓄積部７４が互いに別の装置であるものとして説明したが、これらを１つの記憶装置に格納することもできる。同じファイルにこれらを全て格納することも可能である。要は、これら別々のカテゴリに属する情報を互いに区別できればよい。例えばファイル内の各レコードにそれらのカテゴリを表す情報を付すようにすればよい。

現在、スマートフォンで音声により提供される質問応答システムが脚光をあびているが、質問‐応答システムで問題を解決するためには、どのような質問をすれば問題が解決できるのかを考慮しなくてはならない。適切な質問を考慮するためには、専門知識等が要求される場合も多い。上記実施の形態は、問題から直接に支援情報を検索することを可能とするため、質問‐応答システムの次世代の技術を構築するさきがけとなり、新しいサービスの開発にも貢献するという意味で重要なものである。

［実験結果］
なお、上記実施の形態の効果を検証するため、いくつかの実験を行なった。以下に、その実験結果を比較例とともに示す。テーブル５，６，７はそれぞれ、問題報告、支援情報及び要望連絡の特定精度に関する実験結果である。

なお、上のテーブル５〜７において、「実施の形態」は、上記実施の形態で説明した通り、核構成マトリックスにしたがい、メッセージ中の核（問題核、支援核、要望核）が持つ名詞の分類（トラブル系／非トラブル系）と、核の述部の極性（活性／不活性）と、評価表現辞書を用いて得られる、メッセージ中の評価表現、評価タイプ、及び評価極性等と、核中の名詞の意味クラスと、メッセージの係り受け関係において、核に含まれる名詞を含むｎ−グラム等を用いる。比較例１は、実施の形態で用いたのと同様の手法だが、ＳＶＭの素性として名詞の分類（トラブル系／非トラブル系）と、核の述部の極性（活性／不活性）とを使用しないもの、すなわち核構成マトリックスに関連する素性を使用せずに行った実験結果である。比較例２は、実施の形態で用いたのと同様の手法だが、評価表現辞書を用いて得られる素性を使用せずに判定を行なったものである。比較例３は、実施の形態で用いたのと同様の手法だが、単語意味クラスを素性として使用せずに判定を行なったものである。

各ＳＶＭの実験には、学習データ１３，０００件を用い、テストデータとして予め収集したデータから無作為に抽出した１，０００件を用いた。評価者は発明者とは異なる３名であった。評価者による評価の一致率（Fleiss’ Kappa）は０．７４であり、これは評価者による評価が十分な一致を示していることを表す。

一方、マッチングの実験結果を、問題報告と支援情報とのマッチングを例として次のテーブル８に示す。

この実験は、９，０００件の学習データで問題報告・支援情報マッチング装置７６の学習をし、１，０００件のテストデータで行なった。テストデータは、予め準備したデータから、１つの名詞の出現回数が３０回以下となるように選択した。評価者は問題報告の実験の場合と同様、発明者以外の３人であった。その評価の一致率はFleiss’ Kappaで0.63と、これも評価が十分に一致していることを示している。

以上のように本実施の形態によるシステムでは、種々の情報について、例えば問題報告とその解決策とを、ネットワーク上の膨大な情報からマッチングさせ、提示できる。したがって、キーワード検索等を用いるだけの検索サービスと比較して、はるかに的確にユーザが知りたい情報を探し出すことができる。したがって、今までの検索サービスに代わって、国外、国内の検索サービス等で広く利用される可能性がある。さらに、大規模災害時等においては、行政関係機関、ＮＰＯ、ボランティアグループ等が、被災者とのコミュニケーションを円滑化する上で、上記実施の形態のようなシステムを活用できる。互いに問題とその回答、要望とその充足という関係にあるような情報が、今までは互いに全く関連付けられずに存在していたのと比較して、上記実施の形態ではそれらの間に明示的な関係をつけることが可能になり、情報をより整理した形で、適時にユーザに提示することが可能になる。

［ハードウェア構成］
上記実施の形態に係る情報マッチングシステム３０は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行される上記したコンピュータプログラムとにより実現できる。図７はこのコンピュータシステム３３０の外観を示し、図８はコンピュータシステム３３０の内部構成を示す。

図７を参照して、このコンピュータシステム３３０は、メモリポート３５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図８を参照して、コンピュータ３４０は、メモリポート３５２及びＤＶＤドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、メモリポート３５２及びＤＶＤドライブ３５０に接続されたバス３６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、ハードディスク３５４を含む。コンピュータシステム３３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）３４４を含む。

コンピュータシステム３３０を上記した実施の形態に係る情報マッチングシステム３０の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ３５０又はメモリポート３５２に装着されるＤＶＤ３６２又はリムーバブルメモリ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムはネットワーク３６８を通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＤＶＤ３６２から、リムーバブルメモリ３６４から又はネットワーク３６８を介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０を、上記実施の形態に係る情報マッチングシステム３０の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ３４０にこの動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又は、コンピュータ３４０にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。

上記実施の形態では、情報蓄積部６０、記憶装置６２、問題報告蓄積部７０、支援情報蓄積部７２、要望連絡蓄積部７４及び記憶装置８２等はＲＡＭ３６０又はハードディスク３５４により実現される。これらの値はさらに、ＵＳＢメモリ等のリムーバブルメモリ３６４に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。同様に、関連情報ＤＢ８０も、ＲＡＭ３６０及びハードディスク３５４と、ＣＰＵ３５６で実行されるデータベース管理プログラムとにより実現される。データベース管理プログラムとしては、商業的に利用可能なものに加えて、いわゆるオープンソースのデータベース管理プログラムを使用することもできる。

コンピュータプログラムを実行する際のコンピュータシステム３３０の動作は周知である。したがってここではその詳細については繰返さない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０情報マッチングシステム
４０インターネット
５０情報収集部
５２形態素解析部
５４係り受け解析部
５６地名・場所辞書記憶装置
５８地名・場所特定部
６０情報蓄積部
６２分類用素性の生成用データの記憶装置
６４問題報告収集装置
６６支援情報収集装置
６８要望連絡収集装置
７０問題報告蓄積部
７２支援情報蓄積部
７４要望連絡蓄積部
７６問題報告・支援情報マッチング装置
７８要望連絡・支援情報マッチング装置
８０関連情報ＤＢ
８２マッチング用素性の生成用データの記憶装置
８４出力生成部
８６ウェブサーバ
１００，１３０素性算出部
１０２，１３２ＳＶＭ
１０４，１３４選択部

Claims

第１及び第２のカテゴリのいずれかに分類されたテキストの集合において、前記第１のカテゴリのテキストに対して、前記第２のカテゴリのテキストを対応付けるテキストマッチング装置であって、
前記集合に含まれるテキストは、当該テキストを構成する１又は複数の形態素、当該１又は複数の形態素の係り受け情報、及び、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核内の名詞の分類と述部の分類との組合せとを素性として用いた機械学習を用いたテキスト分類装置により前記第１及び第２のカテゴリに分類されており、
前記テキストマッチング装置は、
前記第１のカテゴリのテキストと、前記第２のカテゴリのテキストとを互いに区別して記憶する記憶手段と、
前記記憶手段から、前記第１のカテゴリのテキストと前記第２のカテゴリのテキストとからなるテキストのペアを生成するテキストペア生成手段と、
前記テキストペア生成手段により生成された前記ペア内のテキストが前記テキスト分類装置により分類されたときの前記素性を含むマッチング用素性を、前記ペアから生成するマッチング用素性生成手段と、
前記マッチング用素性生成手段により生成されたマッチング用素性を用いて、前記ペアを構成する２つのテキストが互いにマッチするか否かを判定するマッチング手段とを含み、
前記マッチング手段は、予めマッチング用の学習データを用い、前記マッチング用素性により、テキストのペアがマッチするか否かを判定するように学習済の、機械学習モデルを含む、テキストマッチング装置。
前記マッチング用素性はさらに、前記ペア内のテキストの各々について求められた、前記核内の名詞を含む係り受け関係の部分木上のｎ−グラムを含み、
当該ｎ−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含む、請求項１に記載のテキストマッチング装置。
前記第１及び第２のカテゴリの一方は問題の報告を表すテキストからなるカテゴリであり、他方は問題を解決するための支援情報を表すテキストからなるカテゴリである、請求項１又は請求項２に記載のテキストマッチング装置。
前記第１及び第２のカテゴリの一方は問題の解決を要望するテキストであり、他方は問題を解決するための支援情報を表すテキストである、請求項１又は請求項２に記載のテキストマッチング装置。
テキストを、問題の報告又は解決に関連する特定のカテゴリに分類するためのテキスト分類装置であって、
前記テキストを形態素解析し、品詞情報が付された形態素列を出力する形態素解析手段と、
前記形態素解析手段の出力する形態素列に対し、形態素間の係り受けを解析し、前記テキストの係り受け関係を表す係り受け情報を出力する係り受け解析手段と、
前記形態素列と、前記テキストの係り受け関係とに基づいて、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定し、当該核内の名詞の分類と述部の分類との組合せを用いて、前記テキストを前記特定のカテゴリとそれ以外のカテゴリとに分類する分類手段を含む、テキスト分類装置。
前記分類手段は、
前記形態素列と、前記テキストの係り受け関係とに基づいて、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定する核特定手段と、
前記核特定手段により特定された核内の名詞を、問題の発生に関連した問題系の名詞と、問題の発生と関連しない非問題系の名詞とに分類する名詞分類手段と、
前記核特定手段により特定された核内の述部を、その述部に係る名詞により表される事物機能が活性化することを表す述部か、不活性化することを表す述部かに分類する述部分類手段と、
前記核特定手段により特定された核について、当該核内の名詞について前記名詞分類手段により分類された結果と、当該核内で当該名詞が係る述部について前記述部分類手段により分類された結果との組合せから、前記テキストを前記特定のカテゴリとそれ以外のカテゴリとに分類する手段とを含む、請求項５に記載のテキスト分類装置。
前記分類する手段は、少なくとも、前記核特定手段により特定された核について、当該核内の名詞について前記名詞分類手段が分類した結果と、当該核内で当該名詞が係る述部について前記述部分類手段が分類した結果との組合せを表す情報を素性として、与えられたテキストが前記特定のカテゴリに属するか否かを判定する、機械学習による判定手段を含む、請求項６に記載のテキスト分類装置。
前記素性はさらに、前記テキストの各々について求められた、前記核内の名詞を含む係り受け関係の部分木上のｎ−グラムを含み、
当該ｎ−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含む、請求項７に記載のテキストマッチング装置。
コンピュータにより実行されると、当該コンピュータを、請求項１〜請求項８のいずれかに記載のすべての手段として機能させる、コンピュータプログラム。