JP6206840B2 - テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム - Google Patents

テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム Download PDF

Info

Publication number
JP6206840B2
JP6206840B2 JP2013128454A JP2013128454A JP6206840B2 JP 6206840 B2 JP6206840 B2 JP 6206840B2 JP 2013128454 A JP2013128454 A JP 2013128454A JP 2013128454 A JP2013128454 A JP 2013128454A JP 6206840 B2 JP6206840 B2 JP 6206840B2
Authority
JP
Japan
Prior art keywords
text
information
matching
nucleus
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013128454A
Other languages
English (en)
Other versions
JP2015005027A (ja
Inventor
大樹 佐野
大樹 佐野
イシュトヴァーン ヴァルガ
イシュトヴァーン ヴァルガ
健太郎 鳥澤
健太郎 鳥澤
力 橋本
力 橋本
清敬 大竹
清敬 大竹
剛巨 河合
剛巨 河合
鍾勲 呉
鍾勲 呉
デ サーガ ステイン
デ サーガ ステイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2013128454A priority Critical patent/JP6206840B2/ja
Priority to EP14813194.9A priority patent/EP3012746A4/en
Priority to US14/898,565 priority patent/US10803103B2/en
Priority to CN201480034989.6A priority patent/CN105339936B/zh
Priority to KR1020157035100A priority patent/KR102188292B1/ko
Priority to PCT/JP2014/062912 priority patent/WO2014203659A1/ja
Publication of JP2015005027A publication Critical patent/JP2015005027A/ja
Application granted granted Critical
Publication of JP6206840B2 publication Critical patent/JP6206840B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、インターネット等のネットワーク上の情報を整理してユーザに提示するための技術に関し、特に、ネットワーク上の様々なシステムで投稿される情報の間でのマッチングをとり、何らかの情報を必要としているユーザに、必要とされる情報を効率よく提供するシステムに関する。
インターネットが普及し、その上で様々なシステムが動いている。例えばインターネット上では、ウェブページ及びブログ等だけでなく、Twitter、Facebook、LinkedIn等のいわゆるソーシャルネットワークサービス(SNS)の利用が特に進んでいる。こうしたシステムは、ユーザ間の情報交換等に用いられており、インターネットの普及前には考えられなかったような情報の流通を可能にしている。このようなシステム上には、常時膨大な情報が流れており、ある個人がある問題に対する回答を捜そうとしているときに、その回答が存在している可能性は極めて高い。しかし、大量の情報の中から自分が探す情報を見出すのは不可能である。
こうした需要を満たすことを目的としているサービスに、いわゆる情報検索サービスがある。典型的な情報検索サービスでは、常時、インターネット上から大量の情報を収集し、データベース化してインデックスを付加しておく。何らかの情報検索要求(例えばキーワードを指定した情報検索要求)を受信すると、これらサービスを提供するサイトのコンピュータ(群)は、キーワードを用いたインデックス検索により関連情報を検索し、情報検索技術に基づいて定義されたスコア(検索要求に対する回答の的確さを表す数値)を付して、そのスコアの降順で検索の要求者にデータを返信する。この情報は、キーワードによる検索要求に対する回答として適切と思われる順番でユーザに提供される。その結果、ユーザは、こうした情報検索サービスに接続して検索をすれば、ある程度、自分の必要とする情報を入手できる。
ところが、ネットワーク上には大量の情報があふれているため、ユーザが情報検索をする際には、求める情報を捜すのが極めて困難な場合が多いという問題がある。例えば、表示される項目が多く、ユーザが必要としない情報が上位に表示された場合には、ユーザは適切なキーワードを追加したり、キーワードを変更したり、検索条件を変更したりして検索結果を絞り込む必要がある。しかし元になる情報が多すぎる場合、的確な情報を探し出せるようなキーワードを探すことは困難である。
しかし、インターネット上には、ある問題に対する解決策、ある支援情報に対して、それを必要としている人の要望に関する記載(これを以下「要望連絡」と呼ぶ。)等が存在している可能性は極めて高い。例えば、「妹がアトピーに困っています」という問題についての報告をあるユーザがブログ等に記載し、発信した場合を考える。このように、問題について報告する記載を、以下、「問題報告」と呼ぶ。ウェブ上には、こうした問題報告に対して、「甜茶がアトピーに効くという説明を、近所の医者から聞きました」等といった、問題を解決するために有用な情報が存在することは間違いない。以下、こうした情報を「支援情報」と呼ぶ。また、「コンピュータのあるOS上で動くアプリケーションXが強制的に閉じられてしまい困っています。強制的に閉じられない方法を教えてください。」というように、何かを要望する記載(以下、こうした記載を「要望連絡」と呼ぶ。)が発信された場合に、「ソフトaを使うと、アプリケーションXが落ちないです。」というような解決策がウェブ上に存在することもほぼ間違いないと思われる。しかし、前述したとおり、インターネット上には情報があふれているため、ユーザが自分の求める情報を的確に入手することは極めてむずかしい。こうした問題は、インターネット上の情報が多くなるほど大きくなるし、ユーザが求める情報がより詳細なものになるほど解決が難しくなる。
こうした問題が特に顕在化するのは、災害時である。現在では、災害時には大量の情報がインターネット上に発生する。電話が使えなくなる可能性も高い。そのために、人及び組織間のコミュニケーションには大きな困難が発生する。
災害時に最も問題となるのは、いかにして早期に被災者を支援するかということと、被災者の必要としている支援と、支援グループ等が提供する支援とを持続的に効率よくマッチングさせることである。被災者と支援団体等との間でのコミュニケーションが円滑にいけば、被災者に対する支援が迅速に行なえる可能性がある。しかし、前述のように災害時には被災者と支援団体等とのコミュニケーションは極端に難しくなる。時間がたつとさらに情報の数が多くなり、必要な情報を見出すことは困難になる。そのために、何らかの支援を必要とする被災者のもとに適切な支援物資を適時に届けることができないケースが考えられる。
例えば、2011年3月の東日本大震災では、ウェブ及びSNS等を介して、「○○市でアレルギー体質の幼児用粉ミルクが不足しています」という問題報告、「○○市にアレルギー体質の幼児用粉ミルクを送ってください」という要望連絡等が被災者から多数発信された。しかし、これら情報は、震災とともに発生した大量の情報に埋没し、その多くは支援を提供できる行政機関、支援団体、ボランティア等に認識されなかった。一方で、行政機関、支援団体及びボランティアらも、「○○市にアレルギー体質の子供のための粉ミルクを二千個届けました」という支援情報を発信していたが、その大部分は情報を必要としている被災者には届かなかった。行政機関、支援団体又はボランティア等が被災者からの問題及び要望を認識することに成功した場合でも、複数の組織が同じ問題及び要望に対応した結果、一箇所に必要以上の支援物資が集中してしまい、支援物資及び時間を浪費するだけでなく、支援物資の保管が困難になったりするという問題も発生した。本来、必要量が被災者のもとに送られておれば、それ以外の支援物資は他の被災者に送られるべきである。こうした問題は、いずれも、実際に救援を必要としている人たちと、支援しようとする人たちとのコミュニケーションがうまく行なわれなかったことに起因していると考えられる。
ただし、こうした問題は、災害時に限らず日常的に発生し得る。例えばコンピュータに関するある問題に対する回答を探したり、アトピーに対する対策を探したりする場合でも、いわゆる検索サービスサイトで回答を探すことも可能である。しかし検索サイトで検索できる情報は、問題に対する回答だけでなく、それ以外の大量の情報を含んでいる。したがって、特定の問題に対する回答を探しているユーザ、特に適切な回答を早期に発見することが重要であるユーザにとって、検索サイトは決して使いやすいものではない。
逆に、ある問題に対して自分が解決した結果を提供しようとするユーザが、その回答を必要としているユーザに適時に回答を与えることもまた難しい。たまたま別のユーザがある問題に対する回答を求めていることがわかっており、しかも自分がその問題に対する回答を知っていれば、そのユーザに回答を連絡することは難しいことではない。しかし、インターネットのように多数のユーザが多数の情報を発信している場では、そのようなことはまれである。有用な情報を適時に適切な人又は組織に連絡するための仕組みが求められている。そのためには、問題報告、要望連絡及び支援情報を収集し、適切にマッチングさせる技術が必要である。
Aron Culotta. 2012. Lightweight methods to estimate influenza rates and alcohol sales volume from twitter messages. Language Resources and Evaluation, pages 1-22. Sarah Vieweg, Amanda L. Hughes, Kate Starbird, and Leysia Palen. 2010. Microblogging during two natural hazards events: what twitter may contribute to situational awareness. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, CHI ’10, pages 1079-1088, New York, NY, USA. ACM. Andrew B. Goldberg, Nathanael Fillmore, David Andrzejewski Zhiting Xu, Bryan Gibson and Xiaojin Zhu 2009. May All Your Wishes Come True: A Study of Wishes and How to Recognize Them. In Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the ACL, pages 263-271, Boulder, Colorado, USA. ACM. Hiroshi Kanayama and Tetsuya Nasukawa. 2008. Textual demand analysis: Detection of users’ wants and needs from opinions. In Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 409-416, Manchester, UK, August. Coling 2008 Organizing Committee. Robert Munro. 2011. Subword and spatiotemporal models for identifying actionable information in Haitian Kreyol. In Proceedings of the Fifteenth Conference on Computational Natural Language Learning, pages 68-77, Portland, Oregon. ACM.
問題報告を特定し収拾するという技術に関し、SNSに投稿されるメッセージの中で、インフルエンザの流行に関する問題報告を特定し、収集する技術として、前掲の非特許文献1に開示されたものがある。また、SNSに投稿されるメッセージの中で、山火事に関する問題報告を特定し収集する技術として、前掲の非特許文献2に開示されたものがある。しかしこれらには以下のような問題がある。
先行技術は、特定の災害(例:山火事)又は感染病(例:インフルエンザ)等、対象を限定して問題報告を特定・収集する。しかし、特に災害等では、一つの問題から想定外の問題へと発展していく場合も多い。例えば、東日本大震災では、地震が津波及び原発事故へと発展した。さらに、放出された放射能への対策として部屋を閉め切り換気を怠ったことで、一酸化炭素中毒が発生するという問題が生じた。すなわち、特定の範疇に限って問題報告を収集するだけでは不十分で、そうした制約なしに問題報告の特定・収集を行なうようにする必要がある。それが可能であれば、特定の範疇の問題だけでなく、その問題から派生する二次的な問題までをも特定・収集できる。
要望連絡を特定し収集する技術に関し、教師あり学習でメッセージの分類器を作成し、要望連絡を特定し収集するものが前掲の非特許文献3に開示されている。同様に、教師なし学習で分類器を作成して要望連絡を特定し収集するものが前掲の非特許文献4に開示されている。これら手法はいわゆる機械学習の手法を用いたものである。
これらの分類器では、一般的な素性として要望テンプレート又は要求マーカとよばれる表現のリスト(例:I wish …、 Please …、〜ほしい、〜ください)を利用しており、そうした表現に合致する又は類似する情報でなければ収集できないという問題がある。したがって、これらとは別の、要望を特定するのに貢献する新しい素性の発見が課題である。
さらに、要望連絡と支援情報とを収集する技術として、前掲の非特許文献5に開示されたものがある。しかしこの技術では、要望連絡と支援情報とを区別せずに収集している。現実の要求として問題連絡と支援情報又は要望連絡と支援情報の自動マッチングを行なおうとする場合、要望連絡と支援情報との区別は必須であり、先行技術だけでは達成できない。
さらに、問題報告と、その問題報告で報告された問題を解決するような支援情報とをネットワーク上で収集し、自動的にマッチングしたり、要望連絡と、その要望連絡に係る要望を充足させるような支援情報とを自動的にネットワーク上で収集しマッチングしたりする技術は、現在のところ見出すことはできない。問題連絡と支援情報とをマッチングさせるためには、問題連絡にある表現に基づいて、どのような支援情報が必要になるかを特定する技術、又は、支援情報にある表現からどのような問題連絡に対応するものかを特定する技術が必要である。これを自動で行なうことはこれまで困難な課題と考えられてきた。
したがって本発明の目的は、一般的な問題報告、要望連絡及びそれらにより報告される問題を解決したり、要望を充足させたりする支援情報等のように、あるカテゴリに属する情報を自動的に、かつ信頼性高く収集し、適切にかつ適時にそれら情報をマッチングできるテキストマッチング装置及びテキスト分類装置を提供することである。
本発明の第1の局面に係るテキストマッチング装置は、第1及び第2のカテゴリのいずれかに分類されたテキストの集合において、第1のカテゴリのテキストに対して、第2のカテゴリのテキストを対応付ける。集合に含まれるテキストは、当該テキストを構成する1又は複数の形態素、当該1又は複数の形態素の係り受け情報、及び、テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核内に含まれる名詞の分類と述部の分類との組合せとを素性として用いた機械学習を用いたテキスト分類装置により第1及び第2のカテゴリに分類されている。このテキストマッチング装置は、第1のカテゴリのテキストと、第2のテキストとを互いに区別して記憶する記憶手段と、記憶手段から、第1のカテゴリのテキストと第2のカテゴリのテキストとからなるテキストのペアを生成するテキストペア生成手段と、テキストペア生成手段により生成されたペア内のテキストがテキスト分類装置により分類されたときの素性を含むマッチング用の素性を、ペアから生成するマッチング用素性生成手段と、マッチング用素性生成手段により生成されたマッチング用素性を用いて、ペアを構成する2つのテキストが互いにマッチするか否かを判定するマッチング手段とを含む。マッチング手段は、予めマッチング用の学習データを用い、マッチング素性により、テキストのペアがマッチするか否かを判定するように学習済の、機械学習モデルを含む。
好ましくは、マッチング用素性はさらに、ペア内のテキストの各々について求められた、核内の名詞を含む係り受け関係の部分木上のn−グラムを含む。当該n−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含む。
より好ましくは、第1及び第2のカテゴリの一方は問題の報告を表すテキストからなるカテゴリであり、他方は問題を解決するための支援情報を表すテキストからなるカテゴリである。
第1及び第2のカテゴリの一方は問題の解決を要望するテキストであり、他方は問題を解決するための支援情報を表すテキストであってもよい。
本発明の第2の局面に係るテキスト分類装置は、第1の局面に係るテキストマッチング装置とともに好適に用いられ、テキストを、問題の報告又は解決に関連する特定のカテゴリに分類するための装置である。この装置は、テキストを形態素解析し、品詞情報が付された形態素列を出力する形態素解析手段と、形態素解析手段の出力する形態素列に対し、形態素間の係り受けを解析し、テキストの係り受け関係を表す係り受け情報を出力する係り受け解析手段と、形態素列と、テキストの係り受け関係とに基づいて、テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定し、当該核内の名詞の分類と述部の分類との組合せを用いて、テキストを特定のカテゴリとそれ以外のカテゴリとに分類する分類手段を含む。
好ましくは、分類手段は、形態素列と、テキストの係り受け関係とに基づいて、テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定する核特定手段と、核特定手段により特定された核内の名詞を、問題の発生に関連した問題系の名詞と、問題の発生と関連しない非問題系の名詞とに分類する名詞分類手段と、核特定手段により特定された核内の述部を、その述部に係る名詞により表される事物機能が活性化することを表す述部か、不活性化することを表す述部かに分類する述部分類手段と、核特定手段により特定された核について、当該核内の名詞について名詞分類手段により分類された結果と、当該核内で当該名詞が係る述部について述部分類手段により分類された結果との組合せから、テキストを特定のカテゴリとそれ以外のカテゴリとに分類する手段とを含む。
より好ましくは、分類する手段は、少なくとも、核特定手段により特定された核について、当該核内の名詞について名詞分類手段が分類した結果と、当該核内で当該名詞が係る述部について述部分類手段が分類した結果との組合せを表す情報を素性として、与えられたテキストが特定のカテゴリに属するか否かを判定する、機械学習による判定手段を含む。
素性はさらに、テキストの各々について求められた、核内の名詞を含む係り受け関係の部分木上のn−グラムを含み、当該n−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含むようにしてもよい。
本発明の第3の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかのテキスト分類装置又はテキストマッチング装置の全ての手段として機能させる。
本発明の一実施の形態に係る問題報告・支援情報マッチングシステムのブロック図である。 図1に示す問題報告収集装置の構成を簡略化して示すブロック図である。 図1に示す問題報告・支援情報マッチング装置の構成を簡略化して示すブロック図である。 マッチング情報を用いる問題・要望・支援情報マッチングシステムの入力画面の一例を示す模式図である。 問題・要望・支援情報マッチングシステムの出力画面の一例を示す図である。 問題・要望・支援情報マッチングシステムにおいて、入力とマッチする情報を探索するプログラムの一例の制御構造を示すフローチャートである。 本発明の実施の形態に示すシステムを実現するコンピュータシステムの概観図である。 図7に示すコンピュータシステムのハードウェア構成を示すブロック図である。
以下に説明する実施の形態の説明及び図面では、同じ部品には同じ参照符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰返さない。
[基本的考え方]
最初に、問題報告、要望連絡及び支援情報という3つのカテゴリに属するテキストを特定・収集するための核構成マトリックス手法(テーブル1)について説明し、続いて、その作用と効果について説明する。次に、問題報告と支援情報のマッチング・要望連絡と支援情報のマッチングのために開発した共起対マトリックス手法(テーブル2)について説明した後、その作用・効果について述べる。なお、以下では、問題報告というカテゴリに属するテキスト、要望連絡というカテゴリに属するテキスト及び支援情報というカテゴリに属するテキストを、それぞれ問題報告、要望連絡及び支援情報と呼ぶことがある。
<核構成マトリックス手法>
Figure 0006206840

本実施の形態では、問題報告、要望連絡、支援情報の特定・収集のために、核構成マトリックス手法と呼ばれる新規な方法を用いる。テーブル1を参照して、この手法は、テキストに表現されている名詞と述部との係り受け関係を、名詞の分類と述部の極性の組合せによって細分化する。ここでは、名詞はトラブル表現と非トラブル表現に、述部の極性は活性と非活性とに分類する。この極性にしたがい、各述部を活性テンプレートと非活性テンプレートとに分類する。
トラブル表現とは、問題又は負担を表す名詞のことをいう。例えば、「故障」、「インフルエンザ」、「間違い」、「ヘドロ」、「インフルエンザ」、「アトピー」等が該当する。非トラブル表現とは、「お風呂」、「医療品」、「食料」等、一般的には、問題又は負担を表さない表現である。
活性テンプレートとは、変数Xを含む表現パターンで、変数Xにより表される事物の機能等が「オン」になること(機能等が活性化すること)を示す助詞と述部との組合せのことをいう。例えば 「Xを引き起こす」、「Xを使う」、「Xを買う」、「Xを進行させる」、「Xを輸入する」、「Xが増える」等が該当する。これらはいずれもXにより表されるものの機能が発揮されるような表現である。
不活性テンプレートとは、 変数Xを含む表現パターンで、変数Xにより表される事物の機能等が「オフ」になること(機能等が不活性化すること)を示すもののことをいう。例えば 「Xを防ぐ」、「Xを捨てる」、「Xが減る」、「Xを破壊する」、「Xが不可能になる」が該当する。
本明細書では、活性と不活性とをまとめて「極性」と呼ぶ。
このように核構成マトリックス手法では名詞と述部とをそれぞれ2つに分類した。その結果、4つの分類が得られる。これら4つの分類に細分化される係り受け関係は、以下の4タイプである。
(A)問題核(1)
問題核(1)とは、名詞+述部のうち、名詞=トラブル表現、かつ、述部=活性テンプレートの係り受け表現のことをいう。例えば、「ヘドロが蓄積する」(ヘドロ=トラブル表現、Xが蓄積する=活性テンプレート)等が該当する。問題核(1)に該当する係り受け関係は、トラブル表現に該当する問題や負担の機能がオンになることをあらわし、問題が存在すること、影響を及ぼすこと等を示す傾向がある。
(B)問題核(2)
問題核(2)とは、名詞が非トラブル表現で、かつ、述部が不活性テンプレートの係り受け関係のことをいう。例えば、「お風呂に困る」(お風呂=非トラブル表現、Xに困る=不活性テンプレート)等が該当する。災害時、断水又は停電のためにお風呂に入れないことが問題となっていたが、そのような場合に発生する可能性の高い表現である。問題核(2)に該当する係り受け関係は、非トラブル表現に該当する事象の機能がオフになることをあらわし、対処又は支援行為等が機能していないこと等を示す傾向がある。
(C)支援核(1)
支援核(1)とは、名詞がトラブル表現で、述部が不活性テンプレートの係り受け関係のことをいう。例えば、「ヘドロを除去する」(ヘドロ=トラブル表現、Xを除去する=不活性テンプレート)等が該当する。支援核(1)に該当する係り受け関係は、トラブル表現に該当する問題又は負担の機能がオフになることをあらわすことで問題の解決又は弱体化等を示す傾向がある。
(D)支援核(2)
支援核は、名詞が非トラブル表現で、述部が活性テンプレートの係り受け関係のことをいう。例えば、「お風呂を開放する」(お風呂=非トラブル表現、Xを開放する=活性テンプレート)等が該当する。支援核(2)に該当する係り受け関係は、非トラブル表現に該当する事象の機能がオンになることをあらわし、対処又は支援行為等が実行又は準備されていること等を示す傾向がある。
本実施の形態では、支援核に要求マーカが付与されたものを要望核とする。要求マーカは、先行技術のうち、要望事項の収集に使用されているものと同様のものである。要望核には以下の2タイプがある。
(E)要望核(1)
要望核(1)は、支援核(1)に要求マーカが付与されたものをいう。例えば「ヘドロを片付けてください」(ヘドロ=トラブル表現、Xを片付ける=不活性テンプレート、ください=要求マーカ)等が該当する。このタイプに該当する係り受け関係は、トラブル表現に該当する問題や負担の機能がオフになることを要求するもので、問題の解決や弱体化等に対する要望を示す傾向がある。
(F)要望核(2)
要望核(2)は、支援核(2)に要求マーカが付与されたものをいう。例えば「お風呂を提供してほしい」(お風呂=非トラブル表現、Xを提供する=活性テンプレート、ほしい=要求マーカ)等が該当する。このタイプに該当する係り受け関係は、非トラブル表現に該当する事象の機能がオンになることを要求するもので、対処又は支援行為等の実行又は準備に対する要望を示す傾向がある。
本実施の形態では、これら6タイプの核を用いることで、問題報告・要望連絡・支援情報の特定、収集の性能を向上させる。より具体的には、文の核(名詞+述部)がこれらのタイプのいずれであるかの情報を、インターネット上の各種のメッセージを分類するための分類器を学習させるための素性として用いる。以下、具体的に説明する。
〈問題核の作用と効果〉
問題報告には、2つの問題核のいずれかが含まれる傾向が認められる。例えば、「〇〇市でアレルギー用の粉ミルクが足りないとのことです。」という問題報告には、問題核(1)に該当する表現が含まれている。そこで、分類器の素性として、テキスト中に問題核が有るか無いかを分類器の素性として利用する。後述する実験によれば、この素性を利用した場合、利用しない場合と比較して問題報告の特定・収集の性能が向上することが明らかとなった。
〈支援核の作用と効果〉
支援情報には、2つの支援核のいずれかが含まれる傾向が認められる。例えば、「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報は、「粉ミルクを配布する」(粉ミルク=非トラブル、Xを配布する=活性テンプレート)という支援核に該当する表現を含む。そこで、本実施の形態では、分類器の素性として、テキスト中に支援核が有るか無いかを利用する。後述するように、この素性を利用した場合には、しない場合と比較して、支援情報の特定・収集の性能が向上することが実験の結果明らかになった。
〈要望核の作用と効果〉
要望連絡には、2つの要望核のいずれかが含まれる傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクを届けてください!」という要望連絡は、「粉ミルクを届けてください」(粉ミルク=非トラブル、Xを届ける=活性テンプレート、ください=要求マーカ)という要望核(2)に該当する表現を含む。そこで、本実施の形態では、分類器の素性として、テキスト中に要望核が有るか無いかを利用する。この素性を利用した場合には、しない場合と比較して、要望連絡の特定・収集の性能が向上することが実験の結果明らかになった。
<共起対マトリックス手法>
本実施の形態では、問題報告と支援情報とのマッチング及び要望連絡と支援情報とのマッチングのために、「共起対マトリックス手法」と呼ぶ新規な手法を用いる。この手法は、例えば問題報告に含まれる問題核と支援情報に含まれる支援核とが同じ名詞を共有する場合に、その問題報告と支援情報とからなるペアに対して適用できる。要望連絡と支援情報とのペアの場合も同様である。この手法は、これらペアの種類を、それらに含まれる核の分類と、述部の極性とによって細分化する。共起対マトリックス手法において、核の種類と、核に含まれる述部の極性とによる分類をマトリックス化したものを次のテーブル2に示す。
Figure 0006206840
共起対マトリックス手法で細分化されるペアは、以下の2タイプである。
(1)問題核‐支援核ペア
核の種類が問題核と支援核ペアで、かつ、述部の極性が問題核と支援核で反対となるペアのことをいう。すなわち、問題核(1)と支援核(1)のペアか、問題核(2)と支援核(2)のペアが該当する。核が他の関係となるペアは該当しない。問題‐支援核ペアの例は以下のテーブル3に示す通りである。それぞれの核は同じ名詞を共有することが前提である。
Figure 0006206840
(2)要望核‐支援核ペア
核の種類が要望核と支援核ペアで、かつ、述部の極性が要望核と支援核で同じペアのことをいう。すなわち、要望核(1)と支援核(1)とのペアか、要望核(2)と支援核(2)とのペアが該当する。核が他の関係となるペアは該当しない。要望核‐支援ペアの例は以下のテーブル4に示す通りである。この場合も、それぞれの核が同じ名詞を共有することが前提である。
Figure 0006206840
問題核と支援核のペア及び要望核と支援核とのペアの各々を上記したように2タイプに分類する。この分類を素性として用いることで、問題報告と支援情報とのマッチング及び要望連絡と支援情報とのマッチングの精度を向上させることができる。
〈問題核‐支援核ペアの作用と効果〉
問題報告と支援情報とが適切にマッチできる場合は、これら情報の組合せが問題核‐支援核ペアを含む傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクが足りないとのことです」という問題報告と「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報とは、前者の問題が後者の支援情報によって解決する、又は、後者の情報が前者の問題解決に貢献する、という意味で適切なマッチングと考えられる。このペアには、「粉ミルクが足りない⇔粉ミルクを配布する」という問題核‐支援核ペアに該当する表現が含まれている。そこで、本実施の形態では、分類器の素性として、問題報告と支援情報のペアに問題核‐支援核ペアが有るか無いかを利用する。後述するように、この素性を利用した場合には、利用しない場合と比較して適切な問題要望‐支援情報ペアをマッチングできる性能が向上することが実験の結果明らかになった。
〈要望核‐支援核ペアの作用と効果〉
要望報告と支援情報が適切にマッチできる場合は、これら情報の組合せが要望核‐支援核ペアを含む傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクを届けてください!」という要望連絡と「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報とは、前者の要望が、後者の支援情報によって解決する、又は、後者の情報が前者の問題の解決に貢献する、という意味で適切なマッチングと考えられる。これらの情報の組合せは、「粉ミルクを届けてください⇔粉ミルクを配布する」という要望核‐支援核ペアに該当する表現を含む。そこで、以下に述べる実施の形態では、分類器の素性として、要望報告と支援情報とのペアに要望核‐支援核ペアが有るか無いかを利用する。この素性を利用した場合には、利用しない場合と比較して適切な要望連絡‐支援情報ペアをマッチングできる性能が向上することが実験の結果明らかになった。
[システムの構成]
図1を参照して、この実施の形態に係る情報マッチングシステム30は、インターネット40から、問題報告、要望連絡及び支援情報を含む様々な情報(以下これらを「メッセージ」と呼ぶ。)を収集し、後続する情報処理に適した形式に整形する情報収集部50と、情報収集部50により収集され整形されたメッセージに対して形態素解析を行なって、品詞等の情報が付与された形態素列の形式で出力する形態素解析部52と、形態素解析部52が出力する形態素解析後のメッセージに対して係り受け解析を行ない、形態素間の係り受け関係をメッセージに付与して出力する係り受け解析部54と、係り受け解析部54により係り受け関係が付与されたメッセージの出所である地名又は場所名を特定し、各メッセージに付与する地名・場所特定部58と、地名・場所特定部58がメッセージの出所を特定するために利用する地名・場所辞書を記憶する地名・場所辞書記憶装置56とを含む。携帯電話等から発信されるTwitter等のメッセージには、地名ではなくその発信地の緯度・経度情報が付与されることがある。地名・場所特定部58は、そのような緯度・経度情報から地名・場所名を特定する機能も持っている。
情報マッチングシステム30はさらに、情報収集部50により収集され、形態素解析部52、係り受け解析部54及び地名・場所特定部58により処理されたメッセージを蓄積する情報蓄積部60と、処理対象の情報を分類するための機械学習モデルによる判定に用いる複数種類の素性を算出するために必要な情報(分類用素性の生成用データ)を格納する記憶装置62とを含む。
情報マッチングシステム30はさらに、記憶装置62に記憶されたデータを用い、情報蓄積部60に蓄積されたメッセージの各々について素性を算出し、同じ素性を用いて学習済の機械学習モデルを用いて、メッセージを問題報告というカテゴリに属するテキストとそれ以外のテキストとに分類して問題報告のテキストを収集する問題報告収集装置64と、問題報告収集装置64により収集された問題報告を蓄積する問題報告蓄積部70と、記憶装置62に記憶されたデータを用いて情報蓄積部60に蓄積されたメッセージの各々について所定の素性を算出し、予め学習データにより学習済の機械学習モデルを用いることによりメッセージを支援情報というカテゴリに属するテキストとそれ以外のテキストとに分類し、支援情報を収集する支援情報収集装置66と、支援情報収集装置66により収集された支援情報を蓄積する支援情報蓄積部72と、記憶装置62に記憶されたデータを用い、情報蓄積部60に蓄積されたメッセージの各々について所定の素性を算出し、学習済の機械学習モデルを用いてメッセージを要望連絡というカテゴリに属するものとそれ以外とに分類し、要望連絡を収集する要望連絡収集装置68と、要望連絡収集装置68により収集された要望連絡を蓄積する要望連絡蓄積部74とを含む。問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68は、この情報マッチングシステム30で情報をマッチさせる準備として、予めテキストを分類するために好適に用いられる装置である。これらは分類のための機械学習モデルの素性として同じものを使用する。学習時と、実際の分類処理時とでも同じ素性を用いる。ただし、学習時には人手で教師データが付加されている。
本実施の形態では、問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68は記憶装置62に記憶されたデータを用いた機械学習により実現される。
機械学習の素性としては、核構成マトリックスにしたがい、メッセージ中の核(問題核、支援核、要望核)が持つ名詞の分類(トラブル系/非トラブル系)と核の述部の極性(活性/不活性)とから判定した核の種類と、図示しない評価表現辞書を用いて得られる、メッセージ中の評価表現、評価タイプ及び評価極性と、核中の名詞の意味クラスと、メッセージの係り受け関係において核に含まれる名詞を含むn−グラム等を用いる。後述するとおり、このn−グラムによって、メッセージに含まれる時間情報と、メッセージに関連した地域の情報と、メッセージのモダリティとがマッチングのための素性に含まれることになる。
メッセージのモダリティとは、メッセージの記載の仕方に関連する主観的な意味内容のことをいう。例えば、「水が無い」「水が届く」というペアとして以下の3つの文脈(A)〜(C)があったときに、(A)と、(B)及び(C)とを区別するためのものである。
(A)「水が無い」「水が届く予定です」
(B)「水が無い」「水が届くというのはデマ」
(C)「水が無い」「水が届くことを予想してます」
モダリティの分類の仕方には様々な立場があるが、大きく分けると、メッセージの内容に対する書き手の判断のあり方を表すモダリティと、読み手に対する態度を表すモダリティとの2つがある。前者はさらに、真偽判断のモダリティと、価値判断のモダリティとに分けられる。これらは、メッセージ中の述部に付随した表現(モダリティ要素)を手掛かりとして判定できる。例えば、真偽判断のモダリティとしては、断定、推量、判断、伝聞、説明等がある。上の例では「デマ」及び「予想してます」という語が、この文が推量、又は伝聞の類であることを示し、本実施の形態のような用途ではマッチングに対象として不適切であることを示す。一方、(A)のように文の述部が動詞等の終止形で終わる場合には、事実を述べているため、マッチングの対象として適切である。モダリティを判断するための語は、メッセージの核を中心としてその核に関連した位置に配されることが多い。したがって、メッセージの係り受け関係において核に含まれる名詞を含むn−グラムを素性に使用することにより、メッセージのモダリティを考慮した形でメッセージのマッチングができる。
メッセージ内の時間情報、及び地域に関する情報についても同様である。
記憶装置62が記憶する情報は、メッセージに関する前述の核構成マトリックスを構成するために、名詞の分類(トラブル系/非トラブル系)を記憶する図示しないトラブル表現辞書と、述部の極性(活性/不活性)を記憶した図示しない極性辞書と、メッセージが含む評価表現を特定するために使用される評価表現辞書と、メッセージが何らかの要求表現を含むか否かを判定するために使用される図示しない要求表現辞書と、各名詞についてその属する意味クラスを特定するための、名詞の意味クラス辞書とを含む。
評価表現辞書とは、前述したように、メッセージ中に、何らかの事物に対する評価が存在しているか否かを判定するための辞書である。評価表現の判定とは、テキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価(以下、これらをまとめて「評価情報」と呼ぶ。)がテキスト中の各文に存在するかどうかの判定を行なう処理である。その文に評価情報が存在すると認められた場合、その評価情報を表す表現の抽出(評価表現抽出)、その評価情報の意味的な分類(評価タイプ分類)及びその評価情報が肯定的なニュアンス(ポジティブ)を表すのか、否定的なニュアンス(ネガティブ)を表すのかの判定(評価極性判定)等を行なう。
トラブル表現辞書とは、核の名詞がトラブルを表すか、表さないかを判断するための辞書で、病気、災害、故障等に関連する名詞を収録してある。
極性辞書は、核に含まれる助詞と述部の組合せが、活性か、不活性か、それ以外かを判定するためのものである。様々な述部の表現と、各述部の極性が活性か不活性かを人手で判定した情報とを収録してある。
要求表現辞書とは、メッセージ内又は核に含まれる述部が、要求マーカを含むか否かを判定するもので、人手で収集した要求マーカを収録してある。
意味クラス辞書とは、単語を意味的に類似した単語からなるクラス(意味クラス)に分類したものを収録した辞書である。例えば、「インフルエンザ」「アトピー性皮膚炎」が同じ意味クラスとして登録されている。
情報マッチングシステム30はさらに、問題報告蓄積部70に蓄積された問題報告と支援情報蓄積部72に蓄積された支援情報とについて、それぞれから1つずつ情報を取り出すことでペアを作成し、学習済の機械学習モデルを用いてそのペア内の情報のマッチングを行ない、マッチした問題報告と支援情報とを関連付けた情報(マッチ情報)を出力する問題報告・支援情報マッチング装置76を含む。問題報告・支援情報マッチング装置76は、問題報告と支援情報とについて、共起対マトリックス手法に基づいてそれぞれから得られる素性を含む所定の素性の組を用いてマッチングを行なう。
情報マッチングシステム30はさらに、支援情報蓄積部72に蓄積された支援情報と要望連絡蓄積部74に蓄積された要望連絡とについて、それぞれから1つずつ情報を取り出すことでペアを作成し、学習済の機械学習モデルを用いてそのペア内の情報のマッチングを行ない、マッチした支援情報と要望連絡とを関連付けたマッチ情報を出力する要望連絡・支援情報マッチング装置78を含む。要望連絡・支援情報マッチング装置78も、要望連絡と支援情報とについて、共起対マトリックス手法に基づいてそれぞれから得られる素性を用いてマッチングを行なう。
情報マッチングシステム30はさらに、問題報告・支援情報マッチング装置76及び要望連絡・支援情報マッチング装置78により出力されたマッチ情報を記憶する関連情報DB80と、問題報告・支援情報マッチング装置76及び要望連絡・支援情報マッチング装置78で行なわれるマッチングの際のマッチング用素性を生成するためのデータ(マッチング用素性生成用データ)を記憶した記憶装置82とを含む。関連情報DB80はデータベースであるから、例えば各情報の識別子により任意のマッチ情報を呼出したり、特定のキーワードを含むメッセージを含むマッチ情報を呼出したり、特定の地名と関連した場所をキーとして任意のメッセージを含むマッチ情報を呼出したりできる。
問題報告・支援情報マッチング装置76と要望連絡・支援情報マッチング装置78とは互いに同じ構成であり、本実施の形態では機械学習手法の一例であるSVM(Support Vector Machine)を用いる点でも同様である。ただし、SVMの学習の際に用いられるデータが異なっている。
情報マッチングシステム30はさらに、インターネットに接続されたウェブサーバ86と、関連情報DB80を用いた情報検索のためのプログラムからな出力生成部84とを含む。出力生成部84は、ウェブサーバ86を介して受信した問合せに応答して、上記した情報マッチングシステム30の各部を用いて、この問合せに含まれるメッセージを問題報告、支援情報及び要望連絡に分類して蓄積する。出力生成部84はまた、問合せに含まれるメッセージと、既存の問題報告、支援情報及び要望連絡とのマッチングをしてマッチング結果を関連情報DB80に蓄積する。出力生成部84はさらに、問合せに含まれるメッセージを含むマッチ情報であって、かつ問合せに含まれる検索条件を満足するマッチ情報を関連情報DB80から読出し、整形した出力データをウェブサーバ86を介して相手に送信する。
関連情報DB80が生成されれば、その後は、関連情報DB80内の情報から、マッチした問題報告と支援情報又は要望連絡と支援情報とを抽出して端末に表示したり、他の装置にデータとして提供したりできる。この処理は、出力生成部84で実行されるプログラムにより行われる。ここでは、一例として、ウェブサーバ86を介して他の端末から問題報告、要望連絡又は支援情報等を含むメッセージの入力を受けたときに、そのメッセージとマッチするメッセージを返信する処理を出力生成部84で実現する。後述するように、出力生成部84によるマッチングでは、メッセージが発信された位置に関する地理的情報までマッチングの要素にできる。
いうまでもなく、この情報マッチングシステム30は通信機能を有するコンピュータハードウェアと、そのハードウェアにより実行されるコンピュータプログラムと、そのコンピュータプログラムの実行時に出力生成のために必要なデータとにより実現される。これらのうち、図1に示す情報収集部50、形態素解析部52、係り受け解析部54及び地名・場所特定部58は、従前の技術により容易に実現できる。したがってここでは、インターネット40から収集したメッセージから問題報告、支援情報、要望連絡を収集する処理と、それら情報をマッチングしてマッチ情報を生成し記憶する処理と、マッチ情報を利用して有用な情報を生成する処理とについて説明する。
図2に、図1に示す問題報告収集装置64の構成をブロック図形式で示す。図1に示す支援情報収集装置66及び要望連絡収集装置68の構成も問題報告収集装置64と同様である。したがって以下では主として問題報告収集装置64の構成について説明する。
図2を参照して、問題報告収集装置64は、情報蓄積部60から新たなメッセージを読出して、入力されたメッセージの係り受け関係の情報、形態素列等に基づき、記憶装置62に記憶されたデータを用いて所定の素性を算出する素性算出部100と、予め学習データにより、素性算出部100により算出された素性により学習済で、入力された素性ベクトルに基づいて、メッセージが問題報告か否かの判定結果をそのスコアとともに出力するSVM102と、SVM102により問題報告であると判定されたメッセージを選択して、SVM102のスコアを付して問題報告蓄積部70に格納する選択部104とを含む。SVM102は、多数のメッセージについて、それらから得た上記した素性の組と、メッセージが問題報告か否かを示すフラグ(正解データ)とにより構成される学習データを用いて学習済である。本実施の形態では、前述した核構成マトリックスという考え方により得られる素性(名詞の分類及び述部の極性)が使用されている点に特徴がある。
支援情報収集装置66及び要望連絡収集装置68も、その構成は問題報告収集装置64と同じである。ただし、支援情報収集装置66ではSVM102の学習に、メッセージが支援情報か否かのフラグが付された学習データを使用して学習を行なう点及び要望連絡収集装置68ではメッセージが要望連絡か否かを示すフラグが付された学習データを使用して学習を行なう点が問題報告収集装置64と異なる。
図3は、図1に示す問題報告・支援情報マッチング装置76の簡略化したブロック図である。要望連絡・支援情報マッチング装置78も基本的には問題報告・支援情報マッチング装置76と同じ構成である。したがって、以下では問題報告・支援情報マッチング装置76の構成のみについて説明する。
図3を参照して、問題報告・支援情報マッチング装置76は、問題報告蓄積部70及び支援情報蓄積部72の双方から1つずつメッセージを読出し、その2つのメッセージの組から、記憶装置82に記憶されたデータを用いて所定の素性を算出し素性ベクトルとして出力する素性算出部130と、素性算出部130から出力される素性ベクトルに基づいて、処理対象の問題報告と支援情報とがマッチするか否かを出力するよう、予め学習済のSVM132と、SVM132の出力に基づいて、素性算出部130が処理した問題報告と支援情報との組合せのうち、マッチするもののみを選択して関連情報DB80に格納する選択部134とを含む。素性算出部130が算出する素性は、前述した共起対マトリックス手法に基づく素性である、「名詞+述部」を構成する名詞における共通語の有無、共通する意味クラスの有無を含み、さらに、問題報告収集装置64のSVM102(図2参照)による判定時のスコアを含む。
SVM132についても、予めマッチしていると判定された問題報告と支援情報とを含む学習データにより、素性算出部130が算出する素性と同じ素性を用いて学習を行なっている。学習済のSVM132は、問題報告と支援情報とが与えられると、それらがマッチするか否かを出力する。
要望連絡・支援情報マッチング装置78の構成は問題報告・支援情報マッチング装置76と同一である。ただし、SVM132の学習を行なう際の学習データが、要望連絡と支援情報との組合せに関するものである点が問題報告・支援情報マッチング装置76の場合と異なる。
本実施の形態に係る出力生成部84は、ユーザが入力したメッセージに対し、そのメッセージとマッチする情報を出力するという機能を持つ。ここでは、入力されるメッセージとして、典型的には、「アレルギー対応の幼児ミルクが不足しています。」、「アレルギー対応の幼児粉ミルクを○○市役所で配布します。」等のような、問題報告、支援情報、または要望連絡のいずれかを含むメッセージを想定する。出力生成部84は、入力されたメッセージがこれらのいずれに相当するかに応じ、入力されたメッセージとマッチする情報を関連情報DB80から検索して一覧表示する。以下に説明するのは、出力生成部84を実現するプログラムとその入出力画面の一例である。
図4を参照して、遠隔地の端末からウェブブラウザを経由して出力生成部84にアクセスすることにより表示される入力画面220は、メッセージの入力フィールド230と、検索に関する日付情報の入力パネル232と、地理的条件の入力パネル234と、検索のリクエストを情報マッチングシステム30に対して送信するトリガーとなる検索ボタン236とを含む。日付情報の入力パネル232及び地理的条件の入力パネル234は、メッセージの入力フィールド230とマッチする情報の内でも、さらに特定の条件で情報を絞り込むためのものである。ここでは日付及び地理的条件で情報を絞り込むことにしているが、さらに別の情報(たとえばキーワード、発信者、発信時刻、完了しているか否か)等を絞り込みの条件にしてもよい。
図5は、図4に示す画面で何らかのメッセージを入力して情報マッチングシステム30に送信した後、情報マッチングシステム30から返信されてくる画面の一例を示す。この例では、画面250は、ユーザにより入力されたメッセージを確認のために表示する入力表示領域260と、入力されたメッセージとマッチする情報を表示するマッチング情報表示パネル262と、マッチング情報表示パネル262に表示されたメッセージの発信地域又は関連地点を地図上にピン266の形式で表示する地図パネル264と、ユーザによって入力された検索条件を確認のために表示する検索条件表示パネル268と、条件を変えて検索するときにユーザが操作する再検索ボタン270とを含む。再検索ボタン270をクリックすると、図4に示す入力画面220が表示される。
図6に、出力生成部84を実現するプログラムの一例として、図4及び図5に示す画面を用いてユーザから入力されたメッセージとマッチする情報をユーザ端末に返信するプログラムの制御構造を示す。出力生成部84は、これ以外にも関連情報DB80を利用した様々な形のウェブアプリケーションとして実現可能である。
図6を参照して、このプログラムは、ウェブサーバ86がユーザ端末からの検索要求を受信し、出力生成部84に引き渡すことで起動される。引数として、ユーザにより入力されたメッセージ、日付に関する検索条件及び地理的な検索条件がこのプログラムに渡される。この要求を発行した端末のGPS情報を、地理的情報に加えて、このプログラムに渡すようにしてもよい。この例ではそうしたGPS情報が出力生成部84に引数として渡されるものとする。
最初に、メッセージに対する形態素解析を行ない(ステップ290)、形態素列を出力する。この形態素列に対する係り受け解析を行ない(ステップ292)、このメッセージに付与されている地理的情報又はGPS情報に基づいて、図1に示される地名・場所辞書記憶装置56を用いてメッセージが発行された場所を特定して(ステップ294)メッセージに付加し、図1の情報蓄積部60に追加する。これらの処理は、図1に示す形態素解析部52、係り受け解析部54及び地名・場所特定部58が実行する。
続いて、入力されたメッセージから、ステップ298で記憶装置62に格納された情報及び所定の素性算出方法にしたがって、メッセージの素性の組を算出し、素性ベクトルを形成する。続くステップ300で、図1に示す問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68のそれぞれのSVM102(図2参照)により、処理中のメッセージが問題報告、問題報告及び要望連絡のいずれかに該当するか否かを判定する。判定の結果、メッセージが問題報告であれば問題報告蓄積部70に、支援情報であれば支援情報蓄積部72に、要望連絡であれば要望連絡蓄積部74に、それぞれ蓄積する(ステップ302)。
このように、入力されたメッセージを問題報告、支援情報及び要望連絡のいずれかに分類して蓄積するのは、このメッセージを、後に入力されるメッセージとのマッチング対象として追加するためである。
その後、分類結果が何であったかを判定する(ステップ304)。入力されたメッセージが問題報告又は要望連絡である場合は、ステップ306で支援情報とのマッチングを行ない、メッセージが支援情報である場合はステップ308でこのメッセージと問題報告及び要望連絡とマッチングを行なう。続いて、ステップ306又はステップ308のマッチングの結果、メッセージとマッチした情報があるか否かを判定する(ステップ309)。このメッセージとマッチした情報があれば、マッチした情報とこのメッセージとを関連付けて関連情報DB80に追加する(ステップ310)。
この後、関連情報DBに追加されたマッチ情報に基づいて、図5に示す画面250に対応するHTML文書をステップ312で生成し、最初のメッセージを送信してきた端末に返信して、入力されたメッセージに対する処理を終了する。
ステップ309の判定が否定の場合、すなわちステップ306及びステップ308で入力メッセージとマッチした情報がなかった場合には、制御はステップ314に進む。ステップ314では、入力されたメッセージとマッチした情報がなかったことを示す画面を出力して処理を終了する。この画面には、例えば「入力メッセージにマッチした情報はありませんでした。今後、マッチした情報が発見されたら通知しますか?」というテキストが画面250に表示され、通知をするか否かを選択するボタン等と、通知する際に必要な情報(メールアドレス等)を入力するためのフィールド、ボタン等とが表示される。ここで通知することが選択されたときには、このメッセージを含むマッチ情報を関連情報DB80で検索し、何らかのマッチ情報が発見されたら記録されているメールアドレスにその情報を送信する処理が必要になる。しかし、この情報送信の処理は本発明の本質的な部分には直接関連しないので、ここではその詳細は述べない。
入力されたメッセージが問題報告、支援情報、及び要望連絡のいずれでもないとステップ304で判定された場合には、制御はステップ316に進む。この場合は、入力されたメッセージが適切なものでなかったことが予想される。したがって、ステップ316で、先に入力したメッセージの表現等の条件を変えて再度メッセージを入力することを示すメッセージを画面250に表示させて処理を終了する。ユーザが再検索ボタン270を押すと図4に示す入力画面220が表示される。ユーザは、メッセージの表現、及び日時、場所等の検索条件を変えて再検索を実行できる。
[システムの動作]
以上説明した情報マッチングシステム30は以下のように動作する。図1を参照して、これに先立って、図1に示す問題報告収集装置64、支援情報収集装置66、要望連絡収集装置68、問題報告・支援情報マッチング装置76及び要望連絡・支援情報マッチング装置78のSVMは、予め適切な学習データで学習を完了しているものとする。
情報マッチングシステム30の情報収集部50は、最初にインターネット40上に存在する様々な情報を収集し、形態素解析部52に与える。ここでは、例えばTwitter等のように、比較的短い文で問題報告、要望連絡及び支援情報を伝達するようなシステム上で発信されている情報を主として収集する。形態素解析部52は各情報に対して形態素解析し、係り受け解析部54はさらに係り受け解析をして、各情報に各文の係り受け情報を付する。これら情報にはさらに、地名・場所特定部58が、関連する地域又は発信された地域等に関する情報を付与する。最終的にこれら情報は情報蓄積部60に蓄積される。なお、情報収集部50が収集する情報には、通常はその情報が発信された日付及び時刻が付されている。
問題報告収集装置64の素性算出部100(図2参照)は、情報蓄積部60から情報を読出し、記憶装置62に記憶された素性生成用データを用いて問題報告の判定のための素性をその情報から抽出して、素性ベクトルを生成する。これらの素性の中には、前述した通り、核構成マトリックス手法に基づき、情報中の名詞+述部の名詞に関する分類(トラブル系/非トラブル系)と、述部の極性(活性/不活性)とを表す素性が含まれる。
SVM102は、この素性ベクトルを受け、その素性ベクトルに対応する情報が問題報告か否かを判定し、判定結果を出力する。選択部104は、判定が肯定(情報は問題報告である。)ならこの情報を問題報告蓄積部70に追加する。判定が否定ならこの情報については何もせず、問題報告収集装置64は次の情報の処理に移る。
支援情報収集装置66及び要望連絡収集装置68も問題報告収集装置64と同様に動作する。ただし、それぞれのSVMは、問題報告収集装置64のSVMと異なる学習データで学習を行なっているため、それぞれ、入力された情報が支援情報か否かと、要望連絡か否か、とを判定する。それ以外の点では問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68の動作に異なる点はない。
こうして、問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74には、問題報告、支援情報及び要望連絡がそれぞれ蓄積される。
問題報告・支援情報マッチング装置76は、問題報告蓄積部70又は支援情報蓄積部72に新たな情報が蓄積されるたびに、その情報についてのマッチング処理を行なう。新たな情報が問題報告の場合には、支援情報蓄積部72に蓄積された支援情報の全てとマッチングを行ない、新たな情報が支援情報の場合には問題報告蓄積部70に蓄積された問題報告の全てとマッチングを行なう。ここでは、新たに問題報告蓄積部70に問題報告が追加されたときの問題報告・支援情報マッチング装置76の動作を説明する。
図3を参照して、素性算出部130は、問題報告蓄積部70から新たな問題報告を読出すと、支援情報蓄積部72に蓄積された支援情報を読出し、その各々と、新たな問題報告とを組合せて、問題報告と支援情報との組合せを生成する。素性算出部130はさらに、これら組合せの全てについて、記憶装置82に記憶されたデータを用いて素性を算出し、素性ベクトルを生成する。これら素性は、問題報告収集装置64で使用された素性の全てに加え、前述した共起対マトリックス手法に基づく素性である、「名詞+述部」を構成する名詞における共通語の有無、共通する意味クラスの有無を含み、さらに、問題報告収集装置64のSVM102(図2参照)による判定時のスコアを含む。
SVM132は、素性算出部130により生成された素性ベクトルを受け、その素性ベクトルに対応する組合せに含まれる問題報告と支援情報とが、互いにマッチするか否かを判定し、その判定結果を出力する。
選択部134は、SVM132の判定が肯定である組合せには関連情報DB80に追加し、そうでないときは何もしない。
新たに問題報告・支援情報マッチング装置76が読出した情報が支援情報であるときは、問題報告・支援情報マッチング装置76は、上記した説明で支援情報と問題報告とを入れ替えた動作を行なう。
したがって、問題報告・支援情報マッチング装置76により、関連情報DB80には、互いにマッチする問題報告と支援情報とが関連付けられて蓄積されていく。
要望連絡・支援情報マッチング装置78の動作も同様である。したがって要望連絡・支援情報マッチング装置78の動作の詳細は繰返さない。要望連絡・支援情報マッチング装置78のSVMが使用する素性も、この実施の形態では問題報告・支援情報マッチング装置76が使用する素性と同じである。要望連絡・支援情報マッチング装置78により、関連情報DB80には、互いにマッチする支援情報と要望連絡とが関連付けられて蓄積されていく。
このようにして、関連情報DB80には、互いにマッチする問題報告と支援情報とからなるマッチ情報及び支援情報と要望連絡とからなるマッチ情報が蓄積される。このマッチ情報が蓄積できれば、後はこの情報を様々に利用できる。本実施の形態で出力生成部84が実行する処理は、マッチ情報の利用方法の一例に過ぎない。これ以外にもこの情報の利用方法は数多く考えられる。
本実施の形態に係る情報マッチングシステム30を利用しようとするユーザがある問題に遭遇し、その問題に対する解決策を知りたい場合を考える。ユーザは、情報マッチングシステム30を利用するために、図4に示す入力画面220を端末に表示させる。例えば、情報マッチングシステム30を利用するためのURLにブラウザでアクセスするとこの画面が表示される。
ユーザは、メッセージの入力フィールド230に自分が遭遇した問題、自分が提供しようとする支援に関する情報、何らかの要望事項等を表すメッセージを入力し、必要に応じて入力パネル232及び入力パネル234に検索条件を入力する。ユーザが検索ボタン236をクリックすると、メッセージのテキストと、入力された検索条件とをパラメータとして、検索要求が情報マッチングシステム30のウェブサーバ86に送信される。
図1を参照して、ウェブサーバ86はこの検索要求を受信すると、メッセージのテキストと、入力された検索条件とをパラメータとして出力生成部84に渡す。出力生成部84は、図6に制御構造を示すプログラムにパラメータを渡してこのプログラムを起動する。
図6を参照して、出力生成部84は、入力されたメッセージに対して形態素解析(ステップ290)、係り受け解析(ステップ292)及び場所特定処理(ステップ294)をしたうえで、入力されたメッセージとステップ290,292及び294で得られた情報とを図1に示す情報蓄積部60に蓄積する。検索条件が入力された場合、それらは「○月○日に」、「○○において」というような形でメッセージに付加される。
問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68は、情報蓄積部60に新たな情報が蓄積されるたびに、問題報告、支援情報及び要望連絡をそれぞれ収集し、問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74にそれぞれ蓄積する。
問題報告・支援情報マッチング装置76は、問題報告蓄積部70又は支援情報蓄積部72に新たな問題報告又は支援情報が蓄積されるたびに、その情報とマッチする支援情報又は問題報告を支援情報蓄積部72及び問題報告蓄積部70からそれぞれ検索し、マッチする情報同士を関連付ける情報を関連情報DB80に蓄積する。同様に、要望連絡・支援情報マッチング装置78は、支援情報蓄積部72又は要望連絡蓄積部74に新たな情報が蓄積されるたびに、その情報とマッチする要望連絡又は支援情報を要望連絡蓄積部74及び支援情報蓄積部72からそれぞれ読出し、マッチする情報同士を関連付ける情報を関連情報DB80に蓄積する。出力生成部84は、関連情報DB80を検索して、入力されたメッセージと関連付けられた情報を抽出し、その情報を図5のマッチング情報表示パネル262に一覧表示する。関連付けられた情報が多数ある場合にはマッチング情報表示パネル262はスクロール可能とする。出力生成部84はさらに、マッチング情報表示パネル262に表示された各情報について、それらに付されている地理的情報に基づいて、地図パネル264に各情報の発信された位置又は各情報が関連付けられている位置にピン266等を表示する。
このように、入力されたメッセージとマッチする情報だけでなく、それらマッチした情報が発信された位置等を地図上に表示することで、どこでどのような問題が生じているか、どのような支援が提供されているか、どのような要望事項が発生しているかを容易に確認できる。したがって、効率的に、自分の持つ問題を解決したり、支援を有効に活用したり、必要性の高い地域に優先的に支援を回したりすることが可能になる。
なお、図5に示すような表示をする場合、既に解決した問題、災害時に既に必要な救援が得られ解決した問題報告、災害時に支援物資の配布が終了した支援情報等については、表示から取り除くことが望ましい。そのためには、例えば図5に示すような画面を元に支援の分配先等を定めてそれら支援の提供者に連絡した後に、その処置によって解決した問題、支援物資が消尽した支援情報、及び充足された要望連絡等については、図5において完了を示すフラグを入力できるようにすればよい。このフラグを問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74に蓄積される情報、並びに関連情報DB80に蓄積されるマッチ情報に付与しておくことにより、既に解決済の問題報告、要求が充足された要望連絡、支援作業が完了した支援情報等については図5の画面250に表示されなくなる。
そのような構成の結果、次々に状況が変わるような環境下であっても、効率的に問題又は要望とその解決とをマッチさせることができる。
[実施の形態の効果]
本実施の形態に係るシステムの効果が最も発揮される利用例の1つは、大規模災害時における被災者と支援団体のコミュニケーションの円滑化に関連する。大規模災害時には、先述したように、被災者からの問題報告及び要望連絡がTwitter等を介して発信されるものの、多量に発信されるツイートにこれらの情報が埋没してしまうという傾向がある。支援団体等が発信する支援情報についても同様である。こうした現象は、被災者が支援情報を必要としているにもかかわらず入手しにくいという問題に繋がる。一方で、支援団体にとっては、最も支援を必要としている相手が発見できないという問題に繋がる。仮に、被災者の要望及び問題を支援団体が認識できても、どの問題等が対処されたのかわからない状況では、複数の支援団体が同じ要望や問題に対応し、結果として、資源や時間が無駄に消費されるという問題にも繋がる。
本実施の形態は、このような問題を解決する。問題報告・要望連絡・支援情報を特定し収集する技術は、必要とされる情報の埋没を防ぎ、被災者が支援情報を入手するのを容易にし、被災者が抱える問題及び要望を支援団体が把握することに貢献する。さらに、問題報告‐支援情報又は要望連絡‐支援情報のマッチング技術は、ある被災者が発信した問題報告に直接的に関連する支援情報を見つけ出し、リプライすること等を可能とする。また、支援団体にとっては、支援情報とマッチングされた問題報告又は要望連絡と、マッチングが見つからない問題報告又は要望連絡とを区別することで、どのような問題又は要望に対処できており、どのようなものに対処ができていないかを概観できるようになる。この結果、支援団体の資源及び時間の浪費を減らすことに貢献できる。
なお、上記した実施の形態に係るシステム及びその考え方は、災害時に限定して利用可能なわけではない。日常的な商用利用においても価値が高い。例えば、上記実施の形態と同じ考え方で、あるユーザがコンピュータに関する問題、病気に関する問題又は何らかの要望を入力すると、ウェブ上にある情報をソースとして対処方法を支援情報として自動的に列挙する検索システム等を開発できる。
上記実施の形態では、問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74が互いに別の装置であるものとして説明したが、これらを1つの記憶装置に格納することもできる。同じファイルにこれらを全て格納することも可能である。要は、これら別々のカテゴリに属する情報を互いに区別できればよい。例えばファイル内の各レコードにそれらのカテゴリを表す情報を付すようにすればよい。
現在、スマートフォンで音声により提供される質問応答システムが脚光をあびているが、質問‐応答システムで問題を解決するためには、どのような質問をすれば問題が解決できるのかを考慮しなくてはならない。適切な質問を考慮するためには、専門知識等が要求される場合も多い。上記実施の形態は、問題から直接に支援情報を検索することを可能とするため、質問‐応答システムの次世代の技術を構築するさきがけとなり、新しいサービスの開発にも貢献するという意味で重要なものである。
[実験結果]
なお、上記実施の形態の効果を検証するため、いくつかの実験を行なった。以下に、その実験結果を比較例とともに示す。テーブル5,6,7はそれぞれ、問題報告、支援情報及び要望連絡の特定精度に関する実験結果である。
Figure 0006206840
なお、上のテーブル5〜7において、「実施の形態」は、上記実施の形態で説明した通り、核構成マトリックスにしたがい、メッセージ中の核(問題核、支援核、要望核)が持つ名詞の分類(トラブル系/非トラブル系)と、核の述部の極性(活性/不活性)と、評価表現辞書を用いて得られる、メッセージ中の評価表現、評価タイプ、及び評価極性等と、核中の名詞の意味クラスと、メッセージの係り受け関係において、核に含まれる名詞を含むn−グラム等を用いる。比較例1は、実施の形態で用いたのと同様の手法だが、SVMの素性として名詞の分類(トラブル系/非トラブル系)と、核の述部の極性(活性/不活性)とを使用しないもの、すなわち核構成マトリックスに関連する素性を使用せずに行った実験結果である。比較例2は、実施の形態で用いたのと同様の手法だが、評価表現辞書を用いて得られる素性を使用せずに判定を行なったものである。比較例3は、実施の形態で用いたのと同様の手法だが、単語意味クラスを素性として使用せずに判定を行なったものである。
各SVMの実験には、学習データ13,000件を用い、テストデータとして予め収集したデータから無作為に抽出した1,000件を用いた。評価者は発明者とは異なる3名であった。評価者による評価の一致率(Fleiss’ Kappa)は0.74であり、これは評価者による評価が十分な一致を示していることを表す。
一方、マッチングの実験結果を、問題報告と支援情報とのマッチングを例として次のテーブル8に示す。
Figure 0006206840
この実験は、9,000件の学習データで問題報告・支援情報マッチング装置76の学習をし、1,000件のテストデータで行なった。テストデータは、予め準備したデータから、1つの名詞の出現回数が30回以下となるように選択した。評価者は問題報告の実験の場合と同様、発明者以外の3人であった。その評価の一致率はFleiss’ Kappaで0.63と、これも評価が十分に一致していることを示している。
以上のように本実施の形態によるシステムでは、種々の情報について、例えば問題報告とその解決策とを、ネットワーク上の膨大な情報からマッチングさせ、提示できる。したがって、キーワード検索等を用いるだけの検索サービスと比較して、はるかに的確にユーザが知りたい情報を探し出すことができる。したがって、今までの検索サービスに代わって、国外、国内の検索サービス等で広く利用される可能性がある。さらに、大規模災害時等においては、行政関係機関、NPO、ボランティアグループ等が、被災者とのコミュニケーションを円滑化する上で、上記実施の形態のようなシステムを活用できる。互いに問題とその回答、要望とその充足という関係にあるような情報が、今までは互いに全く関連付けられずに存在していたのと比較して、上記実施の形態ではそれらの間に明示的な関係をつけることが可能になり、情報をより整理した形で、適時にユーザに提示することが可能になる。
[ハードウェア構成]
上記実施の形態に係る情報マッチングシステム30は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行される上記したコンピュータプログラムとにより実現できる。図7はこのコンピュータシステム330の外観を示し、図8はコンピュータシステム330の内部構成を示す。
図7を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図8を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートプログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、ハードディスク354を含む。コンピュータシステム330はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)344を含む。
コンピュータシステム330を上記した実施の形態に係る情報マッチングシステム30の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352に装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムはネットワーク368を通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、リムーバブルメモリ364から又はネットワーク368を介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340を、上記実施の形態に係る情報マッチングシステム30の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ340にこの動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム又は、コンピュータ340にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。
上記実施の形態では、情報蓄積部60、記憶装置62、問題報告蓄積部70、支援情報蓄積部72、要望連絡蓄積部74及び記憶装置82等はRAM360又はハードディスク354により実現される。これらの値はさらに、USBメモリ等のリムーバブルメモリ364に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。同様に、関連情報DB80も、RAM360及びハードディスク354と、CPU356で実行されるデータベース管理プログラムとにより実現される。データベース管理プログラムとしては、商業的に利用可能なものに加えて、いわゆるオープンソースのデータベース管理プログラムを使用することもできる。
コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 情報マッチングシステム
40 インターネット
50 情報収集部
52 形態素解析部
54 係り受け解析部
56 地名・場所辞書記憶装置
58 地名・場所特定部
60 情報蓄積部
62 分類用素性の生成用データの記憶装置
64 問題報告収集装置
66 支援情報収集装置
68 要望連絡収集装置
70 問題報告蓄積部
72 支援情報蓄積部
74 要望連絡蓄積部
76 問題報告・支援情報マッチング装置
78 要望連絡・支援情報マッチング装置
80 関連情報DB
82 マッチング用素性の生成用データの記憶装置
84 出力生成部
86 ウェブサーバ
100,130 素性算出部
102,132 SVM
104,134 選択部

Claims (9)

  1. 第1及び第2のカテゴリのいずれかに分類されたテキストの集合において、前記第1のカテゴリのテキストに対して、前記第2のカテゴリのテキストを対応付けるテキストマッチング装置であって、
    前記集合に含まれるテキストは、当該テキストを構成する1又は複数の形態素、当該1又は複数の形態素の係り受け情報、及び、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核内の名詞の分類と述部の分類との組合せとを素性として用いた機械学習を用いたテキスト分類装置により前記第1及び第2のカテゴリに分類されており、
    前記テキストマッチング装置は、
    前記第1のカテゴリのテキストと、前記第2のカテゴリのテキストとを互いに区別して記憶する記憶手段と、
    前記記憶手段から、前記第1のカテゴリのテキストと前記第2のカテゴリのテキストとからなるテキストのペアを生成するテキストペア生成手段と、
    前記テキストペア生成手段により生成された前記ペア内のテキストが前記テキスト分類装置により分類されたときの前記素性を含むマッチング用素性を、前記ペアから生成するマッチング用素性生成手段と、
    前記マッチング用素性生成手段により生成されたマッチング用素性を用いて、前記ペアを構成する2つのテキストが互いにマッチするか否かを判定するマッチング手段とを含み、
    前記マッチング手段は、予めマッチング用の学習データを用い、前記マッチング素性により、テキストのペアがマッチするか否かを判定するように学習済の、機械学習モデルを含む、テキストマッチング装置。
  2. 前記マッチング用素性はさらに、前記ペア内のテキストの各々について求められた、前記核内の名詞を含む係り受け関係の部分木上のn−グラムを含み、
    当該n−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含む、請求項1に記載のテキストマッチング装置。
  3. 前記第1及び第2のカテゴリの一方は問題の報告を表すテキストからなるカテゴリであり、他方は問題を解決するための支援情報を表すテキストからなるカテゴリである、請求項1又は請求項2に記載のテキストマッチング装置。
  4. 前記第1及び第2のカテゴリの一方は問題の解決を要望するテキストであり、他方は問題を解決するための支援情報を表すテキストである、請求項1又は請求項2に記載のテキストマッチング装置。
  5. テキストを、問題の報告又は解決に関連する特定のカテゴリに分類するためのテキスト分類装置であって、
    前記テキストを形態素解析し、品詞情報が付された形態素列を出力する形態素解析手段と、
    前記形態素解析手段の出力する形態素列に対し、形態素間の係り受けを解析し、前記テキストの係り受け関係を表す係り受け情報を出力する係り受け解析手段と、
    前記形態素列と、前記テキストの係り受け関係とに基づいて、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定し、当該核内の名詞の分類と述部の分類との組合せを用いて、前記テキストを前記特定のカテゴリとそれ以外のカテゴリとに分類する分類手段を含む、テキスト分類装置。
  6. 前記分類手段は、
    前記形態素列と、前記テキストの係り受け関係とに基づいて、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核を特定する核特定手段と、
    前記核特定手段により特定された核内の名詞を、問題の発生に関連した問題系の名詞と、問題の発生と関連しない非問題系の名詞とに分類する名詞分類手段と、
    前記核特定手段により特定された核内の述部を、その述部に係る名詞により表される事物機能が活性化することを表す述部か、不活性化することを表す述部かに分類する述部分類手段と、
    前記核特定手段により特定された核について、当該核内の名詞について前記名詞分類手段により分類された結果と、当該核内で当該名詞が係る述部について前記述部分類手段により分類された結果との組合せから、前記テキストを前記特定のカテゴリとそれ以外のカテゴリとに分類する手段とを含む、請求項5に記載のテキスト分類装置。
  7. 前記分類する手段は、少なくとも、前記核特定手段により特定された核について、当該核内の名詞について前記名詞分類手段が分類した結果と、当該核内で当該名詞が係る述部について前記述部分類手段が分類した結果との組合せを表す情報を素性として、与えられたテキストが前記特定のカテゴリに属するか否かを判定する、機械学習による判定手段を含む、請求項6に記載のテキスト分類装置。
  8. 前記素性はさらに、前記テキストの各々について求められた、前記核内の名詞を含む係り受け関係の部分木上のn−グラムを含み、
    当該n−グラムのいずれかは、時間情報、地域情報、若しくは各テキストのモダリティを表す形態素、又はこれらの任意の組合せを含む、請求項7に記載のテキストマッチング装置。
  9. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項8のいずれかに記載のすべての手段として機能させる、コンピュータプログラム。
JP2013128454A 2013-06-19 2013-06-19 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム Active JP6206840B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2013128454A JP6206840B2 (ja) 2013-06-19 2013-06-19 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム
EP14813194.9A EP3012746A4 (en) 2013-06-19 2014-05-15 Text matching device and method, and text classification device and method
US14/898,565 US10803103B2 (en) 2013-06-19 2014-05-15 Text matching device and method, and text classification device and method
CN201480034989.6A CN105339936B (zh) 2013-06-19 2014-05-15 文本匹配装置以及方法、和文本分类装置以及方法
KR1020157035100A KR102188292B1 (ko) 2013-06-19 2014-05-15 텍스트 매칭 장치와 방법 및 텍스트 분류 장치와 방법
PCT/JP2014/062912 WO2014203659A1 (ja) 2013-06-19 2014-05-15 テキストマッチング装置および方法、並びにテキスト分類装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013128454A JP6206840B2 (ja) 2013-06-19 2013-06-19 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015005027A JP2015005027A (ja) 2015-01-08
JP6206840B2 true JP6206840B2 (ja) 2017-10-04

Family

ID=52104401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013128454A Active JP6206840B2 (ja) 2013-06-19 2013-06-19 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム

Country Status (6)

Country Link
US (1) US10803103B2 (ja)
EP (1) EP3012746A4 (ja)
JP (1) JP6206840B2 (ja)
KR (1) KR102188292B1 (ja)
CN (1) CN105339936B (ja)
WO (1) WO2014203659A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
WO2017139575A1 (en) * 2016-02-11 2017-08-17 Ebay Inc. Semantic category classification
US10706044B2 (en) * 2016-04-06 2020-07-07 International Business Machines Corporation Natural language processing based on textual polarity
US10635727B2 (en) 2016-08-16 2020-04-28 Ebay Inc. Semantic forward search indexing of publication corpus
US10565242B2 (en) * 2017-01-10 2020-02-18 International Business Machines Corporation Method of label transform for managing heterogeneous information
EP3577570A4 (en) * 2017-01-31 2020-12-02 Mocsy Inc. INFORMATION EXTRACTION FROM DOCUMENTS
JP6805927B2 (ja) 2017-03-28 2020-12-23 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
US20180285775A1 (en) * 2017-04-03 2018-10-04 Salesforce.Com, Inc. Systems and methods for machine learning classifiers for support-based group
JP6649318B2 (ja) * 2017-05-30 2020-02-19 株式会社ソケッツ 言語情報分析装置および方法
CN108305050B (zh) * 2018-02-08 2023-04-07 贵州小爱机器人科技有限公司 报案信息及服务需求信息的提取方法、装置、设备及介质
CN108549723B (zh) * 2018-04-28 2022-04-05 北京神州泰岳软件股份有限公司 一种文本概念分类方法、装置及服务器
CN108763402B (zh) * 2018-05-22 2021-08-27 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN108804591A (zh) * 2018-05-28 2018-11-13 杭州依图医疗技术有限公司 一种病历文本的文本分类方法及装置
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
WO2020222999A1 (en) * 2019-04-29 2020-11-05 Ip.Com I, Llc Method, system, and data storage device for automating solution prompts based upon semantic representation
JP6839868B1 (ja) * 2019-09-20 2021-03-10 博之 宮▲崎▼ コメント共有方法、コメント共有システム及びコメント共有プログラム
JP7390708B2 (ja) * 2019-12-24 2023-12-04 Jcc株式会社 情報掲示システムおよび情報掲示方法
US11694025B2 (en) * 2020-05-04 2023-07-04 Kyndryl Inc. Cognitive issue description and multi-level category recommendation
CN112818668B (zh) * 2021-02-05 2024-03-29 上海市气象灾害防御技术中心(上海市防雷中心) 气象灾情数据语义识别分析方法和***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
JP4348145B2 (ja) * 2003-08-27 2009-10-21 富士通株式会社 文章分類プログラム、文章分類方法および文章分類装置
KR100701044B1 (ko) * 2004-07-20 2007-03-29 황상석 온라인망을 기반으로 하는 위급상황 처리 시스템
EP1669896A3 (en) * 2004-12-03 2007-03-28 Panscient Pty Ltd. A machine learning system for extracting structured records from web pages and other text sources
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
US20100063797A1 (en) 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
WO2010105216A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
KR101173561B1 (ko) 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
US8560567B2 (en) * 2011-06-28 2013-10-15 Microsoft Corporation Automatic question and answer detection
US10372741B2 (en) * 2012-03-02 2019-08-06 Clarabridge, Inc. Apparatus for automatic theme detection from unstructured data

Also Published As

Publication number Publication date
EP3012746A1 (en) 2016-04-27
US20160140217A1 (en) 2016-05-19
CN105339936A (zh) 2016-02-17
JP2015005027A (ja) 2015-01-08
US10803103B2 (en) 2020-10-13
KR20160021110A (ko) 2016-02-24
WO2014203659A1 (ja) 2014-12-24
KR102188292B1 (ko) 2020-12-08
CN105339936B (zh) 2019-06-07
EP3012746A4 (en) 2017-02-15

Similar Documents

Publication Publication Date Title
JP6206840B2 (ja) テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム
Song et al. Social big data analysis of information spread and perceived infection risk during the 2015 Middle East respiratory syndrome outbreak in South Korea
Wallgrün et al. GeoCorpora: building a corpus to test and train microblog geoparsers
US8793254B2 (en) Methods and apparatus for classifying content
Yaqub et al. Analysis and visualization of subjectivity and polarity of Twitter location data
Rosa et al. Event detection system based on user behavior changes in online social networks: Case of the covid-19 pandemic
Vieira Machine translation in the news: A framing analysis of the written press
Joshi et al. Automated monitoring of tweets for early detection of the 2014 Ebola epidemic
Reuter et al. Big data in a crisis? Creating social media datasets for crisis management research
Alzahrani et al. [Retracted] Towards Understanding the Usability Attributes of AI‐Enabled eHealth Mobile Applications
Keselman et al. Adapting semantic natural language processing technology to address information overload in influenza epidemic management
Liu et al. Epic30m: An epidemics corpus of over 30 million relevant tweets
Paramita et al. Do you see what I see? Images of the COVID-19 pandemic through the lens of Google
Chan et al. An online risk index for the cross-sectional prediction of new HIV chlamydia, and gonorrhea diagnoses across US counties and across years
Mukherjee et al. Managing a natural disaster: actionable insights from microblog data
Pei et al. A new method for early detection of mass concern about public health issues
Ye et al. The fear of Ebola: A tale of two cities in China
Yoon et al. DiTeX: Disease-related topic extraction system through internet-based sources
Recabarren et al. Exploring the feasibility of web form adaptation to users’ cultural dimension scores
Subramani et al. Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction
Şahin et al. Emergency detection and evacuation planning using social media
Stronkman Exploiting Twitter to fulfill information needs during incidents
Sandesh et al. Detection of cyberbullying on twitter data using machine learning
Alshehri A machine learning approach to predicting community engagement on social media during disasters
Patel et al. A call for governments to pause Twitter censorship: A cross-sectional study using Twitter data as social-spatial sensors of COVID-19/SARS-CoV-2 research diffusion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170828

R150 Certificate of patent or registration of utility model

Ref document number: 6206840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250