JP6344237B2 - 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム - Google Patents

問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム Download PDF

Info

Publication number
JP6344237B2
JP6344237B2 JP2014528057A JP2014528057A JP6344237B2 JP 6344237 B2 JP6344237 B2 JP 6344237B2 JP 2014528057 A JP2014528057 A JP 2014528057A JP 2014528057 A JP2014528057 A JP 2014528057A JP 6344237 B2 JP6344237 B2 JP 6344237B2
Authority
JP
Japan
Prior art keywords
situation
degree
text
writer
realization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014528057A
Other languages
English (en)
Other versions
JPWO2014021074A1 (ja
Inventor
穣 岡嶋
穣 岡嶋
聡 中澤
聡 中澤
細見 格
格 細見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014021074A1 publication Critical patent/JPWO2014021074A1/ja
Application granted granted Critical
Publication of JP6344237B2 publication Critical patent/JP6344237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、入力されたテキストから問題となる事態を検出する、問題事態検出装置、問題事態検出方法及び問題事態検出用プログラムに関する。
パーソナルコンピュータの普及等に伴い、言語をテキストとして処理することが一般化している。また、これに伴い、人間が日常的に用いている言語である自然言語をコンピュータに処理させる自然言語処理技術も発展してきている。更に、インターネット等のネットワーク技術も発展しており、所定のユーザのみならず、多様なユーザの作成したテキストが広く流通している。
このような状況下において、テキスト内から問題となる表現を検出することは有益である。このようにテキスト内から問題となる表現を検出する為には、例えば、予め犯罪に関係すると思われる文言をキーワードとして決定しておく。そして、インターネット上に構築されている掲示板サイト内のテキストから、そのキーワードを検出するようにする。これにより、不適切な風評の監視や、犯罪予告の監視をすることができる。
しかし、単にキーワードが一致しているか否かのみを基準として用いると、本来抽出したい記述とは異なる記述を抽出してしまう可能性がある。この点について具体例を挙げて説明する。例えば、犯罪予告を発見する為に「放火」なる文言をキーワードとして決定したとする。この場合この「放火」という文言を用いた犯罪予告を抽出し、発見することは可能になるかもしれない。しかしその一方で、例えば過去におきた放火事件に関する報道記事や裁判例、法律上の放火の解説といった、犯罪予告そのものとは関係のない記述も大量に抽出されてしまう。
このため、テキストから単に問題となる表現を含んでいる箇所を抽出するだけではなく、その表現がテキスト中でどう扱われているかをもチェックする、という技術が存在する。
例えば、特許文献1に記載の技術である、引用判定方法及びそれを用いた評判抽出方法では、ブログ(blog)等から評判を抽出しようとして、テキスト中に引用されたニュース記事のテキストが検出されてしまう課題に対して、テキストの中でニュース記事を引用している箇所を判定することで、引用箇所を除いたテキストから評判情報を抽出する。この特許文献1に記載の技術を用いることで、ユーザ自身が書いた文章だけから、問題となる表現を抽出することができる。
特許文献2に記載の技術である、情報収集装置では、ブログ等から記述者の体験だけを抽出したいという課題に対して、伝聞や敬語を表す表現に注目することで、記述者自身の体験だけを抽出する。この特許文献2に記載の技術を用いることで、ユーザ自身の経験を表す箇所から、問題となる表現を抽出することができる。
特開2010‐067243号公報 特開2007‐299076号公報
上述した各特許文献等に記載の技術を用いることにより、より効果的にテキスト中に含まれる問題になりそうな表現を抽出することが可能となる。
一方、テキスト中に含まれる問題になりそうな表現の全てを抽出するのではなく、その問題表現を記述者が問題だと考えている場合にのみ検出しなければならない場合もある。
例えば、或る人物が作成したテキストから問題となる出来事を抽出して、この抽出結果に基づいたアドバイスを出力する、というメンタルヘルスケアのためのシステムがあったとする。
この場合、問題表現とは、そのシステムの利用者の精神衛生上、問題となる出来事を表す表現である。今回、このシステムは、問題となる出来事を表す表現の辞書を保持しており、問題となる出来事を表す表現が見つかれば、その表現に対してアドバイスを出すという構成であるとする。
具体例を挙げると、このシステムは「怒る」という問題表現を保持しており、「妻が怒っている。」というテキストが入力されると、「怒る」という問題表現を検知し、「『妻が怒っている』とは大変ですね。落ち着いて対応しましょう」のようなアドバイスを出力する。
このようなシステムは、記述者が問題だと考えている出来事に対してアドバイスを出す必要がある。
しかし、単純に問題になりそうな表現全てを抽出する方法では、記述者が問題だと考えている出来事以外も抽出してしまう、という課題がある。
例えば、「妻が怒っていたので理由を聞いたところ、どうやら子供が学校でいじめられているらしい。」というテキストに対して、「『妻が怒っている』とは大変ですね。落ち着いて対応しましょう」のようなアドバイスを出力してしまう。このようなアドバイスは、記述者が問題だと考えている事態にマッチしておらず、不適切である。何故ならば、このテキストにおいて問題となるのは「妻が怒っている」という事実そのものではなく、妻が怒っている理由であると考えられる「子供が学校でいじめられている」という点だからである。よってこのような場合にはテキストの記述者が問題だと考えている「子供が学校でいじめられている」という点についてアドバイスを出力しなければならない。
テキストを読んで、その内容を把握しようとする主体が人間であるならば、このテキストの記述者にとっては「妻が怒っていた」ことよりも「子供が学校でいじめられている」ことが重要な問題であると推測することができる。もっとも、テキストを読んで、その内容を把握しようとする主体がコンピュータである場合に、機械的にこのような判断を行うことは一般的な技術では困難である。
例えば一般的な技術の一例として上述した各特許文献等に記載の技術では、このような課題を解決することはできない。
何故ならば、特許文献1に記載の技術では、引用部分を排除することができるが、上記の例の「妻が怒っていた」の部分はユーザ自身が記述した文であり、排除することはできないからである。
また、特許文献2に記載の技術では、記述者自身の体験だけを抽出することができるが、上記の例の「子供が学校でいじめられているらしい。」のような、記述者自身の体験ではないが、記述者が問題だと考えている問題事態を検出できないからである。
そこで、本発明は単に問題となりそうな事態を無作為に全て抽出するのではなく、テキスト中で言及されている事態の中から、特に記述者が問題だと考えている事態を検出することが可能な、問題事態検出装置、問題事態検出方法及び問題事態検出用プログラムを提供することを目的とする。
本発明の第1の観点によれば、検出対象とするテキストから、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出する事態抽出部と、前記抽出した事態の中から、該事態を記述した記述者が実現する事態であると想定している事態及び付属的な説明記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別する関心事態選別部と、前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する問題度合判定部と、を備えることを特徴とする問題事態検出装置が提供される。
本発明の第2の観点によれば、検出対象とするテキストから、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出し、前記抽出した事態の中から、該事態を記述した記述者が実現する事態であると想定している事態及び付属的な説明記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別し、前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する、ことを特徴とする問題事態検出方法が提供される。
本発明の第3の観点によれば、問題事態検出装置としてコンピュータを機能させるための問題事態検出用プログラムであって、前記コンピュータを、検出対象とするテキストから、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出する事態抽出部と、前記抽出した事態の中から、該事態を記述した記述者が実現する事態であると想定している事態及び付属的な説明記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別する関心事態選別部と、前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する問題度合判定部と、を備える問題事態検出装置として機能させることを特徴とする問題事態検出用プログラムが提供される。
本発明における問題事態検出装置、問題事態検出方法、及び問題事態検出用プログラムによれば、単に問題となりそうな事態を無作為に全て抽出するのではなく、テキスト中で言及されている事態の中から、特に記述者が問題だと考えている事態を検出することが可能となる。
本発明の実施形態に係る問題事態検出装置の基本的ハードウェア構成を表す図である。 本発明の実施形態に係る問題事態検出装置の基本的機能構成を表すブロック図である。 本発明の実施形態における事態抽出部に入力するデータの例を表す図である。 本発明の実施形態における問題事態検出装置の基本的動作を表すフローチャートである。 本発明の実施形態における事態抽出部の出力するデータの例を表す図である。 本発明の実施形態における事態抽出部が実施する事態抽出処理の例を表す図である。 本発明の実施形態における実現度合判定部が判定のために参照するデータの例を表す図である。 本発明の実施形態における実現度合判定部の出力するデータの例を表す図である。 本発明の実施形態における付属説明度合判定部が判定のために参照するデータの例を表す図である。 本発明の実施形態における付属説明度合判定部の出力するデータの例を表す図である。 本発明の実施形態における実現度合判定部の出力するデータ及び付属説明度合判定部30の出力するデータの組合せ例を表す図である。 本発明の実施形態における関心事態選別部の出力するデータの例を表す図である。 本発明の実施形態における問題表現辞書の保持するデータの例を表す図である。 本発明の実施形態における問題度合判定部の出力するデータの例を表す図である。
次に、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態である問題事態検出装置100のハードウェア構成の一例を表す図である。
図1を参照すると問題事態検出装置100は、演算処理装置1、通信インターフェース(IF:Interface)2、メモリ3、ハードディスクドライブ(HDD:Hard disk drive)4、入力装置5及び出力装置6を含む。
また、これらの構成要素は、バス7を通して互いに接続されており、相互にデータの入出力が行われる。
演算処理装置1は、問題事態検出装置100全体を制御する為の演算処理装置であり、例えば、CPU(central
processing unit)により実現される。
通信インターフェース2は問題事態検出装置100が外部と通信を行う為のインターフェースである。通信は通信先の機器とケーブル等により直接有線接続されることにより実現されても良いし、その一部又は全部が無線接続であるネットワークを介することにより実現されても良い。インターフェースの規格や通信方式に関しては特に制限はなく、任意の規格や通信方式に準拠していれば良い。
また、メモリ3は、演算処理装置1が演算処理を行う際にアクセスをする主記憶装置である。メモリ3は、例えばSDRAM(Synchronous Dynamic Random Access Memory)により実現される。
更に、ハードディスクドライブ4は、補助記憶装置として機能する記憶装置である。
ハードディスクドライブ4にはコンピュータを問題事態検出装置100として機能させるための本実施形態特有のプログラムが記憶されている。ここで、問題事態検出装置100は、本実施形態特有の装置により実現されても良いが、汎用のパーソナルコンピュータやサーバ装置等に本実施形態特有のソフトウェアを組み込むことにより実現しても良い。何れの場合であっても、演算処理装置1がハードディスクドライブ4より本実施形態特有のプログラムを読み込んで演算処理を行い、この演算処理結果に応じて種々のハードウェアが制御されることにより問題事態検出装置100は実現される。なお、問題事態検出装置100は単一の装置により実現しても良いが、複数の装置が協働することにより実現しても良い。
また、入力装置5は、ユーザが問題事態検出装置100を操作する為の装置であり、例えば、キーボードやマウスにより実現される。出力装置6は、ユーザに情報を提示する為の装置であり、例えばディスプレイ等により実現される。なお、出力装置6を例えばプリンタにより実現し、処理結果を印刷するようにしても良い。
なお、図1に表される構成はほんの一例に過ぎず、図示していない他の構成要素を更に含んでも良く、また、図示されている構成要素を他の装置により代替しても良い。
例えば、音声入力を受け付けるためにマイクといった集音機器が更に含まれていても良い。また、例えば、入力装置5と出力装置6をタッチパネルとして一体化して実現しても良く、ハードディスクドライブ4に代えて半導体メモリであるフラッシュメモリを使用したFlashSSD(Solid State Drive)を用いるようにしても良い。また、処理結果を格納する為の脱着可能な記録媒体を取り付けるためのインターフェースを更に含んでいても良い。
図2は、本実施形態の問題事態検出装置100に含まれる機能ブロックを表す図である。図2を参照すると問題事態検出装置100は、事態抽出部10と実現度合判定部20と付属説明度合判定部30と関心事態選別部40と問題度合判定部50と問題表現辞書60とを含む。
ここで、これら各ブロックの機能の説明をするが、今回は各ブロックの機能の理解を容易とするために具体例を用いて説明を行う。図3に、問題事態検出装置100に入力されるテキストの具体例を示す。以下ではこのテキストの具体例に基づいて動作を説明する。
まず、各ブロックの説明前に本実施形態の理解を助けるため、本実施形態を実現するための基本的な考え方について説明する。
以下の本実施形態の説明及び本発明では、処理対象とするテキスト中で言及されている、様々な出来事を「事態」と呼ぶこととする。例えば、図3に表されるテキストの具体例には、「妻が怒っていた」「子供が学校でいじめられている」など、複数の出来事が含まれている。これら「妻が怒っていた」や「子供が学校でいじめられている」といった出来事が、テキストに含まれる「事態」である。
また、「事態」は、特定の時間・場所で発生した又は発生するという出来事に限らず、一般的な物事の性質の記述なども含む。
例えば、「水は低いところに流れる」といった一般的な物事の性質の記述であっても事態と見做して、本実施形態を適用することができる。また、事態は必ずしも事実を指摘する客観的なものではなくとも良く、「人間は皆愚かだ」等のような記述者の主観に基づく記述であっても事態と見做して、本実施形態を適用することができる。
ここで、本実施形態の目的は、単に問題となりそうな事態を全て抽出するのではなく、テキスト中で言及されている事態の中から、記述者が問題だと考えている事態を検出する技術を提供することである。
なお、本実施形態及び本発明において、「記述者が問題だと考えている事態」とは、そのテキストを読んだとき、記述者はこの事態を問題だと考えているはずだ、と他の人間が推測する事態のことを意味する。
前記の例で言えば、「妻が怒っていた」ことよりも「子供が学校でいじめられている」ことが記述者にとって重要な問題であると検出することである。
このような、人間であれば推測できることを、機械的に検出することが目的である。なお、本実施形態の説明及び本発明は、テキストに記載された事態の中からの検出を目的としており、テキストに書かれていない記述者の考えを検出することを意図するものではない。
そして、本実施形態では、記述者が問題だと考えている事態を検出するため、「実現度合」及び「付属説明度合」という2つの度合いを尺度として用いる。
ここで、実現度合とはテキストに記載された各事態について、この事態は既に実現した事態である、若しくは、これから実現する事態である記述者が考えているかどうかの度合いを数値化したものである。
また、ここで、付属説明とは記述者が訴えたいメインの説明の理解を助けるために、テキスト中に追加されている情報を指す。例えば、出来事が起きた場所や時間の追加説明である。そして、付属説明度合とは、テキスト中に含まれる各事態について、テキスト中で付属説明として用いられている度合いを数値化したものである。
そして、本実施形態ではテキスト中に含まれる全ての事態の中から、記述者が実現度合が高いと見做しており、且つ、記述者が付属説明のために用いているのではない、という2つの条件を満たす事態を、記述者の関心の度合が高い事態と見做して選別する。これにより本実施形態では、事態から問題となる表現を含む事態を選別して出力する。
このように判定する理由は大きく2つある。その第1の理由は、記述者自身が実現度合が低いと考えている事態は、記述者自身が問題だと考えている事態であるとは考えにくいためである。
また、その第2の理由は、実現度合が高いと考えている事態であっても、付属的な説明に用いられている事態は、記述者が訴えたい点ではなく、記述者自身が問題だと考えている事態であるとはとは考えにくいためである。
そして、実現の度合および付属説明の度合を考慮した判定を行うことにより、実現度合が高いが付属説明のために用いられている事態や、メインの説明に含まれているが実現度合が低い事態を排除することができる。また、その上で問題となる表現を含んでいる事態を選別することでき、結果として、記述者が問題だと考えている事態だけを出力することができる。
以上が本実施形態を実現するための基本的な考え方である。続いて、図2を参照した説明を再開する。
まず、問題事態検出装置100は、入力としてテキストを受け付ける。このテキストは、人間が記述した自然言語の文を表すものであればどのようなものであっても良い。
問題事態検出装置100がテキストを入力されると、事態抽出部10が、入力されたテキストに含まれる、テキスト中で言及されている様々な出来事である「事態」を抽出し、出力する。なお、事態抽出部10並びに後述する、実現度合判定部20、付属説明度合判定部30、関心事態選別部40及び問題度合判定部50は、例えば、図1に表される演算処理装置1による演算処理により実現される。また、問題表現辞書60は、例えば、図1に表されるハードディスクドライブ4に格納されているものとする。
次に、実現度合判定部20は、事態抽出部10が出力した各事態に関して「実現度合」を出力する。ここで、実現度合とは事態抽出部10が出力した各事態について、この事態は既に実現した事態である、若しくは、これから実現する事態である記述者が考えているかどうかを表す値である。
付属説明度合判定部30は、事態抽出部10が出力した各事態について、テキスト中で付属説明として用いられている度合いを判定する。
関心事態選別部40は、事態抽出部10が出力した各事態について、実現度合判定部20が出力した実現度合及び付属説明度合判定部30が出力した付属説明度合、の二種類の度合いに基づいて、テキスト中に記述された事態の中から、記述者が関心を持っている事態を選別する。
問題度合判定部50は、関心事態選別部40が出力した各事態について、問題表現辞書60を用いることで、事態が問題を含んでいるかを調べ、問題を含んでいる事態だけを抽出する。そして、抽出した事態を問題事態として問題事態検出装置100の外部又は内部に出力する。
出力先は、例えば出力装置6を実現するディスプレイである。もっともこれ以外にも、問題事態検出装置100の外部又は内部の何れかの記憶媒体であっても良く、問題事態検出装置100の外部又は内部の図2に図示されていない他の機能ブロックであっても良く、通信インターフェース2を介して外部ネットワークに接続された他の装置に出力されても良い。
次に、問題事態検出装置100の動作を示すフローチャートである図4を参照して問題事態検出装置100の動作の一例を説明する。今回の説明においてはまず問題事態検出装置100の処理全体の流れを一通り説明した後に、各ステップにおける処理の詳細を個別に説明する。
まず、事態抽出部10は、ユーザからテキストの入力を受け付ける(ステップS101)。
次に、事態抽出部10は、入力されたテキストから、事態を抽出し、出力する(ステップS102)。
次に、実現度合判定部20は、事態抽出部10が出力した各事態について、この事態は既に実現した事態である、若しくは、これから実現する事態である記述者が考えているかどうかを表す値を実現度合として出力する(ステップS103)。
一方で、付属説明度合判定部30は、事態抽出部10が出力した各事態について、テキスト中で付属説明として主張されている度合いを判定する(ステップS104)。
なお、図4及び上述の説明においてはステップS103の後にステップS104が行われているが、これはフローチャートに図示する便宜上このように記載されているだけである、順番を入れ替え、ステップS104の後にステップS103を行っても良いし、ステップS103及びステップS104の処理をそれぞれ分割して交互に行っても良いし、演算処理装置1に複数の演算処理部(コア)が含まれるような場合にはステップS103及びステップS104の処理を並列に行っても良い。
次に、関心事態選別部40は、事態抽出部10が出力した各事態について、実現度合判定部20が出力した実現度合、および付属説明度合判定部30が出力した付属説明度合を基に、テキスト中に記述された事態の中から、記述者が関心を持っている事態を選別する(ステップS105)。
問題度合判定部50は、関心事態選別部40が出力した各事態について、問題表現辞書60を用いることで、事態が問題を含んでいるかを調べ、問題を含んでいる事態だけを問題事態として出力する(ステップS106)。
次に、各ステップにおける処理の詳細を個別具体的に説明する。
まず、ステップS101の動作について説明する。本実施形態では、ユーザからの事態抽出部10へのテキストの入力受付をどのように行っても良い。例えば、入力装置5をキーボードとして実現した場合に、このキーボードによりテキストの入力を受け付けても良い。
また、入力装置5をマイクにより実現し、ユーザから音声入力を受け付けるようにしても良い。この場合は、更に演算処理装置1が受け付けた音声入力を音声認識技術によってテキストに変換するようにすればよい。
また、これら以外にも、例えば通信インターフェース2を介して外部ネットワークに接続された他の機器よりテキストの入力を受け付けても良い。また、ユーザが、テキストを記憶したデータファイルを指定することでテキストの入力を行っても良い。この場合、事態抽出部10は、ユーザが指定したデータファイルからテキストを読み込む。データファイルはハードディスクドライブ4に記録されていても良いが、USB(Universal Serial Bus)規格に準拠したメモリや、BD(Blue-ray
Disc:登録商標)といった外部の記録媒体のデータファイルを読み込むことによりテキストの入力を受け付けても良い。
加えて、入力装置5としてスキャナを接続し、テキストが記載された紙媒体をこのスキャナで読み込み、一般的にOCR(Optical Character Recognition)と呼ばれる技術により読み込んだ内容をテキストに変換するようにしても良い。
次に、ステップS102の動作を具体的に説明する。本実施形態では、事態抽出部10は、入力されたテキストから事態を抽出し、出力する。事態抽出部10における、テキスト中からの事態の抽出は、形態素分析・構文解析等の一般的な既知の技術によってテキストを構造化し、その一部を抽出することにより実現できる。
図5は、事態抽出部10の出力するデータの例を表す図である。図5では図3に表されたテキスト例から事態を抽出した例が表されている。
図5に表されるようにテキストから事態を抽出する処理の例を図6に示す。図6では、構文解析器にかけることでテキストを木構造で表し、述語となっている節およびその述語にかかっている節を抽出することで、図5に表す事態を抽出している。破線で囲まれた部分のそれぞれが、テキストに含まれる個々の事態を表す。テキストに含まれる各文言は一つの事態の構成要素になることもあるが、複数の事態の構成要素となることもあり得る。例えば、「妻が」や「怒っていた」の文言は図5における事態(a)の構成要素となるのみである。一方で、「友達と」、「仲が」及び「悪くなった」の各文言は図5における事態(e)の構成要素となるだけではなく、事態(f)の構成要素ともなる。他方で、「どうやら」等の事態の構成要素とはならない文言も存在しうる。
なお、事態は、図5に示すように、人間が読んでどんな出来事を指しているのか分かるテキストの形式で出力しても良い。また、図6に示したような、木構造の部分木の形で出力しても良い。
事態抽出部10が抽出する事態は、実際には起きていない出来事なども含まれうる。例えば、図5に表される(d)「子供が帰った」という事態は、元々の文では「〜子供が帰った時に〜」と将来の出来事として記述されており、まだ実際には起きていない。しかし、このような出来事も事態として抽出されうる。
次に、ステップS103の動作を具体的に説明する。実現度合判定部20は、事態抽出部10が出力した各事態について、この事態は既に実現した事態である、若しくは、これから実現する事態であると記述者が考えているかどうかを表す値を実現度合として出力する。今回の例では、テキストの記述者が「この事態は既に実現した事態である、若しくは、これから実現する事態であると記述者が考えている」事態については1を出力する。一方で、それ以外の事態については0を出力する。
実現度合の判定は任意の方法により行うことが可能であるが、今回は図7に表されるように事態の周囲に出現する手がかり表現と実現度合を予め紐付けておくことにより算出する。ここで、図7は、事態の周囲に出現する手がかり表現と実現度合のルールの例を示した図である。例えば、「〜たので」のような原因を表す表現は実際に起きた出来事を表すというルールを記憶しておく。なお、図8に示すのはあくまで一例に過ぎず、ルールは実装環境に応じて任意に定めることができる。また、ルール内に含まれる手がかり表現と実現度合の組の数には制限は無く、任意の数とすることができる。
図7のルールに則ると、上述したように、抽出された事態に「〜たので」なる表現が含まれている場合には、既に実現した事態について記述したものと考えられる。そのため、この事態に関しては実現度合として1を出力する。
一方で、抽出された事態に「〜たのか」なる表現が含まれている場合は、この表現はこれから実現する事態を表す表現ではなく、且つ、既に実現した事態であると記述者は認定していないものと考えられる表現である。そのため、この事態に関しては実現度合として0を出力する。
また、本実施形態では1又は0といったように二元論により判断しても良いが、「〜るそうだ」のように、伝聞や推量を表す表現を伴う場合は、実現度合が中程度であると見なして0.5などの中間値を出力するようにしても良い。
図8に、実現度合判定部20が出力する実現度合の例が表されている。この例は、図5又は図6に表される事態抽出部10が出力した事態の一例に図7に表されるようなルールを適用した場合の実現度合判定部20の出力結果である。
ここで、各事態について個別に検討する。事態(a)「妻が怒っていた」は、元の文の中で「妻が怒っていたので〜」と書かれており、テキストの記述者はこの事態が実際に起きた出来事として記述されている。そのため、事態(a)「妻が怒っていた」に関しては1を出力する。
一方、事態(d)「友達と仲が悪くなった」は、このあと子供が帰った時に聞いてみる内容であり、特に記述者がこの件が実際に起きた出来事かどうかについて述べていない。そのため事態(d)「友達と仲が悪くなった」に関しては0を出力する。
次に、ステップS104の動作を具体的に説明する。付属説明度合判定部30は、事態抽出部10が出力した各事態について、テキスト中で付属説明として主張されている度合いを判定する。
具体的には、従属節に含まれているかどうか等を基準として、事態がテキスト中で果たしている役割に基づいて、事態が付属として主張しているかを判定することができる。
例えば、事態(a)「妻が怒っていた」や事態(b)「理由を聞いた」は、「妻が怒っていたので理由を聞いたところ、」という本文への導入のための従属節に含まれている。そのため、このような事態は付属説明のために書かれていると見做して付属説明度合が高いと判定することができる。
このような判定は、どのような場合に付属説明と見做すかをパターンで記述した辞書を保持しておくことで実現できる。
図9は、付属説明度合のルールの例を表した図である。「〜たので」「〜たところ」「〜た時に」など、時間や条件を表す従属節を表すルールが記載されている。そして、付属説明度合判定部30は、事態に含まれる表現又は前記事態の周囲に出現した表現に、図9に表される表現に当てはまる表現が出現した場合は付属説明度合を1と見なす。
また、「〜する(名詞)」「〜な(名詞)」というルールは、名詞を修飾するために付け加えられた連体修飾節を表す。このような場合は付属説明度合を0.5と見做すなど、ルールごとに異なる度合を付与しても良い。
なお、図9に示すのはあくまで一例に過ぎず、ルールは実装環境に応じて任意に定めることができる。また、ルール内に含まれる手がかり表現と付属説明度合の組の数には制限は無く、任意の数とすることができる。
図11には、付属説明度合判定部30の出力するデータの例が表されている。この例は、図5又は図6に表される事態抽出部10が出力した事態の一例に図9に表されるようなルールを適用した場合の付属説明度合判定部30の出力結果である。
次に、ステップS105の動作を具体的に説明する。関心事態選別部40は、事態抽出部10が出力した各事態について、実現度合判定部20が出力した実現度合、および付属説明度合判定部30が出力した付属説明度合を基に、テキスト中に記述された事態の中から、記述者が関心を持っている事態を選別する。例えば、図11に表されるような事態抽出部10が出力した各事態と、各事態それぞれについての実現度合及び付属説明度合に基づいて関心事態を選別する。
そして、本実施形態では、実現度合が高い事態や付属説明度合が低い事態を関心事態であるとして取り扱う。よって、実現度合が高いか否かのみを基準として関心事態であるか否かを判断することができる。また、付属説明度合が低いか否かのみを基準として関心事態であるか否かを判断することもできる。もっとも、より高精度に判断するためには実現度合及び付属説明度合の双方を組み合わせて判断することが好ましい。
そこで今回の説明において関心事態選別部40は、実現度合が高く、且つ、付属説明度合が低い事態を関心事態であると見做して出力する。
例えば、実現度合から付属説明度合を減算し、その減算結果の値が0より大きい事態を関心事態として選別して出力することができる。
図12は、関心事態選別部40の出力するデータの例を示す図である。図8に表される実現度合から図9に表される付属説明度合を減算した値が0より大きい事態を選別した結果、事態(c)と事態(f)が出力されている。
次に、ステップS106の動作を具体的に説明する。問題度合判定部50は、関心事態選別部40が出力した各事態について、問題表現辞書60を照らし合わすことで、事態が問題を含んでいるかを調べ、問題を含んでいる事態だけを問題事態として出力する。
図13は問題表現辞書60の例を示す図である。問題事態に含まれていると考えられる語が列挙されている。なお、図13に表されるのはあくまで一例にしか過ぎず、本実施形態を適用する用途により問題表現辞書60の内容は大きく変わる。また、問題表現辞書60に含まれる語の数に制限は無い。
問題度合判定部50は、問題表現を一つでも含んでいる事態を問題事態として出力するようにしても良い。また、事態に含まれている問題表現の数をカウントして、その数が一定の閾値を超えている場合にのみ問題事態であるとして出力して良い。すなわち、問題表現が所定のN個(Nは1以上の整数であって任意の値)含まれている場合に問題事態として出力するようにすれば良い。
以上の処理により、本実施形態は、単に問題表現を含む事態を無作為に全て抽出するのではなく、テキスト中で言及されている事態の中から、特に記述者が問題だと考えている問題事態を検出することができる、という効果を奏する。
なお、上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
例えば本実施形態を、背景技術の欄において説明したインターネット上の掲示板サイトの書き込み等の第三者の作成したテキストの解析やメンタルヘルスケアのためのシステムに適用させるのみならず、或る所定のユーザが過去に記述した文章や、書籍の解析等に用いることができる。
また、例えば、アンケート結果の解析、或いは顧客から受け付けた要望や苦情の解析等にも用いることができる。
更に、例えば社内で行われた会議等の会議録の解析にも用いることができる。この場合は会議の内容を録音し、音声解析処理後に本実施形態を適用する等の用途が考えられる。
本実施形態はこのような何れの用途であっても、記述者(又は発言者)が問題と考えている問題事態を選別することができる。
なお、上記の問題事態検出装置は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の問題事態検出装置により行なわれる問題事態検出方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable
medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
本願は、日本の特願2012−169606(2012年7月31日に出願)に基づいたものであり、又、特願2012−169606に基づくパリ条約の優先権を主張するものである。特願2012−169606の開示内容は、特願2012−169606を参照することにより本明細書に援用される。
本発明の代表的な実施の形態が詳細に述べられたが、様々な変更(changes)、置き換え(substitutions)及び選択(alternatives)が請求項で定義された発明の精神と範囲から逸脱することなくなされることが理解されるべきである。また、仮にクレームが出願手続きにおいて補正されたとしても、クレームされた発明の均等の範囲は維持されるものと発明者は意図する。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1) 検出対象とするテキストから、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出する事態抽出部と、
前記抽出した事態の中から、該事態を記述した記述者が実現する事態であると想定している事態及び付属的な説明記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別する関心事態選別部と、
前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する問題度合判定部と、
を備えることを特徴とする問題事態検出装置。
(付記2) 付記1に記載の問題事態検出装置であって、
前記記述者が実現する事態であると想定している事態であって、且つ、前記付属的な説明記述ではない事態を前記選別することを特徴とする問題事態検出装置。
(付記3) 付記1又は2に記載の問題事態検出装置であって、
前記事態に含まれる表現又は前記事態の周囲に出現した表現に基づいて、前記記述者が実現する事態であると想定していると思われる度合である実現度合を判定する実現度合判定部と、
前記事態に含まれる表現又は前記事態の周囲に出現した表現に基づいて、付属的な説明記述ではない事態と思われる度合である付属説明度合を判定する付属説明度合判定部と、
を更に備え、
前記関心事態選別部は、前記実現度合及び付属説明度合に基づいて前記選別を行うことを特徴とする問題事態検出装置。
(付記4) 付記3に記載の問題事態検出装置であって、
前記実現度合判定部が、事態の周囲に出現しうる手がかり表現と前記実現度合を紐付けておき、該紐付けられている情報と前記事態の周囲に出現した手がかり表現とを照らし合わすことにより前記実現度合を判定することを特徴とする問題事態検出装置。
(付記5) 付記3又は4に記載の問題事態検出装置であって、
前記付属説明度合判定部が、前記事態が前記テキストにおいて従属節に含まれているか否かに基づき前記付属説明度合を判定することを特徴とする問題事態検出装置。
(付記6) 付記3乃至5の何れか1に記載の問題事態検出装置であって、
前記実現度合から前記付属説明度合を減算し、該減算後の値が所定値以上である事態を前記選別することを特徴とする問題事態検出装置。
(付記7) 付記1乃至6の何れか1に記載の問題事態検出装置であって、
前記選別された事態の中から、問題となりうる表現を所定の閾値を超える個数含んでいる事態を前記問題事態として出力することを特徴とする問題事態検出装置。
(付記8) 検出対象とするテキストから、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出し、
前記抽出した事態の中から、該事態を記述した記述者が実現する事態であると想定している事態及び付属的な説明記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別し、
前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する、
ことを特徴とする問題事態検出方法。
(付記9) 問題事態検出装置としてコンピュータを機能させるための問題事態検出用プログラムであって、
前記コンピュータを、
検出対象とするテキストから、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出する事態抽出部と、
前記抽出した事態の中から、該事態を記述した記述者が実現する事態であると想定している事態及び付属的な説明記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別する関心事態選別部と、
前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する問題度合判定部と、
を備える問題事態検出装置として機能させることを特徴とする問題事態検出用プログラム。
本発明は、記述者が問題だと考えている問題事態を検出する用途であれば任意の用途に適用可能である。
1 演算処理装置
2 通信インターフェース
3 メモリ
4 ハードディスクドライブ
5 入力装置
6 出力装置
7 バス
10 事態抽出部
20 実現度合判定部
30 付属説明度合判定部
40 関心事態選別部
50 問題度合判定部
60 問題表現辞書
100 問題事態検出装置

Claims (6)

  1. 検出対象とするテキストに対して構文解析を行うことで、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出する事態抽出部と、
    前記抽出された事態について、該事態を記述した記述者が実現する事態であると想定していると思われる度合である実現度合を、事態の周囲に出現しうる手がかり表現と前記実現度合とが紐付けられている情報と前記事態の周囲に出現した手がかり表現とを照らし合わせることにより、判定する、実現度合判定部と、
    前記抽出された事態について、付属的な説明としての記述であると思われる度合である付属説明度合を、前記事態が前記テキストにおいて従属節に含まれているか否かに基づき判定する付属説明度合判定部と、
    前記実現度合と前記付属説明度合とに基づいて、前記抽出した事態の中から、前記記述者が実現する事態であると想定している事態及び付属的な説明としての記述ではない事態の双方又は一方を前記記述者が関心を持っている事態として選別する関心事態選別部と、
    前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する問題度合判定部と、
    を備えることを特徴とする問題事態検出装置。
  2. 請求項1に記載の問題事態検出装置であって、
    前記関心事態選別部は、前記記述者が実現する事態であると想定している事態であって、且つ、前記付属的な説明としての記述ではない事態を、前記記述者が関心を持っている事態として選別することを特徴とする問題事態検出装置。
  3. 請求項1または2に記載の問題事態検出装置であって、
    前記関心事態選別部は、前記実現度合から前記付属説明度合を減算し、該減算後の値が所定値以上である事態を、前記記述者が関心を持っている事態として選別することを特徴とする問題事態検出装置。
  4. 請求項1乃至の何れか1項に記載の問題事態検出装置であって、
    前記問題度合判定部は、前記選別された事態の中から、問題となりうる表現を所定の閾値を超える個数含んでいる事態を前記問題事態として出力することを特徴とする問題事態検出装置。
  5. 問題事態検出装置が、
    検出対象とするテキストに対して構文解析を行うことで、テキスト内で言及されている出来事を表す記述を前記出来事毎に事態という単位で抽出し、
    前記抽出された事態について、該事態を記述した記述者が実現する事態であると想定していると思われる度合である実現度合を、事態の周囲に出現しうる手がかり表現と前記実現度合とが紐付けられている情報と前記事態の周囲に出現した手がかり表現とを照らし合わせることにより、判定し、
    前記抽出された事態について、付属的な説明としての記述であると思われる度合である付属説明度合を、前記事態が前記テキストにおいて従属節に含まれているか否かに基づき判定し、
    前記実現度合と前記付属説明度合とに基づいて、前記抽出した事態の中から、前記記述者が実現する事態であると想定している事態及び付属的な説明としての記述である事態の双方又は一方を前記記述者が関心を持っている事態として選別し、
    前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する、
    ことを特徴とする問題事態検出方法。
  6. 問題事態検出装置としてコンピュータを機能させるための問題事態検出用プログラムであって、
    前記コンピュータを、
    検出対象とするテキストに対して構文解析を行うことで、テキスト内で言及されている出来事を表す記述を、前記出来事毎に事態という単位で抽出する事態抽出部と、
    前記抽出された事態について、該事態を記述した記述者が実現する事態であると想定していると思われる度合である実現度合を、事態の周囲に出現しうる手がかり表現と前記実現度合とが紐付けられている情報と前記事態の周囲に出現した手がかり表現とを照らし合わせることにより、判定する、実現度合判定部と、
    前記抽出された事態について、付属的な説明としての記述であると思われる度合である付属説明度合を、前記事態が前記テキストにおいて従属節に含まれているか否かに基づき判定する付属説明度合判定部と、
    前記実現度合と前記付属説明度合とに基づいて、前記抽出した事態の中から、前記記述者が実現する事態であると想定している事態及び付属的な説明としての記述である事態の双方又は一方を前記記述者が関心を持っている事態として選別する関心事態選別部と、
    前記選別された事態の中から、問題となりうる表現を少なくとも一つ含んでいる事態を問題事態として出力する問題度合判定部と、
    を備える問題事態検出装置として機能させることを特徴とする問題事態検出用プログラム。
JP2014528057A 2012-07-31 2013-07-11 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム Active JP6344237B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012169606 2012-07-31
JP2012169606 2012-07-31
PCT/JP2013/068997 WO2014021074A1 (ja) 2012-07-31 2013-07-11 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム

Publications (2)

Publication Number Publication Date
JPWO2014021074A1 JPWO2014021074A1 (ja) 2016-07-21
JP6344237B2 true JP6344237B2 (ja) 2018-06-20

Family

ID=50027758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014528057A Active JP6344237B2 (ja) 2012-07-31 2013-07-11 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム

Country Status (3)

Country Link
US (1) US20150205786A1 (ja)
JP (1) JP6344237B2 (ja)
WO (1) WO2014021074A1 (ja)

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101490A (en) * 1991-07-19 2000-08-08 Hatton; Charles Malcolm Computer system program for creating new ideas and solving problems
JPH0793351A (ja) * 1993-09-22 1995-04-07 Matsushita Electric Ind Co Ltd 自然言語質問応答生成装置
US5694559A (en) * 1995-03-07 1997-12-02 Microsoft Corporation On-line help method and system utilizing free text query
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
AU2001261506A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Discourse parsing and summarization
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
US7360151B1 (en) * 2003-05-27 2008-04-15 Walt Froloff System and method for creating custom specific text and emotive content message response templates for textual communications
US20050154601A1 (en) * 2004-01-09 2005-07-14 Halpern Joshua I. Information security threat identification, analysis, and management
US20060036430A1 (en) * 2004-08-12 2006-02-16 Junling Hu System and method for domain-based natural language consultation
US7853445B2 (en) * 2004-12-10 2010-12-14 Deception Discovery Technologies LLC Method and system for the automatic recognition of deceptive language
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US20080133221A1 (en) * 2006-05-17 2008-06-05 Smith Sharon S Threat assessment based on written communication
US8291319B2 (en) * 2009-08-28 2012-10-16 International Business Machines Corporation Intelligent self-enabled solution discovery
US20110161069A1 (en) * 2009-12-30 2011-06-30 Aptus Technologies, Inc. Method, computer program product and apparatus for providing a threat detection system
US8639495B2 (en) * 2012-01-04 2014-01-28 International Business Machines Corporation Natural language processing (‘NLP’)

Also Published As

Publication number Publication date
WO2014021074A1 (ja) 2014-02-06
JPWO2014021074A1 (ja) 2016-07-21
US20150205786A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
JP7163355B2 (ja) メッセージ中のタスクの識別
Kleinberg et al. Measuring emotions in the covid-19 real world worry dataset
Anzovino et al. Automatic identification and classification of misogynistic language on twitter
Giles et al. Coding, constant comparisons, and core categories: A worked example for novice constructivist grounded theorists
Guellil et al. Social big data mining: A survey focused on opinion mining and sentiments analysis
US10133734B2 (en) Systems, methods and computer program products for building a database associating N-grams with cognitive motivation orientations
US11321675B2 (en) Cognitive scribe and meeting moderator assistant
US10803247B2 (en) Intelligent content detection
Kaur et al. Improving sentiment scoring mechanism: a case study on airline services
Rickard ‘Been There, Seen it, Done it, I've Got the T-shirt’: British Sex Worker's Reflect on Jobs, Hopes, the Future and Retirement
Di Cristofaro Corpus approaches to language in social media
Anwar et al. Social relationship analysis using state-of-the-art embeddings
Robertshaw et al. Tweeting on dementia: A snapshot of the content and sentiment of tweets associated with dementia
JP6344237B2 (ja) 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム
WO2018015999A1 (ja) 議論支援システム、議論支援方法、及び議論支援プログラム
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
Plhák et al. Classification of adolescents’ risky behavior in instant messaging conversations
Jaiswal et al. Using# ActuallyAutistic on Twitter for Precision Diagnosis of Autism Spectrum Disorder: Machine Learning Study
JP2017211586A (ja) 心理分析装置、心理分析方法、およびプログラム
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
Chanda et al. Sarcasm Detection in Tamil and Malayalam Dravidian Code-Mixed Text.
JP2021056857A (ja) 情報処理システム、情報処理方法、プログラム
JP2015169969A (ja) 話題特定装置、および話題特定方法
Kumar Developing Politeness Annotated Corpus of Hindi Blogs.
US11971915B2 (en) Language processor, language processing method and language processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180507

R150 Certificate of patent or registration of utility model

Ref document number: 6344237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150