JP6529133B2 - 複数地域でのトピックの評価を分析する装置、プログラム及び方法 - Google Patents

複数地域でのトピックの評価を分析する装置、プログラム及び方法 Download PDF

Info

Publication number
JP6529133B2
JP6529133B2 JP2016016582A JP2016016582A JP6529133B2 JP 6529133 B2 JP6529133 B2 JP 6529133B2 JP 2016016582 A JP2016016582 A JP 2016016582A JP 2016016582 A JP2016016582 A JP 2016016582A JP 6529133 B2 JP6529133 B2 JP 6529133B2
Authority
JP
Japan
Prior art keywords
topic
keyword
document
representative
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016016582A
Other languages
English (en)
Other versions
JP2017134787A (ja
Inventor
マイケ エルドマン
マイケ エルドマン
一則 松本
一則 松本
広海 石先
広海 石先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016016582A priority Critical patent/JP6529133B2/ja
Publication of JP2017134787A publication Critical patent/JP2017134787A/ja
Application granted granted Critical
Publication of JP6529133B2 publication Critical patent/JP6529133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、インターネット上で流通する文書を解析して、目的とする情報を取得又は生成する技術に関する。
従来、非常に多くのユーザが、Twitter(登録商標)等のソーシャルメディア(social media)を通して、様々な話題(トピック)についての感想や所感(sentiment)を表明している。例えば、話題となっている機器製品やアプリケーションに対して批評や論評を行ったり、話題の人物、会社や地域についての意見を述べたり、話題の出来事やニュースになった事件についての考察を提示したりすることがよく行われている。さらには、食べ物、住居、健康や犯罪といった日常の生活に関わる話題についての感想・所感が述べられることも多い。
このような感想・所感に係る情報は、企業や政府等において、現状の評価を行ったり今後の事業・施政方針を決定したりするための重要な判断材料となる。そのため、現在、このような感想・所感を自動的に取得して分析する、いわゆるオピニオン・マイニング(opinion mining)といわれる手法の開発が盛んに行われている。
例えば、非特許文献1には、過去10年間に開発された多数の感情分析(sentiment analysis)手法の調査結果が開示されている。その中には、非特許文献2に開示されたようなTwitter(登録商標)のメッセージについての感情分析も含まれている。
また、オピニオン・マイニングにおいて、最新のホットなトピックを検索する技術についても研究開発が進められている。例えば、非特許文献3には、通常は発生頻度の低いキーワードにおける急な発生頻度の上昇を認識することによって、人気のトピックを特定する手法が開示されている。
さらに、非特許文献4には、対象についての特徴を利用した感情分析を行う特徴感情分析(feature-based sentiment analysis)の手法が開示されている。この手法では、例えば、対象となる機器製品「iPhone(登録商標)」について「display size」や「battery life」といった特徴が特定され利用される。
また、研究例は非常に少ないが、いわゆるクロスランゲージ感情分析(cross-language sentiment analysis)も行われている。例えば、非特許文献5には、クロスランゲージ感情分析と特徴感情分析とを結合させ、その際、1つの言語での特徴と他の言語での意味に関して類似する特徴とを合わせて利用する手法が開示されている。さらに、本願発明者等による研究を公表した非特許文献6では、互いに異なる言語において特徴感情分析を行い、言語間で分析結果を比較する技術が開示されている。
また、非特許文献7のアプリケーション" talkwalker "は、ポジティブ及びネガティブな感情のツイートを分析し、世界地図上において、そのような感情を表現しているツイートのパーセンテージを可視化している。さらに、非特許文献8のアプリケーション" Trendsmap "は、頻出語、ハッシュタグやユーザ名といったキーワードを、世界地図の各地域上に表示している。
B. Liu,L. Zhang,"A Survey of Opinion Mining and Sentiment Analysis",Mining Text Data,2012年,415〜463頁 S. M. Mohammad,S. Kiritchenko,X. Zhu,"NRC-Canada: Building the State-of-the-Art in Sentiment Analysis of Tweets",Proceedings of International Workshop on Semantic Evaluation Exercises (SemEval), 2013年,321〜327頁 M. Mathioudakis,N. Koudas,"TwitterMonitor: Trend Detection over the Twitter Stream", Proceedings of the ACM SIGMOD International Conference on Management of Data,2010年,1155〜1158頁 N. Naveed,T. Gottron, S. Staab," Feature Sentiment Diversification of User Generated Reviews: The FREuD Approach",Proceedings of International AAAI Conference on Weblogs and Social Media (ICWSM),2013年 H. Guo,H. Zhu,Z. Guo,X. Zhang,Z. Su,"OpinionIt: A Text Mining System for Cross-Lingual Opinion Analysis",Proceedings of the ACM international conference on Information and knowledge management (CIKM),2010年,1199〜1208頁 M. Erdmann,K. Ikeda,H. Ishizaki,G. Hattori,Y. Takishima,"Feature Based Sentiment Analysis of Tweets in Multiple Languages",Proceedings of Web Information Systems Engineering (WISE),2014年,109〜124頁 Talkwalker社,"social data intelligence platform ",[online]、[平成27年12月4日検索]、インターネット<http://www.talkwalker.com> "trendsmap",[online],[平成27年12月4日検索]、インターネット<http://trendsmap.com>
しかしながら、以上に説明した感情分析手法のような従来技術は、以下に述べるような問題を抱えている。
まず第1に、ソーシャルメディア上の1つの文書全体にわたって表現されている感情と、評価の対象となるトピックに対する感情とは、必ずしも一致しないことが問題となる。しかしながら、以上に説明したような従来の感情分析では、この両感情を区別して、トピックに基づく感情を的確に把握する、といったことはほとんど行われてこなかった。
この両感情が一致しない1つの例として、「iPhone(登録商標)を持っていないなんてとても悲しい」との投稿文書は、全体としてネガティブな感情を表現したものと捉えることができる。しかしながら、「iPhone(登録商標)」というトピックに対しては、持っていたいものとしてのポジティブな感情を表している、と判断すべきである。即ち、トピックに基づく感情はしばしば、間接的なやり方で表現されるのである。さらに、投稿文書がトピックに係るキーワードを含んではいるものの、そこで表現されている感情はトピックとは無関係である場合も少なくない。例えば、「彼女は逆上して私にiPhone(登録商標)を投げつけた」との投稿文書での感情は、「iPhone(登録商標)」というトピックとは無関係であるといえる。
このように、文書全体の感情と、対象となるトピックについての感情とを区別した感情分析や、感情分析結果を伴う特徴となるキーワードの抽出は、従来行われてこなかったのである。
また、第2の問題として、感情分析の結果を用い、例えばポジティブな投稿文書とネガティブな投稿文書との割合を算出するだけでは、評価対象のトピックに対する感情の背後にあるこの感情を引き起こす原因をも理解することは、依然として困難であることが挙げられる。
例えば、感情分析結果としての感情がもたらされた原因を理解することを目的として、非特許文献2に記載されたTwitter(登録商標)メッセージの感情分析手法を用い、ツイートから代表キーワードを抽出することも考えられる。しかしながら、抽出元となる投稿文書は通常文長が短く、また正式な記載様式や構成が存在しないことから、代表キーワードの抽出は非常に難しい。このような事情から、非特許文献4に開示されたような特徴感情分析を除き、代表キーワードの抽出はほとんど行われてこなかったのである。
さらに、第3の問題として、従来の感情分析は、特定の1つの国又は地域において実施されるものであったことが挙げられる。これに対し、例えば、評価対象のトピックについての感情分析を互いに異なる国や地域において実施し、分析結果を比較することにより、文化的な障壁を超えて適切なグローバルビジネス戦略を立てる、といったことも可能となる。しかしながら、従来、そのようなグローバルな比較の手法は、感情分析を1つの国又は地域で実施してきた以上、当然、ほとんど検討されてこなかった。
例えば、非特許文献5に記載されたようなクロスランゲージ感情分析では、正確な翻訳を行って言語間における検索クエリ及び代表キーワードのマッチングをとることが依然として困難である。また、世界地図上で国・地域毎の結果比較を容易に行うことができるような感情分析結果の可視化も実施されてこなかった。
また、非特許文献6に開示された特徴感情分析では、製品名に特化して分析が行われるのであり、また、例えば地図上に分析結果を可視化するようなことは行われてこなかった。さらに、自動的なトピック検出やトピックに基づく感情分析も実施されてこなかった。
さらに、非特許文献7のアプリケーションは、トピックを自動的に検出しているわけではなく、また、トピックに基づく感情を分析してもいない。また、非特許文献8のアプリケーションは、頻出語、ハッシュタグやユーザ名といったキーワードを世界地図上に表示してはいるが、これらのキーワードを含むツイートについて感情分析を行うといった機能は全く有していない。
そこで、本発明は、トピックに対する感情をより的確に把握し、この感情の原因を理解しやすい形で、互いに異なる地域におけるトピックの評価の状況を分析することができる装置、プログラム及び方法を提供することを目的とする。
本発明によれば、複数の地域におけるトピックに対する評価を分析する評価分析装置であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
を有する評価分析装置が提供される。
この本発明による評価分析装置は、一実施形態として、当該装置内又は当該装置外に設けられた表示デバイスに表示された画像における当該地域に対応する位置に、当該トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該地域の代表キーワードに係る情報と、当該トピックに係るものとして決定された当該地域の感情情報に係る情報とを表示させる表示制御手段を更に有することも好ましい。
また、スコア付与手段は、一実施形態として、
(1)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における感情情報の度合いの差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの差が大きいほど、より高いスコアを付与すること、
(2)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与すること、
(3)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの総和が大きいほど、より高いスコアを付与すること、及び
(4)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与すること
のうち少なくとも1つを採用することも好ましい。
また、本評価分析装置は、さらなる他の実施形態として、当該地域毎に、当該地域で使用される言語の文書であって、当該投稿文書よりも情報量が多いと予め認定された文書種別の文書から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、当該トピックキーワードを抽出するトピックキーワード生成手段を更に有することも好ましい。
さらに、キーワードグループ生成手段は、一実施形態として、
当該地域毎に、当該トピックキーワード及び抽出された当該代表キーワードの両方を含む投稿文書を収集し、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値と、当該選別対象の代表キーワードが名詞か否かに係る値と、当該選別対象の代表キーワードと当該トピックキーワードとの距離に係る値と、当該選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該キーワードグループを生成するための代表キーワードを選別する代表キーワード決定手段
を有することも好ましい。
本発明によれば、また、複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
してコンピュータを機能させる評価分析プログラムが提供される。
本発明によれば、さらに、当複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータソフトウエアによる評価分析方法であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するステップと、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するステップと、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定するステップと、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するステップと
を有する評価分析方法が提供される。
本発明の評価分析装置、プログラム及び方法によれば、トピックに対する感情をより的確に把握し、この感情の原因を理解しやすい形で、互いに異なる地域におけるトピックに対する評価の状況を分析することができる。
本発明による評価分析装置において実施される評価分析方法の一実施形態の概要を示したフローチャートである。 本発明による評価分析装置の一実施形態における機能構成を示す機能ブロック図である。 トピックキーワード(KW)生成部におけるトピックキーワード生成処理の一実施形態を示すフローチャートである。 トピック特有文書決定部及び感情情報決定部におけるトピック特有文書及び感情情報決定処理の一実施形態を示すフローチャートである。 代表KW決定部における代表キーワード抽出・選別処理の一実施形態を示すフローチャートである。 スコア付与部におけるスコア付与処理の一実施形態を示すプログラムコードである。 表示制御部によってディスプレイに表示される感情世界地図の一実施形態を示す模式図である。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
図1は、本発明による評価分析装置において実施される評価分析方法の一実施形態の概要を示したフローチャートである。
図1に示された本実施形態における評価分析装置1は、複数の地域、例えば複数の国における、あるトピック(話題)に対する評価を分析し、分析結果を、例えばディスプレイに表示した世界地図上の該当位置に提示可能な装置である。具体的には、本発明による評価分析プログラムの搭載されたパーソナルコンピュータ(PC)、ノート型コンピュータ、スマートフォン、又はタブレット型コンピュータ等の情報機器とすることができる。
評価分析装置1は、本実施形態において、アクセスネットワークやインターネット等を介し、例えば複数の地域に設置された種々の文書管理・配信サーバ2から、
(a)Twitter(登録商標)等のミニブログ(Miniblog)や各種のブログ(blog,Weblog)を含むソーシャルメディア(social media)におけるユーザによる投稿文書、及び
(b)ニュース記事、新聞社社説や、各種分析記事等の、上記(a)に比べて通常、情報量(文字数)のより多い文書(大情報量文書)等
を取得することができる。ここで、大情報量文書は、Twitter(登録商標)等の投稿文書よりも一般的に情報量が多いと予め認定された種別の文書とすることができる。
さらに、評価分析装置1は、具体的な機能構成として、分析対象に含まれる各地域において評価される「トピック」が決定された上で、
(A)分析対象に含まれる地域毎に、当該地域で使用される言語の文書(大情報量文書)であって、「トピック」に係るトピックキーワードを含むクエリを用いて検索された文書から「代表キーワード」を抽出し、
(B)互いに異なる地域で使用される言語の「代表キーワード」であって翻訳される関係にある「代表キーワード」同士を集めてキーワードグループを生成し、
(C)分析対象に含まれる地域毎に、当該地域で使用される言語の投稿文書であって、「トピック」に係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベース(感情語彙DB)を用いて機械学習を行うことによって、当該投稿文書に係る「感情情報」を決定し、
(D)生成されたキーワードグループに対し、このキーワードグループに属する「代表キーワード」の出現回数と、このキーワードグループに属する「代表キーワード」にトピックについて関連する投稿文書に係る「感情情報」とのうちの一方又は両方に基づいて「スコア」を付与する
ことができる。
このような(A)〜(D)による処理の一実施例として、最初にトピックとして「iPhone(登録商標)」が決定された上で、
(a)分析対象の国である日本、米国、ブラジル、フランス及び中国の各国について抽出された代表キーワードから、
(b)「price」や「display size」といった代表キーワードを含むキーワードグループが生成され、
(c)日本、米国、ブラジル、フランス及び中国の各国におけるTwitter(登録商標)の(日本語、英語、ポルトガル語、フランス語及び中国語の)投稿文書に対する「感想・所感」(感情情報)が決定され、
(d)生成されたキーワードグループに属する「price」及び「display size」の出現回数と、これらの代表キーワードに「iPhone(登録商標)」について関連する投稿文書に対する「感想・所感」とに基づき、生成されたキーワードグループに対し「スコア」として、例えば百点満点のうちの数十何点が付与される。
このように、本発明の評価分析装置1においては、トピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情語彙データベースを利用して機械学習を行うことによって「感情情報」を決定している。これにより、投稿文書全体にわたって表現されている感情と、評価対象の「トピック」に対する感情とが必ずしも一致しない問題を解決し、結果として、評価対象である「トピック」に対する感情をより的確に把握することが可能となる。例えば、「彼女は逆上して私にiPhone(登録商標)を投げつけた」との投稿文書に対する感情情報は、「iPhone(登録商標)」というトピックとは無関係であるとして、分析対象から排除することができるのである。
また、本発明の評価分析装置1においては、キーワードグループに含まれる「代表キーワード」を決定する。この「代表キーワード」は、異なる言語によるものであって互いに翻訳される関係にあるものを含み、評価対象の「トピック」に対する感情の背後にある当該感情を引き起こす原因を理解するガイドとなる。例えば、評価対象トピックとしての1つの製品(名)に対し、ポジティブな「感情情報」(感想・所感)が決定されていて、代表キーワードとして「price」が決定されている場合、この製品に関してポジティブな感想・所感の生じた原因として、価格の安さが推察されるのである。このように、トピックに対する感情の原因を理解しやすい形で、トピック評価の状況を分析することが可能となる。
さらに、本発明の評価分析装置1においては、分析対象に含まれる地域毎に「感情情報」を決定し、さらに、生成されたキーワードグループに対し、「代表キーワード」の出現回数と、「代表キーワード」にトピックについて関連する投稿文書に係る「感情情報」とのうちの一方又は両方に基づいて「スコア」を付与する。ここで、取り扱われる「代表キーワード」は、異なる地域で使用される言語毎に存在しており、互いに翻訳される関係にあるものである。これにより、分析・比較にふさわしいキーワードグループを選別し、互いに異なる地域におけるトピック評価の状況を効果的に理解することが可能となるのである。
従って、特定の1つの地域(1つの国)における感情分析にとどまらず、例えば、互いに異なる言語を使用する国々にまたがった感情分析を行うことも可能となる。その結果、例えば、各国間において分析結果を比較することにより、ビジネスや政治等の分野において、文化的な障壁を超えた適切なグローバル戦略を立てる、といったことも可能となるのである。
ちなみに、評価分析装置1は、1つの実施形態として、
(E)装置1内又は装置1外に設けられた表示デバイスに表示された画像(例えば、世界地図)における対象地域に対応する位置に、
(e1)評価対象トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たす「スコア」を付与されたキーワードグループに含まれるこの地域の「代表キーワード」に係る情報と、
(e2)評価対象トピックに係るものとして決定されたこの地域の「感情情報」に係る情報と
を表示させる
ことも好ましい。
このような実施形態を採用した場合、例えば、世界地図上で、各国についての「代表キーワード」及び「感情情報」を当該国の位置に表示して感情分析結果の可視化を行うことによって、国(地域)毎の感情分析結果の比較を容易に行うことも可能となるのである。
なお、本発明による評価分析装置は、例えば、ユーザの利用するユーザインタフェースとしてのPCとは別個の装置とすることもできる。この場合、評価分析装置は、当該PCと無線又は有線で通信接続されていて、当該PCから分析処理動作についての指示情報を入力し、当該PCのディスプレイ制御部に表示画像データを出力するものであってもよい。また、本発明による評価分析装置は、上記構成(C)における「感情情報」を決定するための機械学習処理部分を、外部の別サーバで行い、処理結果のデータベースのみを自身の内に格納するものであってもよい。
次に、図1に示したフローチャートを用いて、本実施形態の評価分析装置1におけるトピック評価分析処理の概要を、ステップS1〜S5に分けて説明する。
(S1:トピック検出)最初に、グローバルな感情分析、さらには各地域(国)での感情分析結果の比較、を行うのに適した(行う価値のある)トピック、いわゆるホットトピックを検出する。
(S2:トピック固有感情分析)次いで、投稿文書全体の感情を評価するのではなく、検索クエリ(トピック)についての投稿文書の感情を分析する。
(S3:代表キーワード抽出)次いで、分析結果としての感情の偏りの原因をユーザに理解させることを目的として、感情についてポジティブな投稿文書及びネガティブな投稿文書の両方を用いて代表キーワードを抽出する。
(S4:地域間での感情分析結果比較)(異なる言語使用国を含む)複数の国(地域)の間で、感情分析結果を比較し、最も興味深いと判断される結果の差異を強調してまとめる。
(S5:感情情報世界地図の生成・表示)分析を行った複数の国について、まとめた比較結果を含め、感情の偏りの度合いといった「感情情報」だけでなく、感情の生じた原因を理解するための「代表キーワード」をも世界地図上に表示する。
このように、本評価分析装置1によれば、複数の国(地域)におけるトピック特有感情分析を実施することができる。また、分析対象として価値のあるトピックを取り上げた上で、投稿文書全体の感情ではなく、まさに取り上げたトピックについての感情を分析することができる。さらに、感情の偏りの度合いといった「感情情報」とともに、この「感情情報」を説明可能な「代表キーワード」を抽出して表示し、あわせて国間での興味深い結果の差異を強調して表示することもできるのである。
以下、概説した上記の処理ステップS1〜S5の各々について、当該処理ステップを担当する評価分析装置1の機能構成部を明示しつつ、詳細を説明する。
図2は、本発明による評価分析装置の一実施形態における機能構成を示す機能ブロック図である。
図2によれば、評価分析装置1は、通信インタフェース部101と、文書データベース(DB)102と、感情語彙DB103と、スコア付与キーワード(KW)グループ記録部104と、ディスプレイ105と、操作部106と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、評価分析装置1の主機能部であるコンピュータを機能させるプログラムを実行することによって、評価分析機能を実現させる。
さらに、プロセッサ・メモリは、機能構成部として、トピックKW生成部111と、トピック特有文書決定部112と、感情情報決定部113と、KWグループ生成部114と、スコア付与部116と、入出力制御部117とを有する。なお、図2によれば、各機能構成部を矢印で接続した処理の流れは、本発明による評価分析方法の一実施形態としても理解される。
通信インタフェース部101は、文書管理・配信サーバ2から、通信ネットワークを介し、Twitter(登録商標)等を含むソーシャルメディアにおけるユーザによる投稿文書や、ニュース記事等の大情報量文書等を受信する。また、後述する入出力制御部117から、分析結果としての感情情報や代表キーワードを含む感情情報世界地図に係る情報を入力して、外部の装置宛てに送信してもよい。また、文書DB102は、取得された投稿文書や大情報量文書等を、各種文書検索に対応可能な形で蓄積したデータベースである。
[トピックキーワード生成処理:S1]
トピックKW生成部111は、分析対象に含まれる国(地域)毎に、当該国(地域)で使用される言語の文書であって、投稿文書よりも情報量が多いと予め認定された文書種別の文書(大情報量文書)から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、トピックキーワードを抽出する。
図3は、トピックKW生成部111におけるトピックキーワード生成処理の一実施形態を示すフローチャートである。
(S11)ニュース記事(大情報量文書)から、tf-idf(term frequency-inverse document frequency)法等のアルゴリズムを用いて、特徴度の高い順に例えば100個のキーワードを抽出する。
ここで、例えば、新聞で記事に取り上げられたトピック(話題)が、ソーシャルメディア上でも最新のホットなトピックになっているとは必ずしも限らない。そこで、次にステップS12を実行する。
(S12)抽出されたキーワードをフィルタリングし、複数の投稿文書において特徴的でない(重みの小さい)キーワードを除外する。
ここで、フィルタリング処理として、各キーワードについて、複数の投稿文書におけるtf-idfスコアを算出し、所定閾値未満のスコアを有するキーワードを除外することも好ましい。このようなフィルタリング処理によって選別されたキーワードがトピックキーワードに決定され、決定されたトピックキーワードに係るトピックが、評価対象のトピックとなるのである。以後、このトピックキーワードを用いて、トピックに特有の文書であるトピック特有文書を決定する。
(S13)、選別されたトピックキーワードを含むクエリを用いて、当該トピックキーワードを含む投稿文書を検索する。
以下、このように取得されたトピックに関係する投稿文書から、トピック特有文書が決定され、さらに、決定されたトピック特有文書において感情分析が行われるのである。
[トピック固有感情分析処理:S2]
図2に戻って、トピック特有文書決定部112は、分析対象に含まれる国(地域)毎に、当該地域で使用される言語の投稿文書であって、トピックキーワードを含むクエリを用いて検索された投稿文書について、
(a)当該投稿文書におけるトピックキーワードの位置に係る値と、
(b)当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、
(c)当該投稿文書に現れた名詞の数に係る値と
のうちの少なくとも1つを要素とする特徴量を用いて機械学習を行い、トピックに特有の投稿文書であるトピック特有投稿文書を決定する。図2に示したトピック特有文書決定部112では、上記特徴量要素(a)、(b)及び(c)はそれぞれ、KW位置解析部112a、クエリ距離解析部112b及び品詞解析部112cによって算出される。
感情情報決定部113は、分析対象に含まれる国(地域)毎に、決定されたトピック特有投稿文書に対し、少なくともトピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、後述する感情語彙DB103を用いて機械学習を行うことによって、トピック特有投稿文書に係る感情情報を決定する。
感情語彙DB103は、感情に係る語彙のデータベースである。感情に関係する語彙を、感情種別について整理して格納したレキシコン(語彙目録、lexicon)とすることができる。また、特に、ポジティブ及びネガティブの互いに対となる感情に対する偏り具合(両感情の間での位置)である感情のポラリティを、語彙に対応付けたポラリティ・レキシコン(polarity lexicon)であることも好ましい。
なお、変更態様として、トピック特有文書決定部112及び/又は感情情報決定部113における機械学習処理部分については、装置1の外部に設置された処理サーバ等において実施し、この処理結果のデータベースを、装置1が収容して利用することも可能である。
図4は、トピック特有文書決定部112及び感情情報決定部113におけるトピック特有文書及び感情情報決定処理の一実施形態を示すフローチャートである。
(S21)最初に、トピックキーワードを含むクエリを用いて検索された分析対象の投稿文書の中における、トピックキーワードの位置を解析して調べる。例えば、投稿文書全体を0から1までの数直線として、トピックキーワードがこの数直線上のどの値の位置に現れるかを調べてもよい。または、トピックキーワードが文書開始の位置から何番目の語に相当するか、におけるその番数を位置とすることも可能である。
これにより、例えば、トピックキーワードの位置が投稿文書の開始の位置に近ければ、当該投稿文書のキーワードがこのトピックキーワードと合致する可能性が高い、といった判断がされ易くなる。
(S22)次いで、この分析対象の投稿文書における全ての感情誘発語を、感情語彙DB103を用いて特定し、検索に使用されたクエリ(トピックキーワード)と、特定された中で当該クエリに最も近い感情誘発語との距離、例えば語数又は文字数、を算出する。
これにより、例えば、算出された距離が所定未満の小さな値であれば、当該投稿文書に係る感情がこのトピックキーワードに関連している可能性が高い、といった判断がされ易くなる。ここで、感情誘発語とは、ある感情(sentiment)の発現を意味している語であり、感情語彙DB103において当該感情(のポラリティ)と対応付けられて記憶されている語となる。
(S23、S24)次に、POS(part of speech)tagger等のアプリケーションを用いて、この分析対象の投稿文書におけるクエリ(トピックキーワード)、感情誘発語及びその他全ての単語の品詞を同定し、当該投稿文書における名詞の数をカウントする。
これにより、投稿文書中の名詞の数によって、当該投稿文書の話題(トピック)がトピックキーワードとは異なっている可能性を測ることができる。
具体的には、例えば、投稿文書中に多くの名詞が現れていれば、当該投稿文書の話題(トピック)がトピックキーワードとは異なっている可能性が高い、といった判断がされ易くなる。例えば、「iPhone(登録商標)が大好き!」との投稿文書は、名詞を1つだけ含んでいるが、この投稿文書の表す感情はiPhone(登録商標)に対する感情であるといえる。これに対し、「このお店のiPhone(登録商標)用のアプリ、コーヒーを注文するのにとってもいい!」との投稿文書は、名詞を4つ含んでおり、iPhone(登録商標)に対する感情を表現していないと判断される。
ここで、以上に説明したステップS21〜S24で取得された、トピックキーワードの位置、感情誘発語との距離、及び名詞数に係る情報は、各ステップにおいてトピック特有文書決定部112の特徴量用メモリに記憶され、これらの情報を成分とした、分析対象の投稿文書についての特徴量ベクトルが生成される。
(S25、S26)分析対象の投稿文書について生成された特徴量ベクトルを用い、SVM(Support Vector Machine)やナイーブベイズといった機械学習アルゴリズムによって学習を行い、この投稿文書が、トピックに係る感情を表明したトピック特有文書であるか否かを決定する分類処理を実施する。ここで、トピック特有文書ではないと決定された場合、この投稿文書は、感情分析対象ではないとして、本分析処理は終了する。
(S27)一方、この投稿文書はトピック特有文書であると決定された場合、この投稿文書について感情分析を行う。この感情分析は、例えばSVMやナイーブベイズといった機械学習をベースとした公知の標準的な感情分析アルゴリズムを用いて実施することができる。
ここで、感情分析結果としては、例えば、ネガティブ及びポジティブの両極の間における感情の偏り度合いである感情レシオ(Sentiment Ratio)rが出力されてもよく、各種感情空間における座標値が出力されてもよい。感情レシオrは、r=−1(ネガティブ),0(ニュートラル),1(ポジティブ)の3値をとってもよく、ネガティブ又はポジティブの2値をとってもよく、又は−1≦r≦1の範囲の値をとるように設定してもよい。
以上に説明した処理によって、表明する感情がトピック(キーワード)に対するものとなっているトピック特有文書を選別し、選別された感情分析の対象にふさわしいトピック特有文書に対してのみ感情分析を行うことによって、的を射た適切な感情情報を取得することが可能となる。例えば、「彼女は逆上して私にiPhone(登録商標)を投げつけた。」といった投稿文書は、iPhone(登録商標)に係る感情を表明していないので、トピック特有文書とせず、感情分析の対象から除外することができる。また、機械学習を用いて総合的に感情を判断するので、例えば、「iPhone(登録商標)がなくて残念。」といった感情の間接表現にも対応することが可能となる。
[代表キーワード抽出及びキーワードグループ生成処理:S3]
図2に戻って、KWグループ生成部114は、代表KW決定部114aと、グルーピング部114fとを有する。このうち、代表KW決定部114aは、分析対象に含まれる国(地域)毎に、当該地域で使用される言語の文書であって、評価対象のトピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出する。
代表KW決定部114aは、さらに、
(a)分析対象に含まれる国(地域)毎に、トピックキーワード及び抽出された代表キーワードの両方を含む投稿文書を収集し、
(b)収集した各投稿文書について、感情語距離解析部114b、品詞解析部114c、トピックKW距離解析部114d、及びKW出現頻度解析部114eで算出された値を要素とする特徴量ベクトルを生成し、
(c)生成した特徴量ベクトルを用いて機械学習を行い、キーワードグループを生成するための代表キーワードを選別する
ことも好ましい。
ここで、上記(b)において、
(b1)感情語距離解析部114bは、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値を算出し、
(b2)品詞解析部114cは、選別対象の代表キーワードが名詞か否かに係る値を算出し、
(b3)トピックKW距離解析部114dは、選別対象の代表キーワードとトピックキーワードとの距離に係る値を算出し、
(b4)KW出現頻度解析部114eは、選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値を算出する。
代表KW決定部114aは、算出された上記(b1)〜(b4)の値のうちの少なくとも1つ、好ましくは全部、を要素とする特徴量を用いて機械学習を行うことができる。ちなみに、この代表キーワード抽出のための機械学習処理は、例えばSVMやナイーブベイズといった公知の標準的アルゴリズムを適用して実施することができ、処理結果としては、選別対象の代表キーワードを選択するか否かの情報が出力されてもよい。
また、変更態様として、この代表KW決定部114aにおける機械学習処理部分については、装置1の外部に設置された処理サーバ等において実施し、この処理結果のデータベースを、装置1が収容して利用することも可能である。
同じく図2において、グルーピング部114fは、評価対象に含まれる国(地域)の各々で選別された代表キーワードのうち、互いに異なる国(地域)で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成する。この際、キーワードグループは、翻訳される関係にある代表キーワードの集合を各々1つ以上含むものとして、複数生成されることも好ましい。
ここで、代表キーワードの翻訳は、公知の機械翻訳アプリケーションや言語間翻訳用のリンクを利用することができる。また、互いに翻訳される関係にある(異なる言語の)代表キーワードは、予め設定されたシソーラス(Thesaurus)を利用して決定されることも好ましい。このようなシソーラスとして、対象となる全ての言語及び当該言語間における通常辞書、スラング辞書、新語辞書等、種々のタイプの辞書を予め準備しておくことも好ましい。本実施形態では、充実したシソーラスを用いて適切なキーワードグループを生成することが、国(地域)間において分析結果を効果的に比較するために非常に重要となるのである。
図5は、代表KW決定部114aにおける代表キーワード抽出・選別処理の一実施形態を示すフローチャートである。
(S31)最初に、各トピックキーワードについて、インターネット上に存在する文書(大情報量文書)から代表キーワード候補を抽出し、代表キーワード候補リストを生成する。この処理は、具体的に、
(a)公知であるウェブページの検索エンジンを使用し、トピックキーワードと適切なキーワード(例えば「ニュース」等)とを合わせた検索クエリをもって、ウェブページを検索・収集し、
(b)収集されたウェブページの本文を抽出し、抽出された本文から、tf-idfや、df-idf、LDA(Latent Dirichlet Allocation)、LSA(Latent Semantic Association)、AIC(Akaike Information Criterion)といった公知のアルゴリズムを用いて代表キーワード候補を抽出する
ことによって実施することができる。
(S32)次いで、抽出された代表キーワード候補の各々について、当該キーワードとトピックキーワードとの両方を含んでいる投稿文書を全て収集する。
ここで、さらに、感情誘発語を全く含んでおらず感情の分析には適さないような、雑音に相当する投稿文書を除外することも好ましい。さらに、宣伝広告といったスパム(spam)と言われるような投稿文書を除外することも好ましい。この場合、例えば、画像以外のウェブコンテンツのURL(Uniform Resource Locator)を含んでいたり、(例えば、英語の投稿文書の場合に)「win」、「deal」、「review」、「$」及び「offer」といった疑わしい単語・文字を含んでいたりする投稿文書を全て除外するとしてもよい。
次いで、機械学習を用いて不適当な代表キーワード候補を除外するため、以下のステップS33〜S36の処理を実施する。
(S33)ポラリティ・レキシコン(polarity lexicon)である感情語彙DB103を用いて、投稿文書の中にある感情誘発語を同定し、選別対象の代表キーワード候補とこの感情誘発語との平均距離を算出する。
これにより、代表キーワード候補が感情誘発語をより近くに伴っていればいるほど、代表キーワードとして選別される、といった判断がされ易くなる。
(S34)POS tagger等のアプリケーションを用いて、投稿文書の中の代表キーワード候補が名詞か否かを判定し、判定結果を出力する。
これにより、代表キーワード候補が名詞であるならば、動詞や形容詞である場合に比べて代表キーワードとして選別され易くなる。
(S35)PMI(pointwise mutual information)や共起ベクトルのコサイン類似度等の手法を用いて、トピックキーワードと代表キーワード候補との意味的距離を算出する。
これにより、この意味的距離が大きいならば、この代表キーワード候補は一般的な単語に過ぎない可能性が高い、といった判断がされ易くなる。例えば、トピックキーワードが「Prius(登録商標)」である場合、代表キーワード候補である「engine」及び「people」のうちで代表キーワードに選別されるのは、意味的距離の小さい「engine」である、といった判断がされ易くなる。
(S36)ポジティブな感情の投稿文書、ネガティブな感情の投稿文書及びニュートラルな感情の投稿文書の各々における代表キーワード候補の共起頻度を決定する。
これにより、ポジティブ及びネガティブな投稿文書のいずれか一方に出現する頻度が高いが両方に出現する頻度は低い代表キーワード候補は、代表キーワードに選別される可能性が高い、といった判断がされ易くなる。例えば、トピックキーワードが「iPhone(登録商標)」である場合に、代表キーワード候補である「app」がポジティブな投稿文書にもネガティブな投稿文書にも高い頻度で出現していれば、「app」は感情のポラリティを理解するのに適していないと判断され、代表キーワードに選別されない可能性が高くなる。
ここで、以上に説明したステップS33〜S36で取得された情報は、各ステップにおいて代表KW決定部114aの特徴量用メモリに記憶され、これらの情報を成分とした、選別対象の代表キーワード候補についての特徴量ベクトルが生成される。
(S37)選別対象の代表キーワード候補について生成された特徴量ベクトルを用い、SVMやナイーブベイズといった機械学習アルゴリズムによって学習を行い、この代表キーワード候補が、代表キーワードとして選別されるか否かを決定する分類処理を実施する。ここで、代表キーワードとして選別されると決定された代表キーワード候補のみを、代表キーワードに決定して、決定された代表キーワードのリストを生成し、本抽出・選別処理は終了する。
以上の処理によって決定された代表キーワードは、評価対象に相応しいとされたトピック(トピックキーワード)に関連していることは勿論であるが、このトピックに対する感情(感想・所感)について特徴的なものとなっており、トピックに対する感情の地域差を際立てるものとなっている可能性が高いのである。
[感情分析結果比較処理:S4]
図2に戻って、スコア付与部116は、KWグループ生成部114から生成されたキーワードグループを、また、感情情報決定部113から決定された感情情報を入力し、生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方、好ましくは両方に基づいてスコアを付与する。
ここで、キーワードグループに付与されるスコアは、情報を提示する際のランキングスコアであり、このスコアが所定以上であるキーワードグループに係る情報(代表キーワード等)が、評価分析結果として提示されるのである。
次いで、スコア付与部116は、キーワードグループ毎に付与したスコアを対応付けた情報を、スコア付与KWグループ記録部104に記録する。以下、スコア付与の具体的な実施形態を、図6を用いて詳細に説明する。
図6は、スコア付与部116におけるスコア付与処理の一実施形態を示すプログラムコードである。
スコア付与部116は、具体的なスコア付与処理として、以下に説明する4つのスコア付与方針(a)〜(d)のうちの少なくとも1つの方針、好ましくは全部の方針を採用して、スコアを付与することができる。
(a)まず、付与対象のキーワードグループに対し、このキーワードグループに含まれる(全ての言語についての)代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=0
score=score+absolute no. of occurrences score
の処理に相当するが、これによれば、例えば、総出現回数が多いほど、対象のキーワードグループの情報を提示することがより相応しくなる。
(b)また、付与対象のキーワードグループに対し、このキーワードグループに含まれる(全ての言語についての)代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合い(感情レシオ)の総和が大きいほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=score+overall ratio of sentiment score
の処理に相当するが、これによれば、例えば、感情レシオの総和の大きいキーワードグループは、感情レシオについてバランスのとれたキーワードグループに比較して、その情報をより提示すべきことになる。
(c)さらに、付与対象のキーワードグループに対し、このキーワードグループに属する国(地域)の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=score+difference in no. of occurrences score
の処理に相当するが、これによれば、例えば、1つの言語について高い出現回数を有しつつ他の1つ又は複数の言語について低い出現回数を示すような代表キーワードは、提示されることがより相応しいことになる。
(d)また、付与対象のキーワードグループに対し、このキーワードグループに属する国(地域)の異なる代表キーワード間における感情情報の度合い(感情レシオ)の差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合い(感情レシオ)の差が大きいほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=score+difference in ratio of sentiment score
の処理に相当するが、これによれば、例えば、1つの言語についての感情レシオが、他の1つ又は複数の言語についての感情レシオと大きく相違するような代表キーワードは、どの言語についての感情レシオも同程度であるような代表キーワードと比較して、提示されることがより相応しいことになる。
以上説明した4つのスコア付与方針(a)〜(d)を実施して、それぞれにおいて算出されたスコアを合算した値「score」が、付与対象のキーワードグループに付与される。この後、例えば、この合算されたスコア(ランキングスコア)の最も大きいキーワードグループに含まれる代表キーワードが、評価分析結果として提示されるのである。これは、図6における
rank according to score
output top ranked keyword groups
の処理に相当するが、実際には、以下に説明する入出力制御部117(図2)における処理となる。
[感情情報世界地図生成・表示処理:S5]
図2に戻って、入出力制御部117の表示制御部117aは、装置1内又は装置1外に設けられた表示デバイス(図2ではディスプレイ105)に表示される世界地図画像における、評価対象に含まれる国(地域)に対応する位置に、
(a)評価対象のトピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該国(地域)の代表キーワードに係る情報(例えば、代表キーワードそのもの)と、
(b)評価対象のトピックに係るものとして決定された当該国(地域)の感情情報に係る情報(例えば、感情レシオ)と
を表示させる。ここで、上記(b)における「所定の条件を満たすスコア」は、例えば、複数のキーワードグループに付与されたスコアのうちで、最も大きな値のスコアとすることができる。また、所定閾値以上のスコアとしてもよい。この場合は、複数のキーワードグループに係る代表キーワード及び感情レシオが表示されることもあり得る。
入出力制御部117は、さらに、ディスプレイ105に表示すべきその他の画面画像信号を生成し、ディスプレイ105に出力する。また、入力部101からユーザによる操作信号を入力し、この操作信号に応じた指令を装置1内各部に出力する。例えば、ユーザによる送信指示入力を受けて、世界地図画像上の位置に紐づけられた代表キーワード及び感情レシオ情報を、通信インタフェース101を介し、外部の情報処理装置へ送信させてもよい。
ここで、操作部106は、ユーザによる入力操作を受け入れるデバイス又は当該デバイス用のインタフェースであり、例えばキーボード、押下ボタン、マウスやタッチパッド等のポインティングデバイス、若しくはタッチパネル、又はそれらのためのインタフェースとすることができる。なお、タッチパネル・ディスプレイを採用して、操作部106及びディスプレイ105の統合部とすることも可能である。
図7は、表示制御部117aによってディスプレイ105に表示される感情世界地図の一実施形態を示す模式図である。
図7によれば、トピック(キーワード)として「iPhone(登録商標)」を採用した場合の感情世界地図が、ディスプレイ105に表示されている。具体的には、アジア、オセアニア、ヨーロッパ、アフリカ、北アメリカ、及び南アメリカの6つの地域(大陸)の各々に対応する位置に、当該地域において決定された代表キーワード群(キーワードグループ)と、これらの代表キーワード群に対する感情情報として感情レシオ(Sentiment ratio)とが表示されている。
代表キーワードとしては、スコアの最も高かったキーワードグループにおける、「アクション」や「アクセス」等の10個のキーワードが採用されている。これらの代表キーワードは、それぞれの地域(大陸)において、当該地域を代表する言語に翻訳して表示されている。また、感情レシオは、ポジティブ(好感的)及びネガティブ(反感(悪感)的)のいずれかで表示されている。さらに、検索された投稿文書の数とともに、これらの投稿文書におけるポジティブとネガティブとの比率も円グラフとして表示されている。また、各代表キーワード(に係る投稿文書)もポジティブ又はネガティブに分類されている。
これにより、トピックに対する感情(感想・所感(sentiment))を、互いに異なる地域におけるトピック評価の状況として、より的確に把握することができる。また、代表キーワード(に係る投稿文書)に対する(ポジティブ又はネガティブといった)感情を知ることができるので、その感情の生じた原因を理解することが容易となっている。
なお、代表キーワード及び感情情報(感情レシオ)の表示は、図7に示したような、表示された世界地図において大陸(地域)毎に行われる形態に限定されるものではない。例えば、ユーザによるメニューの選択によって、表示された世界地図において国毎に行われたり、表示された1つの大陸(地域)において国毎に行われたりしてもよい。また、1つの国又は1つの地域における代表キーワード及び感情情報(感情レシオ)を詳細に表示することもできる。さらに、付加的な機能として、様々なトレンドや統計の情報を合わせて表示し、複数国(地域)の間で直接比較してみせてもよい。
以上詳細に説明したように、本発明においては、トピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情語彙データベースを利用して機械学習を行うことによって感情情報を決定している。これにより、評価対象であるトピックに対する感情をより的確に把握することが可能となる。
また、キーワードグループに含まれる代表キーワードを決定している。この代表キーワードは、異なる言語によるものであって互いに翻訳される関係にあるものを含み、各地域(国)において評価対象のトピックに対する感情の背後にある当該感情を引き起こす原因を理解するガイドとなる。すなわち、代表キーワードを用いることによって、トピックに対する感情の原因を理解しやすい形で、各地域(国)におけるトピック評価の状況を分析することができるのである。
さらに、分析対象に含まれる地域(国)毎に感情情報を決定し、生成されたキーワードグループに対しスコアを付与する。これにより、分析・比較にふさわしいキーワードグループを選別し、互いに異なる地域(国)におけるトピック評価の状況を効果的に理解することが可能となるのである。
また、これにより、特定の1つの地域(1つの国)における感情分析にとどまらず、例えば、互いに異なる言語を使用する国々にまたがった感情分析を行うことも可能となる。言い換えれば、世界的なトピック(話題)に対する感情についてのオピニオン・マイニングをグローバルに実施することができるのである。その結果、例えば、各国間において分析結果を比較することにより、ビジネスや政治等の分野において、文化的な障壁を超えた適切なグローバル戦略を立てる、といったことも可能となる。
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 評価分析装置
101 通信インタフェース部
102 文書データベース(DB)
103 感情語彙DB
104 スコア付与キーワード(KW)グループ記録部
105 ディスプレイ
106 操作部
111 トピックKW生成部
112 トピック特有文書決定部
112a KW位置
112b クエリ距離解析部
112c 品詞解析部
113 感情情報決定部
114 KWグループ生成部
114a 代表KW決定部
114b 感情語距離解析部
114c 品詞解析部
114d トピックKW距離解析部
114e KW出現頻度解析部
114f グルーピング部
116 スコア付与部
117 入出力制御部
117a 表示制御部117a

Claims (7)

  1. 複数の地域におけるトピックに対する評価を分析する評価分析装置であって、
    当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
    当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
    当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
    生成されたキーワードグループに対し、該キーワードグループに属する代表キーワードの出現回数と、該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
    を有することを特徴とする評価分析装置。
  2. 当該装置内又は当該装置外に設けられた表示デバイスに表示された画像における当該地域に対応する位置に、当該トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該地域の代表キーワードに係る情報と、当該トピックに係るものとして決定された当該地域の感情情報に係る情報とを表示させる表示制御手段を更に有することを特徴とする請求項1に記載の評価分析装置。
  3. 前記スコア付与手段は、
    (1)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における感情情報の度合いの差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの差が大きいほど、より高いスコアを付与すること、
    (2)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与すること、
    (3)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの総和が大きいほど、より高いスコアを付与すること、及び
    (4)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与すること
    のうち少なくとも1つを採用することを特徴とする請求項1又は2に記載の評価分析装置。
  4. 当該地域毎に、当該地域で使用される言語の文書であって、当該投稿文書よりも情報量が多いと予め認定された文書種別の文書から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、当該トピックキーワードを抽出するトピックキーワード生成手段を更に有することを特徴とする請求項1からのいずれか1項に記載の評価分析装置。
  5. 前記キーワードグループ生成手段は、
    当該地域毎に、当該トピックキーワード及び抽出された当該代表キーワードの両方を含む投稿文書を収集し、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値と、当該選別対象の代表キーワードが名詞か否かに係る値と、当該選別対象の代表キーワードと当該トピックキーワードとの距離に係る値と、当該選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該キーワードグループを生成するための代表キーワードを選別する代表キーワード決定手段
    を有することを特徴とする請求項1からのいずれか1項に記載の評価分析装置。
  6. 複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
    当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
    当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
    当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
    生成されたキーワードグループに対し、該キーワードグループに属する代表キーワードの出現回数と、該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
    してコンピュータを機能させることを特徴とする評価分析プログラム。
  7. 複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータソフトウエアによる評価分析方法であって、
    当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するステップと、
    当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するステップと、
    当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定するステップと、
    生成されたキーワードグループに対し、該キーワードグループに属する代表キーワードの出現回数と、該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するステップと
    を有することを特徴とする評価分析方法。
JP2016016582A 2016-01-29 2016-01-29 複数地域でのトピックの評価を分析する装置、プログラム及び方法 Active JP6529133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016016582A JP6529133B2 (ja) 2016-01-29 2016-01-29 複数地域でのトピックの評価を分析する装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016016582A JP6529133B2 (ja) 2016-01-29 2016-01-29 複数地域でのトピックの評価を分析する装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2017134787A JP2017134787A (ja) 2017-08-03
JP6529133B2 true JP6529133B2 (ja) 2019-06-12

Family

ID=59504441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016016582A Active JP6529133B2 (ja) 2016-01-29 2016-01-29 複数地域でのトピックの評価を分析する装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6529133B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101871739B1 (ko) * 2018-04-27 2018-06-27 주식회사 텐디 어플리케이션의 대표 키워드 결정 방법 및 어플리케이션의 대표 키워드 결정 시스템
JP6982546B2 (ja) * 2018-06-06 2021-12-17 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム
JP7324577B2 (ja) * 2018-10-24 2023-08-10 Solize株式会社 テキスト処理方法及び、テキスト処理装置
CN111160037B (zh) * 2019-12-02 2021-10-26 广州大学 一种支持跨语言迁移的细粒度情感分析方法
JP7293457B1 (ja) 2022-05-19 2023-06-19 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN117275752B (zh) * 2023-11-20 2024-03-22 中国人民解放军总医院 基于机器学习的病例聚类分析方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP4764864B2 (ja) * 2007-11-02 2011-09-07 ヤフー株式会社 情報伝播抽出装置および情報伝播抽出方法
JP5439100B2 (ja) * 2009-09-24 2014-03-12 株式会社日立ソリューションズ 文書解析システム
JP2012073877A (ja) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法
US9652473B2 (en) * 2013-01-25 2017-05-16 Adobe Systems Incorporated Correlating social media data with location information
JP6279354B2 (ja) * 2014-03-04 2018-02-14 Nttコムオンライン・マーケティング・ソリューション株式会社 話題特定装置、および話題特定方法
JP6289989B2 (ja) * 2014-04-28 2018-03-07 Kddi株式会社 商品に対するユーザの感情分析装置及びプログラム

Also Published As

Publication number Publication date
JP2017134787A (ja) 2017-08-03

Similar Documents

Publication Publication Date Title
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
Kang et al. based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach
US9323827B2 (en) Identifying key terms related to similar passages
Moussa et al. A survey on opinion summarization techniques for social media
Bondarenko et al. Overview of touché 2022: argument retrieval
JP5168961B2 (ja) 最新評判情報通知プログラム、記録媒体、装置及び方法
JP5541049B2 (ja) データ生成装置、データの生成方法及びデータ生成プログラム
Ahlgren Research on sentiment analysis: the first decade
JP5494126B2 (ja) 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
Balahur et al. Challenges and solutions in the opinion summarization of user-generated content
CN104050243B (zh) 一种将搜索与社交相结合的网络搜索方法及其***
Strzelecki et al. Direct answers in Google search results
JP6289989B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
JP2017107391A (ja) テキストマイニング方法、及びテキストマイニングプログラム
JP2007310663A (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
KR20110052114A (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP6509590B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
CN114741627B (zh) 面向互联网的辅助信息搜索方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
Mangnoesing et al. An empirical study for determining relevant features for sentiment summarization of online conversational documents
JP6153262B2 (ja) 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190510

R150 Certificate of patent or registration of utility model

Ref document number: 6529133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150