JP2009211280A - オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2009211280A
JP2009211280A JP2008052151A JP2008052151A JP2009211280A JP 2009211280 A JP2009211280 A JP 2009211280A JP 2008052151 A JP2008052151 A JP 2008052151A JP 2008052151 A JP2008052151 A JP 2008052151A JP 2009211280 A JP2009211280 A JP 2009211280A
Authority
JP
Japan
Prior art keywords
score
article
comment
page
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008052151A
Other languages
English (en)
Inventor
Akihiro Miyata
章裕 宮田
Harumi Kawashima
晴美 川島
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008052151A priority Critical patent/JP2009211280A/ja
Publication of JP2009211280A publication Critical patent/JP2009211280A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】オンラインページの意味内容に依存せず、オンラインページの作成者やコメント付与者の意図や、オンラインページの性質等の特徴を分析して数値化する。
【解決手段】本発明はオンラインページの記事部分及びコメント部分を取得して、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出して、ページIDと関連付け、ページID毎に算出された文字数に基づいてスコアを算出し、スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出して特徴量記憶手段に保持し、入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを特徴量記憶手段から検索して出力する。
【選択図】図1

Description

本発明は、オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、文字数・絵文字数を利用したオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
詳しくは、オンラインページ中の記事に含まれる文字数・絵文字数と、記事にコメントが付与されている場合はコメントに含まれる文字数・絵文字数を利用することで、オンラインページの特徴量を分析するオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
近年、ブログやSNS(Social Networking Service)のように、ユーザが執筆した記事を手軽にオンラインページとして投稿できるサービスが普及している。これらの記事の作成者は殆どの場合、マスメディア等とは関連を持たない一般ユーザであるが、一般ユーザならではの体験情報やクチコミ等が記載されることも多く、大量の有益情報が埋もれていると言える。特に、一般消費者に商材を提供する企業等では、特定の商材に対する評判やクチコミを把握するため、これらのオンラインページをマイニングすることへの需要が高まっている。
これらのオンラインページの中から有益情報を見つけ出す手法はいくつか存在している。例えば、Googleに代表されるような、オンラインページの被リンク数を他者からの支持票とみなして該オンラインページの有用性を判定する手法が挙げられる(例えば、非特許文献1参照)。
また、オンラインページに付与されるコメントの数やコメントを付与した人数といった情報を利用することで、該オンラインページを評価する手法も存在する(例えば、非特許文献2参照)。
L. Page. S. Brin, R. Motwani, and T. Winograd, "The PageRank Citation Ranking: Bringing Order to the Web". Technical report, Stanford Digital Library Technologies Project, 1998 宮田章裕、松岡寿延、岡野真一、山田節夫、石打智美、荒川則泰、加藤泰久、「反響特性分析を利用したブログ記事検索手法」情報処理学会論文誌、Vol. 48,No12, pp. 4041-4050 (2007).
前述の通り、ブログやSNSのようなオンラインページには評判やクチコミ等の第三者にとって有益な情報が埋もれている。一方、これらのオンラインページの中には、記事作成者ないしはその友人にしか理解できないような日記や内輪の情報も多数混在している。そのため、オンラインページ検索・マイニング技術の精度を向上させる必要があり、これらの多種多様な情報の種類を適切に分類する技術への需要が高まっている。
例えば、図15のように同じキーワード(同図の例では『年金』)を含む記事A,記事Bがあり、記事Aでは時事問題に関する深い考察等の第三者にとって有益な情報が書かれており、記事Bには個人の日常的な出来事等の第三者にとっては有益とはいえない情報が書かれていたとする。この場合、単純にキーワード(同図の例は「年金」)を含むかどうかだけを判断基準としてしまうと、記事Aと記事Bとを区別することができない。そこで、前述の非特許文献1のように、被リンク数を他者からの支持票とみなして当該オンラインページの有用性を判定する手法がWeb検索ではかなり有効である。しかし、ブログの記事は従来のWebページに比べて被リンク数が少なく、被リンクがあるブログ記事は全体の1%強にすぎないという報告もある(例えば、Ko Fujimura, Takefumi Inoue, Masayuki Sugisaki, "The EigenRumor Algorithm for Ranking Blogs", In Proceedings of the WWW 2005 2nd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and dynamics, May 2005.)。SNSもブログと同様の利用形態が目立つため、被リンク数が少ない傾向は同じであると思われる。
このように被リンク数が少ないのは、ブログやSNSでは記事にコメントを付与することができるため、記事に対する反響をリンクという行為ではなく、手軽なコメントという行為で代替する読者が多いことが一因と思われる。この点に注目して、上記の非特許文献2のような、記事に付与されたコメントの数やコメントを付与した人数といった情報を利用することで、オンラインページを評価する手法が提案されている。当該非特許文献2の手法では、例えば、多くのユーザから長期間にわたってコメントを受け続けている記事は資料的価値のある内容が含まれていると判定している。あるいは、少数の人々が何度もコメントを付与している記事では濃密な議論の対象となるような内容が含まれていると判定している。
しかし、当該非特許文献2の手法では、第三者にとって有益な記事を発見できない場合も少なくない。例えば、図16のように記事Cと記事Dがあり、両記事ともN人のユーザからM個ずつコメントを送信されていたとする。非特許文献2の手法では、記事Cと記事Dは同程度に有益と判定されてしまうが、実際には記事Cには第三者にとって有益な情報が含まれており、コメントでは議論が繰り広げられていて、記事Dには記事作成者の知人しか理解できない内容であり、コメントでは当事者だけが楽しめるインフォーマルなコミュニケーションが行われている、という場合も少なくない。これらの記事が第三者にとって有益かどうかは大きく異なるが、既存手法ではこの違いを識別することができない。
本発明は、上記の点に鑑みなされたもので、オンラインページの意味内容に依存せず、オンラインページの作成者やコメント付与者の意図や、オンラインページの性質等の特徴を分析して数値化することが可能なオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
詳しくは、オンラインページの記事及びコメントに含まれる文字数及び絵文字数を利用して、記事を作成した人及びコメントを付与した人が、情報を正確に伝えることを重視しているか、あるいは、感情豊かに伝えることを重視しているか、等の意図を数量化することが可能なオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、インターネット上のブログやSNSを含むオンラインページを分析するための装置におけるオンラインページ分析方法であって、
データ入力手段が、オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段に格納するデータ入力過程(ステップ1)と、
スコア算出手段が、文字数記憶手段からページID毎に、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段に格納するスコア算出過程(ステップ2)と、
文書特徴量算出手段が、スコア記憶手段からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段に格納する特徴量算出過程(ステップ3)と、
データ出力手段が、入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを特徴量記憶手段から検索して出力する出力ステップ(ステップ4)と、を行う。
また、本発明(請求項2)は、文書特徴量算出過程(ステップ3)において、
記事文字数スコアを記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を特徴量記憶手段に格納する。
また、本発明(請求項3)は、文書特徴量算出過程(ステップ3)において、
コメント文字数スコアをコメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合にはコメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を特徴量記憶手段に格納する
また、本発明(請求項4)は、文書特徴量算出過程(ステップ3)において、
記事文字数スコア及びコメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて特徴量記憶手段に格納する。
図2は、本発明の原理構成図である。
本発明(請求項5)は、インターネット上のブログやSNSを含むオンラインページを分析するためのオンラインページ分析装置であって、
オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段24に格納するデータ入力手段13と、
文字数記憶手段24からページID毎に、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段22に格納するスコア算出手段25と、
スコア記憶手段22からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段23に格納する特徴量算出手段19と、
入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを特徴量記憶手段23から検索して出力するデータ出力手段20と、を有する。
また、本発明(請求項6)は、文書特徴量算出手段19において、
記事文字数スコアを記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を特徴量記憶手段23に格納する手段を含む。
また、本発明(請求項7)は、文書特徴量算出手段19において、
コメント文字数スコアをコメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合にはコメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を特徴量記憶手段23に格納する手段を含む。
また、本発明(請求項8)は、文書特徴量算出手段19において、
記事文字数スコア及びコメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて特徴量記憶手段23に格納する手段を含む。
本発明(請求項9)は、請求項5乃至8のいずれか1項に記載のオンラインページ分析装置を構成する各手段としてコンピュータを機能させるためのオンラインページ分析プログラムである。
本発明(請求項10)は、請求項9記載のオンラインページ分析プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように本発明によれば、ブログやSNS等のオンラインページをより詳細に分析することができ、ページ検索・データマイニングの精度及び柔軟性を向上させることができる。
具体的には、記事作成者やコメント付与者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているといった特徴量や、記事に含まれている情報の種類、その情報に対する読者の反応といった特徴量を条件指定したクエリに応じたオンラインページを発見したり、これらの特徴量に着目したデータマイニングを行ったりできるようになる。
また、文書の意味内容に依存する処理を行っていないため、くだけた文体が多く意味内容解析が難しいブログ等のページや、日本語以外で書かれているページへの適用が容易である。
以下、図面と共に本発明の実施の形態を説明する。
本発明では、コメントを付与することが可能なオンラインページとして、ブログ、SNSが代表的であるが、作成した文書をネットワーク上に掲載することができ、当該文書を文書作成者以外のユーザが閲覧することができ、該ユーザが該文書にコメントを付与することが可能なサービスを対象とする。図3は、本発明が対象とする典型的なオンラインページの構造を示す。
また、以下の説明において、「絵文字」とは、図4(A)に示すように、GIF(Graphics Interchange Format)ファイル等の画像を利用して実現するものや、図4(B)に示すように、1つ以上の文字で表現するもののことである。同図(B)の場合は、構成要素である文字は文字数としてカウントせず、合わせて一つの絵文字としてカウントする。
図5は、本発明の一実施の形態におけるオンラインページ分析装置の構成を示す。
オンラインページ分析装置10は、データ入力部13、記事文字数スコア算出部14、記事絵文字数スコア算出部15、コメント文字数スコア算出部17、コメント絵文字数スコア算出部18、文書特徴量算出部19、データ出力部20、スコア記憶部22、特徴量記憶部23から構成される。
当該オンラインページ分析装置10の外部には、オンラインページクローラ11、ページパーサ12、絵文字データベース16、データマイニング装置21がある。
オンラインページクローラ11は、オンラインページを収集・蓄積することができる一般装置である。
ページパーサ12は、オンラインページクローラ11に蓄積されているオンラインページの実体であるHTMLファイル等から記事部分・コメント部分を適切に抽出する一般装置である。ここでは、コメントが複数存在する場合は、それぞれを区別するものとして以降の説明を行う。
絵文字データベース16は、一般装置であり、絵文字に関する属性(絵文字数等)が格納されている。
データマイニング装置21は、一般装置であり、取得したデータをマイニングする。以下では、ユーザからのクエリを受け付け、データ出力部20に対してクエリの条件を渡し、対応する特徴量を取得してマイニングするものとする。
データ入力部13は、ページパーサ12にて抽出された記事部分及びコメント部分に基づいて、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページのIDと関連付けて文字数記憶部24に格納する。絵文字については、絵文字データベース16を参照して、記事やコメントに含まれる絵文字に関する属性(絵文字数等)を抽出する。文字数記憶部24に格納されるデータ形式を図6に示す。なお、コメント平均文字数やコメント平均絵文字数の代わりに、各コメントの文字数・絵文字数の最大値あるいは中央値などを用いても良い。
記事文字数スコア算出部14は、文字数記憶部24に格納されている記事文字数を用いてオンラインページの記事文字数スコア(以降「記事C−Score」と記す)を算出し、スコア記憶部22に格納する。これは、文字数が多いほど高くなるスコアであり、例えば、文字数をそのままスコアとする方法がある。あるいは、文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、分析対象となった全オンラインンページの記事文字数を利用して正規化を行い、0以上1以下の数値で記事C−Scoreを表現することとする(分析対象となった全オンラインページの中で最小の記事文字数を持つページの記事C−Scoreが0となり、最大の記事文字数を持つページの記事C−Scoreが1となる)。
記事絵文字数スコア算出部15は、文字数記憶部24に格納されている記事絵文字数を用いてオンラインページの記事絵文字数スコア(以降「記事P−Score」と記す)を算出し、スコア記憶部22に格納する。これは、絵文字数が多いほど高くなるスコアであり、例えば、絵文字数をそのままスコアとする方法がある。あるいは、絵文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、前述の記事文字数スコア算出部14と同様の正規化を行うこととする。
コメント文字数スコア算出部17は、文字数記憶部24に格納されているコメント文字数を用いてオンラインページのコメント文字数スコア(以降「コメントC−Score」と記す)を算出し、スコア記憶部22に格納する。これは、文字数が多いほど高くなるスコアであり、例えば、文字数をそのままスコアとする方法がある。あるいは、文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、記事文字数スコア算出部14と同様の正規化を行うこととする。
コメント絵文字数スコア算出部18は、文字数記憶部24に格納されているコメント絵文字数を用いてオンラインページのコメント絵文字数スコア(以降「コメントP−Score」と記す)を算出し、スコア記憶部22に格納する。これは、絵文字数が多いほど高くなるスコアであり、例えば、絵文字数をそのままスコアとする方法がある。あるいは、絵文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、記事文字数スコア算出部14と同様の正規化を行うこととする。
上記の記事文字数スコア算出部14、記事絵文字数スコア算出部15、コメント文字数スコア算出部17、コメント絵文字数スコア算出部18にて算出された各スコアは、例えば、図7のようなデータ形式でスコア記憶部22に保持される。
文書特徴量算出部19は、スコア記憶部22から図7に示すスコアを読み出して、当該スコアに基づいてオンラインページの特徴量を算出し、特徴量記憶部23に格納する。特徴量算出の具体的な方法は、第1〜第3の実施例にて詳述する。
データ出力部20は、一般的なデータマイニング装置21から取得したクエリで指定されたオンラインページのページIDの特徴量を出力、又は、クエリにて指定された特徴量を持つオンラインページのページID群を出力する。
図8は、本発明の一実施の形態における概要動作のフローチャートである。
ステップ101) データ入力部13は、ページパーサ12からオンラインページの記事部分及びコメント部分を取得する。
ステップ102) データ入力部13は、記事文字数、記事絵文字数を算出し、図6に示すような形式で文字数記憶部24に格納する。ここで、記事絵文字数については、絵文字データベース16にアクセスし、絵文字数を取得する。
ステップ103) データ入力部13は、コメント平均文字数、コメント平均絵文字数を算出する。コメント平均文字数は、コメント文字数を当該オンラインページの全コメントで割った値とする。また、コメント平均絵文字数は、絵文字データベース16にアクセスすることにより取得した絵文字数をコメント数で割った数とする。このようにして算出された各文字数を図6に示すような形式で文字数記憶部24に格納する。
ステップ104) 記事文字数スコア算出部14において、文字数記憶部24から記事文字数のスコア(記事C−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められた記事文字数スコア(記事C−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。
ステップ105) 記事絵文字スコア算出部15において、文字数記憶部24から記事絵文字数のスコア(記事P−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められた記事絵文字数スコア(記事P−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。
ステップ106) コメント文字数スコア算出部17において、文字数記憶部24から記事文字数スコア(コメントC−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められたコメント文字数スコア(コメントC−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。
ステップ107) コメント絵文字数スコア算出部18において、文字数記憶部24からコメント絵文字数スコア(コメントP−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められたコメント絵文字数スコア(コメントP−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。
ステップ108) 文書特徴量算出部19において、スコア記憶部22から各ページID毎にスコアを読み出して特徴量を求める。まず、1つ目の方法として、記事C−Scoreと記事P−ScoreからCP比を求める方法、2つ目の方法として、コメントC−ScoreとコメントP−ScoreからCP比を求める方法、3つ目の方法として、記事C−ScoreとコメントC−Scoreのスコアの大小関係に基づいて、グループ分けし、グループとオンラインページのページIDを取得する方法がある。これらの各方法については実施例において説明する。求められた各特徴量は特徴量記憶部23にページID毎に格納される。
ステップ109) データ出力部20は、データマイニング装置21からユーザから入力されたクエリを取得する。
ステップ110) データ出力部20は、クエリに基づいて特徴量記憶部23を検索して、クエリに対応する情報(ページIDまたは、特徴量)を出力する。
以下、具体的な例を用いて本発明を詳細に説明する。
[第1の実施例]
本実施例では、文書特徴量算出部19にて行われる処理の一例として、記事C−Scoreを記事P−Scoreで割った値(以降「記事CP比」と記す)を利用した特徴量算出について述べる。なお、オンラインページ分析装置10の他の構成要素の処理は前述の実施の形態と同様である。
文書特徴量算出部19は、文字が情報を正確に伝えることに重きを置いている手段であり、絵文字が感情を豊かに伝えることに重きを置いていることを利用する分析である。
例えば、文字数が多く、絵文字が少ない記事は記事CP比が大きくなる。このような記事の場合、記事作成者は情報をより正確に表現できる文字という手段を多く使い、文書内容を読み手に正確に伝えることを重視していると言える。時事問題を深く検討している記事や、プログラミングのテクニックを紹介している記事は記事CP比が大きい場合が多い。
逆に、文字数が少なく、絵文字数が多い記事は記事CP比が小さくなる。このような記事の場合、記事作成者は情報を正確に伝えることよりも感情豊かに伝えようとしていることが多い。また、日常的なとりとめもない内容の記事を、楽しそうな内容を含んでいるかのように見せるために絵文字が多用されるケースも少なくない。
文書特徴量算出部19は、スコア記憶部22から記事C−Scoreと記事P−Scoreを読み出して、オンラインページのページID毎に、記事CP比を、
記事CP比=記事C−Score/記事P−Score
により求め、図9に示すような形式で特徴量記憶部23に格納する。
上記のように各オンラインページの記事CP比を算出しておくことで、本装置10は、記事作成者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているかということを条件指定したクエリに応じることが可能になる。このため、例えば、本装置10をオンラインページ検索サービスに導入すると、従来よりも詳細にページを分類して検索できるため、ユーザの検索ニーズに柔軟に応えることができる。
[第2の実施例]
本実施例では、分析対象のオンラインページ中の記事にコメントが付与されている場合に、文書特徴量算出部19で行われる処理の実施例として、コメントC−ScoreをコメントP−Scoreで割った値(以降「コメントCP比」と記す)を利用した特徴量算出について述べる。なお、オンラインページ分析装置10の他の構成要素の処理は前述の実施の形態と同様である。
これは第1の実施例と同様に、文字が情報を正確に伝えることに重きを置いている手段であり、絵文字が感情を豊かに伝えることに重きを置いていることを利用する分析である。また、コメントが記事作成者への敵意を示す場合は絵文字が滅多に含まれないという点も鑑みている。
本実施例において、文書特徴量算出部19は、スコア記憶部22からコメントC−ScoreとコメントP−Scoreを読み出して、コメントCP比を、
コメントCP比=コメントC−Score/コメントP−Score
により求め、図10に示すような形式で特徴量記憶部23に格納する。
例えば、文字数が多く、絵文字数が少ないコメントはコメントCP比が大きくなる。このようなコメントの場合、コメント付与者は情報をより正確に表現できる文字という手段を多く使い、文章内容を記事作成者もしくは読者に正確に伝えることを重視していると言える。真剣は議論を含むコメントや、敵意を表明しているコメントは、コメントCP比が大きい場合が多い。
逆に、文字数が少なく、絵文字数が多いコメントはコメントCP比が小さくなる。このようなコメントの場合、コメント付与者は情報を正確に伝えることよりも感情豊かに伝えようとしていることが多い。また、コメント付与者が記事作成者と親しい仲にある場合に絵文字に多用されるケースも少なくない。
上記のように、各オンラインページのコメントCP比を算出しておくことで、本装置10は、コメント付与者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているかと言うことを条件指定したクエリに応じることが可能になる。このため、例えば、本装置10をオンラインページ検索サービスに導入すると、従来よりも詳細にページを分類して検索できるため、ユーザの検索ニーズを柔軟に応えることができる。
[第3の実施例]
本実施例では、分析対象のオンラインページ中の記事にコメントが付与されている場合に、文書特徴量算出部19で行われる処理の実施例として、記事及びコメントのC−Scoreに基づいて、当該オンラインページが図11に示すグループのどれに属するか判定した結果を特徴量として算出し、各ページと関連付けて記録して利用する場合について述べる。
以下において、記事C−Score、コメントC−Scoreの大小については、例えば、0〜0.5の範囲は「小」、0.51〜1の範囲は「大」とするように、予めスコアの範囲を決定しておき、スコアの大小を決定するものとする。また、上記の大小判定以外に、例えば、予め0.5以上を「大」、0.5未満を「小」する、または、データのスコア上位50%を「大」、下位50%未満を「小」とする等の方法が考えられる。
文書特徴量算出部19は、スコア記憶部22からオンラインページのページID毎に記事C−Score、コメントC−Scoreを読み出して、所定の範囲によりグループ分けを行い、図12に示すようにグループ分けし、当該文書特徴量算出部19内部のメモリ(図示せず)に格納する。
図11において、「グループ1」は記事C−Score[大]かつコメントC−Score[大]のグループである。この「グループ1」に属するページは、記事に多くの情報が記されており、それに対して読者が多くの情報を含むコメントを送信している。この現象は時事問題等に関する情報・意見が詳細に記された記事に対して、読者がコメントを用いて賛成・反対意見等を述べ合って議論が沸き起こっている場合に発生しやすい。
「グループ2」は、記事C−Score[小]かつコメントC−Score[大]のグループである。この「グループ2」に属するページは、記事には多くの情報は含まれていないにも関わらず、それに対して読者が多くの情報を含むコメントを送信している。この現象は記事に非常にインパクトの強い内容が書かれており、読者がコメントを用いてその内容に対する意見・感想を寄せている場合に発生しやすい。
「グループ3」は、記事C−Score[小]かつコメントC−Score[小]のグループである。この「グループ3」に属するページは、記事に多くの情報は含まれておらず、それに対して読者も多くの情報を含まないコメントを送信している。
この現象は記事に個人の日常の些細な出来事が書かれており、顔見知りの読者が戯れにコメントを寄せてインフォーマルなコミュニケーションを交わしている場合に発生しやすい。
「グループ4」は、記事C−Score[大]かつコメントC−Score[小]のグループである。この「グループ4」に属するページは、記事に多くの情報が記されており、それに対して読者が多くの情報を含まないコメントを送信している。この現象は詳細情報が細かく記された情報発信を目的としている記事に対して、読者がその情報を知ることができたお礼等をコメントで述べている場合に発生しやすい。
上記のように各オンラインページがどのグループに属するかを求めておくことで、本装置10は記事に含まれている情報の種類、その情報に対する読者の反応を条件指定したクエリに応じることが可能になる。ここで、データマイニング装置21は、図13に示すようなインタフェースを有し、同図でチェックされているグループ情報をデータ出力部20に入力する。
例えば、データマイニング装置21から「議論を呼んでいる話題や、議論の過程そのものを閲覧したい」(グループ1)というクエリが入力されると、データ出力部20は、例えば、図14に示す特徴量記憶部23のテーブルから「グループ1」に属するページを優先的に提示する。また、「インパクトの強い情報を閲覧したい」(グループ2)というクエリに対しては、「グループ2」に属するページを優先的に提示する。「一個人の日常的な出来事に関する情報や、ここに生じるインフォーマルなコミュニケーションの場を閲覧したい」(グループ3)というクエリに対しては、「グループ3」に属するページを提示する。「情報発信を目的としたページを閲覧したい」(グループ4)というクエリに対してはグループ4に属するページを優先的に提示する。
これらのクエリ及びその他のクエリ(「あるキーワードに対するTF/IDF(Term Frequency / Inverse Term Frequency)値が高いページを閲覧したい」等)は複数の条件が同時に指定されてもよく、その場合に各クエリに適切な重みがかけられてもよい。例えば、「議論を呼んでいる話題を含むページを閲覧したい」というクエリ1に10の重みをかけ、「インパクトの強い情報を閲覧したい」というクエリ2に20の重みをかけ、「『年金』というキーワードのTF/IDF値が高いページを閲覧したい」というクエリ3に30の重みをかけた場合、「グループ1」に属するページのスコアは10倍したものが加算され、「グループ2」に属するページのスコアは20倍したものが加算され、『年金』を含むページのスコアは『年金』のTF/IDF値を30倍したものが加算され、スコアの合計値が高いページから順にユーザに提示されるといったように動作する。
なお、ここでは、各ページがどこかの1グループのみに属するように判定してある場合を例に説明したが、例えば、各グループの中心点を定義しておき、あるページと各グループの中心との「近さ(距離の逆数等)」を該ページの属性として記録しておいてもよい。この場合、例えば、ページAはグループ1への近さが1、グループ2への近さが2、といったような属性を持つことになり、「議論を呼んでいる話題を含むページを閲覧したい」というクエリ1に10の重みを掛け、「インパクトの強い情報を閲覧したい」というクエリ2に20の重みを掛ける場合は、10×1+20×2=50というスコアを持つことになる。
また、第3の実施例に第1の実施例及び第2の実施例を組み込んでも構わない。この場合、上記に加え、記事作成者やコメント付与者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているかといったことも鑑みてより詳細かつ、柔軟にオンラインページを分析することができる。
なお、上記の図3に示すオンラインページ分析装置10の各構成要素の機能をプログラムとして構築し、オンラインページ分析装置10として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ブログ、SNS等のオンラインページ及び、文書作成者が作成した文書をネットワーク上に掲載することができ、文書を文書作成者以外のユーザが閲覧することができ、当該閲覧ユーザがコメントを付与することが可能なサービスに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の対象とするオンラインページの例である。 本発明のオンラインページで用いられる絵文字の例である。 本発明の一実施の形態におけるオンラインページ分析装置の構成図である。 本発明の一実施の形態における文字数記憶部のデータ例である。 本発明の一実施の形態における算出されたスコアの例である。 本発明の一実施の形態における概要動作のフローチャートである。 本発明の第1の実施例における特徴量算出結果の例である。 本発明の第2の実施例における特徴量算出結果の例である。 本発明の第3の実施例の文書特徴量算出部におけるグループ判定を説明するための図である。 本発明の第3の実施例におけるグループ分けの例である。 本発明の第3の実施例におけるデータマイニング装置から入力されるグループ情報の例である。 本発明の第3の実施例における特徴量記憶部のテーブルの例である。 オンラインページの記事本文の例である。 記事の本文とコメントの例である。
符号の説明
10 オンラインページ分析装置
11 オンラインページクローラ
12 ページパーサ
13 データ入力手段、データ入力部
14 記事文字数スコア算出部
15 記事絵文字数スコア算出部
16 絵文字データベース
17 コメント文字数スコア算出部
18 コメント絵文字数スコア算出部
19 特徴量算出手段、文書特徴量算出部
20 データ出力手段、データ出力部
21 データマイニング装置
22 スコア記憶手段、スコア記憶部
23 特徴量記憶手段、特徴量記憶部
24 文字数記憶手段、文字数記憶部
25 スコア算出手段

Claims (10)

  1. インターネット上のブログやSNS(Social Networking Service)を含むオンラインページを分析するための装置におけるオンラインページ分析方法であって、
    データ入力手段が、前記オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段に格納するデータ入力過程と、
    スコア算出手段が、前記文字数記憶手段からページID毎に、前記記事文字数、前記記事絵文字数、前記コメント平均文字数、前記コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段に格納するスコア算出過程と、
    文書特徴量算出手段が、前記スコア記憶手段からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段に格納する特徴量算出過程と、
    データ出力手段が、入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを前記特徴量記憶手段から検索して出力する出力ステップと、
    を行うことを特徴とするオンラインページ分析方法。
  2. 前記文書特徴量算出過程において、
    前記記事文字数スコアを前記記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には前記記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を前記特徴量記憶手段に格納する
    請求項1記載のオンラインページ分析方法。
  3. 前記文書特徴量算出過程において、
    前記コメント文字数スコアを前記コメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合には前記コメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を前記特徴量記憶手段に格納する
    請求項1記載のオンラインページ分析方法。
  4. 前記文書特徴量算出過程において、
    前記記事文字数スコア及び前記コメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて前記特徴量記憶手段に格納する
    請求項1記載のオンラインページ分析方法。
  5. インターネット上のブログやSNS(Social Networking Service)を含むオンラインページを分析するためのオンラインページ分析装置であって、
    前記オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段に格納するデータ入力手段と、
    前記文字数記憶手段からページID毎に、前記記事文字数、前記記事絵文字数、前記コメント平均文字数、前記コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段に格納するスコア算出手段と、
    前記スコア記憶手段からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段に格納する特徴量算出手段と、
    入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを前記特徴量記憶手段から検索して出力するデータ出力手段と、
    を有することを特徴とするオンラインページ分析装置。
  6. 前記文書特徴量算出手段は、
    前記記事文字数スコアを前記記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には前記記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を前記特徴量記憶手段に格納する手段を含む
    請求項5記載のオンラインページ分析装置。
  7. 前記文書特徴量算出手段は、
    前記コメント文字数スコアを前記コメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合には前記コメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を前記特徴量記憶手段に格納する手段を含む
    請求項5記載のオンラインページ分析装置。
  8. 前記文書特徴量算出手段は、
    前記記事文字数スコア及び前記コメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて前記特徴量記憶手段に格納する手段を含む
    請求項5記載のオンラインページ分析装置。
  9. 請求項5乃至8のいずれか1項に記載のオンラインページ分析装置を構成する各手段としてコンピュータを機能させるためのオンラインページ分析プログラム。
  10. 請求項9記載のオンラインページ分析プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2008052151A 2008-03-03 2008-03-03 オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Pending JP2009211280A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008052151A JP2009211280A (ja) 2008-03-03 2008-03-03 オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008052151A JP2009211280A (ja) 2008-03-03 2008-03-03 オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2009211280A true JP2009211280A (ja) 2009-09-17

Family

ID=41184366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052151A Pending JP2009211280A (ja) 2008-03-03 2008-03-03 オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2009211280A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014507A (ja) * 2010-07-01 2012-01-19 Kddi Corp ディスカッション健全度算出装置、ディスカッション健全度算出方法およびコンピュータプログラム
WO2013012599A2 (en) * 2011-07-18 2013-01-24 Battelle Memorial Institute Automatic identification of abstract online groups
JP2013080988A (ja) * 2011-09-15 2013-05-02 Toshiba Corp 情報処理装置および情報提供方法
JP2013534334A (ja) * 2010-07-26 2013-09-02 アリババ・グループ・ホールディング・リミテッド 照会結果をソートするための方法および装置
CN103559174A (zh) * 2013-09-30 2014-02-05 东软集团股份有限公司 语义情感分类特征值提取方法及***
CN107180021A (zh) * 2016-03-09 2017-09-19 北京京东尚科信息技术有限公司 一种数据处理方法、***及其服务器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014507A (ja) * 2010-07-01 2012-01-19 Kddi Corp ディスカッション健全度算出装置、ディスカッション健全度算出方法およびコンピュータプログラム
JP2013534334A (ja) * 2010-07-26 2013-09-02 アリババ・グループ・ホールディング・リミテッド 照会結果をソートするための方法および装置
US8700629B2 (en) 2011-02-28 2014-04-15 Battelle Memorial Institute Automatic identification of abstract online groups
WO2013012599A2 (en) * 2011-07-18 2013-01-24 Battelle Memorial Institute Automatic identification of abstract online groups
WO2013012599A3 (en) * 2011-07-18 2013-04-18 Battelle Memorial Institute Automatic identification of abstract online groups
JP2013080988A (ja) * 2011-09-15 2013-05-02 Toshiba Corp 情報処理装置および情報提供方法
US9226033B2 (en) 2011-09-15 2015-12-29 Kabushiki Kaisha Toshiba Information processing apparatus and method for providing information
CN103559174A (zh) * 2013-09-30 2014-02-05 东软集团股份有限公司 语义情感分类特征值提取方法及***
CN103559174B (zh) * 2013-09-30 2016-03-09 东软集团股份有限公司 语义情感分类特征值提取方法及***
CN107180021A (zh) * 2016-03-09 2017-09-19 北京京东尚科信息技术有限公司 一种数据处理方法、***及其服务器

Similar Documents

Publication Publication Date Title
Huang et al. Detecting suicidal ideation in Chinese microblogs with psychological lexicons
US9483462B2 (en) Generating training data for disambiguation
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
US9817908B2 (en) Systems and methods for news event organization
KR101330158B1 (ko) 텍스트의 감정지수 분석 방법 및 컴퓨터 판독 가능한 기록 매체
US9946703B2 (en) Title extraction using natural language processing
US8713028B2 (en) Related news articles
US9727926B2 (en) Entity page recommendation based on post content
US20100318526A1 (en) Information analysis device, search system, information analysis method, and information analysis program
JP2010211594A (ja) テキスト分析装置および方法、並びにプログラム
US9959251B2 (en) Using content structure to socially connect users
Jeon et al. Hashtag recommendation based on user tweet and hashtag classification on twitter
Potthast et al. Information retrieval in the commentsphere
JP2009211280A (ja) オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
JP4970919B2 (ja) 閲覧対象情報の評価システム、方法、およびプログラム
KR20190048781A (ko) 온라인 의견 정보 수집 및 분석 시스템
Skanda et al. Detecting stance in kannada social media code-mixed text using sentence embedding
CN104461224B (zh) 一种信息处理方法及电子设备
Shafaee et al. Aspect-based sentiment analysis of amazon reviews for fitness tracking devices
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Alrumaih et al. Analyzing user behavior and sentimental in computer mediated communication
US20120047128A1 (en) Open class noun classification
Gundla et al. A review on sentiment analysis and visualization of customer reviews