JP5490082B2 - Internet site information analysis method and apparatus - Google Patents
Internet site information analysis method and apparatus Download PDFInfo
- Publication number
- JP5490082B2 JP5490082B2 JP2011277095A JP2011277095A JP5490082B2 JP 5490082 B2 JP5490082 B2 JP 5490082B2 JP 2011277095 A JP2011277095 A JP 2011277095A JP 2011277095 A JP2011277095 A JP 2011277095A JP 5490082 B2 JP5490082 B2 JP 5490082B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- site
- calculating
- analysis
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 93
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000000694 effects Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、インターネットのWebサイト上で公開されている情報を分析し、トレンド情報等を取得・提供するインターネットサイト情報分析方法と装置に関する。 The present invention relates to an Internet site information analysis method and apparatus for analyzing information published on an Internet website and acquiring / providing trend information and the like.
インターネット上では、様々な人々が公開した膨大な量の情報がWebサイトに記憶され、現在もなお増え続けている。ここで、Webサイトとは、掲示板(BBS:Bulletin Board System)やホームページ、ブログと称されるウェブログ(Web Log)などの情報源を意味する。 On the Internet, an enormous amount of information released by various people is stored in a Web site and is still increasing. Here, the Web site means an information source such as a bulletin board (BBS: Bulletin Board System), a homepage, and a Web log called a blog.
近年、Webサイトに蓄積された記事を分析して新しいトレンド情報を得ようとする取り組みが盛んに行われている。例えば、意見の内容がどの程度肯定的なのか或いは否定的なのかを分析する評判分析の技術や、所定のキーワードの出現頻度や注目度(Burst度)のトレンドを時系列に評価する技術や、検索エンジンを使用したとき検索結果内で特定のWebサイトが上位に表示されるようにする検索エンジン最適化の技術等、様々な技術を用いたサービスが実際に提供されている。 In recent years, efforts to obtain new trend information by analyzing articles accumulated on Web sites have been actively conducted. For example, a reputation analysis technique that analyzes how positive or negative the content of an opinion is, a technique that evaluates trends in the frequency of appearance and the degree of attention (Burst degree) of a given keyword in time series, Services using various technologies are actually provided, such as a search engine optimization technology that allows a specific Web site to be displayed at the top of search results when a search engine is used.
例えば、特許文献1に開示されているように、Webサイトにアクセスして文章情報(風評情報)を所定の期間ごとに収集し、収集したキーワードの使用状況を定量化して、定量化したキーワードの使用状況を監視することにより、抽出したキーワードの中からトレンドキーワードとなるキーワードを選定して、近未来に検索エンジンで使用される可能性の高いトレンドキーワードをリアルタイムで予測し、そのトレンドキーワードに関連する情報を提供するトレンド予測装置がある。これは、実際に検索エンジンに入力された検索キーワードの使用実績を分析してトレンドキーワードを得るよりも、リアルタイム性に優れているという特徴がある。
For example, as disclosed in
しかし、特許文献1のトレンド予測装置は、分析の対象としたキーワードについて、そのキーワードを含む文章情報の肯定性/否定性やキーワードの発生頻度などを分析して、そのキーワード自体をトレンドキーワードに選定するか否かを判断するものであって、そのキーワードの周囲に広がっていく投稿者の興味の変化を実体的に把捉し得るものではなかった。
However, the trend prediction apparatus of
また、特定のキーワードの周辺情報を収集する方法として相関分析手法が提案されており、そのキーワードから連想される別のキーワードを取得する連想検索等のサービスも行われているが、特許文献1と同様に、そのキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉し得るものではなかった。 Further, a correlation analysis method has been proposed as a method of collecting peripheral information of a specific keyword, and a service such as an associative search for acquiring another keyword associated with the keyword has been performed. Similarly, changes in the interests of contributors spreading around the keyword could not be grasped in practice.
また、有益な情報が得られる活発なWebサイトをリアルタイムに知りたいという要望があるが、そのような要望に応え得る方法やサービスは提案されておらず、未だ実用化されていないものであった。 In addition, there is a request to know in real time an active website where useful information can be obtained, but no method or service that can meet such a request has been proposed and has not yet been put into practical use. .
本発明は上記背景技術に鑑みて成されたもので、インターネット上に公開された多くのサイト情報を基に、それらの情報が持つ意味や背景、傾向を効果的に正確に知ることができる分析装置及び分析方法を提供するもので、特に、有益な情報が得られる活発なWebサイトをリアルタイムに抽出するWebサイト活性度分析、およびあるキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉する共起情報分析を行い、Webサイトに蓄積された記事から新しいトレンドを正確に知ることができるインターネットサイト情報分析方法と装置を提供することを目的とする。 The present invention was made in view of the above background art, and based on a lot of site information published on the Internet, an analysis that can effectively and accurately know the meaning, background, and tendency of the information. Providing devices and analysis methods, especially website activity analysis that extracts active websites where useful information can be obtained in real time, and changes in the interests of contributors spreading around certain keywords It is an object of the present invention to provide an Internet site information analysis method and apparatus capable of performing co-occurrence information analysis and grasping new trends accurately from articles accumulated on a Web site.
この発明は、インターネット上に存在するWebサイトに、コンピュータシステムにより自動的にアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記コンピュータシステムにより、前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を関連情報投稿数として算出する関連情報投稿数計算ステップと、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出して関連情報投稿率とする関連情報投稿率計算ステップと、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップとから成る処理を行うインターネットサイト情報分析方法である。 The present invention relates to an Internet site information analysis method for automatically accessing a Web site existing on the Internet by a computer system to collect and analyze the text information, and the computer system allows the text information and each Web site to be analyzed. An information collecting step for collecting site update date information, a word dividing step for dividing the sentence information into words, a word that is identical or similar to a predetermined keyword from the word group, and a sentence including the word a related information posts calculation step of calculating the number of information as related information posts, the proportion of the relevant information posts to total sentence information collected from each Web site, related information posted calculated for each Web site a related information post rate calculation step of the rate, and the reference date to analyze the update date information based on Internet to perform the update frequency calculation step of calculating the update frequency of each Web site, the process consisting of the relevant information Post rate and with said update frequency relative comparison output site activity analysis output step for each Web site This is a site information analysis method.
上記の各ステップに加え、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップとを設けてもよい。 In addition to the above steps, an information collecting step for collecting sentence information of the website every time a predetermined period elapses, a word dividing step for dividing the sentence information into words, and an investigation from the word group A search object information extracting step for extracting sentence information including a word that is the same as or similar to the target keyword, and a co-occurrence keyword for extracting a co-occurrence keyword that is included in the words constituting the search target information and is a keyword different from the keyword. A keyword occurrence step, a co-occurrence keyword score calculation step for calculating a score for each co-occurrence keyword based on the frequency of occurrence of the co-occurrence keyword in the survey target information, and the co-occurrence keyword as the co-occurrence keyword score. Sorting step for rearranging in order to create a co-occurrence information list, and the co-occurrence information list obtained every predetermined period , It may be provided and co-occurrence information analysis output step of outputting represents the time series.
またこの発明は、コンピュータシステムにより構成され、インターネット上に存在するWebサイトに、前記コンピュータシステムによりアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を関連情報投稿数として算出する関連情報投稿数計算手段と、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出して関連情報投稿率とする関連情報投稿率計算手段と、各Webサイトの更新日付を収集する更新日情報収集手段と、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段とを備えたインターネットサイト情報分析装置である。 Also, the present invention provides an Internet site information analyzing apparatus configured to analyze a web site that is configured by a computer system, accesses the web site existing on the Internet, collects the text information, and analyzes the web site information. Information collecting means for collecting the word information, word dividing means for dividing the sentence information into words, a word that is the same as or similar to a predetermined keyword is extracted from the word group, and the number of sentence information including the word is determined. Related information posting number calculating means for calculating the number of related information postings, and a related information posting rate by calculating, for each website, the ratio of the number of related information postings to the number of text information collected from each website. Information post rate calculation means, update date information collection means for collecting the update date of each website, and analysis An update frequency calculation means for calculating the update frequency of each website based on the reference date and the update date information, and a site for outputting the related information posting rate for each website and the update frequency in a relative comparison An internet site information analysis apparatus comprising activity analysis output means.
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力するものである。 The activity analysis output means outputs the related information posting rate and the update frequency in a two-dimensional graph.
上記の構成に加え、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段とを設けてもよい。 In addition to the above configuration, information collecting means for collecting the sentence information of the Web site every time a predetermined period elapses, word dividing means for dividing the sentence information into words, and a survey target from the word group Search target information extracting means for extracting sentence information including a word that is the same as or similar to the keyword of the keyword, and other words that are included in the words constituting the search target information and exclude the word that is the same as or similar to the keyword of the search target A co-occurrence keyword extracting means for extracting the co-occurrence keyword, a co-occurrence keyword score calculating means for calculating a score for each co-occurrence keyword based on the frequency of occurrence of the co-occurrence keyword in the survey target information, Sort means for rearranging co-occurrence keywords in the order of the co-occurrence keyword scores to create a co-occurrence information list, and the co-occurrence information list obtained every predetermined period , May be provided and co-occurrence information analysis output means for outputting represents the time series.
この発明によれば、Webサイトに公開され蓄積された膨大な量の情報を分析し、的確なトレンド情報を容易に得ることが可能になる。 According to the present invention, it is possible to analyze an enormous amount of information released and accumulated on a website and easily obtain accurate trend information.
特に、請求項1~3記載の発明によれば、各Webサイトについて所定キーワードに関連した情報の投稿率と更新頻度を計算するサイト活性度分析によって、活発に情報発信しているWebサイトを容易に知ることができ、それら情報発信源として注目すべきWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。 In particular, according to the first to third aspects of the present invention, it is easy to make websites actively transmitting information through site activity analysis that calculates the posting rate and update frequency of information related to a predetermined keyword for each website. If the information is collected by focusing on Web sites that should be noted as information sources, useful trend information can be obtained efficiently.
さらに、所定のキーワードに共起する別のキーワードの変化を時系列で分析する共起情報分析を行うことによって、所定のキーワードの周囲に広がっていく投稿者の興味の変化も実態的に把捉することができる。 In addition, by carrying out the co-occurrence information analysis to analyze a time series variation of another keyword co-occurring in a given keyword, also tangibly to grasping changes in the interest of contributors spread around the predetermined keyword be able to.
以下、本発明のインターネットサイト情報分析装置10を配置したネットワークシステムの実施形態を図1に基づいて説明する。このネットワークシステムにおいては、多くの人が感想や意見などの情報を公開しているWebサイト12と、指定されたWebサイトから定期的にRSS(Rich Site Summary)フォーマットの文章情報を収集するクローラ14と、クローラ14が収集した情報がデータベース化して記憶している記事データベース16と、後述する分析を行うプログラムを備えたアナライザ18と、分析する評価軸に対応に対応する評価表現とその評価スコアが設定されている評価表現辞書群データベース20と、分析の結果を格納する分析結果データベース22と、利用者26が所持するパソコンが接続され、所望の分析結果を分析結果データベース22から抽出して利用者26に配信するポータルサーバ24とが、インターネット上にそれぞれ配置されている。
Hereinafter, an embodiment of a network system in which the Internet site
以下、本発明の一実施形態に係るサイト活性度分析を行うインターネットサイト情報分析方法を、図2から図6に基づいて説明する。まず、図2に示すフローを用いて概要を説明する。ステップS210では、各Webサイトから文章情報と更新日情報を収集する。この時、インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、サイト活性度分析アナライザ18bとがこの情報収集手段および更新日情報取得手段としての働きを行う。次に、ステップS220で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの単語分割手段としての働きを行う。そして、ステップS230で、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち関連情報の投稿数を算出する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの関連情報投稿数計算手段としての働きを行う。さらに、ステップS240で、そのWebサイトから収集した文章情報数に占める関連情報投稿数の割合である関連情報投稿率を計算し、計算結果を格納する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bがこの関連情報投稿率計算手段としての働きを行う。
Hereinafter, the Internet site information analyzing method for performing site activity analysis according to an embodiment of the present invention will be described with reference to FIGS. 2-6. First, an outline will be described using the flow shown in FIG. In step S210, text information and update date information are collected from each Web site. At this time, in the Internet site
ステップS250は、分析を行う基準日と更新日情報をもとに、各Webサイトの更新頻度を計算し、計算結果を格納するもので、インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bとがこの更新頻度計算手段としての働きを行う。
Step S250 calculates the update frequency of each Web site based on the reference date for analysis and update date information, and stores the calculation result. The Internet site
ステップS260は、利用者26の要求に応じ、関連情報投稿率と更新頻度という2つの計算値が割り付けられた各Webサイトをグラフに表示して出力する。インターネットサイト情報分析装置10では、サイト活性度分析結果データベース22bと、ポータルサーバ24が備えるサイト活性度分析表示フレームワーク24bとがこのサイト分析出力手段としての働きを行う。
In step S260, in response to a request from the
次に、上記サイト活性度分析の各ステップについて、詳細に説明する。図3に示すように各Webサイトには、複数の文章情報と各Webサイトの最終更新日の情報が存在する。ステップS210では、例えばWebサイト1であれば、文章情報a1,a2、および「最終更新日:9月11日」という更新日情報を収集する。さらにこれらの文章情報はステップS220において、名詞、形容詞、動詞等の単語(品詞)に分解される。
Next, each step of the site activity analysis will be described in detail. As shown in FIG. 3, each Web site includes a plurality of text information and information on the last update date of each Web site. In step S210, for example, for the
ステップS230について、さらに詳細な処理について図4に基づいて説明する。ステップS230は、ステップS231で、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を、類語辞典の一種であるシソーラスなどを用いて抽出する。そしてステップS232で、各Webサイト毎に、キーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち関連情報を抽出する。さらにステップS233で、抽出された関連文章情報をカウントし、その数を累積計算する。そして判断ステップであるステップS234において、すべてのWebサイトについての計算がされたか否かを判断し、NOであれば次のWebサイトについてステップS232からS233を繰り返し、YESになった時点でステップS230が終了して次のステップ240へ移行する。 Further detailed processing of step S230 will be described with reference to FIG. In step S230, when a predetermined keyword to be investigated is given in step S231, a word group similar to the keyword is extracted using a thesaurus which is a kind of thesaurus. In step S232, sentence information including any word group that is the same as or similar to the keyword, that is, related information is extracted for each Web site. In step S233, the extracted related sentence information is counted and the number is cumulatively calculated. In step S234, which is a determination step, it is determined whether or not calculations have been performed for all websites. If NO, steps S232 to S233 are repeated for the next website. End and go to the next step 240.
このようにステップS230では、例えば、「車」というキーワードが与えられると、ステップS231によって「軽四」「ハイブリッドカー」「自動車」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。従って、関連情報の内容の分析およびその投稿数の算出を漏れなく行うことができる。 Thus, in step S230, for example, when the keyword “car” is given, common words, abbreviations, formal names, and other words such as “light four”, “hybrid car”, and “automobile” are extracted as similar words in step S231. Therefore, it is possible to analyze the contents of related information and calculate the number of posts without omission.
ステップS240では、Webサイトごとに関連情報の投稿率を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。関連情報投稿率は、各Webサイトから収集した文章情報の総数を分母に、その中の所定のキーワードについての関連情報の数を分子に配して除算計算を行っている。例えば、図3に示すWebサイト1には、文章情報a1,a2の2件あり、そのうち、キーワード「車」の関連情報は「ハイブリッドカー」という単語を含む文章情報a1の1件である。従って、Webサイト1におけるキーワード「車」についての関連情報投稿率は0.5と計算される。このようにしてキーワードごと、かつWebサイトごとに関連情報投稿率が計算され、その計算結果は図5のリストのように系統立ててサイト活性度分析結果データベース22bに格納される。
In step S240, the posting rate of related information is calculated for each Web site, and the calculation result is stored in the site activity
ステップS250では、各Webサイトの更新頻度を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。図3の計算例では、分析を行う基準日とそのWebサイトの最終更新日との差に1を加算し、その逆数を更新頻度と定義している。この定義によれば、Webサイト1の場合は、分析を行う基準日と最終更新日がともに9月11日(同日)のため更新頻度は1.0となる。また、Webサイト2の場合は、同様の計算を行うと更新頻度は0.011となる。つまり、頻繁に更新されているWebサイト1は更新頻度が高い値となり、更新されずに放置されている期間が長いWebサイト2は更新頻度が低い値を示すことになる。
In step S250, the update frequency of each Web site is calculated, and the calculation result is stored in the site activity
ステップS260では、ステップS240で所定のキーワードについて割り付けられた関連情報投稿率を横軸に、ステップ250で割り付けられた更新頻度を縦軸にして、各Webサイトの相対的な位置づけをグラフに表し、サイト活性度分析情報としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。例えば図6に示すように、グラフの右上に位置するWebサイトは、「車」に関する情報が多く、かつ、頻繁に更新されているWebサイト群であるので、Webサイト1,2,5のように活発に情報発信しているWebサイトにアクセスすれば、「車」に関する有益な情報が得られそうだということが分かる。逆に、グラフの左下に位置するWebサイトは、「車」に関する情報が少なく、かつ、更新頻度も低いWebサイト群であるので、Webサイト8のように活動が低調なWebサイトにアクセスしても、「車」に関する有益な情報が得られそうにないということが分かる。
In step S260, the relative information posting ratio assigned for the predetermined keyword in step S240 is plotted on the horizontal axis, the update frequency assigned in step 250 is plotted on the vertical axis, and the relative positioning of each website is represented in a graph. The site activity analysis information is provided in PULL type (the
以上説明したこの実施形態に係るサイト活性度分析(ステップS210からステップS260)のインターネットサイト情報分析方法によれば、活発に情報発信しているWebサイトを容易に知ることができ、情報発信源として注目すべきそれらのWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。 According to the Internet site information analysis method of the site activity analysis (steps S210 to S260) according to this embodiment described above, it is possible to easily know a website that is actively transmitting information, and as an information transmission source. If information is collected focusing on those Web sites to be noticed, useful trend information can be obtained efficiently.
次に、共起情報分析を行うインターネットサイト情報分析方法の一実施形態について、図7〜図10に基づいて説明する。まず、図7に示すフローを用いて概要を説明する。ステップS310では、各Webサイトから所定の期間が経過するごとに文章情報を収集する。インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、共起情報分析アナライザ18cとがこの情報収集手段としての働きを行う。次に、ステップS320で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの単語分割手段としての働きを行う。ステップS330では、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち調査対象情報を抽出する。この時、インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの調査対象情報抽出手段としての働きを行う。そして、ステップS340で、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード抽出手段としての働きを行う。
Next, an embodiment of an Internet site information analysis method for performing co-occurrence information analysis will be described with reference to FIGS. First, an outline will be described using the flow shown in FIG. In step S310, sentence information is collected every time a predetermined period elapses from each Web site. In the Internet site
ステップS350では、抽出された共起キーワードが調査対象情報に出現する頻度を基に、共起キーワードごとの評点計算を行う。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード評点計算手段としての働きを行う。次に、ステップS360で、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを格納する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cと、共起情報分析結果データベース22cとがこのソート手段としての働きを行う。そして、ステップS370は、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表して出力する。インターネットサイト情報分析装置10では、共起情報分析結果データベース22cと、ポータルサーバ24が備える共起情報分析表示フレームワーク24cとがこの共起情報分析出力手段としての働きを行う。
In step S350, a score is calculated for each co-occurrence keyword based on the frequency with which the extracted co-occurrence keyword appears in the survey target information. In the Internet site
次に、上記共起情報分析の各ステップについて、詳細に説明する。図8に示すように各Webサイトには、複数の文章情報が存在する。ステップS310では、例えばWebサイト1であれば、文章情報a1,a2を収集する。さらにこれらの文章情報はステップS320において、名詞、形容詞、動詞等の単語(品詞)に分解される。
Next, each step of the co-occurrence information analysis will be described in detail. As shown in FIG. 8, each Web site has a plurality of pieces of text information. In step S310, for example, if it is
ステップS330では、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を類語辞典の一種であるシソーラスなどを用いて抽出し、そのキーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち調査対象情報を抽出する。例えば図8の例によれば、「デジタルカメラ」というキーワードが与えられると、「デジカメ」「デジタルスチルカメラ」「デジタルビデオカメラ」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。そして、「デジタルカメラ」およびその類似語を含む文章情報a1,a2,b2を調査対象情報として抽出する。このように、本来的に調査すべき調査対象情報を漏れなく抽出することを可能にしている。 In step S330, when a predetermined keyword to be investigated is given, a word group similar to the keyword is extracted using a thesaurus which is a kind of thesaurus, and either one of the same or similar word groups as the keyword is extracted. Text information including, that is, survey target information is extracted. For example, in the example of FIG. 8, when the keyword “digital camera” is given, common names such as “digital camera”, “digital still camera”, and “digital video camera”, abbreviated names, and other words are extracted as similar words. Then, text information a1, a2, and b2 including “digital camera” and similar words are extracted as investigation target information. In this way, it is possible to extract the investigation object information that should be originally investigated without omission.
ステップS340では、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。例えば、文章情報a1であれば「A社」「B社」「性能」が共起キーワードに該当する。ここで、「(株)A」「株式会社A」「A」「A社」といった共起キーワードが別個に抽出された場合、すべて「A社」と同義語であるとして問題なければ、一つの共起キーワードとして取りまとめて、次のステップに進めばよい。 In step S340, other words excluding words that are the same as or similar to the predetermined keyword, that is, co-occurrence keywords are extracted from the words constituting the extracted survey target information. For example, in the case of sentence information a1, “Company A”, “Company B”, and “Performance” correspond to the co-occurrence keywords. Here, when co-occurrence keywords such as “(A) Co., Ltd.”, “A Co., Ltd.”, “A”, and “Company A” are separately extracted, all are synonymous with “Company A” and there is no problem. Collect them as co-occurrence keywords and go to the next step.
ステップS350について、さらに詳細な処理について図9のフローに基づいて説明する。ステップS351では、情報収集したすべての文章情報の数をカウントする。例えば、図8の例において、情報収集をWebサイト1,2のみを対象に行ったとすれば、文章情報の総数は5とカウントされる。ステップS352では、調査対象情報に該当する文章情報の数をカウントする。例えば図8の例では、文章情報の総数5のうち、キーワード「デジタルカメラ」に対する調査対象情報の数は3とカウントされる。ステップS353では、ステップ340で抽出した共起キーワードと同一の単語が含まれる文章情報の数を、共起キーワードごとにカウントする。例えば図8の例では、文章情報の数5のうち、共起キーワード「A社」が含まれる文章情報の数は3とカウントされる。ステップS354では、ステップS340で抽出した共起キーワードと同一の単語が含まれる調査対象情報の数を、各共起キーワードごとにカウントする。例えば図8の例では、「デジタルカメラ」に対する調査対象情報の数3のうち、共起キーワード「A社」が含まれる調査対象情報の数は2とカウントされる。
Further detailed processing of step S350 will be described based on the flow of FIG. In step S351, the number of all sentence information collected is counted. For example, in the example of FIG. 8, if information collection is performed only on the
ステップS355では、各共起キーワードごとにその共起キーワードの評点を計算する。ここで、共起キーワードの評点は、ステップS354のカウント数にS351のカウント数を積算したものを、S352のカウント数にS353のカウント数を積算したもので除算し、さらにそれを、2を底とする対数に換算したもの、と定義するのが好ましい。例えば図8の例では、共起キーワード「A社」の評点は、ステップS351のカウント数である5、ステップS352のカウント数である3、ステップ353のカウント数である3、ステップS354のカウント数である2を用いて計算され、評点0.152が得られる。そして判断ステップであるステップS356において、すべての共起キーワードについての計算がされたか否かを判断し、NOであれば次の共起キーワードについてステップS353からS355を繰り返し、YESになった時点でステップS350が終了する。 In step S355, the score of the co-occurrence keyword is calculated for each co-occurrence keyword. Here, the score of the co-occurrence keyword is obtained by dividing the sum of the count number of S351 by the count number of Step S354 by the sum of the count number of S352 and the count number of S353. It is preferable to define that converted into a logarithm. For example, in the example of FIG. 8, the score of the co-occurrence keyword “Company A” is 5 which is the count number in step S351, 3 which is the count number in step S352, 3 which is the count number in step 353, and the count number in step S354. Is used to obtain a rating of 0.152. In step S356, which is a determination step, it is determined whether or not all co-occurrence keywords have been calculated. If NO, steps S353 to S355 are repeated for the next co-occurrence keyword. S350 ends.
なお、本実施形態のステップS350では、その相関関係の連鎖の要素をも評点計算に組み入れているという特徴を有している。本来、キーワード「デジタルカメラ」と共起キーワード「A社」との間に相関関係がある場合には、共起キーワード「A社」に対応して共起する「デジタルカメラ」以外のキーワード群との間にも相関関係が存在するものと考えるべきである。しかしながら、相関関係の連鎖にまで着目すると計算量が膨大になる問題もあり、一般的にはそこまでの処理は行われていなかった。本実施形態では、ステップS351のカウント数とステップS353のカウント数を計算式に盛り込むことによって、「デジタルカメラ」と「A社」の相関関係の強さだけでなく、例えば「液晶テレビ」と「A社」の相関関係の強さについても、その違いが相対的に各評点に反映させることができる。 Note that step S350 of the present embodiment has a feature that the correlation chain element is also incorporated in the score calculation. Originally, when there is a correlation between the keyword “digital camera” and the co-occurrence keyword “Company A”, It should be considered that there is a correlation between the two. However, if attention is paid to the chain of correlations, there is a problem that the amount of calculation becomes enormous, and generally, the processing up to that point has not been performed. In this embodiment, by incorporating the count number in step S351 and the count number in step S353 into the calculation formula, not only the strength of the correlation between “digital camera” and “Company A” but also “liquid crystal television” and “ Regarding the strength of the correlation of “Company A”, the difference can be relatively reflected in each score.
ステップS360では、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを共起情報分析結果情報データベース22cに格納する。さらにステップS370では、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表し、共起情報分析出力としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。図10は、Webサイト1,2を含むすべてのWebサイトについて評点計算を行った例である。例えばキーワード「デジタルカメラ」についてみると、共起キーワード「製品W」は2007年7月の時点では評点が低くランク外であったが、2007年8月には2位までランクアップしている。従って、「デジタルカメラ」の分野では、「製品W」が投稿者の話題の中心になってきていることが分かる。また、共起キーワード「B社」は2007年7月の時点では2位にランクされていたが、2007年8月には5位までランクダウンしている。従って、投稿者は「B社」に注目しなくなってきていることが分かる。
In step S360, a co-occurrence information list in which the co-occurrence keyword groups are rearranged in the order of the co-occurrence keyword scores is created and stored in the co-occurrence information analysis result
以上説明した共起情報分析(ステップS310からステップS370)によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析することによって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。 According to the co-occurrence information analysis described above (steps S310 to S370) , a poster who spreads around a predetermined keyword by analyzing changes in another keyword co-occurring with the predetermined keyword in time series. Can change the interests of the actual situation.
なお、本発明は上記実施形態に限定するものではなく、インターネットサイト情報分析装置10は、上記のサイト活性度分析に係る作業手段またはステップを有する分析装置または分析方法に加え、上記の共起情報分析に係る作業手段またはステップを設ける構成にしても良い。
The present invention is not limited to the above embodiment, the Internet
また、ステップS260が出力する分析結果の表示フレームは、各データが有する複数の特性値の相対的な関係が視覚的に認識可能なものであればよく、本実施形態に例示したグラフ化イメージに限定するものではない。グラフの目盛を対数表示にしたり、凡例を付して複数の分析結果を重ねて表するなどして、より視覚に訴えるための工夫がなされるべきものである。 The display frame of the analysis result output in step S260 may be any graph as long as it can visually recognize the relative relationship between a plurality of characteristic values of each data. It is not limited. The graph scale should be displayed in logarithmic form, or a legend should be attached to display the results of multiple analysis.
また、ステップS240に定義する関連投稿率の計算式、ステップS250に定義する更新頻度の計算式、ステップS350に定義する共起キーワード評点の計算式は、調査分析の対象とする事物やその分野ごとの個別の事情など鑑みて定義したものであれば、上記実施形態の計算式に限定するものではない。例えば、ステップS350に定義した共起キーワード評点の計算式であれば、対数の底の値を変更したり、特定の情報の数について2乗した数値を代入するなど、細かく解析したい内容が特性値として顕著に表れるように別の計算式を定義してもよい。 Further, the calculation formula of the related posting rate defined in step S240, the calculation formula of the update frequency defined in step S250, and the calculation formula of the co-occurrence keyword score defined in step S350 are the items to be investigated and analyzed for each field As long as it is defined in view of individual circumstances, the calculation formula of the above embodiment is not limited. For example, in the case of the co-occurrence keyword score calculation formula defined in step S350, the content to be analyzed in detail, such as changing the base value of the logarithm or substituting a square value for the number of specific information, is the characteristic value. Another calculation formula may be defined so as to appear prominently.
なお、上記実施形態のような一連の処理動作をプログラムとして構築し、インターネットサイト情報分析装置10として利用されるサーバーコンピュータにインストールし、CPUなどの制御手段によって実行させる他、そのプログラムをネットワークを介して流通させるようにしてもよい。また、構築されたプログラムをインターネットサイト情報分析装置10として利用される各種のコンピュータに接続されるハードディスク装置、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納し、コンピュータにインストールして実行させるようにしてもよい。
A series of processing operations as in the above embodiment is constructed as a program, installed in a server computer used as the Internet site
10 インターネットサイト情報分析装置
12 Webサイト
14 クローラ
16 記事データベース
18 アナライザ
20 評価表現辞書群データベース
22 分析結果データベース
24 ポータルサーバ
26 利用者
DESCRIPTION OF
Claims (3)
前記コンピュータシステムにより、
前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を関連情報投稿数として算出する関連情報投稿数計算ステップと、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出して関連情報投稿率とする関連情報投稿率計算ステップと、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップと、
から成る処理を行うことを特徴とするインターネットサイト情報分析方法。 In an Internet site information analysis method for automatically accessing a website existing on the Internet by a computer system to collect and analyze the text information,
By the computer system,
An information collecting step of collecting the sentence information and update date information of each website;
A word dividing step for dividing the sentence information into words;
Extracting a word that is the same as or similar to a predetermined keyword from the word group, and calculating a related information posting number calculating step for calculating the number of text information including the word as a related information posting number;
A related information posting rate calculating step of calculating a ratio of the number of related information postings to the number of text information collected from each Web site and calculating the related information posting rate for each Web site;
An update frequency calculating step for calculating an update frequency of each Web site based on a reference date for analysis and the update date information;
A site activity analysis output step of outputting the related information posting rate for each website and the update frequency relative to each other;
Internet site information analysis method and performing a process consisting of.
前記Webサイトの文章情報の収集を行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を関連情報投稿数として算出する関連情報投稿数計算手段と、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出して関連情報投稿率とする関連情報投稿率計算手段と、
各Webサイトの更新日付を収集する更新日情報収集手段と、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段と、
を備えたことを特徴とするインターネットサイト情報分析装置 In an Internet site information analyzing apparatus configured by a computer system, accessing a Web site existing on the Internet by the computer system , collecting the sentence information, and performing analysis,
Information collecting means for collecting text information of the website;
Word dividing means for dividing the sentence information into words;
A related information posting number calculating means for extracting a word that is the same as or similar to a predetermined keyword from the word group and calculating the number of pieces of text information including the word as the related information posting number;
A related information posting rate calculating means for calculating a ratio of the number of related information postings to the number of text information collected from each Web site for each Web site to be a related information posting rate;
Update date information collecting means for collecting the update date of each website;
Update frequency calculation means for calculating the update frequency of each website based on the reference date for analysis and the update date information;
Site activity analysis output means for relatively comparing and outputting the related information posting rate for each Web site and the update frequency;
Internet site information analyzer characterized by comprising
3. The Internet site information analysis apparatus according to claim 2, wherein the site activity analysis output means outputs the related information posting rate and the update frequency in a two-dimensional graph.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011277095A JP5490082B2 (en) | 2011-12-19 | 2011-12-19 | Internet site information analysis method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011277095A JP5490082B2 (en) | 2011-12-19 | 2011-12-19 | Internet site information analysis method and apparatus |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007286278A Division JP2009116457A (en) | 2007-11-02 | 2007-11-02 | Method and device for analyzing internet site information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012059295A JP2012059295A (en) | 2012-03-22 |
JP5490082B2 true JP5490082B2 (en) | 2014-05-14 |
Family
ID=46056234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011277095A Active JP5490082B2 (en) | 2011-12-19 | 2011-12-19 | Internet site information analysis method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5490082B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6050175B2 (en) * | 2013-04-15 | 2016-12-21 | 日本電信電話株式会社 | Evaluation expression extraction apparatus, method, and program |
CN103544278B (en) * | 2013-10-22 | 2017-02-01 | 北京奇虎科技有限公司 | Method and equipment for identifying website capturing flow quota |
JP6948424B2 (en) * | 2020-03-17 | 2021-10-13 | ヤフー株式会社 | Information processing equipment, information processing methods, and information processing programs |
JP7281850B2 (en) * | 2021-05-21 | 2023-05-26 | 株式会社mov | Information processing system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3878694B2 (en) * | 1996-08-29 | 2007-02-07 | 松下電器産業株式会社 | TV receiver |
JP5067556B2 (en) * | 2005-09-30 | 2012-11-07 | 日本電気株式会社 | Trend evaluation apparatus, method and program thereof |
-
2011
- 2011-12-19 JP JP2011277095A patent/JP5490082B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012059295A (en) | 2012-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7685091B2 (en) | System and method for online information analysis | |
Keneshloo et al. | Predicting the popularity of news articles | |
US7756720B2 (en) | Method and system for the objective quantification of fame | |
JP5662961B2 (en) | Review processing method and system | |
Alvanaki et al. | See what's enBlogue: real-time emergent topic identification in social media | |
US8825571B1 (en) | Multiple correlation measures for measuring query similarity | |
US20110106743A1 (en) | Method and system to predict a data value | |
KR101566616B1 (en) | Advertisement decision supporting system using big data-processing and method thereof | |
JP2007188352A (en) | Page reranking apparatus, and page reranking program | |
KR20120108095A (en) | System for analyzing social data collected by communication network | |
US11226946B2 (en) | Systems and methods for automatically determining a performance index | |
JP2009116457A (en) | Method and device for analyzing internet site information | |
Li et al. | A hybrid model for experts finding in community question answering | |
JP5490082B2 (en) | Internet site information analysis method and apparatus | |
CN112487283A (en) | Method and device for training model, electronic equipment and readable storage medium | |
Sajeev et al. | Effective web personalization system based on time and semantic relatedness | |
JP5427694B2 (en) | Related content presentation apparatus and program | |
Kim et al. | Automated discovery of small business domain knowledge using web crawling and data mining | |
JP2013168177A (en) | Information provision program, information provision apparatus, and provision method of retrieval service | |
CN116226494B (en) | Crawler system and method for information search | |
Schaer et al. | Implications of inter-rater agreement on a student information retrieval evaluation | |
Viegas et al. | Semantic Academic Profiler (SAP): a framework for researcher assessment based on semantic topic modeling | |
JP5513929B2 (en) | Experience information reusability evaluation apparatus, method and program | |
Wu et al. | Supporting navigation in Wikipedia by information visualization: extended evaluation measures | |
Hashmi et al. | Validation of acute physiologic and chronic health evaluation II scoring system software developed at The Aga Khan University, Pakistan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5490082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |