JP4879775B2 - Dictionary creation method - Google Patents

Dictionary creation method Download PDF

Info

Publication number
JP4879775B2
JP4879775B2 JP2007042309A JP2007042309A JP4879775B2 JP 4879775 B2 JP4879775 B2 JP 4879775B2 JP 2007042309 A JP2007042309 A JP 2007042309A JP 2007042309 A JP2007042309 A JP 2007042309A JP 4879775 B2 JP4879775 B2 JP 4879775B2
Authority
JP
Japan
Prior art keywords
dictionary
elements
positive
negative
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007042309A
Other languages
Japanese (ja)
Other versions
JP2008204355A (en
Inventor
真 中辻
吉田  誠
美貴 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007042309A priority Critical patent/JP4879775B2/en
Publication of JP2008204355A publication Critical patent/JP2008204355A/en
Application granted granted Critical
Publication of JP4879775B2 publication Critical patent/JP4879775B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、クラス毎に分類された記事集合と、ベースとなる辞書を基に、各クラスおよびクラス内のインスタンスを特徴付けるポジティブ辞書と、ネガティタ辞書と、感性辞書などを自動的に生成する技術分野に属する。なお、以上3種類の辞書以外にも、インスタンスに関連する他のの辞書を自動生成することも可能である。例えば、クラスを「ファッションジャンル」、インスタンスを「ブランド」とした場合、ブランドを特徴付けるアイテム(「バーバリー」といえば「トレンチコート」など)辞書を生成することもできる。)   TECHNICAL FIELD The present invention relates to a technical field for automatically generating a positive dictionary, a negative dictionary, a sensitivity dictionary, and the like that characterize each class and an instance in the class based on a set of articles classified by class and a base dictionary. Belonging to. In addition to the above three types of dictionaries, other dictionaries related to instances can be automatically generated. For example, if the class is “fashion genre” and the instance is “brand”, an item characterizing the brand (such as “trench coat” for “burberry”) can be generated. )

以下、ブログ記事を用いた例を中心に説明するが、本発明は、ブログ記事に特化したものではなく、クラス毎に分類された記事集合であれば、どのような記事であっても適用可能である。   The following description focuses on examples using blog articles. However, the present invention is not specialized for blog articles, and can be applied to any article as long as it is a set of articles classified by class. Is possible.

以下、ポジティブを「P」と表現し、ネガティブを「N」と表現し、感性を「M」と表現する。   Hereinafter, positive is expressed as “P”, negative is expressed as “N”, and sensitivity is expressed as “M”.

なお、本発明における「インスタンス」とは、ユーザが記述している対象である。例えば、ユーザがブログ内で、「アーチスト」や「ブランド」について記述している場合、インスタンスは「アーチスト」や「ブランド」になる。また、本発明における「クラス」とは、所属するインスタンス集合の持つ特性を制約するものであって、インスタンスの持つ背景知識である。クラスの設計は、PNM解析を実施する解析者が与えるものである。例えば、音楽アーチストをインスタンスとする場合は、グラムロックなどのジャンルをインスタンスの背景知識であるクラスとして与えればよい。   Note that an “instance” in the present invention is a target described by a user. For example, when the user describes “artist” or “brand” in the blog, the instance is “artist” or “brand”. Further, the “class” in the present invention restricts the characteristics of the instance set to which it belongs and is background knowledge of the instance. The class design is given by the analyst performing the PNM analysis. For example, when a music artist is used as an instance, a genre such as Gram Rock may be given as a class that is the background knowledge of the instance.

また、本発明における「オントロジ」とは、情報を具体的に整理するためのクラス体系知識を指す。つまり、上記クラスが複数存在するとき、そのクラス間の関係を辞書として保持しているものが「オントロジ」である。クラス間の関係は情報を表現するための知識と考えられるため、オントロジを、クラス体系知識とも呼ぶ。   Also, “ontology” in the present invention refers to class system knowledge for specifically organizing information. In other words, when there are a plurality of the above classes, the “ontology” holds the relationship between the classes as a dictionary. Since the relationship between classes is considered to be knowledge for expressing information, ontology is also called class system knowledge.

近年、インターネット上でユーザの興味対象を発信しユーザ間での議論を促進するブログサービスや互いに友人として承認し合ったユーザ間で興味対象を議論する「ソーシャル・ネットワーキング(Social Networking)」サービス等が注目されており、今後ますますユーザ数やこれらを利用したサービスは拡大していくと考えられる。また、非特許文献1の「Amazon」および非特許文献2の「Last.fm」のサービスなど、ユーザによる商品の購買・再生履歴を基にユーザの興味対象をユーザプロファイルとして自動構築し、プロファイルに基づく商品の推薦を行うサービスも登場しており、ユーザの発信する多様な興味情報に基づく極め細やかな情報推薦を行うサービスへの関心も高まっている。そして、この種の情報流通サービスは、ユーザによる自身の興味対象の発信と、自身の興味に近い他のユーザの発信する記事および楽曲情報並びにコミュニティにおける議論内容を閲覧することとを通じ、各自の興味対象を拡大する基盤となる可能性を持つ。   In recent years, there have been blog services that promote users' interests on the Internet and promote discussions between users, and “Social Networking” services that discuss interests among users who have approved each other as friends. It is attracting attention, and it is thought that the number of users and services using these will increase in the future. In addition, the user's interests are automatically constructed as a user profile based on the purchase / reproduction history of the product by the user, such as “Amazon” of Non-Patent Document 1 and “Last.fm” of Non-Patent Document 2, Services that recommend products based on the market have also appeared, and interest in services that provide detailed information recommendations based on various interest information transmitted by users is increasing. And this kind of information distribution service is based on the user's own interests and the browsing of articles and music information sent by other users who are close to their own interests and discussion contents in the community. It has the potential to serve as a foundation for expanding the scope.

このように、ウェブ上ではユーザが興味を発信する機会が頻繁となってきている。こうしたユーザが発信する興味を自動的に解析し、ユーザ興味情報を構築することも上で述べた非特許文献1の「Amazon」などで試みられている。このようなユーザ興味を解析するための情報源が多様なほど、詳細な興味を取得できると考えられる。しかし、現状では、購買および視聴・閲覧からのユーザ興味取得が中心である。一方、ユーザの記述するブログでは個人的な趣味による記事を頻繁に記述すると考えられるため、ブログ記事からのユーザ興味取得も重要となってくる。   Thus, on the web, there are frequent opportunities for users to send out their interests. An attempt to automatically analyze the interest transmitted by such a user and construct user interest information is also made in “Amazon” of Non-Patent Document 1 described above. It is considered that more detailed interest can be acquired as the information sources for analyzing such user interests are more diverse. However, at present, the focus is on obtaining user interest from purchasing, viewing and browsing. On the other hand, since it is considered that articles by personal hobbies are frequently described in blogs written by users, it is also important to acquire user interest from blog articles.

また、ユーザがブログ記事内で記述している対象(インスタンス)に対しどのような感性を持っているのか、また記述インスタンスを他のどのような属性と関連付けて記述しているのかを解析することで、インスタンスに対する感性情報およびインスタンスを特徴付ける属性を獲得することもできる。例えば、プロバイダが自身のコンテンツをインスタンスとして解析を実施すれば、ユーザがそのインスタンスに対してどのような感性や属性を付与しているかを調査することができる。その結果を用い、プロバイダは自身のコンテンツの販売戦略を作り上げるなどのマーケティングなどへの利用も可能である。
Amazon web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.amazon.com/〉 last.fm web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.last.fm〉 LiveJournal web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.livejournal.com/〉 Mishne, G.: Experiments with Classification in Blog Posts, Style 2005- the 1st Work-shop on Stylistic Analysis Of Text For Information Access, at SIGIR 2005, SIGIR, ACM (2005). Mishne, G. and de Rijke, M.: Capturing Global Mood Levels using Blog Posts, AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006) (Nicolov, N., Salvetti, F., Liberman, M. and Martin, J.(eds.)), AAAI Press, pp. 145−152 (2006). Nakatsuji, M., Miyoshi, Y. and Otsuka, Y.: Innovation Detection Based on User-Interest Ontology of Blog Community., International Semantic Web Conference, pp. 515−528 (2006). Turney, P. D.: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Un-supervised Classification of Reviews, Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, Pennsylvania, pp. 417−424 (2002). 中辻真、三好優、大塚祥広:ユーザ興味オントロジ抽出によるブログコミュニティ形成手法、日本データベース学会Letters、Vo1.5, No.1(2006).
Also, analyze how the user has sensitivity to the target (instance) described in the blog article, and what attribute the description instance is associated with. Thus, it is also possible to acquire the sensitivity information for the instance and the attributes that characterize the instance. For example, if the provider performs an analysis using its own content as an instance, it is possible to investigate what sensibility and attributes are given to the instance by the user. Using the result, the provider can also use it for marketing such as creating a sales strategy for its content.
Amazon web site, [online], [Search January 20, 2007], Internet <URL: http://www.amazon.com/> last.fm web site, [online], [Search January 20, 2007], Internet <URL: http://www.last.fm> LiveJournal web site, [online], [Search January 20, 2007], Internet <URL: http://www.livejournal.com/> Mishne, G .: Experiments with Classification in Blog Posts, Style 2005- the 1st Work-shop on Stylistic Analysis Of Text For Information Access, at SIGIR 2005, SIGIR, ACM (2005). Mishne, G. and de Rijke, M .: Capturing Global Mood Levels using Blog Posts, AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006) (Nicolov, N., Salvetti, F., Liberman, M. and Martin, J. (eds.)), AAAI Press, pp. 145-152 (2006). Nakatsuji, M., Miyoshi, Y. and Otsuka, Y .: Innovation Detection Based on User-Interest Ontology of Blog Community., International Semantic Web Conference, pp. 515-528 (2006). Turney, PD: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Un-supervised Classification of Reviews, Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, Pennsylvania, pp. 417-424 (2002). Makoto Nakajo, Yu Miyoshi, Yoshihiro Otsuka: Blog Community Formation Method by Extracting User Interest Ontology, Database Society of Japan Letters, Vo1.5, No.1 (2006).

ブログ記事からユーザ興味を取得するため、非特許文献6では、ユーザの興味対象として、ユーザが興味を持つキーワード(インスタンス)のみでなく、そのキーワードの背景となる意味情報(クラス情報)をも保持するユーザプロファイルを自動構築し、プロファイルに基づくブログ検索機能を提供する試みを行っている。具体的には、音楽や映画などのサービスプロバイダが与えるサービスオントロジヘユーザの蓄積記事を分類することで、記事に対しその話題対象であるインスタンスとインスタンスの背景知識とを自動的にタグ付けするオートタギング手法と、ユーザ興味をクラス階層化した興味オントロジをユーザプロファイルとして自動抽出する興味オントロジ生成手法を提案している。そして、興味オントロジ間の近似度を計測し、近似度が高いオントロジ間で一部クラス階層の異なるクラスを検出し、そのクラスに属する記事を、意外な興味記事としてユーザ推薦することで、ユーザの興味幅の拡大と、他ユーザ間とのコミュニケーション促進を提案している。   In order to acquire user interest from a blog article, Non-Patent Document 6 holds not only a keyword (instance) that the user is interested in but also semantic information (class information) that is the background of the keyword as a user's interest. An attempt is made to automatically build a user profile and provide a blog search function based on the profile. Specifically, the service ontology provided by service providers such as music and movies classifies the articles accumulated by users, and automatically tags the articles that are the topic target and the background knowledge of the instances. We have proposed a tagging method and an interest ontology generation method that automatically extracts interest ontologies that classify user interests as user profiles. Then, by measuring the degree of approximation between interest ontologies, detecting classes with different class hierarchies between ontology with high degree of approximation, and recommending articles belonging to that class as unexpected interest articles, It proposes expanding the range of interest and promoting communication with other users.

しかし、非特許文献6では、ブログ記事からユーザ興味を抽出するにあたり、記事内での興味対象がユーザにとってポジティブかネガティブかを判定していない。ユーザ興味をより精度良く抽出するためには、ネガティブな興味対象を興味オントロジから除去する必要がある。また、非特許文献6では、ユーザが記事内での興味対象にどのような感性(Mood)で記述しているかの判別は実施していない。   However, in Non-Patent Document 6, when extracting the user interest from the blog article, it is not determined whether the object of interest in the article is positive or negative for the user. In order to extract user interest more accurately, it is necessary to remove negative interest objects from the interest ontology. Further, in Non-Patent Document 6, it is not determined what sensibility (Mood) the user describes in the article of interest.

[関連技術]
こうしたPN判定に関する研究として、非特許文献7では、記事集合に対し、ポジティブ語やネガティブ語との共起性を基に、単語のみでなくフレーズのPN判定を実施する。そして、非特許文献7では、記事内のフレーズをチェックし、平均的にポジティブであればポジティブな記事と分類し、それ以外はネガティブと判定するPN判定を実施し、高精度を得ている。しかし、映画記事に対する検証では、記事内における「more evil」などのフレーズはホラーなどのジャンルによってはポジティブな記述であることも多いにも関わらず、映画全体ではネガティブフレーズとなるなど、記事内での話題対象となるインスタンスの背景となるクラス分類知識(オントロジ)まで考慮したPN判定を実施できているとはいえない。
[Related technologies]
As a study on such PN determination, in Non-Patent Document 7, PN determination is performed not only for words but also for phrases based on the co-occurrence of positive words and negative words for an article set. In Non-Patent Document 7, a phrase in an article is checked, and if it is positive on the average, it is classified as a positive article. Otherwise, PN determination is made to determine negative, and high accuracy is obtained. However, in the verification of movie articles, although phrases such as “more evil” in articles are often positive descriptions depending on the genre such as horror, they are negative phrases in the entire movie. It cannot be said that PN determination considering the class classification knowledge (ontology) that is the background of the instance that is the subject of the topic can be performed.

一方、ブログ記事から感性情報を抽出する研究としては、Mishncらにより、ある一定期間におけるユーザ全体の感性の動向を高精度に予測しているものがある(例えば、非特許文献5参照)。その非特許文献5の方法では、ブログ記事を投稿する際にユーザが記事の持つ感性語をタギングすることができるブログサービスであるLiveJournal(非特許文献3)で公開されているユーザのブログ記事をコーパスとしている。さらに、非特許文献5の方法では、特定の感性語に対し影響力を持つ特徴語を、感性語の共起性を基に学習し、特徴語などで感性情報をモデリングした上で、モデルに合致するブログ記事を抽出している。しかし、非特許文献5の方法では、ブログ全体の感性情報を抽出しており、クラス毎に分類されたブログ記事からそのクラスに特徴的な感性情報を抽出することができない。   On the other hand, as a study for extracting sensitivity information from a blog article, there is one in which, for example, Misnc et al. Predicts the trend of sensitivity of the entire user over a certain period with high accuracy (see, for example, Non-Patent Document 5). In the method of Non-Patent Document 5, when a blog article is posted, the user's blog article published by Live Journal (Non-Patent Document 3), which is a blog service that allows the user to tag the sensitivity words of the article, is used. It is a corpus. Furthermore, in the method of Non-Patent Document 5, a feature word that has an influence on a specific sensitivity word is learned based on the co-occurrence of the sensitivity word, and the sensitivity information is modeled using the feature word, etc. Extracting matching blog posts. However, in the method of Non-Patent Document 5, the sensitivity information of the entire blog is extracted, and the characteristic sensitivity information cannot be extracted from the blog articles classified for each class.

非特許文献4では、非特許文献5のものと同種のコーパスを用いてブログ記事毎の感性予測を実施しているが、単一の記事毎への感性解析が困難なため、精度は低い。   In Non-Patent Document 4, Kansei prediction is performed for each blog article using a corpus of the same type as that of Non-Patent Document 5, but accuracy is low because sensitivity analysis for each single article is difficult.

本発明は、上記従来技術の問題点に鑑みてなされたものであって、ブログなどの記事を分類わけし、その内容を特徴付ける辞書を従来よりも高精度に作成することができる辞書作成方法を提供することを目的とする。   The present invention has been made in view of the above-mentioned problems of the prior art, and is a dictionary creation method capable of classifying articles such as blogs and creating a dictionary characterizing the contents with higher accuracy than before. The purpose is to provide.

上記目的を達成するために、本発明は、通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ(a)と、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するPN抽出ステップ(b)とを有することを特徴とする。   In order to achieve the above object, the present invention classifies articles stored in a storage means accessible via a communication line into a plurality of elements, and classifies each classified element and the characteristics of each element. A dictionary creation method for creating a dictionary having information to indicate, wherein at least analyzing whether the classified element is positive or negative, the element based on the analysis result, the positive dictionary and Analysis / accumulation step (a) for accumulating in any of a plurality of dictionaries including at least a negative dictionary, comparing the elements of the positive dictionary and the elements of the negative dictionary, and if the compared elements are the same, A PN extraction step (b) for deleting the same element from the positive dictionary and the negative dictionary.

また本発明は、ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを少なくとも生成するベース辞書生成ステップを更に有し、前記解析・蓄積ステップは、前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記感性辞書に蓄積するステップと、前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有することを特徴とする。   The present invention also provides a positive base dictionary in which words having a positive meaning are accumulated, a negative base dictionary in which words having a negative meaning are accumulated, and a sensitivity in which words having a meaning about sensitivity are accumulated. A base dictionary generating step for generating at least a base dictionary, wherein the analyzing / accumulating step compares the classified elements with words stored in the positive base dictionary, and if they match, The step of storing the element in the positive dictionary is compared with the classified element and the word stored in the negative base dictionary, and if they match, the element is stored in the negative dictionary. Comparing the step with the classified element and the word stored in the sensibility-based dictionary. Storing the element in the sensitivity dictionary and analyzing whether or not the classified element is a predetermined part of speech such as a noun, and if the element is a predetermined part of speech, the element is stored in the dictionary such as a noun And a step.

また本発明は、分類わけされた要素が、クラス毎に分類されており、前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップを有し、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ(c)をさらに有することを特徴とする。   Further, according to the present invention, the classified elements are classified for each class, and the class restricts the characteristics of the set of elements belonging to the class and indicates the background knowledge of the elements. The analysis / accumulation step includes a step of accumulating the elements for each class for each of the positive dictionary, the negative dictionary, the sensitivity dictionary, and the dictionary such as a noun, and the positive dictionary, A class feature dictionary generation step (c) of comparing elements of two different classes in any one of the dictionaries such as a negative dictionary, a sensitivity dictionary, and a noun, and deleting the same element from the dictionary; It is characterized by having.

また本発明は、前記クラス特徴辞書生成ステップにおいて比較対象とされる2つのクラスを決定するステップであって、2つクラス間の意味的な距離を算出して、該距離が所定値よりも大きい場合、該2つのクラスを前記比較対象とされる2つのクラスに決定する比較対象クラス決定ステップ(d)をさらに有することを特徴とする。   Further, the present invention is a step of determining two classes to be compared in the class feature dictionary generating step, wherein a semantic distance between the two classes is calculated, and the distance is larger than a predetermined value. In this case, the method further includes a comparison target class determining step (d) for determining the two classes as the two classes to be compared.

また本発明は、複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ(e)をさらに有することを特徴とする。   Further, the present invention uses a base attribute dictionary having a plurality of attributes and morphemes or phrases registered for each attribute, and the morphemes or phrases registered in the base attribute dictionary, the positive dictionary, and the negative dictionary. The elements of any one of the dictionaries such as the sensitivity dictionary and the noun are compared, and if they match, the morpheme or phrase is determined as an attribute for the element, and the determined items are stored in the dictionary such as the noun And a generation dictionary / base attribute dictionary comparison step (e).

また本発明は、前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、該ものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ(f)をさらに有することを特徴とする。   Further, the present invention determines whether or not there is something stored in the dictionary such as the noun that is not stored in the base attribute dictionary. A dictionary check step (f) is further included.

また本発明は、前記PN抽出ステップが、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数をも考慮して、該要素が前記ポジティブ辞書およびネガティブ辞書の両辞書に頻出する語であるか否か判断して、両辞書に頻出する語であると判断した場合は、該要素を前記ポジティブ辞書およびネガティブ辞書から削除することを特徴とする。   In the present invention, the PN extraction step compares the elements of the positive dictionary and the elements of the negative dictionary, and when the compared elements are the same, the positive dictionary and the negative dictionary of the compared elements respectively. In consideration of the number of occurrences in the case, it is determined whether or not the element is a word that frequently appears in both the positive dictionary and the negative dictionary, and if it is determined that the element is a word that frequently appears in both dictionaries, The element is deleted from the positive dictionary and the negative dictionary.

また本発明は、前記クラス特徴辞書生成ステップが、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該2つのクラスでの出現回数をも考慮して、該要素が該2つのクラスで頻出する語であると判断した場合は、該要素を該辞書から削除することを特徴とする。   In the present invention, the class feature dictionary generating step compares elements of two different classes in any one of the dictionaries such as the positive dictionary, the negative dictionary, the sensitivity dictionary, and the noun, When the compared elements are the same, if the element is determined to be a frequent word in the two classes in consideration of the number of appearances of the compared elements in the two classes, the element is It is deleted from the dictionary.

また本発明は、前記要素が形態素またはフレーズであることを特徴とする。   In the invention, it is preferable that the element is a morpheme or a phrase.

また本発明は、前記ベースPNM辞書、クラス分類記事、自動生成P辞書、自動生成N辞書、自動生成M辞書、ベース属性辞書および自動生成名詞など辞書が、データベースで構成されており、前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、前記記事は、ブログであることを特徴とする。   According to the present invention, the base PNM dictionary, the classification article, the automatically generated P dictionary, the automatically generated N dictionary, the automatically generated M dictionary, the base attribute dictionary, and the automatically generated noun dictionary are configured by a database, Each processing in is performed using a computer, a browser, and the Internet, and the article is a blog.

本発明は、ユーザがブログ記事などで記述している興味対象(インスタンス)に対して該インスタンスの所属するクラス知識を利用し、ユーザがインスタンスに対してポジティブなのか、ネガティブなのか、どのような感性で記述しているのかを判定するために必要となるPNM辞書を自動的に生成する辞書作成方法を提供することができる。   The present invention uses class knowledge to which an instance belongs for an object of interest (instance) described by a user in a blog article or the like, and whether the user is positive or negative for the instance. It is possible to provide a dictionary creation method for automatically generating a PNM dictionary that is necessary for determining whether or not a description is made with sensitivity.

従来技術では、PNM判定を実現するためには、ポジティブ・ネガティブ辞書の自動生成が核となる。しかし、従来のPNM判定技術では、話題インスタンスの所属クラスに関係なく同一辞書が生成きれてきた。それに対し本発明では、オントロジに属する各クラスに沿つたポジティブ・ネガティブ・感性辞書を自動生成する手法を提供する。例えば、「とんがった」という語は、ロッククラスにおいては、ポジティブな意味を持つとしても、クラシックやオペラクラスにおいては、ネガティブな意味を持つ場合もある。本発明は、こうした各クラスの特徴を反映した語の分析を行うことで、そのクラスの特徴を把握しながら、クラス配下のインスタンスの特徴辞書を作りあげることができる。   In the prior art, automatic generation of a positive / negative dictionary is the core for realizing PNM determination. However, in the conventional PNM determination technique, the same dictionary has been generated regardless of the class to which the topic instance belongs. On the other hand, the present invention provides a method for automatically generating a positive / negative / sensitivity dictionary along each class belonging to an ontology. For example, the word “Tongari” may have a positive meaning in the rock class, but may have a negative meaning in the classic or opera class. In the present invention, by analyzing the words reflecting the characteristics of each class, it is possible to create a feature dictionary of the instances under the class while grasping the characteristics of the class.

以下、本発明の一実施形態による辞書作成方法を図面を参照して説明する。   Hereinafter, a dictionary creation method according to an embodiment of the present invention will be described with reference to the drawings.

図1は、本発明の実施形態に係る辞書作成方法の一例を説明するための機能ブロック図である。   FIG. 1 is a functional block diagram for explaining an example of a dictionary creation method according to an embodiment of the present invention.

ベースPNM辞書1、クラス分類記事2、自動生成P辞書3、自動生成N辞書4、自動生成M辞書5、ベース属性辞書6および自動生成名詞など辞書7は、例えばデータベースで構成してもよい。また、ベースPNM辞書1、クラス分類記事2、自動生成P辞書3、自動生成N辞書4、自動生成M辞書5、ベース属性辞書6および自動生成名詞など辞書7は、例えば、データベースに格納されているものであって、品詞等の情報付きの単語リストを構成する情報としてもよい。   The base PNM dictionary 1, the class classification article 2, the automatically generated P dictionary 3, the automatically generated N dictionary 4, the automatically generated M dictionary 5, the base attribute dictionary 6, and the automatically generated noun dictionary 7 may be configured by a database, for example. The base PNM dictionary 1, the class classification article 2, the automatically generated P dictionary 3, the automatically generated N dictionary 4, the automatically generated M dictionary 5, the base attribute dictionary 6, and the automatically generated noun dictionary 7 are stored in a database, for example. It is good also as information which comprises the word list | wrist with information, such as a part of speech.

本実施形態の辞書作成方法では、各クラスに分類された記事集合が必要となる。このような記事集合を保持しているものがクラス分類記事2である。このような記事集合は、例えば「Yahoo!」などのトピックディレクトリにおける人手の分類記事を利用してもよいし、非特許文献6におけるテンプレートオントロジに従ったブログ記事分類技術などを用いて、ブログ記事集合からクラス毎に分類されたブログ記事集合を抽出してもよい。   In the dictionary creation method of this embodiment, an article set classified into each class is required. The article that holds such an article set is the classified article 2. Such an article set may use, for example, a classified article of a person in a topic directory such as “Yahoo!”, or a blog article using a blog article classification technique according to the template ontology in Non-Patent Document 6. A set of blog articles classified by class may be extracted from the set.

こうして得られた記事集合を用い、以下に詳細に述べる手順で、各クラスに特徴的な辞書である自動生成P辞書3、自動生成N辞書4、自動生成M辞書5を生成する。なお、自動生成P辞書3、自動生成N辞書4および自動生成M辞書5の3つの辞書をあわせて、「PNM辞書」とも呼ぶ。   The automatically generated P dictionary 3, the automatically generated N dictionary 4, and the automatically generated M dictionary 5 which are characteristic dictionaries of each class are generated by using the article set thus obtained in the procedure described in detail below. The three dictionaries of the automatically generated P dictionary 3, the automatically generated N dictionary 4, and the automatically generated M dictionary 5 are collectively referred to as “PNM dictionary”.

本実施形態の辞書作成方法は、インスタンス周辺形態素解析・蓄積機能aと、PN抽出機能bと、クラス特徴辞書生成機能cと、比較対象クラス決定機能dと、ベース属性辞書比較機能eと、自動生成名詞など辞書チェック機能fとを使用することができる。これらの各機能は、以降で詳細に説明する。   The dictionary creation method of this embodiment includes an instance peripheral morpheme analysis / storage function a, a PN extraction function b, a class feature dictionary generation function c, a comparison target class determination function d, a base attribute dictionary comparison function e, an automatic A dictionary checking function f such as a generated noun can be used. Each of these functions will be described in detail below.

なお、図1において、生成辞書・ベース属性辞書比較機能eと、自動生成名詞など辞書チェック機能fと、ベース属性辞書6と、自動生成名詞など辞書7とは、インスタンスおよびクラスに対して既存の属性とは別の属性を付与する場合に必要となる機能である。   In FIG. 1, the generation dictionary / base attribute dictionary comparison function e, the dictionary check function f such as automatically generated nouns, the base attribute dictionary 6, and the dictionary 7 such as automatically generated nouns are existing for the instance and the class. This function is required when an attribute different from the attribute is given.

(1)ベースPNM辞書1の生成
各クラス毎に特徴的なPNM辞書(自動生成P辞書3、自動生成N辞書4、自動生成M辞書5)を自動的に生成するため、まずポジティブ、ネガティブ、感性それぞれに対してベースとなる辞書であるベースPNM辞書1を人手などによって生成する。ベースPNM辞書1に登録する語としては、PNM辞書を自動生成したい場合は、品詞として形容詞や形容動詞を選び、かつ多様なクラスに汎用的に適用可能な形態素を選択する。なお、形態素とは、言語において意味を持つ最小単位をいう。例えば、「お待ちしております。」という記載は、「お待ち」、「し」、「て」、「おり」、「ます」、「。」の各形態素に分割することができる。
(1) Generation of base PNM dictionary 1 In order to automatically generate characteristic PNM dictionaries (automatic generation P dictionary 3, automatic generation N dictionary 4, automatic generation M dictionary 5) for each class, first, positive, negative, A base PNM dictionary 1 which is a dictionary serving as a base for each sensitivity is generated manually. As a word to be registered in the base PNM dictionary 1, when it is desired to automatically generate a PNM dictionary, an adjective or an adjective verb is selected as a part of speech, and a morpheme that can be generally applied to various classes is selected. A morpheme is the smallest unit that has meaning in a language. For example, the description “Waiting” can be divided into “Waiting”, “Shi”, “Te”, “Ori”, “Masu”, “.” Morphemes.

上記の適用可能な形態素の選択は、形態素でなく、複数形態素を組合わせたフレーズの選択であっても良い。汎用的な形態素やフレーズを選択する理由は、「素晴らしい」という形態素は多数のクラスにおいて一般的にポジティブな意味を持つが、「甘い」という形態素は、ポジティブな意味を持つ場合もネガティブな意味を持つ場合もあるためであり、こうした形態素をベースPNM辞書1に登録すると、クラス毎に生成されるPNM辞書の精度に影響を与えるためである。   The selection of the applicable morpheme may be the selection of a phrase combining a plurality of morphemes instead of a morpheme. The reason for choosing a generic morpheme or phrase is that the “great” morpheme generally has a positive meaning in many classes, while the “sweet” morpheme has a negative meaning even if it has a positive meaning. This is because registering such morphemes in the base PNM dictionary 1 affects the accuracy of the PNM dictionary generated for each class.

ここでいう汎用的というのは、PNM辞書を生成する領域において汎用的という意味である。例えばファッション領域においてPNM辞書を自動生成する場合には、ファッションという領域で汎用的な辞書を作ればよい。PNMベース辞書1以外にも、ベース属性辞書6を用意することで、インスタンスに対する属性を決定するのに役立てる。ベース属性辞書6は、例えばファッション領域では、インスタンス(ブランド)に対する属性をモデル、雑誌、ブランド、アイテムなどとし、各種属性に対し形態素またはフレーズを登録したものである。例えば、ベース属性辞書6のアイテム辞書には、ネクタイ、ベルトなどが登録される。   General-purpose here means general-purpose in the area where the PNM dictionary is generated. For example, when a PNM dictionary is automatically generated in the fashion area, a general-purpose dictionary may be created in the fashion area. In addition to the PNM base dictionary 1, a base attribute dictionary 6 is prepared to help determine attributes for an instance. For example, in the fashion domain, the base attribute dictionary 6 is an attribute in which an attribute for an instance (brand) is a model, a magazine, a brand, an item, and the like, and morphemes or phrases are registered for various attributes. For example, a tie, a belt, and the like are registered in the item dictionary of the base attribute dictionary 6.

(2)PNM辞書の自動生成
次に、各クラスに分類された記事集合を用い、各クラスの特徴に沿ったPNM辞書を自動生成する。以下、PNM辞書生成の場合の辞書自動生成の手順を図2を用い説明する。図2は、PNM辞書の生成手順の一例を示す説明図である。
(2) Automatic generation of PNM dictionary Next, the article set classified into each class is used to automatically generate a PNM dictionary along the characteristics of each class. Hereinafter, the procedure of automatic dictionary generation in the case of PNM dictionary generation will be described with reference to FIG. FIG. 2 is an explanatory diagram showing an example of a procedure for generating a PNM dictionary.

(a)インスタンス周辺形態素解析・蓄積機能
クラスCとその配下に属するクラスからなるクラス集合S(C(C))に分類された記事集合S(E(C))に所属する記事
(A) Instance Peripheral Morphological Analysis / Storage Function Articles belonging to the article set S (E (C i )) classified into the class set S (C (C i )) consisting of the class C i and the classes belonging thereto

Figure 0004879775
Figure 0004879775

に対し、S(C(C))に所属するインスタンス Instance belonging to S (C (C i ))

Figure 0004879775
Figure 0004879775

に対する記述箇所をチェックする。そして、その記述箇所の前後X個の形態素に対し、その基本形と品詞情報をチェックし、ベースPNM辞書1におけるポジティブベース辞書内の形態素と一致するものがあるかどうかをチェックする。そして、ある場合に限りクラス集合S(C(C))に特徴的なポジティブ辞書P(C)として自動生成P辞書3に蓄積する。これを、S(E(C))に所属する全記事に対し実行する。また、蓄積にあたり、各形態素の基本形の出現回数も保持する。これを、ベースPNM辞書1におけるネガティブベース辞書および感性ベース辞書に対しても実行し、それぞれに対し蓄積された特徴的な辞書を、ネガティブ辞書N(C)として自動生成N辞書4に蓄積し、感性辞書M(C)として自動生成M辞書5に蓄積する。 Check the description for. Then, the basic form and part-of-speech information are checked for the X morphemes before and after the description location, and it is checked whether or not there is a morpheme in the positive base dictionary in the base PNM dictionary 1. Only in a certain case, it is stored in the automatically generated P dictionary 3 as a positive dictionary P (C i ) characteristic of the class set S (C (C i )). This is executed for all articles belonging to S (E (C i )). In addition, the number of appearances of the basic form of each morpheme is also stored during accumulation. This is also performed for the negative base dictionary and the sensitivity base dictionary in the base PNM dictionary 1, and the characteristic dictionary stored for each is stored in the automatically generated N dictionary 4 as the negative dictionary N (C i ). And stored in the automatically generated M dictionary 5 as a sensitivity dictionary M (C i ).

また、PNM辞書を生成する場合、ベースPNM辞書1に登録する形態素と以下の「(b)PN抽出機能」以降で抽出する形態素とは、形容詞および形容動詞に設定すればよい。   When generating a PNM dictionary, morphemes registered in the base PNM dictionary 1 and morphemes extracted after “(b) PN extraction function” below may be set as adjectives and adjective verbs.

一方、PNM辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「VIVAYOU」というブランドであった場合、「VIVAYOU」に対して特徴的なアイテムを抽出したければ、抽出する形態素を名詞などに指定する。そして、抽出きれた結果とベースPNM辞書1におけるアイテムベース辞書とを比較し、抽出された名詞の中からそのインスタンスに特徴的なアイテムを抽出する。ここで抽出されたものを自動生成名詞など辞書7に蓄積する。   On the other hand, in addition to the PNM dictionary, for example, if the area is “Fashion”, the class is “Genre” “Sexy”, and the instance is the brand “VIVAYOU”, a characteristic item for “VIVAYOU” is displayed. If you want to extract, specify the morpheme to be extracted as a noun. Then, the extracted result is compared with the item base dictionary in the base PNM dictionary 1, and an item characteristic to the instance is extracted from the extracted nouns. What is extracted here is stored in the dictionary 7 such as automatically generated nouns.

(b)PN抽出機能
上記のインスタンス周辺形態素解析・蓄積機能aによって自動生成P辞書3に生成されたポジティブ特徴辞書P(C)は、単純に、ベースPNM辞書1におけるポジティブベース辞書内の登録形態素と共起して出現した形態素を登録しただけであり、必ずしもポジティブ・ネガティブを判別するために利用できる辞書であるとは限らない。そこで、辞書P(C)について、ネガティブベース辞書とポジティブベース辞書とを比較してポジティブベース辞書の方に多く頻出する形態素を抽出するため、辞書P(C)と辞書N(C)とで登録された形態素
(B) PN extraction function The positive feature dictionary P (C i ) generated in the automatically generated P dictionary 3 by the instance peripheral morpheme analysis / storage function a is simply registered in the positive base dictionary in the base PNM dictionary 1. The morpheme that co-occurs with the morpheme is only registered, and is not necessarily a dictionary that can be used to discriminate between positive and negative. Therefore, for the dictionary P (C i ), the negative base dictionary and the positive base dictionary are compared to extract morphemes that appear more frequently in the positive base dictionary. Therefore, the dictionary P (C i ) and the dictionary N (C i ) are extracted. Registered morphemes

Figure 0004879775
Figure 0004879775

に対し、下記の数式(6)を実行し、ヒューリスティックな閾値αを下回る場合は、その形態素mはネガティブベース辞書およびポジティブベース辞書の両辞書に頻出する語でありポジティプでもネガティブでもないと捉え、削除する。ここで、形態素mの辞書P(C)における出現回数を On the other hand, when the following equation (6) is executed and the heuristic threshold α is below, the morpheme m is a word that frequently appears in both the negative base dictionary and the positive base dictionary, and is not positive or negative. delete. Here, the number of appearances of the morpheme m in the dictionary P (C i ) is

Figure 0004879775
Figure 0004879775

とし、辞書N(C)における出現回数を And the number of appearances in the dictionary N (C i )

Figure 0004879775
Figure 0004879775

とする。同様の処理を、自動生成N辞書4に生成されたネガティブ特徴辞書N(C)に対しても実行する。これらの処理を経て、辞書P(C)に残る形態素は、ネガティブベース辞書とポジティブベース辞書とを比較して、ポジティブベース辞書の方に多く頻出する形態素になるとともに、辞書N(C)に残る形態素は、ネガティブベース辞書とポジティブベース辞書とを比較して、ネガティブベース辞書の方に多く頻出する形態素を集めたものになる。したがって、辞書P(C)および辞書N(C)は、PN判定に有効となる。 And Similar processing is executed for the negative feature dictionary N (C i ) generated in the automatically generated N dictionary 4. Through these processes, the morphemes remaining in the dictionary P (C i ) are compared with the negative base dictionary and the positive base dictionary to become morphemes that appear more frequently in the positive base dictionary, and the dictionary N (C i ). The remaining morphemes are a collection of morphemes that appear more frequently in the negative base dictionary by comparing the negative base dictionary and the positive base dictionary. Therefore, the dictionary P (C i ) and the dictionary N (C i ) are effective for PN determination.

Figure 0004879775
Figure 0004879775

(c)クラス特徴辞書生成機能
次に、自動生成P辞書3において、各クラスの特性のみを反映したポジティブ特徴辞書を生成するため、クラス集合S(C(C))とは異なるクラス集合S(C(C))に対し生成された辞書P(C)と、クラス集合S(C(C))に対して生成された辞書P(C)を比較する。ここで、クラスCに対し特徴的な辞書を構築することを狙うため、クラス集合S(C(C))とクラス集合S(C(C))は互いに疎な関係であるとする。比較方法としては、上記のPN抽出機能bの手順と同様に、辞書P(C)と辞書P(C)とで登録された形態素
(C) Class Feature Dictionary Generation Function Next, in the automatically generated P dictionary 3, in order to generate a positive feature dictionary that reflects only the characteristics of each class, a class set S different from the class set S (C (C i )) and (C (C j)) dictionaries is generated for P (C j), to compare the class set S (C (C i)) dictionary generated for P (C i). Here, in order to build a characteristic dictionary for the class C i , the class set S (C (C i )) and the class set S (C (C j )) are sparsely related to each other. . As a comparison method, similar to the procedure of the PN extraction function b described above, the morphemes registered in the dictionary P (C i ) and the dictionary P (C j )

Figure 0004879775
Figure 0004879775

に対し、下記の数式(8)を実行し、ヒューリスティックな閾値βを下回る場合、形態素mは複数クラスの辞書に跨って出現し一般的にポジティブな形態素であると捉え、辞書P(C)から削除する。上記の自動生成P辞書3に対して実行した処理を、自動生成N辞書4および自動生成M辞書5に対しても実行する。 On the other hand, when the following mathematical formula (8) is executed and the value falls below the heuristic threshold β, the morpheme m appears across multiple classes of dictionaries and is generally regarded as a positive morpheme, and the dictionary P (C i ) Delete from. The processing executed for the automatically generated P dictionary 3 is also executed for the automatically generated N dictionary 4 and the automatically generated M dictionary 5.

Figure 0004879775
Figure 0004879775

(d)比較対象クラス決定機能
ここで、クラスCとクラスCがクラス階層として近い場合、つまり、意味的に近い場合、各クラスにより特徴的な語が情報集合に残るが、残る単語数が少なくなる。一方、クラスCとクラスCがクラス階層として遠い場合、つまり、意味的に遠い場合、より一般的な語のみが情報集合から削除され、残る単語数は多い。本比較対象クラス決定機能dでは、比較元クラスと比較対象とするクラスの意味的な距離を調整したり、比較対象となるクラスの数を調整することで、自動生成P辞書3、自動生成N辞書4および自動生成M辞書5として最終的に生成される各辞書内の形態素の精度と数を調整することができる。ここで、意味的な距離の算出方法は、例えば、比較元クラスから比較対象候補となるクラスまでたどったときに、経由するクラスの数などで表現できる。
(D) Comparison Target Class Determination Function Here, when class C i and class C j are close to each other as a class hierarchy, that is, when they are close to each other, a characteristic word for each class remains in the information set, but the number of remaining words Less. On the other hand, when class C i and class C j are distant from each other as a class hierarchy, that is, when they are distant from each other, only more general words are deleted from the information set, and the number of remaining words is large. In this comparison target class determination function d, the automatic generation P dictionary 3 and the automatic generation N are adjusted by adjusting the semantic distance between the comparison source class and the class to be compared, or by adjusting the number of classes to be compared. The precision and number of morphemes in each dictionary finally generated as the dictionary 4 and the automatically generated M dictionary 5 can be adjusted. Here, the semantic distance calculation method can be expressed by, for example, the number of classes through which the comparison source class is traced to the comparison target candidate class.

(e)生成辞書・ベース属性辞書比較機能
PNM辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「VIVAYOU」というブランドであった場合、「VIVAYOU」に対して特徴的な属性(アイテムやモデルなど)を抽出したければ、クラス分類記事2から抽出する形態素を名詞などに指定する。そして、本生成辞書・ベース属性辞書比較機能において、抽出された名詞などとベース属性辞書6とを比較し、抽出された名詞の中からそのインスタンスに特徴的な属性を生成し、この属性を自動生成名詞など辞書7に蓄積する。
(E) Generating dictionary / base attribute dictionary comparison function In addition to the PNM dictionary, for example, if the area is “fashion”, the class is “genre” “sexy”, and the instance is the brand “VIVAYOU”, then “VIVAYOU” If a characteristic attribute (item, model, etc.) is desired to be extracted, the morpheme extracted from the classified article 2 is designated as a noun. Then, in the generation dictionary / base attribute dictionary comparison function, the extracted nouns are compared with the base attribute dictionary 6 to generate a characteristic attribute for the instance from the extracted nouns. The generated nouns are stored in the dictionary 7.

(f)自動生成名詞など辞書チェック機能
きらに、自動生成された名詞などをチェックする本自動生成名詞など辞書チェック機能fでは、自動生成名詞など辞書7の保持されている自動生成された名詞辞書を人手などによりチェックし、ベース属性辞書に追加しても良いと判断できる名詞などが存在した場合、属性ベース辞書6に追加する。例えば、属性ベース辞書6になかった「蝶ネクタイ」という名詞と名詞の組合せフレーズが出現した場合は、この「蝶ネクタイ」をベース属性辞書6(ここではアイテム)に追加し、ベース属性辞書6を更新する。
(F) Dictionary Check Function for Automatically Generated Nouns, etc. This automatically generated noun dictionary check function f for checking automatically generated nouns, etc. automatically generates noun dictionaries that are stored in the dictionary 7 such as automatically generated nouns. If there is a noun or the like that can be determined to be added to the base attribute dictionary, it is added to the attribute base dictionary 6. For example, when a noun and noun combination phrase “bow tie” that did not exist in the attribute base dictionary 6 appears, this “bow tie” is added to the base attribute dictionary 6 (here, an item), and the base attribute dictionary 6 is Update.

上記のインスタンス周辺形態素解析・蓄積機能aによって生成された自動生成P辞書3、自動生成N辞書4、自動生成M辞書5および自動生成名詞など辞書7は、上記のPN抽出機能b、クラス特徴辞書生成機能c、比較対象クラス決定機能dおよびベース属性辞書比較機能eにより更新される。また、上記の自動生成名詞など辞書チェック機能fによってベース属性辞書6が更新される。そして、インスタンス周辺形態素解析・蓄積機能a、PN抽出機能b、クラス特徴辞書生成機能c、比較対象クラス決定機能d、ベース属性辞書比較機能eおよび自動生成名詞など辞書チェック機能fを繰り返して、自動生成P辞書3、自動生成N辞書4、自動生成M辞書5、ベース属性辞書6および自動生成名詞など辞書7の各辞書に登録される形態素などの数を増やしていく。このようにして、クラス毎に特徴的な辞書を生成する。   The automatically generated P dictionary 3, the automatically generated N dictionary 4, the automatically generated M dictionary 5, and the automatically generated noun dictionary 7 generated by the instance peripheral morphological analysis / accumulation function a are the PN extraction function b, the class feature dictionary, and the like. It is updated by the generation function c, the comparison target class determination function d, and the base attribute dictionary comparison function e. The base attribute dictionary 6 is updated by the dictionary check function f such as the above-mentioned automatically generated noun. Then, the instance peripheral morphological analysis / storage function a, PN extraction function b, class feature dictionary generation function c, comparison target class determination function d, base attribute dictionary comparison function e, and dictionary check function f such as automatically generated nouns are repeated to automatically The number of morphemes registered in each dictionary of the dictionary 7 such as the generated P dictionary 3, the automatically generated N dictionary 4, the automatically generated M dictionary 5, the base attribute dictionary 6, and the automatically generated nouns is increased. In this way, a characteristic dictionary is generated for each class.

なお、上記実施形態は、クラスに特徴的な辞書を生成しており、インスタンスの特徴はクラスの特徴と基本的に一致するという観点のものである。しかし、本発明は、クラス体系を利用し、インスタンス毎に特徴的な辞書を生成することも可能である。   Note that the embodiment described above is based on the viewpoint that a dictionary characteristic for a class is generated, and the feature of the instance basically matches the feature of the class. However, the present invention can generate a characteristic dictionary for each instance by using a class system.

図3は、インスタンス毎に特徴的な辞書を作成する場合の比較対象クラスの選択例を示す説明図である。インスタンス毎に特徴的な辞書を作成する場合は、PN抽出機能bおよびクラス特徴辞書生成機能cがクラスにおける比較ではなくインスタンスとしての比較をする。そして、図3に示すように、比較対象クラス決定機能dが比較対象クラスを選択した上で、クラス特徴辞書生成機能cが比較元インスタンスの所属クラス以外の選択クラス配下のインスタンスとの間で比較する。   FIG. 3 is an explanatory diagram showing an example of selecting a comparison target class when creating a characteristic dictionary for each instance. In the case of creating a characteristic dictionary for each instance, the PN extraction function b and the class feature dictionary generation function c compare not as a class but as an instance. Then, as shown in FIG. 3, after the comparison target class determination function d selects the comparison target class, the class feature dictionary generation function c compares it with instances under the selected class other than the class to which the comparison source instance belongs. To do.

例えば、図3に示すように、比較対象クラスとして「フェミニン」を選択する。そして、比較元クラス「セクシー」の比較元インスタンス「LIZ LISA」と、比較対象クラス「フェミニン」のインスタンス「VIVAYOU」および「Earl Jean」とを比較する。こうすることで、インスタンスの背景知識が近すぎるインスタンス間で辞書を比較することにより、比較元インスタンスの特徴語が全く残らなくなってしまうという弊害を防ぐことができる。   For example, as shown in FIG. 3, “feminine” is selected as the comparison target class. Then, the comparison source instance “LIZ LISA” of the comparison source class “sexy” is compared with the instances “VIVAYOU” and “Earl Jean” of the comparison target class “feminine”. By doing this, it is possible to prevent the adverse effect that the feature words of the comparison source instance do not remain at all by comparing the dictionaries between instances whose background knowledge of the instances is too close.

なお、上述した各機能は、コンピュータ、ブラウザおよびインターネットなどを使用して、それぞれ処理ステップとして実行されるものとすることができる。また、上述した各機能は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されているものとしてもよく、このプログラムをコンピュータが読み出して実行することによって、上記機能が実行されるものとしてもよい。すなわち、上述した各機能の全部または一部は、コンピュータなどのハードウェアで実現することができる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。   Each function described above can be executed as a processing step using a computer, a browser, the Internet, or the like. In addition, each function described above may be stored in a computer-readable recording medium in the form of a program, and the above function may be executed by the computer reading and executing the program. . That is, all or part of the above-described functions can be realized by hardware such as a computer. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

[実施形態の効果]
本実施形態によれば、ユーザが記述したプログ記事集合などから、ユーザの興味を自動的に抽出することで、ユーザ毎への推薦など、ユーザに特化したマーケティングを実施することができる。そうした推薦を行う際に、ユーザがポジティブな興味を持つ場合は積極的に推薦し、ネガティブな興味を持つ場合は推薦しないなどの振り分けに本発明は効果を持つ。また、多数のユーザの記述を解析することで、ユーザの記述対象に対する感性情報や、その対象に関連する商品情報(例えば、ブランド「バーバリ一」といえば、「トレンチコート」であるなど)を得ることもでき、感性や属性をベースとし、対象を検索するということもできるため、ユーザは多数の観点から情報を検索することができる。
[Effect of the embodiment]
According to the present embodiment, user-specific marketing such as recommendation for each user can be performed by automatically extracting the user's interest from a set of program articles described by the user. When making such a recommendation, the present invention is effective for sorting such as actively recommending if the user has a positive interest and not recommending if the user has a negative interest. In addition, by analyzing the descriptions of a large number of users, sensibility information on the user's description target and product information related to the target (for example, the brand “Barbary 1” is “trench coat”). It is also possible to search for an object based on sensibility and attributes, and the user can search for information from a number of viewpoints.

今後の産業発展の基盤の一つである情報通信システムは、現在急激な成長の過程にあるが、膨大な量に拡大した情報通信によるアクセス可能な情報源を充分に活用出来ているかどうかが現在大問題になっている。特に、ユーザ個別に対応した情報提供方法やユーザ毎の情報アクセス方法を与えるパーソナライゼーションへの注目はとても高い。これに対して、本発明によれば、ユーザの興味および感性に基づくコンテンツ検索への適用も可能となり、ユーザにとっては、それぞれのユーザ興味に従った情報へ直感的にアクセスすることができるようになるため、情報へのアクセスが従来よりも容易になる。また、本発明によれば、プロバイダにとっても、今話題となっている商品の感性情報などをマーケティングすることができ、商品の売り込み方法を考えることができるなど、プロバイダにおけるコンテンツ販売戦略を考えることが容易になる。   The information communication system, which is one of the foundations of future industrial development, is currently undergoing rapid growth, but whether or not the information source that can be accessed by the information communication that has been expanded to an enormous amount can be fully utilized. It has become a big problem. In particular, there is a great deal of attention to personalization that provides information provision methods and information access methods for each user. On the other hand, according to the present invention, it is possible to apply to content search based on the user's interest and sensibility, so that the user can intuitively access information according to each user's interest. Therefore, access to information becomes easier than before. In addition, according to the present invention, it is possible for a provider to think about a content sales strategy in a provider, such as being able to market the sensitivity information of a product that is currently being discussed, and thinking about how to sell the product. It becomes easy.

本発明の実施形態に係る辞書作成方法の一例を説明するための機能ブロック図である。It is a functional block diagram for demonstrating an example of the dictionary creation method which concerns on embodiment of this invention. PNM辞書の生成手順の一例を示す説明図である。It is explanatory drawing which shows an example of the production | generation procedure of a PNM dictionary. インスタンス毎に特徴的な辞書を作成する場合の比較対象クラスの選択例を示す説明図である。It is explanatory drawing which shows the example of selection of the comparison object class in the case of producing the characteristic dictionary for every instance.

符号の説明Explanation of symbols

1 ベースPNM辞書
2 クラス分類記事
3 自動生成P辞書
4 自動生成N辞書
5 自動生成M辞書
6 ベース属性辞書
7 自動生成名詞など辞書
a インスタンス周辺形態素解析・蓄積機能
b PN抽出機能
c クラス特徴辞書生成機能
d 比較対象クラス決定機能
e ベース属性辞書比較機能
f 自動生成名詞など辞書チェック機能
1 base PNM dictionary 2 class classification article 3 automatically generated P dictionary 4 automatically generated N dictionary 5 automatically generated M dictionary 6 base attribute dictionary 7 dictionary of automatically generated nouns a instance peripheral morpheme analysis / storage function b PN extraction function c class feature dictionary generation Function d Comparison target class determination function e Base attribute dictionary comparison function f Dictionary check function such as automatically generated nouns

Claims (8)

ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを予め記憶している記憶部を有しているコンピュータが、通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、
前記コンピュータの第1手段が、前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ(a)と、
前記コンピュータの第2手段が、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するPN抽出ステップ(b)とを有し、
前記要素は形態素またはフレーズであり、前記要素の特徴を表す情報とはポジティブかネガティブかであり、
前記解析・蓄積ステップは、
前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、
前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、
前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を感性辞書に蓄積するステップと、
前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有する
ことを特徴とする辞書作成方法。
A positive base dictionary in which words having a positive meaning are accumulated, a negative base dictionary in which words having a negative meaning are accumulated, and a sensitivity base dictionary in which words having a meaning about sensitivity are accumulated A computer having a storage unit that stores information classifies articles stored in storage means accessible via a communication line into a plurality of elements, and classifies each of the classified elements and each element. A dictionary creation method for creating a dictionary having information indicating features,
A plurality of dictionaries including at least a first dictionary of the computer analyzing whether the classified element is positive or negative, and based on the analysis result, the element includes at least a positive dictionary and a negative dictionary; Analysis / accumulation step (a) for accumulating in any of the above,
The second means of the computer compares the elements of the positive dictionary and the elements of the negative dictionary, and if the compared elements are the same, deletes the same element from the positive dictionary and the negative dictionary possess an extraction step (b),
The element is a morpheme or a phrase, and the information indicating the characteristic of the element is positive or negative,
The analysis / accumulation step includes
Comparing the classified elements with words stored in the positive base dictionary and, if they match, storing the elements in the positive dictionary;
Comparing the classified elements with words stored in the negative base dictionary and, if they match, storing the elements in the negative dictionary;
Comparing the classified elements with words stored in the sensitivity-based dictionary and, if they match, storing the elements in the sensitivity dictionary;
Analyzing whether or not the classified element has a predetermined part of speech such as a noun, and if it is the predetermined part of speech, storing the element in a dictionary such as a noun Method.
前記分類わけされた要素は、予め定められた規則によってクラス毎に分類されており、
前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、
前記コンピュータの第3手段が、前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップ
前記コンピュータの第4手段が、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ(c)をさらに有する
ことを特徴とする請求項に記載の辞書作成方法。
The classified elements are classified by class according to a predetermined rule .
The class restricts the characteristics of a set of elements belonging to the class, and has information indicating background knowledge of the elements,
And Step third means of said computer, the analysis and storage step of storing the elements the positive dictionary, negative dictionary for each dictionary including sensitive dictionary and a noun, for each class,
The fourth means of the computer compares two different classes of elements in any one of the dictionaries such as the positive dictionary, the negative dictionary, the sensitivity dictionary, and the noun, and the same element is extracted from the dictionary. The dictionary creation method according to claim 1 , further comprising a class feature dictionary generation step (c) to be deleted.
前記コンピュータの第5手段が、前記クラス特徴辞書生成ステップにおいて比較対象とされる2つのクラスを決定するステップであって、2つのクラス間に存在するクラスの数を該2つクラス間の意味的な距離として算出して、該距離が所定値よりも大きい場合、該2つのクラスを前記比較対象とされる2つのクラスに決定する比較対象クラス決定ステップ(d)をさらに有する
ことを特徴とする請求項に記載の辞書作成方法。
The fifth means of the computer is a step of determining two classes to be compared in the class feature dictionary generating step, wherein the number of classes existing between the two classes is determined semantically between the two classes. calculated as a distance, when the distance is greater than a predetermined value, characterized by further comprising a comparison class determining step of determining the two classes into two classes that are the comparison (d) The dictionary creation method according to claim 2 .
前記コンピュータの第6手段が、複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ(e)をさらに有し、
該決定事項を前記名詞など辞書に蓄積するとは、抽出された名詞の中から生成されたそのインスタンスに特徴的な属性を蓄積することである
ことを特徴とする請求項に記載の辞書作成方法。
The sixth means of the computer uses a base attribute dictionary having a plurality of attributes and a morpheme or phrase registered for each attribute, and a morpheme or phrase registered in the base attribute dictionary and the positive dictionary And comparing the elements of any one of the dictionaries such as a negative dictionary, a sensitivity dictionary, and a noun, and if they match, the morpheme or phrase is determined as an attribute for the element, and the determination item is determined as the noun further we have the created dictionary-based attribute dictionary comparing step of storing (e) in the dictionary,
4. The dictionary creation method according to claim 3 , wherein storing the decision items in the dictionary such as the noun is storing characteristic attributes in the instance generated from the extracted nouns. .
前記コンピュータの第7手段が、前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、前記ベース属性辞書に蓄積されていないものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ(f)をさらに有する
ことを特徴とする請求項に記載の辞書作成方法。
The seventh means of the computer determines whether or not there is something stored in the dictionary such as the noun that is not stored in the base attribute dictionary, and if so, it is not stored in the base attribute dictionary The dictionary creation method according to claim 4 , further comprising a dictionary check step (f) for nouns and the like for storing things in the base attribute dictionary.
前記PN抽出ステップは、
前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数から算出される値が、予め定めた第1閾値より小さいとき、該要素を前記ポジティブ辞書およびネガティブ辞書から削除する
ことを特徴とする請求項に記載の辞書作成方法。
The PN extraction step includes:
When the elements of the positive dictionary and the elements of the negative dictionary are compared and the compared elements are the same, a value calculated from the number of occurrences of the compared elements in the positive dictionary and the negative dictionary , The dictionary creation method according to claim 5 , wherein the element is deleted from the positive dictionary and the negative dictionary when smaller than a predetermined first threshold value .
前記クラス特徴辞書生成ステップは、
前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該2つのクラスでの出現回数から算出される値が、予め定めた第2閾値より小さいとき、該要素を該辞書から削除する
ことを特徴とする請求項に記載の辞書作成方法。
The class feature dictionary generation step includes:
In one of the dictionaries such as the positive dictionary, the negative dictionary, the sensitivity dictionary, and the noun, when two different classes of elements are compared and the compared elements are the same, the compared elements The dictionary creation method according to claim 6 , wherein when the value calculated from the number of appearances of the two classes is smaller than a predetermined second threshold, the element is deleted from the dictionary.
前記ベースPNM辞書、クラス分類記事、自動生成P辞書、自動生成N辞書、自動生成M辞書、ベース属性辞書および自動生成名詞など辞書は、データベースで構成されており、
前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、
前記記事は、ブログである
ことを特徴とする請求項に記載の辞書作成方法。
The base PNM dictionary, the classification article, the automatically generated P dictionary, the automatically generated N dictionary, the automatically generated M dictionary, the base attribute dictionary, and the automatically generated noun dictionary are configured by a database,
Each process in each step is executed using a computer, a browser, and the Internet,
The dictionary creation method according to claim 7 , wherein the article is a blog.
JP2007042309A 2007-02-22 2007-02-22 Dictionary creation method Active JP4879775B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007042309A JP4879775B2 (en) 2007-02-22 2007-02-22 Dictionary creation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007042309A JP4879775B2 (en) 2007-02-22 2007-02-22 Dictionary creation method

Publications (2)

Publication Number Publication Date
JP2008204355A JP2008204355A (en) 2008-09-04
JP4879775B2 true JP4879775B2 (en) 2012-02-22

Family

ID=39781770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007042309A Active JP4879775B2 (en) 2007-02-22 2007-02-22 Dictionary creation method

Country Status (1)

Country Link
JP (1) JP4879775B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5008701B2 (en) * 2009-08-13 2012-08-22 日本電信電話株式会社 Kansei information providing apparatus, method and program thereof
US8352405B2 (en) * 2011-04-21 2013-01-08 Palo Alto Research Center Incorporated Incorporating lexicon knowledge into SVM learning to improve sentiment classification
JP6237639B2 (en) * 2012-10-26 2017-11-29 日本電気株式会社 Information extraction system, information extraction method, and information extraction program
JP5990474B2 (en) * 2013-02-13 2016-09-14 Kddi株式会社 Abnormality detection apparatus, program, and method for detecting specific abnormality using posted text from unspecified number of users
JP6191278B2 (en) * 2013-06-26 2017-09-06 カシオ計算機株式会社 Information processing apparatus, content billing system, and program
JP6447681B2 (en) * 2017-08-09 2019-01-09 カシオ計算機株式会社 Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
JP2008204355A (en) 2008-09-04

Similar Documents

Publication Publication Date Title
Deveaud et al. Accurate and effective latent concept modeling for ad hoc information retrieval
Eirinaki et al. Feature-based opinion mining and ranking
Almatrafi et al. Application of location-based sentiment analysis using Twitter for identifying trends towards Indian general elections 2014
Tewari et al. Sequencing of items in personalized recommendations using multiple recommendation techniques
Ahmed Detecting opinion spam and fake news using n-gram analysis and semantic similarity
Wang et al. Adapting topic map and social influence to the personalized hybrid recommender system
JP2011175362A (en) Information processing apparatus, importance level calculation method, and program
Spina et al. Discovering filter keywords for company name disambiguation in twitter
Osmani et al. Enriched latent dirichlet allocation for sentiment analysis
JP5318034B2 (en) Information providing apparatus, information providing method, and information providing program
JP4879775B2 (en) Dictionary creation method
KR100954842B1 (en) Method and System of classifying web page using category tag information and Recording medium using by the same
Othman et al. Using NLP approach for opinion types classifier
Simsek et al. Wikipedia enriched advertisement recommendation for microblogs by using sentiment enhanced user profiles
Velásquez Web site keywords: A methodology for improving gradually the web site text content
Rashid et al. Analysis of streaming data using big data and hybrid machine learning approach
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
KR101074820B1 (en) Recommendation searching system using internet and method thereof
KR101652433B1 (en) Behavioral advertising method according to the emotion that are acquired based on the extracted topics from SNS document
Kawase et al. Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources
Itani Sentiment analysis and resources for informal Arabic text on social media
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
Panchal et al. The social hashtag recommendation for image and video using deep learning approach
Pochampally et al. Notability determination for Wikipedia
Dilip et al. Making online content viral through text analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111130

R151 Written notification of patent or utility model registration

Ref document number: 4879775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350