JP2011060182A - Content selection system - Google Patents

Content selection system Download PDF

Info

Publication number
JP2011060182A
JP2011060182A JP2009211658A JP2009211658A JP2011060182A JP 2011060182 A JP2011060182 A JP 2011060182A JP 2009211658 A JP2009211658 A JP 2009211658A JP 2009211658 A JP2009211658 A JP 2009211658A JP 2011060182 A JP2011060182 A JP 2011060182A
Authority
JP
Japan
Prior art keywords
content
data
search
unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009211658A
Other languages
Japanese (ja)
Inventor
Kenji Sugawara
賢司 菅原
Junichi Saito
潤一 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AIM CO Ltd
Original Assignee
AIM CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AIM CO Ltd filed Critical AIM CO Ltd
Priority to JP2009211658A priority Critical patent/JP2011060182A/en
Publication of JP2011060182A publication Critical patent/JP2011060182A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a content selection system with which the search for recommended content, based on the content purchased or the like, by a user can be performed with a high degree of accuracy. <P>SOLUTION: A feature-quantity generating function 110 generates feature-quantity data of content with multi-dimension vector data by using content-related information, and stores the feature-quantity data. A learning result generating function section 120 generates learning result data indicative of a user's taste with multi-dimension vector data by executing clustering processing using the feature-quantity data of content selected based on the user's taste, and stores the learning result data. A content search function section 150 extracts the feature-quantity data the Euclidean distance of which the learning result data is within a predetermined distance from the feature-quantity data stored in the feature quantity generating function 110, and searches for the content. Search with a high degree of accuracy can be performed, due to the use of the feature-quantity data of the multi-dimension vector generated by the feature quantity generating function 110. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、楽曲や書物等のコンテンツをユーザの嗜好に応じて選択するためのコンテンツ選択システムに関する。   The present invention relates to a content selection system for selecting content such as music and books according to user preferences.

従来より、楽曲、映像等のコンテンツを販売するビジネスには、取り扱いコンテンツの中から特定のコンテンツを選択してユーザに購入を勧める販売促進手法がある。また、このような販売促進手法の一つとして、各ユーザの購入履歴をデータベース化しておき、かかる購入履歴に基づいて、推薦するコンテンツをユーザ毎に決定する方法がある。このような方法により、推薦コンテンツをユーザが実際に購入する頻度を高めることが期待される。   2. Description of the Related Art Conventionally, businesses that sell content such as music and video have a sales promotion method that selects specific content from handled content and recommends purchases to users. As one of such sales promotion methods, there is a method in which purchase history of each user is stored in a database, and recommended content is determined for each user based on the purchase history. By such a method, it is expected that the frequency with which the user actually purchases the recommended content is increased.

例えば、あるユーザが過去に購入したコンテンツの作者名や演奏者名等をキーワードとして、取り扱いコンテンツの検索を行う方法が知られている。   For example, there is known a method of searching for handled content using the author or performer name of content purchased by a user in the past as a keyword.

また、同一コンテンツを購入した複数ユーザの購入履歴を用いて、同一コンテンツを購入したユーザ間で購入頻度の高いコンテンツを検索し、推薦コンテンツとする方法もある。   Also, there is a method of searching for frequently purchased content among users who have purchased the same content using purchase histories of a plurality of users who have purchased the same content, and using it as recommended content.

一方、検索条件の決定方法として、作者名等の文字データではなく、コンテンツが人間に与える主観的印象を数値データ化して検索に使用する技術が、既に提案されている(例えば下記特許文献1参照)。特許文献1の楽曲検索システムでは、楽曲コンテンツを電子データ化し、この電子データのゆらぎ情報を特徴量データ(特許文献1では「特徴データ」)として抽出し、更に、この特徴量データを明るい/暗い、重い/軽い等の印象度データに変換してコンテンツ毎に保存する。そして、検索処理の際には、保存された印象度データを用いて、ユーザが指定した印象度情報と合致するコンテンツを探し出す(特許文献1の段落[0048]〜[0053]、[0077]等参照)。特許文献1のシステムによれば、ユーザ自身が明るい/暗い、重い/軽い等の印象度データを用いてコンテンツ検索を行うことにより、かかるユーザの嗜好に基づくコンテンツ検索を行うことができる。   On the other hand, as a method for determining a search condition, there has already been proposed a technique for converting a subjective impression given to a human by a content into numerical data and using it for search instead of character data such as an author name (for example, see Patent Document 1 below). ). In the music search system of Patent Literature 1, music content is converted into electronic data, fluctuation information of the electronic data is extracted as feature amount data (“feature data” in Patent Literature 1), and the feature amount data is bright / dark. It is converted into impression degree data such as heavy / light and stored for each content. In the search process, content that matches the impression degree information specified by the user is searched using the saved impression degree data (paragraphs [0048] to [0053], [0077], etc. of Patent Document 1). reference). According to the system of Patent Document 1, a content search based on the user's preference can be performed by performing content search using impression degree data such as bright / dark or heavy / light.

特許第4165645号公報Japanese Patent No. 4165645

推薦コンテンツの検索においては、ユーザの嗜好に合致したコンテンツが高い比率で多数含まれるような検索結果を得ることが望ましい。検索結果として得られる推薦コンテンツの数が少ないと、ユーザが実際に購入する推薦コンテンツの数を十分に多くすることは困難である。その一方で、推薦コンテンツの全体数が多くてもユーザが興味を持たないコンテンツの比率が高いのでは、ユーザにとっての利便性が悪くなり、十分な販売促進効果を期待できない。   In searching for recommended content, it is desirable to obtain a search result that includes a large number of content that matches the user's preference. If the number of recommended contents obtained as a search result is small, it is difficult to sufficiently increase the number of recommended contents that the user actually purchases. On the other hand, even if the total number of recommended contents is large, if the ratio of contents that the user is not interested in is high, convenience for the user is deteriorated and a sufficient sales promotion effect cannot be expected.

従来の検索技術では、検索の精度を高めたい場合には、検索キーワードを適切に選択できるよう工夫するとともに、検索キーワードの数を多くしていた。   In the conventional search technology, when it is desired to improve the search accuracy, the search keyword is appropriately selected and the number of search keywords is increased.

しかしながら、上述のような、ユーザの購入済みコンテンツの作者名や演奏者名等を検索キーワードとして用いる方法では、検索キーワードの数や種類に限界があり、検索処理の質を向上させる上で限界があった。さらには、検索対象となった購入済みコンテンツと異なるカテゴリのコンテンツを検索結果として取得しにくいという欠点もあった。   However, in the method of using the author's name or performer's name of the user's purchased content as the search keyword as described above, there are limits on the number and types of search keywords, and there is a limit in improving the quality of the search process. there were. Furthermore, there is a drawback in that it is difficult to acquire content of a category different from the purchased content that is the search target as a search result.

これに対して、同一コンテンツ購入者の購入履歴を用いた方法は、購入済みコンテンツと異なるカテゴリのコンテンツを検索結果として取得し易い。しかしながら、この方法では、ユーザが興味を持たないコンテンツの比率が増えやすいという欠点がある。   On the other hand, the method using the purchase history of the same content purchaser easily obtains content of a category different from the purchased content as a search result. However, this method has a drawback that the proportion of content that the user is not interested in tends to increase.

一方、上記特許文献1の技術は、自分の嗜好に適合するコンテンツをユーザ自身が検索するためのシステムであり、そのままでは推薦コンテンツの検索に使用できない。また、推薦コンテンツの検索に適用できたとしても、明るい/暗い、重い/軽い等の印象度データをユーザが自分で入力した印象度と比較しているにすぎないので、ユーザ操作の負担が大きいとともに、ユーザの嗜好に適合させる点で限界があり、検索処理の質を十分に高くすることは困難であると考えられる。   On the other hand, the technique disclosed in Patent Document 1 is a system for a user to search for content that matches his / her preference, and cannot be used for searching recommended content as it is. Even if it can be applied to the search for recommended content, the impression data such as bright / dark, heavy / light, etc. are only compared with the impressions input by the user, so the burden on the user operation is heavy. At the same time, there is a limit in adapting to the user's preference, and it is considered difficult to sufficiently improve the quality of the search process.

本発明の目的は、同一カテゴリの推薦コンテンツや異なるカテゴリの推薦コンテンツについて高精度の検索処理を行うことができるコンテンツ選択システムを提供することにある。   An object of the present invention is to provide a content selection system capable of performing highly accurate search processing for recommended content in the same category or recommended content in different categories.

請求項1に記載の発明は、コンテンツ関連情報を用いて該コンテンツの特徴量データを多次元ベクトルデータで生成し、当該特徴量データを格納する特徴量生成機能部と、該特徴量データと同一次元の多次元ベクトルで、検索キーを生成する検索キー生成部と、前記検索キーとのユークリッド距離が所定距離以内である前記特徴量データを、前記特徴量生成機能部に格納された該特徴量データから抽出することにより、前記コンテンツの検索を行うコンテンツ検索機能部とを備えるコンテンツ選択システムであることを特徴とする。   According to the first aspect of the present invention, a feature quantity generation function unit that generates feature quantity data of the content using multi-dimensional vector data using the content related information, and stores the feature quantity data is the same as the feature quantity data A feature key stored in the feature quantity generation function unit, with a search key generation unit that generates a search key as a multidimensional vector of dimensions, and the feature quantity data whose Euclidean distance between the search key is within a predetermined distance It is a content selection system provided with the content search function part which searches the said content by extracting from data, It is characterized by the above-mentioned.

請求項2に記載の発明は、請求項1に記載の構成において、前記検索キー生成部が、ユーザの嗜好に基づいて選択されたコンテンツの前記特徴量データを用いてクラスタリング処理を行うことにより、該ユーザの嗜好を示す学習結果データを前記検索キーとして生成し、当該学習結果データを格納する学習結果生成機能部であることを特徴とする。   According to a second aspect of the present invention, in the configuration according to the first aspect, the search key generation unit performs a clustering process using the feature amount data of the content selected based on a user preference. It is a learning result generation function unit that generates learning result data indicating the user's preference as the search key and stores the learning result data.

請求項3に記載の発明は、請求項1または2に記載の構成において、前記検索キー生成部が、任意の基準コンテンツの前記特徴量データを前記特徴量生成機能部から読み出して前記検索キーとして出力する類似検索機能部であることを特徴とする。   According to a third aspect of the present invention, in the configuration according to the first or second aspect, the search key generation unit reads the feature amount data of an arbitrary reference content from the feature amount generation function unit and uses the feature amount data as the search key. It is a similar search function part to output.

請求項4に記載の発明は、請求項1〜3の何れかに記載の構成において、前記検索キー生成部が、カテゴリが異なる複数コンテンツの相関関係を示す教師データを格納する教師データ格納部と、任意の基準コンテンツの特徴量データを教師データ用検索キーとして、前記教師データに関連するコンテンツのうち前記基準コンテンツとカテゴリが同一のコンテンツを検索し、該検索で得られた教師データに関連するコンテンツのうち前記基準コンテンツとカテゴリが異なるコンテンツの前記特徴量データを前記特徴量生成機能部から読み出して出力する教師データ入力部と、該教師データ入力部が出力した前記特徴量データを用いてクラスタリング処理を行うことにより、前記基準コンテンツとカテゴリが異なるコンテンツのクラスを示す多次元ベクトルデータを前記検索キーとして生成するクラスタリング処理部とを備えるマルチレコメンド機能部であることを特徴とする。   According to a fourth aspect of the present invention, in the configuration according to any one of the first to third aspects, the search key generation unit includes a teacher data storage unit that stores teacher data indicating a correlation between a plurality of contents having different categories. Using the feature data of any reference content as a search key for teacher data, search for content having the same category as the reference content among the content related to the teacher data, and related to the teacher data obtained by the search Clustering using a teacher data input unit that reads out and outputs the feature amount data of content having a category different from that of the reference content from the feature amount generation function unit, and the feature amount data output from the teacher data input unit By performing processing, a multi-order indicating a class of content whose category is different from the reference content It characterized in that it is a multi-recommendation function unit and a clustering processing unit that generates vector data as the search key.

請求項5に記載の発明は、請求項4に記載の構成に加えて、前記クラスタリング処理部が生成した各クラスの空間内の重なり又は重心間距離を少なくとも含む情報に基づいて、当該クラスの順位付けを行うことを特徴とする。   In addition to the configuration described in claim 4, the invention described in claim 5 is based on information including at least an overlap in the space of each class generated by the clustering processing unit or a distance between centroids. It is characterized by attaching.

請求項6に記載の発明は、請求項1〜5の何れかに記載の構成において、前記コンテンツ検索機能部が、予め定めた一または複数の基準軸についての座標が所定範囲内である前記特徴量データのみについて、前記ユークリッド距離の演算を行うことを特徴とする。   The invention according to claim 6 is the configuration according to any one of claims 1 to 5, wherein the content search function unit has coordinates about a predetermined reference axis or a plurality of reference axes within a predetermined range. The Euclidean distance is calculated only for the quantity data.

請求項7に記載の発明は、請求項2に記載の構成において、前記学習結果生成機能部が、所定の基準で選択された複数ユーザをグループ化して、該グループ単位の学習結果データを生成することを特徴とする。   According to a seventh aspect of the present invention, in the configuration according to the second aspect, the learning result generation function unit groups a plurality of users selected according to a predetermined criterion, and generates learning result data for each group. It is characterized by that.

請求項8に記載の発明は、請求項1に記載の構成において、1のユーザと前記学習結果データが類似している他のユーザを検索し、該検索で特定された該他のユーザのコンテンツ取得結果から該1のユーザの嗜好に合致するコンテンツを検索することを特徴とする。   The invention according to claim 8 is the configuration according to claim 1, wherein a search is made for another user whose learning result data is similar to one user, and the content of the other user specified by the search The content that matches the preference of the one user is searched from the obtained result.

請求項1に係るコンテンツ選択システムによれば、コンテンツ毎に多次元ベクトルデータで生成された特徴量データと、該特徴量生成機能部と同一次元の多次元ベクトルで構成された検索キーとのユークリッド距離を用いてコンテンツ検索を行うので、検索の精度を高めること、すなわちユーザの嗜好に合致したコンテンツが高い比率で多数含まれるような検索結果を得ることが可能となる。   According to the content selection system according to claim 1, Euclidean feature amount data generated as multidimensional vector data for each content and a search key composed of a multidimensional vector of the same dimension as the feature amount generation function unit Since the content search is performed using the distance, it is possible to improve the accuracy of the search, that is, to obtain a search result that includes a large number of content that matches the user's preference.

請求項2に係るコンテンツ選択システムによれば、検索キーを、ユーザ毎に多次元ベクトルデータで生成された学習結果データとしたので、ユーザの過去の購買等の履歴に基づいて高精度の検索を行うことが可能となる。   According to the content selection system according to claim 2, since the search key is the learning result data generated by the multidimensional vector data for each user, a highly accurate search can be performed based on the past purchase history of the user. Can be done.

請求項3に係るコンテンツ選択システムによれば、コンテンツ毎に多次元ベクトルデータで生成された特徴量データ間のユークリッド距離を用いてコンテンツ検索を行うので、高精度の検索を行うことができる。   According to the content selection system according to the third aspect, since the content search is performed using the Euclidean distance between the feature amount data generated as multidimensional vector data for each content, a highly accurate search can be performed.

請求項4に係るコンテンツ選択システムによれば、教師データを用いて基準コンテンツと関連性の高い異種カテゴリ・コンテンツを選択し、かかる異種カテゴリ・コンテンツをクラスタリング処理して検索用多次元ベクトルデータを生成し、さらに、該検索用多次元ベクトルデータと特徴量データとのユークリッド距離を用いてコンテンツ検索を行うので、異種カテゴリの検索を高精度で行うことができる。   According to the content selection system according to claim 4, multi-dimensional vector data for search is generated by selecting a heterogeneous category / content highly relevant to the reference content using the teacher data and clustering the heterogeneous category / content. Furthermore, since the content search is performed using the Euclidean distance between the search multidimensional vector data and the feature amount data, it is possible to perform a search for different categories with high accuracy.

請求項5に係るコンテンツ選択システムによれば、前記クラスタリング処理部がクラスの順位付けを行うので、基準コンテンツとの関連性の高さに応じて、異種カテゴリの検索や検索結果の表示を行うことができる。   According to the content selection system according to claim 5, since the clustering processing unit ranks the classes, the search for the different categories and the display of the search results are performed according to the high relevance with the reference content. Can do.

請求項6に係るコンテンツ選択システムによれば、ユークリッド距離演算を行う特徴量データを予め絞り込むことができるので、演算処理時間を短縮することができる。   According to the content selection system of the sixth aspect, it is possible to narrow down the feature amount data for performing the Euclidean distance calculation in advance, so that the calculation processing time can be shortened.

請求項7に係るコンテンツ選択システムによれば、グループ単位の学習結果データを生成することができるので、より高精度の検索処理を行うことができる。   According to the content selection system of the seventh aspect, it is possible to generate learning result data in units of groups, so that a more accurate search process can be performed.

請求項8に係るコンテンツ選択システムによれば、他のユーザの学習結果データを、簡単な処理で利用することができる。   According to the content selection system of the eighth aspect, the learning result data of other users can be used with a simple process.

実施形態に係るコンテンツ選択システムの全体構成を概略的に示すブロック図である。It is a block diagram showing roughly the whole composition of the contents selection system concerning an embodiment. 実施形態に係るコンテンツ選択システムにおける嗜好のクラスタリングを説明するための概念図である。It is a conceptual diagram for demonstrating preference clustering in the content selection system which concerns on embodiment. 実施形態に係るコンテンツ選択システムにおける嗜好の重なりを説明するための概念図である。It is a conceptual diagram for demonstrating the overlap of preference in the content selection system which concerns on embodiment.

本発明に係るコンテンツ選択システムの実施形態について、図面を参照して説明する。   An embodiment of a content selection system according to the present invention will be described with reference to the drawings.

<システムの構成>   <System configuration>

図1は、本実施形態に係るコンテンツ選択システムの構成を概略的に示すブロック図である。図1に示した構成は、例えばコンピュータでソフトウエアを実行することにより実現できるが、ハードウエア的に実現することも可能である。   FIG. 1 is a block diagram schematically showing the configuration of the content selection system according to the present embodiment. The configuration shown in FIG. 1 can be realized by executing software on a computer, for example, but can also be realized by hardware.

図1に示したように、本実施形態のコンテンツ選択システム100は、特徴量生成機能部110、学習結果生成機能部120、類似検索機能部130、マルチレコメンド機能部140及びコンテンツ検索機能部150を備えている。   As shown in FIG. 1, the content selection system 100 of the present embodiment includes a feature amount generation function unit 110, a learning result generation function unit 120, a similarity search function unit 130, a multi-recommendation function unit 140, and a content search function unit 150. I have.

特徴量生成機能部110は、検索対象となる全コンテンツの特徴量データを生成・保存する機能部である。特徴量生成機能部110は、解析コンテンツ入力部111と、特徴量解析部112と、解析用辞書格納部113と、特徴量データベース114とを有している。   The feature amount generation function unit 110 is a function unit that generates and stores feature amount data of all contents to be searched. The feature quantity generation function unit 110 includes an analysis content input unit 111, a feature quantity analysis unit 112, an analysis dictionary storage unit 113, and a feature quantity database 114.

解析コンテンツ入力部111は、外部から、特徴量生成対象となるコンテンツやそのコンテンツの付帯情報を、電子データとして入力する。付帯情報は、例えばコンテンツが楽曲の場合は、アーティスト名、歌詞、曲の説明文等である。また、例えば動画配信で提供される映像コンテンツの場合、付帯情報は、出演者名、プロデューサ名、その映画の評論等である。以下、コンテンツやそのコンテンツの付帯情報を含む電子データを、「コンテンツ関連データ」と記す。なお、本実施形態のコンテンツ選択システムは、楽曲、映像、画像、書物等の複数種類のコンテンツを同一のシステムで扱うことができる。   The analysis content input unit 111 inputs, as an electronic data, content that is a feature amount generation target and supplementary information of the content. For example, when the content is a song, the incidental information includes an artist name, lyrics, a description of the song, and the like. For example, in the case of video content provided by moving image distribution, the incidental information includes a performer name, a producer name, a review of the movie, and the like. Hereinafter, electronic data including content and incidental information of the content is referred to as “content-related data”. Note that the content selection system of the present embodiment can handle a plurality of types of content such as music, video, images, and books in the same system.

特徴量解析部112は、コンテンツ関連データを解析し、かかる解析の結果に基づいて特徴量データを生成する。例えばコンテンツが楽曲の場合、公知の楽曲音解析を使用してテンポ、曲調、周波数分布等を解析し、それぞれの解析結果から特徴量データを生成することができる(例えば特開2002−278547号公報段落[0140]〜[0162]参照)。本実施形態では、特徴量データとして、多次元ベクトルデータ(二次元以上、以下同じ)を使用する。例えば解析結果がテンポ、曲調および周波数分布(それぞれ一種類ずつ)である場合、特徴量データを三次元ベクトルデータとすることができる。なお、コンテンツが画像の場合、公知の画像解析技術を使用することができる。また、コンテンツ或いは付帯情報が文字情報の場合、公知のテキストマイニング技術(文字情報を単語などに分割して出現頻度や相関関係などを解析する技術)を使用することができる。   The feature amount analysis unit 112 analyzes the content related data and generates feature amount data based on the result of the analysis. For example, when the content is a song, it is possible to analyze the tempo, tune, frequency distribution, and the like using known music sound analysis, and generate feature data from each analysis result (for example, JP-A-2002-278547). Paragraphs [0140] to [0162]). In the present embodiment, multidimensional vector data (two or more dimensions, the same applies hereinafter) is used as the feature amount data. For example, when the analysis result is tempo, music tone, and frequency distribution (each one type), the feature data can be three-dimensional vector data. In addition, when a content is an image, a well-known image analysis technique can be used. In addition, when the content or supplementary information is character information, a known text mining technique (a technique for dividing character information into words or the like and analyzing appearance frequency, correlation, or the like) can be used.

解析用辞書格納部113は、コンテンツ関連データから特徴量データを生成する際に参照される解析用辞書を格納する。例えばテキストマイニングでは、出現頻度の計数対象となる単語の辞書や、文の形態素解析に使用する辞書が使用される。また、例えば楽曲解析や画像解析では、解析結果を特徴量データに変換するための辞書が、必要に応じて使用される。   The analysis dictionary storage unit 113 stores an analysis dictionary that is referred to when generating feature data from content-related data. For example, in text mining, a dictionary of words to be counted for appearance frequency and a dictionary used for sentence morphological analysis are used. For example, in music analysis and image analysis, a dictionary for converting analysis results into feature data is used as necessary.

特徴量データベース114は、特徴量解析部112で生成された特徴量データを格納する。また、コンテンツ関連データ自体を、特徴量データベース114に格納してもよい。   The feature quantity database 114 stores the feature quantity data generated by the feature quantity analysis unit 112. Further, the content related data itself may be stored in the feature amount database 114.

学習結果生成機能部120は、ユーザ毎の嗜好を示す学習情報を生成・保存する機能部である。学習結果生成機能部120は、学習対象入力部121と、ニューラルネットワーク学習部122と、学習パラメータ設定部123と、学習結果データベース124とを有している。   The learning result generation function unit 120 is a function unit that generates and stores learning information indicating the preference for each user. The learning result generation function unit 120 includes a learning target input unit 121, a neural network learning unit 122, a learning parameter setting unit 123, and a learning result database 124.

学習対象入力部121は、対象ユーザがコンテンツの購買等を行った際に、そのコンテンツに対応する特徴量データを、特徴量データベース114から読み出す。読み出された特徴量データは、ニューラルネットワーク学習部122に送られる。   The learning target input unit 121 reads feature amount data corresponding to the content from the feature amount database 114 when the target user purchases the content. The read feature data is sent to the neural network learning unit 122.

ニューラルネットワーク学習部122は、学習対象入力部121から特徴量データを入力すると、学習パラメータ設定部123から学習パラメータを入力するとともに、学習結果データベース124からその対象ユーザの学習結果データを入力する。そして、ニューラルネットワーク学習部122は、これら特徴量データ、学習パラメータ及び学習結果データを用いて、新たな学習結果データを作成する。本実施形態では、この学習に学習ベクトル量子化(Learning Vector Quantization:LVQ)法を使用する。この学習処理によって、対象ユーザの、そのコンテンツに対応する、嗜好の場(以下、「クラス」と記す)が再形成される。学習結果データ作成方法の詳細については、後述する。それぞれのクラスは、多次元ベクトルで表される。   When the feature data is input from the learning target input unit 121, the neural network learning unit 122 inputs learning parameters from the learning parameter setting unit 123 and also inputs learning result data of the target user from the learning result database 124. Then, the neural network learning unit 122 creates new learning result data using the feature amount data, the learning parameter, and the learning result data. In the present embodiment, a learning vector quantization (LVQ) method is used for this learning. Through this learning process, a place of preference (hereinafter referred to as “class”) corresponding to the content of the target user is re-formed. Details of the learning result data creation method will be described later. Each class is represented by a multidimensional vector.

学習パラメータ設定部123は、ニューラルネットワーク学習部122に対して、学習結果データを作成するためのパラメータを設定する。パラメータとしては、例えば、ユニット数や、重み付けがある(後述)。   The learning parameter setting unit 123 sets parameters for creating learning result data for the neural network learning unit 122. Examples of parameters include the number of units and weighting (described later).

学習結果データベース124は、ニューラルネットワーク学習部122が生成した学習結果データを対象ユーザ毎に格納する。対象ユーザは、例えばユーザID(Identification)によって識別される。   The learning result database 124 stores the learning result data generated by the neural network learning unit 122 for each target user. The target user is identified by, for example, a user ID (Identification).

類似検索機能部130は、対象ユーザが購入・指定等したコンテンツ(以下、「基準コンテンツ」と記す)と同じ分野のコンテンツの中から推薦コンテンツを検索するための処理を行う。類似検索機能部130は、コンテンツ特徴入力部131を有する。コンテンツ特徴入力部131は、基準コンテンツを入力し、この基準コンテンツに対応する特徴量データを特徴量データベース114から読み出す。   The similarity search function unit 130 performs processing for searching for recommended content from content in the same field as content purchased and designated by the target user (hereinafter referred to as “reference content”). The similarity search function unit 130 includes a content feature input unit 131. The content feature input unit 131 inputs reference content and reads feature amount data corresponding to the reference content from the feature amount database 114.

マルチレコメンド機能部140は、基準コンテンツとは異なるカテゴリのコンテンツの中から推薦コンテンツを検索するための処理を行う。なお、基準コンテンツとしては、類似検索機能部130の基準コンテンツをそのまま使用することとしてもよいし、異なる基準コンテンツ(すなわち、類似検索とは別個のユーザ操作等で特定された基準コンテンツ)を使用することとしてもよい。マルチレコメンド機能部140は、教師データ格納部141、教師データ入力部142、クラスタリング処理部143及びクラス判定部144を有する。   The multi-recommendation function unit 140 performs processing for searching for recommended content from content in a category different from the reference content. As the reference content, the reference content of the similar search function unit 130 may be used as it is, or a different reference content (that is, a reference content specified by a user operation or the like separate from the similar search) is used. It is good as well. The multi-recommendation function unit 140 includes a teacher data storage unit 141, a teacher data input unit 142, a clustering processing unit 143, and a class determination unit 144.

教師データ格納部141は、教師データを格納する。教師データとは、カテゴリが異なる複数コンテンツの相関関係を示すデータである。各教師データは、対象となる二つのコンテンツ間の相関度を含む。また、各教師データは、対象ユーザの評価に応じて修正することができる(後述)。   The teacher data storage unit 141 stores teacher data. The teacher data is data indicating a correlation between a plurality of contents having different categories. Each teacher data includes the degree of correlation between two target contents. Each teacher data can be corrected according to the evaluation of the target user (described later).

教師データ入力部142は、基準コンテンツを検索キーとして、教師データ格納部141に格納された教師データを検索する。そして、この検索の結果に基づき、上述の基準コンテンツが属する分野と異なるカテゴリのコンテンツから、その基準コンテンツと関連性の強いコンテンツを抽出する(後述)。   The teacher data input unit 142 searches the teacher data stored in the teacher data storage unit 141 using the reference content as a search key. Based on the result of this search, content having a strong relationship with the reference content is extracted from content in a category different from the field to which the reference content belongs (described later).

クラスタリング処理部143は、教師データ入力部142で抽出された異種カテゴリ・コンテンツのクラスタリング処理(すなわち、嗜好の場を形成する処理)を行う。クラスタリング処理部143の処理でも、上述のニューラルネットワーク学習部122と同様、学習ベクトル量子化法が使用される。このクラスタリング処理によって、それぞれの異種カテゴリ・コンテンツに対応するクラス(すなわち、嗜好の場)が形成される(後述)。   The clustering processing unit 143 performs clustering processing of different categories / contents extracted by the teacher data input unit 142 (that is, processing for forming a place of preference). In the processing of the clustering processing unit 143, the learning vector quantization method is used as in the above-described neural network learning unit 122. By this clustering process, classes (that is, places of preference) corresponding to the respective different category contents are formed (described later).

クラス判定部144は、クラスタリング処理部143が生成したクラスの順位付けを行う。この順位付けは、クラスの空間内の分散や重なり、教師データに格納された相関度等の情報を用いて行われる(後述)。   The class determination unit 144 ranks the classes generated by the clustering processing unit 143. This ranking is performed using information such as the dispersion and overlap in the class space, the degree of correlation stored in the teacher data, and the like (described later).

コンテンツ検索機能部150は、学習結果生成機能部120、類似検索機能部130又はマルチレコメンド機能部140の何れかから入力された多次元ベクトルデータを用いて、推薦コンテンツ(同一カテゴリのコンテンツ又は異なるカテゴリのコンテンツ)を検索する。コンテンツ検索機能部150は、学習結果入力部151、コンテンツ検索部152、検索結果出力部153、結果表示部154及び結果評価部155を有する。   The content search function unit 150 uses the multidimensional vector data input from any one of the learning result generation function unit 120, the similarity search function unit 130, and the multi-recommendation function unit 140, and recommends content (contents of the same category or different categories). Search). The content search function unit 150 includes a learning result input unit 151, a content search unit 152, a search result output unit 153, a result display unit 154, and a result evaluation unit 155.

学習結果入力部151は、学習結果データに基づくコンテンツ検索を行う際に、対象ユーザの学習結果データを、学習結果データベースから読み出す。対象ユーザの識別には、各学習結果データに付されたIDが使用される。   The learning result input unit 151 reads the learning result data of the target user from the learning result database when performing a content search based on the learning result data. For identification of the target user, an ID attached to each learning result data is used.

コンテンツ検索部152は、学習結果データを学習結果入力部151から入力し、基準コンテンツに対応する特徴量データをコンテンツ特徴入力部131から入力し、或いは、順位付けされた各クラスのデータをクラス判定部144から入力する。そして、入力したデータの多次元ベクトル値を検索キーとして、特徴量データベース114の検索を行う。さらに、この検索で得られた特徴量データに対応するコンテンツを特定する。このようにして特定されたコンテンツが、コンテンツ検索部152の検索結果となる(後述)。   The content search unit 152 inputs learning result data from the learning result input unit 151, inputs feature amount data corresponding to the reference content from the content feature input unit 131, or class-determines data of each ranked class Input from the unit 144. Then, the feature quantity database 114 is searched using the multidimensional vector value of the input data as a search key. Furthermore, the content corresponding to the feature amount data obtained by this search is specified. The content specified in this way becomes a search result of the content search unit 152 (described later).

検索結果出力部153は、検索結果として得られた各コンテンツに対して、フィルタリングやソーティングを行う。例えば、これらコンテンツを分野別に分類したり、人気の高い順に並べ替えたり、新着コンテンツのみを抽出したりといった処理が行われる。そして、検索結果出力部153は、処理後の各コンテンツを推薦コンテンツとして表示する表示データを作成する。   The search result output unit 153 performs filtering and sorting on each content obtained as a search result. For example, processing such as classifying these contents by field, rearranging them in descending order of popularity, or extracting only newly arrived contents is performed. Then, the search result output unit 153 creates display data for displaying each processed content as recommended content.

結果表示部154は、検索結果出力部153から入力した表示データを、ディスプレイ等(図示せず)に表示させる。また、結果表示部154は、ディスプレイ等に表示された推薦コンテンツをユーザが評価するための操作がユーザによって行われた場合に、その評価結果を認識して出力する。例えば、表示された推薦コンテンツに対して「興味がある」または「興味がない」等の評価をユーザに行わせることができる。   The result display unit 154 displays the display data input from the search result output unit 153 on a display or the like (not shown). The result display unit 154 recognizes and outputs the evaluation result when the user performs an operation for evaluating the recommended content displayed on the display or the like. For example, the user can be evaluated such as “I am interested” or “I am not interested” with respect to the displayed recommended content.

結果評価部155は、上述したようなユーザの評価に基づいて、教師データを修正するための処理を行う。   The result evaluation unit 155 performs processing for correcting the teacher data based on the user evaluation as described above.

<システムの動作>   <System operation>

次に、図1に示したコンテンツ選択システム100の動作について説明する。
[A]特徴量の生成
Next, the operation of the content selection system 100 shown in FIG. 1 will be described.
[A] Feature generation

最初に、コンテンツ選択システム100が検索対象となる全コンテンツの特徴量を生成・保存するための処理を説明する。この処理は、コンテンツ選択システム100の運用開始時等に、特徴量生成機能部110によって行われる。また、システムの取り扱いコンテンツが増えたとき等にも、適宜実行される。
(1)まず、管理者の操作により、解析コンテンツ入力部111が、特徴量生成対象となるコンテンツのコンテンツ関連データ(すなわちコンテンツや、そのコンテンツの付帯情報)が、外部から、電子データとして入力される。上述のように、コンテンツ自体を予め特徴量データベース114に格納しておき、この特徴量データベース114からそのコンテンツを解析コンテンツ入力部111に入力させることとしてもよい。
(2)次に、上述のようにして、特徴量解析部112が、解析用辞書格納部113に格納された解析用辞書を参照しつつ、そのコンテンツ関連データを解析して、特徴量データを生成する。
(3)そして、生成された特徴量データが、特徴量データベース114に、コンテンツ毎に格納される。
[B]学習結果の生成
First, a process for generating and storing feature amounts of all contents to be searched by the content selection system 100 will be described. This process is performed by the feature quantity generation function unit 110 when the operation of the content selection system 100 is started. It is also executed as appropriate when the content handled by the system increases.
(1) First, by the administrator's operation, the analysis content input unit 111 receives content-related data (that is, content and supplementary information of the content) of the content that is the target for generating the feature amount from the outside as electronic data. The As described above, the content itself may be stored in advance in the feature amount database 114, and the content may be input to the analysis content input unit 111 from the feature amount database 114.
(2) Next, as described above, the feature amount analysis unit 112 analyzes the content-related data while referring to the analysis dictionary stored in the analysis dictionary storage unit 113 to obtain the feature amount data. Generate.
(3) The generated feature amount data is stored in the feature amount database 114 for each content.
[B] Generation of learning results

続いて、コンテンツ選択システム100がユーザ毎の嗜好を示す学習情報を生成・保存するための処理を説明する。この処理は、例えば対象ユーザが新たなコンテンツを購入等した場合に、学習結果生成機能部120によって行われる。
(1)まず、対象ユーザがコンテンツの購買等を行った際に、そのコンテンツに対応する全ての特徴量データを、特徴量データベース114から読み出す。
(2)次に、ニューラルネットワーク学習部122が、学習対象入力部121から特徴量データを入力する。また、ニューラルネットワーク学習部112は、学習結果データベース124から、学習結果データを入力する。そして、ニューラルネットワーク学習部122は、これらの多次元ベクトルデータを用いて、クラスタリングを行う。本実施形態は、クラスタリングの手法として、競合型ニューラルネットワークの手法である、学習ベクトル量子化(Learning Vector Quantization:LVQ)法を使用する。LVQでは、入力データ(ここでは特徴量データ)と同じ次元を有する参照ベクトルデータ(ユニット毎に設定される)が、予め所定数用意される。そして、これらユニットの中で最も距離が近いもの(以下、勝者ユニット)を、入力データ毎に選択する。選択されたユニットには、対応する入力データに応じて、修正が加えられる。LVQでは、自己組織化マップ(Self-Organizing Map:SOM) を応用したカテゴリ分類が行われ、入力データおよびユニットに加えてカテゴリ項目(ここではコンテンツが属するカテゴリ)を追加した教師有り学習アルゴリズムが使用される。これにより、勝者ユニットと入力データとが同一カテゴリに属する場合には、その入力データに距離が近づくように、この勝者ユニットが修正される。一方、勝者ユニットと入力データとが異なるカテゴリに属する場合には、その入力データに距離が遠ざかるように、この勝者ユニットが修正される。但し、通常のSOMと異なり、場所的近傍という概念は無いため、勝者ユニットのみに修正が加えられる。このような学習アルゴリズムによって得られるユニットとカテゴリ群(すなわち、コードブック)とは、最終的に、各カテゴリにおける代表データと見なすことができる。LVQやSOMは、例えば特開2004−310753号公報に記載されている。
Next, a process for the content selection system 100 to generate and save learning information indicating the preference for each user will be described. This process is performed by the learning result generation function unit 120, for example, when the target user purchases new content.
(1) First, when the target user purchases content or the like, all feature data corresponding to the content is read from the feature database 114.
(2) Next, the neural network learning unit 122 inputs feature amount data from the learning target input unit 121. The neural network learning unit 112 also inputs learning result data from the learning result database 124. Then, the neural network learning unit 122 performs clustering using these multidimensional vector data. In this embodiment, a learning vector quantization (LVQ) method, which is a competitive neural network method, is used as a clustering method. In LVQ, a predetermined number of reference vector data (set for each unit) having the same dimension as input data (here, feature amount data) is prepared in advance. Then, the closest unit (hereinafter referred to as the winner unit) is selected for each input data. The selected unit is modified according to the corresponding input data. LVQ uses a self-organizing map (SOM) for categorization and uses a supervised learning algorithm that adds category items (category to which content belongs) in addition to input data and units. Is done. Thereby, when the winner unit and the input data belong to the same category, the winner unit is corrected so that the distance approaches the input data. On the other hand, when the winner unit and the input data belong to different categories, the winner unit is corrected so that the distance from the input data is increased. However, unlike a normal SOM, there is no concept of a location neighborhood, so only the winner unit is modified. A unit and a category group (that is, a code book) obtained by such a learning algorithm can be finally regarded as representative data in each category. LVQ and SOM are described in, for example, Japanese Patent Application Laid-Open No. 2004-310753.

上述のように、本実施形態では、学習結果を生成する際に、学習パラメータ設定部123に格納された学習パラメータを使用する。これにより、対象ユーザ毎にユニット数の最大値を設定したり、特徴量データに重み付けを行ったりすることができる。ユニット数とは、対象ユーザ毎の、クラスの最大数である。通常は、一人のユーザにつき、複数のクラスが形成される。したがって、コンピュータの負荷軽減等の目的から、クラス数に上限を定めておくこともできる。一方、重み付けとは、学習結果データを作成する際の、各特徴量データの重み付けである。例えば、過去一年以内に購入されたコンテンツとそれ以前に購入されたコンテンツとで重み付けを変えることにより、過去一年以内における対象ユーザの嗜好を重視した学習結果データを作成することができる。また、例えば、対象ユーザが「興味のあるコンテンツ」として登録したコンテンツと実際に購入したコンテンツとで重み付けに差を設けることも可能である。   As described above, in the present embodiment, the learning parameter stored in the learning parameter setting unit 123 is used when generating the learning result. Thereby, the maximum value of the number of units can be set for each target user, and the feature amount data can be weighted. The number of units is the maximum number of classes for each target user. Usually, a plurality of classes are formed for one user. Therefore, an upper limit can be set for the number of classes for the purpose of reducing the load on the computer. On the other hand, weighting is weighting of each feature amount data when creating learning result data. For example, by changing the weighting between content purchased within the past year and content purchased before that, it is possible to create learning result data emphasizing the preference of the target user within the past year. Further, for example, it is possible to provide a difference in weighting between content registered as “content of interest” by the target user and content actually purchased.

図2に、本実施形態で生成された学習結果を概念的に示す。図2では、簡単化のために二次元ベクトルの場合を示している。図2に示したように、本実施形態のクラスタリングにより、対象ユーザが既に購入等を行ったコンテンツの特徴量データ201−1,201−2,・・・に基づいて、クラス202−1〜202−4が得られる。各クラス202−1〜202−4は、対象ユーザの「嗜好の場」を示している。また、各クラスの重心203−1〜203−4は、参照ベクトルデータに対応する。
(3)その後、学習結果データが、学習結果データベース124に格納される。
[C]コンテンツ検索
FIG. 2 conceptually shows the learning result generated in this embodiment. FIG. 2 shows a case of a two-dimensional vector for simplification. As shown in FIG. 2, based on the feature amount data 201-1, 201-2,... Of content that has already been purchased by the target user by the clustering of the present embodiment, classes 202-1 to 202 are provided. -4 is obtained. Each class 202-1 to 202-4 represents the “preference place” of the target user. The centroids 203-1 to 203-4 of each class correspond to reference vector data.
(3) Thereafter, the learning result data is stored in the learning result database 124.
[C] Content search

次に、コンテンツ選択システム100が学習結果データを用いて推薦コンテンツを検索する場合の処理を説明する。本実施形態のコンテンツ検索では、この学習結果データと同一カテゴリ内の推薦コンテンツが検索される。
(1)まず、学習結果入力部151が、対象ユーザの学習結果データを、学習結果データベースから読み出す。
(2)コンテンツ検索部152は、学習結果データを学習結果入力部151から入力する。そして、コンテンツ検索部152は、学習結果データの参照ベクトルデータを検索キーとして、特徴量データベース114の検索を行う。この検索では、まず、基準軸を定義して、この基準軸に対する座標の範囲指定を行い、かかる範囲内の特徴量データを抽出する。次いで、抽出された特徴量データのそれぞれについて、参照ベクトルデータとのユークリッド距離を演算する。そして、ユークリッド距離の演算結果が所定値以内の特徴量データを抽出する。抽出された特徴量データが、検索結果となる。この「所定値」は、管理者が任意に定め得る。
Next, processing when the content selection system 100 searches for recommended content using learning result data will be described. In the content search of the present embodiment, recommended content within the same category as the learning result data is searched.
(1) First, the learning result input unit 151 reads the learning result data of the target user from the learning result database.
(2) The content search unit 152 inputs learning result data from the learning result input unit 151. Then, the content search unit 152 searches the feature amount database 114 using the reference vector data of the learning result data as a search key. In this search, first, a reference axis is defined, a range of coordinates with respect to the reference axis is designated, and feature amount data within the range is extracted. Next, for each of the extracted feature data, the Euclidean distance from the reference vector data is calculated. Then, feature quantity data whose Euclidean distance calculation result is within a predetermined value is extracted. The extracted feature data becomes a search result. This “predetermined value” can be arbitrarily determined by the administrator.

ここで、一般的な多次元ベクトルデータ検索では、すべての特徴量データについてユークリッド距離を演算する。これに対して、本実施形態では、基準軸を用いた範囲指定によってユークリッド距離を演算する特徴量データを予め絞り込むので、全ての特徴量データのユークリッド距離を演算する場合と比較して、処理時間を飛躍的に減少させることができる。   Here, in general multidimensional vector data search, Euclidean distance is calculated for all feature data. On the other hand, in the present embodiment, since the feature amount data for calculating the Euclidean distance is narrowed down in advance by specifying the range using the reference axis, the processing time is compared with the case of calculating the Euclidean distance of all feature amount data. Can be drastically reduced.

なお、基準軸を用いた範囲指定の後で、他の1又は複数の基準軸を用いた範囲指定を更に行い、すべての指定範囲を満たす特徴量データのみに絞り込んだ後でユークリッド距離を演算することとしてもよい。
(3)次に、検索結果出力部153が、検索結果を表示するための処理(上述)を行って、表示データを作成する。
(4)そして、結果表示部154が、この表示データを、ディスプレイ等(図示せず)に表示させる。
[D]類似検索
After the range is specified using the reference axis, the range is further specified using one or more other reference axes, and the Euclidean distance is calculated after narrowing down to only feature data that satisfies all the specified ranges. It is good as well.
(3) Next, the search result output unit 153 performs processing for displaying the search result (described above) to create display data.
(4) Then, the result display unit 154 displays this display data on a display or the like (not shown).
[D] Similarity search

続いて、コンテンツ選択システム100が任意のコンテンツ(以下、「基準コンテンツ」と記す)に基づいて推薦コンテンツを検索する場合の処理を説明する。基準コンテンツは、対象ユーザが購買等したコンテンツであってもよいし、対象ユーザが端末等を操作して直接指定したコンテンツであってもよいし、他の方法で特定されたコンテンツであってもよい。基準コンテンツは、コンテンツ選択システム100の取り扱いコンテンツの中から選択され、したがって、基準コンテンツの特徴量データは予め特徴量データベース114に格納されている。
(1)まず、基準コンテンツが、コンテンツ特徴入力部131に入力される。コンテンツ特徴入力部131は、入力された基準コンテンツの特徴量データを、特徴量データベース114から読み出す。
(2)次に、コンテンツ検索部152が、基準コンテンツの特徴量データを、コンテンツ特徴入力部131から入力する。そして、コンテンツ検索部152は、これらの特徴量データを検索キーとして、特徴量データベース114の検索を行う。検索処理の内容は、上述の「コンテンツ検索」の場合と同様であり、基準軸を用いて絞り込まれた特徴量データと、基準コンテンツの特徴量データとの間で、ユークリッド距離が演算される。
(3)次に、検索結果出力部153が、検索結果を表示するための処理を行って、表示データを作成する。
(4)そして、結果表示部154が、この表示データを、ディスプレイ等(図示せず)に表示させる。
[E]マルチレコメンド
Next, processing when the content selection system 100 searches for recommended content based on arbitrary content (hereinafter referred to as “reference content”) will be described. The reference content may be content purchased by the target user, may be content directly designated by the target user by operating a terminal or the like, or may be content specified by another method Good. The reference content is selected from the content handled by the content selection system 100, and thus the feature amount data of the reference content is stored in advance in the feature amount database 114.
(1) First, the reference content is input to the content feature input unit 131. The content feature input unit 131 reads feature amount data of the input reference content from the feature amount database 114.
(2) Next, the content search unit 152 inputs the feature amount data of the reference content from the content feature input unit 131. And the content search part 152 searches the feature-value database 114 by using these feature-value data as a search key. The contents of the search process are the same as in the case of the above-mentioned “content search”, and the Euclidean distance is calculated between the feature amount data narrowed down using the reference axis and the feature amount data of the reference content.
(3) Next, the search result output unit 153 performs processing for displaying the search result, and creates display data.
(4) Then, the result display unit 154 displays the display data on a display or the like (not shown).
[E] Multi-recommend

基準コンテンツとは異なるカテゴリの推薦コンテンツをコンテンツ選択システム100が検索する場合の処理を説明する。
(1)まず、教師データ入力部142が、基準コンテンツを入力する。さらに、教師データ入力部142は、この基準コンテンツを用いて教師データの検索を行う。教師データは、教師データ格納部141に格納されている。上述のように、教師データとは、カテゴリが異なる複数コンテンツの相関関係を示すデータである。ここでは、教師データのうち基準コンテンツと同じカテゴリに属する方のデータについて、検索を行う。この検索には、上述の「コンテンツ検索」の場合と同様の方法を使用できる。すなわち、この検索では、ユークリッド距離の演算結果が所定値以内の特徴量データが抽出される。
(2)次に、教師データ入力部142が、検索で得られた教師データから、異種カテゴリ側コンテンツの特徴量データを読み出す。
(3)続いて、クラスタリング処理部143は、教師データ入力部142で抽出された異種カテゴリ・コンテンツのクラスタリング処理を行う。このクラスタリングの処理は、上述のニューラルネットワーク学習部122の処理と同様である。このクラスタリング処理によって、異なるカテゴリのコンテンツについてのクラス(すなわち、嗜好の場)が形成される。
(4)クラス判定部144が、クラスタリング処理部143が生成したクラスを、基準コンテンツとの関連性の強さに応じて、順位付けする。上述のように、この順位付けは、教師データの相関度情報や、クラスの空間内の分散・重なり等の情報を用いて行われる。図3は、クラス間の関連性の強さを示す概念図である。図3では、簡単化のために、三次元ベクトルの場合を示している。図3において、例えばクラス301−1とクラス301−2とは重心間の距離が短く(すなわち、分散度が低く)且つ重なり合う部分の体積が大きいので、関連性が強いといえる。一方、例えば、クラス301−1とクラス301−3〜301−5は、重心間の距離が長く(すなわち、分散度が高く)且つ重なり合う部分が無いので、関連性が弱いといえる。
(5)コンテンツ検索部152が、クラス判定部144から、各クラスに対応する参照ベクトルデータを入力する。そして、コンテンツ検索部152は、これらの参照ベクトルデータを検索キーとして、特徴量データベース114の検索を行う。検索処理の内容は、上述の「コンテンツ検索」の場合と同様であり、基準軸を用いて絞り込まれた特徴量データと、各クラスの参照ベクトルデータとの間で、ユークリッド距離が演算される。かかる検索は、クラスの順位付けごとに行われる。
(6)検索結果出力部153が、検索結果を表示するための処理を行って、表示データを作成する。表示データは、例えば、上述の順位付けにしたがって並べられる。
(7)結果表示部154が、この表示データを、ディスプレイ等(図示せず)に表示させる。
(8)その後、ユーザによって、推薦コンテンツを評価するための操作が行われ、表示された推薦コンテンツに対して「興味がある」または「興味がない」等の評価が実行される。結果評価部155は、このような評価に基づいて、教師データの相関度情報等を修正するための処理を行う。
Processing when the content selection system 100 searches for recommended content in a category different from the reference content will be described.
(1) First, the teacher data input unit 142 inputs reference content. Further, the teacher data input unit 142 searches for teacher data using the reference content. The teacher data is stored in the teacher data storage unit 141. As described above, teacher data is data indicating a correlation between a plurality of contents having different categories. Here, a search is performed for data belonging to the same category as the reference content among the teacher data. For this search, the same method as in the case of the “content search” described above can be used. That is, in this search, feature amount data whose Euclidean distance calculation result is within a predetermined value is extracted.
(2) Next, the teacher data input unit 142 reads the feature amount data of the different category side content from the teacher data obtained by the search.
(3) Subsequently, the clustering processing unit 143 performs clustering processing of the heterogeneous category / content extracted by the teacher data input unit 142. This clustering process is the same as the process of the neural network learning unit 122 described above. By this clustering process, classes (that is, places of preference) for different categories of content are formed.
(4) The class determination unit 144 ranks the classes generated by the clustering processing unit 143 according to the strength of relevance with the reference content. As described above, this ranking is performed using information on the degree of correlation of teacher data and information such as dispersion / overlap in the class space. FIG. 3 is a conceptual diagram showing the strength of association between classes. FIG. 3 shows a case of a three-dimensional vector for simplification. In FIG. 3, for example, the class 301-1 and the class 301-2 are strongly related since the distance between the centers of gravity is short (that is, the degree of dispersion is low) and the volume of the overlapping portion is large. On the other hand, for example, class 301-1 and classes 301-3 to 301-5 have a long distance between the centers of gravity (that is, a high degree of dispersion) and do not have overlapping portions, and thus can be said to be weakly related.
(5) The content search unit 152 inputs reference vector data corresponding to each class from the class determination unit 144. Then, the content search unit 152 searches the feature amount database 114 using these reference vector data as search keys. The content of the search process is the same as in the case of “content search” described above, and the Euclidean distance is calculated between the feature amount data narrowed down using the reference axis and the reference vector data of each class. Such a search is performed for each class ranking.
(6) The search result output unit 153 performs processing for displaying the search result, and creates display data. The display data is arranged, for example, according to the above ranking.
(7) The result display unit 154 displays the display data on a display or the like (not shown).
(8) Thereafter, an operation for evaluating the recommended content is performed by the user, and evaluation such as “I am interested” or “I am not interested” is performed on the displayed recommended content. The result evaluation unit 155 performs a process for correcting the correlation degree information and the like of the teacher data based on such evaluation.

以上説明したように、本実施形態のコンテンツ選択システム100は、特徴量データおよび検索キーの両方を多次元ベクトルデータで構成した。これにより、検索キーと完全に一致する被検索データ(ここでは特徴量データ)を検索結果とするのではなく、検索キーとのユークリッド距離が所定距離以内の特徴量データを検索結果とすることができる。したがって、検索キーと所望の類似範囲内にある特徴量データを検索できるので、ユーザの嗜好に非常に近いコンテンツのみを推薦コンテンツとすることが可能である。さらには、「所定距離」は、管理者が、用途に応じて任意に設定できる。したがって、本実施形態によれば、同一カテゴリの推薦コンテンツや異なるカテゴリの推薦コンテンツについて、高精度の検索処理を行うことができる。   As described above, in the content selection system 100 according to the present embodiment, both the feature amount data and the search key are configured by multidimensional vector data. As a result, the search result (feature data in this case) that completely matches the search key is not used as the search result, but the search is performed on feature data whose Euclidean distance from the search key is within a predetermined distance. it can. Therefore, since feature quantity data within the desired similarity range with the search key can be searched, only content very close to the user's preference can be set as recommended content. Furthermore, the “predetermined distance” can be arbitrarily set by the administrator according to the application. Therefore, according to the present embodiment, it is possible to perform highly accurate search processing for recommended content in the same category or recommended content in different categories.

また、学習結果生成機能部120の学習結果データを用いた検索では、学習ベクトル量子化法を用いたので、過去に購買等したコンテンツのうち、一部のコンテンツのみが異なる傾向である場合には、そのコンテンツを実質的に除外した学習結果データが生成される。したがって、他人へのプレゼント等、例外的なコンテンツ購入履歴等を除外して推薦コンテンツを検索することが可能である。この点でも、本実施形態では、高精度の検索処理が可能である。   In the search using the learning result data of the learning result generation function unit 120, since the learning vector quantization method is used, when only some contents tend to be different among the contents purchased in the past. Learning result data excluding the content is generated. Therefore, it is possible to search for recommended content by excluding exceptional content purchase history such as presents for others. In this respect as well, in the present embodiment, highly accurate search processing is possible.

加えて、マルチレコメンド機能部140を用いた検索では、教師データを利用しているので、異なるカテゴリのコンテンツを検索するための検索キーを、学習ベクトル量子化法を用いたクラスタリング処理で生成することができる。したがって、本実施形態では、異なるカテゴリのコンテンツについても、高精度の検索処理が可能である。   In addition, since the search using the multi-recommendation function unit 140 uses teacher data, a search key for searching for contents of different categories should be generated by clustering processing using a learning vector quantization method. Can do. Therefore, in the present embodiment, high-precision search processing is possible even for content in different categories.

本実施形態では、学習結果生成機能部120、類似検索機能部130およびマルチレコメンド機能部140を用いて多次元ベクトルの検索キーを生成したが、他の方法で検索キーを生成してもよい。   In the present embodiment, the search key for the multidimensional vector is generated using the learning result generation function unit 120, the similarity search function unit 130, and the multi-recommendation function unit 140, but the search key may be generated by other methods.

本実施形態では、対象ユーザ毎に学習結果データを生成・保存した。しかし、これに加えて(または、これに代えて)、特定の複数ユーザをグループ化して、グループ単位で学習結果データを生成することも可能である。例えば、学習結果データが近似しているユーザ(すなわち、クラスの空間内の重なりが大きいユーザ、図3参照)や、世代や性別等の共通点を持つユーザ等について、グループ単位の学習結果データを生成することにより、より高精度の検索処理を行える場合が考えられる。さらには、友人や知人間でグループを作って共通の学習結果データを生成することも可能である。このようなグループ化は、複数ユーザの学習結果データを結合させるための再学習処理を行うことで、生成することができる。学習ベクトル量子化法を用いて学習結果データを生成することにより、このようなグループ化を簡単に行うことができる。   In the present embodiment, learning result data is generated and stored for each target user. However, in addition to this (or instead of this), it is also possible to group a plurality of specific users and generate learning result data in units of groups. For example, group-based learning result data for users whose learning result data is approximate (that is, users who have a large overlap in the class space, see FIG. 3), users who have common points such as generation and gender, etc. It is conceivable that a higher-precision search process can be performed by generating. Furthermore, it is possible to create a group of friends and acquaintances and generate common learning result data. Such grouping can be generated by performing a relearning process for combining learning result data of a plurality of users. Such grouping can be easily performed by generating learning result data using the learning vector quantization method.

さらには、検索対象ユーザと学習結果データが類似している他のユーザを検索し、この検索で特定された他のユーザのコンテンツ取得結果(購入履歴等)をさらに取得し、このコンテンツ取得結果から検索対象ユーザの嗜好に合致するコンテンツを検索することも可能である。   Furthermore, another user whose learning result data is similar to the search target user is searched, and the content acquisition result (purchase history, etc.) of the other user specified by this search is further acquired. It is also possible to search for content that matches the preferences of the search target user.

100 コンテンツ選択システム
110 特徴量生成機能部
111 解析コンテンツ入力部
112 特徴量解析部
113 解析用辞書格納部
114 特徴量データベース
120 学習結果生成機能部
121 学習対象入力部
122 ニューラルネットワーク学習部
123 学習パラメータ設定部
124 学習結果データベース
130 類似検索機能部
131 コンテンツ特徴入力部
140 マルチレコメンド機能部
141 教師データ格納部
142 教師データ入力部
143 クラスタリング処理部
144 クラス判定部
150 コンテンツ検索機能部
151 学習結果入力部
152 コンテンツ検索部
153 検索結果出力部
154 結果表示部
155 結果評価部
DESCRIPTION OF SYMBOLS 100 Content selection system 110 Feature quantity generation function part 111 Analysis content input part 112 Feature quantity analysis part 113 Analysis dictionary storage part 114 Feature quantity database 120 Learning result generation function part 121 Learning object input part 122 Neural network learning part 123 Learning parameter setting Unit 124 learning result database 130 similarity search function unit 131 content feature input unit 140 multi-recommendation function unit 141 teacher data storage unit 142 teacher data input unit 143 clustering processing unit 144 class determination unit 150 content search function unit 151 learning result input unit 152 content Search unit 153 Search result output unit 154 Result display unit 155 Result evaluation unit

Claims (8)

コンテンツ関連情報を用いて該コンテンツの特徴量データを多次元ベクトルデータで生成し、当該特徴量データを格納する特徴量生成機能部と、
該特徴量データと同一次元の多次元ベクトルで、検索キーを生成する検索キー生成部と、
前記検索キーとのユークリッド距離が所定距離以内である前記特徴量データを、前記特徴量生成機能部に格納された該特徴量データから抽出することにより、前記コンテンツの検索を行うコンテンツ検索機能部と、
を備えることを特徴とするコンテンツ選択システム。
A feature amount generation function unit that generates feature amount data of the content using multi-dimensional vector data using the content related information, and stores the feature amount data;
A search key generation unit that generates a search key using a multidimensional vector of the same dimension as the feature amount data;
A content search function unit for searching for the content by extracting the feature amount data having a Euclidean distance from the search key within a predetermined distance from the feature amount data stored in the feature amount generation function unit; ,
A content selection system comprising:
前記検索キー生成部が、
ユーザの嗜好に基づいて選択されたコンテンツの前記特徴量データを用いてクラスタリング処理を行うことにより、該ユーザの嗜好を示す学習結果データを前記検索キーとして生成し、当該学習結果データを格納する学習結果生成機能部である、
ことを特徴とする請求項1に記載のコンテンツ選択システム。
The search key generation unit
Learning that generates learning result data indicating the user's preference as the search key and stores the learning result data by performing clustering processing using the feature amount data of the content selected based on the user's preference Result generation function unit,
The content selection system according to claim 1.
前記検索キー生成部が、
任意の基準コンテンツの前記特徴量データを前記特徴量生成機能部から読み出して前記検索キーとして出力する類似検索機能部である、
ことを特徴とする請求項1または2に記載のコンテンツ選択システム。
The search key generation unit
A similar search function unit that reads out the feature value data of an arbitrary reference content from the feature value generation function unit and outputs it as the search key;
The content selection system according to claim 1 or 2, wherein
前記検索キー生成部が、
カテゴリが異なる複数コンテンツの相関関係を示す教師データを格納する教師データ格納部と、
任意の基準コンテンツの特徴量データを教師データ用検索キーとして、前記教師データに関連するコンテンツのうち前記基準コンテンツとカテゴリが同一のコンテンツを検索し、該検索で得られた教師データに関連するコンテンツのうち前記基準コンテンツとカテゴリが異なるコンテンツの前記特徴量データを前記特徴量生成機能部から読み出して出力する教師データ入力部と、
該教師データ入力部が出力した前記特徴量データを用いてクラスタリング処理を行うことにより、前記基準コンテンツとカテゴリが異なるコンテンツのクラスを示す多次元ベクトルデータを前記検索キーとして生成するクラスタリング処理部と、
を備えるマルチレコメンド機能部である、
ことを特徴とする請求項1〜3の何れかに記載のコンテンツ選択システム。
The search key generation unit
A teacher data storage unit for storing teacher data indicating a correlation between a plurality of contents of different categories;
Content related to the teacher data obtained by searching the content having the same category as the reference content among the content related to the teacher data, using the feature amount data of any reference content as a search key for teacher data A teacher data input unit that reads out and outputs the feature amount data of content whose category is different from the reference content from the feature amount generation function unit;
A clustering processing unit that generates, as the search key, multidimensional vector data indicating a class of content having a category different from the reference content by performing clustering processing using the feature amount data output from the teacher data input unit;
A multi-recommend function unit comprising:
The content selection system according to any one of claims 1 to 3.
前記クラスタリング処理部が生成した各クラスの空間内の重なり又は重心間距離を少なくとも含む情報に基づいて、当該クラスの順位付けを行うことを特徴とする請求項4に記載のコンテンツ選択システム。   5. The content selection system according to claim 4, wherein ranking of the classes is performed based on information including at least an overlap in a space of each class generated by the clustering processing unit or a distance between centroids. 6. 前記コンテンツ検索機能部が、予め定めた一または複数の基準軸についての座標が所定範囲内である前記特徴量データのみについて、前記ユークリッド距離の演算を行うことを特徴とする請求項1〜5の何れかに記載のコンテンツ選択システム。   The content search function unit performs the calculation of the Euclidean distance only for the feature amount data in which coordinates about one or more predetermined reference axes are within a predetermined range. The content selection system described in any one. 前記学習結果生成機能部が、所定の基準で選択された複数ユーザをグループ化して、該グループ単位の学習結果データを生成することを特徴とする請求項2に記載のコンテンツ選択システム。   The content selection system according to claim 2, wherein the learning result generation function unit groups a plurality of users selected based on a predetermined criterion to generate learning result data in units of groups. 1のユーザと前記学習結果データが類似している他のユーザを検索し、該検索で特定された該他のユーザのコンテンツ取得結果から該1のユーザの嗜好に合致するコンテンツを検索することを特徴とする請求項1に記載のコンテンツ選択システム。   Searching for another user whose learning result data is similar to that of one user, and searching for content that matches the user's preference from the content acquisition result of the other user specified in the search. The content selection system according to claim 1, wherein:
JP2009211658A 2009-09-14 2009-09-14 Content selection system Pending JP2011060182A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009211658A JP2011060182A (en) 2009-09-14 2009-09-14 Content selection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009211658A JP2011060182A (en) 2009-09-14 2009-09-14 Content selection system

Publications (1)

Publication Number Publication Date
JP2011060182A true JP2011060182A (en) 2011-03-24

Family

ID=43947709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009211658A Pending JP2011060182A (en) 2009-09-14 2009-09-14 Content selection system

Country Status (1)

Country Link
JP (1) JP2011060182A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069279A (en) * 2011-09-22 2013-04-18 Fujitsu Ltd Information management and networking
KR101515852B1 (en) 2012-02-28 2015-05-06 전자부품연구원 Apparatus and Method Improving Performance of Matching System Using Metric Function
JP2015225352A (en) * 2014-05-26 2015-12-14 ソニー株式会社 Information processing device, information processing method, and program
JP2017161963A (en) * 2016-03-07 2017-09-14 富士ゼロックス株式会社 Video searching device and program
JP2018181326A (en) * 2017-04-06 2018-11-15 ネイバー コーポレーションNAVER Corporation Personalized products recommendation using deep learning
JP2019113943A (en) * 2017-12-21 2019-07-11 ヤフー株式会社 Information providing apparatus, information providing method, and program
JP2019152931A (en) * 2018-02-28 2019-09-12 ヤフー株式会社 Information processing device, information processing method, and information processing program
JPWO2019159288A1 (en) * 2018-02-15 2020-04-02 楽天株式会社 Information processing system, information processing method, and program
WO2021024530A1 (en) * 2019-08-08 2021-02-11 株式会社ローハウス Consultation matching system, consultation matching program, and consultation matching method
JP2021093223A (en) * 2021-03-18 2021-06-17 ヤフー株式会社 Information processing device, information processing method, and information processing program
WO2024053727A1 (en) * 2022-09-09 2024-03-14 味の素株式会社 Preference inference method, preference inference device, preference inference program, display method, model generation method, and preference information prediction method

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069279A (en) * 2011-09-22 2013-04-18 Fujitsu Ltd Information management and networking
KR101515852B1 (en) 2012-02-28 2015-05-06 전자부품연구원 Apparatus and Method Improving Performance of Matching System Using Metric Function
JP2015225352A (en) * 2014-05-26 2015-12-14 ソニー株式会社 Information processing device, information processing method, and program
JP2017161963A (en) * 2016-03-07 2017-09-14 富士ゼロックス株式会社 Video searching device and program
JP2018181326A (en) * 2017-04-06 2018-11-15 ネイバー コーポレーションNAVER Corporation Personalized products recommendation using deep learning
JP2021103542A (en) * 2017-12-21 2021-07-15 ヤフー株式会社 Information providing device, information providing method, and program
JP2019113943A (en) * 2017-12-21 2019-07-11 ヤフー株式会社 Information providing apparatus, information providing method, and program
JP7160980B2 (en) 2017-12-21 2022-10-25 ヤフー株式会社 INFORMATION PROVIDING DEVICE, INFORMATION PROVIDING METHOD AND PROGRAM
JPWO2019159288A1 (en) * 2018-02-15 2020-04-02 楽天株式会社 Information processing system, information processing method, and program
JP2019152931A (en) * 2018-02-28 2019-09-12 ヤフー株式会社 Information processing device, information processing method, and information processing program
WO2021024530A1 (en) * 2019-08-08 2021-02-11 株式会社ローハウス Consultation matching system, consultation matching program, and consultation matching method
JP6847487B1 (en) * 2019-08-08 2021-03-24 株式会社ローハウス Consultation matching system, consultation matching program and consultation matching method
JP2021093223A (en) * 2021-03-18 2021-06-17 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP7119154B2 (en) 2021-03-18 2022-08-16 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2022153632A (en) * 2021-03-18 2022-10-12 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP7414906B2 (en) 2021-03-18 2024-01-16 Lineヤフー株式会社 Information processing device, information processing method, and information processing program
WO2024053727A1 (en) * 2022-09-09 2024-03-14 味の素株式会社 Preference inference method, preference inference device, preference inference program, display method, model generation method, and preference information prediction method

Similar Documents

Publication Publication Date Title
JP2011060182A (en) Content selection system
Kaminskas et al. Location-aware music recommendation using auto-tagging and hybrid matching
JP2011175362A (en) Information processing apparatus, importance level calculation method, and program
JP2010541092A5 (en)
US20080071764A1 (en) Method and an apparatus to perform feature similarity mapping
KR101355945B1 (en) On line context aware advertising apparatus and method
US20160283564A1 (en) Predictive visual search enginge
WO2007140084A1 (en) Aggregation of affinity lists
MX2012011923A (en) Ascribing actionable attributes to data that describes a personal identity.
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN110490667B (en) Data processing method and device and electronic equipment
CN115827990B (en) Searching method and device
JPH11110409A (en) Method for classifying information and device therefor
JP2003016106A (en) Device for calculating degree of association value
KR101818716B1 (en) Method, apparatus and computer readable recording medium for generating exetension data-set of concept keywords
JP2000048041A (en) Data retrieval system and device to be used for the system
JP2007183927A (en) Information processing apparatus, method and program
Wiering et al. Transportation distances and their application in music-notation retrieval
JP4128033B2 (en) Profile data retrieval apparatus and program
JP2004126848A (en) Similar case retrieval method
JP5890413B2 (en) Method and search engine for searching a large number of data records
CN102982072A (en) Visualization concept detector and method for constructing semantic field
CN116745761A (en) Identification of media items for a target group
JP5265610B2 (en) Related word extractor
JP2012083935A (en) Patent retrieval device, patent retrieval method, and program