JP2018032213A - Information processor, information processing system, information processing method and program - Google Patents
Information processor, information processing system, information processing method and program Download PDFInfo
- Publication number
- JP2018032213A JP2018032213A JP2016163886A JP2016163886A JP2018032213A JP 2018032213 A JP2018032213 A JP 2018032213A JP 2016163886 A JP2016163886 A JP 2016163886A JP 2016163886 A JP2016163886 A JP 2016163886A JP 2018032213 A JP2018032213 A JP 2018032213A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- sentence
- content
- word
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program.
従来から、自然言語で記述された文章又はその理解を単純化するため、文章を複数のキーワードで代表する手法が提案されている。 Conventionally, in order to simplify a sentence written in a natural language or an understanding thereof, a technique for representing a sentence with a plurality of keywords has been proposed.
例えば、特許文献1に記載の主題抽出装置は、複数の文章を表すテキストデータから具体主題の候補となる名詞句を抽出し、名詞句ペアを作成し、名詞句各々の出現頻度、及び名詞句ペア各々の共起頻度を抽出し、名詞句各々の出現頻度及び名詞句ペアの共起頻度から求まる名詞句各々の出現確率を求め、名詞句ペアで出現確率に基づく勝敗を示す第1の素性を算出する。また、当該主題抽出装置は、名詞句ペアの係り受け構造毎の出現頻度を抽出し、名詞句ペアで係り先になり易さによる勝敗を示す第2の素性を算出する。また、当該主題抽出装置は、第1の素性及び第2の素性を並べた素性ベクトルを生成し、具体主題が既知の学習用文書に含まれる名詞句の素性ベクトルを用いて学習された分類器に入力して、具体主題を示す名詞句を抽出する。
For example, the subject extraction device described in
特許文献1に記載の主題抽出装置は、文章を形態素解析して得られた名詞句の出現頻度や名詞句ペアの共起頻度などの比較的単純な指標に基づいて、その文章から名詞句をキーワードとして抽出していた。他方、文章を構成する語句の重要度は、必ずしも出現頻度、共起頻度などの単純な指標だけでは説明できるとは限らない。例えば、頻出する語句であっても文章全体の意味内容への貢献が小さい冗長な語句が、その文章に含まれることがある。このような語句は、文章の内容を誤認識する要因となりうる。
The subject extraction device described in
本発明は上記の点に鑑みてなされたものであり、文章の内容を代表する語句を簡素な処理により取得することができる情報処理装置、情報処理システム、情報処理方法及びプログラムを提供する。 The present invention has been made in view of the above points, and provides an information processing apparatus, an information processing system, an information processing method, and a program capable of acquiring words and phrases representative of the content of a sentence by simple processing.
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、文章の特徴を示す文章ベクトルと、前記文章に含まれる単語毎の特徴を示す単語ベクトルを算出する特徴ベクトル算出部と、前記文章ベクトルと前記単語ベクトルとの類似度を算出し、前記類似度に基づいて前記文章に含まれる一部の単語を抽出する類似度算出部と、を備える情報処理装置である。 (1) The present invention has been made to solve the above problems, and one aspect of the present invention includes a sentence vector indicating a feature of a sentence and a word vector indicating a feature for each word included in the sentence. Information comprising: a feature vector calculation unit to calculate; a similarity calculation unit that calculates a similarity between the sentence vector and the word vector, and extracts a part of words included in the sentence based on the similarity It is a processing device.
(2)また、本発明の一態様は、上記の情報処理装置において、前記特徴ベクトル算出部は、前記一部の単語の単語ベクトルに基づいて前記文章の主旨を示す主旨ベクトルを算出する。 (2) Further, according to one aspect of the present invention, in the information processing apparatus, the feature vector calculation unit calculates a main vector indicating the main point of the sentence based on a word vector of the part of words.
(3)また、本発明の一態様は、上記の情報処理装置において、前記特徴ベクトル算出部は、視聴されたコンテンツに係る文章について前記主旨ベクトル又は文章ベクトルを算出し、前記主旨ベクトル又は前記文章ベクトルを前記視聴されたコンテンツ間で合成して視聴ベクトルを算出する。 (3) Further, according to one aspect of the present invention, in the information processing apparatus, the feature vector calculation unit calculates the main vector or the text vector for the text related to the viewed content, and the main vector or the text A viewing vector is calculated by synthesizing the vectors between the viewed contents.
(4)また、本発明の一態様は、上記の情報処理装置において、前記特徴ベクトル算出部は、未視聴のコンテンツに係る文章の主旨を示す第2主旨ベクトル又は当該文章の特徴を示す第2文章ベクトルを算出し、前記類似度算出部は、前記第2主旨ベクトルもしくは第2文章ベクトルと前記視聴ベクトルとの類似度を算出し、前記類似度に基づいて前記未視聴のコンテンツから推薦コンテンツを選択するコンテンツ選択部を備える。 (4) Further, according to one aspect of the present invention, in the information processing apparatus, the feature vector calculation unit includes a second main vector indicating the main point of a sentence related to unviewed content or a second characteristic indicating the characteristic of the sentence. A sentence vector is calculated, and the similarity calculation unit calculates a similarity between the second main vector or the second sentence vector and the viewing vector, and recommends a recommended content from the unviewed content based on the similarity. The content selection part to select is provided.
(5)また、本発明の一態様は、受信装置と(4)の情報処理装置とを備える情報処理システムにおいて、前記受信装置は、コンテンツを受信し、視聴されたコンテンツを示す視聴情報を前記情報処理装置に送信し、前記情報処理装置から前記推薦コンテンツに関する推薦コンテンツ情報を受信する情報処理システムである。 (5) According to another aspect of the present invention, in an information processing system including a receiving device and the information processing device according to (4), the receiving device receives content and receives viewing information indicating the viewed content. An information processing system for transmitting to an information processing device and receiving recommended content information related to the recommended content from the information processing device.
(6)また、本発明の一態様は、情報処理装置における情報処理方法であって、文章の特徴を示す文章ベクトルと、前記文章に含まれる単語の特徴を示す単語ベクトルを算出する特徴ベクトル算出過程と、前記文章ベクトルと前記単語ベクトルとの類似度を算出し、前記類似度に基づいて前記文章に含まれる一部の単語を抽出する単語抽出過程と、を有する情報処理方法である。 (6) According to another aspect of the present invention, there is provided an information processing method in an information processing apparatus, wherein a feature vector that calculates a feature vector of a sentence and a feature vector of a word included in the sentence is calculated. And a word extraction step of calculating a similarity between the sentence vector and the word vector and extracting a part of words included in the sentence based on the similarity.
(7)また、本発明の一態様は、情報処理装置のコンピュータに、文章の特徴を示す文章ベクトルと、前記文章に含まれる単語の特徴を示す単語ベクトルを算出する特徴ベクトル算出手順、前記文章ベクトルと前記単語ベクトルとの類似度を算出し、前記類似度に基づいて前記文章に含まれる単語の一部を抽出する単語抽出手順、を実行させるためのプログラムである。 (7) According to one aspect of the present invention, a computer of an information processing apparatus causes a computer to process a feature vector calculation procedure for calculating a sentence vector indicating a feature of a sentence and a word vector indicating a feature of a word included in the sentence. It is a program for calculating a similarity between a vector and the word vector, and executing a word extraction procedure for extracting a part of a word included in the sentence based on the similarity.
本発明によれば、文章の内容を代表する語句を簡素な処理により取得することができる。 According to the present invention, a phrase representing the content of a sentence can be acquired by a simple process.
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について詳しく説明する。
図1は、本実施形態に係る情報処理装置10の構成例を示すブロック図である。
情報処理装置10は、データ管理部10aと、データ処理部10bと、を含んで構成される。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram illustrating a configuration example of an
The
データ管理部10aは、データ処理部10bにおいて処理に用いる各種のデータ、処理によって得られた各種のデータを記憶し、これらを管理する。データ管理部10aは、ハードウェア資源としてROM(Read−only Memory)、RAM(Random AccessMemory)などの各種の記憶媒体を含んで構成される。データ管理部10aは、文章管理部101と、キーワード管理部108を含んで構成される。文章管理部101は、処理対象の文章を示す文章データ、それらの文章を構成する単語を示す形態素データ、及びそれらの単語を示す単語データを記憶する。文章データは、図3に例示されるように個々の文章を識別する文章ID(Identifier)、文章タグ、及びその文章の情報を対応付けてなるデータである。形態素データは、図4に例示されるように文章毎の文章ID、その文章を構成する単語、及びその文章におけるその単語の順序である単語順序を対応付けてなるデータである。単語データは、図5に例示されるようにそれぞれの単語とその単語を識別する単語タグを対応付けてなるデータである。
The
キーワード管理部108は、文章データが示す文章から類似度算出部107から取得したキーワードと、その文章データの文章ID、キーワードベクトル、及び類似度を含んで構成される。類似度は、そのキーワードベクトルとその文章の文章ベクトルとの類似度を示す指標値である。
The
データ処理部10bは、分離部102、Doc2vec部103、誤差算出部104、Weight算出部105、特徴量取得部106、及び類似度算出部107を含んで構成される。各部が実行する処理については後述する。なお、データ処理部10bは、文章データが示す文章について形態素解析を行って、その文章を構成する単語とその文章における順序を単語順序として判別する文章解析部(図示せず)を備えてもよい。文章解析部は、判別した単語と単語順序を示す形態素データを文章管理部101に記憶する。データ処理部10bは、CPU(Central Processing Unit、中央処理装置)などの処理デバイスを含んで構成され、所定の制御プログラムで指示される処理を実行することにより、その機能を実現してもよい。
The
(事前学習)
次に、本実施形態に係るデータ処理部10bが行う事前学習について説明する。事前学習は、単語ベクトルを作成する単語ベクトル作成処理と、文章ベクトルを作成する文章ベクトル作成処理とを含む。単語ベクトルは、各単語の特徴としてその意味を定量的に示す特徴ベクトルである。文章ベクトルは、各文章の特徴としてその意味を定量的に示す特徴ベクトルである。各単語は、所定の次元数の1つの単語ベクトルに対応付けられ、各文章は、1つの文章ベクトルに対応付けられる。本実施形態では、単語ベクトルと文章ベクトルの次元数は、同一である。
(Learning in advance)
Next, prior learning performed by the
図2は、本実施形態に係る事前学習の一例に係る機能ブロック図である。
分離部102は、文章管理部101に予め記憶させておいた文章データが示す文章ID、文章タグ及び文章のセットを読み取り、形態素データを参照して、その文章IDに対応する単語と単語順序を読み取る。分離部102は、単語データを参照して、その単語に対応する単語タグを読み取る。従って、文章ID毎にその文章を構成する複数の単語それぞれの単語タグからなる単語タグ列が読み取られる。分離部102は、読みとった単語タグのから各1つの単語タグを分離し、その単語タグを教師信号として誤差算出部104に出力する。分離部102は、読みとった単語タグのうち、教師信号として用いられる単語タグを基準として所定の順序の範囲内の単語に係る単語タグを分離する。以下の説明では、所定の順序の範囲を分析窓と呼び、分離される各1つの単語タグを目標単語タグと呼ぶ。分離部102は、分離した分析窓内の単語タグからなる単語タグ列と、それらの単語タグを含む文章の文章タグとをDoc2Vec部103に出力する。一度にDoc2Vec部103に出力される単語タグには、教師信号として用いられる注目単語タグは含まれない。目標単語タグとして分離される単語タグの順序は、形態素データを参照して読み取られた単語順序に従う。
FIG. 2 is a functional block diagram according to an example of pre-learning according to the present embodiment.
The
Doc2Vec部103は、分離部102から入力される単語タグ列に含まれる各単語タグと、入力される文章タグに基づいて、注目単語タグに係る出力値を、所定の数理モデルに基づいて算出する。単語タグ毎の入力値として、例えば、その単語タグが示す単語の単語ベクトルが用いられる。単語ベクトルとして、Weight算出部105が算出した単語重み行列Weight1(後述)を構成する各行各列の重み係数のうち、その単語に係る列の重み係数を要素とする列ベクトルが取得される。文章タグ毎の入力値として、例えば、その文章タグが示す文章の文章ベクトルが用いられる。文章ベクトルとして、Weight算出部105が算出した文章重み行列Weight2(後述)を構成する各行各列の重み係数のうち、その文章に係る列の重み係数を要素とする列ベクトルが取得される。Doc2Vec部103は、所定の数理モデルとして、例えば、活性化関数としてソフトマックス関数が適用されたニューラルネットワーク(NN:Neural Network)を用いる。なお、本実施形態では、単語ベクトルを構成する要素値の個数、つまり次元数は、文章ベクトルの次元数と等しい。次元数は、例えば、100〜300である。Doc2Vec部103は、入力される単語タグ、文章タグに対する出力値として、分類される単語タグ毎の確率を示す分類器として作用する。出力値は、単語タグ毎の出現確率を要素値とするベクトルとなる。Doc2Vec部103は、算出した出力値を誤差算出部104に出力する。
The
誤差算出部104は、分離部102から入力された教師信号となる目標単語タグに係る所定の出力値からDoc2Vec部103から入力された目標単語タグに係る出力値との差を誤差として算出する。誤差算出部104は、例えば、所定の出力値として、その目標単語タグに係る要素値が1であり、その他の単語タグに係る要素値が0である目標出力ベクトルを用いる。誤差算出部104は、算出した誤差をWeight算出部105に出力する。
The
Weight算出部105は、誤差算出部104から入力された誤差の大きさを示す指標値がより小さくなるように、入力される各単語タグ、文章タグに対して、目標単語タグに係る出力値の算出に用いられるパラメータ群Weightを算出する。以下の説明では、パラメータ群Weightを単にWeightと呼ぶことがある。Weight算出部105は、Weightの算出において、例えば、公知の確率的勾配降下法を用いる。これにより目標単語タグに係る確率が1に近づくように最大化され、その他の単語タグに係る確率が0に近づくように最小化されるようにWeightが定められる。そして、Weight算出部105は、入力される単語タグ及び文章タグに対する目標単語タグの出力値である出現確率がより大きくなるようにWeightが定めることができる。Weight算出部105は、算出されるWeightのうち、単語タグ毎の入力値である単語ベクトルの各要素を行とし、各単語タグの単語ベクトルを列とする行列を単語重み行列Weight1として算出する。Weight算出部105は、文章タグの入力値である文章ベクトルの各要素を行とし、各文章タグの文章ベクトルを列とする行列を文章重み行列Weight2として算出する。Weight算出部105は、各単語ベクトル又は各文章ベクトルの要素値による出力値の要素値に対する寄与の大きさを示す重み値を各行各列の要素値とする行列と、出力値の各列に係るバイアス値を要素値とするベクトルとのセットをパラメータ群Weight3として算出する。以下の説明では、単語重み行列Weight1、文章重み行列Weight2、及びパラメータ群Weight3を、それぞれ単にWeight1、Weight2、及びWeight3と呼ぶことがある。Weight算出部105は、算出したWeight1、Weight2、Weight3をDoc2Vec部103に出力する。単語ベクトル作成処理においては、Weight算出部105は、Weight1、Weight2、Weight3のいずれも可変なパラメータとして各文書に含まれる単語毎に算出する。Weight3は、文書、単語によらず共通なパラメータである。これに対し、文章ベクトル作成処理においては、Weight算出部105は、単語ベクトル作成処理において算出したWeight1、Weight3を固定し、Weight2を可変なパラメータとして単語毎に算出する。従って、Doc2Vec部103、誤差算出部104、及びWeight算出部105は、単語ベクトル、文章ベクトルといった特徴ベクトルを算出する特徴ベクトル算出部として機能する。
The
(Doc2Vec部)
次に、本実施形態に係るDoc2Vec部103の構成例について説明する。
図6は、本実施形態に係るDoc2Vec部103の構成例を示す図である。
図6に示す例では、Doc2Vec部103は、2層のニューラルネットワークを含んで構成される。第1層(Layer1)は、ベクトル選択部とベクトル保持部を含んで構成され、2k個の単語タグからなる単語タグ列と1つの文章タグが分離部102から入力される。ここでkは、1以上の所定の整数である。2k個の単語タグは、その文章の第t−k〜t−1、t+1〜t+k番目の単語のそれぞれを示す単語タグであり、その順序で順次入力される。ベクトル選択部に配置されている縦長の四角形は入力端を示す。単語タグが入力される各入力端は、Weight算出部105から入力されるWeight1のうち、入力される単語タグに対応する列の要素値からなる単語ベクトルを抽出する。その入力端は抽出した単語ベクトルをベクトル保持部の対向する節点群に出力する。ベクトル保持部の節点群は縦長の四角形で表される。それぞれの四角形において上下に一列に配列されている個々の丸印は、節点(ノード)を示す。文章タグが入力される入力端は、Weight算出部105から入力されるWeight2が示す行列のうち、入力される文章タグに対応する列の要素値からなる文章ベクトルを抽出する。その入力端は、抽出した文章ベクトルをベクトル保持部の対向する節点群に出力する。
(Doc2Vec part)
Next, a configuration example of the
FIG. 6 is a diagram illustrating a configuration example of the
In the example illustrated in FIG. 6, the
ベクトル保持部の各節点群には、それぞれ対向するベクトル選択部の節点群から単語ベクトル又は文章ベクトルが入力される。ベクトル保持部の各節点群を構成する個々の節点には、その節点に対応する次元の要素値が入力され、入力される要素値を第2層(Layer2)の対応する節点にそれぞれ出力する。Layer2の各節点には、Weight算出部105から入力されるWeight3が示す行列Uのうち、その節点に対応する行の要素値からなる行ベクトルと、Weight3が示す列ベクトルbのその節点に対応する行の要素値であるバイアス値が設定される。Layer2の各節点は、設定された行ベクトルの各列の要素値に、ベクトル保持部の各節点から入力される単語ベクトル及び文章ベクトルのそれぞれ対応する要素値を乗算して得られた乗算値の総和を算出する。Layer2の各節点は、算出した総和に設定されたバイアス値を加算し、加算により得られた対数確率に基づいて、その次元に係る単語の出現確率を算出する。
To each node group of the vector holding unit, a word vector or a sentence vector is input from the node group of the opposing vector selection unit. Element values of dimensions corresponding to the nodes are input to the individual nodes constituting each node group of the vector holding unit, and the input element values are output to the corresponding nodes of the second layer (Layer 2). Each node of
次に、本実施形態に係るDoc2Vec部103の別の構成例について説明する。
図7は、本実施形態に係るDoc2Vec部103の別の構成例を示す図である。
図7に示す例では、Doc2Vec部103は、3層のニューラルネットワークを含んで構成される。Layer1は、図6に示す例と同様にベクトル選択部とベクトル保持部を含んで構成され、2k個の単語タグからなる単語タグ列と、1つの文章タグが分離部102から入力される。各1個の単語タグが入力される各ベクトル選択部は、Weight算出部105から入力されるWeight1のうち、入力される単語タグに対応する列の要素値からなる単語ベクトルを抽出する。そのベクトル選択部は抽出した単語ベクトルをベクトル保持部の対向する節点群に出力する。文章タグが入力されるベクトル選択部は、Weight算出部105から入力されるWeight2が示す行列のうち、入力される文章タグに対応する列の要素値からなる文章ベクトルを抽出する。そのベクトル選択部は、抽出した文章ベクトルをベクトル保持部の対向する節点群に出力する。
Next, another configuration example of the
FIG. 7 is a diagram illustrating another configuration example of the
In the example illustrated in FIG. 7, the
ベクトル保持部の各節点群には、それぞれ対向するベクトル選択部の節点群から単語ベクトル又は文章ベクトルが入力される。ベクトル保持部の各節点群を構成する個々の節点には、その節点に対応する次元の要素値が入力され、入力される要素値をLayer2の対応する節点にそれぞれ出力する。
Layer2の節点群には、それぞれ対向するベクトル保持部の節点群から単語ベクトルと文章ベクトルが入力される。Layer2の節点群を構成する個々の節点には、その節点に対応する次元の要素値が入力される。図7に示す例では、Layer2の接点群を構成する各節点は、入力された要素値を平均することによって要素平均値を算出し、Layer3の対応する節点にそれぞれ出力する。なお、Layer2の節点群を構成する個々の節点は、要素平均値に代え、各節点に入力された要素値の総和である要素総和値を算出し、算出した要素総和値をLayer3の対応する節点にそれぞれ出力してもよい。
Layer3の各節点には、Weight算出部105から入力されるWeight3が示す行列Uのうち、その節点に対応する行の要素値からなる行ベクトルと、Weight3が示す列ベクトルbのその節点に対応する行の要素値であるバイアス値が設定される。Layer3の各節点は、設定された行ベクトルの各列の要素値に、Layer2の各節点から入力される要素値を乗算して得られた乗算値の総和を算出する。Layer3の各節点は、算出した総和に設定されたバイアス値を加算し、加算により得られた対数確率に基づいて、その次元に係る単語の出現確率を算出する。
To each node group of the vector holding unit, a word vector or a sentence vector is input from the node group of the opposing vector selection unit. Element values of dimensions corresponding to the nodes are input to individual nodes constituting each node group of the vector holding unit, and the input element values are output to the corresponding nodes of Layer2.
A word vector and a sentence vector are input to the node group of
Each node of
(単語ベクトル作成処理)
次に、本実施形態に係る単語ベクトル作成処理について説明する。
図8は、本実施形態に係る単語ベクトル作成処理の一例を示すフローチャートである。
(ステップS101)文章管理部101に記憶された文章データが示す文章、単語データが示す単語のうち、未処理の文章の文章タグと、その文章を構成する各単語の単語タグからなる単語タグ列の有無を判定する。あると判定されるとき(ステップS101 YES)、ステップS102の処理に進む。ないと判定されるとき(ステップS101 NO)、図8に示す処理を終了する。
(Word vector creation process)
Next, word vector creation processing according to the present embodiment will be described.
FIG. 8 is a flowchart showing an example of a word vector creation process according to the present embodiment.
(Step S101) Among the sentences indicated by the sentence data stored in the
(ステップS102)文章管理部101は、未処理の文章のいずれかの文章タグと、その文章を構成する各単語の単語タグからなる単語タグ列を分離部102に出力する。なお、単語タグ列をなす単語の順序は、その文書中に現われる順序である。この順序は、形態素データが示す単語順序を参照して特定される。その後、ステップS103の処理に進む。
(ステップS103)分離部102は、文章管理部101から入力された単語タグ列を、その単語タグ列に含まれる単語タグのいずれかである目標単語タグを誤差算出部104に出力する教師信号として分離する。1つの文章における初回の処理において、分離部102は、単語順位が第1番である単語の単語タグを目標単語タグとして選択する。分離部102は、その残りの単語タグからなる単語タグ列を、Doc2Vec部103に出力する単語タグ列として分離する。その後、ステップS104の処理に進む。
(ステップS104)分離部102は、入力された文章タグと分離した単語タグ列とをDoc2Vec部103に出力し、教師信号を誤差算出部104に出力する。その後、ステップS105の処理に進む。
(Step S102) The
(Step S103) The
(Step S104) The
(ステップS105)Doc2Vec部103は、入力された文章タグと単語タグ列に基づいて出力値をNN出力として算出し、算出したNN出力を誤差算出部104に出力する。その後、ステップS106の処理に進む。
(ステップS106)誤差算出部104は、Doc2Vec部103から入力されたNN出力から、分離部102から入力された教師信号が示す目標単語タグに基づく出力値との差を誤差として算出する。誤差算出部104は、算出した誤差をWeight算出部105に出力する。その後、ステップS107の処理に進む。
(ステップS107)Weight算出部105は、誤差算出部104から入力された誤差の大きさの指標値が小さくなるようにWeight1、Weight2、Weight3のいずれも(全Weight)算出する。Weight算出部105は、誤差が所定の閾値よりも小さくなるまで全Weightを再帰的に算出する。その後、Weight算出部105は、Doc2Vec部103がNN出力の算出に用いる全Weightを、計算した全Weightに更新する。その後、ステップS108の処理に進む。
(ステップS108)分離部102は、入力された単語タグ列のうち目標単語タグ、即ち教師信号として未採用の単語タグの有無を判定する。あると判定されるとき(ステップS108 YES)、分離部102は、その時点において採用された単語タグの次の単語順位の未採用の単語タグを目標単語タグとして選択する。その後、ステップS103の処理に進む。未採用の単語タグがないと判定されるとき(ステップS108 NO)、ステップS101の処理に進む。
(Step S <b> 105) The
(Step S106) The
(Step S107) The
(Step S <b> 108) The
(文章ベクトル作成処理)
次に、本実施形態に係る文章ベクトル作成処理について説明する。
図9は、本実施形態に係る文章ベクトル作成処理の一例を示すフローチャートである。
図9に示す処理は、ステップS111〜S118の処理を有する。ステップS111〜S116及びステップS118の処理は、それぞれ図8のステップS101〜S106及びステップS108の処理と同様であるので、その説明を援用する。
図9に示す処理では、ステップS116の処理の後、ステップS117の処理に進む。
(ステップS118)Weight算出部105は、誤差算出部104から入力された誤差の指標値が小さくなるようにWeight2を算出する。Weight算出部105は、誤差が所定の閾値よりも小さくなるまでWeight2を再帰的に算出する。その後、Weight算出部105は、Doc2Vec部103がNN出力の算出に用いるWeight2を、計算したWeight2に更新する。本ステップでは、Doc2Vec部103は、単語ベクトル作成処理において算出されたWeight1及びWeight3をNN出力の算出に用いる。その後、ステップS118の処理に進む。
(Sentence vector creation process)
Next, the text vector creation process according to the present embodiment will be described.
FIG. 9 is a flowchart illustrating an example of a text vector creation process according to the present embodiment.
The process illustrated in FIG. 9 includes the processes of steps S111 to S118. Since the processes of steps S111 to S116 and step S118 are the same as the processes of steps S101 to S106 and step S108 of FIG. 8, respectively, the description thereof is incorporated.
In the process shown in FIG. 9, the process proceeds to step S117 after the process in step S116.
(Step S118) The
(特徴ベクトルの管理)
次に、本実施形態に係る情報処理装置10が行う特徴ベクトルの管理について説明する。
図10は、本実施形態に係る特徴ベクトルの管理の一例に係る機能ブロック図である。
まず、特徴ベクトルとして文章ベクトルの管理について説明する。
文章管理部101は、自部に記憶された文章データが示す文章IDと文章タグとを対応付けて特徴量取得部106に出力する。文章管理部101には、その応答として文章IDと文章ベクトルが特徴量取得部106から入力され、入力された文章IDと文章ベクトルを対応付けて自部に記憶する。文章管理部101には、図11に示すように文章IDと文章ベクトルとを対応付けてなる文章ベクトルデータが形成される。
(Management of feature vectors)
Next, feature vector management performed by the
FIG. 10 is a functional block diagram according to an example of feature vector management according to the present embodiment.
First, management of sentence vectors as feature vectors will be described.
The
特徴量取得部106は、文章管理部101から文章IDと対応付けて入力された文章タグをDoc2Vec部103に出力する。特徴量取得部106には、その応答として文章ベクトルがDoc2Vec部103から入力され、入力された文章ベクトルと文章IDを対応付けて文章管理部101に出力する。
Doc2Vec部103は、自部に設定されたWeight2のうち特徴量取得部106から入力された文章タグに対応する列の要素値からなる列ベクトルを文章ベクトルとして特定する。Doc2Vec部103は、特定した文章ベクトルを特徴量取得部106に出力する。
The feature
The
次に、単語ベクトルの管理について説明する。文章管理部101は、自部に記憶された単語データが示す単語と単語タグとを対応付けて特徴量取得部106に出力する。文章管理部101には、その応答として単語と単語ベクトルが特徴量取得部106から入力され、入力された単語と単語ベクトルを対応付けて自部に記憶する。文章管理部101には、図12に示すように単語と単語ベクトルとを対応付けてなる単語ベクトルデータが形成される。
Next, management of word vectors will be described. The
特徴量取得部106は、文章管理部101から単語と対応付けて入力された単語タグをDoc2Vec部103に出力する。特徴量取得部106には、その応答として単語ベクトルがDoc2Vec部103から入力され、入力された単語ベクトルと単語を対応付けて文章管理部101に出力する。
Doc2Vec部103は、自部に設定されたWeight1のうち特徴量取得部106から入力された単語タグに対応する列の要素値からなる列ベクトルを単語ベクトルとして特定する。Doc2Vec部103は、特定した単語ベクトルを特徴量取得部106に出力する。
The feature
The
次に、本実施形態に係る特徴ベクトルの管理について説明する。
図13は、本実施形態に係る特徴ベクトルデータ生成処理の一例を示すフローチャートである。
(ステップS121)文章管理部101に記憶された文章データが示す文章のうち未処理の文章の文章タグ、又は、単語データが示す単語のうち、未処理の単語の単語タグからなる単語タグ列の有無を判定する。あると判定されるとき(ステップS121 YES)、ステップS122の処理に進む。ないと判定されるとき(ステップS121 NO)、図13に示す処理を終了する。
Next, feature vector management according to the present embodiment will be described.
FIG. 13 is a flowchart illustrating an example of feature vector data generation processing according to the present embodiment.
(Step S121) A sentence tag of an unprocessed sentence among sentences indicated by sentence data stored in the
(ステップS122)文章管理部101は、未処理の文章のいずれかの文章IDと文章タグのセット、又は未処理の単語のいずれかとその単語タグのセットを特徴量取得部106に出力する。その後、ステップS123の処理に進む。
(ステップS123)特徴量取得部106は、文章IDと文章タグのセットと、単語と単語タグのセットのいずれが入力されたかを判定する。文章IDと文章タグのセットが入力されたと判定するとき(ステップS123 YES)、ステップS124の処理に進む。単語と単語タグのセットが入力されたと判定するとき(ステップS123 NO)、ステップS134の処理に進む。
(Step S122) The
(Step S123) The feature
(ステップS124)特徴量取得部106は、文章IDと対応付けて入力された文章タグをDoc2Vec部103に出力する。その後、ステップS125の処理に進む。
(ステップS125)Doc2Vec部103は、自部に設定されたWeight2から特徴量取得部106から入力された文章タグに基づいて特定される列の要素値からなる文章ベクトルを取得する。Doc2Vec部103は、取得した文章ベクトルを特徴量取得部106に出力する。その後、ステップS126の処理に進む。
(ステップS126)特徴量取得部106は、文章IDとDoc2Vec部103から入力された文章ベクトルとを対応付けて文章管理部101に出力する。その後、ステップS127の処理に進む。
(ステップS127)文章管理部101は、特徴量取得部106から入力された文章IDと文章ベクトルとを関連付けて自部に記憶(管理)する。その後、処理対象を他の未処理の文章タグのいずれか又は他の未処理の単語タグのいずれかに変更する。その後、ステップS121の処理に進む。
(Step S <b> 124) The feature
(Step S <b> 125) The
(Step S126) The feature
(Step S127) The
(ステップS134)特徴量取得部106は、単語と対応付けて入力された単語タグをDoc2Vec部103に出力する。その後、ステップS135の処理に進む。
(ステップS135)Doc2Vec部103は、自部に設定されたWeight1から特徴量取得部106から入力された単語タグに基づいて特定される列の要素値からなる単語ベクトルを取得する。Doc2Vec部103は、取得した単語ベクトルを特徴量取得部106に出力する。その後、ステップS136の処理に進む。
(ステップS136)特徴量取得部106は、単語とDoc2Vec部103から入力された単語ベクトルとを対応付けて文章管理部101に出力する。その後、ステップS137の処理に進む。
(ステップS137)文章管理部101は、特徴量取得部106から入力された単語と単語ベクトルとを関連付けて自部に記憶(管理)する。その後、処理対象を他の未処理の単語タグのいずれか又は他の未処理の文章タグのいずれかに変更する。その後、ステップS121の処理に進む。
(Step S134) The feature
(Step S135) The
(Step S136) The feature
(Step S137) The
(キーワード取得処理)
次に、本実施形態に係る情報処理装置10が行うキーワード取得処理について説明する。図14は、本実施形態に係るキーワード取得処理の一例に係る機能ブロック図である。
文章管理部101は、自部に記憶された文章ベクトルデータが示す文章IDと文章ベクトルのセットと、単語ベクトルデータが示す単語のうち、その文章を構成する単語と単語ベクトルのセットとを類似度算出部107に出力する。この場合、出力される単語と単語ベクトルのセットの個数は、その文章に含まれる単語の数に相当する。なお、文章管理部101は、自部に記憶された文章ベクトルデータが示す文章IDと文章ベクトルのセットと、単語ベクトルデータが示すすべての単語についての単語IDと単語ベクトルのセットとを類似度算出部107に出力してもよい。
(Keyword acquisition process)
Next, a keyword acquisition process performed by the
The
類似度算出部107は、文章管理部101から文章IDと文章ベクトルのセットと、その文章の単語と単語ベクトルのセットとが入力される。類似度算出部107は、文章ベクトルと、その文章の単語毎に単語ベクトルの類似度として、例えば、内積を算出する。内積は、2つの類似度が高いほど、その値が大きい指標値である。内積の最大値は1であり、最小値は0である。類似度算出部107は、類似度が最も高い単語から所定の類似度の閾値(例えば、0.7)よりも高い単語をキーワードとして選択する。従って、1つの文章において選択されるキーワードの数は、1個又は0個となりうる。なお、類似度算出部107は、そのような単語もしくは文章中の全単語のうち最も類似度が高い単語から類似度の降順に所定の個数の単語をキーワードとして選択してもよい。類似度算出部107は、文章IDと、選択したキーワード、その単語ベクトルであるキーワードベクトルならびに類似度のセットとを対応付けてキーワード管理部108に出力する。なお、類似度の指標値は、内積に限られず2つのベクトル間の差分二乗和、絶対値和、等であってもよい。差分二乗和、絶対値は、いずれも、その値が小さいほど2つのベクトルの類似度が高いことを示す指標値である。
The
キーワード管理部108は、類似度算出部107から入力される文章ID、キーワード、キーワードベクトル及び類似度を対応付けて記憶する。これにより、キーワード管理部108には、図15に例示されるように、文章ID、キーワード、キーワードベクトル及び類似度を対応付けてなるキーワードデータが形成される。
The
図16は、本実施形態に係るキーワード取得処理の一例を示すフローチャートである。
(ステップS141)文章管理部101は、自部に記憶された文章データが示す文章のうち未処理の文章の有無を判定する。あると判定されるとき(ステップS141 YES)、ステップS142の処理に進む。ないと判定されるとき(ステップS141 NO)、図16に示す処理を終了する。
FIG. 16 is a flowchart illustrating an example of a keyword acquisition process according to the present embodiment.
(Step S141) The
(ステップS142)文章管理部101は、自部に記憶された文章ベクトルデータが示す未処理のいずれかの文章の文章IDと文章ベクトルのセットと、単語ベクトルデータが示す単語のうち、その文章を構成する単語と単語ベクトルのセットとを類似度算出部107に出力する。その後、ステップS143の処理に進む。
(ステップS143)類似度算出部107は、文章管理部101から入力された文章ベクトルと、その文章の単語毎に単語ベクトルの類似度を算出する。類似度算出部107は、類似度が所定の類似度の閾値(例えば、0.7)よりも高い単語をキーワードとして選択する。その後、ステップS144の処理に進む。
(Step S142) The
(Step S143) The
(ステップS144)類似度算出部107は、入力された文章ID、選択したキーワード、その単語ベクトルであるキーワードベクトル、及びそのキーワードの類似度をキーワード管理部108に出力する。その後、ステップS145の処理に進む。
(ステップS145)キーワード管理部108は、類似度算出部107から入力された文章ID、キーワード、キーワードベクトル及び類似度を関連付けて記憶(管理)する。その後、処理対象の文章を他の未処理の文章に変更して、ステップS141の処理に進む。
(Step S144) The
(Step S145) The
(キーワードの選択例)
図18は、本実施形態に係る情報処理装置10によるキーワードの選択例を示す表である。図18に示すキーワードは、図17に示す文章(総務省、平成26年度版 情報通信白書、第6章 情報通信政策の動向、第432頁)から、図16に示す処理を実行することにより選択されたキーワードである。図17に示す文章は、ICT(Information and Communication Technology)が気候変動に与える影響を主旨とする。図18に示すキーワードは、類似度の降順に温室効果ガス、気候変動、地球温暖化、ICT、連携など、いずれもその文章の主旨に関連する単語である。この処理結果は、処理対象の文章から、その文章の主旨に関連する単語が抽出されたことを示す。
(Keyword selection example)
FIG. 18 is a table showing an example of keyword selection by the
以上に説明したように、本実施形態に係る情報処理装置10は、文章の特徴を示す文章ベクトルと、文章に含まれる単語毎の特徴を示す単語ベクトルを算出する特徴ベクトル算出部として、Doc2Vec部103、誤差算出部104、及びWeight算出部105を備える。また、情報処理装置10は、文章ベクトルと単語ベクトルとの類似度を算出し、類似度に基づいて文章に含まれる一部の単語を抽出する類似度算出部107を備える。
この構成により、文章に含まれる単語のうち、その文章の特徴を示す文章ベクトルと、その文章の特徴を示す単語ベクトルとの類似度に基づいて、その文章の一部の単語が選択される。そのため、その文章と他の単語よりも類似度が高い一部の単語が、その文章の特徴を代表するキーワードとして選択される。従って、複雑な統計処理を行わなくとも代数的な手法により文章の内容を代表する語句が簡素な処理により取得される。
As described above, the
With this configuration, among the words included in the sentence, some words of the sentence are selected based on the similarity between the sentence vector indicating the characteristic of the sentence and the word vector indicating the characteristic of the sentence. For this reason, some words having a higher degree of similarity than the sentence and other words are selected as keywords representing the characteristics of the sentence. Therefore, a phrase representing the content of a sentence can be obtained by a simple process by an algebraic method without performing complicated statistical processing.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。第1の実施形態と同一の構成もしくは処理については、同一の符号を付してその説明を援用する。
図19は、本実施形態に係る情報処理装置10の構成例を示すブロック図である。
本実施形態に係る情報処理装置10において、データ管理部10aは、文章管理部101及びキーワード管理部108の他、さらに主旨ベクトル管理部110を備える。データ処理部10bは、分離部102、Doc2vec部103、誤差算出部104、Weight算出部105、特徴量取得部106、及び類似度算出部107の他、さらに特徴量算出部109を備える。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. About the same structure or process as 1st Embodiment, the same code | symbol is attached | subjected and the description is used.
FIG. 19 is a block diagram illustrating a configuration example of the
In the
(主旨ベクトル取得処理)
次に、本実施形態に係る情報処理装置10が行う主旨ベクトル取得処理について説明する。図20は、本実施形態に係る主旨ベクトル取得処理の一例に係る機能ブロック図である。
キーワード管理部108には、予めキーワードデータを記憶させておく。本実施形態では、キーワードデータが示すキーワードの取得に用いられた文章として、コンテンツ自体を構成する文章、又は、そのコンテンツに付随した文章が用いられる。コンテンツは、映像、音声、テキストなどのいずれか、又はそれらの組み合わせである。コンテンツは、例えば、テレビジョン放送番組、ビデオ・オン・デマンド(VOD:Video−on−Demand)コンテンツ、広告映像、楽曲、などがある。コンテンツ自体を構成する文章には、例えば、字幕、文字放送で放送される文字、ウェブページを構成するテキスト情報などが含まれる。コンテンツに付随した文章には、例えば、そのコンテンツに付随して送信される宣伝メッセージ、要約、解説文などの各種のテキスト情報などが含まれる。以下に説明する例では、図15に示す文章IDに代えて、コンテンツIDを用いる。
(Subject vector acquisition process)
Next, the gist vector acquisition process performed by the
The
キーワード管理部108は、キーワードデータが示すコンテンツ毎にコンテンツIDと、取得された各キーワードのキーワードベクトルを特徴量算出部109に出力する。
特徴量算出部109は、キーワード管理部108から入力されたコンテンツ毎に各キーワードベクトルの総和を主旨ベクトルとして算出する。特徴量算出部109は、入力されたコンテンツIDと算出した主旨ベクトルを主旨ベクトル管理部110に出力する。従って、特徴量算出部109は、主旨ベクトルといった、その文章の主旨を示す特徴ベクトルを算出する特徴ベクトル算出部として機能する。
The
The feature
主旨ベクトル管理部110は、特徴量算出部109から入力されたコンテンツIDと主旨ベクトルとを対応付けて記憶する。これにより、主旨ベクトル管理部110には、図21に例示されるように、コンテンツID及び主旨ベクトルを対応付けてなる主旨ベクトルデータが形成される。
The main
図22は、本実施形態に係る主旨ベクトル取得処理の一例を示すフローチャートである。
(ステップS151)文章管理部101は、自部に記憶されたキーワードデータが示すコンテンツの文章のうち未処理のコンテンツのコンテンツIDの有無を判定する。あると判定されるとき(ステップS151 YES)、ステップS152の処理に進む。ないと判定されるとき(ステップS151 NO)、図22に示す処理を終了する。
FIG. 22 is a flowchart showing an example of the gist vector acquisition process according to the present embodiment.
(Step S151) The
(ステップS152)文章管理部101は、自部に記憶されたキーワードデータが示す未処理のいずれかのコンテンツIDと、そのコンテンツIDに対応付けられたキーワードベクトルを特定し、それらを特徴量算出部109に出力する。その後、ステップS153の処理に進む。
(ステップS153)特徴量算出部109は、キーワード管理部108から入力されたコンテンツ毎に各キーワードベクトルの総和を主旨ベクトルとして算出する。その後、ステップS154の処理に進む。
(Step S152) The
(Step S153) The feature
(ステップS154)特徴量算出部109は、入力されたコンテンツIDと算出した主旨ベクトルを主旨ベクトル管理部110に出力する。その後、ステップS155の処理に進む。
(ステップS155)主旨ベクトル管理部110は、特徴量算出部109から入力されたコンテンツIDと主旨ベクトルを関連付けて記憶(管理)する。その後、処理対象のコンテンツを他の未処理のコンテンツのコンテンツIDに変更して、ステップS151の処理に進む。
(Step S154) The feature
(Step S155) The gist
以上に説明したように、本実施形態に係る情報処理装置10において特徴ベクトル算出部として、特徴量算出部109を備える。特徴量算出部109は、文章から抽出された一部の単語の単語ベクトルに基づいて文章の主旨を示す主旨ベクトルを算出する。
この構成により、文章の主旨を示す一部の単語であるキーワードの特徴を示す単語ベクトルに基づいて主旨ベクトルが算出される。そのため、文章の全体を示す文章ベクトルよりも、的確にその主旨の特徴が定量化される。
As described above, the
With this configuration, the gist vector is calculated based on a word vector that represents the characteristics of the keyword, which is a partial word that represents the gist of the sentence. Therefore, the feature of the subject is quantified more accurately than the sentence vector indicating the whole sentence.
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。上述の実施形態と同一の構成もしくは処理については、同一の符号を付してその説明を援用する。
図23は、本実施形態に係る情報処理装置10の構成例を示すブロック図である。
本実施形態に係る情報処理装置10において、データ管理部10aは、文章管理部101、キーワード管理部108、及び主旨ベクトル管理部110の他、視聴者管理部111を備える。データ処理部10bは、分離部102、Doc2vec部103、誤差算出部104、Weight算出部105、特徴量取得部106、類似度算出部107、及び特徴量算出部109を含んで構成される。
(Third embodiment)
Next, a third embodiment of the present invention will be described. About the same structure or process as the above-mentioned embodiment, the same code | symbol is attached | subjected and the description is used.
FIG. 23 is a block diagram illustrating a configuration example of the
In the
(視聴ベクトル取得処理)
次に、本実施形態に係る情報処理装置10が行う視聴ベクトル取得処理について説明する。図24は、本実施形態に係る視聴ベクトル取得処理の一例に係る機能ブロック図である。
視聴者管理部111には、予め視聴データを記憶させておく。視聴データは、視聴者毎にコンテンツの視聴の有無を示すデータである。視聴データは、図25に例示されるように、視聴者ID、コンテンツID及び視聴フラグのセットを集積して形成される。視聴者IDは、受信装置20(図28)のユーザである個々の視聴者を特定する情報である。コンテンツIDは、個々のコンテンツを特定する情報である。視聴フラグは、その視聴者に視聴されたか否かを示す情報である。図25に示す例では、視聴フラグは、視聴済又は未視聴を示す。視聴者管理部111は、各受信装置20から受信した視聴者IDと視聴するコンテンツのコンテンツIDからなる視聴情報に基づいて視聴データを生成してもよい。ここで、視聴者管理部111は、所定のコンテンツのうち、受信した視聴情報に基づいて視聴者ID毎に視聴されたコンテンツを特定し、特定したコンテンツについて視聴フラグの値を視聴済と定め、それ以外のコンテンツについて視聴フラグの値を未視聴としておく。そして、視聴者管理部111は、視聴者ID毎に所定のコンテンツ毎のコンテンツIDと設定した視聴フラグを対応付けて視聴データを形成する。
(Viewing vector acquisition processing)
Next, viewing vector acquisition processing performed by the
The
また、受信装置20から受信した視聴情報に、その受信装置20においてコンテンツが受信された受信時間の情報が含まれる場合には、受信時間に基づいて視聴の有無を判定してもよい。ここで、受信時間とは、そのコンテンツが提示された時間であってもよいし、記録(録画又は録音)された時間であってもよい。視聴者管理部111は、その受信時間のコンテンツの所要時間に対する比が所定値(例えば、1/4〜1/2)未満であるとき、そのコンテンツを未視聴と判定し、その比が所定値以上であるとき、そのコンテンツを視聴済と判定してもよい。視聴者管理部111は、受信時間が所定時間(例えば、3〜10分)未満である場合に、そのコンテンツを未視聴と判定し、受信時間が所定時間以上である場合、そのコンテンツを視聴済と判定してもよい。そして、視聴者管理部111は、判定した視聴状態、つまり、未視聴であるか視聴済であるかを視聴フラグの値として定める。視聴者管理部111は、視聴者IDとそのコンテンツのコンテンツIDと視聴フラグを対応付けて視聴データを生成する。
If the viewing information received from the receiving
視聴者管理部111は、視聴データが示す視聴者毎の視聴者IDと、対応付けられた視聴フラグが視聴済を示すコンテンツのコンテンツIDを特徴量取得部106に出力する。
特徴量取得部106は、視聴者管理部111から入力された視聴者毎のコンテンツIDを主旨ベクトル管理部110に出力し、その応答としてコンテンツIDに対応する主旨ベクトルを主旨ベクトル管理部110から入力される。ここで、主旨ベクトル管理部110は、自部に記憶された主旨ベクトルデータを参照して、特徴量取得部106から入力されたコンテンツIDに対応する主旨ベクトルを特徴量取得部106に出力する。特徴量取得部106は、視聴者管理部111から入力された視聴者IDと主旨ベクトル管理部110から入力された主旨ベクトルを対応付けて特徴量算出部109に出力する。
The
The feature
特徴量算出部109は、特徴量取得部106から入力された各主旨ベクトルの総和を視聴ベクトルとして算出する。特徴量算出部109は、入力された視聴者IDと算出した視聴ベクトルを視聴者管理部111に出力する。従って、特徴量算出部109は、視聴ベクトルといった視聴されたコンテンツに関する文章の意味を定量的に示す特徴ベクトルを合成する特徴ベクトル算出部として機能する。
The feature
視聴者管理部111は、特徴量算出部109から入力された視聴者IDと視聴ベクトルとを対応付けて記憶する。これにより、視聴者管理部111には、図26に例示されるように、視聴者ID及び視聴ベクトルを対応付けてなる視聴ベクトルデータが形成される。
The
図27は、本実施形態に係る視聴ベクトル取得処理の一例を示すフローチャートである。
(ステップS161)視聴者管理部111は、自部に記憶された視聴データが示す視聴者IDのうち未処理の視聴者IDの有無を判定する。あると判定されるとき(ステップS161 YES)、ステップS162の処理に進む。ないと判定されるとき(ステップS161 NO)、図27に示す処理を終了する。
FIG. 27 is a flowchart illustrating an example of a viewing vector acquisition process according to the present embodiment.
(Step S161) The
(ステップS162)視聴者管理部111は、自部に記憶された視聴データを参照して、未処理の視聴者IDのいずれかと関連付けられている全ての視聴済のコンテンツのコンテンツIDを特定する。視聴者管理部111は、その視聴者IDと特定したコンテンツIDを特徴量取得部106に出力する。その後、ステップS163の処理に進む。
(ステップS163)特徴量取得部106は、視聴者管理部111から入力されたコンテンツIDを主旨ベクトル管理部110に出力し、その応答としてそのコンテンツIDに関連付けられた主旨ベクトルが主旨ベクトル管理部110から入力される。特徴量取得部106は、視聴者管理部111から入力された視聴者IDと主旨ベクトル管理部110から入力された主旨ベクトルを特徴量算出部109に出力する。その後、ステップS164の処理に進む。
(Step S162) The
(Step S163) The feature
(ステップS164)特徴量算出部109は、特徴量取得部106から入力された主旨ベクトルの総和を視聴ベクトルとして算出する。その後、ステップS165の処理に進む。
(ステップS165)特徴量算出部109は、特徴量取得部106から入力された視聴者IDと算出した視聴ベクトルとを対応付けて視聴者管理部111に出力する。
(ステップS166)視聴者管理部111は、特徴量算出部109から入力された視聴者IDと、特徴量算出部109から入力された視聴ベクトルとを関連付けて記憶(管理)する。その後、処理対象の視聴者IDを他の未処理の視聴者IDに変更して、ステップS161の処理に進む。
(Step S164) The feature
(Step S165) The feature
(Step S166) The
なお、視聴者IDは、視聴に関する推薦単位として個々の視聴者と対応付けられてもよいし、個々の受信装置と対応付けられてもよいし、コンテンツ提供者との契約者が推薦単位として対応付けられてもよい。視聴者IDが共通の視聴者について複数の受信装置と対応付けられている場合には、視聴データ及び視聴ベクトルデータは、視聴者もしくは視聴者IDが共通する複数の受信装置において視聴されたコンテンツに関するデータが集積されて形成されてもよい。また、視聴者IDに代えて、個々の受信装置を識別する機器ID又は個々の契約者を識別する契約者IDが推薦単位を示す識別情報として用いられてもよい。また、ステップS164において、特徴量算出部109は、コンテンツに係る文章毎の主旨ベクトルに代えて、その文章毎の特徴を示す文章ベクトルの総和を主旨ベクトルとして算出してもよい。
Note that the viewer ID may be associated with individual viewers as a recommended unit for viewing, may be associated with individual receiving devices, or a contractor with a content provider corresponds as a recommended unit. It may be attached. In the case where viewers with a common viewer ID are associated with a plurality of receiving devices, the viewing data and viewing vector data relate to content viewed by a viewer or a plurality of receiving devices with a common viewer ID. Data may be integrated and formed. Further, instead of the viewer ID, a device ID for identifying each receiving device or a contractor ID for identifying each contractor may be used as identification information indicating a recommended unit. Further, in step S164, the feature
以上に説明したように、本実施形態に係る情報処理装置10において、特徴量ベクトル算出部として特徴量算出部109は、視聴されたコンテンツに係る文章について主旨ベクトル又は文章ベクトルを算出する。そして、特徴量算出部109は、算出した主旨ベクトル又は文章ベクトルを推薦単位毎に視聴されたコンテンツ間で合成して視聴ベクトルを算出する。
この構成により、推薦単位毎に視聴されたコンテンツに係る文章全体の特徴を示す視聴ベクトルが算出される。そのため、視聴単位毎に視聴されたコンテンツの特徴が大量の情報もしくは演算を要する複雑な統計的な手法に頼らずに、簡素な処理により定量化される。
As described above, in the
With this configuration, a viewing vector indicating the characteristics of the entire sentence related to the content viewed for each recommendation unit is calculated. Therefore, the feature of the content viewed for each viewing unit is quantified by a simple process without relying on a large amount of information or a complicated statistical method requiring computation.
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。上述の実施形態と同一の構成もしくは処理については、同一の符号を付してその説明を援用する。
図28は、本実施形態に係る情報処理システム1の構成例を示すブロック図である。
情報処理システム1は、情報処理装置10と、受信装置20とを含んで構成される。情報処理装置10と受信装置20との間は、ネットワークNWで接続され、相互間において各種のデータが送受信可能である。ネットワークNWは、例えば、インターネット、公衆通信網、などの広域通信網、構内通信網、専用回線のいずれか又は任意の組み合わせで構成される通信伝送路である。ネットワークNWは、無線、有線のいずれか、又はその組み合わせであってもよい。図28に示す受信装置20の個数は、1個であるが一般的には複数となる。また、図28に示す情報処理装置10の個数も1個であるが、複数であってもよい。情報処理装置10は、受信装置20におけるコンテンツの視聴状態を示す視聴情報に基づいて推薦コンテンツを定め、その推薦コンテンツのコンテンツデータ、又は推薦コンテンツの情報である推薦コンテンツ情報を受信装置20に提供する。
(Fourth embodiment)
Next, a fourth embodiment of the present invention will be described. About the same structure or process as the above-mentioned embodiment, the same code | symbol is attached | subjected and the description is used.
FIG. 28 is a block diagram illustrating a configuration example of the
The
受信装置20は、コンテンツ提供者の設備(図示せず)から伝送された各種のコンテンツから、ユーザである視聴者の操作に基づいて任意に選択したコンテンツのコンテンツデータを受信する。受信装置20は、受信したコンテンツデータに係るコンテンツを提示する。コンテンツの提示とは、そのコンテンツを構成する映像、テキストを表示すること、音声を再生することを意味する。受信装置20は、受信したコンテンツデータのコンテンツIDと、受信時間と、その受信装置20に係る視聴者IDを含んで構成される視聴情報を、ネットワークNWを介して送信する。コンテンツIDは、個々のコンテンツを特定する識別情報である。通信で伝送されるVODコンテンツについては、そのコンテンツを特定するコンテンツIDが与えられる。放送番組については、例えば、その放送番組を特定する番組IDがコンテンツIDに該当する。なお、コンテンツIDに代えて、放送チャンネル及び放送時間帯のセットなど、コンテンツを一意に特定できる情報が用いられてもよい。また、本明細書では、視聴とは、コンテンツの映像もしくはテキストの視認と、音声の受聴の一方又は両方の他、その映像もしくはテキストの表示と、音声の再生の一方又は両方を意味することがある。
The receiving
受信装置20は、例えば、コンテンツ提供業者のサーバ装置(図示せず)からネットワークNWを介して映像、音声、テキスト、又はそれらを組み合わせてなる各種のコンテンツのコンテンツデータを受信する通信端末装置であってもよい。通信端末装置は、例えば、多機能携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、パーソナルコンピュータ、などである。受信装置20は、例えば、コンテンツとして放送番組の映像データと音声データを受信する専用のテレビジョン受信装置であってもよいし、テレビジョン放送の番組データを受信可能なチューナを備える汎用の通信端末装置であってもよい。
The receiving
次に、本実施形態に係る情報処理装置10の構成について説明する。
図29は、本実施形態に係る情報処理装置10の構成例を示すブロック図である。
情報処理装置10において、データ管理部10aは、文章管理部101、キーワード管理部108、主旨ベクトル管理部110、及び視聴者管理部111の他、推薦管理部113を備える。データ処理部10bは、分離部102、Doc2vec部103、誤差算出部104、Weight算出部105、特徴量取得部106、類似度算出部107、及び特徴量算出部109を含んで構成される。また、情報処理装置10は、さらにコンテンツ配信部10cを含んで構成される。
Next, the configuration of the
FIG. 29 is a block diagram illustrating a configuration example of the
In the
(コンテンツ推薦処理)
次に、本実施形態に係る情報処理装置10が行うコンテンツ推薦処理について説明する。
以下の説明では、受信装置20が、主にネットワークNWを介して各種のコンテンツデータを受信し、情報処理装置10が受信装置20において未視聴のコンテンツを推薦コンテンツの候補とする場合を例にする。視聴者管理部111には、上述した視聴ベクトルデータの他、推薦候補となる未視聴の配信可能なコンテンツを示すコンテンツIDを含む視聴データを予め記憶しておく。また、主旨ベクトル管理部110には、配信可能なコンテンツのコンテンツIDと主旨ベクトルとを対応付けて形成された主旨ベクトルデータを予め記憶しておく。
(Content recommendation process)
Next, content recommendation processing performed by the
In the following description, an example is given in which the receiving
図30は、本実施形態に係る視聴ベクトル取得処理の一例に係る機能ブロック図である。
視聴者管理部111は、予め記憶された視聴ベクトルデータが示す視聴者毎の視聴者IDと対応付けられた視聴ベクトルを特徴量取得部106に出力する。また、視聴者管理部111は、その視聴者IDに対応付けられた視聴フラグの値が未視聴であるコンテンツのコンテンツIDを特定し、特定したコンテンツIDを特徴量取得部106に出力する。
FIG. 30 is a functional block diagram according to an example of viewing vector acquisition processing according to the present embodiment.
The
特徴量取得部106は、視聴者管理部111から入力された配信予定のコンテンツIDを主旨ベクトル管理部110に出力し、その応答としてコンテンツIDに対応する主旨ベクトルを主旨ベクトル管理部110から入力される。ここで、主旨ベクトル管理部110は、自部に記憶された主旨ベクトルデータを参照して、特徴量取得部106から入力されたコンテンツIDに対応する主旨ベクトルを特徴量取得部106に出力する。特徴量取得部106は、視聴者管理部111から入力された視聴者ID、視聴ベクトルと、入力された個々のコンテンツIDに、主旨ベクトル管理部110から入力された主旨ベクトルを対応付けて類似度算出部107に出力する。
The feature
類似度算出部107は、特徴量取得部106から入力された視聴ベクトルと個々のコンテンツIDに対応付けられた主旨ベクトルとの類似度を算出する。類似度を算出する手法は、上述した手法と同様であってもよい。類似度算出部107は、特徴量取得部106から入力された視聴者IDと、個々のコンテンツIDに算出した類似度と対応付けて推薦管理部113に出力する。
The
推薦管理部113は、類似度算出部107から入力された類似度が所定の類似度よりも高いコンテンツのコンテンツIDを推薦コンテンツのコンテンツIDとして選択する。推薦管理部113は、選択されたコンテンツIDもしくは、入力されたコンテンツIDから類似度が最も高いコンテンツから類似度の降順に所定数のコンテンツのコンテンツIDを推薦コンテンツのコンテンツIDとして選択してもよい。推薦管理部113は、類似度算出部107から入力された視聴者IDと選択したコンテンツIDとを対応付けて記憶する。推薦管理部113には、図31に示すように、各視聴者の視聴者IDとその視聴者に推薦する推薦コンテンツのコンテンツIDとを対応付けてなる推薦コンテンツデータが記憶される。
The
図32は、本実施形態に係るコンテンツ推薦処理の一例を示すフローチャートである。
(ステップS171)視聴者管理部111は、自部に記憶された視聴ベクトルデータが示す視聴者IDのうち未処理の視聴者IDの有無を判定する。あると判定されるとき(ステップS171 YES)、ステップS172の処理に進む。ないと判定されるとき(ステップS171 NO)、図32に示す処理を終了する。
FIG. 32 is a flowchart showing an example of content recommendation processing according to the present embodiment.
(Step S171) The
(ステップS172)視聴者管理部111は、自部に記憶された視聴データを参照して、未処理の視聴者IDのうちのいずれかの視聴者IDと関連付けられている全ての未視聴のコンテンツのコンテンツIDを特定する。また、視聴者管理部111は、自部に記憶された視聴ベクトルデータを参照して、その視聴者IDに対応付けられた視聴ベクトルを特定する。視聴者管理部111は、その視聴者ID、特定した視聴ベクトル及び特定した全てのコンテンツIDを特徴量取得部106に出力する。その後、ステップS173の処理に進む。
(ステップS173)特徴量取得部106は、視聴者管理部111から入力されたコンテンツIDをそれぞれ主旨ベクトル管理部110に出力し、その応答としてそのコンテンツIDに関連付けられた主旨ベクトルが主旨ベクトル管理部110から取得する。その後、ステップS174の処理に進む。
(ステップS174)特徴量取得部106は、視聴者管理部111から入力された視聴者IDと視聴ベクトルと、コンテンツIDと主旨ベクトル管理部110から入力された主旨ベクトルのセットを類似度算出部107に出力する。その後、ステップS175の処理に進む。
(Step S172) The
(Step S173) The feature
(Step S174) The feature
(ステップS175)類似度算出部107は、特徴量取得部106から入力された視聴ベクトルと、各コンテンツIDに対応付けられた主旨ベクトルとの類似度を算出する。その後、ステップS176の処理に進む。
(ステップS176)類似度算出部107は、特徴量取得部106から入力された視聴者IDと、コンテンツIDと算出した類似度とを対応付けてなるセットを推薦管理部113に出力する。その後、ステップS177の処理に進む。
(ステップS177)推薦管理部113は、類似度算出部107から入力された視聴者IDと類似度が処理の類似度よりも高いコンテンツのコンテンツIDとを関連付けて記憶(管理)する。その後、処理対象の視聴者IDを他の未処理の視聴者IDに変更して、ステップS171の処理に進む。
(Step S175) The
(Step S176) The
(Step S177) The
(コンテンツ推薦処理の応用)
次に、本実施形態のコンテンツ推薦処理の一応用例として、広告配信への応用例について説明する。以下に説明する例では、推薦管理部113には、視聴者IDとその視聴者への推薦コンテンツである未視聴のコンテンツに関する広告のコンテンツIDとを対応付けてなる推薦コンテンツデータを予め記憶させておく。また、コンテンツ配信部10cは、コンテンツ選択部114を含んで構成され、コンテンツID毎にその広告を示すコンテンツデータを予め記憶させておく。
(Application of content recommendation processing)
Next, as an application example of the content recommendation process of the present embodiment, an application example to advertisement distribution will be described. In the example described below, the
図33は、本実施形態に係る広告配信の一例に係る機能ブロック図である。
受信装置20は、所定の時点において広告配信要求信号と自装置に予め設定された視聴者IDを情報処理装置10のコンテンツ配信部10cに送信する。
コンテンツ配信部10cのコンテンツ選択部114は、受信装置20から広告配信要求信号と視聴者IDを受信したことに応じて、受信した視聴者IDを推薦管理部113に出力する。コンテンツ選択部114には、その応答として推薦管理部113から視聴者IDに対応するコンテンツIDが入力される。推薦管理部113は、自部に記憶された推薦コンテンツデータを参照して、コンテンツ選択部114から入力された視聴者IDに対応するコンテンツIDを特定し、特定したコンテンツIDをコンテンツ選択部114に出力する。
FIG. 33 is a functional block diagram according to an example of advertisement distribution according to the present embodiment.
The receiving
The content selection unit 114 of the
コンテンツ配信部10cは、自部に記憶された広告のコンテンツデータのうち、コンテンツ選択部114に入力されたコンテンツIDに対応付けられたコンテンツデータを特定し、特定したコンテンツデータを受信装置20に送信する。
受信装置20は、情報処理装置10のコンテンツ配信部10cからコンテンツデータを受信し、受信したコンテンツデータが示す広告を提示する。受信装置20が広告を提示するタイミング、又は広告配信要求のタイミングは、例えば、放送番組又はその他のコンテンツの非受信中である。その場合には、視聴者による番組その他のコンテンツの視聴が妨げられないうえ、視聴者に広告が視聴される可能性が高くなる。
The
The receiving
図34は、本実施形態に係る広告配信処理の一例を示すフローチャートである。
(ステップS181)コンテンツ配信部10cのコンテンツ選択部114は、受信装置20から広告配信要求信号と視聴者IDを受信したか否かを判定する。受信したと判定されるとき(ステップS181 YES)、ステップS182の処理に進む。受信していないと判定されるとき(ステップS181 NO)、図34に示す処理を終了する。
FIG. 34 is a flowchart illustrating an example of the advertisement distribution process according to the present embodiment.
(Step S181) The content selection unit 114 of the
(ステップS182)コンテンツ選択部114は、受信した視聴者IDを推薦管理部113に出力し、その応答として推薦管理部113から視聴者IDに関連付けられている全てのコンテンツIDを取得する。その後、ステップS183の処理に進む。
(ステップS183)コンテンツ選択部114は、取得したコンテンツIDをコンテンツ配信部10cに出力する。その後、ステップS184の処理に進む。
(ステップS184)コンテンツ配信部10cは、コンテンツ選択部114から入力されたコンテンツIDに関連付けられた広告を含んだコンテンツデータを広告配信要求信号の送信元である受信装置20に送信(配信)する。その後、ステップS181の処理に進む。
(Step S182) The content selection unit 114 outputs the received viewer ID to the
(Step S183) The content selection unit 114 outputs the acquired content ID to the
(Step S184) The
次に、本実施形態のコンテンツ推薦処理の他の応用例として、推薦コンテンツ配信への応用例について説明する。以下に説明する例では、視聴者管理部111には、視聴者ID、推薦候補となる未視聴の配信可能なVODコンテンツを示すコンテンツID、及び視聴フラグとを対応付けてなる視聴データを予め記憶させておく。また、コンテンツ配信部10cには、予めコンテンツIDとそのコンテンツを示すコンテンツデータとを対応付けて記憶させておく。
Next, an application example to recommended content distribution will be described as another application example of the content recommendation processing of the present embodiment. In the example described below, the
図35は、本実施形態に係る推薦コンテンツ配信の一例に係る機能ブロック図である。
受信装置20は、ユーザである視聴者の所定の操作を受け付けるとき、コンテンツ配信要求信号と自装置に予め設定された視聴者IDを情報処理装置10のコンテンツ配信部10cに送信する。
コンテンツ配信部10cは、受信装置20からコンテンツ配信要求信号と視聴者IDを受信したことに応じて、受信した視聴者IDを視聴者管理部111に出力する。コンテンツ配信部10cには、その応答として視聴者管理部111から視聴者IDに対応するコンテンツIDが入力される。
FIG. 35 is a functional block diagram according to an example of recommended content distribution according to the present embodiment.
When receiving a predetermined operation of a viewer who is a user, the receiving
In response to receiving the content distribution request signal and the viewer ID from the receiving
視聴者管理部111は、自部に記憶された視聴データを参照して、コンテンツ配信部10cから入力された視聴者IDに対応するコンテンツのうち、関連付けられた視聴フラグの値が未視聴であるコンテンツのいずれかのコンテンツIDを選択する。視聴者管理部111は、選択したコンテンツIDをコンテンツ配信部10cに出力する。なお、視聴者管理部111は、入力された視聴者IDに対応する視聴ベクトルと、未視聴であるコンテンツのうち、その主旨ベクトルと視聴ベクトルとの類似度が最も高いコンテンツのコンテンツIDを選択してもよい。視聴ベクトル、主旨ベクトルは、それぞれ視聴者管理部111に記憶された視聴ベクトルデータ、主旨ベクトル管理部110に記憶された主旨ベクトルデータを参照して、取得される。
ここで、視聴者管理部111は、選択したコンテンツIDに対応付けられた視聴フラグの値を視聴済に変更してもよい。
The
Here, the
コンテンツ配信部10cは、視聴者管理部111から入力されたコンテンツIDに対応付けられたコンテンツのコンテンツデータを特定し、特定したコンテンツデータをコンテンツ配信要求信号の送信元である受信装置20に送信する。
受信装置20は、情報処理装置10からコンテンツデータを受信し、受信したコンテンツデータが示すコンテンツを提示する。
The
The receiving
図36は、本実施形態に係る推薦コンテンツ配信処理の一例を示すフローチャートである。
(ステップS191)コンテンツ配信部10cは、受信装置20からコンテンツ配信要求信号と視聴者IDを受信したか否かを判定する。受信したと判定されるとき(ステップS191 YES)、ステップS192の処理に進む。受信していないと判定されるとき(ステップS191 NO)、図36に示す処理を終了する。
FIG. 36 is a flowchart illustrating an example of recommended content distribution processing according to the present embodiment.
(Step S191) The
(ステップS192)コンテンツ配信部10cは、受信した視聴者IDを視聴者管理部111に出力し、その応答として視聴者管理部111から視聴者IDに関連付けられている未視聴のコンテンツのコンテンツIDのいずれかを取得する。コンテンツ配信部10cは、取得したコンテンツIDに関連付けられたコンテンツデータを受信装置20に送信(配信)する。その後、ステップS193の処理に進む。
(ステップS193)視聴者管理部111は、自部に記憶する視聴データにおいて、コンテンツ配信部10cからの視聴者IDに応じて選択したコンテンツのコンテンツIDに関連付けられた視聴フラグが示す視聴状態の値を未視聴から視聴済に変更する。その後、ステップS191の処理に進む。
(Step S192) The
(Step S193) In the viewing data stored in the own part, the
以上に説明したように、本実施形態に係る情報処理装置10において、特徴量ベクトル算出部として特徴量算出部109は、未視聴のコンテンツに係る文章の主旨を示す第2主旨ベクトル又は当該文章の特徴を示す第2文章ベクトルを、視聴されたコンテンツに係る文章の主旨を示す主旨ベクトル又は当該文章の特徴を示す文章ベクトルとは別個に算出する。また、類似度算出部107は、第2主旨ベクトルもしくは第2文章ベクトルと視聴ベクトルとの類似度を算出する。また、本実施形態に係る情報処理装置10は、コンテンツ選択部として、算出された類似度に基づいて未視聴のコンテンツから推薦コンテンツを選択するコンテンツ配信部10cを備える。
この構成により、視聴単位毎に視聴されたコンテンツに係る文章の特徴を示す視聴ベクトルと、第2主旨ベクトル又は第2文章ベクトルとの類似度が高い文章に係る未視聴のコンテンツが推薦コンテンツとして選択される。そのため、推薦コンテンツとして、視聴単位毎に視聴されたコンテンツと特徴が類似する未視聴のコンテンツが選択される。従って、視聴単位毎の嗜好に沿った未視聴のコンテンツが推薦される。
As described above, in the
With this configuration, an unviewed content related to a sentence having a high degree of similarity between the viewing vector indicating the characteristics of the sentence related to the content viewed for each viewing unit and the second purpose vector or the second sentence vector is selected as the recommended content. Is done. For this reason, unreviewed content whose characteristics are similar to the content viewed for each viewing unit is selected as the recommended content. Therefore, unviewed content according to the preference for each viewing unit is recommended.
また、本実施形態に係る情報処理システム1は、当該情報処理装置10と、受信装置20を備える。受信装置20は、コンテンツを受信し、視聴されたコンテンツを示す視聴情報を情報処理装置10に送信し、情報処理装置から推薦コンテンツに関する推薦コンテンツ情報として、そのコンテンツデータ又はコンテンツ通知情報を受信する。
この構成により、受信装置20において視聴されたコンテンツに文章の特徴を示す視聴ベクトルと、第2主旨ベクトル又は第2文章ベクトルとの類似度が高い文章に係る未視聴のコンテンツに関する推薦コンテンツ情報が、受信装置20に提供される。受信装置20の視聴者の嗜好に沿った未視聴のコンテンツに関する情報が、推薦コンテンツ情報として提供される。複雑な統計処理を伴わず比較的簡素な代数的な手法により推薦コンテンツ情報が提供可能なため、その実現に係るコストを低減することができる。
Further, the
With this configuration, the recommended content information related to the unviewed content related to the sentence having a high similarity between the viewing vector indicating the feature of the sentence in the content viewed by the receiving
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。例えば、上述の実施形態において説明した各構成は、任意に組み合わせることができる。 As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the scope of the present invention. It is possible to For example, the configurations described in the above embodiments can be arbitrarily combined.
上述の実施形態では、主にDoc2Vec部103が単語ベクトル、文章ベクトルを算出する際、ニューラルネットワークを用いる場合を例にしたが、これには限られない。互いに共通のベクトル空間内における特徴ベクトルであって、個々の単語の意味を示す単語ベクトル、個々の文章の意味を示す文章ベクトルを取得できれば、他の数理モデルが用いられてもよい。そのような数理モデルとして、例えば、メディア辞書変換演算モデル(Media−lexicon Transformation Operator Model)などが用いられてもよい。
In the above-described embodiment, the case where the
第4の実施形態では、情報処理装置10から受信装置20に提供される推薦コンテンツ情報が広告やVODコンテンツなどのコンテンツデータである場合を例にしたが、これには限られない。その他の種別の情報が提供されてもよい。例えば、そのコンテンツの概要、人間がそのコンテンツを特定するための情報、そのコンテンツの属性を示す情報などの、いずれか又は任意の組み合わせを含んだコンテンツ通知情報が用いられてもよい。コンテンツを特定するための情報とは、例えば、そのコンテンツのタイトル、サブタイトルなどが含まれる。そのコンテンツがVODコンテンツである場合には、そのVODコンテンツを送信可能とするサーバ装置のURL(Uniform Resource Locator)などのアクセス情報が含まれてもよい。そのコンテンツが放送予定の放送番組である場合には、放送局名もしくは放送チャンネル番号、放送時間などの情報が含まれてもよい。そのコンテンツの属性を示す情報には、例えば、ジャンル、出演者、原作者、などの情報が含まれてもよい。コンテンツ通知情報を提供対象とする場合、コンテンツ配信部10cにおいて、コンテンツデータに代えて、もしくはコンテンツデータとともにコンテンツIDとコンテンツ通知情報を対応付けて記憶させておく。そして、コンテンツ配信部10cは、コンテンツデータに代えてコンテンツ通知情報を受信装置20に送信する。
In the fourth embodiment, the recommended content information provided from the
なお、上述した実施形態において、形態素データに含まれる各単語、単語データに含まれる各単語、キーワードデータに含まれる各単語として、自立語が用いられ、その他の品詞の単語、つまり付属語が除外されてもよい。自立語とは、独立して特定の意味を有する単語である。例えば、日本語では、品詞が動詞、形容動詞、形容詞、動詞、又は名詞である単語である。英語では、品詞が、動詞、形容詞、副詞、又は名詞である単語である。これにより、独立して特定の意味をなさない単語である付属語が頻出する場合でも、その単語の影響を受けずに文章と単語との関係が解析可能となる。また、ある単語、例えば、動詞、形容動詞、形容詞、副詞などの変化形については、それぞれ区別されずに同一の単語として扱われてもよい。また、複数の単語からなる複合語は、その複合語を構成する各単語とは別個の単語として区別されてもよい。 In the above-described embodiment, independent words are used as the words included in the morpheme data, the words included in the word data, and the words included in the keyword data. May be. An independent word is a word having a specific meaning independently. For example, in Japanese, a part of speech is a word that is a verb, an adjective verb, an adjective, a verb, or a noun. In English, parts of speech are words that are verbs, adjectives, adverbs, or nouns. Thereby, even when an attached word that is a word that does not have a specific meaning frequently appears independently, the relationship between the sentence and the word can be analyzed without being influenced by the word. Also, certain words, such as verbs, adjective verbs, adjectives, adverbs, etc. may be treated as the same word without being distinguished from each other. In addition, a compound word composed of a plurality of words may be distinguished from each word constituting the compound word as a separate word.
なお、上述した実施形態において、特徴量算出部109が、コンテンツ毎に各キーワードベクトルを合成して主旨ベクトルを算出する演算、コンテンツ間で主旨ベクトル又は文章ベクトルを合成して視聴ベクトルを算出する演算が、総和である場合を例にしたが、合成に用いるそれぞれのベクトルによる寄与を統合する演算であれば総和に限られない。そのような演算は、例えば、平均であってもよい。なお、合成に用いられるベクトルの数が1個である場合には、そのベクトルが合成結果としてのベクトルとなる。
In the above-described embodiment, the feature
また、上述した各実施形態に係る情報処理装置10のハードウェア構成について説明する。図37は、各実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。
情報処理装置10は、CPU121、記憶媒体122、ドライブ部123、入力部124、出力部125、ROM126、RAM127、補助記憶部128、及びインタフェース部129を含んで構成される。CPU121、ドライブ部123、入力部124、出力部125、ROM126、RAM127、補助記憶部128、及びインタフェース部129は、バス(母線)120を介して相互に接続され、各種のデータが入出力可能である。
The hardware configuration of the
The
CPU121は、所定の制御プログラムをROM126から読み出し、その制御プログラムで指示される処理を実行する。その処理において記憶媒体122、ROM126、RAM127、補助記憶部128のいずれか又はそれらの組において記憶された各種のデータが用いられることや、CPU121は、実行している処理により生成されるデータを記憶媒体122、ROM126、RAM127、補助記憶部128のいずれか又はそれらの組に記憶させる。これにより、上述したデータ管理部10aならびにデータ処理部10b、又はデータ管理部10a、データ処理部10bならびにコンテンツ配信部10cの機能が実現される。
The
記憶媒体122は、各種のデータを記憶する可搬記憶媒体である。記憶媒体122は、例えば、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどである。
ドライブ部123は、記憶媒体122からの各種データの読み出し又は書き込みを行う機器を含んで構成されるデバイスである。
入力部124は、例えば、マウス、キーボードなどのユーザの操作を受け付け、その操作に基づく操作信号をCPU121に出力するデバイスである。
出力部125は、例えば、ディスプレイ、スピーカなどCPU121から入力されるデータを人間が認識できる形態で提示するデバイスである。
ROM126には、例えば、所定の制御プログラムや所定の設定データを予め記憶させておく記憶媒体である。RAM127には、例えば、CPU121における処理に用いる各種のデータ、プログラム、CPU121において生成された各種のデータを一時的に記憶する記憶媒体である。
補助記憶部128は、HDD(Hard−disk Drive)、フラッシュメモリなどの記憶媒体であり、例えば、CPU121の処理に用いる各種データ、CPU121で生成された各種のデータを記憶する記憶媒体である。インタフェース部129は、通信インタフェースを有し、有線又は無線によりネットワークNWに接続される。
The
The
The
The
For example, the
The
なお、CPU121が実行する処理を指示するプログラムは、ROM126に限られず、記憶媒体122や補助記憶部128に記憶されたプログラムであってもよいし、ネットワークNWからダウンロードされたプログラムであってもよい。そのダウンロードされたプログラムは、記憶媒体122や補助記憶部128などに記憶されてもよい。記憶媒体122、入力部124、及び出力部125、補助記憶部128のいずれか又はそれらの組は、情報処理装置10のその他の部位とで着脱可能であってもよい。
Note that the program instructing the processing executed by the
なお、上述した実施形態における情報処理装置10及び受信装置20の一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、情報処理装置10又は受信装置20に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における情報処理装置10及び受信装置20の一部又は全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。情報処理装置10及び受信装置20の各機能ブロックは個別にプロセッサ化してもよいし、一部又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
In addition, you may make it implement | achieve a part of
Moreover, you may implement | achieve part or all of the
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the scope of the present invention. It is possible to
1…情報処理システム、10…情報処理装置、10a…データ管理部、10b…データ処理部、10c…コンテンツ配信部、20…受信装置、101…文章管理部、102…分離部、103…Doc2Vec部、104…誤差算出部、105…Weight算出部、106…特徴量取得部、107…類似度算出部、108…キーワード管理部、109…特徴量算出部、110…主旨ベクトル管理部、111…視聴者管理部、113…推薦管理部、114…コンテンツ選択部、120…バス、121…CPU、122…記憶媒体、123…ドライブ部、124…入力部、125…出力部、126…ROM、127…RAM、128…補助記憶部、129…インタフェース部、NW…ネットワーク
DESCRIPTION OF
Claims (7)
前記文章ベクトルと前記単語ベクトルとの類似度を算出し、前記類似度に基づいて前記文章に含まれる一部の単語を抽出する類似度算出部と、
を備える情報処理装置。 A sentence vector indicating the characteristics of the sentence; and a feature vector calculating unit that calculates a word vector indicating the characteristics of each word included in the sentence;
A similarity calculation unit that calculates a similarity between the sentence vector and the word vector, and extracts some words included in the sentence based on the similarity;
An information processing apparatus comprising:
前記一部の単語の単語ベクトルに基づいて前記文章の主旨を示す主旨ベクトルを算出する請求項1に記載の情報処理装置。 The feature vector calculation unit includes:
The information processing apparatus according to claim 1, wherein a gist vector indicating a gist of the sentence is calculated based on a word vector of the part of words.
視聴されたコンテンツに係る文章について前記主旨ベクトル又は文章ベクトルを算出し、
前記主旨ベクトル又は前記文章ベクトルを前記視聴されたコンテンツ間で合成して視聴ベクトルを算出する請求項2に記載の情報処理装置。 The feature vector calculation unit includes:
Calculate the gist vector or sentence vector for the sentence related to the viewed content,
The information processing apparatus according to claim 2, wherein the viewing vector is calculated by synthesizing the gist vector or the text vector among the viewed content.
未視聴のコンテンツに係る文章の主旨を示す第2主旨ベクトル又は当該文章の特徴を示す第2文章ベクトルを算出し、
前記類似度算出部は、
前記第2主旨ベクトルもしくは第2文章ベクトルと前記視聴ベクトルとの類似度を算出し、
前記類似度に基づいて前記未視聴のコンテンツから推薦コンテンツを選択するコンテンツ選択部
を備える請求項3に記載の情報処理装置。 The feature vector calculation unit includes:
Calculating a second gist vector indicating the gist of the text related to unviewed content or a second text vector indicating the characteristics of the text;
The similarity calculation unit includes:
Calculating a similarity between the second concept vector or the second sentence vector and the viewing vector;
The information processing apparatus according to claim 3, further comprising: a content selection unit that selects recommended content from the unviewed content based on the similarity.
前記受信装置は、
コンテンツを受信し、視聴されたコンテンツを示す視聴情報を前記情報処理装置に送信し、前記情報処理装置から前記推薦コンテンツに関する推薦コンテンツ情報を受信する
情報処理システム。 In an information processing system comprising a receiving device and the information processing device according to claim 4,
The receiving device is:
An information processing system that receives content, transmits viewing information indicating the viewed content to the information processing apparatus, and receives recommended content information related to the recommended content from the information processing apparatus.
文章の特徴を示す文章ベクトルと、前記文章に含まれる単語の特徴を示す単語ベクトルを算出する特徴ベクトル算出過程と、
前記文章ベクトルと前記単語ベクトルとの類似度を算出し、前記類似度に基づいて前記文章に含まれる一部の単語を抽出する単語抽出過程と、
を有する情報処理方法。 An information processing method in an information processing apparatus,
A sentence vector indicating the characteristics of the sentence; and a feature vector calculating process for calculating a word vector indicating the characteristics of the word included in the sentence;
Calculating a similarity between the sentence vector and the word vector, and extracting a part of words included in the sentence based on the similarity;
An information processing method comprising:
文章の特徴を示す文章ベクトルと、前記文章に含まれる単語の特徴を示す単語ベクトルを算出する特徴ベクトル算出手順、
前記文章ベクトルと前記単語ベクトルとの類似度を算出し、前記類似度に基づいて前記文章に含まれる単語の一部を抽出する単語抽出手順、
を実行させるためのプログラム。 A feature vector calculation procedure for calculating a sentence vector indicating a feature of a sentence and a word vector indicating a feature of a word included in the sentence in a computer of the information processing apparatus;
A word extraction procedure for calculating a similarity between the sentence vector and the word vector, and extracting a part of words included in the sentence based on the similarity;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016163886A JP2018032213A (en) | 2016-08-24 | 2016-08-24 | Information processor, information processing system, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016163886A JP2018032213A (en) | 2016-08-24 | 2016-08-24 | Information processor, information processing system, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018032213A true JP2018032213A (en) | 2018-03-01 |
Family
ID=61304314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016163886A Pending JP2018032213A (en) | 2016-08-24 | 2016-08-24 | Information processor, information processing system, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018032213A (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210030A (en) * | 2019-05-31 | 2019-09-06 | 三角兽(北京)科技有限公司 | The method and device of Sentence analysis |
CN110287312A (en) * | 2019-05-10 | 2019-09-27 | 平安科技(深圳)有限公司 | Calculation method, device, computer equipment and the computer storage medium of text similarity |
JP2019194807A (en) * | 2018-05-02 | 2019-11-07 | 株式会社Fronteoヘルスケア | Dangerous action prediction device, prediction model generation device, and program for dangerous action prediction |
WO2019212006A1 (en) * | 2018-05-02 | 2019-11-07 | 株式会社Fronteoヘルスケア | Phenomenon prediction device, prediction model generation device, and phenomenon prediction program |
CN110781687A (en) * | 2019-11-06 | 2020-02-11 | 三角兽(北京)科技有限公司 | Same intention statement acquisition method and device |
JP2020042659A (en) * | 2018-09-12 | 2020-03-19 | 株式会社Fronteo | Dementia prediction device, prediction model generation device and program for dementia prediction |
CN111199148A (en) * | 2019-12-26 | 2020-05-26 | 东软集团股份有限公司 | Text similarity determination method and device, storage medium and electronic equipment |
CN111597799A (en) * | 2019-02-01 | 2020-08-28 | 北京国双科技有限公司 | Text processing method based on deep learning and related equipment |
CN112016296A (en) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | Sentence vector generation method, device, equipment and storage medium |
CN114528851A (en) * | 2022-02-17 | 2022-05-24 | 平安科技(深圳)有限公司 | Reply statement determination method and device, electronic equipment and storage medium |
CN114841146A (en) * | 2022-05-11 | 2022-08-02 | 平安科技(深圳)有限公司 | Text abstract generation method and device, electronic equipment and storage medium |
CN115292477A (en) * | 2022-07-18 | 2022-11-04 | 盐城金堤科技有限公司 | Method and device for judging pushing similar articles, storage medium and electronic equipment |
-
2016
- 2016-08-24 JP JP2016163886A patent/JP2018032213A/en active Pending
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102315984B1 (en) * | 2018-05-02 | 2021-10-20 | 가부시키가이샤 프론테오 | Event prediction device, prediction model generator and event prediction program |
CN112106040A (en) * | 2018-05-02 | 2020-12-18 | 株式会社Fronteo | Event prediction device, prediction model generation device, and event prediction program |
JP2019194807A (en) * | 2018-05-02 | 2019-11-07 | 株式会社Fronteoヘルスケア | Dangerous action prediction device, prediction model generation device, and program for dangerous action prediction |
WO2019212005A1 (en) * | 2018-05-02 | 2019-11-07 | 株式会社Fronteoヘルスケア | Dangerous behavior prediction device, prediction model generation device, and dangerous behavior prediction program |
WO2019212006A1 (en) * | 2018-05-02 | 2019-11-07 | 株式会社Fronteoヘルスケア | Phenomenon prediction device, prediction model generation device, and phenomenon prediction program |
KR102280664B1 (en) * | 2018-05-02 | 2021-07-21 | 가부시키가이샤 프론테오 | Risky behavior prediction device, predictive model generation device, and risk behavior prediction program |
KR20200128752A (en) * | 2018-05-02 | 2020-11-16 | 가부시키가이샤 프론테오 | Risk behavior prediction device, prediction model generation device, and risk behavior prediction program |
KR20200128584A (en) * | 2018-05-02 | 2020-11-13 | 가부시키가이샤 프론테오 | Event prediction device, prediction model generation device, and event prediction program |
JP2020042659A (en) * | 2018-09-12 | 2020-03-19 | 株式会社Fronteo | Dementia prediction device, prediction model generation device and program for dementia prediction |
WO2020054186A1 (en) * | 2018-09-12 | 2020-03-19 | 株式会社Fronteo | Cognitive impairment prediction device, prediction model generation device, and program for cognitive impairment prediction |
CN112470143A (en) * | 2018-09-12 | 2021-03-09 | 株式会社Fronteo | Dementia prediction device, prediction model generation device, and dementia prediction program |
CN111597799A (en) * | 2019-02-01 | 2020-08-28 | 北京国双科技有限公司 | Text processing method based on deep learning and related equipment |
CN110287312B (en) * | 2019-05-10 | 2023-08-25 | 平安科技(深圳)有限公司 | Text similarity calculation method, device, computer equipment and computer storage medium |
CN110287312A (en) * | 2019-05-10 | 2019-09-27 | 平安科技(深圳)有限公司 | Calculation method, device, computer equipment and the computer storage medium of text similarity |
CN110210030A (en) * | 2019-05-31 | 2019-09-06 | 三角兽(北京)科技有限公司 | The method and device of Sentence analysis |
CN110781687A (en) * | 2019-11-06 | 2020-02-11 | 三角兽(北京)科技有限公司 | Same intention statement acquisition method and device |
CN111199148B (en) * | 2019-12-26 | 2023-01-20 | 东软集团股份有限公司 | Text similarity determination method and device, storage medium and electronic equipment |
CN111199148A (en) * | 2019-12-26 | 2020-05-26 | 东软集团股份有限公司 | Text similarity determination method and device, storage medium and electronic equipment |
CN112016296A (en) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | Sentence vector generation method, device, equipment and storage medium |
CN112016296B (en) * | 2020-09-07 | 2023-08-25 | 平安科技(深圳)有限公司 | Sentence vector generation method, sentence vector generation device, sentence vector generation equipment and sentence vector storage medium |
CN114528851B (en) * | 2022-02-17 | 2023-07-25 | 平安科技(深圳)有限公司 | Reply sentence determination method, reply sentence determination device, electronic equipment and storage medium |
CN114528851A (en) * | 2022-02-17 | 2022-05-24 | 平安科技(深圳)有限公司 | Reply statement determination method and device, electronic equipment and storage medium |
CN114841146A (en) * | 2022-05-11 | 2022-08-02 | 平安科技(深圳)有限公司 | Text abstract generation method and device, electronic equipment and storage medium |
CN114841146B (en) * | 2022-05-11 | 2023-07-04 | 平安科技(深圳)有限公司 | Text abstract generation method and device, electronic equipment and storage medium |
CN115292477A (en) * | 2022-07-18 | 2022-11-04 | 盐城金堤科技有限公司 | Method and device for judging pushing similar articles, storage medium and electronic equipment |
CN115292477B (en) * | 2022-07-18 | 2024-04-16 | 盐城天眼察微科技有限公司 | Method and device for judging push similar articles, storage medium and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018032213A (en) | Information processor, information processing system, information processing method and program | |
JP2023176014A (en) | Method and system for using machine-learning extract and semantic graph to create structured data to drive search, recommendation, and discovery | |
JP6355800B1 (en) | Learning device, generating device, learning method, generating method, learning program, and generating program | |
JP4923604B2 (en) | Information processing apparatus and method, and program | |
KR101061234B1 (en) | Information processing apparatus and method, and recording medium | |
JP4370850B2 (en) | Information processing apparatus and method, program, and recording medium | |
KR20160057475A (en) | System and method for actively obtaining social data | |
US9323744B2 (en) | Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration | |
JP2007264789A (en) | Scene information extraction method, scene extraction method and extraction device | |
KR102314645B1 (en) | A method and device of various-type media resource recommendation | |
JP2020174338A (en) | Method, device, server, computer-readable storage media, and computer program for generating information | |
US20130318021A1 (en) | Information processing apparatus, information processing method, and program | |
JP7096172B2 (en) | Devices, programs and methods for generating dialogue scenarios, including utterances according to character. | |
CN115470344A (en) | Video barrage and comment theme fusion method based on text clustering | |
US20230269429A1 (en) | Systems and methods for generating dynamic annotations | |
JP5881647B2 (en) | Determination device, determination method, and determination program | |
JP6373243B2 (en) | Information processing apparatus, information processing method, and information processing program | |
CN109190116B (en) | Semantic analysis method, system, electronic device and storage medium | |
Mamo | Big data and innovative research methods | |
US20170161796A1 (en) | Individualized ratings based on user preferences | |
KR20140083637A (en) | Server and method for providing contents of customized based on user emotion | |
CN110659419B (en) | Method and related device for determining target user | |
JP2006202118A (en) | Attribute evaluation apparatus, method and program | |
JP6900334B2 (en) | Video output device, video output method and video output program | |
KR101220080B1 (en) | Method and system for providing reprsentation words of real-time popular keyword |