JP6639040B2 - Information retrieval device and program - Google Patents

Information retrieval device and program Download PDF

Info

Publication number
JP6639040B2
JP6639040B2 JP2016014675A JP2016014675A JP6639040B2 JP 6639040 B2 JP6639040 B2 JP 6639040B2 JP 2016014675 A JP2016014675 A JP 2016014675A JP 2016014675 A JP2016014675 A JP 2016014675A JP 6639040 B2 JP6639040 B2 JP 6639040B2
Authority
JP
Japan
Prior art keywords
word
words
relevance
content
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016014675A
Other languages
Japanese (ja)
Other versions
JP2017134675A (en
Inventor
太郎 宮▲崎▼
太郎 宮▲崎▼
山田 一郎
一郎 山田
菊佳 望月
菊佳 望月
後藤 淳
淳 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2016014675A priority Critical patent/JP6639040B2/en
Publication of JP2017134675A publication Critical patent/JP2017134675A/en
Application granted granted Critical
Publication of JP6639040B2 publication Critical patent/JP6639040B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、情報検索装置及びプログラムに関する。   The present invention relates to an information search device and a program.

インターネットを介して番組を配信する動画配信サービスでは、(1)画面上の目につきやすい箇所に提示されたおすすめへのリンク、(2)ユーザによる番組検索、(3)システムからの番組推薦、の主に3つの方法によって、ユーザへ番組の情報を提示している。この中でも、ユーザが自発的に番組を検索する(2)の利便性は、サービス全体の使いやすさにも直結するため、重要である。   In the video distribution service for distributing programs via the Internet, (1) a link to a recommendation presented in a conspicuous place on the screen, (2) a program search by the user, and (3) a program recommendation from the system. The program information is presented to the user mainly by three methods. Among these, the convenience of (2) that the user spontaneously searches for a program is important because it is directly linked to the usability of the entire service.

上記のような動画配信サービスには、ユーザによる番組検索の機能にokapi−BM25を利用しているものがある。okapi−BM25は、対象文書内における単語の出現頻度などを用いて、その単語の文章への出現しやすさを考慮した重みを設定し、その重みを基に検索を行う検索技術である(例えば、非特許文献1参照)。
また、番組検索の機能に用いられる他の検索技術には、協調フィルタリングがある(例えば、非特許文献2参照)。協調フィルタリングでは、多くのユーザによる商品へのレーティング情報を基に、個人の嗜好に合わせた推薦を行う。
Some of the moving image distribution services as described above use the okapi-BM 25 for a program search function by a user. The okapi-BM 25 is a search technique that sets a weight in consideration of the likelihood of the word appearing in a sentence using the frequency of appearance of the word in the target document and performs a search based on the weight (for example, , Non-Patent Document 1).
Another search technique used for the program search function is collaborative filtering (for example, see Non-Patent Document 2). In the collaborative filtering, recommendation according to personal preference is performed based on rating information on products by many users.

S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, M. Gatford, "Okapi at TREC-3," NIST SPECIAL PUBLICATION, 1995, p.109-126S. E. Robertson, S. Walker, S. Jones, M.M.Hancock-Beaulieu, M. Gatford, "Okapi at TREC-3," NIST SPECIAL PUBLICATION, 1995, p.109-126 Yehuda Koren, Robert Bell, Chris Volinsky, "Matrix factorization techniques for recommender systems," Computer, IEEE Computer Society, 2009, Vol. 42 Issue 8, p.30-37Yehuda Koren, Robert Bell, Chris Volinsky, "Matrix factorization techniques for recommender systems," Computer, IEEE Computer Society, 2009, Vol. 42 Issue 8, p. 30-37

非特許文献1の技術を用いた番組検索では、あるキーワードにより検索を行っても、検索結果として1件も番組が得られない場合がある。また、「風邪」というキーワードにより番組検索を行った場合、ドラマの主人公が風邪をひいた回の番組などが検索結果として得られることがある。これは、ユーザにより入力されたキーワードが番組概要文に含まれている場合に、番組概要文におけるそのキーワードの重要度に応じたスコアに基づき検索を行っているためである。非特許文献1の技術では、検索対象のデータの数が多い場合に非常に有効である。しかし、データ数が少ない中からの検索では、上記のように検索キーそのものが検索対象の文章中に出現しないために一件も検索結果が得られなかったり、文章中に検索キーが出現するものの番組の主題としては重要ではない場合でも、上位の検索結果として出力されたりすることがある。その結果、検索機能自体が使いにくいものとなってしまう可能性がある。また、ユーザが番組に対するレーティングを付けるサービスを提供していない場合、非特許文献2の技術を利用できない。   In a program search using the technique of Non-Patent Document 1, even when a search is performed using a certain keyword, no program may be obtained as a search result. Also, when a program search is performed using the keyword “cold”, a program or the like in which the hero of the drama caught a cold may be obtained as a search result. This is because, when the keyword input by the user is included in the program outline, the search is performed based on the score according to the importance of the keyword in the program outline. The technique of Non-Patent Document 1 is very effective when the number of search target data is large. However, in a search with a small number of data, no search results can be obtained because the search key itself does not appear in the search target text as described above, or the search key appears in the text. Even if it is not important as the subject of a program, it may be output as a higher search result. As a result, the search function itself may be difficult to use. If the user does not provide a service for rating programs, the technique of Non-Patent Document 2 cannot be used.

本発明は、このような事情を考慮してなされたもので、検索キーと関連するコンテンツを精度よく検索することができる情報検索装置及びプログラムを提供する。   The present invention has been made in view of such circumstances, and provides an information search device and a program capable of accurately searching for a content related to a search key.

本発明の一態様は、検索キーに含まれる単語を上位関連語として取得する上位関連語取得部と、関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得部と、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算部と、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算部により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算部と、複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算部が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択部と、を備えることを特徴とする情報検索装置である。
この態様によれば、情報検索装置は、ユーザが入力した検索キーに含まれる単語を上位関連語として取得する。情報検索装置は、上位関連語のそれぞれについて、関連する単語及びその関連する単語との類似度を概念マップから読み出し、さらに、その読み出された単語のそれぞれについて、関連する単語及びその関連する単語との類似度を概念マップから読み出す処理を所定回繰り返す。情報検索装置は、概念マップから読み出された単語である下位関連語のそれぞれについて、上位関連語からその下位関連語に至る単語を順に並べたパスを取得する。情報検索装置は、下位関連語のそれぞれについて、下位関連語が検索キーと関連する高さを表す関連度を、その下位関連語が含まれるパスにおいて隣接する単語間の類似度と、そのパスに含まれる単語に関連する他の単語の数と、そのパスの上位関連語の単語の重要度とに基づいて計算する。また、情報検索装置は、上位関連語それぞれの関連度を、その上位関連語の重要度に基づき計算する。情報検索装置は、コンテンツに関するテキストデータに含まれる単語それぞれの重要度と、その単語の関連度とに基づき、テキストデータが検索キーに関連する程度を定量的に表すスコアを計算する。情報検索装置は、コンテンツに関するテキストデータそれぞれのスコアに基づいて、複数のコンテンツの中から検索キーに関連する程度が高いコンテンツを選択する。
これにより、情報検索装置は、コンテンツに関するテキストデータに検索キーに含まれる単語が出現しなくても、検索キーと関連するコンテンツを検索結果として得ることができる。
One embodiment of the present invention provides a method for acquiring a word included in a search key as a higher-order related word, and a concept map indicating a similarity between related words and related words. Reading a related word and a similarity with the related word, and further reading a word related to the read word and a similarity with the related word from the concept map a predetermined number of times; For each lower related word that is the word read from the map, obtain a path that is a word sequence in which words read from the concept map in order from the higher related word to the lower related word A lower related word acquisition unit that performs similarity between adjacent words in the path from the higher related word to the lower related word, the number of other words related to the word included in the path, A process of calculating a degree of relevance indicating the degree of relevance to the search key for each of the lower-level related words based on the importance of the words of the higher-level related words, and A relevance calculator that performs a process of calculating based on the relevance of the related word, and divides text data related to content into words, and calculates the importance of each of the words obtained by the division and the relevance calculator. A score calculation unit that calculates a score that quantitatively represents a degree in which the text data is related to the search key based on the degree of relevance of the word; and a score for text data related to the content from a plurality of contents. A selection unit that selects content highly related to the search key based on the score calculated by the calculation unit. Is an information retrieval apparatus that.
According to this aspect, the information search device acquires a word included in the search key input by the user as a higher related word. The information search device reads, for each of the higher-order related words, a related word and a similarity to the related word from the concept map, and further, for each of the read words, a related word and the related word. The process of reading the similarity from the concept map is repeated a predetermined number of times. The information search device acquires, for each of the lower related words that are words read from the concept map, a path in which words from the upper related word to the lower related word are arranged in order. The information search device determines, for each of the lower related words, the relevance indicating the height at which the lower related word is related to the search key, the similarity between adjacent words in the path including the lower related word, and the The calculation is performed based on the number of other words related to the included word and the importance of the word of a higher related word in the path. In addition, the information search device calculates the relevance of each of the higher-order related words based on the importance of the higher-order related words. The information search device calculates a score that quantitatively indicates the degree to which the text data is related to the search key based on the importance of each word included in the text data related to the content and the relevance of the word. The information search device selects, from a plurality of contents, contents having a high degree of relation to the search key based on the scores of the text data related to the contents.
Accordingly, the information search device can obtain the content related to the search key as a search result even if the word included in the search key does not appear in the text data related to the content.

本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、前記重要度が高いほど、前記検索キーとの関連が高いことを示す値の関連度を計算する、ことを特徴とする。
この態様によれば、情報検索装置は、下位関連語に至るパスにおいて隣接する単語間の類似度が高いほど、パスに含まれる単語に関連する他の単語の数が少ないほど、又は、パスにおける上位関連語の重要度が高いほど、検索キーとの関連が高いことを示す値の関連度を計算する。
これにより、情報検索装置は、検索キーから得られた関連語に適切な値の関連度を与え、検索キーとの関連が高いコンテンツを精度よく検索することができる。
One embodiment of the present invention is the above-described information search device, wherein the relevancy calculating unit is configured such that the higher the similarity, the smaller the number of other related words, or the higher the importance, Calculating a degree of association of a value indicating a high degree of association with the search key.
According to this aspect, the information search device, the higher the similarity between adjacent words in the path leading to the lower related word, the smaller the number of other words related to the words included in the path, or in the path The higher the importance of the higher-level related word is, the higher the degree of association with the search key is calculated.
Thus, the information search device can give an appropriate value relevance to the related word obtained from the search key, and can accurately search for a content highly related to the search key.

本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する2つの単語の組毎に、前記組を構成する単語間の類似度が高いほど、又は、前記組を構成する単語それぞれに関連する他の単語の数が少ないほど前記組を構成する単語間の関連度が高いことを示す値となる単語間関連度を計算し、前記パスに含まれる全ての前記組の前記単語間関連度と前記上位関連語の前記重要度との乗算により前記下位関連語の関連度を計算する、ことを特徴とする。
この態様によれば、情報検索装置は、上位関連語から下位関連語に至るパスにおいて隣接する2つの単語の組毎に、それら単語間の類似度が高いほど、又は、それら単語それぞれに関連する他の単語の数が少ないほど、高い関連度を示す単語間関連度を計算する。情報検索装置は、下位関連語の関連度を、下位関連語に至るパスに含まれる全ての単語の組の単語間関連度と、そのパスにおける上位関連語の単語の重要度との乗算により計算する、ことを特徴とする。
これにより、情報検索装置は、検索キーから得られた下位関連語に適切な値の関連度を与え、検索キーと関連が高いコンテンツを精度よく検索することができる。
One aspect of the present invention is the information search device described above, wherein the relevance calculating unit calculates the pair for each pair of two adjacent words in the path from the upper related word to the lower related word. A word having a value indicating that the similarity between the words constituting the set is higher as the similarity between the constituent words is higher, or as the number of other words related to each of the words constituting the set is smaller. Calculating an inter-association degree, and calculating a relevance degree of the lower-order related word by multiplying the inter-word association degree of all the sets included in the path by the importance degree of the upper-order related word, I do.
According to this aspect, for each pair of two adjacent words in the path from the upper related word to the lower related word, the information search device increases the similarity between the words or relates to each of the words. The inter-word relevance, which indicates a higher relevance as the number of other words is smaller, is calculated. The information retrieval device calculates the relevance of the lower related word by multiplying the inter-word relevance of all the sets of words included in the path leading to the lower related word by the importance of the higher related word in the path. To be characterized.
Accordingly, the information search device can give an appropriate value relevance to the lower related word obtained from the search key, and can accurately search for content highly related to the search key.

本発明の一態様は、上述した情報検索装置であって、前記関連度計算部は、同一の下位関連語に至るパスが複数ある場合、前記パス毎に計算した関連度のうち最も大きな関連度を選択する、ことを特徴とする。
この態様によれば、情報検索装置は、同一の下位関連語に至るパスが複数ある場合、各パスについて計算した関連度のうち、最も大きな関連度をその下位関連語の関連度として選択する。
これにより、情報検索装置は、検索キーから得られた下位関連語に適切な値の関連度を与え、検索キーと関連が高いコンテンツを精度よく検索することができる。
One embodiment of the present invention is the above-described information search device, wherein, when there are a plurality of paths leading to the same lower related word, the relevance calculating unit has the largest relevance among the relevance calculated for each path. Is selected.
According to this aspect, when there are a plurality of paths leading to the same lower related word, the information search device selects the highest degree of relevance among the calculated degrees of relevance for each path as the degree of relevance of the lower related word.
Accordingly, the information search device can give an appropriate value relevance to the lower related word obtained from the search key, and can accurately search for content highly related to the search key.

本発明の一態様は、上述した情報検索装置であって、前記スコア計算部は、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語のうち前記上位関連語又は前記下位関連語に合致する各単語について、前記単語の前記重要度と前記単語の前記関連度とを乗算し、乗算した結果の合計を、分割により得られた前記単語の数により除算して前記スコアを計算する、ことを特徴とする。
この態様によれば、情報検索装置は、コンテンツに関するテキストデータに含まれる上位関連語又は下位関連語のそれぞれについて単語の重要度と関連度とを乗算し、乗算結果の合計を、コンテンツに関するテキストデータに含まれる単語の総数により除算して、スコアを計算する。
これにより、情報検索装置は、コンテンツと検索キーの関連の高さを精度よく算出することができる。また、情報検索装置は、検索キーから得られた単語と、その単語を用いて概念マップを辿って得た単語とが、コンテンツに関するテキストデータに出現するかを判断するため、検索に用いる単語の数が少なく、高速な検索を行うことができる。
One aspect of the present invention is the information search device described above, wherein the score calculation unit divides text data related to content into words, and the higher related word or the lower related word among the words obtained by the division. For each word that matches, the importance is multiplied by the relevance of the word, and the total is multiplied by the number of words obtained by the division to calculate the score. , Characterized in that.
According to this aspect, the information search device multiplies the word importance and the relevance for each of the higher-order related words or the lower-order related words included in the text data related to the content, and calculates the sum of the multiplication results as the text data related to the content. Is calculated by dividing by the total number of words included in.
Thus, the information search device can accurately calculate the height of the association between the content and the search key. Further, the information search device determines whether a word obtained from a search key and a word obtained by tracing a concept map using the word appear in text data related to the content. The number is small and high-speed search can be performed.

本発明の一態様は、コンピュータを、検索キーに含まれる単語を上位関連語として取得する上位関連語取得手段と、関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得手段と、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算手段と、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算手段により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算手段と、複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算手段が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択手段と、を有する情報検索装置として動作させるプログラムである。   One aspect of the present invention is to provide a computer in which, based on a concept map indicating a related word acquiring means for acquiring a word included in a search key as a related word and a similarity between related words, A process of reading a word related to a related word and a similarity to the related word, and further reading a word related to the read word and a similarity to the related word from the concept map is repeated a predetermined number of times. A word sequence in which words read from the concept map from the upper related word to the lower related word are arranged in order for each lower related word that is the word read from the concept map. A lower related word acquiring means for acquiring a path; a similarity between adjacent words in the path from the higher related word to the lower related word; A process of calculating a degree of relevance representing a level of relevance to the search key for each of the lower related words based on the number of other words and the importance of the words of the higher related words; and A relevance calculating means for performing a process of calculating the relevance of each word based on the importance of the higher-level related word, and dividing the text data relating to the content into words, the importance of each of the words obtained by the division, and Score calculation means for calculating a score quantitatively representing the degree to which the text data is related to the search key, based on the relevance of the word calculated by the relevance calculation means; and Based on the score calculated by the score calculation means for each piece of text data related to the content, a content that is highly related to the search key is selected. And-option unit, a program for operating as an information retrieval apparatus having.

本発明によれば、検索キーと関連するコンテンツを精度よく検索することができる。   According to the present invention, it is possible to accurately search for a content related to a search key.

本発明の一実施形態による情報検索装置の機能ブロック図である。It is a functional block diagram of an information search device by one embodiment of the present invention. 同実施形態による概念マップの例を示す図である。It is a figure showing an example of a concept map by the embodiment. 同実施形態による情報検索装置の動作を示すフロー図である。FIG. 4 is a flowchart showing the operation of the information search device according to the same embodiment. 同実施形態による情報検索装置が検索キーから得た関連語の関係を示す図である。It is a figure which shows the relationship of the related word which the information search device by the embodiment obtained from the search key. 同実施形態による検索結果データの表示例を示す図である。It is a figure showing an example of a display of search result data by the embodiment. 同実施形態による検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離を模式的に示す図である。FIG. 4 is a diagram schematically illustrating a distance between a word included in a search key and a word appearing in a content-related text according to the embodiment. 同実施形態による検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数を模式的に表す図である。FIG. 7 is a diagram schematically illustrating the number of paths from words included in the search key to words appearing in the content-related text according to the embodiment. 同実施形態によるパス中で経由する単語間の類似度を模式的に表す図である。FIG. 4 is a diagram schematically illustrating a similarity between words passed in a path according to the same embodiment. 同実施形態によるパス中で経由する単語につながる他の単語の数を模式的に表す図である。FIG. 7 is a diagram schematically illustrating the number of other words connected to a pass-through word in the path according to the same embodiment. 同実施形態による情報検索装置及び従来技術による情報検索装置を用いた実験結果を示す図である。FIG. 7 is a diagram illustrating experimental results using the information search device according to the embodiment and the information search device according to the related art. 同実施形態による情報検索装置及び従来技術による情報検索装置を用いた実験結果を示す図である。FIG. 7 is a diagram illustrating experimental results using the information search device according to the embodiment and the information search device according to the related art.

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による情報検索装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。情報検索装置1は、1台以上のコンピュータ装置により実現することができる。情報検索装置1を複数台のコンピュータ装置により実現する場合、いずれのコンピュータ装置によりいずれの機能部を実現するかは任意とすることができる。また、一つの機能部を複数台のコンピュータ装置により実現してもよい。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a functional block diagram showing a configuration of an information search device 1 according to an embodiment of the present invention, in which only functional blocks related to the present embodiment are extracted and shown. The information search device 1 can be realized by one or more computer devices. When the information search device 1 is realized by a plurality of computer devices, it is possible to arbitrarily determine which functional unit is realized by which computer device. Further, one functional unit may be realized by a plurality of computer devices.

情報検索装置1は、ネットワーク9を介して表示装置5と接続される。ネットワーク9は、インターネットなどの公衆網でもよく、LAN(Local Area Network)やVLAN(仮想LAN)などの私設網でもよい。表示装置5は、例えば、ユーザのパーソナルコンピュータ、スマートフォン、タブレット端末、テレビジョン受信機などである。   The information search device 1 is connected to the display device 5 via a network 9. The network 9 may be a public network such as the Internet, or a private network such as a LAN (Local Area Network) or a VLAN (Virtual LAN). The display device 5 is, for example, a user's personal computer, smartphone, tablet terminal, television receiver, or the like.

情報検索装置1は、記憶部11と、検索キー受信部12と、上位関連語取得部13と、下位関連語取得部14と、関連度計算部15と、スコア計算部16と、選択部17と、出力部18とを備えて構成される。   The information search device 1 includes a storage unit 11, a search key receiving unit 12, an upper related word acquiring unit 13, a lower related word acquiring unit 14, a relevance calculating unit 15, a score calculating unit 16, a selecting unit 17 And an output unit 18.

記憶部11は、概念マップ記憶部111と、単語重要度記憶部112と、コンテンツ情報記憶部113とを備える。なお、概念マップ記憶部111、単語重要度記憶部112及びコンテンツ情報記憶部113のうち一以上が、情報検索装置1とネットワーク9を介して接続される外部のデータベース装置により実現されてもよい。   The storage unit 11 includes a concept map storage unit 111, a word importance storage unit 112, and a content information storage unit 113. One or more of the concept map storage unit 111, the word importance storage unit 112, and the content information storage unit 113 may be implemented by an external database device connected to the information search device 1 via the network 9.

概念マップ記憶部111は、概念マップを記憶する。概念マップは、関連する単語と、関連する単語間の類似度とを示すデータである。以下では、ある単語に関連するとして概念マップに登録されている他の単語を、ある単語につながる単語とも記載する。
単語重要度記憶部112は、予め計算しておいた各単語の重要度を記憶する。単語の重要度には、大規模なテキストデータから作成したIDF(Inversed Document Frequency)などを用いる。IDFは、以下の式(1)により計算される。
The concept map storage unit 111 stores a concept map. The concept map is data indicating the related words and the similarity between the related words. Hereinafter, another word registered in the concept map as being related to a certain word is also described as a word leading to a certain word.
The word importance storage unit 112 stores the importance of each word calculated in advance. For the importance of the word, an IDF (Inversed Document Frequency) created from large-scale text data is used. IDF is calculated by the following equation (1).

Figure 0006639040
Figure 0006639040

式(1)において、IDF(w)は単語wのIDF、|{d:d∈w}|は単語wが出現する文書数、|D|はテキストデータ全体の文書数である。式(1)によれば、いろいろな文章に出現する単語の重要度は、低い値となる。   In Expression (1), IDF (w) is the IDF of the word w, | {d: d∈w} | is the number of documents in which the word w appears, and | D | is the number of documents in the entire text data. According to equation (1), the importance of words appearing in various sentences is low.

コンテンツ情報記憶部113は、コンテンツに関する情報を記憶する。コンテンツは、例えば、動画、静止画、音声、書籍、ウェブページなどであるが、これらに限定されない。以下では、主に、コンテンツが番組(動画)である場合を例として説明する。
コンテンツが番組である場合、コンテンツ情報記憶部113は、コンテンツIDに対応付けて、コンテンツ情報を記憶する。コンテンツIDは、各コンテンツを一意に特定する。コンテンツ情報は、コンテンツに関する情報を記述したテキストデータを含む。例えば、コンテンツ情報は、番組のタイトル、サブタイトル、番組情報、番組配信サイトのURL(Universal Resource Locator)などを含む。番組情報は、例えば、番組のあらすじや番組内容を示す文章である番組概要、番組の字幕、番組の原稿などを示すテキストデータである。なお、コンテンツ情報記憶部113は、コンテンツ本体のデジタルデータであるコンテンツデータを記憶してもよい。
The content information storage unit 113 stores information on content. The content is, for example, a moving image, a still image, a sound, a book, a web page, or the like, but is not limited thereto. The following mainly describes an example in which the content is a program (moving image).
When the content is a program, the content information storage unit 113 stores the content information in association with the content ID. The content ID uniquely specifies each content. The content information includes text data describing information about the content. For example, the content information includes a program title, a subtitle, program information, a URL (Universal Resource Locator) of a program distribution site, and the like. The program information is, for example, text data indicating a synopsis of the program or a sentence indicating the program content, a caption of the program, a manuscript of the program, and the like. Note that the content information storage unit 113 may store content data that is digital data of the content itself.

検索キー受信部12は、表示装置5からユーザが入力した検索キーを受信する。なお、検索キー受信部12は、情報検索装置1が備える図示しないキーボードなどの入力装置によりユーザが入力した検索キーを受信してもよい。検索キーは、1以上の単語であってもよく、文章であってもよい。
上位関連語取得部13は、検索キーに含まれる単語を上位関連語として取得する。
下位関連語取得部14は、上位関連語それぞれについて、関連する単語、及び、その関連する単語との類似度を概念マップから読み出す。さらに、下位関連語取得部14は、読み出された単語それぞれについて、関連する単語、及び、その関連する単語との類似度を概念マップから読み出す処理をn回(nは0以上の整数)繰り返す。下位関連語取得部14は、概念マップから読み出された単語を下位関連語とする。以下では、上位関連語及び下位関連語を総称して関連語と記載する。下位関連語取得部14は、上位関連語から下位関連語に至るまでの関連語を順に並べた単語の列であるパスを取得する。
The search key receiving unit 12 receives a search key input by the user from the display device 5. Note that the search key receiving unit 12 may receive a search key input by a user using an input device such as a keyboard (not shown) provided in the information search device 1. The search key may be one or more words or a sentence.
The higher-order related word acquiring unit 13 acquires a word included in the search key as a higher-order related word.
The lower related word acquisition unit 14 reads, for each of the higher related words, the related word and the similarity with the related word from the concept map. Further, the lower related word acquiring unit 14 repeats, for each read word, a process of reading a related word and a similarity with the related word from the concept map n times (n is an integer of 0 or more). . The lower related word acquisition unit 14 sets the word read from the concept map as a lower related word. In the following, upper related words and lower related words are collectively referred to as related words. The lower-level related word acquisition unit 14 obtains a path that is a sequence of words in which related terms from upper level related terms to lower level related terms are arranged in order.

関連度計算部15は、各関連語の関連度を計算する。関連度とは、検索キーと関連語の関連の高さを定量的に表す値である。関連度計算部15は、下位関連語の関連度を、上位関連語からその下位関連語に至るパスにおいて隣接する関連語間の類似度と、そのパスに含まれる関連語につながる単語の数と、そのパスにおける上位関連語の単語の重要度とに基づいて計算する。さらに、関連度計算部15は、上位関連語の関連度を、その上位関連語の単語の重要度に基づき計算する。本実施形態では、関連度計算部15は、上位関連語の関連度を、その上位関連語の単語の重要度と同じ値とする。   The relevance calculator 15 calculates the relevance of each related word. The degree of relevance is a value that quantitatively indicates the degree of relevance between a search key and a related word. The relevance calculating unit 15 calculates the relevance of the lower related word by calculating the similarity between adjacent related words in the path from the higher related word to the lower related word, and the number of words connected to the related word included in the path. , Based on the importance of the word of the higher related word in the path. Further, the relevance calculating unit 15 calculates the relevance of the higher related word based on the importance of the word of the higher related word. In the present embodiment, the relevance calculating unit 15 sets the relevance of the higher-order related word to the same value as the importance of the word of the higher-order related word.

スコア計算部16は、複数のコンテンツそれぞれのコンテンツ関連テキストをコンテンツ情報記憶部113から読み出す。コンテンツ関連テキストは、コンテンツに関するテキストデータであり、コンテンツ情報に含まれる一部又は全ての情報でもよく、コンテンツデータに含まれる一部又は全てのテキストデータでもよい。例えば、コンテンツが番組の場合、コンテンツ関連テキストとして番組概要、番組の字幕、又は、番組の原稿を用いる。また、コンテンツがウェブページである場合、コンテンツ関連テキストをウェブページに含まれるテキストデータとしてもよい。コンテンツが電子書籍であれば、コンテンツ情報が示す書籍のあらすじのテキストデータをコンテンツ関連テキストとしてもよく、電子書籍のコンテンツデータに含まれるテキストデータをコンテンツ関連テキストとしてもよい。スコア計算部16は、コンテンツ関連テキストを単語に分割する。スコア計算部16は、コンテンツ毎に、コンテンツ関連テキストを分割して得られた単語それぞれの重要度と、関連度計算部15により計算された各単語(関連語)の関連度とに基づきスコアを計算する。このスコアは、コンテンツ関連テキストが検索キーに関連する程度を定量的に表す値である。   The score calculation unit 16 reads the content-related text of each of the plurality of contents from the content information storage unit 113. The content-related text is text data related to the content, and may be part or all of the information included in the content information, or may be part or all of the text data included in the content data. For example, when the content is a program, a program outline, a subtitle of the program, or a document of the program is used as the content-related text. When the content is a web page, the content-related text may be text data included in the web page. If the content is an electronic book, text data of the outline of the book indicated by the content information may be used as the content-related text, or text data included in the content data of the electronic book may be used as the content-related text. The score calculation unit 16 divides the content-related text into words. The score calculation unit 16 calculates a score based on the importance of each word obtained by dividing the content-related text for each content and the relevance of each word (related word) calculated by the relevance calculation unit 15. calculate. This score is a value that quantitatively represents the degree to which the content-related text is related to the search key.

選択部17は、複数のコンテンツそれぞれのコンテンツ関連テキストについてスコア計算部16が計算したスコアに基づき、コンテンツに順位を付与する。選択部17は、検索キーに関連する程度が高い所定以上の順位のコンテンツを選択する。   The selection unit 17 assigns a ranking to the content based on the score calculated by the score calculation unit 16 for the content-related text of each of the plurality of contents. The selection unit 17 selects content having a higher rank than a predetermined rank that is highly relevant to the search key.

出力部18は、選択部17が選択したコンテンツの情報を示す検索結果データを表示装置5に送信し、表示させる。出力部18は、検索結果データを、情報検索装置1が備える図示しないディスプレイに表示してもよく、情報検索装置1と接続される図示しないプリンタにより印刷してもよい。   The output unit 18 transmits search result data indicating information of the content selected by the selection unit 17 to the display device 5 and causes the display device 5 to display the search result data. The output unit 18 may display the search result data on a display (not shown) included in the information search device 1 or may print the data by a printer (not shown) connected to the information search device 1.

図2は、概念マップの例を示す図である。概念マップは、例えば、ALAGINフォーラム(http://alagin.jp)が公開している「意味的関係抽出サービス」などを利用して作成可能である。同図に示すように、概念マップは、各単語とつながりがある他の単語のリストと、つながりがある2つの単語間にどのような関係があるかと、つながりがあるそれら2つの単語間の類似度とを示す。類似度は、一般的に用いられる文脈類似度や、単語の分散表現を用いたコサイン類似度などである。   FIG. 2 is a diagram illustrating an example of the concept map. The concept map can be created using, for example, a “semantic relationship extraction service” published by the ALAGIN forum (http://alagin.jp). As shown in the figure, the concept map includes a list of other words connected to each word, a relationship between the two connected words, and a similarity between the two connected words. And degree. The similarity is a commonly used context similarity, a cosine similarity using a distributed expression of words, or the like.

例えば、単語Aと単語Bとの間の文脈類似度を求める場合、学習用のデータを用いて各単語が出現する文脈について確率分布を求めておき、単語Aと単語Bとの確率分布の異なり具合をJensen-Shannon Divergenceにより計算した結果をこれら単語間の類似度とする。この文脈類似度は、数値が0〜1の範囲を取り、数値が小さいほど類似した単語であることを表す。そこで、単語間の類似度として、1からJensen-Shannon Divergenceによる文脈類似度を減算した値を用いてもよい。文脈類似度の詳細については、例えば、文献「風間 淳一、Stijn De Saeger、鳥澤 健太郎、村田 真樹、”係り受けの確率的クラスタリングを用いた大規模類似度リストの作成”、言語処理学会第15回年次大会、2009年、p.84−87」に記載されている。   For example, when calculating the context similarity between the words A and B, the probability distribution is calculated for the context in which each word appears using the learning data, and the difference in the probability distribution between the words A and B is determined. The result of calculating the degree by Jensen-Shannon Divergence is defined as the similarity between these words. The context similarity has a numerical value ranging from 0 to 1, and the smaller the numerical value, the more similar the word. Therefore, a value obtained by subtracting the context similarity by Jensen-Shannon Divergence from 1 may be used as the similarity between words. For details of the context similarity, see, for example, a document “Junichi Kazama, Stijn De Saeger, Kentaro Torizawa, Maki Murata,“ Creating a large-scale similarity list using stochastic clustering of dependency ”, The 15th Annual Meeting of the Language Processing Society of Japan Annual Conference, 2009, pp. 84-87.

また、単語の分散表現の生成の技術として、例えば、word2vec(例えば、「https://code.***.com/p/word2vec/」参照)などを用いることができる。word2vecにより生成される単語ベクトルは、大規模な学習データを用いて学習される分散表現ベクトルである。この分散表現ベクトルは、共起する単語をそれぞれ入力及び出力として学習したニューラルネットワークの中間層であり、例えば、200〜300次元で表される。このベクトルの各次元は、カテゴリに相当したものを表し、例えば、「音楽関連の単語はベクトルの1つめの要素が大きくなりやすい」などの傾向が得られる。そのため、単語間の類似度は、それら単語の分散表現ベクトルのコサイン類似度などにより高い精度で求めることができる。   For example, word2vec (for example, see “https://code.***.com/p/word2vec/”) can be used as a technique for generating a distributed representation of a word. The word vector generated by word2vec is a distributed expression vector learned using large-scale learning data. This distributed expression vector is an intermediate layer of a neural network that has learned as a co-occurring word as an input and an output, and is represented in, for example, 200 to 300 dimensions. Each dimension of this vector represents a category, and for example, a tendency such as “the first element of the vector is likely to be large in music-related words” is obtained. Therefore, the similarity between words can be obtained with high accuracy based on the cosine similarity of the distributed expression vectors of those words.

図3は、情報検索装置1の動作を示すフロー図である。以下では、コンテンツが番組であり、コンテンツ関連テキストが番組概要である場合を例に説明する。
情報検索装置1の検索キー受信部12は、ユーザが入力した検索キーqを表示装置5から受信する(ステップS110)。検索キーqは、1以上の単語を含む。検索キーqは、文章であってもよい。なお、ある番組と類似の他の番組を検索する場合、検索キー受信部12は、表示装置5からコンテンツIDを受信してもよい。検索キー受信部12は、受信したコンテンツIDによりコンテンツ情報記憶部113に記憶されているコンテンツ情報を特定し、特定したコンテンツ情報から番組概要を読み出して検索キーqとする。また、ユーザが番組概要を入力してもよい。
FIG. 3 is a flowchart showing the operation of the information search device 1. Hereinafter, a case will be described as an example where the content is a program and the content-related text is a program outline.
The search key receiving unit 12 of the information search device 1 receives the search key q input by the user from the display device 5 (Step S110). The search key q includes one or more words. The search key q may be a sentence. When searching for another program similar to a certain program, the search key receiving unit 12 may receive the content ID from the display device 5. The search key receiving unit 12 specifies the content information stored in the content information storage unit 113 based on the received content ID, reads a program outline from the specified content information, and sets it as a search key q. Further, the user may input a program summary.

上位関連語取得部13は、検索キーqに含まれる単語を取得する。具体的には、上位関連語取得部13は、概念マップに含まれる語彙を辞書として与えた場合と、概念マップに含まれる語彙を辞書として与えない場合との2種類の形態素解析を行う。形態素解析には、例えば、Mecab(例えば、「https://code.***.com/p/mecab/」参照)などを用いることができる。上位関連語取得部13は、それぞれの形態素解析により得られた単語の重複をなくした後、それら全ての単語を上位関連語cとする(ステップS120)。 The higher-level related word acquiring unit 13 acquires a word included in the search key q. Specifically, the higher-level related word acquisition unit 13 performs two types of morphological analysis: a case where the vocabulary included in the concept map is provided as a dictionary, and a case where the vocabulary included in the concept map is not provided as a dictionary. For the morphological analysis, for example, Mecab (for example, see “https://code.***.com/p/mecab/”) can be used. Top related word acquiring unit 13, after eliminating the duplication of words obtained by the respective morphological analysis, all words which the upper related word c 0 (step S120).

検索キーqが「集団的自衛権」のとき、概念マップに含まれる語彙を辞書として与えた場合の形態素解析結果は、「集団的自衛権」の1単語となる。一方、概念マップに含まれる語彙を辞書として与えなかった場合の形態素解析結果は、「集団」、「的」、「自衛」、「権」の4単語である。従って、検索キーq「集団的自衛権」からは5つの上位関連語cからなる上位関連語集合{集団的自衛権,集団,的,自衛,権}が得られる。「集団的自衛権」は、本来独立した単語が二つ以上結合して新たに一つの単語となった複合語であり、以降「単語」と記載した場合には複合語も含める。 When the search key q is “collective self-defense right”, the morphological analysis result when the vocabulary included in the concept map is given as a dictionary is one word of “collective self-defense right”. On the other hand, when the vocabulary included in the concept map is not given as a dictionary, the result of the morphological analysis is four words of “group”, “target”, “self-defense”, and “right”. Thus, the search key q higher related word set of five higher related terms c 0 is the "collective self-defense" {collective self-defense, population target, defense, Kwon} is obtained. The “right of collective self-defense” is a compound word in which two or more independent words are originally combined to form a new word. Hereinafter, when the word “word” is described, the compound word is also included.

上位関連語取得部13は、上位関連語集合に含まれる各上位関連語cの単語の重要度を単語重要度記憶部112から読み出す(ステップS130)。上位関連語取得部13は、上位関連語集合に、上位関連語cの単語の重要度の情報を付加し、下位関連語取得部14に出力する。 Top related word acquiring unit 13 reads out the importance of the words in the upper related terms c 0 contained in the upper-related word set from the word importance degree storage unit 112 (step S130). Top related word acquiring unit 13, the upper-related word set, and adds information of importance of the words in the upper related word c 0, and outputs to the lower associated word acquisition unit 14.

下位関連語取得部14は、概念マップをたどって、上位関連語集合に含まれる上位関連語に関連のある単語を見つけ、下位関連語cとする(ステップS140)。kは、1以上の整数であり、概念マップを辿った段数を示す。何段階まで辿るかは予め情報検索装置1に設定しておく。多くの段数を辿りすぎても精度が低下し、計算量も多くなることから、最大の段数を3程度に設定するとよい精度になることが分かっている。以下では、3段階まで辿る例を示す。なお、上位関連語c又は下位関連語cを区別しないときには、関連語c又は関連語c(iは0以上の整数)と記載する。 The lower-order related word acquiring unit 14 finds a word related to the higher-order related word included in the higher-order related word set by following the concept map, and sets the word as a lower-order related word ck (step S140). k is an integer of 1 or more, and indicates the number of steps following the concept map. The number of steps to be traced is set in the information search device 1 in advance. It is known that if the maximum number of stages is set to about 3, the accuracy will be good because the accuracy is reduced and the amount of calculation is increased even if the number of stages is too large. Hereinafter, an example of tracing up to three stages will be described. When the upper related word c 0 or the lower related word ck is not distinguished, it is described as a related word c or a related word c i (i is an integer of 0 or more).

図4は、情報検索装置1が検索キーから得た関連語の関係を示す図である。上位関連語集合に含まれる上位関連語「集団的自衛権」から辿る場合、下位関連語取得部14は、図2に示す概念マップから、1段階目で「集団的自衛権」と関連する単語「自衛権」を得る。下位関連語取得部14は、これを、下位関連語cとする。下位関連語取得部14は、2段階目では、概念マップから、下位関連語c「自衛権」と関連する単語「自衛」、「権利」を得る。下位関連語取得部14は、これらの単語を下位関連語cとする。さらに、下位関連語取得部14は、3段階目では、概念マップから、下位関連語c「自衛」と関連する単語、及び、下位関連語c「権利」と関連する単語を読み出し、下位関連語cとする。この際、「集団的自衛権」−「自衛権」−「集団的自衛権」のように、ひとつ前の単語に戻ってしまう場合があるが、そのような単語は除外する。関連語cにつながる下位関連語ci+1を、下位関連語cの1段下の下位関連語ci+1と記載する。 FIG. 4 is a diagram illustrating a relationship between related words obtained from the search key by the information search device 1. When tracing from the upper related word “collective self-defense right” included in the higher related word set, the lower related word acquisition unit 14 uses the concept map shown in FIG. Obtain the right to self-defense. Lower associated word acquisition unit 14, which is a lower related term c 1. In the second stage, the lower-level related word acquiring unit 14 obtains words “self-defense” and “right” related to the lower-level related word c 1 “right of self-defense” from the concept map. Lower associated word acquisition unit 14 these words the lower related word c 2. Further, in the third stage, the lower related word acquiring unit 14 reads a word related to the lower related word c 2 “self-defense” and a word related to the lower related word c 2 “right” from the concept map, and related words c 3. At this time, there is a case where the word returns to the previous word, such as “right of collective self-defense” − “right of self-defense” − “right of collective self-defense”, but such a word is excluded. Lower related words c i + 1 connected to the associated word c i, referred to as lower related term c i + 1 of one step below the lower related term c i.

上記により、下位関連語取得部14は、上位関連語c「集団的自衛権」から、上位関連語及び下位関連語を要素とする関連語集合{集団的自衛権(c)、自衛権(c)、自衛(c)、権利(c)、アクセス権(c)、パブリシティ権(c)、…}を得る。また、下位関連語取得部14は、下位関連語cのそれぞれについて、上位関連語cからその下位関連語cに至るまでにたどった関連語を順に並べたパスの情報を付加する。例えば、下位関連語c「権利」であれば、パスは「集団的自衛権(c)−自衛権(c)−権利(c)」である。 As described above, the lower-level related word acquiring unit 14 obtains, from the higher-level related word c 0 “the right to collective self-defense”, a set of related words including the higher-level related word and the lower-level related word as elements {the collective self-defense right (c 0 ), (C 1 ), self-defense (c 2 ), right (c 2 ), access right (c 3 ), publicity right (c 3 ),. The lower related word acquiring unit 14, for each of the lower related words c k, adds information of a path formed by arranging related words traced from the upper related words c 0 up to its lower related words c k in order. For example, if the lower related word c 2 is “right”, the path is “collective self-defense right (c 0 ) −self-defense right (c 1 ) −right (c 2 )”.

下位関連語取得部14は、他の上位関連語cである「集団」、「的」、「自衛」、「権」についても、上記と同様に関連語集合を得て、各下位関連語のパスの情報を付加する。下位関連語取得部14は、上位関連語毎に関連語集合を生成するため、上位関連語cが異なる複数のパスに同じ下位関連語が出現することもあり、その場合、各パスにおいて、その下位関連語が出現する段数が異なることもある。下位関連語取得部14は、各上位関連語cの関連語集合を関連度計算部15に出力する。 The lower related word acquisition unit 14 obtains a related word set for the other higher related words c 0 , “group”, “target”, “self-defense”, and “right” in the same manner as described above, and obtains each lower related word. Path information is added. Since the lower related word acquisition unit 14 generates a related word set for each higher related word, the same lower related word may appear in a plurality of paths having different upper related words c 0. In that case, in each path, The number of levels in which the lower related words appear may be different. The lower related word acquiring unit 14 outputs a related word set of each higher related word c 0 to the related degree calculating unit 15.

図3において、関連度計算部15は、ステップS140において得られた関連語集合の中の全ての関連語cについて、関連語cと検索キーqとの間の関連度weight(c)を計算する(ステップS150)。関連語cが上位関連語cである場合、関連度weight(c)を、その上位関連語cのIDF値を用いた単語の重要度IDF(c)とする。一方、関連語cが下位関連語である場合、関連度計算部15は、関連度weight(c)を、以下の式(2)〜式(4)により計算する。 In FIG. 3, the relevance calculating unit 15 calculates the relevance weight (c) between the relevant word c and the search key q for all the relevant words c in the relevant word set obtained in step S140. (Step S150). If the related word c is a higher related word c 0 , the degree of relevance weight (c) is set as the word importance IDF (c 0 ) using the IDF value of the higher related word c 0 . On the other hand, when the related word c is a lower related word, the relevance calculating unit 15 calculates the relevance weight (c) by the following equations (2) to (4).

Figure 0006639040
Figure 0006639040

Figure 0006639040
Figure 0006639040

Figure 0006639040
Figure 0006639040

なお、式(2)において、max(weightpath(q,c))は、関連語cが出現する各パスについて計算したweightpath(q,c)のうち最大値を示す。
式(3)において、weightpath(q,c)は、あるパスにおける関連語cと検索キーqの関連度を示し、そのパスにおける関連語cはn段目に出現する。IDF(c)は、関連語cが出現するパスにおける上位関連語cのIDF値を用いた単語の重要度である。
式(4)において、weightedge(c,ci+1)は、あるパスにおける関連語cと、その関連語cの一段下の関連語ci+1との単語間関連度である。sim(c,ci+1)は、概念マップに登録されている関連語cと関連語ci+1との類似度を示す。|c|は、関連語cにつながる単語の数、|ci+1|は、関連語ci+1につながる単語の数を示す。max(|c|,|ci+1|)は、|c|と|ci+1|のうちのいずれか大きいほうの値を示す。
In equation (2), max (weight path (q, c)) indicates the maximum value of the weight path (q, c) calculated for each path in which the related word c appears.
In equation (3), weight path (q, c) indicates the degree of relevance between a related word c and a search key q in a certain path, and the related word c in the path appears in the nth stage. IDF (c 0 ) is the importance of a word using the IDF value of the higher-order related word c 0 in the path where the related word c appears.
In the formula (4), weight edge (c i, c i + 1) is a related word c i in a certain path, a word relevancy between related words c i + 1 of one step of a related word c i. sim (c i, c i + 1) indicates the degree of similarity between the related word c i registered in the concept map and associated word c i + 1. | C i | indicates the number of words connected to the related word c i , and | c i + 1 | indicates the number of words connected to the related word c i + 1 . max (| c i |, | c i + 1 |) is, | c i | and | indicates any larger value of one of the | c i + 1.

なお、weightedgeの三乗根の中の分数は、|c|及び|ci+1|が両方とも1の場合に0となる。そのような場合には、概念マップを辿っても他の単語につながる可能性がなく、有用ではないために、weightedgeの値を0とする。 The fraction in the cube root of the weight edge becomes 0 when | c i | and | c i + 1 | are both 1. In such a case, the value of the weight edge is set to 0 because there is no possibility that the word will be linked to other words even if the concept map is traced, and it is not useful.

図4を参照して関連度の計算の例を説明する。
同図では、ユーザにより入力された検索キーqが「集団的自衛権」であり、関連語集合中の関連語c「権利」にたどり着く場合の例を示している。検索キーq「集団的自衛権」の上位関連語から下位関連語「権利」に辿り着くパスは、パスp1「集団的自衛権(c)−自衛権(c)−権利(c)」及びパスp2「自衛(c)−自衛権(c)−権利(c)」の2つである。
An example of calculation of the degree of association will be described with reference to FIG.
FIG. 7 shows an example in which the search key q input by the user is “collective self-defense right” and reaches the related word c “right” in the related word set. The path from the upper related word of the search key q “collective self-defense right” to the lower related word “right” is path p1 “collective self-defense right (c 0 ) -self-defense right (c 1 ) -right (c 2 ). "And self-defense (c 0 ) -right of self-defense (c 1 ) -right (c 2 ).

まず、パスp1のときの関連語c「権利」の関連度weightpath(q,c)の計算を行う。図2に示す概念マップから、「集団的自衛権」と「自衛権」の類似度は0.6826、「自衛権」と「権利」の間の類似度は0.46726である。また、概念マップにおいて「集団的自衛権」につながる単語の数は1、「自衛権」につながる単語の数は2、「権利」につながる単語の数は119である。よって、関連語c「集団的自衛権」と関連語c「自衛権」の単語間類似度weightedge(集団的自衛権,自衛権)、及び、関連語c「自衛権」と関連語c「権利」の単語間類似度weightedge(自衛権,権利)はそれぞれ、以下の式(5)、式(6)のように計算される。 First, the relevance weight path (q, c) of the related word c “right” at the time of the path p1 is calculated. From the conceptual map shown in FIG. 2, the similarity between the “collective self-defense right” and the “self-defense right” is 0.6826, and the similarity between the “self-defense right” and the “right” is 0.46726. In the conceptual map, the number of words that lead to the “right of collective self-defense” is one, the number of words that lead to the “right of self-defense” is two, and the number of words that lead to the “right” is 119. Therefore, the related words c 0 "the right to collective self-defense" and related words c 1 "right of self-defense" word similarity between weight edge of (the right to collective self-defense, the right of self-defense), and, related words c 1 and the "right of self-defense." Related The inter-word similarity weight edge (self-defense right, right) of the word c 2 “right” is calculated as in the following equations (5) and (6), respectively.

Figure 0006639040
Figure 0006639040

Figure 0006639040
Figure 0006639040

また、IDF(集団的自衛権)は14.4216である。よって、パスp1の関連語c「権利」の関連度weightpath(集団的自衛権,権利)は、以下の式(7)のように計算される。 The IDF (right to collective self-defense) is 14.4216. Therefore, the degree of relevance weight path (right to collective self-defense, right) of the related word c 2 “right” of the path p1 is calculated as in the following equation (7).

Figure 0006639040
Figure 0006639040

同様に、パスp2のときの関連語c「権利」の関連度weightpath(q,c)の計算を行う。図2に示す概念マップから、「自衛」と「自衛権」の類似度は0.646726、「自衛権」と「権利」の間の類似度は0.46726である。また、概念マップにおいて「自衛」につながる単語の数は1、「自衛権」につながる単語の数は2、「権利」につながる単語の数は119である。よって、関連語c「自衛」と関連語c「自衛権」の単語間類似度weightedge(自衛,自衛権)、及び、関連語c「自衛権」と関連語c「権利」の単語間類似度weightedge(自衛権,権利)はそれぞれ、以下の式(8)、式(9)のように計算される。 Similarly, the degree of relevance weight path (q, c) of the related word c “right” at the time of the path p2 is calculated. From the conceptual map shown in FIG. 2, the similarity between “self-defense right” and “self-defense right” is 0.646726, and the similarity between “self-defense right” and “right” is 0.46726. In the conceptual map, the number of words connected to “self-defense” is 1, the number of words connected to “right of self-defense” is 2, and the number of words connected to “right” is 119. Therefore, the related words c 0 "self-defense" and related words c 1 word similarity between weight edge of the "right to self-defense" (self-defense, the right of self-defense), and, related words c 1 "right of self-defense" and related words c 2 "rights" word similarity weight edge (self-defense, right), respectively, the following equation (8), is calculated as equation (9).

Figure 0006639040
Figure 0006639040

Figure 0006639040
Figure 0006639040

IDF(自衛)は7.3315である。よって、パスp2の関連語c「権利」の関連度weightpath(自衛,権利)は、以下の式(10)のように計算される。 The IDF (self-defense) is 7.3315. Therefore, the degree of relevance weight path (self-defense, right) of the related word c 2 “right” of the path p2 is calculated as in the following expression (10).

Figure 0006639040
Figure 0006639040

よって、最終的に得られる関連語c「権利」の関連度weight(権利)は、以下の式(11)のように計算される。   Therefore, the relevance weight (right) of the finally obtained related word c “right” is calculated as in the following expression (11).

Figure 0006639040
Figure 0006639040

関連度weight(c)は、基本的に、関連語cまでに辿る段数が少ないほど、関連語cに至るパスにおいて現れる関連語間の類似度が高いほど、関連語cに至るパスに表れる関連語につながる単語数が少ないほど値が大きくなり、検索キーqとの関連が高いことを示す。関連度計算部15は、上記のように検索キーから得られた関連語集合中の全ての関連語について関連度を計算し終えると、各関連語の関連度をスコア計算部16に出力する。   The degree of relevance weight (c) basically indicates the relation appearing in the path to the related word c as the number of steps to the related word c is smaller and the similarity between the related words appearing in the path to the related word c is higher. The value increases as the number of words connected to the word decreases, indicating that the association with the search key q is high. When the relevance calculation unit 15 finishes calculating the relevance for all the related words in the related word set obtained from the search key as described above, it outputs the relevance of each related word to the score calculation unit 16.

スコア計算部16は、検索対象となる複数のコンテンツそれぞれのコンテンツ関連テキストをコンテンツ情報記憶部113から読み出し、検索キーqと関連する程度を表すスコアを計算する(ステップS160)。ここでは、スコア計算部16は、コンテンツ関連テキストとして番組概要を読み出す。スコア計算部16は、各コンテンツのコンテンツ関連テキストそれぞれについて、以下のようにスコアを計算する。   The score calculation unit 16 reads the content-related text of each of the plurality of contents to be searched from the content information storage unit 113, and calculates a score indicating the degree of association with the search key q (step S160). Here, the score calculation unit 16 reads the program outline as the content-related text. The score calculation unit 16 calculates a score for each content-related text of each content as follows.

スコア計算部16は、検索キーから単語を取得したときと同様の形態素解析により、コンテンツ関連テキストに含まれる単語を取得する。スコア計算部16は、取得した各単語について、単語の重要度である重みを取得する。この重みには、okapi−BM25や、特開2015−132899号公報に開示されているCoMの値を用いることができる。CoMは、文中に関連する単語(類似度が高い単語)が多く出現する単語ほど、その文中で重要な単語である、という考え方に基づいた重み付け手法である。具体的には、文中に出現する各単語について、その文中の他の単語との間の類似度を計算し、類似度の平均値をCoMの値とする。スコア計算部16は、検索キーqと番組Pの間のスコアscore(q,P)を、以下の式(12)により計算する。   The score calculation unit 16 obtains the words included in the content-related text by performing the same morphological analysis as when obtaining the words from the search key. The score calculation unit 16 obtains, for each of the obtained words, a weight that is the importance of the word. As this weight, okapi-BM25 or the value of CoM disclosed in JP-A-2013-132899 can be used. The CoM is a weighting method based on the idea that a word in which a related word (a word having a high similarity) appears more in a sentence is an important word in the sentence. Specifically, for each word appearing in the sentence, the similarity between the word and another word in the sentence is calculated, and the average value of the similarities is used as the CoM value. The score calculation unit 16 calculates a score score (q, P) between the search key q and the program P by the following equation (12).

Figure 0006639040
Figure 0006639040

CoM(P,w)は、ある番組Pのコンテンツ関連テキスト(番組概要)の文中に出現する単語wのCoMの値、Wは、番組Pのコンテンツ関連テキストに出現する全ての単語wの集合、|W|は、番組Pのコンテンツ関連テキストに出現する単語wの総数である。weight(w)は、式(2)、式(3)及び式(4)により求められた、検索キーqと単語wの間の関連度weight(w)である。なお、関連語cとして得られなかった単語wの関連度weight(w)=0である。   CoM (P, w) is the CoM value of the word w that appears in the text of the content-related text (program outline) of a program P, W is the set of all the words w that appear in the content-related text of the program P, | W | is the total number of words w that appear in the content-related text of the program P. weight (w) is the degree of association weight (w) between the search key q and the word w, which is obtained by the equations (2), (3) and (4). Note that the degree of relevance of the word w not obtained as the related word c is weight (w) = 0.

CoMの計算方法の例について説明する。特開2015−132899号公報に開示されているように、CoMは文脈類似度を用いて計算することができる。また、CoMは、上述したword2vecなどの単語の分散表現ベクトルを用いて計算することができる。上述したword2vecなどの単語の分散表現ベクトルを用いてCoMを計算する場合には、まず、コンテンツ関連テキスト全体の意味を表す分散表現ベクトルを求める。コンテンツ関連テキスト全体の意味を表す分散表現ベクトルは、コンテンツ関連テキストに出現する全ての単語の分散表現ベクトルの和を計算することで求める。そして、単語のCoMは、その単語の分散表現ベクトルと、コンテンツ関連テキスト全体の意味を表す分散表現ベクトルとのコサイン類似度を計算することで求める。   An example of the CoM calculation method will be described. As disclosed in JP-A-2013-132899, CoM can be calculated using context similarity. Further, the CoM can be calculated using a word distributed expression vector such as word2vec described above. When calculating CoM using a distributed expression vector of a word such as word2vec described above, first, a distributed expression vector representing the meaning of the entire content-related text is obtained. The distributed expression vector representing the meaning of the entire content-related text is obtained by calculating the sum of the distributed expression vectors of all words appearing in the content-related text. Then, the CoM of the word is obtained by calculating the cosine similarity between the distributed expression vector of the word and the distributed expression vector representing the meaning of the entire content-related text.

具体的には、コンテンツ関連テキストP全体の意味を表す分散表現ベクトルProgVec(P)は、以下の式(13)に示すように、コンテンツ関連テキストPに出現する単語集合W中の各単語wの分散表現ベクトルWordVec(w)の総和で表される。   Specifically, a distributed expression vector ProgVec (P) representing the meaning of the entire content-related text P is expressed by the following expression (13), where each word w in the word set W appearing in the content-related text P is It is represented by the sum of the distributed expression vector WordVec (w).

Figure 0006639040
Figure 0006639040

単語wのCoMの値は、その単語wの分散表現ベクトルWordVec(w)と、式(13)により求めたProgVec(P)とのコサイン類似度を以下の式(14)により計算することで得られる。   The CoM value of the word w is obtained by calculating the cosine similarity between the distributed expression vector WordVec (w) of the word w and ProgVec (P) obtained by the equation (13) by the following equation (14). Can be

Figure 0006639040
Figure 0006639040

式(8)により計算されたスコアは、検索キーqと関連のある単語がコンテンツ関連テキストに多く表れるほど高くなり、検索キーqとの関連が高いことを示す。そのため、例えば検索キーqが「猫」であるとすると、「猫」に関連の深い単語がコンテンツ関連テキストに多く出現するときにはスコアが高くなる。一方、コンテンツ関連テキストに「猫」が出現しても、文全体としては猫に関連する言葉の数が少ない場合には、スコアは低くなる。
スコア計算部16は、各コンテンツについて計算したスコアを選択部17に出力する。
The score calculated by the equation (8) becomes higher as more words related to the search key q appear in the content-related text, indicating that the relation with the search key q is higher. Therefore, for example, if the search key q is “cat”, the score becomes higher when words that are deeply related to “cat” appear in the content-related text more often. On the other hand, even if “cat” appears in the content-related text, the score is low if the number of words related to the cat is small in the entire sentence.
The score calculation unit 16 outputs the score calculated for each content to the selection unit 17.

選択部17は、各コンテンツをスコア計算部16が計算したスコアを降順に並べ、スコアが高い順に高い順位を付与する。選択部17は、所定の順位以上のコンテンツを選択する(ステップS170)。選択部17は、選択したコンテンツのコンテンツIDと、そのコンテンツの順位及びスコアとを出力部18に出力する。   The selecting unit 17 arranges the contents in the descending order of the scores calculated by the score calculating unit 16 and assigns the contents in the descending order of the score. The selecting unit 17 selects the content having a predetermined rank or higher (Step S170). The selection unit 17 outputs the content ID of the selected content and the order and score of the content to the output unit 18.

出力部18は、選択部17が選択したコンテンツの情報を示す検索結果データを表示装置5に送信し、表示させる(ステップS180)。出力部18は、検索結果データにコンテンツの順位を含めるが、含めなくともよい。コンテンツの順位は、コンテンツの情報の表示順によって示してもよい。また、検索結果データに設定するコンテンツの情報は、コンテンツIDや、コンテンツ情報記憶部113に記憶されているコンテンツ情報の全て又は一部の情報(例えば、タイトル、サブタイトル、番組概要、番組配信サイトのURLなど)とすることができる。コンテンツが動画や静止画を含む番組であれば、予めコンテンツ情報記憶部113に記憶しておいたサムネイル画像を検索結果データに含めてもよく、コンテンツが電子書籍やウェブページであれば、コンテンツデータの一部を検索結果データに含めてもよい。   The output unit 18 transmits the search result data indicating the information of the content selected by the selection unit 17 to the display device 5 and causes the display device 5 to display the search result data (step S180). The output unit 18 includes the ranking of the content in the search result data, but need not include it. The order of the contents may be indicated by the display order of the information of the contents. The information of the content to be set in the search result data is a content ID or all or a part of the content information stored in the content information storage unit 113 (for example, title, subtitle, program outline, URL, etc.). If the content is a program including a moving image or a still image, a thumbnail image stored in advance in the content information storage unit 113 may be included in the search result data. May be included in the search result data.

さらに、検索結果データに、各コンテンツについて、式(12)におけるweight(w)×CoM(w,P)が最も大きな単語wと、その単語wのweight(w)が得られたパスと、そのパスにおいてつながっている2単語間の関係の情報を含めてもよい。2単語間の関係は、概念マップから読み出される。これにより、「なぜその番組が検索結果として得られたのか」の理由を提示することができる。   Further, in the search result data, for each content, the word w having the largest weight (w) × CoM (w, P) in the equation (12), the path where the weight (w) of the word w is obtained, and the Information on the relationship between two words connected in the path may be included. The relationship between the two words is read from the concept map. As a result, the reason "why the program was obtained as a search result" can be presented.

図5は、検索結果データの表示例を示す図である。
図5(a)は、本実施形態によって、検索キー「猫」により検索を行った際の検索結果の表示例を示している。同図では、スコアが高い順に、コンテンツID、スコア、スコアに最も寄与した単語、その単語に至るパス及び番組概要が表示されている。「猫が出現する」、「猫−[上位下位]−ネコ」のように、本実施形態により検索を行った際に、その番組を検索結果として得るときに寄与した単語や、その単語へ至るパスを提示することで、よりユーザによって使いやすい検索システムとなると考えられる。
FIG. 5 is a diagram illustrating a display example of search result data.
FIG. 5A illustrates a display example of a search result when a search is performed using the search key “cat” according to the present embodiment. In the figure, the content ID, the score, the word that most contributed to the score, the path leading to the word, and the program outline are displayed in descending order of the score. When a search is performed according to the present embodiment, such as “a cat appears” or “cat- [higher-lower] -cat”, the words that contributed to obtaining the program as a search result or the words that contributed to the program are obtained. Presenting the path is considered to be a search system that is more user-friendly.

図5(b)は、従来技術によって、検索キー「猫」により検索を行った際の検索結果の表示例を示している。同図では、猫という単語が出現するが、猫自体が情報の中心ではない番組が多く検索結果として得られている。一方、図5(a)では、「猫」という表記は出現しないが、猫が情報の中心となっている番組が上位に検索されている。これは、概念マップを用いた関連語集合の作成の結果、「猫」だけでなく「ネコ」のような異表記や、「イヌ」などのように関係の深そうな単語からもスコアが計算できたことによる。なお、本実施形態の情報検索装置1では検索結果として得られた「世界ネコ歩き」という番組は、検索キー「猫」という単語が出現していないため、従来技術ではスコアが計算できず、検索結果として得られない。   FIG. 5B shows a display example of a search result when a search is performed using the search key “cat” according to the related art. In the figure, the word cat appears, but many programs in which the cat itself is not the main information are obtained as search results. On the other hand, in FIG. 5A, the notation “cat” does not appear, but a program in which a cat is the center of the information is searched for at the top. This is a result of creating a related word set using a concept map, and the score is calculated not only from "cats" but also from other notations such as "cats" and words that seem to be closely related such as "dogs" It depends on what you can do. In the information retrieval device 1 according to the present embodiment, in the program "walking around the cat" obtained as a search result, the word "cat" does not appear in the search key, and therefore, the score cannot be calculated by the conventional technique. No result.

上述した実施形態によれば、情報検索装置1は、以下の(要素1)〜(要素4)の4つの要素によってコンテンツを順位付けし、高い順位のコンテンツを検索結果として出力する。   According to the above-described embodiment, the information search device 1 ranks contents by the following four elements (element 1) to (element 4), and outputs a higher-ranked content as a search result.

(要素1)検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離。
(要素2)検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数。
(要素3)パス中で経由する単語間の類似度。
(要素4)パス中で経由する単語につながる他の単語の数。
(Element 1) Distance between the word included in the search key and the word appearing in the content-related text.
(Element 2) The number of paths from words included in the search key to words appearing in the content-related text.
(Element 3) Similarity between words passing in a path.
(Element 4) The number of other words that lead to the passing word in the path.

(要素1)は、式(3)における右辺の直積集合の部分に反映される。
図6は、検索キーに含まれる単語とコンテンツ関連テキストに出現する単語との距離を模式的に示す図である。コンテンツマップは、検索キーから得られた関連語のつながりと、コンテンツ関連テキストに関連語が出現するコンテンツとを示す。関連語からコンテンツへの線がつながっている場合、その関連語がそのコンテンツのコンテンツ関連テキストに出現することを示す。つまり、コンテンツAのコンテンツ関連テキストには関連語cの「単語w」が出現し、コンテンツBのコンテンツ関連テキストには関連語cの「単語w」及び「単語w」が出現し、コンテンツCのコンテンツ関連テキストには関連語cの「単語w」が出現する。この場合、コンテンツB、CよりもコンテンツAのほうが、検索キーに含まれる単語との距離が近い。この距離が近いほど、スコアは大きくなる。
(Element 1) is reflected in the part of the right product set on the right side in Expression (3).
FIG. 6 is a diagram schematically illustrating a distance between a word included in the search key and a word appearing in the content-related text. The content map indicates a connection between related words obtained from the search key and content in which the related words appear in the content related text. If a line from the related word to the content is connected, it indicates that the related word appears in the content related text of the content. In other words, the content-related text of the content A and the appearance is "word w a" of related words c 0, the "word w c" and "word w e" content-related text to the related words c 1 is the content B appearance Then, in the content-related text of the content C, the “word w f ” of the related word c 1 appears. In this case, the content A is closer to the word included in the search key than the contents B and C. The shorter the distance, the higher the score.

(要素2)は、式(12)の右辺に反映される。
図7は、検索キーに含まれる単語からコンテンツ関連テキストに出現する単語へのパスの本数を模式的に表す図である。同図では、コンテンツBのコンテンツ関連テキストには関連語cの「単語w」及び「単語w」が出現し、コンテンツCのコンテンツ関連テキストには関連語cの「単語w」が出現する。この場合、コンテンツCよりもコンテンツBのほうが、パスが多い。パスの本数が多いほど、スコアは大きくなる。
(Element 2) is reflected on the right side of Expression (12).
FIG. 7 is a diagram schematically illustrating the number of paths from words included in the search key to words appearing in the content-related text. In the figure, the related words c 1 in the content-related text of the content B "word w c" and "word w e" appeared, the content-related text of the content C of related words c 1 "word w f" Appears. In this case, the content B has more paths than the content C. The score increases as the number of passes increases.

(要素3)は、式(4)におけるsim(c,ci+1)の部分に反映される。
図8は、パス中で経由する単語間の類似度を模式的に表す図である。同図では、単語間の線の太さによって類似度を表している。コンテンツAのコンテンツ関連テキストに含まれる単語wは、1段上の単語wとの類似度が高く、コンテンツBのコンテンツ関連テキストに含まれる単語wは、1段上の単語wとの類似度が低い。よって、パス中で経由する単語間の類似度は、コンテンツBよりもコンテンツAのほうが高い。この類似度が大きい程、スコアは大きくなる。
(Element 3), sim in equation (4) (c i, c i + 1) is reflected in part of.
FIG. 8 is a diagram schematically illustrating the similarity between words passing through in a path. In the figure, the similarity is represented by the thickness of the line between words. Words w b in the content-related text of the content A has a high degree of similarity between 1 level upper word w a, a word w d contained in the content-related text content B includes a word w c of 1 level upper Has low similarity. Therefore, the content A has a higher similarity between the words passed in the path than the content B. The score increases as the degree of similarity increases.

(要素4)は、式(4)におけるlog(max(|c|,|ci+1|))の逆数の部分に反映される。
図9は、パス中で経由する単語につながる他の単語の数を模式的に表す図である。同図では、単語w、単語wにつながる単語の数は、単語w、単語wにつながる単語の数よりも少ない。よって、コンテンツAのコンテンツ関連テキストに至るパスは、コンテンツBのコンテンツ関連テキストに至るパスよりも、パス中で経由している単語につながる他の単語の数が少ない。この数が少ないほど、スコアは大きくなる。
(Element 4) is reflected in the reciprocal part of log (max (| c i |, | c i + 1 |)) in equation (4).
FIG. 9 is a diagram schematically illustrating the number of other words connected to the word passed through in the path. In the figure, the number of words connected to the words w a and w b is smaller than the number of words connected to the words w c and w d . Therefore, the path leading to the content-related text of the content A has a smaller number of other words connected to the word passing in the path than the path leading to the content-related text of the content B. The lower the number, the higher the score.

図10及び図11に、本実施形態の情報検索装置1及び従来技術による情報検索装置を用いた実験結果を示す。この実験では、NHKオンデマンドの2015年8月のデータ(5,066番組)を対象とした。被験者が検索キーとなる単語を入力し、本実施形態の情報検索装置1による番組検索と、okapi−BM25を用いた従来技術の情報検索装置による番組検索とのそれぞれにより検索結果として得られた上位10番組を、被験者にはいずれを用いたかわからないように提示した。被験者は、検索結果として得られた番組に、4段階の評価を与えた。評価値は、自分が検索したいものと関係がある場合は「4」、やや関係がある場合は「3」、あまり関係がない場合は「2」、関係ない場合は「1」とした。被験者6名により、111個の検索キーについて評価を行った。   FIGS. 10 and 11 show experimental results using the information search device 1 of the present embodiment and the information search device according to the related art. In this experiment, NHK on-demand data for August 2015 (5,066 programs) was targeted. A subject inputs a word serving as a search key, and a higher order obtained as a search result by each of a program search by the information search device 1 of the present embodiment and a program search by a conventional information search device using the okapi-BM25. Ten programs were presented so that the test subjects did not know which one was used. The subject gave the program obtained as a search result a four-level evaluation. The evaluation value was “4” when there was a relationship with the item that the user wanted to search, “3” when there was a little relationship, “2” when there was little relationship, and “1” when there was no relationship. Six test subjects evaluated 111 search keys.

図10は、検索キーに対して検索結果として出力された番組数を示す。同図に示すように、本実施形態の情報検索装置1を用いた番組検索の方が、従来技術の情報検索装置を用いた番組検索よりも、検索結果として出力された番組数の平均が高かった。特に、本実施形態では、検索結果として出力された番組数が0である検索キーの数が、従来技術よりも減少している。
従来技術による番組検索では、検索結果として出力された番組数が0である19個の検索キーについて、本実施形態の情報検索装置1が番組検索を行って得られた検索結果を評価した結果、最大の評価値が4である検索キーの個数が6、最大の評価値が3である検索キーの個数が3であった。このことから、本実施形態では、検索結果として得られる番組数が従来よりも増加し、従来技術では検索結果が0件の検索キーでも本実施形態では有用な検索結果が得られることがわかる。
FIG. 10 shows the number of programs output as a search result for a search key. As shown in the figure, the program search using the information search device 1 of the present embodiment has a higher average number of programs output as search results than the program search using the conventional information search device. Was. In particular, in the present embodiment, the number of search keys for which the number of programs output as a search result is 0 is smaller than that in the related art.
In the program search according to the related art, as a result of evaluating the search result obtained by the information search device 1 of the present embodiment performing a program search for 19 search keys whose number of programs output as the search result is 0, The number of search keys having the maximum evaluation value of 4 was 6, and the number of search keys having the maximum evaluation value of 3 was 3. From this, it can be seen that in the present embodiment, the number of programs obtained as a search result is larger than in the past, and in the prior art, a useful search result is obtained in the present embodiment even with a search key having zero search results.

図11は、検索キーごとに検索結果として出力された番組に対する最大の評価値を示している。同図では、出力された番組数が0であるものは除いて評価した結果を示している。この結果から、本実施形態の情報検索装置1を用いた番組検索は、従来技術の情報検索装置を用いた番組検索よりも、検索結果として出力される番組数が多い上に、従来技術による番組検索と同様に高い評価値の検索結果が得られていることがわかる。   FIG. 11 shows the maximum evaluation value for a program output as a search result for each search key. The figure shows the results of evaluation excluding the case where the number of output programs is 0. From these results, the program search using the information search device 1 of the present embodiment has more programs output as search results than the program search using the information search device of the related art, It can be seen that a search result with a high evaluation value was obtained as in the search.

上述したように、情報検索装置1は、検索キーに含まれる単語を上位関連語として取得し、上位関連語に関連する単語及びその単語との類似度を概念マップから読み出し、さらに、読み出された単語に関連する単語及びその関連する単語との類似度を概念マップから読み出す処理を所定回繰り返す。情報検索装置1は、概念マップから読み出された単語である下位関連語毎に、上位関連語から下位関連語に至るまでに概念マップから読み出された単語を順に並べた単語の列であるパスを取得する。   As described above, the information search device 1 acquires the word included in the search key as a higher related word, reads the word related to the higher related word and the similarity to the word from the concept map, and further reads the word. The process of reading the word related to the word and the similarity with the related word from the concept map is repeated a predetermined number of times. The information search device 1 is a sequence of words in which words read from the concept map in order from upper related words to lower related words are arranged for each lower related word that is a word read from the concept map. Get the path.

情報検索装置1は、上位関連語から下位関連語に至るパスにおいて隣接する単語間の類似度と、そのパスに含まれる単語に関連する他の単語の数と、そのパスにおける上位関連語の単語の重要度とに基づいて、下位関連語毎に検索キーとの関連の高さを表す関連度を計算する。このとき、情報検索装置1は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、上位関連語の単語の重要度が高いほど、検索キーとの関連が高いことを示す値の関連度を計算する。そこで、情報検索装置1は、上位関連語から下位関連語に至る前記パスにおいて隣接する2つの単語の組毎に、2つの単語間の類似度が高いほど、又は、2つの単語のそれぞれに関連する他の単語の数が少ないほど、単語間の関連度が高いことを示す値となる単語間関連度を計算し、そのパスに含まれる全ての組の単語間関連度と上位関連語の重要度との乗算により、下位関連語の関連度を計算する。情報検索装置1は、同一の下位関連語に至るパスが複数ある場合、パス毎に計算した関連度のうち最も大きな関連度を選択する。また、情報検索装置1は、上位関連語それぞれの関連度を、その上位関連語の重要度に基づき計算する。   The information search device 1 determines the similarity between adjacent words in the path from the upper related word to the lower related word, the number of other words related to the word included in the path, and the word of the higher related word in the path. , The degree of relevance indicating the level of relevance to the search key is calculated for each lower-level related word. At this time, the information search device 1 indicates that the higher the similarity, the smaller the number of related other words, or the higher the importance of the word of the higher related word, the higher the association with the search key. Calculate the relevance of a value. Therefore, for each pair of two adjacent words in the path from a higher-order related word to a lower-order related word, the information search device 1 determines whether the higher the similarity between the two words is, or the more relevant the two words are. Calculate the inter-word relevance, which is a value indicating that the relevance between words is higher as the number of other words to be performed is smaller, and calculate the inter-word relevance of all pairs included in the path and the importance of the upper related words The degree of relevance of the lower related word is calculated by multiplication with the degree. If there are a plurality of paths leading to the same lower related word, the information search device 1 selects the largest degree of relevance among the degrees of relevance calculated for each path. Further, the information search device 1 calculates the relevance of each of the higher-order related words based on the importance of the higher-order related words.

情報検索装置1は、コンテンツに関するテキストデータを単語に分割し、分割により得られた単語それぞれの重要度と、その単語の関連度とに基づき、テキストデータが検索キーに関連する程度を定量的に表すスコアを計算する。このとき、情報検索装置1は、分割により得られた単語のうち上位関連語又は下位関連語に合致する各単語について、単語の重要度と関連度とを乗算し、乗算した結果の合計を、分割により得られた単語の数により除算してスコアを計算する。情報検索装置1は、複数のコンテンツの中から、コンテンツに関するテキストデータそれぞれについて計算されたスコアに基づいて、検索キーに関連する程度が高いコンテンツを選択する。情報検索装置1は、選択したコンテンツの情報を出力する。   The information search device 1 divides text data related to content into words, and quantitatively determines the degree to which the text data is related to a search key based on the importance of each word obtained by the division and the relevance of the word. Calculate the score to represent. At this time, the information search device 1 multiplies the importance of the word by the relevance of each word that matches the higher-order related word or the lower-order related word among the words obtained by the division, and calculates the sum of the multiplication results. The score is calculated by dividing by the number of words obtained by the division. The information search device 1 selects, from a plurality of contents, contents that are highly related to the search key based on the score calculated for each piece of text data related to the contents. The information search device 1 outputs information on the selected content.

上述した実施形態によれば、情報検索装置1は、検索キーに含まれる単語と一致する単語がコンテンツ関連テキスト内に出現しない場合でも、検索キーに相応しいコンテンツを検索することが可能となる。
また、検索キーに含まれる単語がコンテンツ関連テキストに出現する場合であっても、検索キーに含まれる単語から得られた関連語が出現しない場合には相対的にスコアが低くなる。よって、情報検索装置1は、コンテンツ関連テキストに検索キーが出現する場合でも、コンテンツ関連テキストが検索キーと近い内容ではないときには、検索キーとの関連が高くないと判断することができる。換言すれば、関連語が多く出現するコンテンツのスコアが高くなるため、検索キーが主題に近いほどコンテンツの順位が高くなる。
また、情報検索装置1は、関連語集合の作成時に概念マップを活用することで、関連語集合に含まれる単語の探索スペースを狭くすることができるため、高速に検索を行うことができる。
According to the above-described embodiment, even when a word that matches a word included in a search key does not appear in the content-related text, the information search device 1 can search for a content appropriate for the search key.
Further, even when the word included in the search key appears in the content-related text, the score becomes relatively low when the related word obtained from the word included in the search key does not appear. Therefore, even when the search key appears in the content-related text, if the content-related text is not close to the search key, the information search device 1 can determine that the relation with the search key is not high. In other words, since the score of the content in which many related words appear becomes higher, the closer the search key is to the subject, the higher the ranking of the content.
In addition, the information search device 1 can narrow the search space for words included in the related word set by utilizing the concept map when creating the related word set, and thus can perform a high-speed search.

なお、上述の情報検索装置1は、内部にコンピュータシステムを有している。そして、情報検索装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。   The information search device 1 has a computer system inside. The process of the operation of the information search device 1 is stored in a computer-readable recording medium in the form of a program, and the above-described processing is performed by reading and executing the program by the computer system. Here, the computer system includes a CPU, various memories, an OS, and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
The “computer system” also includes a homepage providing environment (or a display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in a computer system. Further, a "computer-readable recording medium" refers to a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short time. In this case, it is also assumed that a program that holds a program for a certain period of time, such as a volatile memory in a computer system serving as a server or a client in that case, is included. Further, the above-mentioned program may be for realizing a part of the above-mentioned functions, and may be for realizing the above-mentioned functions in combination with a program already recorded in the computer system.

1 情報検索装置
5 表示装置
9 ネットワーク
11 記憶部
12 検索キー受信部
13 上位関連語取得部
14 下位関連語取得部
15 関連度計算部
16 スコア計算部
17 選択部
18 出力部
111 概念マップ記憶部
112 単語重要度記憶部
113 コンテンツ情報記憶部
1 Information Retrieval Device 5 Display Device 9 Network 11 Storage Unit 12 Search Key Receiving Unit 13 Upper Related Word Acquisition Unit 14 Lower Related Word Acquisition Unit 15 Relevance Calculation Unit 16 Score Calculation Unit 17 Selection Unit 18 Output Unit 111 Concept Map Storage Unit 112 Word importance storage unit 113 Content information storage unit

Claims (6)

検索キーに含まれる単語を上位関連語として取得する上位関連語取得部と、
関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得部と、
前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算部と、
コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算部により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算部と、
複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算部が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択部と、
を備えることを特徴とする情報検索装置。
A higher-level related word acquisition unit that obtains a word included in the search key as a higher-level related word,
From a conceptual map showing related words and similarities between related words, a word related to the higher related word and a similarity to the related word are read, and further, a word related to the read word is read. And a process of reading the similarity with the related word from the concept map is repeated a predetermined number of times, and for each of the lower related words that are the words read from the concept map, from the upper related word to the lower related word A lower related word acquisition unit that acquires a path that is a sequence of words in which words read from the concept map are arranged in order by
The similarity between adjacent words in the path from the higher related word to the lower related word, the number of other words related to the word included in the path, and the importance of the word of the higher related word Processing for calculating the degree of relevance indicating the level of relevance with the search key for each of the lower related words, and processing for calculating the relevance of each of the higher related words based on the importance of the higher related words A relevance calculator that performs
The text data relating to the content is divided into words, and the text data is associated with the search key based on the importance of each of the words obtained by the division and the relevance of the word calculated by the relevance calculator. A score calculation unit that calculates a score that quantitatively represents the degree to which
A selection unit that selects, from among the plurality of contents, content having a high degree related to the search key based on the score calculated by the score calculation unit for each of the text data related to the content;
An information retrieval device comprising:
前記関連度計算部は、類似度が高いほど、関連する他の単語の数が少ないほど、又は、前記重要度が高いほど、前記検索キーとの関連が高いことを示す値の関連度を計算する、
ことを特徴とする請求項1に記載の情報検索装置。
The relevance calculator calculates the relevance of a value indicating that the higher the similarity, the smaller the number of related other words, or the higher the importance, the higher the relevance to the search key. Do
The information retrieval device according to claim 1, wherein
前記関連度計算部は、前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する2つの単語の組毎に、前記組を構成する単語間の類似度が高いほど、又は、前記組を構成する単語それぞれに関連する他の単語の数が少ないほど前記組を構成する単語間の関連度が高いことを示す値となる単語間関連度を計算し、前記パスに含まれる全ての前記組の前記単語間関連度と前記上位関連語の前記重要度との乗算により前記下位関連語の関連度を計算する、
ことを特徴とする請求項1又は請求項2に記載の情報検索装置。
The relevance calculator calculates, for each pair of two adjacent words in the path from the upper related word to the lower related word, as the similarity between the words constituting the set is higher, or The inter-word relevance, which is a value indicating that the relevance between the words constituting the set is higher as the number of other words related to the constituent words is smaller, is calculated for all the sets included in the path. Calculating the relevance of the lower related word by multiplying the inter-word relevance by the importance of the higher related word,
The information retrieval device according to claim 1 or 2, wherein:
前記関連度計算部は、同一の下位関連語に至るパスが複数ある場合、前記パス毎に計算した関連度のうち最も大きな関連度を選択する、
ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報検索装置。
The relevance calculating unit, when there are a plurality of paths leading to the same lower related word, selects the largest relevance among the relevance calculated for each of the paths.
The information search device according to claim 1, wherein the information search device includes:
前記スコア計算部は、コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語のうち前記上位関連語又は前記下位関連語に合致する各単語について、前記単語の前記重要度と前記単語の前記関連度とを乗算し、乗算した結果の合計を、分割により得られた前記単語の数により除算して前記スコアを計算する、
ことを特徴とする請求項1から請求項4のいずれか一項に記載の情報検索装置。
The score calculation unit divides text data related to content into words, and for each word that matches the higher related word or the lower related word among the words obtained by the division, the importance of the word and the word Multiplying the degree of relevance by, and calculating the score by dividing the sum of the multiplied results by the number of words obtained by division.
The information retrieval apparatus according to any one of claims 1 to 4, wherein
コンピュータを、
検索キーに含まれる単語を上位関連語として取得する上位関連語取得手段と、
関連する単語と関連する単語間の類似度とを示す概念マップから、前記上位関連語に関連する単語及び関連する当該単語との類似度を読み出し、さらに、読み出された前記単語に関連する単語及び関連する当該単語との類似度を前記概念マップから読み出す処理を所定回繰り返し、前記概念マップから読み出された前記単語である下位関連語毎に、前記上位関連語から前記下位関連語に至るまでに前記概念マップから読み出された単語を順に並べた単語の列であるパスを取得する下位関連語取得手段と、
前記上位関連語から前記下位関連語に至る前記パスにおいて隣接する単語間の類似度と、前記パスに含まれる単語に関連する他の単語の数と、前記上位関連語の単語の重要度とに基づいて、前記下位関連語毎に前記検索キーとの関連の高さを表す関連度を計算する処理、及び、前記上位関連語それぞれの関連度を当該上位関連語の重要度に基づき計算する処理を行う関連度計算手段と、
コンテンツに関するテキストデータを単語に分割し、分割により得られた前記単語それぞれの重要度と、前記関連度計算手段により計算された前記単語の関連度とに基づき、前記テキストデータが前記検索キーに関連する程度を定量的に表すスコアを計算するスコア計算手段と、
複数のコンテンツの中から、前記コンテンツに関するテキストデータそれぞれについて前記スコア計算手段が計算した前記スコアに基づいて、前記検索キーに関連する程度が高いコンテンツを選択する選択手段と、
を有する情報検索装置として動作させるプログラム。
Computer
An upper related word acquiring means for acquiring a word included in the search key as an upper related word,
From a conceptual map showing related words and similarities between related words, a word related to the higher related word and a similarity to the related word are read, and further, a word related to the read word is read. And a process of reading the similarity with the related word from the concept map is repeated a predetermined number of times, and for each of the lower related words that are the words read from the concept map, from the upper related word to the lower related word A lower related word acquiring means for acquiring a path that is a sequence of words in which words read from the concept map are arranged in order by
The similarity between adjacent words in the path from the higher related word to the lower related word, the number of other words related to the word included in the path, and the importance of the word of the higher related word Processing for calculating the degree of relevance indicating the level of relevance with the search key for each of the lower related words, and processing for calculating the relevance of each of the higher related words based on the importance of the higher related words Relevance calculation means for performing
Text data relating to content is divided into words, and the text data is associated with the search key based on the importance of each of the words obtained by the division and the relevance of the words calculated by the relevance calculating means. Score calculation means for calculating a score that quantitatively represents the degree to which
Selecting means for selecting, from a plurality of contents, contents having a high degree related to the search key based on the score calculated by the score calculating means for each of the text data relating to the contents;
That operates as an information retrieval device having
JP2016014675A 2016-01-28 2016-01-28 Information retrieval device and program Active JP6639040B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016014675A JP6639040B2 (en) 2016-01-28 2016-01-28 Information retrieval device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016014675A JP6639040B2 (en) 2016-01-28 2016-01-28 Information retrieval device and program

Publications (2)

Publication Number Publication Date
JP2017134675A JP2017134675A (en) 2017-08-03
JP6639040B2 true JP6639040B2 (en) 2020-02-05

Family

ID=59505021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016014675A Active JP6639040B2 (en) 2016-01-28 2016-01-28 Information retrieval device and program

Country Status (1)

Country Link
JP (1) JP6639040B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6945461B2 (en) * 2018-01-09 2021-10-06 鹿島建設株式会社 Safety information provision system
JP7321143B2 (en) * 2018-03-23 2023-08-04 株式会社半導体エネルギー研究所 Document retrieval system
KR102059743B1 (en) * 2018-04-11 2019-12-26 한국과학기술원 Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction

Also Published As

Publication number Publication date
JP2017134675A (en) 2017-08-03

Similar Documents

Publication Publication Date Title
US10839029B2 (en) Personalization of web search results using term, category, and link-based user profiles
US9846744B2 (en) Media discovery and playlist generation
KR101171405B1 (en) Personalization of placed content ordering in search results
US8156120B2 (en) Information retrieval using user-generated metadata
US10108699B2 (en) Adaptive query suggestion
JP6137960B2 (en) Content search apparatus, method, and program
JP4569380B2 (en) Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program
El Ghali et al. Context-aware query expansion method using language models and latent semantic analyses
JP6639040B2 (en) Information retrieval device and program
JP2011103075A (en) Method for extracting excerpt sentence
US8943101B2 (en) Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method
JP2017117021A (en) Keyword extraction device, content generation system, keyword extraction method, and program
JP5513929B2 (en) Experience information reusability evaluation apparatus, method and program
JP2010277462A (en) Action recommendation device, method and program
JP2012104051A (en) Document index creating device
JP5127553B2 (en) Information processing apparatus, information processing method, program, and recording medium
JP6488399B2 (en) Information presentation system and information presentation method
JP4134975B2 (en) Topic document presentation method, apparatus, and program
JP6985181B2 (en) Information processing equipment, information processing methods, and programs
KR20120020558A (en) Folksonomy-based personalized web search method and system for performing the method
JP2010282403A (en) Document retrieval method
JP2007052693A (en) Webpage information display apparatus, processing method and program
JP7297855B2 (en) Keyword extraction device, keyword extraction method, and program
JP5439050B2 (en) Related content display device and computer program
JP3861105B2 (en) Question answering system

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191223

R150 Certificate of patent or registration of utility model

Ref document number: 6639040

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250