CN103207917B - 标注多媒体内容的方法、生成推荐内容的方法及*** - Google Patents
标注多媒体内容的方法、生成推荐内容的方法及*** Download PDFInfo
- Publication number
- CN103207917B CN103207917B CN201310148335.3A CN201310148335A CN103207917B CN 103207917 B CN103207917 B CN 103207917B CN 201310148335 A CN201310148335 A CN 201310148335A CN 103207917 B CN103207917 B CN 103207917B
- Authority
- CN
- China
- Prior art keywords
- content
- word
- multimedia
- network access
- markup information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种标注多媒体内容的方法、生成推荐内容的方法及***。一种标注多媒体内容的方法包括:获取包括多媒体内容及其标题的内容项目;对所述标题进行自然语言分析,以提取一个或多个名词;将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;将所述兴趣实体词存储为所述内容项目的第一标注信息。
Description
技术领域
本申请涉及一种标注多媒体内容的方法、生成推荐内容的方法及***,尤其涉及一种根据收录的多媒体内容的标题对所述多媒体内容进行标注,并且基于用户的网络访问日志个性化地生成推荐的多媒体内容的方法和***。
背景技术
目前的多媒体内容网站(如视频网站)大多对其提供的多媒体内容进行分类,用户根据网站上提供的分类标签或者特定的专题(如热门视频)查找感兴趣的多媒体内容项目。多数多媒体内容网站也会根据用户的观看历史推荐一些用户可能感兴趣的多媒体内容。
然而,多数的多媒体内容网站仅提供二级或至多三级的分类,产生有限数量的内容主题;而基于用户的观看历史推荐内容无法解决冷启动的问题,并且推荐的内容具有一定的局限性,不能从用户一般的网络行为产生推荐内容。
发明内容
本发明的目的在于提供一种标注多媒体内容的方法、生成推荐内容的方法及***,使用具有不同粒度的兴趣实体词对多媒体内容进行标注,并且根据用户的一般网络搜索记录来提取用户的兴趣实体词并推荐与提取的兴趣实体词匹配的多媒体内容,从而用户可个性化地订阅多媒体内容,并且可为用户推荐个性化的多媒体内容。
根据本发明的一方面,提供一种标注多媒体内容的方法,包括:获取包括多媒体内容及其标题的内容项目;对所述标题进行自然语言分析,以提取一个或多个名词;将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;将所述兴趣实体词存储为所述内容项目的第一标注信息。
优选地,所述的方法还包括:从获取的内容项目的标题切出至少一个词;
通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。
优选地,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
优选地,所述的方法还包括:将所述兴趣词存储为所述内容项目的第二标注信息。
优选地,获取的内容项目还包括一个或多个内容标签,并且所述方法还包括:将所述一个或多个内容标签存储所述内容项目的第三标注信息。
优选地,将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
优选地,将所述多媒体内容以及其标注信息存储在多媒体库中。
根据本发明的另一方面,提供一种标注多媒体内容的***,包括:内容接收单元,用于获取包括多媒体内容及其标题的内容项目;自然语言分析单元,用于对所述标题进行自然语言分析,以提取一个或多个名词,并且将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;内容收录单元,用于将所述兴趣实体词存储为所述内容项目的第一标注信息。
优选地,所述的***还包括:切词分析单元,用于从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。
优选地,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
优选地,内容收录单元还将所述兴趣词存储为所述内容项目的第二标注信息。
优选地,获取的内容项目还包括一个或多个内容标签,并且内容收录单元还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
优选地,内容收录单元将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
优选地,内容收录单元将所述多媒体内容以及其标注信息存储在多媒体库中。
根据本发明的另一方面,提供一种生成推荐内容的方法,包括:获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
优选地,所述对每个用户的网络访问记录进行分析的步骤还包括:对于多媒体内容的网络访问记录,从所述网络访问记录提取多媒体内容的内容标签,并且为所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
优选地,对每个用户的网络访问记录进行分析的步骤还包括:对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
优选地,对每个用户的网络访问记录进行分析的步骤还包括:对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词;其中,所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
优选地,所述的方法还包括:从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
优选地,所述的方法还包括:接收用户创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
优选地,所述的方法还包括:响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
根据本发明的另一方面,提供一种生成推荐内容的***,包括:日志获取单元,用于获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;日志分析单元,用于对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;推荐内容生成单元,用于根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
优选地,日志分析单元在对每个用户的网络访问记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容标签,并且推荐内容生成单元从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
优选地,日志分析单元在对每个用户的网络访问记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
优选地,日志分析单元还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词,其中,推荐内容生成单元还从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
优选地,推荐内容生成单元还从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
优选地,所述的***还包括:接收单元,用于接收用户创建的兴趣标签,其中,推荐内容生成单元从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
优选地,所述***响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明的示例性实施例的标注多媒体内容的方法的流程图;
图2是示出根据本发明的示例性实施例的标注多媒体内容的***的逻辑框图;
图3是示出根据本发明的示例性实施例的生成推荐内容的方法的流程图;
图4是示出根据本发明的示例性实施例的生成推荐内容的***的逻辑框图。
具体实施方式
以下,将参照附图来详细说明本发明的实施例。
本发明的总体发明构思是,在收录如视频、音乐等多媒体内容项目时,对所述多媒体内容项目的信息(如标题、自带标签等)进行多种分析处理,为所述多媒体内容项目产生较丰富的标注信息;当向用户提供推荐内容时,通过对用户的网络行为进行分析来挖掘用户的兴趣点,根据提供涉及挖掘的兴趣点的多媒体内容。
图1是示出根据本发明的示例性实施例的标注多媒体内容的方法的流程图。
参照图1,在步骤S110,获取多媒体的内容项目。所述内容项目可以是用户上传的一条视频或音频,也可以是自特定网站收录的多媒体内容项目。内容项目包括多媒体内容以及其标题。根据本发明的可选实施例,所述内容项目还可以包括一个或多个预先标注的内容标签(例如用户上传视频时标注的关键词、视频网站对所述视频项目标注的标签等)。
在步骤S120,对获取的内容项目中的标题进行自然语言分析,以提取一个或多个名词。可使用通常的自然语音分析算法或应用来提取所述名词。例如,对标题“范冰冰出席戛纳国际电影节”进行自然语言分析后,可提取出“范冰冰”以及“戛纳国际电影节”等名词;而对标题“范爷出席戛纳国际电影节”进行自然语言分析后,可提取出“范爷”以及“戛纳国际电影节”等名词。
在步骤S130,将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词。例如,将“范冰冰”以及“戛纳国际电影节”分别与实体词典进行匹配后,可仍匹配出“范冰冰”以及“戛纳国际电影节”两个兴趣实体词;而将从标题“范爷出席戛纳国际电影节”提取出的“范爷”以及“戛纳国际电影节”与实体词典进行匹配后,也匹配出“范冰冰”以及“戛纳国际电影节”两个兴趣实体词。
在步骤S140,将所述兴趣实体词存储为所述内容项目的第一标注信息。
根据本发明的优选实施例,所述标注多媒体内容的方法还包括:从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。所述专名库包括关于每个词的不同粒度的兴趣词,例如,大粒度的娱乐、体育、汽车等,小粒度的范冰冰、屌丝、切糕等。因此,通过与所述专名库匹配可确定不同粒度的兴趣词。例如,对标题“范冰冰出席戛纳国际电影节”进行切词后,得到“范冰冰”、“出席”以及“戛纳国际电影节”三个词,当将“范冰冰”与实体词典进行匹配时,可得到“娱乐”、“影星”和“范冰冰”三个兴趣词。此后,将确定的所述兴趣词存储为所述内容项目的第二标注信息。
前面提到,在步骤S110获取的内容项目可还包括一个或多个预先标注的内容标签。此时,根据本发明的优选实施例,还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
根据本发明的示例性实施例,将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息,而不对这三种标注信息进行区分。
根据本发明的示例性实施例,将所述多媒体内容以及其标注信息存储在多媒体库中。
图2是示出根据本发明的示例性实施例的标注多媒体内容的***的逻辑框图。
参照图2,根据本发明的示例性实施例的标注多媒体内容的***包括内容接收单元210、自然语言(NLP)分析单元230和内容收录单元240。
内容接收单元210获取包括多媒体内容及其标题的内容项目。所述内容项目可以是用户上传的一条视频或音频,也可以是自特定网站收录的内容项目。根据本发明的可选实施例,所述内容项目还包括一个或多个预先标注的内容标签。
NLP分析单元230通过对内容接收单元210获取的所述标题进行自然语言分析来提取一个或多个名词,并且将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词。
内容收录单元240将NLP分析单元230产生的所述兴趣实体词存储为所述内容项目的第一标注信息。
根据本发明的优选实施例,所述标注多媒体内容的***还包括切词分析单元220。切词分析单元220从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。根据本发明的优选实施例,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。在这种情况下,内容收录单元240还将切词分析单元220确定的所述兴趣词存储为所述内容项目的第二标注信息。
如前所述,获取的内容项目可还包括一个或多个内容标签。此时,根据本发明的优选实施例,内容收录单元240还将所述一个或多个内容标签存储所述内容项目的第三标注信息。
根据本发明的示例性实施例,内容收录单元240将为内容项目产生的第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
根据本发明的示例性实施例,内容收录单元240将所述多媒体内容以及其标注信息存储在多媒体库中。
如前所述,本发明的标注多媒体内容的方法和***通过对多媒体内容项目的标题进行如自然语言分析和切词分析,产生规范、不同粒度的标注信息。
图3是示出根据本发明的示例性实施例的生成推荐内容的方法的流程图。
在步骤S310,获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录。这里的网络访问日志不限于多媒体内容观看日志,而可以搜索日志、新闻浏览日志、社交网站活动日志等。可将网络访问日志按照用户整理成为各个用户的网络访问记录。
步骤S320~S330是针对每个用户执行的步骤。以下描述对每个用户的网络访问记录进行处理并生成推荐内容的操作。
在步骤S320,对每个用户的网络访问记录进行分析。其中,对用户的每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,并且通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词。例如,网络访问记录显示用户近期经常浏览有关范冰冰的娱乐新闻,则可通过对相应的网络访问记录进行分析,挖掘出“范冰冰”的这个用户兴趣点。
在步骤S330,根据为所述用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。这里所说标注信息与兴趣实体词匹配是指在多项标注信息中包含所述兴趣实体词。
根据本发明的优选实施例,步骤S320还包括:如果所述网络访问记录多媒体内容的网络访问记录,则从所述网络访问记录提取多媒体内容的内容标签,并且步骤S330还包括:从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。这里所说标注信息与内容标签匹配是指在多项标注信息中包含与所述内容标签实质相似的标注信息,可根据设计的需要确定所述实质相似的标准。
根据本发明的优选实施例,步骤S320还包括:对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。根据本发明的另一优选实施例,在步骤S320,还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词。然后,在步骤S330,从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。这里所说标注信息与兴趣词匹配是指在多项标注信息中包含所述兴趣词。
根据本发明的优选实施例,所述生成推荐内容的方法还包括:对根据兴趣实体词、兴趣词和/或内容标签为每个用户生成的推荐内容进行筛选,选出预定个数的推荐内容项目作为最终的推荐内容。
根据本发明的优选实施例,所述生成推荐内容的方法还包括:接收用户创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。这样,可根据用户提供的兴趣点来生成推荐内容。这里所说标注信息与内容标签匹配是指在多项标注信息中包含与所述内容标签实质相似的标注信息,可根据设计的需要确定所述实质相似的标准。
根据本发明的优选实施例,所述生成推荐内容的方法还包括:响应于来自用户的请求(如打开特定网页的请求),提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。用户可从提供的这些兴趣实体词、兴趣词以及内容标签选择自己感兴趣的主题,并进行多媒体内容(如视频)的定制。
图4是示出根据本发明的示例性实施例的生成推荐内容的***的逻辑框图。
参照图4,根据本发明的示例性实施例的生成推荐内容的***包括日志获取单元410、日志分析单元420和推荐内容生成单元430。
日志获取单元410获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录。这里的网络访问日志不限于多媒体内容观看日志,而可以搜索日志、新闻浏览日志、社交网站活动日志等。可将网络访问日志按照用户整理成为各个用户的网络访问记录。
日志分析单元420对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词。
推荐内容生成单元430根据日志分析单元420为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。
根据本发明的优选实施例,日志分析单元420在对每个用户的网络访问记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容标签;推荐内容生成单元430还从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
根据本发明的优选实施例,日志分析单元420在对每个用户的网络访问记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。根据本发明的另一优选实施例,日志分析单元420还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词;推荐内容生成单元430从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
根据本发明的优选实施例,推荐内容生成单元430还对根据兴趣实体2词、兴趣词和/或内容标签生成的推荐内容进行筛选,从为每个用户生成的推荐内容筛选出预定个数的推荐内容作为最终的推荐内容。
根据本发明的优选实施例,所述生成推荐内容的***还包括接收单元(未显示),用于接收用户创建的兴趣标签。推荐内容生成单元430从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
根据本发明的优选实施例,所述生成推荐内容的***还响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签,从而用户可选择个性化地定制多媒体内容的兴趣主题。
由此可见,本发明的生成推荐内容的方法及***可从用户的各种网络访问记录中挖掘用户的兴趣点,并且相应地生成推荐内容。即使用户先前并未访问过多媒体内容网站,也可通过其其他的网络行为找到其兴趣点,为其推荐可能感兴趣的多媒体内容。
从上述参照附图对本发明的示例性实施例的描述可以看出,本发明的标注多媒体内容的方法、生成推荐内容的方法及***在收录多媒体内容项目(如电影、电视剧、视频新闻、视频报道等)时,对所述多媒体内容项目的辅助信息进行相对深度的分析,并进行准确、多粒度的丰富标注。同时,通过用户的各种网络行为来挖掘用户的兴趣点,从而提供用户可能感兴趣的多媒体内容推荐,增强了用户的网络体验。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
尽管已参照优选实施例表示和描述了本发明,但本领域技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些实施例进行各种修改和变换。
Claims (20)
1.一种标注多媒体内容的方法,包括:
获取包括多媒体内容及其标题的内容项目,其中,获取的内容项目还包括一个或多个预先标注的内容标签;
对所述标题进行自然语言分析,以提取一个或多个名词;
将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;
将所述兴趣实体词存储为所述内容项目的第一标注信息;
从获取的内容项目的标题切出至少一个词;
通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词;
将所述兴趣词存储为所述内容项目的第二标注信息;
将所述一个或多个内容标签存储为所述内容项目的第三标注信息,
其中,将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
2.如权利要求1所述的方法,其特征在于,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
3.如权利要求1所述的方法,其特征在于,将所述多媒体内容以及其标注信息存储在多媒体库中。
4.一种标注多媒体内容的***,包括:
内容接收单元,用于获取包括多媒体内容及其标题的内容项目,其中,获取的内容项目还包括一个或多个预先标注的内容标签;
自然语言分析单元,用于对所述标题进行自然语言分析,以提取一个或多个名词,并且将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;
内容收录单元,用于将所述兴趣实体词存储为所述内容项目的第一标注信息;
切词分析单元,用于从获取的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词,
其中,内容收录单元还将所述兴趣词存储为所述内容项目的第二标注信息,并且内容收录单元还将所述一个或多个内容标签存储为所述内容项目的第三标注信息,
其中,内容收录单元将所述第一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信息。
5.如权利要求4所述的***,其特征在于,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同粒度的兴趣词。
6.如权利要求4所述的***,其特征在于,内容收录单元将所述多媒体内容以及其标注信息存储在多媒体库中。
7.一种生成推荐内容的方法,包括:
获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;
对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;
根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容,
其中,所述标注信息通过如权利要求1所述的方法被获得。
8.如权利要求7所述的方法,其特征在于,所述对每个用户的网络访问记录进行分析的步骤还包括:对于多媒体内容的网络访问记录,从所述网络访问记录提取多媒体内容的内容标签,并且为所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
9.如权利要求8所述的方法,其特征在于,对每个用户的网络访问记录进行分析的步骤还包括:对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
10.如权利要求9所述的方法,其特征在于,对每个用户的网络访问记录进行分析的步骤还包括:对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词,
其中,所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
11.如权利要求10所述的方法,还包括:从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
12.如权利要求7-11任一项所述的方法,还包括:接收用户创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
13.如权利要求12所述的方法,还包括:响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
14.一种生成推荐内容的***,包括:
日志获取单元,用于获取从多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访问记录;
日志分析单元,用于对每个用户的网络访问记录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词;
推荐内容生成单元,用于根据为每个用户筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容,
其中,所述标注信息通过如权利要求4所述的***被获得。
15.如权利要求14所述的***,其特征在于,日志分析单元在对每个用户的网络访问记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容标签,并且推荐内容生成单元从多媒体库分别选取标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内容。
16.如权利要求15所述的***,其特征在于,日志分析单元在对每个用户的网络访问记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。
17.如权利要求16所述的***,其特征在于,日志分析单元还对从每条网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词,
其中,推荐内容生成单元还从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。
18.如权利要求17所述的***,其特征在于,推荐内容生成单元还从为每个用户生成的推荐内容筛选出预定个数的推荐内容项目作为最终的推荐内容。
19.如权利要求14-18任一项所述的***,还包括:接收单元,用于接收用户创建的兴趣标签,
其中,推荐内容生成单元从多媒体库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。
20.如权利要求19所述的***,其特征在于,所述***响应于来自用户的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310148335.3A CN103207917B (zh) | 2013-04-25 | 2013-04-25 | 标注多媒体内容的方法、生成推荐内容的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310148335.3A CN103207917B (zh) | 2013-04-25 | 2013-04-25 | 标注多媒体内容的方法、生成推荐内容的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103207917A CN103207917A (zh) | 2013-07-17 |
CN103207917B true CN103207917B (zh) | 2017-03-08 |
Family
ID=48755138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310148335.3A Active CN103207917B (zh) | 2013-04-25 | 2013-04-25 | 标注多媒体内容的方法、生成推荐内容的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103207917B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216965B (zh) * | 2014-08-21 | 2018-11-20 | 北京金山安全软件有限公司 | 信息推荐方法和装置 |
CN105117449B (zh) * | 2015-08-14 | 2019-08-16 | 百度在线网络技术(北京)有限公司 | 一种用于生成内容项的标签的方法和装置 |
CN105138670B (zh) * | 2015-09-06 | 2018-12-14 | 天翼爱音乐文化科技有限公司 | 音频文件标签生成方法和*** |
CN105354227B (zh) * | 2015-09-30 | 2019-06-14 | 北京奇虎科技有限公司 | 基于搜索的提供高质量评论信息的方法及装置 |
CN108073719A (zh) * | 2017-12-29 | 2018-05-25 | 北京奇虎科技有限公司 | 一种内容推荐方法和装置 |
CN108052666A (zh) * | 2017-12-29 | 2018-05-18 | 北京奇虎科技有限公司 | 一种内容推荐方法和装置 |
CN109271502B (zh) * | 2018-09-25 | 2020-08-07 | 武汉大学 | 一种基于自然语言处理的空间查询主题的归类方法及装置 |
US11615444B2 (en) * | 2020-05-01 | 2023-03-28 | Meta Platforms, Inc. | Recommending that an entity in an online system create content describing an item associated with a topic having at least a threshold value of a performance metric and to add a tag describing the item to the content |
CN111680219B (zh) * | 2020-06-09 | 2023-10-20 | 深圳市雅阅科技有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253994A (zh) * | 2011-07-08 | 2011-11-23 | 宇龙计算机通信科技(深圳)有限公司 | 自动搜索装置和自动搜索方法 |
CN102929928A (zh) * | 2012-09-21 | 2013-02-13 | 北京格致璞科技有限公司 | 基于多维相似度的个性化新闻推荐方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206752A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 电子商务网站相关商品推荐***及其方法 |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和*** |
JP5630275B2 (ja) * | 2011-01-11 | 2014-11-26 | ソニー株式会社 | 検索装置、検索方法、及びプログラム |
-
2013
- 2013-04-25 CN CN201310148335.3A patent/CN103207917B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253994A (zh) * | 2011-07-08 | 2011-11-23 | 宇龙计算机通信科技(深圳)有限公司 | 自动搜索装置和自动搜索方法 |
CN102929928A (zh) * | 2012-09-21 | 2013-02-13 | 北京格致璞科技有限公司 | 基于多维相似度的个性化新闻推荐方法 |
Non-Patent Citations (2)
Title |
---|
"搜索引擎关键技术研究及性能优化—基于Lucene的全文检索技术的研究与应用";赵旭;《万方数据》;20090331;第三章至第四章 * |
"高适应性企业信息查询扩展***设计与实现";陈忆群等;《计算机工程与应用》;20110131;第227-232页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103207917A (zh) | 2013-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103207917B (zh) | 标注多媒体内容的方法、生成推荐内容的方法及*** | |
JP7154334B2 (ja) | ライブストリームコンテンツを推奨するための機械学習の使用 | |
TWI631474B (zh) | Method and device for product identification label and method for product navigation | |
KR101648204B1 (ko) | 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성 | |
CN105009118B (zh) | 定制的内容消费界面 | |
WO2017096877A1 (zh) | 一种推荐方法和装置 | |
JP5323136B2 (ja) | コンテンツの視覚的フィルタリングを可能にするシステム及び方法 | |
US20220208155A1 (en) | Systems and methods for transforming digital audio content | |
Deldjoo et al. | MMTF-14K: a multifaceted movie trailer feature dataset for recommendation and retrieval | |
CN109511015B (zh) | 多媒体资源推荐方法、装置、存储介质及设备 | |
CN106030569A (zh) | 重构搜索查询的技术 | |
CN103279513A (zh) | 产生内容标签的方法、提供多媒体内容信息的方法及装置 | |
US20220107978A1 (en) | Method for recommending video content | |
CN101452478A (zh) | 信息处理设备和方法、程序以及记录介质 | |
US20130346385A1 (en) | System and method for a purposeful sharing environment | |
Hoyt et al. | PodcastRE Analytics: Using RSS to Study the Cultures and Norms of Podcasting. | |
US20130108180A1 (en) | Information processing device, information processing method, and program | |
US20240087547A1 (en) | Systems and methods for transforming digital audio content | |
CN109933691B (zh) | 用于内容检索的方法、装置、设备和存储介质 | |
US8645381B2 (en) | Document taxonomy generation from tag data using user groupings of tags | |
JP6310529B1 (ja) | 検索装置、検索方法および検索プログラム | |
EP4295248A1 (en) | Systems and methods for transforming digital audio content | |
JP6294279B2 (ja) | コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム | |
CN111491198B (zh) | 一种小视频搜索方法和装置 | |
Steiner | A meteoroid on steroids: Ranking media items stemming from multiple social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |