CN104408115A - 一种电视平台上基于语义链接的异构资源推荐方法和装置 - Google Patents
一种电视平台上基于语义链接的异构资源推荐方法和装置 Download PDFInfo
- Publication number
- CN104408115A CN104408115A CN201410687895.0A CN201410687895A CN104408115A CN 104408115 A CN104408115 A CN 104408115A CN 201410687895 A CN201410687895 A CN 201410687895A CN 104408115 A CN104408115 A CN 104408115A
- Authority
- CN
- China
- Prior art keywords
- media
- feature words
- media resource
- backstage
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
- G06F16/4387—Presentation of query results by the use of playlists
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种电视平台上基于语义链接的资源推荐方法和装置,该方法包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。
Description
技术领域
本发明涉及多媒体技术领域,特别是一种电视平台上基于语义链接的异构资源推荐方法和装置。
背景技术
用户在电视平台上观看电视节目的时候,通常会对当前节目的某些信息感兴趣,想要进一步观看跟当前节目相关的其它媒体资源。针对用户的这一心理,目前出现了一些媒体资源间的推荐方法,一般为根据用户观看的当前资源,获取当前资源的关键词来表征用户特征,使用获得的关键词作为表征用户特征的向量,将与当前资源相似度高的资源推荐给用户。
然而目前存在的这些媒体资源间的推荐方法存在很多弊端,例如:多为同类资源间的推荐,异构资源间的推荐应用较少;为数不多的异构资源推荐多为单向推荐,即某种资源到另一种资源,如与电视节目关联的视频源推荐方法、与电视节目关联的产品推荐方法等,多种资源间相互推荐的方法较少;资源推荐方法中起到重要作用的词,部分可识别,部分不能识别需要手工构造,操作起来较为繁琐;局限于词形信息,缺少语义信息;依赖于人工标注,缺少对用户反馈的利用,其推荐结果对用户来说并不十分理想。
发明内容
有鉴于此,本发明提出了一种电视平台上基于语义链接的异构资源推荐方法和装置,能够根据用户当前观看的资源,无需用户额外操作从而自动、智能推荐异构资源。
本发明提出的技术方案是:
一种电视平台上基于语义链接的异构资源推荐方法,包括:
提取后台媒体资源库所有媒体资源的文本信息;
根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。
一种电视平台上基于语义链接的异构资源推荐装置,包括:
文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;
特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。
综上,本发明提出的电视平台上基于语义链接的异构资源推荐方法和装置,依托于海量数据资源,将各类异构资源映射到同一语义空间中,自动构建异构资源间语义关系,生成文本到视频、视频到文本等异构资源之间的语义链接关系,从而产生异构资源推荐列表,该方法有效避免了传统推荐中仅仅局限于词形信息的现象,满足用户对相关性和多样性的要求。
附图说明
图1为本发明方法实施例一的流程图;
图2为本发明方法实施例二的流程图;
图3为本发明实施例中的装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
用户在电视平台上观看当前媒体资源时,本发明提出的电视平台上基于语义链接的异构资源推荐方法,可以根据后台媒体资源库中的各类异构资源与用户观看的当前媒体资源的聚类相似度,为用户提供与当前媒体资源相关度较高的L个后台媒体资源,便于用户观看与当前媒体资源相关的后台媒体资源。
方法实施例一
图1为本发明实施例的流程图,如图1所示,包括以下步骤:
步骤101:提取后台媒体资源库所有媒体资源的文本信息。
本步骤中,首先对后台媒体资源库的所有媒体资源进行文本信息的提取。将后台媒体资源库中每个媒体资源用Di表示,其中i为正整数,且1≤i≤N,N为后台媒体资源库包含的媒体资源的个数。
后台媒体资源库的所有媒体资源可以分为两大类:新闻文本和视频资源。对于新闻文本,直接提取文本信息;对于视频资源,文本信息位于视频标题和字幕内容,视频标题相对容易获取,字幕内容的识别方法有两种:一种是播放流中自带字幕,可以从播放流中提取字幕;另一种是通过对图像进行处理,通过定位字幕在图像中的位置完成字幕提取,并整合成相应的视频描述文本。
经过对后台媒体资源库中所有媒体资源的文本信息提取,将每个媒体资源用文本的形式表示出来。
步骤102:提取后台媒体资源库每个媒体资源的候选特征词。
步骤101中获得了后台媒体资源库中每个媒体资源的文本信息,本步骤对步骤101中获取的文本信息进行进一步处理,得到每个媒体资源的候选特征词,媒体资源的候选特征词从一定程度上能够有代表性的表示该媒体资源的内容。
首先利用词法分析工具根据词性的不同,将每个媒体资源的文本信息切分为若干个分词,得到每个媒体资源的分词序列。由于词法分析工具仅是根据词性的判断对文本信息进行切分,并没有考虑切分后的分词对表征该媒体资源的重要程度、以及各分词在该媒体资源的文本信息中上下文之间的语义关系,因此这一切分过程可能会得到一些没有实际意义的分词,例如“在”、“把”等,还可能将原本是一个整体的词串切分成两个甚至多个分词,例如将“搜狐视频”切分为“搜”、“狐”、“视频”三个分词,而原本“搜狐视频”应该作为一个整体词串来表征媒体资源的。
针对词法分析工具的这一弊端,不能直接将上述得到的分词作为每个媒体资源的候选特征词,需要将上述得到的分词和热词词典进行匹配,用热词词典对上述得到的分词进行修正,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词。例如,某媒体资源的分词序列包括“搜”、“狐”、“视频”三个分词,热词词典中包含“搜”、“狐”、“视频”以及“搜狐视频”四个热词,则将该媒体资源中的“搜”、“狐”、“视频”三个分词按照热词词典中的最长词串“搜狐视频”进行合并,得到该媒体资源的一个候选特征词“搜狐视频”。具体实施时可以采用字典树的方法将每个媒体资源的分词序列与热词词典进行匹配。用热词词典对上述得到的分词进行修正后,能够使修正后的分词更加符合人们的阅读习惯。
这里的热词词典是一个热词的集合,热词词典里的热词能够有代表性的表征后台媒体资源库的语义信息,其构建方法为:
(1)根据后台媒体资源库中所有媒体资源的文本信息的语言类型,选用特定语言类型中的分隔符将后台媒体资源库中所有媒体资源的文本信息拆分成子句,例如中文中的“。”、“!”、“?”等中文标点符号,或者英文中的“,”、“?”、“.”等英文标点符号。
(2)计算后台媒体资源库中各个重复词串的词频,重复词串的词频定义为该重复词串在后台媒体资源库多少个子句中出现,将每个词频大于词频阈值的重复词串作为候选词串,构建候选词串集合。
(3)对候选词串进行过滤,过滤后保留下的候选词串作为热词,构建热词词典。
具体过滤方法可以通过下面三个步骤实现:
a.收集停用词表,并利用停用词表对候选词串进行过滤,即将出现在停用词表中的候选词串从候选词串集合中删除。
b.计算每个候选词串的权值,该权值用词频(TF,Term Frequency)-逆文档频率(IDF,Inverse Document Frequency)表示,将权值低于权值阈值的候选词串从候选词串集合中删除,TF-IDF的计算方法为现有技术,在此不再赘述。
c.根据候选词串中噪声数据的类型制定先验知识,如文本信息中常会出现时间信息、数字与量词等构成的噪声串,将该类噪声串从候选词串集合中删除。
步骤103:进一步提取后台媒体资源库每个媒体资源的特征词。
本步骤通过提取后台媒体资源库每个媒体资源的特征词,将每个媒体资源用至少一个特征词表示。提取媒体资源特征词的方法为:
计算步骤102中得到的后台媒体资源库每个媒体资源的候选特征词的权值,仍以候选特征词的TF-IDF值表示权值,将权值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最终保留下来的媒体资源的候选特征词作为该媒体资源的特征词。
将后台媒体资源库所有媒体资源的特征词定义为后台媒体资源库的特征词,后台媒体资源库的特征词向量表示为C=[c1,…,cj,,…,cM],其中,cj为后台媒体资源库的第j个特征词,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了每个媒体资源的特征词,且后台媒体资源库的任意两个特征词不相同。
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。
步骤104:将特征词权值矩阵T进行奇异值分解。
为了挖掘后台媒体资源库各个特征词之间的语义关系,将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT。其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵,奇异值分解能够实现主题抽取,相同主题的词的权重会在一定范围内较一致,由此奇异值分解可以发现特征词权值矩阵T中特征词与特征词之间隐含的语义关系。
步骤105:判断用户观看的当前媒体资源是否为后台媒体资源库的媒体资源,如果不是,执行步骤106,如果是,执行步骤107。
步骤106:计算当前媒体资源的权值向量。
本步骤中,首先获取用户观看的当前媒体资源的文本信息,获取方法与步骤101中获取后台媒体资源库每个媒体资源文本信息的方法相同,在此不再赘述。获取当前媒体资源的文本信息后,提取当前媒体资源的候选特征词(提取方法与步骤102中获取后台媒体资源库的候选特征词的方法相同),之后,将当前媒体资源的候选特征词与特征词向量C进行匹配,如果当前媒体资源的某个候选特征词不是特征词向量C的元素,则将当前媒体资源的该候选特征词删除,保留下来的候选特征词进一步进行权值计算,仍以TF-IDF值表示权值,将权值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最终保留下来的候选特征词作为当前媒体资源的特征词。
构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。
步骤107:采用聚类的方法生成媒体资源推荐列表。
为了使得媒体推荐列表更加准确的捕捉用户的兴趣,本发明采用聚类的方法生成媒体资源推荐列表,满足用户对多样性和相关性的要求。
本步骤中,将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:
其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
其中,如果当前媒体资源D'不是后台媒体资源库中的资源,则ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素;如果当前媒体资源D'是后台媒体资源库中的资源,即D'=Dd,其中d≠j且1≤d≤N,则ujk为Dj在UT中对应的第j行第k列元素,yk为D'在UT中对应的第d行第k列元素。
根据聚类相似度对中各个后台媒体资源进行排序,选取前L个后台媒体资源构成推荐列表返给用户,作为向用户推荐的与当前媒体资源相关性最大的L个后台媒体资源,L为大于0的整数。
步骤108:更新后台媒体资源库。
本步骤中,如果用户观看的当前媒体资源是后台媒体资源库中的媒体资源,则后台媒体资源库不需更新,后台媒体资源库的特征词权值矩阵T不变;如果用户观看的当前媒体资源不是后台媒体资源库中的媒体资源,则将该当前媒体资源D'作为DN+1加入后台媒体资源库中,更新后的后台媒体资源库包含N+1个媒体资源,且相应更新后台媒体资源库的特征词权值矩阵T,将T更新为M×(N+1)维矩阵,即将原特征词权值矩阵T增加一列,增加的该列元素为步骤105中的Y。后续为该用户再次生成其他当前媒体资源的媒体资源推荐列表时,后台媒体资源库即包含有N+1个媒体资源,不需再次执行步骤101~步骤103,直接执行步骤104。
通过上述方法完成了对用户在电视平台上观看的当前媒体资源进行的异构资源推荐,通过上述方案得到的推荐列表满足了用户对信息多样化的要求。
方法实施例二
更进一步的,为了使向用户推荐的异构资源与当前媒体资源的语义相关性更高,本申请还结合不同用户对媒体资源推荐列表中媒体资源的点击量、点击顺序等隐式用户反馈信息对媒体资源推荐列表中被点击的媒体资源特征词权值进一步调整,进而使得后续再次为用户计算媒体资源推荐列表时,更能接近用户的兴趣。图2为本实施例的流程图,本实施例以调整媒体资源推荐列表中的媒体资源Rl的特征词权值为例进行说明,其中l为正整数,且1≤l≤L,如图2所示,用户每点击一个媒体资源推荐列表中的媒体资源都执行以下步骤:
步骤201:计算单个用户对媒体资源的评分。
用户对给出的媒体资源推荐列表会根据自己的兴趣选择其中的一个或几个进行点击观看,当用户点击某个推荐列表中的媒体资源时,会对该被点击的媒体资源产生一个点击顺序。将用户对媒体资源Rl的点击顺序记为rank(Rl),由于Rl为含有L个媒体资源的推荐列表中的一个媒体资源,因此其点击顺序必然满足1≤rank(Rl)≤L。根据该点击顺序应用公式计算单个用户对Rl评分,其中,Score_max为常数,用于限定单个用户对媒体资源评分的最大值。
步骤202:计算媒体资源当前总评分。
媒体资源Rl当前的总评分定义为当前所有用户对媒体资源Rl的评分之和。假设当前共有P个用户点击媒体资源Rl,每个用户都会对媒体资源Rl产生一个评分,则则为媒体资源Rl当前的总评分。
步骤203:判断媒体资源当前总评分是否大于评分阈值,如果否,执行步骤204,如果是,执行步骤205。
本步骤中,P为当前点击媒体资源的Rl用户数量,如果媒体资源Rl当前的总评分不大于评分阈值则说明点击媒体资源Rl的用户数量较少,和/或用户点击媒体资源Rl的顺序较靠后,反映出的信息即为媒体资源Rl对广泛用户来说吸引力不高,则只对该Rl的特征词权值进行微调;如果媒体资源Rl当前的总评分大于评分阈值则说明点击媒体资源Rl的用户数量较多,和/或用户点击媒体资源Rl的顺序较靠前,反映出的信息即为媒体资源Rl对广泛用户来说吸引力较高,则对该Rl的特征词权值进行较大程度的调整。
步骤204:对媒体资源的每个特征词权值进行微调。
本步骤中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素;其中α为权值调整参数,是一个经验常数,且根据该公式计算媒体资源Rl的每个特征词权值后,更新后台媒体资源数据库的特征词权值矩阵T。
步骤205:将媒体资源的所有特征词加入高频特征词集合中,并对媒体资源的每个特征词权值进行调整。
本步骤中,由于媒体资源Rl当前的总评分大于评分阈值说明媒体资源Rl对用户的吸引力普遍较高,则将媒体资源Rl的所有特征词添加到高频特征词集合中,且中的特征词存在互异性,即不包含重复的特征词。然后根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整,其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;β为权值调整参数,是一个经验常数,且X为中包含的特征词数量。根据该公式计算媒体资源Rl的每个特征词权值后,更新后台媒体资源数据库的特征词权值矩阵T。
上述为根据用户的点击量和点击顺序针对不同用户对特征词权值矩阵T进行调整的过程,该方法能够根据用户的点击反馈信息对后台媒体资源的特征词权值进行调整,能够为用户提供更合理的热点媒体资源排序,使得推荐性能更优。
本发明还公开一种电视平台上基于语义链接的资源推荐方法的装置,图3为该装置的结构图,如图3所示,该装置包括:
文本信息提取模块310,用于提取后台媒体资源库所有媒体资源的文本信息;
特征词提取模块320,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
媒体资源推荐列表生成模块330,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。
特征词提取模块320进一步包括:
分词序列子模块321,用于针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;
候选特征词提取子模块322,用于将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;
特征词权值矩阵生成子模块323,用于计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj,列数N表示后台媒体资源库的媒体资源Di,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。
特征词权值矩阵生成子模块323进一步用于:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。
如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,该装置还包括当前媒体资源特征词权值计算模块340,用于获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
当前媒体资源特征词权值计算模块340还用于:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。
媒体资源推荐列表生成模块330进一步包括:
后台媒体资源集合生成子模块331,用于将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
相似度计算子模块332,用于采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:
其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素。
该装置进一步包括权值学习模块340,用于针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,所述权值学习模块340还包括:
媒体资源评分计算模块341,用于根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值得常数;
媒体资源总评分计算模块342,用于根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;
权值调整模块343,用于如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为权值调整参数,且 中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种电视平台上基于语义链接的资源推荐方法,其特征在于,该方法包括:
提取后台媒体资源库所有媒体资源的文本信息;
根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T,进一步包括:
针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;
将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;
计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。
3.根据权利要求2所述的方法,其特征在于,该方法进一步包括:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。
4.根据权利要求1所述的方法,其特征在于,如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,所述采用聚类的方法计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度之前,该方法进一步包括:
获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
5.根据权利要求3或4所述的方法,其特征在于,该方法进一步包括:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。
6.根据权利要求1所述的方法,其特征在于,所述采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,进一步包括:
将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:
其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素。
7.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,具体包括:
根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值的常数;
根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;
如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为权值调整参数,且 中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。
8.一种电视平台上基于语义链接的资源推荐装置,其特征在于,该装置包括:
文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;
特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;
媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。
9.根据权利要求8所述的装置,其特征在于,所述特征词提取模块进一步包括:
分词序列子模块,用于针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词序列;
候选特征词提取子模块,用于将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词;
特征词权值矩阵生成子模块,用于计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的特征词cj,列数N表示后台媒体资源库的媒体资源Di,特征词权值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的特征词时,tji=0。
10.根据权利要求9所述的装置,其特征在于,所述特征词权值矩阵生成子模块进一步用于:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权值矩阵。
11.根据权利要求8所述的装置,其特征在于,如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,该装置还包括:
当前媒体资源特征词权值计算模块,用于获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
12.根据权利要求10或11所述的装置,其特征在于,所述当前媒体资源特征词权值计算模块还用于:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的逆矩阵。
13.根据权利要求8所述的装置,其特征在于,所述媒体资源推荐列表生成模块进一步包括:
后台媒体资源集合生成子模块,用于将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合
相似度计算子模块,用于采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公式进行计算:
其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相似度进行计算:
其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素。
14.根据权利要求8所述的装置,其特征在于,该装置进一步包括权值学习模块,用于针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T进行权值调整,所述权值学习模块还包括:
媒体资源评分计算模块,用于根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值得常数;
媒体资源总评分计算模块,用于根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源Rl的用户数量;
权值调整模块,用于如果媒体资源Rl当前的总评分不大于评分阈值根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为权值调整参数,且 中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410687895.0A CN104408115B (zh) | 2014-11-25 | 2014-11-25 | 一种电视平台上基于语义链接的异构资源推荐方法和装置 |
KR1020150099839A KR102314645B1 (ko) | 2014-11-25 | 2015-07-14 | 미디어 리소스를 제공하는 방법 및 장치 |
EP15195889.9A EP3026584A1 (en) | 2014-11-25 | 2015-11-23 | Device and method for providing media resource |
US14/952,402 US10339146B2 (en) | 2014-11-25 | 2015-11-25 | Device and method for providing media resource |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410687895.0A CN104408115B (zh) | 2014-11-25 | 2014-11-25 | 一种电视平台上基于语义链接的异构资源推荐方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408115A true CN104408115A (zh) | 2015-03-11 |
CN104408115B CN104408115B (zh) | 2017-09-22 |
Family
ID=52645746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410687895.0A Active CN104408115B (zh) | 2014-11-25 | 2014-11-25 | 一种电视平台上基于语义链接的异构资源推荐方法和装置 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102314645B1 (zh) |
CN (1) | CN104408115B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279288A (zh) * | 2015-12-04 | 2016-01-27 | 深圳大学 | 一种基于深度神经网络的在线内容推荐方法 |
CN105677830A (zh) * | 2016-01-04 | 2016-06-15 | 北京大学 | 一种基于实体映射的异构媒体相似性计算方法及检索方法 |
CN105808648A (zh) * | 2016-02-25 | 2016-07-27 | 焦点科技股份有限公司 | 一种基于r语言程序的个性化推荐方法 |
CN105868237A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 媒体数据推荐方法及服务器 |
CN109582953A (zh) * | 2018-11-02 | 2019-04-05 | 中国科学院自动化研究所 | 一种资讯的言据支撑评分方法、设备和存储介质 |
CN109726391A (zh) * | 2018-12-11 | 2019-05-07 | 中科恒运股份有限公司 | 对文本进行情感分类的方法、装置及终端 |
WO2024027125A1 (zh) * | 2022-08-03 | 2024-02-08 | 百度在线网络技术(北京)有限公司 | 对象推荐方法、装置、电子设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657129B (zh) * | 2018-12-26 | 2023-04-18 | 北京百度网讯科技有限公司 | 用于获取信息的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076979A1 (en) * | 2008-09-05 | 2010-03-25 | Xuejun Wang | Performing search query dimensional analysis on heterogeneous structured data based on relative density |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN103678618A (zh) * | 2013-12-17 | 2014-03-26 | 南京大学 | 一种基于社交网络平台的Web服务推荐方法 |
CN103678431A (zh) * | 2013-03-26 | 2014-03-26 | 南京邮电大学 | 一种基于标准标签和项目评分的推荐方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283992B2 (en) * | 2001-11-30 | 2007-10-16 | Microsoft Corporation | Media agent to suggest contextually related media content |
US20090006368A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automatic Video Recommendation |
US9292545B2 (en) * | 2011-02-22 | 2016-03-22 | Thomson Reuters Global Resources | Entity fingerprints |
US20140280241A1 (en) * | 2013-03-15 | 2014-09-18 | MediaGraph, LLC | Methods and Systems to Organize Media Items According to Similarity |
-
2014
- 2014-11-25 CN CN201410687895.0A patent/CN104408115B/zh active Active
-
2015
- 2015-07-14 KR KR1020150099839A patent/KR102314645B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076979A1 (en) * | 2008-09-05 | 2010-03-25 | Xuejun Wang | Performing search query dimensional analysis on heterogeneous structured data based on relative density |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN103678431A (zh) * | 2013-03-26 | 2014-03-26 | 南京邮电大学 | 一种基于标准标签和项目评分的推荐方法 |
CN103678618A (zh) * | 2013-12-17 | 2014-03-26 | 南京大学 | 一种基于社交网络平台的Web服务推荐方法 |
Non-Patent Citations (1)
Title |
---|
蒋超: "基于用户聚类和语义词典的微博推荐***", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279288A (zh) * | 2015-12-04 | 2016-01-27 | 深圳大学 | 一种基于深度神经网络的在线内容推荐方法 |
CN105279288B (zh) * | 2015-12-04 | 2018-08-24 | 深圳大学 | 一种基于深度神经网络的在线内容推荐方法 |
CN105868237A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 媒体数据推荐方法及服务器 |
CN105677830A (zh) * | 2016-01-04 | 2016-06-15 | 北京大学 | 一种基于实体映射的异构媒体相似性计算方法及检索方法 |
CN105677830B (zh) * | 2016-01-04 | 2019-01-18 | 北京大学 | 一种基于实体映射的异构媒体相似性计算方法及检索方法 |
CN105808648A (zh) * | 2016-02-25 | 2016-07-27 | 焦点科技股份有限公司 | 一种基于r语言程序的个性化推荐方法 |
CN109582953A (zh) * | 2018-11-02 | 2019-04-05 | 中国科学院自动化研究所 | 一种资讯的言据支撑评分方法、设备和存储介质 |
CN109582953B (zh) * | 2018-11-02 | 2023-04-07 | 中国科学院自动化研究所 | 一种资讯的言据支撑评分方法、设备和存储介质 |
CN109726391A (zh) * | 2018-12-11 | 2019-05-07 | 中科恒运股份有限公司 | 对文本进行情感分类的方法、装置及终端 |
CN109726391B (zh) * | 2018-12-11 | 2024-01-09 | 中科恒运股份有限公司 | 对文本进行情感分类的方法、装置及终端 |
WO2024027125A1 (zh) * | 2022-08-03 | 2024-02-08 | 百度在线网络技术(北京)有限公司 | 对象推荐方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102314645B1 (ko) | 2021-10-19 |
CN104408115B (zh) | 2017-09-22 |
KR20160062667A (ko) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220044139A1 (en) | Search system and corresponding method | |
CN104408115A (zh) | 一种电视平台上基于语义链接的异构资源推荐方法和装置 | |
US20180300315A1 (en) | Systems and methods for document processing using machine learning | |
CN106354861B (zh) | 电影标签自动标引方法及自动标引*** | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
KR101354755B1 (ko) | 검색에 의한 주석달기를 위한 컴퓨터 판독가능 저장 매체, 컴퓨터 구현 방법, 및 컴퓨팅 장치 | |
KR101285721B1 (ko) | 웹 마이닝을 이용한 콘텐츠 태그 생성 시스템 및 방법 | |
CN104102626A (zh) | 一种用于短文本语义相似度计算的方法 | |
CN102402566A (zh) | 基于中文网页自动分类技术的Web用户行为分析方法 | |
CN102184262A (zh) | 基于web的文本分类挖掘***及方法 | |
CN102930022A (zh) | 面向用户的信息搜索引擎***及方法 | |
CN102298638A (zh) | 使用网页标签聚类提取新闻网页内容的方法和*** | |
CN104484339A (zh) | 一种相关实体推荐方法和*** | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
CN103793434A (zh) | 一种基于内容的图片搜索方法和装置 | |
CN104978314A (zh) | 媒体内容推荐方法及装置 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN102637179B (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
CN103942328A (zh) | 一种视频检索方法及视频装置 | |
CN104657376A (zh) | 基于节目关系的视频节目的搜索方法和装置 | |
KR101696499B1 (ko) | 한국어 키워드 검색문 해석 장치 및 방법 | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
Benitez et al. | Semantic knowledge construction from annotated image collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |