CN105893397B - 一种视频推荐方法及装置 - Google Patents
一种视频推荐方法及装置 Download PDFInfo
- Publication number
- CN105893397B CN105893397B CN201510379649.3A CN201510379649A CN105893397B CN 105893397 B CN105893397 B CN 105893397B CN 201510379649 A CN201510379649 A CN 201510379649A CN 105893397 B CN105893397 B CN 105893397B
- Authority
- CN
- China
- Prior art keywords
- coefficient
- participle
- weighting
- historical search
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000010606 normalization Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000005336 cracking Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种视频推荐方法及装置,应用于服务器,方法包括:获得用户输入的文本串,并识别出该文本串中所包括的至少一个分词;基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与该分词相同的历史搜索词所对应的加权系数,对该分词对应的文本系数加权,得到该分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对该分词对应文本系数加权,得到该分词对应的推荐系数;归一化每个分词的推荐系数;基于归一化得到的各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。本发明实施例推荐视频更加准确,用户感受更佳。
Description
技术领域
本发明涉及视频应用***,特别涉及一种视频推荐方法及装置。
背景技术
现在视频网站常设置有向用户推荐视频的功能,该功能可以提供给用户更多的相关视频的选择,进一步增加了视频网站的点击量和关注度。
现有技术推荐视频时,是利用用户在搜索框中输入的文本串的自身文本信息进行推荐,具体的一种实现方式为:首先,获得用户输入的文本串;其次,利用词频-逆向文件频率(TF-IDF)算法确定该文本串中的每个分词的第一权重;再次,参考该文本串中的每个分词的词性,在上述第一权重基础上对每个分词加权,得到文本系数;最后,将该文本系数直接作为视频的推荐系数,并按照该推荐系数的大小向用户推荐视频。在上述具体实现方式中,一般默认名词的加权系数大于动词或者形容词的加权系数,但是当用户输入的文本串中既有名词又有动词,且动词的预期权重大于名词时,例如:“密码的破解”这个文本串,用户所希望的主要是“破解”,即动词“破解”的预期权重大于名词“密码”,按照上述具体实现方式,词性加权与用户预期不吻合,导致最后得到的推荐系数不准确,进而向用户推荐的视频也不准确,用户感受不佳。
发明内容
基于上述问题,本发明实施例公开了一种视频推荐方法及装置,以使得推荐的视频更加准确。技术方案如下:
本发明实施例提供了一种视频推荐方法,应用于服务器,可以包括:
获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;
分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数,其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
基于各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。
可选的,预设的加权词库的形成过程,包括:
获取多个历史搜索词以及每个历史搜索词对应的搜索量;
将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
可选的,所述将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,包括:
采用min-max标准化方法,将每个历史搜索词对应的搜索量映射到0.0~1.0范围内,得到初级加权系数;
采用sigmoid函数将所述初级加权系数映射到0.5~1.0范围内,得到每个历史搜索词对应的加权系数。
可选的,所述预定加权系数为大于0且小于0.5的范围内的指定值。
可选的,所述对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数,包括:
以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,经计算得到每个分词对应的标准推荐系数。
本发明实施例还提供了一种视频推荐装置,应用于服务器,可以包括:识别单元、确定单元、加权单元、归一化单元和推荐单元;其中,
所述识别单元,用于获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
所述确定单元,用于基于所述识别单元识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;
所述加权单元,用于分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数,其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
所述归一化单元,用于对所述加权单元得到的每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
所述推荐单元,用于基于各个分词所对应的所述归一化单元所得到的标准推荐系数,按照预设方式向用户推荐视频。
可选的,还包括:词库形成单元,其中,所述词库形成单元,包括:获取子单元和形成子单元,
所述获取子单元,用于获取多个历史搜索词以及每个历史搜索词对应的搜索量;
所述形成子单元,用于将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
可选的,所述形成子单元,包括:第一映射模块、第二映射模块;其中,
所述第一映射模块,用于采用min-max标准化方法,将每个历史搜索词对应的搜索量映射到0.0~1.0范围内,得到初级加权系数;
所述第二映射模块,用于采用sigmoid函数将所述初级加权系数映射到0.5~1.0范围内,得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
可选的,所述预定加权系数为大于0且小于0.5的范围内的指定值。
可选的,所述归一化单元,具体用于:以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,经计算得到每个分词对应的标准推荐系数。
本发明实施例中,服务器获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数;归一化每个分词的推荐系数;基于归一化得到的各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。与现有技术相比,本发明实施例在用户输入的文本串对应的部分分词的文本系数基础上,按照加权库中的加权系数,对文本系数加权,另一部分分词按照预定系数加权,进而根据加权后的推荐系数进行推荐视频。因为加权库中的加权系数是根据众多用户的历史搜索量等因素确定的,所以,相对现有技术直接将分词的文本系数确定为推荐系数,加权后的推荐系数更加真实,能够更准确的反映分词的热度。利用这样的推荐系数推荐的视频也就更加准确,更加符合用户的意愿,用户感受更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种视频推荐方法的流程图;
图2为初级加权系数的大致映射分布图;
图3为加权系数的大致映射分布图;
图4为本发明实施例所提供的一种视频推荐装置的一种结构示意图;
图5为本发明实施例所提供的一种视频推荐装置的另一种结构示意图;
图6为本发明实施例所提供的一种视频推荐装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种视频推荐方法及装置,应用于服务器,所述方法包括以下步骤:
获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数,其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
基于各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。
需要说明的是,本发明实施例所提供的一种视频推荐方法应用于服务器,用户一般通过搜索引擎、视频网站等软件的搜索框输入文本串,上述服务器即为搜索引擎、网站等软件对应的服务器,该文本串可以是影视剧的名称或者标签,也可以是对影视剧的描述。
与现有技术相比,本发明实施例在用户输入的文本串对应的部分分词的文本系数基础上,按照加权库中的加权系数,对文本系数加权,另一部分分词按照预定系数加权,进而根据加权后的推荐系数进行推荐视频,因为加权库中的加权系数是根据众多用户的历史搜索量等因素确定的,所以,相对现有技术直接将分词的文本系数确定为推荐系数,加权后的推荐系数更加真实,能够更准确的反映分词的热度,利用这样的推荐系数推荐的视频也就更加准确,更加符合用户的意愿,用户感受更佳。
图1为本发明实施例所提供的一种视频推荐方法的一种流程图,该方法应用于服务器,可以包括以下步骤:
S101,获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
需要说明的是,上述的用户输入的文本串可以是单字、词语,还可以是描述性质的一段话,该文本串可以被分成至少一个分词,其中,该至少一个分词的词性可以为名词、动词或形容词。
具体的,当用户通过带有搜索功能的软件的搜索框输入文本串时,该带有搜索功能的软件接收用户输入的文本串,并将该文本串发送给服务器,然后按照相应的分词方法对该文本串分割成若干词语。常用的一种分词方法是:将该文本串与本地存储的词库中的分词去比较,得到该文本串对应的若干个分词;当然,也可以利用本领域技术人员所公知的其他分词方法,本发明实施例并不对此进行限定。如果文本串中只是一个单字或者单个词语,服务器识别出的只是一个分词;如果文本串是一段描述,服务器识别出的则是若干个分词。
S102,基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;
需要说明的是,上述自身文本信息指的是对于分词的多维度的表达信息,比如可以利用分词词性这个维度表达该分词,也可以利用分词词意这个维度表达该分词,当然,还可以利用其它维度的特征表达该分词。分词的自身文本信息只跟分词本身有关,与分词所处的语境、出处等无关。
具体的,S101步骤中,识别出文本串所包括的至少一个分词后,每个分词的自身文本信息可轻易得知,利用每个分词的自身文本信息,可确定每个分词对应的文本系数。该文本系数可以是基于分词的自身文本信息预先计算好的,在需要时直接调用,也可以临时计算得出。确定文本系数的方式很多,这里简单介绍一种:利用词频-逆向文件频率(TF-IDF)算法和词性加权的方法,确定每个分词的文本系数。
其中,词频-逆向文件频率(TF-IDF)算法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词性即为分词的性质,比如:名词性质的分词、动词性质的分词等。
为了方便描述,这里以任意一个分词来说明确定其文本系数的过程,该分词是与视频内容有关的一个分词。利用词频-逆向文件频率(TF-IDF)算法和词性加权的方法,确定任意一个分词的文本系数的具体步骤为:对于识别出的文本串中任意一个分词,统计其在预设的一个视频文本中的出现次数,然后除以该视频文本的所有词语总数,得到该分词在该视频文本中的概率,即为TF;统计在预设的视频文本集中,出现该分词的视频文本数量,由该视频文本集中的所有视频文本除以出现该分词的视频文本数量,然后对商取对数,得到的数值为IDF;最后TF乘以IDF即为该分词的TF-IDF系数;按照预设的词性加权系数对得到的TF-IDF系数加权,得到的结果为该分词的文本系数。其他分词的文本系数也可以由上述方法得到,这里不再赘述。
当然,上述词频-逆向文件频率(TF-IDF)算法和词性加权的方法只是确定分词文本系数的一种常用方法,本领域技术人员还可以利用其他公知方法确定分词的文本系数,本发明实施例并不对此进行限定。
S103,分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,执行S104步骤;如果判断结果为否,执行S105步骤;
S104,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;
S105,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数;
其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
需要说明的是,上述加权词库中至少包括以下内容:历史搜索词和其对应的加权系数,该历史搜索词是用户在历史时间段内的搜索词,加权系数为根据历史搜索词的搜索量归一化后的系数。该加权词库会实时更新,提供给用户最准确的数值,且用户搜索过的大部分词语会出现在该加权词库中,当然,大部分词语的加权系数是不一样的。
具体的,S101步骤识别出的每个分词与该加权库中的历史搜索词进行比较,判断该加权库中是否存在和识别出的分词相同的历史搜索词,判断结束后,对于存在相同的历史搜索词的分词,按照相同的历史搜索词对应的加权系数对由S102步骤确定的文本系数加权,得到该类分词的推荐系数;对于不存在相同的历史搜索词的分词,按照预定加权系数对由S102步骤确定的文本系数加权,得到该类分词的推荐系数。一般情况下,在加权词库中的历史搜索词是用户搜索频率比较高的词语,所以历史搜索词对应的加权系数大于预定加权系数。
下面对加权词库的形成过程进行详细描述。预设的加权词库的形成过程,可以包括以下步骤:
获取多个历史搜索词以及每个历史搜索词对应的搜索量;
将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
需要说明的是,用户的历史搜索词存储于特定文件中,相应的历史搜索词对应的搜索量可被统计并存储于该特定文件中,当然,历史搜索词对应的搜索量也可以不存储,而是在需要时被临时计算。服务器可直接从该特定文件中获取该历史搜索词,得到对应的搜索量。对于百度用户搜索记录来说,历史搜索词会定期写入龙源的数据表中,服务器可实时从该龙源的数据表中获取历史搜索词,得到对应的搜索量,也可以通过定时任务从该龙源的数据表中定期获取历史搜索词,得到对应的搜索量。
具体的,获取多个历史搜索词以及每个历史搜索词对应的搜索量,然后对每个历史搜索词对应的搜索量进行归一化处理,得到每个历史搜索词对应的加权系数,这些获取的所有历史搜索词以及对应的加权系数共同构成加权词库。
实际中,历史搜索词可能是在不同领域中的词语,所以对应的搜索量就可能具有不同的量纲,这样不利于比较和分析,所以常将历史搜索词对应的搜索量进行归一化,归一化的方法众多,常用的有两种:min-max标准化法和Z-score标准化方法,因为这两种方法是本领域技术人员所公知的技术,所以这里只对min-max标准化法简单介绍下,Z-score标准化方法不再介绍,可参照相关技术文档获知。
利用min-max标准化法,将归一化处理分为数据预处理和sigmoid函数归一化两个步骤进行。则在预设的加权词库的形成过程的第二步骤:所述将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,可以包括以下步骤:
a采用min-max标准化方法,将每个历史搜索词对应的搜索量映射到0.0~1.0范围内,得到初级加权系数;
b采用sigmoid函数将所述初级加权系数映射到0.5~1.0范围内,得到每个历史搜索词对应的加权系数。
具体的,在a步骤中,采用公式(1)对历史搜索词对应的搜索量进行计算,将搜索量映射到0.0~1.0范围内,得到初级加权系数;
其中x为历史搜索词对应的搜索量,m为得到的初级加权系数。
在b步骤中,采用公式(2)对a步骤得到的初级加权系数进行计算,将初级加权系数映射到0.5~1.0范围内,得到每个历史搜索词对应的加权系数。
其中m为初级加权系数,n为最后得到的加权系数。
举例说明,服务器特定文件中,存在四对历史搜索词和对应的搜索量,分别如下所示:
其中,左列为历史搜索词,右列为对应的搜索量。
经过a步骤后得到的初级加权系数的大致映射分布图如图2所示,其中,横轴表示搜索量,纵轴为经过min-max标准化后得到的初级加权系数。经过b步骤后得到的加权系数的大致映射分布图如图3所示,其中,横轴表示初级加权系数,纵轴为经过sigmoid函数归一化后得到的加权系数。
经过上述步骤,形成的加权词库包括以下内容:
其中,左列为历史搜索词,右列为对应的加权系数。这样就将历史搜索词对应的搜索量归一到0.5~1.0范围内了,从而得到加权次数。
一般情况下,在加权词库中的历史搜索词是用户搜索频率比较高的词语,所以历史搜索词对应的加权系数大于预定加权系数。上述加权系数在0.5~1.0范围内,故可以设定所述预定加权系数为大于0且小于0.5的范围内的指定值。假设预定加权系数为0.4,那么则是对与历史搜索词相同的分词,按照加权词库中对应的加权系数加权,该加权系数都是在0.5~1.0之间的数值,而其他查找不到与历史搜索词相同的分词,则按照0.4加权。
S106,对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
具体的,S103步骤得到分词对应的推荐系数,该推荐系数是在文本系数基础上乘以对应的加权系数后的数值。基于分词自身文本信息得到的文本系数不具有统一性,相应的,推荐系数也不具有统一性,无法进行直接比较。因此这时常常对它们进行归一化,以使得推荐系数能够处于同一数量级,这样更有可比性,归一化后可得到每个分词对应的标准推荐系数。
下面对一种归一化方法进行简述,则该步骤中,对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数,可以包括:
以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,经计算得到每个分词对应的标准推荐系数。
具体的,以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,即可得出每个分词对应的标准推荐系数。举例说明,文本串对应的所有分词的推荐系数依次是:0.5,1.2,那么按照该归一化方法后得到的标准推荐系数则依次为:
即依次约等于:0.4,0.9。
S107,基于各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。
具体的,S106步骤得到标准推荐系数后,按照预设方式向用户推荐视频。该预设方式为对标准推荐系数按照预定的规则选取的方法,推荐视频时,可以选取最大标准推荐系数对应的分词去推荐视频,也可以按照大小排列的前几名标准推荐系数对应的分词共同决定推荐的视频。例如:文本串对应的分词的标准推荐系数依次为:0.51,0.49,0.54,0.88,0,78,如果预设方式为选取最大的标准推荐系数推荐视频,则该例子中,则是按照0.88对应的分词推荐视频。
本发明实施例中,服务器获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数;归一化每个分词的推荐系数;基于归一化得到的各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。与现有技术相比,本发明实施例在用户输入的文本串对应的部分分词的文本系数基础上,按照加权库中的加权系数,对文本系数加权,另一部分分词按照预定系数加权,进而根据加权后的推荐系数进行推荐视频。因为加权库中的加权系数是根据众多用户的历史搜索量等因素确定的,所以,相对现有技术直接将分词的文本系数确定为推荐系数,加权后的推荐系数更加真实,能够更准确的反映分词的热度。利用这样的推荐系数推荐的视频也就更加准确,更加符合用户的意愿,用户感受更佳。
对应于上述方法实施例,本发明实施例还提供了一种视频推荐装置,如图4所示,该装置可以包括:识别单元210、确定单元220、加权单元230、归一化单元220和推荐单元250;其中,
所述识别单元210,用于获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
所述确定单元220,用于基于所述识别单元210识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;
所述加权单元230,用于分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数,其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
所述归一化单元240,用于对所述加权单元230得到的每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
所述推荐单元250,用于基于各个分词所对应的所述归一化单元240所得到的标准推荐系数,按照预设方式向用户推荐视频。
本发明实施例中,服务器获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数;归一化每个分词的推荐系数;基于归一化得到的各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。与现有技术相比,本发明实施例在用户输入的文本串对应的部分分词的文本系数基础上,按照加权库中的加权系数,对文本系数加权,另一部分分词按照预定系数加权,进而根据加权后的推荐系数进行推荐视频。因为加权库中的加权系数是根据众多用户的历史搜索量等因素确定的,所以,相对现有技术直接将分词的文本系数确定为推荐系数,加权后的推荐系数更加真实,能够更准确的反映分词的热度。利用这样的推荐系数推荐的视频也就更加准确,更加符合用户的意愿,用户感受更佳。
如图5所示,为本发明实施例所提供的一种视频推荐装置的另一种结构示意图,与图4所示装置相比,图5所示装置还包括:词库形成单元,其中,所述词库形成单元,包括:获取子单元310a和形成子单元310b,
所述获取子单元310a,用于获取多个历史搜索词以及每个历史搜索词对应的搜索量;
所述形成子单元310b,用于将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
如图6所示,为本发明实施例所提供的一种视频推荐装置的另一种结构示意图,在图6所示装置中,图5所示装置中的形成子单元310b,可以包括:第一映射模块310b1、第二映射模块310b2;其中,
所述第一映射模块310b1,用于采用min-max标准化方法,将每个历史搜索词对应的搜索量映射到0.0~1.0范围内,得到初级加权系数;
所述第二映射模块310b2,用于采用sigmoid函数将所述初级加权系数映射到0.3~1.0范围内,得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
在图6所示实施例基础上,所述预定加权系数为大于0且小于0.5的范围内的指定值。
在图4所示实施例基础上,所述归一化单元240,具体用于:以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,经计算得到每个分词对应的标准推荐系数。
对于***或装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种视频推荐方法,其特征在于,应用于服务器,包括:
获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
基于识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;
分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数,其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
基于各个分词所对应的标准推荐系数,按照预设方式向用户推荐视频。
2.根据权利要求1所述的方法,其特征在于,预设的加权词库的形成过程,包括:
获取多个历史搜索词以及每个历史搜索词对应的搜索量;
将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,将每个历史搜素词及其对应的加权系数的集合作为加权词库。
3.根据权利要求2所述的方法,其特征在于,所述将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,包括:
采用min-max标准化方法,将每个历史搜索词对应的搜索量映射到0.0~1.0范围内,得到初级加权系数;
采用sigmoid函数将所述初级加权系数映射到0.5~1.0范围内,得到每个历史搜索词对应的加权系数。
4.根据权利要求3所述的方法,其特征在于,所述预定加权系数为大于0且小于0.5的范围内的指定值。
5.根据权利要求1所述的方法,其特征在于,所述对每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数,包括:
以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,经计算得到每个分词对应的标准推荐系数。
6.一种视频推荐装置,其特征在于,应用于服务器,包括:识别单元、确定单元、加权单元、归一化单元和推荐单元;其中,
所述识别单元,用于获得用户输入的文本串,并识别出所述文本串中所包括的至少一个分词;
所述确定单元,用于基于所述识别单元识别出的每个分词的自身文本信息,确定每个分词对应的文本系数;
所述加权单元,用于分别判断每一分词是否与预设的加权词库中的历史搜索词相同,如果判断结果为是,利用与所述分词相同的历史搜索词所对应的加权系数,对所述分词对应的文本系数加权,得到所述分词对应的推荐系数;如果判断结果为否,利用预定加权系数,对所述分词对应文本系数加权,得到所述分词对应的推荐系数,其中,所述历史搜索词所对应的加权系数大于所述预定加权系数;
所述归一化单元,用于对所述加权单元得到的每个分词的推荐系数进行归一化处理,得到每个分词对应的标准推荐系数;
所述推荐单元,用于基于各个分词所对应的所述归一化单元所得到的标准推荐系数,按照预设方式向用户推荐视频。
7.根据权利要求6所述的装置,其特征在于,还包括:词库形成单元,其中,所述词库形成单元,包括:获取子单元和形成子单元,
所述获取子单元,用于获取多个历史搜索词以及每个历史搜索词对应的搜索量;
所述形成子单元,用于将每个历史搜索词对应的搜索量进行归一化处理,以得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
8.根据权利要求7所述的装置,其特征在于,所述形成子单元,包括:第一映射模块、第二映射模块;其中,
所述第一映射模块,用于采用min-max标准化方法,将每个历史搜索词对应的搜索量映射到0.0~1.0范围内,得到初级加权系数;
所述第二映射模块,用于采用sigmoid函数将所述初级加权系数映射到0.5~1.0范围内,得到每个历史搜索词对应的加权系数,将每个历史搜索词及其对应的加权系数的集合作为加权词库。
9.根据权利要求8所述的装置,其特征在于,所述预定加权系数为大于0且小于0.5的范围内的指定值。
10.根据权利要求6所述的装置,其特征在于,所述归一化单元,具体用于:以所有分词的推荐系数的平方和开方的值作为分母,以每个分词的推荐系数作为分子,经计算得到每个分词对应的标准推荐系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510379649.3A CN105893397B (zh) | 2015-06-30 | 2015-06-30 | 一种视频推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510379649.3A CN105893397B (zh) | 2015-06-30 | 2015-06-30 | 一种视频推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105893397A CN105893397A (zh) | 2016-08-24 |
CN105893397B true CN105893397B (zh) | 2019-03-15 |
Family
ID=57001745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510379649.3A Active CN105893397B (zh) | 2015-06-30 | 2015-06-30 | 一种视频推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893397B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858564A (zh) * | 2019-04-28 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、业务处理方法、装置、终端及存储介质 |
CN111475725B (zh) * | 2020-04-01 | 2023-11-07 | 百度在线网络技术(北京)有限公司 | 用于搜索内容的方法、装置、设备和计算机可读存储介质 |
CN113807090B (zh) * | 2021-08-10 | 2024-04-30 | 三峡大学 | 一种基于词义加权tf-idf疾病表征词提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102246169A (zh) * | 2008-12-15 | 2011-11-16 | 摩托罗拉*** | 为搜索词分配指标权重 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN103729359A (zh) * | 2012-10-12 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 一种推荐搜索词的方法及*** |
CN104077327A (zh) * | 2013-03-29 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 核心词重要性识别方法和设备及搜索结果排序方法和设备 |
CN104123332A (zh) * | 2014-01-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 搜索结果的显示方法及装置 |
CN104376065A (zh) * | 2014-11-05 | 2015-02-25 | 百度在线网络技术(北京)有限公司 | 检索词重要度的确定方法和装置 |
-
2015
- 2015-06-30 CN CN201510379649.3A patent/CN105893397B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102246169A (zh) * | 2008-12-15 | 2011-11-16 | 摩托罗拉*** | 为搜索词分配指标权重 |
CN103729359A (zh) * | 2012-10-12 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 一种推荐搜索词的方法及*** |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN104077327A (zh) * | 2013-03-29 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 核心词重要性识别方法和设备及搜索结果排序方法和设备 |
CN104123332A (zh) * | 2014-01-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 搜索结果的显示方法及装置 |
CN104376065A (zh) * | 2014-11-05 | 2015-02-25 | 百度在线网络技术(北京)有限公司 | 检索词重要度的确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105893397A (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11756245B2 (en) | Machine learning to generate and evaluate visualizations | |
US7783629B2 (en) | Training a ranking component | |
US9171078B2 (en) | Automatic recommendation of vertical search engines | |
US20190235987A1 (en) | Duplicate bug report detection using machine learning algorithms and automated feedback incorporation | |
CN111971669A (zh) | 用于提供自然语言查询的反馈的***和方法 | |
CN105740386B (zh) | 基于排序集成的论文搜索方法及装置 | |
EP2815335A1 (en) | Method of machine learning classes of search queries | |
CN112699283B (zh) | 试卷生成方法及装置 | |
US11928879B2 (en) | Document analysis using model intersections | |
CN107291939A (zh) | 酒店信息的聚类匹配方法及*** | |
CN111104488B (zh) | 检索和相似度分析一体化的方法、装置和存储介质 | |
CN103729424A (zh) | 问答社区内回答评价方法和*** | |
CN105893397B (zh) | 一种视频推荐方法及装置 | |
CN110175264A (zh) | 视频用户画像的构建方法、服务器及计算机可读存储介质 | |
CN111126060A (zh) | 一种主题词的提取方法、装置、设备及存储介质 | |
US20100023536A1 (en) | Automated data entry system | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
Wahyudi et al. | Topic modeling of online media news titles during covid-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm | |
CN109344232A (zh) | 一种舆情信息检索方法及终端设备 | |
CN109471953A (zh) | 一种语音数据检索方法及终端设备 | |
CN108764972A (zh) | 一种影片票房预测方法及装置 | |
CN110019763A (zh) | 文本过滤方法、***、设备及计算机可读存储介质 | |
EP2731021A1 (en) | Apparatus, program, and method for reconciliation processing in a graph database | |
US8005775B2 (en) | System and method for detecting human judgment drift and variation control | |
CN115293275A (zh) | 数据识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |