CN105183803A - 一种社交网络平台中的个性化搜索方法及其搜索装置 - Google Patents
一种社交网络平台中的个性化搜索方法及其搜索装置 Download PDFInfo
- Publication number
- CN105183803A CN105183803A CN201510529035.9A CN201510529035A CN105183803A CN 105183803 A CN105183803 A CN 105183803A CN 201510529035 A CN201510529035 A CN 201510529035A CN 105183803 A CN105183803 A CN 105183803A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- page
- interest tags
- tags
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 206010021703 Indifference Diseases 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交网络平台中的个性化搜索方法及其搜索装置,所述个性化搜索方法包括以下步骤:对用户微博文本进行中文分词处理;从分词结果中提取特征词,作为用户的兴趣标签;通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;结合Lucene的打分机制、所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。所述个性化搜索装置包括:处理模块、提取模块、获取模块、排序模块。本发明最大程度地实现搜索结果的个性化,使越符合用户兴趣的页面权重越大,排名越靠前,以提高用户满意度。同时提高了自动化程度,更好地适应用户需求的变化。
Description
技术领域
本发明涉及自然语言处理、数据挖掘、信息检索领域,尤其涉及一种社交网络平台中的个性化搜索方法及其搜索装置。
背景技术
搜索引擎能够帮助用户从无数的网络信息中快速获得用户需要的信息。但传统搜索引擎只提供一种简单的搜索服务,针对搜索词返回统一的无差异的结果,用户需要对搜索结果进行检验,很多情况下这是一项又费时又费力的工作。因此,传统搜索引擎越来越不能满足不同用户的个性化需求。
微博文本具有文本短小,数据结构复杂,带有很多特殊符号等特征,微博文本中具有某些特殊词汇,这些词汇区别于一般语料库中用到的词汇。对于微博的文本分词是种挑战。
目前已存在许多个性化服务***,提出了各种思路以实现个性化服务。它们不同程度地解决了个性化搜索的某些问题,但还存在不足:对用户兴趣的学习和表达的自动化程度不高,要求用户输入私人信息并需要用户提供大量的反馈信息,不能很好地适应用户需求的变化。
发明内容
本发明提供了一种社交网络平台中的个性化搜索方法及其搜索装置,本发明实现了搜索结果的个性化,提高了用户满意度,详见下文描述:
一种社交网络平台中的个性化搜索方法,所述个性化搜索方法包括以下步骤:
对用户微博文本进行中文分词处理;
从分词结果中提取特征词,作为用户的兴趣标签;
通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
结合Lucene的打分机制、所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
其中,所述从分词结果中提取特征词,作为用户的兴趣标签的步骤具体为:
通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。
其中,所述通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值的步骤具体为:
当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1;页面中不含有用户的第二个兴趣标签,向量的第二位元素就为0;
通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。
一种社交网络平台中的个性化搜索装置,所述个性化搜索装置包括:
处理模块,用于对用户微博文本进行中文分词处理;
提取模块,用于从分词结果中提取特征词,作为用户的兴趣标签;
获取模块,用于通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
排序模块,用于结合Lucene的打分机制,所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
其中,所述提取模块包括:
提取子模块,用于通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。
其中,所述获取模块包括:
量化子模块,用于当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1;页面中不含有用户的第二个兴趣标签,向量的第二位元素就为0;
获取子模块,用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。
本发明提供的技术方案的有益效果是:本发明以新浪微博为例,在该平台上搭建Lucene搜索引擎,通过对用户一段时间内发布的微博进行分析,根据用户在社交网络中表现出的兴趣倾向对Lucene的页面排序算法进行改进。引入标签吻合因子的概念,来衡量页面与用户的兴趣吻合度,提出一种适合个性化排序的权值计算公式,通过对存储在用户兴趣表中的用户兴趣信息进行分析得到符合用户兴趣的排序结果,得到的搜索结果符合用户的兴趣倾向。最大程度地实现搜索结果的个性化,使越符合用户兴趣的页面权重越大,排名越靠前,以提高用户满意度。同时提高了自动化程度,更好地适应用户需求的变化。
附图说明
图1为一种社交网络平台中的个性化搜索方法的流程图;
图2为提取特征词的示意图;
图3为计算MRR平均值的示意图;
图4为一种社交网络平台中的个性化搜索装置的结构示意图;
图5为提取模块的示意图;
图6为获取模块的示意图。
附图中,各标号所代表的部件列表如下:
1:处理模块;2:提取模块;
3:获取模块;4:排序模块;
21:提取子模块;31:量化子模块;
32:获取子模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
Lucene(HatcherE,GospodneticO,McCandlessM.Luceneinaction[J].2004)是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现全文索引/检索功能。Lucene的应用程序接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看:可以把Lucene当成一个支持全文索引的数据库***。要实现个性化搜索,最重要的就是了解用户的兴趣,基于用于的兴趣来预测用户最需要的信息。需要对获取的用户微博内容进行文本处理,以获取代表用户兴趣的标签。Lucene有一套自己的完整的打分机制。它并不是事先为每个网页资源算好评分,而是在用户搜索时进行实时的评价和计算。文档的得分会根据用户输入的关键字不同而不同,越贴近用户需求的文档评分会越高,在返回结果时也就排在越前面。Lucene的打分机制可以看作某个关键字在文档中出现的频率。
搜索引擎还需要一个衡量页面内容与用户兴趣标签匹配度的标准。显而易见,每个用户都可能有若干个兴趣标签,每个页面也可能包含若干个相匹配的内容,但并不是页面中含有的兴趣标签越多用户就越感兴趣,这是因为每个标签在用户心中的地位是不一样的。通常认为,一个兴趣标签在用户微博中出现的次数越多,表示这个兴趣标签在用户心中的地位越高,即用户对这个词越感兴趣。将Lucene嵌入到社交网络中,使其变得智能化,这将远远超出用户对于传统搜索引擎的期待,是一项拥有广阔前景的课题。
实施例1
本发明实施例提供了一种社交网络平台中的个性化搜索方法,参见图1,该方法包括以下步骤:
101:对用户微博文本进行中文分词处理;
本发明实施例使用的是中科院计算所的汉语词法分析***ICTCLAS。ICTCLAS的主要功能包括:中文分词、词性标注、命名实体识别、新词识别等、同时支持用户词典。其主要思想是利用层叠隐马尔可夫模型进行分层,以增加分词的准确性和保证分词的效率。具体实现时,还可以采用其他分词软件,本发明实施例对此不做赘述。
102:从分词结果中提取特征词,作为用户的兴趣标签;
103:通过向量空间模型将兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
即,使用TagMatch(A,U)参数表示页面A与用户U的兴趣标签的匹配度。此数值越高,表明页面A越符合用户U的兴趣。
104:结合Lucene的打分机制、页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
即,对获取到的页面与用户兴趣匹配度量值,利用Lucene的个性化搜索的排序算法对用户搜索到的页面进行推荐搜索。
综上所述,本发明实施例通过上述步骤101-步骤104最大程度地实现搜索结果的个性化,使越符合用户兴趣的页面权重越大,排名越靠前,以提高用户满意度。
实施例2
下面结合具体的计算公式、例子、附图2对实施例1中的方案进行详细描述,详见下文:
201:对搜索信息进行个性化搜索过程中,首先要进行微博文本进行分词处理;
其中,针对微博文本的复杂的数据结构的特征,本发明实施例对有用的微博信息进行提取,同时将转发文本内容进行关联;针对微博文本中带有很多特殊符号的特征,由于本发明实施例主要探讨基于微博文本的用户特征,不对用户之间的关系进行进一步讨论,因此将“@”符号之后的用户信息忽略,不做讨论,“#...#”中的主题名词直接作为用户关键词之一;针对微博文本中具有某些特殊词汇的特征,WUK通过统计方法添加了新的停用词,并过滤微博中的URL格式数据。
202:从分词结果中提取特征词,作为用户的兴趣标签;
其中,传统的权值计算方法TF-IDF自身有两个比较明显的不足之处,会对特征词抽取结果的准确性和权威性产生一定的影响,其核心原因在于搜索词频率(TF)权值和(逆文本频率指数(IDF)权值的结合导致的综合权值衡量偏差。结合微博文本并不像普通文本集一样具有随机性这一特点,采用WUK(微博用户关键词)算法仅以TF为依据进行特征抽取。
参见图2,WUK算法的输入为微博文本数据,去除冗余信息,包括:URL格式数据、表情数据及特殊符号。使用隐马尔可夫模型(HMM)分词技术将微博数据分词并存储到关键词列表中,然后导入停用词生成一列表,将关键词列表中存在的停用词去除,对关键词列表进行TF排序生成词云(对网络文本中出现频率较高的“关键词”予以视觉上的突出),最后输出TF词云结果。
通过WUK算法提取用户的特征词之后,每个词就是用户的一个兴趣标签,而为了衡量每个兴趣标签的地位,将每个词的TF值除以所有特征词的TF值总和,就得到每个兴趣标签的权重。
203:通过向量空间模型将兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
其中,要实现个性化搜索,搜索引擎还需要一个衡量页面内容与用户兴趣标签匹配度的标准。显而易见,每个用户都可能有若干个兴趣标签,每个页面也可能包含若干个相匹配的内容,但并不是页面中含有的兴趣标签越多用户就越感兴趣,这是因为每个兴趣标签在用户心中的地位是不一样的。通常认为,一个兴趣标签在用户微博中出现的次数越多,表示这个兴趣标签在用户心中的地位越高,即用户对这个词越感兴趣,相应的,这个兴趣标签的TF值也就越高。
用IncTagA,U来记录页面A包含的用户U的兴趣标签,例如:页面A中含有用户U的第一个兴趣标签,那么向量IncTagA,U的第一位元素就为1,又如页面A中不含有用户U的第二个兴趣标签,那么向量IncTagA,U的第二位元素就为0。这样表示以后,可以得到公式(1)来计算页面与用户的兴趣标签匹配度:TagMatch(A,U)=IncTagA,U·TagWeightU(1)
其中,TagWeightU为一个N元列向量,记录用户U每个兴趣标签(的1)权重。此向量的每个元素是一个介于0到1之间的数;TagMatch(A,U)为一个数值,表示页面A与用户U的兴趣标签的匹配度。此数值越高,表明页面A越符合用户U的兴趣。
204:结合Lucene的打分机制、页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
T-Rank=α·S(q,d)+β·TagMatch(A,U)(2)
其中,α和β是介于0到1之间的系数,且α+β=1;Rank为根据用户兴趣标签得到的排序得分;S(q,d)为Lucene原本的打分机制得出的分数;T-Rank为排序输出的结果。
其中,Lucene的排序体系包含了查询类(Query)、权重类(Weight)、计分类(Score)、相似度计算类(Similarity)几个不同的类。四个类共同形成了Lucene默认评分体系的框架。
1、Query类是用户检索信息的封装,是一个抽象类,也是Lucene检索结果最终评分的总控制中心。其他评分有关的类和对象都是由Query类来管理和生成。Query类在Query.java文件中实现,提供了访问其他分类的方法;
2、Weight类接口是用来定义Query权重计算的一个实现接口,可以被复用。Weight类可以用来生成Score类,也可以解析评分的详细信息。另外还定义了获取Query权值的方法。具体的定义在weight.java文件中;
3、Scorer类是Lucene评分机制的核心类。类的定义是抽象类,提供的一些抽象基本的计分功能方法供所有的评分类实现,同时还定义了评分的详细解析方法。Scorer类内部有一个similarity对象,用来指明计算公式。Scorer类在Scorer.java中实现;
4、Similarity类是Lucene评分相似度计算的核心抽象类。Similarity类主要处理评分计算,***缺省使用默认相似度计算类(DefaultSimilarity)来对结果进行评分。可以调用内部方法设定评分的Similarity类对象。定义在Similarity.java文件中。
综上所述,本发明实施例通过上述步骤201-步骤204最大程度地实现搜索结果的个性化,使越符合用户兴趣的页面权重越大,排名越靠前,以提高用户满意度。
实施例3
下面结合具体的计算公式、例子、附图3对实施例1和2中的方案进行可行性验证,详见下文描述:
在实验过程中,文本向量化过程的输入数据包括利用中文数据集产生的语料库(即向量空间中的元素,需进行初步降维之后才能使用,避免维度太高),以及经过特定预处理的目标微博文本。
向量空间模型是进行文本挖掘的经典模型,可直接引用开源SDK包直接实现,实现代码如表1中所示。
表1VSM实现代码示例
本实验随机选取了五位微博用户进行研究,并选取他们的关键词中TF值最高的前10个作为他们的兴趣标签,结果如表2所示。
表2用户的兴趣标签及权重
进行向量化之后采用TF值作为权重进行特征抽取计算,从而选出可以代表用户兴趣的关键词。本实验随机选取了五位微博用户进行研究,并选取他们的关键词中TF值最高的前10个作为他们的兴趣标签,结果如表2所示。
为了科学地评判本方法与Lucene原始打分算法的表现,引入平均排序倒数(MRR)评判标准。MRR是一个国际上通用的对搜索算法进行评价的机制,即第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分的平均数。
其中,ri表示第i个查询的相关文档在搜索结果中的位置;n是总的查询数目。MRR值越高,表明搜索算法的表现越好。
在Lucene原有打分机制下,第一个查询(“新闻”)的相关文档在搜索结果中的位置为9,其后的四次查询中,相关文档的位置分别为:3、8、7、11,那么这五次查询的MRR值就等于0.16;在本方法下,第一次查询的相关文档位置为1,其后的四次查询中,相关文档的位置分别为:2、3、3、5,那么这五次查询的MRR值就等于0.47。同样地,一个用户的少量数据并不能体现问题。在最终实验中,对表2中的5位用户在Lucene原有打分机制下(即α=1)和本方法的不同系数下分别进行了20次查询,最终计算MRR的平均值,得到的结果如图4所示。
Lucene原有打分机制的平均MRR值为0.200。而对于本方法,在系数α=0的时候MRR值仅为0.01。随着系数α的逐渐增大,本方法的MRR值也逐渐增大,在α=0.6时达到最大值0.263,意味着此时的个性化效果最好;而随着系数α的继续增大,MRR的值逐渐回落,这是因为本方法中的标签匹配得分的影响力越来越小。在取系数α=0.6的情况下,本方法能够实现较好的个性化排序;而随着系数α的继续增大,MRR的值逐渐回落,这是因为本方法中的标签匹配得分的影响力越来越小。
综上所述,本发明实施例提供的方法,为社交网络中个性化搜索提供了一种改进的思路,提出并定义了页面和用户标签兴趣匹配度的计算方法,对传统的Lucene评分机制算法进行了改写,进而提高了页面与用户标签兴趣匹配的精确度。
实施例4
一种社交网络平台中的个性化搜索装置,参见图4,该个性化搜索装置包括:
处理模块1,用于对用户微博文本进行中文分词处理;
提取模块2,用于从分词结果中提取特征词,作为用户的兴趣标签;
获取模块3,用于通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
排序模块4,用于结合Lucene的打分机制,所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
其中,参见图5,提取模块2包括:
提取子模块21,用于通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。
其中,参见图6,获取模块3包括:
量化子模块31,用于当页面中含有用户的第一个兴趣标签,那么向量的第一位元素就为1;页面A中不含有用户的第二个兴趣标签,那么向量的第二位元素就为0;
获取子模块32,用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。
本发明实施例对上述模块、子模块的执行主体不做限制,可以为单片机、PC机等具有计算功能的器件,只要能完成上述功能的器件均可。
综上所述,本发明实施例通过上述模块、子模块最大程度地实现搜索结果的个性化,使越符合用户兴趣的页面权重越大,排名越靠前,以提高用户满意度。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种社交网络平台中的个性化搜索方法,其特征在于,所述个性化搜索方法包括以下步骤:
对用户微博文本进行中文分词处理;
从分词结果中提取特征词,作为用户的兴趣标签;
通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
结合Lucene的打分机制、所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
2.根据权利要求1所述的一种社交网络平台中的个性化搜索方法,其特征在于,所述从分词结果中提取特征词,作为用户的兴趣标签的步骤具体为:
通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。
3.根据权利要求1所述的一种社交网络平台中的个性化搜索方法,其特征在于,所述通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值的步骤具体为:
当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1;页面中不含有用户的第二个兴趣标签,向量的第二位元素就为0;
通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。
4.一种社交网络平台中的个性化搜索装置,其特征在于,所述个性化搜索装置包括:
处理模块,用于对用户微博文本进行中文分词处理;
提取模块,用于从分词结果中提取特征词,作为用户的兴趣标签;
获取模块,用于通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;
排序模块,用于结合Lucene的打分机制,所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。
5.根据权利要求4所述的一种社交网络平台中的个性化搜索装置,其特征在于,所述提取模块包括:
提取子模块,用于通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。
6.根据权利要求4所述的一种社交网络平台中的个性化搜索装置,其特征在于,所述获取模块包括:
量化子模块,用于当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1;页面中不含有用户的第二个兴趣标签,向量的第二位元素就为0;
获取子模块,用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510529035.9A CN105183803A (zh) | 2015-08-25 | 2015-08-25 | 一种社交网络平台中的个性化搜索方法及其搜索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510529035.9A CN105183803A (zh) | 2015-08-25 | 2015-08-25 | 一种社交网络平台中的个性化搜索方法及其搜索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105183803A true CN105183803A (zh) | 2015-12-23 |
Family
ID=54905886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510529035.9A Pending CN105183803A (zh) | 2015-08-25 | 2015-08-25 | 一种社交网络平台中的个性化搜索方法及其搜索装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183803A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663131A (zh) * | 2016-06-29 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种基于用户画像的个性化回答生成方法及*** |
CN106780055A (zh) * | 2016-11-28 | 2017-05-31 | 西安电子科技大学 | 基于msvl社交网络用户关系强度的概率大小验证方法 |
CN109063203A (zh) * | 2018-09-14 | 2018-12-21 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
CN109783740A (zh) * | 2019-01-24 | 2019-05-21 | 北京字节跳动网络技术有限公司 | 关注页面的排序方法及装置 |
CN109815386A (zh) * | 2018-12-21 | 2019-05-28 | 厦门市美亚柏科信息股份有限公司 | 一种基于用户画像的构建方法、装置及存储介质 |
CN110110213A (zh) * | 2018-01-24 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 |
CN110955845A (zh) * | 2018-09-26 | 2020-04-03 | 北京国双科技有限公司 | 用户兴趣识别方法及装置、搜索结果处理方法及装置 |
WO2022142043A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 课程推荐方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索*** |
CN103823906A (zh) * | 2014-03-19 | 2014-05-28 | 北京邮电大学 | 一种基于微博数据的多维度检索排序优化算法和工具 |
-
2015
- 2015-08-25 CN CN201510529035.9A patent/CN105183803A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索*** |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103823906A (zh) * | 2014-03-19 | 2014-05-28 | 北京邮电大学 | 一种基于微博数据的多维度检索排序优化算法和工具 |
Non-Patent Citations (1)
Title |
---|
马尧: "《基于多维用户特征建模的个性化社交搜索引擎的设计与实现》", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663131A (zh) * | 2016-06-29 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种基于用户画像的个性化回答生成方法及*** |
WO2018000270A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于用户画像的个性化回答生成方法及*** |
CN106780055A (zh) * | 2016-11-28 | 2017-05-31 | 西安电子科技大学 | 基于msvl社交网络用户关系强度的概率大小验证方法 |
CN110110213A (zh) * | 2018-01-24 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 |
CN110110213B (zh) * | 2018-01-24 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 |
CN109063203A (zh) * | 2018-09-14 | 2018-12-21 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
CN109063203B (zh) * | 2018-09-14 | 2020-07-24 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
CN110955845A (zh) * | 2018-09-26 | 2020-04-03 | 北京国双科技有限公司 | 用户兴趣识别方法及装置、搜索结果处理方法及装置 |
CN109815386A (zh) * | 2018-12-21 | 2019-05-28 | 厦门市美亚柏科信息股份有限公司 | 一种基于用户画像的构建方法、装置及存储介质 |
CN109783740A (zh) * | 2019-01-24 | 2019-05-21 | 北京字节跳动网络技术有限公司 | 关注页面的排序方法及装置 |
WO2022142043A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 课程推荐方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838833B (zh) | 基于相关词语语义分析的全文检索*** | |
CN105183803A (zh) | 一种社交网络平台中的个性化搜索方法及其搜索装置 | |
CN101520785B (zh) | 信息检索方法和*** | |
US8756229B2 (en) | System and methods for units-based numeric information retrieval | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN104216913A (zh) | 问题回答框架 | |
CN102609512A (zh) | 异构信息知识挖掘与可视化分析***及方法 | |
CN102253982A (zh) | 一种基于查询语义和点击流数据的查询建议方法 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN102200975A (zh) | 一种利用语义分析的垂直搜索引擎***与方法 | |
CN110442823A (zh) | 网站分类方法、网站类型判断方法、存储介质及智能终端 | |
CN103823906A (zh) | 一种基于微博数据的多维度检索排序优化算法和工具 | |
Anoop et al. | A topic modeling guided approach for semantic knowledge discovery in e-commerce | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN112183110A (zh) | 一种基于数据中心的人工智能数据应用***及应用方法 | |
Phan et al. | Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews | |
CN117076599A (zh) | 一种基于知识图谱的数据搜索方法、装置及电子设备 | |
CN116361428A (zh) | 一种问答召回方法、装置和存储介质 | |
Sabty et al. | Techniques for named entity recognition on arabic-english code-mixed data | |
Gunawan et al. | Dwipa ontology II: A semi-automatic ontology population process for Bali Tourism based on the ontology population methodology | |
Gao et al. | Deep learning based network news text classification system | |
Noor et al. | Automatic cv ranking using document vector and word embedding | |
CN116992874B (zh) | 一种文本引用审核溯源方法、***、装置和存储介质 | |
Sridevi et al. | Doc-To-Tokens based Pre-Processing in Information Retrieval System | |
Schoknecht et al. | LS3: Latent semantic analysis-based similarity search for process models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151223 |
|
RJ01 | Rejection of invention patent application after publication |