CN107301188B - 一种获取用户兴趣的方法及电子设备 - Google Patents

一种获取用户兴趣的方法及电子设备 Download PDF

Info

Publication number
CN107301188B
CN107301188B CN201610236927.4A CN201610236927A CN107301188B CN 107301188 B CN107301188 B CN 107301188B CN 201610236927 A CN201610236927 A CN 201610236927A CN 107301188 B CN107301188 B CN 107301188B
Authority
CN
China
Prior art keywords
user
interest
candidate
probability
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610236927.4A
Other languages
English (en)
Other versions
CN107301188A (zh
Inventor
肖镜辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610236927.4A priority Critical patent/CN107301188B/zh
Publication of CN107301188A publication Critical patent/CN107301188A/zh
Application granted granted Critical
Publication of CN107301188B publication Critical patent/CN107301188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取用户兴趣的方法及电子设备,该方法包括:分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;并基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;基于至少两种用户行为下兴趣候选的候选概率,获得用于表征在至少两种用户行为发生时出现兴趣候选的可能性的目标参数;进而获得所有兴趣候选中对应的目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。在上述技术方案中,通过从整体用户行为上获得某一兴趣候选出现的可能性,解决现有技术中用户兴趣的识别准确度低的技术问题,提高用户兴趣获取的准确性。

Description

一种获取用户兴趣的方法及电子设备
技术领域
本发明涉及信息技术领域,特别涉及一种获取用户兴趣的方法及电子设备。
背景技术
随着移动互联网的不断发展,个性化推荐技术得到了快速的发展。个性化推荐技术的核心是用户画像的建立。用户画像在个性化推荐领域为表征用户属性、兴趣的特征集合。
用户画像的建立主要是通过从用户的日常行为信息中提取出用户的个人兴趣,通常采用的是简单地统计方法,将用户行为序列转换成关键词排序,从而从用户行为中提取重要的关键词作为用户的兴趣。这种简单排序提取关键词作为用户兴趣的方法只针对某一种用户行为例如搜索获得用户在某一方面的兴趣,并不能从整体上反应用户的兴趣,导致用户兴趣的识别准确度低。
可见,现有技术中用户兴趣的识别存在准确度低的技术问题。
发明内容
本发明实施例提供一种获取用户兴趣的方法及电子设备,用于解决现有技术中用户兴趣的识别存在准确度低的技术问题,提高用户兴趣获取的准确性。
本申请实施例提供一种获取用户兴趣的方法,该方法包括:
分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
可选的,所述基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,包括:
基于至少两种用户行为下的所述候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率:
Figure GDA0001080074880000021
其中,P(兴趣候选|用户)表示所述综合概率,Pi(兴趣候选|用户)表示所述第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示包含的用户行为的种类数,N>1;
将所述综合概率作为所述目标参数。
可选的,所述基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,包括:
通过如下公式获得所述兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n-
其中,n表示所述兴趣候选所在的用户兴趣词序列中包含的兴趣候选总数,k表示所述兴趣候选依照候选概率的值由大到小进行排序后排在第k位的兴趣候选;
将所述兴趣候选对应每个用户行为的所述打分的总和作为所述目标参数。
可选的,所述基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率,包括:
将每一种用户行为日志下的所有用户兴趣词序列输入所述主题模型,获得每一种用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户),及每一种用户行为日志下用户拥有所述用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题);
根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率。
可选的,所述根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率,通过如下公式获得:
Figure GDA0001080074880000031
其中,P(兴趣候选|用户)表示所述候选概率。
本申请实施例还提供一种电子设备,包括:
解析单元,用于分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
计算单元,用于基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
融合单元,用于基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获取单元,用于获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
可选的,所述融合单元包括:
第一计算子单元,用于基于至少两种用户行为下的所述候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率:
Figure GDA0001080074880000032
其中,P(兴趣候选|用户)表示所述综合概率,Pi(兴趣候选|用户)表示所述第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示包含的用户行为的种类数,N>1;
将所述综合概率作为所述目标参数。
可选的,所述融合单元包括:
第二计算子单元,用于通过如下公式获得所述兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n
其中,n表示所述兴趣候选所在的用户兴趣词序列中包含的兴趣候选总数,k表示所述兴趣候选依照候选概率的值由大到小进行排序后排在第k位的兴趣候选;
将所述兴趣候选对应每个用户行为的所述打分的总和作为所述目标参数。
可选的,所述计算单元包括:
输入子单元,用于将每一种用户行为日志下的所有用户兴趣词序列输入所述主题模型,获得每一种用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户),及每一种用户行为日志下用户拥有所述用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题);
第三计算子单元,用于根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率。
可选的,所述第三计算子单元具体用于通过如下公式获得所述候选概率:
Figure GDA0001080074880000041
其中,P(兴趣候选|用户)表示所述候选概率。
本申请实施例还提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
在本申请实施例中分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;并基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数;进而获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。通过至少两种用户行为下兴趣候选的出现概率,获得表征至少两种用户行为发生时出现一兴趣候选的可能性的目标参数,以从整体上获得某一兴趣候选出现的可能性,解决现有技术中用户兴趣的识别准确度低的技术问题,提高用户兴趣获取的准确性。
附图说明
图1为本申请实施例提供的一种获取用户兴趣的方法的流程图;
图2为本申请实施例提供的一种电子设备的结构示意图;
图3为本申请实施例提供的一种用于获取用户兴趣的装置的框图;
图4为本申请实施例提供的一种服务器的示意图。
具体实施方式
在本申请实施例提供的技术方案中,通过解析获得多种用户行为日志,获得在多种用户行为发生时出现一兴趣候选的可能性,从而获得基于多种用户行为的代表兴趣,以解决现有技术中因单独由某一种用户行为获取用户兴趣导致的用户兴趣识别准确性低的技术问题。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例一
请参考图1,本申请实施例提供一种获取用户兴趣的方法,该方法包括:
S101:分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
S102:基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
S103:基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
S104:获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
在具体实施过程中,用户行为信息保存在原始用户行为日志中。用户行为包括:在输入法中的输入行为,如输入词和词频;在浏览器中的浏览和点击行为;在搜索引擎中的搜索和点击行为;在应用程序APP中的输入和浏览行为等。
由于每一种数据源记录的用户行为种类不同、格式不同,所以本申请实施例在执行S101时分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列。具体的,可以通过日志解析器,从用户日志中解析用户的行为并将这些行为转化成用户兴趣词序列,作为该用户的备选兴趣集合。例如:从用户浏览行为日志中提取浏览网页标题title,并对tile进行分词、停用词过滤、词频统计等操作,将停用词过滤后的分词中词频统计位于前n位的词,最终形成用户浏览兴趣词的词序列。又例如:从用户搜索行为日志中提取搜索关键词,并对关键词进行流行词比对、词频统计等操作,获得用户搜索行为中的用户兴趣词序列。
本申请实施例在S101之后,执行S102基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下具有一兴趣候选的候选概率。主题模型是对文字隐含主题进行建模的方法,用于描述词语和文章之间的关系,可以为LSI(latentsemantic idex,潜在语义索引)、PLSA(probabilistic latent semantic analysis,概率潜在语义分析)、LDA(latent dirichlet allocation,潜在狄利克雷分配)等主题模型。兴趣候选可以为用户兴趣词序列中的任一兴趣词,也可以是用户兴趣词序列中出现频率高于设定阈值或者出现频率从大道小排序位于前N位的兴趣词。
通过主题模型获得候选概率时,具体可以将每一种用户行为日志下的所有用户兴趣词序列输入主题模型进行计算,其中,每个用户对应主题模型中“文章”的概念,用户的兴趣词语料中的各个兴趣词对应主题模型中“词语”的概念。主题模型通过引入用户主题,将用户和兴趣词投影到同一个多维空间中,最终得到“用户—主题”和“主题—兴趣”的概率分布,即可获得每一中用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户)和每一种用户行为日志下用户拥有该用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题)的值;从而根据每一种用户行为日志下的P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得候选概率。
在具体实施过程中,可以根据如下公式一计算获得每一种用户行为下具有一兴趣候选的候选概率P(兴趣候选|用户):
Figure GDA0001080074880000071
即每一种用户行为下用户具有一兴趣候选的候选概率为:该用户行为下各个用户主题概率与对应主题下兴趣候选概率的乘积的和值。例如:用户的浏览行为下一共包含4个主题:A、B、C、D,其出现的概率分别为:P(A|用户)=0.5、P(B|用户)=0.1、P(C|用户)=0.3、P(D|用户)=0.1;某一兴趣候选F在各个主题下的条件概率分别为:P(F|A)=0.2、P(F|B)=0.6、P(F|C)=0.5、P(F|D)=0.1,那么根据公式一则可以获得在浏览行为下用户具有兴趣候选F的候选概率为:P(F|用户)=0.5*0.2+0.1*0.6+0.3*0.5+0.1*0.1。
基于主题模型计算获得每一种用户行为下具有一兴趣候选的候选概率,是基于兴趣词语义进行的概率计算,能够提高候选概率的准确性。例如:一用户行为下包含的兴趣词序列为:床、床垫、上下铺、柜子、沙发,若仅仅基于简单的统计排序床出现的概率为20%,但实际上上下铺也为床的一种,按照主题模型计算时由于考虑到了上下铺也属于床一种,为此获得床的概率大于20%,相对现有技术的概率计算准确性更高。
进一步的,本申请实施例为了从整体上反应用户具有某一兴趣候选的概率以提高用户兴趣识别的准确性,在S102之后执行S103:根据至少两种用户行为下的某一兴趣候选的候选概率,获得用于表征在至少两种用户行为发生时出现该兴趣候选的可能性的目标参数,即根据多种用户行为对某一兴趣候选的概率进行融合,其中目标参数越大出现该兴趣候选的可能性越大。具体可以通过如下两种方式进行融合:
方式一:基于至少两种用户行为下的候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率;将所述综合概率作为所述目标参数。综合概率的具体获取方法如公式二所示:
Figure GDA0001080074880000081
其中,P(兴趣候选|用户)表示综合概率,Pi(兴趣候选|用户)表示第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示所述至少两种用户行为中包含的用户行为的种类数。
Figure GDA0001080074880000091
的值等于1,λi可以根据用户各种行为的发生频率的大小进行设置,发生频率越高λi的值越高,反之则越小。
例如:对于某个兴趣候选,基于该用户的浏览行为,可以计算P浏览(兴趣候选|用户),基于用户的输入行为可以计算P输入(兴趣候选|用户),基于用户的搜索行为可以计算P搜索(兴趣候选|用户)。通常P浏览(兴趣候选|用户)、P输入(兴趣候选|用户)及P搜索(兴趣候选|用户)这三个值是不可以直接比较的,为此可以通过公式二进行融合计算。假设用户的浏览、输入及搜索行为的权重值分别为:0.6、0.25、0.15,P浏览(兴趣候选|用户)=0.1、P输入(兴趣候选|用户)=0.8、P搜索(兴趣候选|用户)=0.1,那么根据公式二可以计算出P(兴趣候选|用户)=0.275。
用户的某个具体的兴趣候选并不一定在用户的所有行为中都出现,例如:“王小川”这样的兴趣候选,有可能只在用户的浏览行为中出现,而在输入行为中没有出现。方式一采用线性融合的方法会偏向于那些在多个用户行为中同时都出现的兴趣候选,降低那些只在少数几类行为中出现的兴趣候选。为了克服这一缺陷,本申请实施例还提供了方式二进行融合。
方式二
本申请实施例提出的另一种融合方法是序列融合方法。对于用户的每一种行为,都可以对用户的兴趣候选依照P(兴趣候选|用户)的值由大到小进行排序,得到一个兴趣候选序列。对于一个用户,根据他的多种用户行为,可以得到多条兴趣候选序列,将这多条用户兴趣序列融合成一条序列。方法如下:假设某个序列包含了n个兴趣候选,当前的兴趣候选排在第k个位置,通过如下公式三获得该兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n 公式三
综合当前兴趣候选在各条序列中的打分,就可以得到用户对当前兴趣候选的综合打分,即将该兴趣候选对应每个用户行为的打分的总和作为表征在多种用户行为发生时出现该兴趣候选的可能性的目标参数,具体计算方法如公式四所示:
Score(兴趣候选)=∑用户行为Score用户行为(兴趣候选) 公式四
通过方式二进行序列融合,能够体现兴趣候选在每一种用户行为下的重要性,避免某些在特定行为中才会出现的兴趣候选因线性融合而降低目标参数值进而排除在了用户代表兴趣之外。在通过方式一或方式二获得表征在多种用户行为发生时出现该兴趣候选的可能性的目标参数之后,执行S104。
S104:获得所有兴趣候选中对应的目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。其中,m的取值可以根据实际需要进行选择,例如可以取5、10、20等。
上述实施例通过获得多种用户行为下兴趣候选的出现概率,并将多种用户行为下同一兴趣候选的出现概率进行融合,获得表征多种用户行为发生时出现一兴趣候选的可能性目标参数,以从整体上获得某一兴趣候选出现的可能性,解决了现有技术中用户兴趣的识别准确度低的技术问题,提高了用户兴趣获取的准确性。
请参考图2,本申请实施例针对上述,还对应提供一种电子设备,该电子设备包括:
解析单元201,用于分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
计算单元202,用于基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
融合单元203,用于基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获取单元204,用于获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
在具体实施过程中,所述融合单元203包括第一计算子单元。第一计算子单元用于:基于至少两种用户行为下的所述候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率:
Figure GDA0001080074880000111
其中,P(兴趣候选|用户)表示所述综合概率,Pi(兴趣候选|用户)表示所述第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示包含的用户行为的种类数,N>1;将所述综合概率作为所述目标参数。
进一步的,所述融合单元203还可以包括第二计算子单元。第二计算子单元用于:通过如下公式获得所述兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n
其中,n表示所述兴趣候选所在的用户兴趣词序列中包含的兴趣候选总数,k表示所述兴趣候选依照候选概率的值由大到小进行排序后排在第k位的兴趣候选;将所述兴趣候选对应每个用户行为的所述打分的总和作为所述目标参数。
在具体实施过程中,所述计算单元202包括:输入子单元和第三计算子单元。输入子单元用于:将每一种用户行为日志下的所有用户兴趣词序列输入所述主题模型,获得每一种用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户),及每一种用户行为日志下用户拥有所述用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题);第三计算子单元用于:根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率。其中,所述第三计算子单元具体用于通过如下公式获得候选概率P(兴趣候选|用户):
Figure GDA0001080074880000121
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于获取用户兴趣的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种获取用户兴趣的方法,所述方法包括:分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
图4是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种获取用户兴趣的方法,其特征在于,所述方法包括:
分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
2.如权利要求1所述的方法,其特征在于,所述基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,包括:
基于至少两种用户行为下的所述候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率:
Figure FDA0002606430180000011
其中,P(兴趣候选|用户)表示所述综合概率,Pi(兴趣候选|用户)表示第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示包含的用户行为的种类数,N>1;
将所述综合概率作为所述目标参数。
3.如权利要求1所述的方法,其特征在于,所述基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,包括:
通过如下公式获得所述兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n
其中,n表示所述兴趣候选所在的用户兴趣词序列中包含的兴趣候选总数,k表示所述兴趣候选依照候选概率的值由大到小进行排序后排在第k位的兴趣候选;
将所述兴趣候选对应每个用户行为的所述打分的总和作为所述目标参数。
4.如权利要求1~3任一所述的方法,其特征在于,所述基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率,包括:
将每一种用户行为日志下的所有用户兴趣词序列输入所述主题模型,获得每一种用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户),及每一种用户行为日志下用户拥有所述用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题);
根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率。
5.如权利要求4所述的方法,其特征在于,所述根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率,通过如下公式获得:
Figure FDA0002606430180000021
其中,P(兴趣候选|用户)表示所述候选概率。
6.一种电子设备,其特征在于,包括:
解析单元,用于分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
计算单元,用于基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
融合单元,用于基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获取单元,用于获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
7.如权利要求6所述的电子设备,其特征在于,所述融合单元包括:
第一计算子单元,用于基于至少两种用户行为下的所述候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率:
Figure FDA0002606430180000031
其中,P(兴趣候选|用户)表示所述综合概率,Pi(兴趣候选|用户)表示第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示包含的用户行为的种类数,N>1;
将所述综合概率作为所述目标参数。
8.如权利要求6所述的电子设备,其特征在于,所述融合单元包括:
第二计算子单元,用于通过如下公式获得所述兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n
其中,n表示所述兴趣候选所在的用户兴趣词序列中包含的兴趣候选总数,k表示所述兴趣候选依照候选概率的值由大到小进行排序后排在第k位的兴趣候选;
将所述兴趣候选对应每个用户行为的所述打分的总和作为所述目标参数。
9.如权利要求6~8任一所述的电子设备,其特征在于,所述计算单元包括:
输入子单元,用于将每一种用户行为日志下的所有用户兴趣词序列输入所述主题模型,获得每一种用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户),及每一种用户行为日志下用户拥有所述用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题);
第三计算子单元,用于根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率。
10.如权利要求9所述的电子设备,其特征在于,所述第三计算子单元具体用于通过如下公式获得所述候选概率:
Figure FDA0002606430180000041
其中,P(兴趣候选|用户)表示所述候选概率。
11.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
分别解析至少两种用户行为日志,获取每一种用户行为日志的用户兴趣词序列;
基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率;
基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,所述目标参数越大出现所述兴趣候选的可能性越大;
获得所有兴趣候选中对应的所述目标参数大小位于前m位的兴趣候选作为用户在用户画像中的代表兴趣。
12.如权利要求11所述的电子设备,其特征在于,所述基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,包括:
基于至少两种用户行为下的所述候选概率,获得至少两种用户行为发生的情况下用户具有所述兴趣候选的综合概率:
Figure FDA0002606430180000042
其中,P(兴趣候选|用户)表示所述综合概率,Pi(兴趣候选|用户)表示第i种行为日志下用户具有所述兴趣候选的候选概率,λi表示第i种行为日志对应的权重,N表示包含的用户行为的种类数,N>1;
将所述综合概率作为所述目标参数。
13.如权利要求11所述的电子设备,其特征在于,所述基于至少两种用户行为下所述兴趣候选的候选概率,获得用于表征在所述至少两种用户行为发生时出现所述兴趣候选的可能性的目标参数,包括:
通过如下公式获得所述兴趣候选对所在的用户兴趣词序列贡献的打分:
Score用户行为(兴趣候选)=(n-k)/n
其中,n表示所述兴趣候选所在的用户兴趣词序列中包含的兴趣候选总数,k表示所述兴趣候选依照候选概率的值由大到小进行排序后排在第k位的兴趣候选;
将所述兴趣候选对应每个用户行为的所述打分的总和作为所述目标参数。
14.如权利要求11~13任一所述的电子设备,其特征在于,所述基于主题模型和每一种用户行为日志下的所有用户兴趣词序列,获得每一种用户行为下用户具有一兴趣候选的候选概率,包括:
将每一种用户行为日志下的所有用户兴趣词序列输入所述主题模型,获得每一种用户行为日志下用户拥有的一用户主题的概率P(用户主题|用户),及每一种用户行为日志下用户拥有所述用户主题时具有一兴趣候选的概率P(兴趣候选|用户主题);
根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率。
15.如权利要求14所述的电子设备,其特征在于,所述根据每一种用户行为日志下所述P(兴趣候选|用户主题)对应的所有P(用户主题|用户)计算获得所述候选概率,通过如下公式获得:
Figure FDA0002606430180000061
其中,P(兴趣候选|用户)表示所述候选概率。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5任一所述的方法。
CN201610236927.4A 2016-04-15 2016-04-15 一种获取用户兴趣的方法及电子设备 Active CN107301188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610236927.4A CN107301188B (zh) 2016-04-15 2016-04-15 一种获取用户兴趣的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610236927.4A CN107301188B (zh) 2016-04-15 2016-04-15 一种获取用户兴趣的方法及电子设备

Publications (2)

Publication Number Publication Date
CN107301188A CN107301188A (zh) 2017-10-27
CN107301188B true CN107301188B (zh) 2020-11-10

Family

ID=60136760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610236927.4A Active CN107301188B (zh) 2016-04-15 2016-04-15 一种获取用户兴趣的方法及电子设备

Country Status (1)

Country Link
CN (1) CN107301188B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002491A (zh) * 2018-06-26 2018-12-14 深圳市爱的网络科技有限公司 用户兴趣采集方法、装置、计算机装置及计算机可读存储介质
CN111723349A (zh) * 2019-03-18 2020-09-29 顺丰科技有限公司 一种用户识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063433A (zh) * 2009-11-16 2011-05-18 华为技术有限公司 相关项推荐方法和装置
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和***
CN103577386A (zh) * 2012-08-06 2014-02-12 腾讯科技(深圳)有限公司 一种基于用户输入场景动态加载语言模型的方法及装置
CN104331451A (zh) * 2014-10-30 2015-02-04 南京大学 一种基于主题的网络用户评论的推荐度评分方法
WO2015036817A1 (en) * 2013-09-15 2015-03-19 Yogesh Chunilal Rathod Structured updated status, requests, user data & programming based presenting & accessing of connections
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832753B2 (en) * 2008-01-16 2014-09-09 Apple Inc. Filtering and tailoring multimedia content based on observed user behavior

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063433A (zh) * 2009-11-16 2011-05-18 华为技术有限公司 相关项推荐方法和装置
CN103577386A (zh) * 2012-08-06 2014-02-12 腾讯科技(深圳)有限公司 一种基于用户输入场景动态加载语言模型的方法及装置
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和***
WO2015036817A1 (en) * 2013-09-15 2015-03-19 Yogesh Chunilal Rathod Structured updated status, requests, user data & programming based presenting & accessing of connections
CN104331451A (zh) * 2014-10-30 2015-02-04 南京大学 一种基于主题的网络用户评论的推荐度评分方法
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***

Also Published As

Publication number Publication date
CN107301188A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
US20170154104A1 (en) Real-time recommendation of reference documents
US11394675B2 (en) Method and device for commenting on multimedia resource
CN109783656B (zh) 音视频数据的推荐方法、***及服务器和存储介质
CN109815396B (zh) 搜索词权重确定方法及装置
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
EP3734472A1 (en) Method and device for text processing
CN111984749A (zh) 一种兴趣点排序方法和装置
CN112784142A (zh) 一种信息推荐方法及装置
CN112148923A (zh) 搜索结果的排序方法、排序模型的生成方法、装置及设备
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN107784037B (zh) 信息处理方法和装置、用于信息处理的装置
CN110110046B (zh) 同名实体推荐方法及装置
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN109918624B (zh) 一种网页文本相似度的计算方法和装置
CN107291259B (zh) 一种信息显示方法、装置和用于信息显示的装置
CN110968246A (zh) 中文智能手写输入识别方法及装置
CN112825076B (zh) 一种信息推荐方法、装置和电子设备
CN112052395A (zh) 一种数据处理方法及装置
CN112651221A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111831132A (zh) 一种信息推荐方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant