CN110147499B - 打标签方法、推荐方法及记录介质 - Google Patents

打标签方法、推荐方法及记录介质 Download PDF

Info

Publication number
CN110147499B
CN110147499B CN201910423246.2A CN201910423246A CN110147499B CN 110147499 B CN110147499 B CN 110147499B CN 201910423246 A CN201910423246 A CN 201910423246A CN 110147499 B CN110147499 B CN 110147499B
Authority
CN
China
Prior art keywords
content
category
vector
tag
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910423246.2A
Other languages
English (en)
Other versions
CN110147499A (zh
Inventor
张炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhizhe Sihai Beijing Technology Co Ltd
Original Assignee
Zhizhe Sihai Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhizhe Sihai Beijing Technology Co Ltd filed Critical Zhizhe Sihai Beijing Technology Co Ltd
Priority to CN201910423246.2A priority Critical patent/CN110147499B/zh
Publication of CN110147499A publication Critical patent/CN110147499A/zh
Application granted granted Critical
Publication of CN110147499B publication Critical patent/CN110147499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开内容涉及打标签方法、推荐方法及记录介质。根据本公开内容的一个实施例,该打标签方法包括:从目标内容的文本部分选择多个关键词;使用语言模型确定各关键词的相应关键词向量;通过对各相应关键词向量加权求和确定目标内容的内容向量;基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度;以及基于各相似度确定目标内容的内容类别标签;其中,标签集中的各标签为指示目标内容的候选类别的类别指示词;并且各标签向量是由语言模型基于相应类别指示词确定的向量。本公开内容的方案至少有助于实现如下效果之一:准确地为内容分配标签、实时为内容分配标签、向用户推荐匹配的内容。

Description

打标签方法、推荐方法及记录介质
技术领域
本公开内容总体上涉及信息处理,更具体地,涉及打标签方法、推荐方法以及存储有执行前述方法的程序的计算机可读记录介质。
背景技术
近年来,随着互联网的蓬勃发展,在网络上发布内容及向用户推荐内容越来越普遍。如何向用户有效地推荐内容是重要的研究方向。
发明内容
在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
网络上发布的内容涉及各种类别。例如,运动健身、家政服务、鲜花礼品、婚纱摄影等。用户感兴趣的内容的类别也是多样的。例如,在一定的时间段内,用户可能仅对运动健身感兴趣。或者,用户对某些领域感兴趣,对某些领域缺乏兴趣。可以理解,考虑到前述事实,为了向用户有效推荐内容并提高用户针对推荐内容的点击率,通过对内容打标签以将内容进行分类,从而可以向对特定类型的内容感兴趣的用户推荐具有相应标签的内容。因此,准确且有效的为内容分配标签是期望的。
根据本公开内容的一方面,提供了一种打标签方法,包括:从目标内容的文本部分选择多个关键词;使用语言模型确定各关键词的相应关键词向量;通过对各相应关键词向量加权求和确定目标内容的内容向量;基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度;以及基于各相似度确定目标内容的内容类别标签;其中,标签集中的各标签为指示目标内容的候选类别的类别指示词;并且各标签向量是由语言模型基于相应类别指示词确定的向量。
根据本公开内容的一方面,提供了一种推荐方法,包括:基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向用户推荐的候选内容集;从候选内容集选择向用户推荐的推荐内容;以及生成向用户显示推荐内容的表示的指示;其中,指示用于供用户选择;并且多个内容包括目标内容,目标内容的内容类别标签集中的至少一个内容类别标签是通过前述打标签方法来被确定。
根据本公开内容的另一方面,提供了存储有程序的计算机可读记录介质,其中,该程序使计算机执行前述的打标签方法。
根据本公开内容的又一方面,提供了一种存储有程序的计算机可读记录介质,其中,该程序使计算机执行前述推荐方法。
本公开内容的打标签方法、推荐方法以及记录介质至少有助于实现如下效果之一:高效地为内容分配标签、准确地为内容分配标签、实时为内容分配标签、向用户推荐匹配的内容、提高内容的点击率、以及容易地实现新内容的冷启动。
附图说明
参照附图下面说明本公开内容的实施例,这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。在附图中:
图1示出了根据本公开内容的一个实施例的打标签方法的示例性流程图;
图2示出了根据本公开内容的一个实施例的选择多个关键词的方法的示例性流程图;
图3示出了根据本公开内容的一个实施例的推荐方法的示例性流程图;
图4示出了根据本公开内容的一个实施例的打标签装置的示例性框图;以及
图5示出了根据本公开内容的一个实施例的推荐装置的示例性框图。
具体实施方式
在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开内容,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开内容关系不大的其他细节。
应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
根据本公开内容的一个方面,本公开内容涉及确定内容的标签的打标签方法。下面参考图1示例性描述本公开内容的打标签方法。
图1示出了根据本公开内容的一个实施例的打标签方法100的示例性流程图。能够理解的是,可能有多个要分配标签的内容,可以使用打标签方法100来逐一或并行地为这些内容打标签(内容的标签也称为内容类别标签)。在此,选择多个内容中的一个作为目标内容CO来示例性的说明打标签方法100。
在步骤101处,选择关键词,其中,关键词的数量为多个,并且关键词来自目标内容的文本部分。可以使用KWj来表示各关键词,j为索引,j取1至最大值jmax中的一个,并且jmax表示针对目标内容CO选择的关键词的数量。使用多个关键词有助于准确、全面表征目标内容CO所涉及的领域或类别,有助于准确、全面的为目标内容分配内容类别标签。目标内容CO包括文本部分。目标内容CO可以是多媒体内容、广告、文章、商品信息或图像。关键词的数量可以为2、3、4、5、6、7、8、9、10或更多。例如,可以根据目标内容CO的文本部分的长短选择合适的jmax。进一步的,例如,可以根据目标内容CO的文本部分的最小文本长度选择合适的jmax。文本部分可以包括目标内容中的图像或音频中包含的文字。图像中的文字例如可以通过光学字符识别来获取。音频中的文字例如可以通过语音识别来获取。文本部分可以包含标题部分和正文部分。
在步骤102处,确定相应关键词向量VKj,其中,相应关键词向量VKj是关键词KWj的关键词向量,并且使用语言模型ML来确定相应关键词向量VKj。语言模型ML可以将输入的词映射为一个向量。
在步骤103处,确定内容向量VC,其中,该内容向量VC为表征目标内容CO的向量,并且是通过对各相应关键词向量VKj加权求和来确定内容向量VC。
在步骤104处,确定相似度SIi,其中,这里的相似度是目标内容CO关于标签集{Li}中的各标签Li的相似度SIi,相似度SIi是基于基于内容向量VC和标签Li的标签向量VLi来确定。i是索引,可以取1至imax,imax表示标签集{Li}中标签个数,即,目标内容CO的候选类别的数量。标签集{Li}中的各标签Li为指示目标内容CO的候选类别的类别指示词WIi。各标签向量VLi是由语言模型ML基于相应类别指示词WIi确定的向量。相似度SIi可以为内容向量VC与标签向量VLi的夹角的余弦,即,两向量的点乘与它们的模的积的比值。需要说明的是:在本公开内容中,除非特别说明,否则用标识{ei}表示包含元素e1、……、emax的集合,即i=1、……、max,并不是仅指包含一个元素ei的集合,即标识{ei}表示包括一个或多个元素的集合。
在步骤105处,确定目标内容CO的内容类别标签LCk,其中,基于各相似度SIi确定内容类别标签LCk,k为索引,且k可以取1至kmax,kmax表示目标内容CO关于标签集{Li}的内容类别标签的数量。例如,当相似度SIi大于或等于预定相似度阈值Th,则将该相似度SIi所对应的标签Li分配给目标内容CO,作为目标内容CO的内容类别标签。可选的,可以将imax个相似度按降序排列,选择前kmax个相似度所对应的标签分配给目标内容CO,作为目标内容CO的内容类别标签。相似度SIi能够指示目标内容关于相应类别的类别相关程度。因此,可以记录各相似度SIi,以在推荐内容时,选择与用户的感兴趣类别匹配,且类别相关程度较高的内容作为推荐内容。能够理解的是,目标内容CO可能已经有用其他打标签方式分配的其他标签,其他标签和kmax个用本公开内容的打标签方法确定的标签一起可以构成目标内容CO的内容类别标签集{LCm},m为索引,其中,内容类别标签集中无重复元素;目标内容CO的内容类别标签集也可以完全由本公开内容的打标签方法确定的内容类别标签来构成,即,{LCm}={LCk}。
为了增强内容标签化的实时性,可以通过kafka队列来在线获取新内容作为目标内容,从而可以对新出现的内容及时打上标签,并基于打上的标签及时向用户推荐,以容易地解决新内容的冷启动问题。在一个变形例中,打标签方法100还包括:通过kafka队列来在线获取新内容作为目标内容CO。
在一个实施例中,打标签方法100还包括:通过对目标内容进行处理获得文本部分。
在本公开内容中,可以使用多种方式实现打标签方法100中的步骤101。图2示出了一种实现步骤101的示例性方法。
图2示出了根据本公开内容的一个实施例的选择多个关键词的方法210的示例性流程图。
在步骤211处,对目标内容的文本部分进行分词以得到多个候选关键词KWj’,j’为索引,j’取1至最大值j’max中的一个,并且j’max表示候选关键词数量。如果出现j’max<jmax的情况,可以执行特定例程以标识目标内容,例如将目标内容标识为预定内容类别标签和或后续由人工处理。进一步的,如果有一个或多个停用词,步骤211还包括去除停用词,即多个候选关键词KWj’中不包括任一停用词。
在步骤212处,确定词频,其中,词频是指各候选关键词KWj’的关于文本部分的词频TFj’。从而,得到j’max个词频值。
在步骤213处,确定逆文档频率,其中,逆文档频率是各候选关键词KWj’的关于预定语料库CP的逆文档频率IDFj’。从而,得到j’max个逆文档词频值。预定语料库CP具有足够数量的文档,这些文档可以是针对对内容准确标签化而筛选的文档。例如,如果目标内容的文本部分均为简体中文,则预定语料库CP包含的文档可以均为简体中文编码的文档。优选的,预定语料库CP的各文档具有相同的编码格式。
在步骤214处,选择多个关键词,其中,基于各候选关键词KWj’的词频TFj’与逆文档频率IDFj’的积TFj’*IDFj’选择预定数量的候选关键词作为多个关键词KWj。例如,将积TFj’*IDFj’按从大到小排列得到积序列S,并选择积序列S中的前jmax个积所对应的候选关键词作为后续要使用的关键词。
选择多个关键词的方法不限于方法210。例如,作为一种变形例,也可以仅基于词频TFj’选择预定数量的候选关键词作为多个关键词KWj。或者,将逆文档频率IDFj’缩放一定的比例r得到调整的逆文档频率r*IDFj’,基于各候选关键词KWj’的词频TFj’与调整的逆文档频率r*IDFj’的积TFj’*r*IDFj’选择预定数量的候选关键词作为多个关键词KWj,其中r可以与候选关键词的类型相关。
可以使用各种能够基于词生成表征该词的词向量的自然语言处理模型作为本公开内容中的语言模型ML。例如,针对预定语料库使用word2vec工具训练后的自然语音处理模型。作为示例,在使用word2vec工具训练语言模型时,可以将word_embedding的size设为64,窗口尺寸设为10,最小词频设为5,运行迭代轮数设为10。如前所述,语言模型ML能够基于输入的关键词KWj,确定该关键词KWj的相应关键词向量VKj,还能够基于输入的标签Li(即,类别指示词WIi)确定该标签Li的标签向量VLi
考虑到不同的内容分类体系,各分类(标签)可能对某些关键词更加敏感。因此,可以在确定内容向量时,考虑各关键词的类别,从而提高打标签的准确度。例如,在一个实施例中,通过对各相应关键词向量VKj加权求和确定目标内容的内容向量VC包括:确定各关键词的类别Cj;以及基于类别Cj确定各相应关键词向量VKj的相应权重wj。可以使用等式(1)确定内容向量VC。
Figure BDA0002066664150000061
例如,基于关键词的类别组{Cj}将关键词的权重等级分为三个等级,权重分别取第一值v1、v2和v3,其中,v1>v2>v3
进一步的,例如,类别组{Cj}可以由以下构成:商品、人名、地名、数字、时间和其他。当关键词KWj的类别为“商品”时,相应权重wj为第一值,即,wj=v1;当关键词KWj的类别为“其他”时,相应权重wj为第二值,即,wj=v1;当关键词KWj的类别为“人名”、“地名”、“数字”或“时间”时,相应权重wj为第三值,即,wj=v3。关键词的类别例如可以通过搜索关键词类别数据库确定。
在一个实施例中,第一、二、三值v1、v2、v3可以分别设置为2.0、1.0和0.5。
在一个实施例中,标签集{Li}中的各标签Li选自二级行业类别。表1是各级行业类别的示例,其中,仅示例性示出了部分行业类别。可以看出一级行业类别涵盖的范围过广,三级行业类别划分过细。因此,一级行业类别和三级行业类别对于有效且方便地区分用户感兴趣的内容可能是不利的。可见,选择二级行业类别来对目标内容进行分类(即,打标签)是优选的。本领域技术人员能够理解:为了准确区分用户感兴趣的内容类别,可以选择更细的分类,或者,为了特定目的,可以设计出特定于该目的的特定分类类别。
表1各级行业类别的示例
Figure BDA0002066664150000071
本公开内容还提供一种推荐方法。下面参照图3描述本公开内容的推荐方法。
图3示出了根据本公开内容的一个实施例的推荐方法300的示例性流程图。
在步骤302处,确定候选内容集。具体而言,基于多个内容中的每个的内容类别标签集和用户USa的感兴趣内容类别集{Luk’}确定用于向用户USa推荐的候选内容集,a为标识用户的索引,候选内容集包含用于向用户USa推荐的候选内容。具体来说,对多个内容中每个进行匹配判断,即,基于内容C的内容类别标签集{LCm}和用户USa的感兴趣内容类别集{Luk’}确定内容C是否为要向用户推荐的候选内容,其中,多个内容包括目标内容,目标内容的内容类别标签集中的至少一个内容类别标签是通过本公开内容的打标签方法来被确定,k’是索引,取1至k’max,用户USa有k’max个感兴趣内容类别。容易理解的是,目标内容CO的标签的数量可以是1个、2个或更多。
当标签LCm与用户USa匹配时,即,当内容C的标签集中的一个标签LCm所指示的内容类别包括在用户的感兴趣内容类别集{Luk’}中时,将内容C确定为候选内容。优选的,可以记录针对该用户,被选中的内容C的匹配标签所对应的相似度中的最大相似度,作为该内容针对该用户的内容相关性得分Sx。例如,对用户USa,被选中的作为候选内容的内容C有2个标签包括在用户USa的感兴趣内容类别集中,2个标签所对应相似度分别为0.6和0.8,则针对用户USa,记录该内容C的内容相关性得分Sx为0.8。另外,用户的各感兴趣内容类别Luk’可以对应一个感兴趣得分Sk’,可以将感兴趣得分与内容相关性得分求和或积作为是否选择候选内容为推荐内容的依据,其中,感兴趣得分Sk’用于表示用户对感兴趣内容类别Luk’的内容的感兴趣程度。例如,内容C的内容相关性得分Sx为0.8,且其对应针对“运动健身”标签的相似度,而用户USa感兴趣内容类别集包括“运动健身”,且该类别的感兴趣得分Sk’=0.6,则可以基于Sx和Sk’(例如,基于Sx*Sk’或Sx+Sk’的大小)选择推荐内容。
当标签与用户不匹配时,即,当内容C的内容类别标签集中的每个标签所指示的内容类别都不在用户感兴趣的内容类别集中时,不将内容C记入候选内容集。
在步骤303处,从候选内容集中选择推荐内容,其中,候选内容集包括要向用户推荐的至少一个候选内容。推荐内容的数量可以是1个、2个或更多。选择规则可以根据需要确定,例如,从候选内容集中选择最新的内容向用户推荐;从候选内容集中随机选择推荐内容;从候选内容集中选择被推荐次数最少的内容作为推荐内容;从候选内容集中选择具有最大内容相关度得分的内容作为推荐内容;或者,选择多个考虑因素,并为这多个考虑因素设置优先级,从而根据优先级选择推荐内容,多个考虑因素可以包括:候选内容的收录时间、候选内容的推荐次数、感兴趣得分与内容相关性得分的和/积、候选内容的点击率和候选内容所对应的内容相关度得分。
在步骤304处,生成显示推荐内容的表示的指示,其中,此处,是向用户显示推荐内容的表示,并且指示用于供用户选择。推荐内容的表示例如是推荐内容的缩略图。例如,若用户在其所使用的终端上点击了该缩略图,则在终端上显示推荐内容。
在推荐方法300由服务器端来执行的情况下,推荐方法300还可以包括:接收针对推荐内容的请求。该请求可以是由用户所使用的客户端发出。请求可以包括用户的用户信息,以基于用户信息确定用户感兴趣的内容类别集。推荐方法300可以由服务器端来执行。
在推荐方法300由服务器端来执行的情况下,推荐方法300还可以包括:向用户所使用的客户端发送向用户显示推荐内容的表示的指示。从而,客户端接收到该指示后,客户端向用户显示推荐内容的表示以供用户选择。
优选的,可以对多个内容执行本公开内容的打标签方法,以分别确定多个内容的内容类别标签。进一步的,候选内容集中的所有候选内容的所有内容类别标签均由本公开内容的打标签方法来确定。
可选的,可以使用kafka队列获取最新内容作为目标内容。
下面,以一个具体的示例,示例性描述本公开内容的打标签方法。
标签集{Li}有10个标签,即,10个类别指示词,分别为:运动健身、家政服务、鲜花礼品、婚纱摄影、医疗科室、整形医疗、妇幼医院、酒店预定、民宿和航空公司。
从消息队列中在线获取的新内容的如下:
内容标题为:“一家人在旅途民宿里一起做饭是啥体验?Airbnb告诉你超温馨”;
内容正文为:“和家人去不同的地方,看风景,吃特色,还能在不同地方的家里一起做饭想想就很温馨,Airbnb全球任您来选”。
将该新内容选择为目标内容CO以选择关键词。
对目标内容CO进行分词,并基于TF*IDF选择TF*IDF最大的前9个候选关键词作为关键词。这9个关键词分别为:Airbnb、人在旅途、民宿、地方、温馨、做饭、风景、特色、全球。
确定的各关键词的类别如表2。
表2关键词的类别及权重
Figure BDA0002066664150000101
通过使用训练后的word2vec语言模型ML,获取这9个关键词的9个64维关键词向量,并根据关键词的类别对9个关键词向量进行加权求和,得到64维的目标内容向量VC如下:[-0.14115450160929885,-0.24425549793780627,-0.30044687888376137,-0.05763183483727175,0.15561235974744236,0.010583868380962057,0.013591076247417138,-0.06848938692135165,-0.02732886928430746,-0.034710140155875834,0.03750085532692744,0.046927746483094245,0.01581604176379293,0.16177491753452636,-0.237404869703128,-0.06449884472860959,-0.10758427322849924,-0.07626917726376475,0.006169830778924875,0.11237461946713251,-0.17831536577928542,0.0819056485434265,-0.12827313774691287,0.0020619466900970483,-0.016215964088673797,-0.14129457714696125,-0.0905078577328344,0.01599747926662087,-0.13264012880481604,-0.05488182080912134,0.15804649074807617,-0.15541510850124396,0.0344278284956769,0.154474302607422,-0.27187228106139893,-0.04848808005948619,0.07496522631347169,-0.09970821588166821,-0.21192385737972327,-0.10144228362039891,-0.03206756311276709,0.08181443401576366,-0.022456738055021172,0.07263042977339229,-0.05359920849368456,-0.012039215785374473,0.05122092769789547,-0.011626157154404461,-0.009008863938227746,-0.22059785870647422,0.004545139343459065,0.056822009826923224,0.10528190567950048,-0.16259849732059495,0.1074273601363384,0.16346525357742392,0.0016458175006195614,-0.10910192190291954,0.22706467011122444,0.23295105654493278,0.1703301017317971,0.017352765286693526,-0.14180094380902827,-0.18815346922446488]。
基于内容向量VC和标签集{Li}中的10个标签的标签向量确定目标内容VC关于各标签的相似度,其中,10个标签的标签向量是由语言模型ML基于相应类别指示词确定的10个64维向量。10个相似度的值如下:0.10955877033307335、0.32484788901811973、0.18443480388501027、0.32851210400292546、-0.1871856053931387、0.057516092361998145、-0.10459164508515512、0.5691629355855871、0.8078326422773067、0.3179727610239934。
假设预定相似度阈值Th为0.5。则确定“民宿”和“酒店预定”为目标内容CO的内容类别标签,即,目标内容CO的内容类别标签集为{民宿,酒店预定}。
本公开内容还提供一种存储有程序的计算机可读记录介质,其中,该程序使计算机执行本公开内容的打标签方法。
本公开内容还提供一种存储有程序的计算机可读记录介质,其中,该程序使计算机执行本公开内容的推荐方法。
本公开内容还提供一种打标签装置。图4示出了根据本公开内容的一个实施例的打标签装置400的示例性框图。打标签装置400包括:关键词确定单元401、词向量确定单元402、内容向量确定单元403、相似度确定单元404和标签确定单元405。关键词确定单元401被配置成:从目标内容的文本部分选择多个关键词。词向量确定单元402被配置成:使用语言模型确定各关键词的相应关键词向量,以及使用语言模型确定各标签的标签向量,其中,标签集由标签组成,各标签为指示目标内容的候选类别的类别指示词。内容向量确定单元403被配置成:通过对各相应关键词向量加权求和确定目标内容的内容向量。相似度确定单元404被配置成:基于内容向量和标签集中的各标签的标签向量确定目标内容关于各标签的相似度。标签确定单元405被配置成:基于各相似度确定目标内容的内容类别标签。标签确定单元405可以输出目标内容的内容类别标签,其中,目标内容的内容类别标签的数量可以是1个、2个或更多。打标签装置400与本公开内容的打标签方法具有对应关系。在可行的情况下,打标签装置400的更具体细节可以与本公开内容的打标签方法中的对应细节相同。优选的,可以使用打标签装置400生成目标内容CO的所有内容类别标签。
本公开内容还提供一种推荐装置。图5示出了根据本公开内容的一个实施例的推荐装置500的示例性框图。推荐装置500包括:候选内容集确定单元501、选择单元502和指示生成单元503。候选内容确定单元501被配置成:基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向用户推荐的候选内容集,其中,多个内容包括目标内容,目标内容的内容类别标签集中的至少一个内容类别标签是通过本公开内容的打标签方法来被确定。选择单元502被配置成:从候选内容集选择向用户推荐的推荐内容。指示生成单元503被配置成:生成向用户显示推荐内容的表示的指示,其中,该指示用于供用户选择。推荐装置500与本公开内容的推荐签方法具有对应关系。在可行的情况下,推荐装置500的更具体细节可以与本公开内容的推荐方法中的对应细节相同。
根据上面对本公开内容的具体实施例的描述,本领域技术人员能够理解,本公开内容方案至少能实现如下效果之一:使用打标签方法为内容自动打标签,不需要人工标注标签,节约时间、节省标注成本、高效地打标签、避免人工标注的主观性引入的误差;打标签方法使用神经网络,能够有效、准确地为内容分配标签;不需要对预定语料库的内容进行标注,因此当标签体系发生变化时,不需要对预定语料库的内容进行标注,也不需要对语言模型进行再次训练,因此,打标签方法具有较强的鲁棒性;打标签方法能够在线实时为内容打标签,内容被实时标签化;能够向用户推荐个性化的匹配内容,从而提高了内容的点击率;新内容被在线实时标签化,能够被及时推荐给用户,从而能够容易第实现新内容的冷启动。
应该理解,术语“包括”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或多个其他特征、整件、步骤或组件的存在或附加。
应该理解,在不偏离本公开内容的精神的情况下,针对一个实施例描述和/或示出的特征可以以相同或类似的方式在一个或多个其他实施例中使用,与其他实施例中的特征相组合,或替代其他实施例中的特征。
此外,本公开内容的方法不限于按照说明书中描述的时间顺序来执行,如果从原理上说可行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开内容的范围构成限制。
以上结合具体的实施例对本公开内容进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本公开内容的保护范围的限制。本领域技术人员可以根据本公开内容的精神和原理对本公开内容做出各种变型和修改,这些变型和修改也在本公开内容的范围内。

Claims (8)

1.一种打标签方法,包括:
从目标内容的文本部分选择多个关键词;其中,通过kafka队列在线获取的新内容作为目标内容;
使用语言模型确定各关键词的相应关键词向量;
通过对各相应关键词向量加权求和确定所述目标内容的内容向量;
基于所述内容向量和标签集中的各标签的标签向量确定所述目标内容关于各标签的相似度;以及
基于各相似度确定所述目标内容的内容类别标签;
其中,所述标签集中的各标签为指示所述目标内容的候选类别的类别指示词;并且
各标签向量是由所述语言模型基于相应类别指示词确定的向量;
其中,通过对各相应关键词向量加权求和确定所述目标内容的内容向量包括:
确定各关键词的类别;以及基于各关键词的类别确定各相应关键词向量的相应权重;
其中,所述类别选自于由以下构成的类别组:商品、人名、地名、数字、时间和其他;
当所述类别为商品时,所述相应权重为第一值;
当所述类别为其他时,所述相应权重为第二值;
当所述类别为人名、地名、数字或时间时,所述相应权重为第三值;
所述第一值大于所述第二值;并且
所述第二值大于所述第三值。
2.根据权利要求1所述的打标签方法,其中,所述标签集中的各标签选自二级行业类别。
3.根据权利要求1所述的打标签方法,其中,从目标内容的文本部分选择多个关键词包括:
对所述文本部分进行分词以得到多个候选关键词;
确定各候选关键词的关于所述文本部分的词频;
确定各候选关键词的关于预定语料库的逆文档频率;以及
基于各候选关键词的词频与逆文档频率的积选择预定数量的候选关键词作为所述多个关键词。
4.根据权利要求1所述的打标签方法,其中,所述语言模型是针对预定语料库使用word2vec工具训练后的自然语音处理模型。
5.一种推荐方法,包括:
基于多个内容中的每个的内容类别标签集和用户的感兴趣内容类别集确定用于向所述用户推荐的候选内容集;
从候选内容集选择向所述用户推荐的推荐内容;以及
生成向所述用户显示所述推荐内容的表示的指示;
其中,所述指示用于供所述用户选择;并且
所述多个内容包括目标内容,所述目标内容的内容类别标签集中的至少一个内容类别标签是通过权利要求1至4中的任一项所述的打标签方法来被确定。
6.根据权利要求5所述的推荐方法,还包括:使用kafka队列获取最新内容作为所述目标内容。
7.一种存储有程序的计算机可读记录介质,其中,所述程序使计算机执行权利要求1至4中的任一项所述的打标签方法。
8.一种存储有程序的计算机可读记录介质,其中,所述程序使计算机执行权利要求5或6所述的推荐方法。
CN201910423246.2A 2019-05-21 2019-05-21 打标签方法、推荐方法及记录介质 Active CN110147499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910423246.2A CN110147499B (zh) 2019-05-21 2019-05-21 打标签方法、推荐方法及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910423246.2A CN110147499B (zh) 2019-05-21 2019-05-21 打标签方法、推荐方法及记录介质

Publications (2)

Publication Number Publication Date
CN110147499A CN110147499A (zh) 2019-08-20
CN110147499B true CN110147499B (zh) 2021-09-14

Family

ID=67592502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910423246.2A Active CN110147499B (zh) 2019-05-21 2019-05-21 打标签方法、推荐方法及记录介质

Country Status (1)

Country Link
CN (1) CN110147499B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516030B (zh) * 2019-08-26 2022-11-01 北京百度网讯科技有限公司 意图词的确定方法、装置、设备及计算机可读存储介质
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及***
CN111309919B (zh) * 2020-03-23 2024-04-16 智者四海(北京)技术有限公司 文本分类模型的***及其训练方法
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及***
CN113313344B (zh) * 2021-04-13 2023-03-31 武汉烽火众智数字技术有限责任公司 一种融合多模式的标签体系构建方法和***
CN113723513B (zh) * 2021-08-31 2024-05-03 平安国际智慧城市科技股份有限公司 多标签图像分类方法、装置及相关设备
CN113961725A (zh) * 2021-10-25 2022-01-21 北京明略软件***有限公司 一种标签自动标注方法及***、设备和存储介质
CN114827745B (zh) * 2022-04-08 2023-11-14 海信集团控股股份有限公司 视频字幕的生成方法及电子设备
CN115269989B (zh) * 2022-08-03 2023-05-05 百度在线网络技术(北京)有限公司 对象推荐方法、装置、电子设备和存储介质
CN118069777A (zh) * 2023-12-27 2024-05-24 伟金投资有限公司 一种收集信息自动归类再发布方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033087A (zh) * 2018-08-07 2018-12-18 中证征信(深圳)有限公司 计算文本语义距离的方法、去重方法、聚类方法以及装置
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及***
CN109325229A (zh) * 2018-09-19 2019-02-12 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和***
CN104965889B (zh) * 2015-06-17 2017-06-13 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN106095845B (zh) * 2016-06-02 2021-04-06 腾讯科技(深圳)有限公司 文本分类方法和装置
CN108319630B (zh) * 2017-07-05 2021-12-14 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN108694647B (zh) * 2018-05-11 2021-04-23 北京三快在线科技有限公司 一种商户推荐理由的挖掘方法及装置,电子设备
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108984658A (zh) * 2018-06-28 2018-12-11 阿里巴巴集团控股有限公司 一种智能问答数据处理方法及装置
CN109165380B (zh) * 2018-07-26 2022-07-01 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN109063133B (zh) * 2018-08-02 2021-02-02 武汉斗鱼网络科技有限公司 一种直播间标签的添加方法、***、设备及介质
CN109242604A (zh) * 2018-08-15 2019-01-18 深圳壹账通智能科技有限公司 服务推荐方法、电子设备及计算机可读存储介质
CN109740152B (zh) * 2018-12-25 2023-02-17 腾讯科技(深圳)有限公司 文本类目的确定方法、装置、存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及***
CN109033087A (zh) * 2018-08-07 2018-12-18 中证征信(深圳)有限公司 计算文本语义距离的方法、去重方法、聚类方法以及装置
CN109325229A (zh) * 2018-09-19 2019-02-12 中译语通科技股份有限公司 一种利用语义信息计算文本相似度的方法

Also Published As

Publication number Publication date
CN110147499A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147499B (zh) 打标签方法、推荐方法及记录介质
KR101981075B1 (ko) 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
US9183226B2 (en) Image classification
CN104572651B (zh) 图片排序方法及装置
US8060506B1 (en) Document analyzer and metadata generation
Raghavan et al. Review quality aware collaborative filtering
Baral et al. Reel: Review aware explanation of location recommendation
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
TW201220099A (en) Multi-modal approach to search query input
US9361377B1 (en) Classifier for classifying digital items
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN109933660B (zh) 面向自然语言形式基于讲义和网站的api信息检索方法
US8788503B1 (en) Content identification
Gomathi et al. Restaurant recommendation system for user preference and services based on rating and amenities
CN103577534B (zh) 搜索方法和搜索引擎
CN105825396B (zh) 一种基于共现的广告标签聚类的方法及***
JP2018523251A (ja) カタログ内の製品を検索するためのシステムおよび方法
CN111460251A (zh) 数据内容个性化推送冷启动方法、装置、设备和存储介质
JP2011221794A (ja) 画像選定装置
Angadi et al. Multimodal sentiment analysis using reliefF feature selection and random forest classifier
CN111881283A (zh) 一种业务关键词库创建方法、智能聊天引导方法及装置
CN115827990B (zh) 搜索方法及装置
KR20190023503A (ko) 이미지 기반 특허 검색 장치
CN111782676A (zh) 概率预测模型训练方法、概率预测方法及装置
CN102982072B (zh) 一种可视化概念检测器及构造语义场的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant