CN105488077A - 生成内容标签的方法和装置 - Google Patents

生成内容标签的方法和装置 Download PDF

Info

Publication number
CN105488077A
CN105488077A CN201410531163.2A CN201410531163A CN105488077A CN 105488077 A CN105488077 A CN 105488077A CN 201410531163 A CN201410531163 A CN 201410531163A CN 105488077 A CN105488077 A CN 105488077A
Authority
CN
China
Prior art keywords
participle fragment
semantic segment
semantic
default
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410531163.2A
Other languages
English (en)
Other versions
CN105488077B (zh
Inventor
连凤宗
轩文烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410531163.2A priority Critical patent/CN105488077B/zh
Publication of CN105488077A publication Critical patent/CN105488077A/zh
Application granted granted Critical
Publication of CN105488077B publication Critical patent/CN105488077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种生成内容标签的方法和装置,该方法包括:将用户生成内容进行分词处理而获得分词片段序列;根据所述分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合;从所述语义片段的集合中过滤掉预设的无语义片段;将所述语义片段的集合中剩余的语义片段确定为内容标签。本发明提供的生成内容标签的方法和装置生成的内容标签符合大多数用户的自由语言的描述,可以更好地命中查询词,使得基于该内容标签的内容搜索更加高效。

Description

生成内容标签的方法和装置
技术领域
本发明涉及数据查询相关技术领域,特别是涉及一种生成内容标签的方法和装置。
背景技术
目前在搜索音乐时可以输入查询词,然后通过匹配查询词与音乐的音乐名称、歌手名称以及专辑名称等来实现音乐搜索。但这种搜索音乐的方法并不能满足用户搜索音乐的需求,主要原因是这种方法只能查找到文本资料中含有该查询词的音乐,没有分析查询词所包含的潜在的语义需求。
为了结合用户的潜在语义需求搜索音乐,目前的主流做法是人工将语义需求用音乐标签来表示,通过匹配音乐标签来实现音乐的搜索。比如,按照流派来划分,音乐标签可以包括“古典”、“流行”、“摇滚”、“节奏布鲁斯、“嘻哈”、“乡村”、“民谣”、“电子”、“爵士”。按照表达情感进行划分,音乐标签可以包括“伤感想念”、“寂寞”、“安静”、“甜蜜”、“励志”、“舒服”、“怀念”、“浪漫”、“喜悦”、“深情”、“美好”、“怀旧”、“激情”。按照年代划分,音乐标签又可以包括“经典老歌”“80年代”“90后”等。目前人工建立的音乐标签体系规整、准确。
然而,目前人工编辑生成的音乐标签数量有限,扩展性能差,只能解决部分语义需求。而且人工编辑生成的音乐标签语义生硬,不符合大多数用户的自由语言的描述,导致当采用人工编辑生成的音乐标签来搜索音乐时,难以搜索到符合用户实际需求的音乐,搜索效率低。比如“古典”和“节奏布鲁斯”这样的音乐标签,普通用户可能不知道这种专业的音乐分类,难以通过该音乐标签的匹配来进行音乐的搜索。
发明内容
基于此,有必要针对目前人工编辑生成的音乐标签导致搜索效率低下的问题,提供一种生成内容标签的方法和装置。
一种生成内容标签的方法,所述方法包括:
将用户生成内容进行分词处理而获得分词片段序列;
根据所述分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合;
从所述语义片段的集合中过滤掉预设的无语义片段;
将所述语义片段的集合中剩余的语义片段确定为内容标签。
一种生成内容标签的装置,所述装置包括:
分词模块,用于将用户生成内容进行分词处理而获得分词片段序列;
语义片段生成模块,用于根据所述分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合;
无语义片段过滤模块,用于从所述语义片段的集合中过滤掉预设的无语义片段;
内容标签确定模块,用于将所述语义片段的集合中剩余的语义片段确定为内容标签。
上述生成内容标签的方法和装置,将用户生成内容进行分词处理而获得分词片段序列。由于当多个词经常一起出现时,通常表示该多个词合并在一起表达一个整体的语义,因此根据分词片段序列中多个相邻的分词片段在预设语料库中出现的次数,就可以判断这些词是否需要合并在一起以表达一个整体的语义。将需要合并的分词片段合并,不需要合并的则保留下来,再从中过滤掉预设的无语义片段,使得剩余的语义片段集合主要由具有明确语义的语义片段组成,最后将其中的语义片段作为内容标签。
这样用户生成内容符合广大普通用户的自由的语言使用习惯,经过分词、共现词合并以及无语义片段过滤等处理,以从用户生成内容中分离出具有明确语义的语义片段作为内容标签。使用该内容标签符合大多数用户的自由语言的描述,可以更好地命中查询词,使得基于该内容标签的内容搜索更加高效。
附图说明
图1为一个实施例中一种设备的内部结构图;
图2为一个实施例中生成内容标签的方法的流程示意图;
图3为另一个实施例中生成内容标签的方法的流程示意图;
图4为一个实施例中生成内容标签的装置的结构框图;
图5为另一个实施例中生成内容标签的装置的结构框图;
图6为再一个实施例中生成内容标签的装置的结构框图;
图7为一个实施例中图4中的语义片段生成模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于这样的应用场景,对内容的搜索需要生成内容标签,再与内容项目关联后就可以实现基于内容标签的内容搜素。目前人工编辑生成的音乐标签存在搜索效率低下的问题。发明人考虑到网络上存在大量的UGC(UserGeneratedContent,用户生成内容),这些用户生成内容由广大用户自由生成并不断更新,符合用户自由的语言使用习惯。对这些用户生成内容进行语义分析,提取出具有语义的内容标签,那么这些用户生成内容就符合大多数用户的自由语言的描述,更贴近用户的实际搜索需求。将提取出的内容标签与指定的内容项目关联,可以更好地命中查询词,使得基于该内容标签的内容搜索更加高效。具体如何对这些用户生成内容进行语义分析以提取出具有语义的内容标签将在下述各个实施例中详细阐述。
如图1所示,提供了一种设备,该设备包括通过***总线连接的处理器、存储介质和内存。其中,该设备的存储介质存储有操作***、数据库和一种生成内容标签的装置,该生成内容标签的装置用于实现一种生成内容标签的方法。该设备的处理器用于提供计算和控制能力,支撑整个设备的运行。该设备的内存为存储介质中的生成内容标签的装置的运行提供环境。该设备可以是一个独立的设备,或者可以是多个可互联通信的设备组成的设备群,生成内容标签的装置的各个功能模块可分别分布在设备群中的各个设备上。该设备可以是台式计算机。
如图2所示,在一个实施例中,提供了一种生成内容标签的方法,本实施例以该方法应用于图1所示的设备中来举例说明。该方法具体包括如下步骤:
步骤202,将用户生成内容进行分词处理而获得分词片段序列。
内容是指具有思想表达功能的数据载体,可以是文本内容或者多媒体内容。一个内容项目则是指一项独立的内容,文本内容项目比如可以包括文本题目名称,还可以包括相关文本的访问地址链接;多媒体内容项目为音乐项目、电影项目或电视剧项目中的至少一种。
在一个实施例中,将内容项目集合所对应的主题名称进行分词处理而获得分词片段序列,该主题名称为用户生成内容。多个内容项目构成内容项目集合,比如一个作为内容项目集合的歌单包括多个音乐项目,每个音乐项目至少包括歌曲名称,还可以包括该音乐项目所表示的歌曲的播放地址链接。
内容项目集合所对应的主题名称反映了该集合中所有的内容项目所具有的共同的语义表达信息。比如一个歌单包括若干音乐项目,每个音乐项目分别表示与青春回忆相关的歌曲,那么该歌单的主题名称就可以是“忆青春”或者“青春的回忆”等。该主题名称是用户生成内容,广大用户各自将自己生成的内容项目集合以及其所对应的主题名称发布到网络,该设备主动或者被动接收到用户发布的内容项目集合以及其所对应的主题名称,并进行后续的处理。
分词处理是指将一个文字序列分割为一个个独立的分词片段的过程。主题名称可以用英文或者中文表述,英文表述的主题名称可以直接按照英文单词以及英文短语进行分词处理。中文表述的主题名称可以采用多种已有的分词方式进行分词处理,可以采用字符串匹配的分词方法进行分词处理,比如正向最大匹配法、反向最大匹配法、最短路径分词法以及双向最大匹配法等。其中正向最大匹配法就是从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个分词片段。
获得的分词片段序列是指将主题名称进行分词处理后,将获得的分词片段按照其在主题名称中的位置进行排序而获得的字符序列。比如若主题名称为“爸爸妈妈的最爱”,则将该主题名称后所获得的分词片段序列为“爸爸,妈妈,的,最爱”,且其中“爸爸”、“妈妈”、“的”和“最爱”都是分词片段。
步骤204,根据分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合。
这里多个包括两个,共同出现是指两个分词片段按照其在分词片段序列中的顺序组合而成的整体而出现。当多个词经常一起出现时,通常表示该多个词合并在一起表达一个整体的语义,因此根据分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,就可以判断这些分词片段是否具备合并为一个新的词片段的条件,从而判断该多个分词片段是否需要合并在一起来表达一个整体的语义。将需要合并的分词片段合并而获得新的片段,不需要合并的则原样保留下来,获得的新的片段和保留下来的分词片段都是经过处理后确定的语义片段,组成语义片段的集合。
预设语料库用来统计词出现的次数从而据以进行统计量的分析,具体用来判断分词片段之间是否具有语义关联,以判断其是否需要合并。预设语料库可以采用与内容项目相关的文本。在一个实施例中,预设语料库包括指定时间段内的网页搜索日志和/或多个内容项目集合各自对应的主题名称所形成的主题名称集合。比如可以采用最近一个月内的网页搜索日志以及需要分离出内容标签的所有主题名称所形成的主题名称集合构成预设语料库,且每个主题名称分别对应多个内容项目集合中的一个。
举例说明,比如分词序列为“爸爸,妈妈,的,最爱”,经过在预设语料库中统计并去除掉噪声后,发现“爸爸妈妈”在预设语料库中出现的频率非常高,则可以判定“爸爸”、“妈妈”这两个分词片段具备合并的条件,可以组合成为“爸爸妈妈”。
步骤206,从语义片段的集合中过滤掉预设的无语义片段。
具体地,预设的无语义片段包括预设的人名、预设的单字片段、预设的停用词以及预设的模板词中的至少一种。其中人名比如“孙俪”或“王菲”等,这些人名并不是确切的语义片段。预设的单字片段比如“我”或者“的”等,没有明确意义。停用词比如“按照”、“彼此”或者“不仅”等,对确定内容标签的目的来说没有意义。预设的模板词比如“习惯”、“适合”、“的*”、“音乐”、“歌曲”等,对于确定内容标签来说没有意义。这里的“的*”中的“*”表示任意一个字符。在一个实施例中,从语义片段的集合中过滤掉预设的无语义片段时,可以限定过滤掉的无语义片段的长度,以提升过滤的准确率。
在一个实施例中,步骤206之前或者之后,还包括:检测到语义片段的集合中的多个语义片段之间具有子串包含关系时,过滤掉作为子串的语义片段。具体地,多个语义片段之间具有子串包含关系,是指一个语义片段至少包括另一个语义片段,此时该另一个语义片段就是该一个语义片段的子串。比如“爸爸妈妈”的分词片段包括“爸爸”或者“妈妈”的分词片段,则过滤掉作为子串的分词片段“爸爸”或者“妈妈”。这是因为在查询时,若“爸爸”是查询词,则该查询词可以与“爸爸”以及“爸爸妈妈”匹配,过滤掉作为子串的分词片段“爸爸”,可以控制内容标签的数量以提高查询效率。
步骤208,将语义片段的集合中剩余的语义片段确定为内容标签。
具体地,语义片段的集合中剩余的语义片段基本都是具有明确语义的、适用于内容标签的语义片段,将这些语义片段作为内容标签输出。
在一个实施例中,该生成内容标签的方法还包括:建立内容标签和指定的内容项目的关联,内容标签用于根据关联查询指定的内容项目。比如将作为内容标签的音乐标签与歌曲信息关联起来,通过该内容标签便可以查询到与其关联的歌曲信息。
上述生成内容标签的方法,将用户生成内容进行分词处理而获得分词片段序列。由于当多个词经常一起出现时,通常表示该多个词合并在一起表达一个整体的语义,因此根据分词片段序列中多个相邻的分词片段在预设语料库中出现的次数,就可以判断这些词是否需要合并在一起以表达一个整体的语义。将需要合并的分词片段合并,不需要合并的则保留下来,再从中过滤掉预设的无语义片段,使得剩余的语义片段集合主要由具有明确语义的语义片段组成,最后将其中的语义片段作为内容标签。
这样用户生成内容符合广大普通用户的自由的语言使用习惯,经过分词、共现词合并以及无语义片段过滤等处理,以从用户生成内容中分离出具有明确语义的语义片段作为内容标签。使用该内容标签符合大多数用户的自由语言的描述,可以更好地命中查询词,使得基于该内容标签的内容搜索更加高效。
如图3所示,在一个具体的实施例中,一种生成内容标签的方法,本实施例以该方法应用于上述图1中的设备来举例说明。该方法具体包括如下步骤:
步骤301,从多个内容项目集合各自对应的主题名称所形成的主题名称集合中过滤掉具有预设的无语义主题名称形式的主题名称;主题名称集合中的主题名称为用户生成内容。
具体地,主题名称是用户生成内容,噪声很多,在进行分词处理前需要过滤掉明显无语义的主题名称,以过滤掉一些明显的噪声数据。比如预设的无语义主题名称形式包括主题名称为空、主题名称为单个字、主题名称由非正规化文字符号组合而成以及主题名称仅包括标点符号等。这里非正规化文字符号可通俗地称为火星文。
步骤302,对于主题名称集合中经过过滤后所剩余的每个主题名称分别进行分词处理而获得对应该主题名称的分词片段序列。
具体地,对于每个主题名称分别进行如上述步骤202所描述的分词处理,每个主题名称对应一个分词片段序列。假设分词片段序列包括的分词片段的总数为n,则该分词片段序列可以表示为w1w2…wn,下标表示相应的分词片段在该分词片段序列中排列的序号。
以下步骤303~步骤313为上述步骤204的具体步骤。
步骤303,将分词片段序列中相邻的分词片段按照在分词片段序列中的顺序进行组合而获得分词片段组合。
具体地,采用N-Gram(多元组)语言模型,该模型基于这样一种假设,一个词序列中的词只与该词之前的词相关,而与词序列中其它词不相关。按照分词片段在分词片段序列中的顺序,将相邻的分词片段进行组合来获得分词片段组合。对于分词片段序列w1w2…wn,获得的分词片段组合表示为wiwi+1…wj,j≥i+1。举例来说,若n=3,则相应的分词片段组合包括w1w2、w2w3和w1w2w3
步骤304,统计分词片段序列中的分词片段和分词片段组合各自在预设语料库中出现的次数。
具体地,统计分词片段序列w1w2…wn中的每个分词片段w1、w2、…、wn各自在预设语料库中出现的次数表示为count(w1)、count(w2)、…、count(wn)。统计每个分词片段组合各自在预设语料库中出现的次数表示为count(wiwi+1…wj)。
步骤305,根据统计的次数计算每个分词片段和每个分词片段组合各自相对于分词片段序列中的所有分词片段的统计频率,以建立对称的频率矩阵。
具体地,每一个主题名称可以描述为一个对称的频率矩阵M,矩阵M的维度等于分词片段的总数n。矩阵M的元素mi,j表示矩阵M第i行第j列的元素,采用以下公式(1)计算:
公式(1): F ( w i ) , ifi = j F ( w i w i + 1 &CenterDot; &CenterDot; &CenterDot; w j ) , ifi < m i , j , ifi > j j ;
其中,公式(1)中的F(wi)采用以下公式(2)计算:
公式(2): F ( w i ) = count ( w i ) &Sigma; i = 1 n count ( w i ) ;
公式(1)中的F(wiwi+1…wj)采用以下公式(3)计算:
公式(3): F ( w i + w i + 1 &CenterDot; &CenterDot; &CenterDot; w j ) = count ( w i w i + 1 &CenterDot; &CenterDot; &CenterDot; w j ) &Sigma; i = 1 n count ( w i ) .
频率矩阵M中mi,j(i=j)表示分词片段w1相对于统计分词片段序列w1w2…wn中的所有分词片段w1、w2…wn的统计频率,表示在该分词片段序列的上下文环境下,分词片段w1在预设语料库中出现的频率。而矩阵M中mi,j(i≠j)则表示分词片段组合wiwi+1…wj-1与分词片段wj在该分词片段序列的上下文环境下,在预设语料库中共同出现的频率。
步骤306,对频率矩阵进行特征分解,获得特征值和对应的特征向量。
因为频率矩阵M是对称正定矩阵,其特征值是实数,特征值对应的特征向量是非零的,将特征值按照降序排序,记频率矩阵M的特征值为λ(M)={λ1,λ2,…,λn},且λ1≥λ2≥…≥λn。且频率矩阵M的每个特征值都有相应的特征向量,表示为:V(M)={x1,x2,…,xn}。
步骤307,根据获得的特征值估计输出的语义片段数。
为了获取有意义的语义片段,需要将几个相邻的一起出现的分词片段合并成一个新的片段,这体现在矩阵M中的列向量是相关的,可以使用特征空间映射以达到降维的目的。同时,由于噪声的存在,选择信息量更高的k维数据,能够达到去噪的目的。k就是需要估计的输出的语义片段数。
可采用主成份分析法,从频率矩阵M降序排列的特征值λ(M)={λ1,λ2,…,λn}中选取前k个特征值,满足以下公式(4):
公式(4): &Sigma; i = 1 k &lambda; i &Sigma; i = 1 n &lambda; i &GreaterEqual; Threshold ;
公式(4)所表述的是选取的k个特征值的和与分解获得的所有特征值的和的比值大于或等于预设比值阈值。给定预设比值阈值Threshold,利用公式(4)计算出k的取值范围,从该取值范围中选取该范围内的最小正整数作为估计的输出的语义片段数。
其中预设比值阈值Threshold的取值范围为(0,1),优选的取值范围是 预设比值阈值Threshold采用时效果非常理想,此时预设比值阈值与分词片段序列中分词片段的总数正相关。这里n为分词片段序列所包括的分词片段的总数。
在一个实施例中,还可以在预设比值阈值Threshold的取值范围中选取有限的离散值,遍历这些离散值而分别采用上述公式(4)来计算相应的k的值,再从中选取最优的k值来实现估计输出的语义片段数。
步骤308,在降序排列的特征值中从首位开始顺序选取数量为语义片段数的特征值,将选取的特征值所对应的特征向量构成特征空间。
具体地,从频率矩阵M降序排列的特征值λ(M)={λ1,λ2,…,λn}中,从首位λ1开始选取k个特征值为λ1,λ2,…,λk。将选取的k个特征值λ1,λ2,…,λk各自所对应的特征向量xi,x2,…,xk构成特征空间其中span表示将选取的k个特征值各自所对应的特征向量x1,x2,…,xk张成特征空间。其中一个特征向量为n行1列。
步骤309,将频率矩阵的每行映射到特征空间中获得对应的映射向量,并计算映射向量之间的相似度。
频率矩阵M的第i行可以映射到特征空间的一个映射向量αi,具体将选取的k个特征值的第i行组成一个1行k列的映射向量αi,这样获得的映射向量满足 { &alpha; 1 T , &alpha; 2 T , &CenterDot; &CenterDot; &CenterDot; , &alpha; n T } T = { x 1 , x 2 , &CenterDot; &CenterDot; &CenterDot; , x k } ; 其中T表示转置。
如果分词片段w1和wj经常一起出现,其对应的映射向量αi和αj在特征空间中近似平行,可以采用映射向量之间的余弦值来度量映射向量之间的相似度。
步骤310,将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合。
具体地,可以采用以下公式(5)来计算两个分词片段wi和wj在特征空间中数据分布的相似度,也是表示合并或保留相应的分词片段的标记:
公式(5): S ( w i , w j ) = 1 , ( &alpha; i &CenterDot; &alpha; j T ) ( | | &alpha; j | | &CenterDot; | | &alpha; j | | ) &GreaterEqual; &delta; 0 , ( &alpha; j &CenterDot; &alpha; j T ) ( | | &alpha; i | | &CenterDot; | | &alpha; j | | ) < &delta; ;
其中表示映射向量αi和αj的余弦值;δ是预设相似度阈值,初始可取0.5。将映射向量之间的余弦值大于或等于预设相似度阈值δ的标记为1,表示需要合并;将映射向量之间的余弦值小于预设相似度阈值δ的标记为0,表示不需要合并仅保留。这样就可以获得由合并获得新的片段以及保留的分词片段所构成的语义片段的集合。
步骤311,判断语义片段的集合中语义片段的数量是否等于语义片段数,若是则执行步骤312,采用当前获得的语义片段的集合;若否则执行步骤313,调整预设相似度阈值,并返回步骤310继续执行。
若语义片段的集合中语义片段的数量不等于语义片段数k,说明上述预设相似度阈值δ取值不合适,需要动态调整预设相似度阈值δ来形成估计的语义片段数k的语义片段。具体来说,若当前语义片段的集合中语义片段的数量小于语义片段数k,则应该增大预设相似度阈值δ来形成更多的语义片段;反之,若当前语义片段的集合中语义片段的数量大于语义片段数k,则应该减小预设相似度阈值δ来形成更少的语义片段。
在一个实施例中,当执行步骤310达到预设次数时,结束迭代计算,并采用当前获得的语义片段的集合。考虑到运行效率,若重复执行步骤310迭代过多次,会严重影响生成内容标签的效率,因此限定迭代计算的次数可以提高生成内容标签的效率。
步骤314,从语义片段的集合中过滤掉预设的无语义片段。
具体地,预设的无语义片段包括预设的人名、预设的单字片段、预设的停用词以及预设的模板词中的至少一种。在一个实施例中,从语义片段的集合中过滤掉预设的无语义片段时,可以限定过滤掉的无语义片段的长度,以提升过滤的准确率。在一个实施例中,步骤314之前或者之后,还包括:检测到语义片段的集合中的多个语义片段之间具有子串包含关系时,过滤掉作为子串的语义片段。
步骤315,将语义片段的集合中剩余的语义片段确定为内容标签。
具体地,语义片段的集合中剩余的语义片段基本都是具有明确语义的、适用于内容标签的语义片段,将这些语义片段作为内容标签输出。
上述生成内容标签的方法,考虑了主题名称的分词片段之间的相关性以及主题名称的上下文环境,减少了噪声的影响,使得生成的内容标签能够更加准确地反应出主题名称所包含的语义信息。
如图4所示,在一个实施例中,提供了一种生成内容标签的装置400,用于实现上述的生成内容标签的方法。该生成内容标签的装置400包括:分词模块420、语义片段生成模块440、无语义片段过滤模块460和内容标签确定模块480。
分词模块420,用于将用户生成内容进行分词处理而获得分词片段序列。
内容是指具有思想表达功能的数据载体,可以是文本内容或者多媒体内容。一个内容项目则是指一项独立的内容,文本内容项目比如可以包括文本题目名称,还可以包括相关文本的访问地址链接;多媒体内容项目为音乐项目、电影项目或电视剧项目中的至少一种。
在一个实施例中,分词模块420用于将内容项目集合所对应的主题名称进行分词处理而获得分词片段序列,该主题名称为用户生成内容。多个内容项目构成内容项目集合,比如一个作为内容项目集合的歌单包括多个音乐项目,每个音乐项目至少包括歌曲名称,还可以包括该音乐项目所表示的歌曲的播放地址链接。
内容项目集合所对应的主题名称反映了该集合中所有的内容项目所具有的共同的语义表达信息。该主题名称是用户生成内容,广大用户各自将自己生成的内容项目集合以及其所对应的主题名称发布到网络,该生成内容标签的装置400用于主动或者被动接收到用户发布的内容项目集合以及其所对应的主题名称,并进行后续的处理。
分词处理是指将一个文字序列分割为一个个独立的分词片段的过程。主题名称可以用英文或者中文表述,英文表述的主题名称可以直接按照英文单词以及英文短语进行分词处理。中文表述的主题名称可以采用多种已有的分词方式进行分词处理,可以采用字符串匹配的分词方法进行分词处理,比如正向最大匹配法、反向最大匹配法、最短路径分词法以及双向最大匹配法等。其中正向最大匹配法就是从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个分词片段。获得的分词片段序列是指将主题名称进行分词处理后,将获得的分词片段按照其在主题名称中的位置进行排序而获得的字符序列。
语义片段生成模块440,用于根据分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合。
这里多个包括两个,共同出现是指两个分词片段按照其在分词片段序列中的顺序组合而成的整体而出现。当多个词经常一起出现时,通常表示该多个词合并在一起表达一个整体的语义,因此语义片段生成模块440用于根据分词片段序列中多个相邻的分词片段在预设语料库中出现的次数,就可以判断这些分词片段是否具备合并为一个新的词片段的条件,从而判断该多个分词片段是否需要合并在一起来表达一个整体的语义。语义片段生成模块440用于将需要合并的分词片段合并而获得新的片段,不需要合并的则原样保留下来,获得的新的片段和保留下来的分词片段都是经过处理后确定的语义片段,组成语义片段的集合。
预设语料库用来统计词出现的次数从而据以进行统计量的分析,具体用来判断分词片段之间是否具有语义关联,以判断其是否需要合并。预设语料库可以采用与内容项目相关的文本。在一个实施例中,预设语料库包括指定时间段内的网页搜索日志和/或多个内容项目集合各自对应的主题名称所形成的主题名称集合。比如可以采用最近一个月内的网页搜索日志以及需要分离出内容标签的所有主题名称所形成的主题名称集合构成预设语料库,且每个主题名称分别对应多个内容项目集合中的一个。
无语义片段过滤模块460,用于从语义片段的集合中过滤掉预设的无语义片段。
具体地,预设的无语义片段包括预设的人名、预设的单字片段、预设的停用词以及预设的模板词中的至少一种。在一个实施例中,无语义片段过滤模块460用于从语义片段的集合中过滤掉预设的无语义片段时,限定过滤掉的无语义片段的长度,以提升过滤的准确率。无语义片段过滤模块460还用于检测到语义片段的集合中的多个语义片段之间具有子串包含关系时,过滤掉作为子串的语义片段。过滤掉作为子串的分词片段可以控制内容标签的数量以提高查询效率。
内容标签确定模块480,用于将语义片段的集合中剩余的语义片段确定为内容标签。
具体地,语义片段的集合中剩余的语义片段基本都是具有明确语义的、适用于内容标签的语义片段,内容标签确定模块480用于将这些语义片段作为内容标签输出。
上述生成内容标签的装置400,将用户生成内容进行分词处理而获得分词片段序列。由于当多个词经常一起出现时,通常表示该多个词合并在一起表达一个整体的语义,因此根据分词片段序列中多个相邻的分词片段在预设语料库中出现的次数,就可以判断这些词是否需要合并在一起以表达一个整体的语义。将需要合并的分词片段合并,不需要合并的则保留下来,再从中过滤掉预设的无语义片段,使得剩余的语义片段集合主要由具有明确语义的语义片段组成,最后将其中的语义片段作为内容标签。
这样用户生成内容符合广大普通用户的自由的语言使用习惯,经过分词、共现词合并以及无语义片段过滤等处理,以从用户生成内容中分离出具有明确语义的语义片段作为内容标签。使用该内容标签符合大多数用户的自由语言的描述,可以更好地命中查询词,使得基于该内容标签的内容搜索更加高效。
如图5所示,在一个实施例中,生成内容标签的装置400还包括:关联模块490,用于建立内容标签和指定的内容项目的关联,内容标签用于根据关联查询指定的内容项目。
如图6所示,在一个实施例中,该生成内容标签的装置400还包括无语义主题名称过滤模块410,用于从多个内容项目集合各自对应的主题名称所形成的主题名称集合中过滤掉具有预设的无语义主题名称形式的主题名称;主题名称集合中的主题名称为用户生成内容。且分词模块420还用于对于主题名称集合中经过过滤后所剩余的每个主题名称分别进行分词处理而获得对应该主题名称的分词片段序列。
具体地,主题名称是用户生成内容,噪声很多,无语义主题名称过滤模块410用于在进行分词处理前需要过滤掉明显无语义的主题名称,以过滤掉一些明显的噪声数据。比如预设的无语义主题名称形式包括主题名称为空、主题名称为单个字、主题名称由非正规化文字符号组合而成以及主题名称仅包括标点符号等。这里非正规化文字符号可通俗地称为火星文。对于海量的主题名称分别进行处理以获得内容标签,使得获得的内容标签能够覆盖广大用户的查询需求。
如图7所示,在一个实施例中,语义片段生成模块440包括:分词片段组合生成模块441、次数统计模块442、频率矩阵建立模块443、特征分解模块444、语义片段数估计模块445、特征空间构建模块446、相似度计算模块447、分词片段合并模块448和预设相似度阈值调整模块449。
分词片段组合生成模块441,用于将分词片段序列中相邻的分词片段按照在分词片段序列中的顺序进行组合而获得分词片段组合。
具体地,每个主题名称对应一个分词片段序列,假设分词片段序列包括的分词片段的总数为n,则该分词片段序列可以表示为w1w2…wn,下标表示相应的分词片段在该分词片段序列中排列的序号。
分词片段组合生成模块441用于采用N-Gram语言模型,该模型基于这样一种假设,一个词序列中的词只与该词之前的词相关,而与词序列中其它词不相关。按照分词片段在分词片段序列中的顺序,将相邻的分词片段进行组合来获得分词片段组合。对于分词片段序列w1w2…wn,获得的分词片段组合表示为wiwi+1…wj,j≥i+1。
次数统计模块442,用于统计分词片段序列中的分词片段和分词片段组合各自在预设语料库中出现的次数。
具体地,次数统计模块442用于统计分词片段序列w1w2…wn中的每个分词片段w1、w2、…、wn各自在预设语料库中出现的次数表示为count(w1)、count(w2)、…、count(wn)。次数统计模块442用于统计每个分词片段组合各自在预设语料库中出现的次数表示为count(wiwi+1…wj)。
频率矩阵建立模块443,用于根据统计的次数计算每个分词片段和每个分词片段组合各自相对于分词片段序列中的所有分词片段的统计频率,以建立对称的频率矩阵。
具体地,频率矩阵建立模块443用于将每一个主题名称描述为一个对称的频率矩阵M,矩阵M的维度等于分词片段的总数n。矩阵M的元素mi,j表示矩阵M第i行第j列的元素,采用以下公式(1)计算:
公式(1): F ( w i ) , ifi = j F ( w i w i + 1 &CenterDot; &CenterDot; &CenterDot; w j ) , ifi < m i , j , ifi > j j ;
其中,公式(1)中的F(wi)采用以下公式(2)计算:
公式(2): F ( w i ) = count ( w i ) &Sigma; i = 1 n count ( w i ) ;
公式(1)中的F(wiwi+1…wj)采用以下公式(3)计算:
公式(3): F ( w i + w i + 1 &CenterDot; &CenterDot; &CenterDot; w j ) = count ( w i w i + 1 &CenterDot; &CenterDot; &CenterDot; w j ) &Sigma; i = 1 n count ( w i ) .
频率矩阵M中mi,j(i=j)表示分词片段w1相对于统计分词片段序列w1w2…wn中的所有分词片段w1、w2…wn的统计频率,表示在该分词片段序列的上下文环境下,分词片段w1在预设语料库中出现的频率。而矩阵M中mi,j(i≠j)则表示分词片段组合wiwi+1…wj-1与分词片段wj在该分词片段序列的上下文环境下,在预设语料库中共同出现的频率。
特征分解模块444,用于对频率矩阵进行特征分解,获得特征值和对应的特征向量。
因为频率矩阵M是对称正定矩阵,其特征值是实数,特征值对应的特征向量是非零的,将特征值按照降序排序,记频率矩阵M的特征值为λ(M)={λ1,λ2,…,λn},且λ1≥λ2≥…≥λn。且频率矩阵M的每个特征值都有相应的特征向量,表示为:V(M)={x1,x2,…,xn}。
语义片段数估计模块445,用于根据获得的特征值估计输出的语义片段数。
为了获取有意义的语义片段,需要将几个相邻的一起出现的分词片段合并成一个新的片段,这体现在矩阵M中的列向量是相关的,可以使用特征空间映射以达到降维的目的。同时,由于噪声的存在,选择信息量更高的k维数据,能够达到去噪的目的。k就是需要估计的输出的语义片段数。
语义片段数估计模块445可用于采用主成份分析法,从频率矩阵M降序排列的特征值λ(M)={λ1,λ2,…,λn}中选取前k个特征值,满足以下公式(4):
公式(4): &Sigma; i = 1 k &lambda; i &Sigma; i = 1 n &lambda; i &GreaterEqual; Threshold ;
公式(4)所表述的是选取的k个特征值的和与分解获得的所有特征值的和的比值大于或等于预设比值阈值。给定预设比值阈值Threshold,利用公式(4)计算出k的取值范围,从该取值范围中选取该范围内的最小正整数作为估计的输出的语义片段数。
其中预设比值阈值Threshold的取值范围为(0,1),优选的取值范围是 预设比值阈值Threshold采用时效果非常理想,此时预设比值阈值与分词片段序列中分词片段的总数正相关。
在一个实施例中,语义片段数估计模块445还可用于在预设比值阈值Threshold的取值范围中选取有限的离散值,遍历这些离散值而分别采用上述公式(4)来计算相应的k的值,再从中选取最优的k值来实现估计输出的语义片段数。
特征空间构建模块446,用于在降序排列的特征值中从首位开始顺序选取数量为语义片段数的特征值,将选取的特征值所对应的特征向量构成特征空间。
具体地,特征空间构建模块446用于从频率矩阵M降序排列的特征值λ(M)={λ1,λ2,…,λn}中,从首位λ1开始选取k个特征值为λ1,λ2,…,λk。特征空间构建模块446用于将选取的k个特征值λ1,λ2,…,λk各自所对应的特征向量xi,x2,…,xk构成特征空间其中span表示将选取的k个特征值各自所对应的特征向量x1,x2,…,xk张成特征空间。其中一个特征向量为n行1列。
相似度计算模块447,用于将频率矩阵的每行映射到特征空间中获得对应的映射向量,并计算映射向量之间的相似度。
相似度计算模块447用于将频率矩阵M的第i行映射到特征空间的一个映射向量αi,具体用于将选取的k个特征值的第i行组成一个1行k列的映射向量αi,这样获得的映射向量满足其中T表示转置。
如果分词片段w1和wj经常一起出现,其对应的映射向量αi和αj在特征空间中近似平行,相似度计算模块447可用于采用映射向量之间的余弦值来度量映射向量之间的相似度。
分词片段合并模块448,用于将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合。
具体地,分词片段合并模块448可用于采用以下公式(5)来计算两个分词片段wi和wj在特征空间中数据分布的相似度,也是表示合并或保留相应的分词片段的标记:
公式(5): S ( w i , w j ) = 1 , ( &alpha; i &CenterDot; &alpha; j T ) ( | | &alpha; j | | &CenterDot; | | &alpha; j | | ) &GreaterEqual; &delta; 0 , ( &alpha; j &CenterDot; &alpha; j T ) ( | | &alpha; i | | &CenterDot; | | &alpha; j | | ) < &delta; ;
其中表示映射向量αi和αj的余弦值;δ是预设相似度阈值,初始可取0.5。将映射向量之间的余弦值大于或等于预设相似度阈值δ的标记为1,表示需要合并;将映射向量之间的余弦值小于预设相似度阈值δ的标记为0,表示不需要合并仅保留。这样就可以获得由合并获得新的片段以及保留的分词片段所构成的语义片段的集合。
预设相似度阈值调整模块449,用于当语义片段的集合中语义片段的数量不等于语义片段数时,调整预设相似度阈值。分词片段合并模块448还用于继续执行将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合的步骤,直至语义片段的集合中语义片段的数量等于语义片段数。
若语义片段的集合中语义片段的数量不等于语义片段数k,说明上述预设相似度阈值δ取值不合适,预设相似度阈值调整模块449用于动态调整预设相似度阈值δ来形成估计的语义片段数k的语义片段。具体来说,若当前语义片段的集合中语义片段的数量小于语义片段数k,则应该增大预设相似度阈值δ来形成更多的语义片段;反之,若当前语义片段的集合中语义片段的数量大于语义片段数k,则应该减小预设相似度阈值δ来形成更少的语义片段。
在一个实施例中,分词片段合并模块448还用于当执行将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合达到预设次数时,结束迭代计算,并采用当前获得的语义片段的集合。考虑到运行效率,若迭代计算过多次,会严重影响生成内容标签的效率,因此限定迭代计算的次数可以提高生成内容标签的效率。
本实施例中,考虑了主题名称的分词片段之间的相关性以及主题名称的上下文环境,减少了噪声的影响,使得生成的内容标签能够更加准确地反应出主题名称所包含的语义信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (20)

1.一种生成内容标签的方法,所述方法包括:
将用户生成内容进行分词处理而获得分词片段序列;
根据所述分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合;
从所述语义片段的集合中过滤掉预设的无语义片段;
将所述语义片段的集合中剩余的语义片段确定为内容标签。
2.根据权利要求1所述的方法,其特征在于,所述将用户生成内容进行分词处理而获得分词片段序列之前,还包括:从多个内容项目集合各自对应的主题名称所形成的主题名称集合中过滤掉具有预设的无语义主题名称形式的主题名称;所述主题名称集合中的主题名称为用户生成内容;
所述将用户生成内容进行分词处理而获得分词片段序列,包括:对于所述主题名称集合中经过过滤后所剩余的每个主题名称分别进行分词处理而获得对应该主题名称的分词片段序列。
3.根据权利要求1所述的方法,其特征在于,所述根据所述分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合,包括:
将所述分词片段序列中相邻的分词片段按照在所述分词片段序列中的顺序进行组合而获得分词片段组合;
统计所述分词片段序列中的分词片段和所述分词片段组合各自在预设语料库中出现的次数;
根据统计的次数计算每个所述分词片段和每个所述分词片段组合各自相对于所述分词片段序列中的所有分词片段的统计频率,以建立对称的频率矩阵;
对所述频率矩阵进行特征分解,获得特征值和对应的特征向量;
根据获得的特征值估计输出的语义片段数;
在降序排列的特征值中从首位开始顺序选取数量为语义片段数的特征值,将所述选取的特征值所对应的特征向量构成特征空间;
将所述频率矩阵的每行映射到所述特征空间中获得对应的映射向量,并计算所述映射向量之间的相似度;
将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合;
当所述语义片段的集合中语义片段的数量不等于所述语义片段数时,调整所述预设相似度阈值,并继续执行所述将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合的步骤,直至所述语义片段的集合中语义片段的数量等于所述语义片段数。
4.根据权利要求3所述的方法,其特征在于,所述选取的特征值的和与分解获得的所有特征值的和的比值大于或等于预设比值阈值。
5.根据权利要求4所述的方法,其特征在于,所述预设比值阈值与所述分词片段序列中分词片段的总数正相关。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:当执行所述将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合的步骤达到预设次数时,结束迭代计算,并采用当前获得的语义片段的集合。
7.根据权利要求1所述的方法,其特征在于,所述内容项目为多媒体内容项目;所述多媒体内容项目为音乐项目、电影项目或电视剧项目中的至少一种。
8.根据权利要求1所述的方法,其特征在于,所述预设语料库包括指定时间段内的网页搜索日志和/或多个内容项目集合各自对应的主题名称所形成的主题名称集合。
9.根据权利要求1所述的方法,其特征在于,所述从所述语义片段的集合中过滤掉预设的无语义片段的步骤之前或之后,还包括:
检测到所述语义片段的集合中的多个语义片段之间具有子串包含关系时,过滤掉作为子串的语义片段。
10.根据权利要求1-9中任意一项所述的方法,其特征在于,所述方法还包括:
建立所述内容标签和指定的内容项目的关联,所述内容标签用于根据所述关联查询所述指定的内容项目。
11.一种生成内容标签的装置,其特征在于,所述装置包括:
分词模块,用于将用户生成内容进行分词处理而获得分词片段序列;
语义片段生成模块,用于根据所述分词片段序列中多个相邻的分词片段在预设语料库中共同出现的次数,将具备合并条件的多个相邻的分词片段合并以获得语义片段的集合;
无语义片段过滤模块,用于从所述语义片段的集合中过滤掉预设的无语义片段;
内容标签确定模块,用于将所述语义片段的集合中剩余的语义片段确定为内容标签。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
无语义主题名称过滤模块,用于从多个内容项目集合各自对应的主题名称所形成的主题名称集合中过滤掉具有预设的无语义主题名称形式的主题名称;所述主题名称集合中的主题名称为用户生成内容;
所述分词模块还用于对于所述主题名称集合中经过过滤后所剩余的每个主题名称分别进行分词处理而获得对应该主题名称的分词片段序列。
13.根据权利要求11所述的装置,其特征在于,所述语义片段生成模块包括:
分词片段组合生成模块,用于将所述分词片段序列中相邻的分词片段按照在所述分词片段序列中的顺序进行组合而获得分词片段组合;
次数统计模块,用于统计所述分词片段序列中的分词片段和所述分词片段组合各自在预设语料库中出现的次数;
频率矩阵建立模块,用于根据统计的次数计算每个所述分词片段和每个所述分词片段组合各自相对于所述分词片段序列中的所有分词片段的统计频率,以建立对称的频率矩阵;
特征分解模块,用于对所述频率矩阵进行特征分解,获得特征值和对应的特征向量;
语义片段数估计模块,用于根据获得的特征值估计输出的语义片段数;
特征空间构建模块,用于在降序排列的特征值中从首位开始顺序选取数量为语义片段数的特征值,将所述选取的特征值所对应的特征向量构成特征空间;
相似度计算模块,用于将所述频率矩阵的每行映射到所述特征空间中获得对应的映射向量,并计算所述映射向量之间的相似度;
分词片段合并模块,用于将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合;
预设相似度阈值调整模块,用于当所述语义片段的集合中语义片段的数量不等于所述语义片段数时,调整所述预设相似度阈值;
所述分词片段合并模块还用于继续执行所述将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合的步骤,直至所述语义片段的集合中语义片段的数量等于所述语义片段数。
14.根据权利要求13所述的装置,其特征在于,所述选取的特征值的和与分解获得的所有特征值的和的比值大于或等于预设比值阈值。
15.根据权利要求14所述的装置,其特征在于,所述预设比值阈值与所述分词片段序列中分词片段的总数正相关。
16.根据权利要求13所述的装置,其特征在于,所述分词片段合并模块还用于当执行所述将相似度大于或等于预设相似度阈值的映射向量所对应的相邻分词片段合并,将相似度小于预设相似度阈值的映射向量所对应的相邻分词片段保留,以获得语义片段的集合达到预设次数时,结束迭代计算,并采用当前获得的语义片段的集合。
17.根据权利要求11所述的装置,其特征在于,所述内容项目为多媒体内容项目;所述多媒体内容项目为音乐项目、电影项目或电视剧项目中的至少一种。
18.根据权利要求11所述的装置,其特征在于,所述预设语料库包括指定时间段内的网页搜索日志和/或多个内容项目集合各自对应的主题名称所形成的主题名称集合。
19.根据权利要求11所述的装置,其特征在于,所述无语义片段过滤模块还用于检测到所述语义片段的集合中的多个语义片段之间具有子串包含关系时,过滤掉作为子串的语义片段。
20.根据权利要求11-19中任意一项所述的装置,其特征在于,所述装置还包括:
关联模块,用于建立所述内容标签和指定的内容项目的关联,所述内容标签用于根据所述关联查询所述指定的内容项目。
CN201410531163.2A 2014-10-10 2014-10-10 生成内容标签的方法和装置 Active CN105488077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410531163.2A CN105488077B (zh) 2014-10-10 2014-10-10 生成内容标签的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410531163.2A CN105488077B (zh) 2014-10-10 2014-10-10 生成内容标签的方法和装置

Publications (2)

Publication Number Publication Date
CN105488077A true CN105488077A (zh) 2016-04-13
CN105488077B CN105488077B (zh) 2020-04-28

Family

ID=55675055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410531163.2A Active CN105488077B (zh) 2014-10-10 2014-10-10 生成内容标签的方法和装置

Country Status (1)

Country Link
CN (1) CN105488077B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021572A (zh) * 2016-05-31 2016-10-12 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN106570138A (zh) * 2016-11-03 2017-04-19 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置
CN106649274A (zh) * 2016-12-27 2017-05-10 东华互联宜家数据服务有限公司 文本内容标签标记方法以及装置
CN107193878A (zh) * 2017-04-24 2017-09-22 维沃移动通信有限公司 一种歌单的自动命名方法及移动终端
WO2018000272A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN107544956A (zh) * 2016-06-24 2018-01-05 科大讯飞股份有限公司 一种文本要点检测方法及***
CN108121699A (zh) * 2017-12-21 2018-06-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108536664A (zh) * 2017-03-01 2018-09-14 华东师范大学 商品领域的知识融合方法
CN109213937A (zh) * 2018-11-29 2019-01-15 深圳爱问科技股份有限公司 智能搜索方法及装置
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及***
CN109614482A (zh) * 2018-10-23 2019-04-12 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN109614566A (zh) * 2018-11-13 2019-04-12 阿里巴巴集团控股有限公司 流量来源分析方法、***和装置
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN110727862A (zh) * 2019-09-24 2020-01-24 苏宁云计算有限公司 一种商品搜索的查询策略的生成方法及装置
CN111353300A (zh) * 2020-02-14 2020-06-30 中科天玑数据科技股份有限公司 一种数据集构建和相关信息获取方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129393A1 (en) * 2004-12-15 2006-06-15 Electronics And Telecommunications Research Institute System and method for synthesizing dialog-style speech using speech-act information
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机***有限公司 一种自动给文档添加标签的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129393A1 (en) * 2004-12-15 2006-06-15 Electronics And Telecommunications Research Institute System and method for synthesizing dialog-style speech using speech-act information
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机***有限公司 一种自动给文档添加标签的方法和装置
CN102750316A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙珠婷: "基于概念图的个性化教学***领域知识模型自动化构建研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831993B2 (en) 2016-05-31 2020-11-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for constructing binary feature dictionary
CN106021572A (zh) * 2016-05-31 2016-10-12 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
CN107544956A (zh) * 2016-06-24 2018-01-05 科大讯飞股份有限公司 一种文本要点检测方法及***
CN107544956B (zh) * 2016-06-24 2021-07-06 科大讯飞股份有限公司 一种文本要点检测方法及***
WO2018000272A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN106570138A (zh) * 2016-11-03 2017-04-19 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置
CN106570138B (zh) * 2016-11-03 2020-03-03 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置
CN106649274A (zh) * 2016-12-27 2017-05-10 东华互联宜家数据服务有限公司 文本内容标签标记方法以及装置
CN108536664A (zh) * 2017-03-01 2018-09-14 华东师范大学 商品领域的知识融合方法
CN107193878A (zh) * 2017-04-24 2017-09-22 维沃移动通信有限公司 一种歌单的自动命名方法及移动终端
CN108121699A (zh) * 2017-12-21 2018-06-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN109614482A (zh) * 2018-10-23 2019-04-12 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及***
CN109446376B (zh) * 2018-10-31 2021-06-25 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及***
CN109614566A (zh) * 2018-11-13 2019-04-12 阿里巴巴集团控股有限公司 流量来源分析方法、***和装置
CN109213937B (zh) * 2018-11-29 2020-07-24 深圳爱问科技股份有限公司 智能搜索方法及装置
CN109213937A (zh) * 2018-11-29 2019-01-15 深圳爱问科技股份有限公司 智能搜索方法及装置
CN110727862A (zh) * 2019-09-24 2020-01-24 苏宁云计算有限公司 一种商品搜索的查询策略的生成方法及装置
CN110727862B (zh) * 2019-09-24 2022-11-08 苏宁云计算有限公司 一种商品搜索的查询策略的生成方法及装置
CN111353300A (zh) * 2020-02-14 2020-06-30 中科天玑数据科技股份有限公司 一种数据集构建和相关信息获取方法及其装置
CN111353300B (zh) * 2020-02-14 2023-09-01 中科天玑数据科技股份有限公司 一种数据集构建和相关信息获取方法及其装置

Also Published As

Publication number Publication date
CN105488077B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN105488077A (zh) 生成内容标签的方法和装置
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US20180300315A1 (en) Systems and methods for document processing using machine learning
CN101464898B (zh) 一种提取文本主题词的方法
CN106651696B (zh) 一种近似题推送方法及***
CN106599054B (zh) 一种题目分类及推送的方法及***
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103605658B (zh) 一种基于文本情感分析的搜索引擎***
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN108319583B (zh) 从中文语料库提取知识的方法与***
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN105005590B (zh) 一种信息媒介的专题阶段性摘要的生成方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN104216968A (zh) 一种基于文件相似度的排重方法及***
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
CN103473217A (zh) 从文本中抽取关键词的方法和装置
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
CN116502637A (zh) 一种结合上下文语义的文本关键词提取方法
Anwar et al. Video classification and retrieval using arabic closed caption
Dinarelli et al. Re-ranking models based-on small training data for spoken language understanding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160413

Assignee: Ocean interactive (Beijing) Information Technology Co., Ltd.

Assignor: Tencent Technology (Shenzhen) Co., Ltd.

Contract record no.: 2016990000422

Denomination of invention: Content tag generation method and apparatus

License type: Common License

Record date: 20161009

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant