CN105740404A - 标签关联方法及装置 - Google Patents

标签关联方法及装置 Download PDF

Info

Publication number
CN105740404A
CN105740404A CN201610060688.1A CN201610060688A CN105740404A CN 105740404 A CN105740404 A CN 105740404A CN 201610060688 A CN201610060688 A CN 201610060688A CN 105740404 A CN105740404 A CN 105740404A
Authority
CN
China
Prior art keywords
label
key word
candidate
data
word dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610060688.1A
Other languages
English (en)
Inventor
汤奇峰
叶峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201610060688.1A priority Critical patent/CN105740404A/zh
Publication of CN105740404A publication Critical patent/CN105740404A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

一种标签关联方法及装置,所述方法包括:对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。所述方法及装置可以提高标签关联方法的效率。

Description

标签关联方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种标签关联方法及装置。
背景技术
随着网络技术的发展,可以通过网络获取越来越多的数据,并依托这些数据进行进一步的分析,这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析,将数据关联至不同的标签往往是必不可少的步骤。
但是,现有的标签关联方法的效率有待提高。
发明内容
本发明解决的技术问题是提高标签关联方法的效率。
为解决上述技术问题,本发明实施例提供一种标签关联方法,包括:
对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;
计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;
基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
可选的,所述参照关键词词典对所述目标数据进行匹配处理,得到目标关键词,包括:
对所述目标数据进行分词处理,以得到多个词语;
去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
可选的,参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。
可选的,若所述候选标签对应多个目标关键词,则所述计算所述候选标签的权重包括:分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。
可选的,所述标签关联方法还包括建立关键词词典,所述建立所述关键词词典包括:
获取分类体系数据;
参照所述分类体系数据得到标签和所述标签对应的数据;
对所述标签对应的数据和所述标签进行分词处理,将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。
可选的,所述建立关键词词典的方法包括:对所述关键词词典进行去重。
可选的,所述建立关键词词典的方法包括:
检测所述关键词词典中每个关键词映射的标签的数量;
去除映射的标签的数量大于阈值的关键词。
本发明实施例还提供一种标签关联装置,包括:
匹配处理单元,对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;
标签权重计算单元,适于计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;
关联单元,适于基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
可选的,所述匹配处理单元包括:
分词处理单元,适于对所述目标数据进行分词处理,以得到多个词语;
过滤单元,适于去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
可选的,所述标签权重计算单元参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。
可选的,若所述候选标签对应多个目标关键词,则所述标签权重计算单元分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。
可选的,所述标签关联装置还包括:关键词词典建立单元,所述关键词词典建立单元包括:
分类体系获取单元,适于获取分类体系数据;
数据提取单元,适于参照所述分类体系数据得到标签和所述标签对应的数据;
映射单元,适于对所述标签对应的数据进行分词处理,并将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。
可选的,所述关键词词典建立单元包括:去重单元,适于对所述关键词词典进行去重。
可选的,所述关键词词典建立单元包括:
数量检测单元,适于检测所述关键词词典中每个关键词映射的标签的数量;
整理单元,适于去除映射的标签的数量大于阈值的关键词。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
关键词词典中包含映射至一个或多个标签的所述关键词,利用关键词词典对将目标数据进行匹配处理得到目标关键词,通过计算与目标关键词存在映射关系的标签的权重,可以选取目标标签,建立目标标签与目标数据之间的关联关系。本发明实施例通过利用关键词词典进行匹配处理生成目标关键词,使得后续计算仅需要针对与目标关键词存在关联关系的标签进行,可以有效的减小标签关联方法的计算量,从而提升标签关联方法的效率。
附图说明
图1是本发明实施例中一种标签关联方法的流程图;
图2是本发明实施例中一种得到目标关键词的方法流程图;
图3是本发明实施例中一种关键词词典的建立方法的流程图;
图4是本发明实施例中一种标签关联装置的结构示意图;
图5是本发明实施例中一种匹配处理单元的结构示意图;
图6是本发明实施例中一种关键词词典建立单元的结构示意图。
具体实施方式
如前所述,随着网络技术的发展,可以通过网络获取越来越多的数据,并依托这些数据进行进一步的分析,这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析,将数据关联至不同的标签往往是必不可少的步骤。但是,现有的标签关联方法的效率有待提高。
经发明人研究发现,很多的网站提供的服务很相似。例如,提供视频浏览服务的网站有QQ,爱奇艺,搜狐视频等;提供旅游服务的网站有去哪儿,携程,艺龙等;提供新闻服务的网站有搜狐网、凤凰网等等。不同的网站可能会对同一个内容进行标记,例如,新闻的种类信息、商品的类别信息等,但是不同网站对同一内容的描述在很多时候是有差异的。另一种情况是,有个别网站没有明显地给出一类标签。这对综合分析不同网站的内容造成了一定的困难。
传统的标签整理技术往往采用机器学习的思路来处理。首先人工整理关键信息和标签作为训练和测试样本,接着通过训练机器学习模型,来达到预测一个未知目标数据属于哪个标签的目的。但是由于训练和测试样本很难整理,机器学习模型本身是一个黑盒,很难控制学习的过程,模型优化困难等原因,导致标签关联方法的效率和准确性较低,进而会影响到数据处理整体过程的效率和准确性,例如会影响到在对象进行聚类处理时的效率和准确性,或影响到大数据处理过程中数据整合分析的效率和准确性。
在本发明实施例中,关键词词典中包含映射至一个或多个标签的所述关键词,利用关键词词典对将目标数据进行匹配处理得到目标关键词,通过计算与目标关键词存在映射关系的标签的权重,可以选取目标标签,建立目标标签与目标数据之间的关联关系。本发明实施例通过利用关键词词典进行匹配处理生成目标关键词,使得后续计算仅需要针对与目标关键词存在关联关系的标签进行,可以有效的减小标签关联方法的计算量,从而提升标签关联方法的效率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中一种标签关联方法的流程图。
在步骤S11中,对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词。
其中,目标数据可以是来自于网页、数据库等数据源的数据,例如在进行大数据处理、分析的过程中,需要从网页、数据库等各种数据源获取相应的目标数据,然后对其进行标签关联,将目标数据与适当的目标标签关联在一起,也就是给目标数据“贴上”目标标签。获取目标数据的方式可以是通过爬虫爬取,或由数据库导入,也可以是通过其他外部输入的方式获取。
关键词词典中包含映射至一个或多个标签的关键词,进一步而言,关键词词典中可以包括多个关键词,每一关键词映射至一个或多个标签的标签。关键词与标签的映射方法(也即关键词词典的建立方法)将在下文中进行详细说明。利用关键词词典对目标数据进行匹配处理,可以得到目标数据中与关键词词典中均包含的词语,也就是目标关键词。
在具体实施中,参照关键词词典对所述目标数据进行匹配处理,得到目标关键词的过程可以参见图2。
在步骤S111中,对所述目标数据进行分词处理,以得到多个词语。
在具体实施中,若已知关键词词典的产生过程中使用的分词方法和词库,在对目标数据进行分词处理时可以采用相同的分词方法和词库,以便目标关键词的选取。
在步骤S112中,去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
在具体实施中,可以在关键词词典中检索目标数据经过分词处理得到的词语,若未找到匹配项,则去除该词语。在遍历目标数据经过分词处理得到的所有词语后,剩余的词语为目标关键词。
仍然参照图1,在步骤S12中,计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签。
计算候选标签的权重可以根据关键词词典中关键词与标签之间的映射关系进行计算,候选标签的权重表征该候选标签和目标数据的相关度。
在本发明一实施例中,标签i在关键词j(j=1…n)中出现,而关键词j中有cntj个标签,则标签i在关键词j上的得分为1/cntj。将所有得分相加,作为标签i的权重。候选标签的权重的计算公式如下:
score i = Σ j = 0 n 1 / cnt j - - - ( 1 )
基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
在一具体实施中,候选标签的权重可以参照与所述目标关键词存在映射关系的标签的数量计算。在关键词词典中,每个关键词可以对应一个或多个标签,可以理解的是:若目标关键词只对应一个标签,则可以视为目标关键词与该标签的相关度较高;若目标关键词对应海量的标签,则可以视为目标关键词与该多个标签的相关度均不是太高。
故所述目标关键词存在映射关系的标签的数量可以反映出目标关键词语候选标签的相关度。参照与所述目标关键词存在映射关系的标签的数量计算候选标签的权重,可以有效的反映候选标签与目标数据之间的相关度,可以在减少计算量的同时为后续准确的进行标签关联提供依据。
在另一具体实施中,若所述候选标签对应多个目标关键词,则所述计算所述候选标签的权重包括:分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。
由于一个候选标签可能对应于多个目标关键词,候选标签的权重需全面考虑其余对应的所有目标关键词的相关度。分别计算候选标签对应每个关键词的得分,对候选标签对应所有关键词的得分进行综合处理,最终得到候选标签的权重,可以更加准确的表征候选标签对应目标数据的相关度,以提升标签关联方法的准确性。
在步骤S13中,基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
由于候选标签的权重表征候选标签与目标数据之间的相关度,故根据候选标签的权重可以选取与目标数据相关度最高的候选标签作为目标标签。
在本发明一实施例中,候选标签的权重通过公式(1)得到,此时选取权重值最大的候选标签作为目标标签。
在具体实施中,标签关联方法还可以包括建立在步骤S11中使用的关键词词典。
图3是本发明实施例中一种关键词词典的建立方法的流程图。
在步骤S31中,获取分类体系数据。
分类体系可以利用已有的分类体系,也可以根据需要进行设定,或者也可以通过爬虫从适当的网站爬取,例如可以通过爬虫按照面包屑导航的层级爬取,爬取的过程可以按照不同网站的特点,指定不同的路径,已获得更多的数据支持。分类体系数据是记录上述分类体系的数据。
在步骤S32中,参照所述分类体系数据得到标签和所述标签对应的数据。
标签可以是某种信息或数据类别,例如可以是新闻的类别:政治、经济、生活等;或者也可以是商品的类别:服饰、家电、卫浴等。标签可以是单层类别标签,也可以是诸如面包屑导航格式的多层类别标签,例如经济>股市分析,或者家电>大家电>平板电视等。标签对应的数据可以是标题数据等数据,可以根据需要在爬取的数据中筛选。
例如,当标签属于新闻中某个类别时,标签对应的数据可以是新闻的标题、内容关键词等;当标签数据商品的某个类别时,标签对应的数据可以是商品名称、商品参数等数据。
在步骤S33中,对所述标签对应的数据和所述标签进行分词处理,将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。
例如,对于电商行业,可以将数据整理成如下表的形式:
进行分词处理的方法可以根据需要进行选择,例如可以采用字典双向最大匹配法、HMM方法、CRF方法或者其他分词方法进行分词处理。
由于数据和标签之间存在对应关系,对应不同标签的数据在经过分词处理后可能产生相同的词语,故关键词词典中会存在一个关键词对应多个标签的情况。例如,关键词词典中“图书”可能对应如下标签:“图书、音像、电子书刊>电子书刊>电子书”,或标签“图书、音像、电子书刊>电子书刊>网络原创”。
在具体实施中,建立关键词词典的方法可以包括:对所述关键词词典进行去重。对关键词进行去重时,对不同数据分词得到的同样词语只保留一个,但需要保留该同样词语对标签的映射关系。
例如,在未进行去重之前,关键词词典中包含两个词语“图书”,其中一个词语“图书”映射至标签“图书、音像、电子书刊>电子书刊>电子书”,另一个词语“图书”映射至标签“图书、音像、电子书刊>电子书刊>网络原创”,在去重处理后,仅保留一个词语“图书”,但保留“图书”与标签“图书、音像、电子书刊>电子书刊>电子书”和标签“图书、音像、电子书刊>电子书刊>网络原创”间的映射关系。
得到的映射关系可以如下表所示。
通过去重处理,可以使得关键词词典更加合理,使得在利用关键词词典对候选标签进行权重计算时的结果更加准确,进而使得标签关联方法的准确率更高。
在具体实施中,建立关键词词典的方法可以包括:检测所述关键词词典中每个关键词映射的标签的数量;去除映射的标签的数量大于阈值的关键词。
若关键词映射至海量的标签,说明该关键词太通用,识别度较差,例如,“电子”一词可能会映射至大量的标签,既有电子书的标签,又有各类电子产品的标签。阈值的设定可以根据需要进行,也可以根据标签关联的反馈结果进行。
去除映射的标签的数量大于阈值的关键词,可以强化识别度较高的关键词的在标签关联过程中的作用,增加标签关联的准确度。阀值的确定可以根据如下算法确定:将每个关键词对应的标签进行计数,统计关键词对应标签数量的累计分布,将在累计分布中等于95%对应的标签数量作为阀值。
在本发明实施例中,关键词词典中包含映射至一个或多个标签的所述关键词,利用关键词词典对将目标数据进行匹配处理得到目标关键词,通过计算与目标关键词存在映射关系的标签的权重,可以选取目标标签,建立目标标签与目标数据之间的关联关系。本发明实施例通过利用关键词词典进行匹配处理生成目标关键词,使得后续计算仅需要针对与目标关键词存在关联关系的标签进行,可以有效的减小标签关联方法的计算量,从而提升标签关联方法的效率。
本发明实施例还提供一种标签关联装置,其结构示意图参见图4。
标签关联装置可以包括:
匹配处理单元41,对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;
标签权重计算单元42,适于计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;
关联单元43,适于基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
结合图5,在具体实施中,所述匹配处理单元41可以包括:
分词处理单元51,适于对所述目标数据进行分词处理,以得到多个词语;
过滤单元52,适于去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
仍然参考图4,在具体实施中,所述标签权重计算单元42参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。
在具体实施中,若所述候选标签对应多个目标关键词,则所述标签权重计算单元42可以分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。
在具体实施中,标签关联装置还可以包括:关键词词典建立单元,适于建立所述关键词词典。
参见图6,在具体实施中,所述关键词词典建立单元可以包括:
分类体系获取单元61,适于获取分类体系数据;
数据提取单元62,适于参照所述分类体系数据得到标签和所述标签对应的数据;
映射单元63,适于对所述标签对应的数据进行分词处理,并将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。
在具体实施中,所述关键词词典建立单元可以包括:去重单元,适于对所述关键词词典进行去重。
在具体实施中,所述关键词词典建立单元可以包括:数量检测单元,适于检测所述关键词词典中每个关键词映射的标签的数量;整理单元,适于去除映射的标签的数量大于阈值的关键词。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (14)

1.一种标签关联方法,其特征在于,包括:
对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;
计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;
基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
2.根据权利要求1所述的标签关联方法,其特征在于,所述参照关键词词典对所述目标数据进行匹配处理,得到目标关键词,包括:
对所述目标数据进行分词处理,以得到多个词语;
去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
3.根据权利要求1所述的标签关联方法,其特征在于,参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。
4.根据权利要求3所述的标签关联方法,其特征在于,若所述候选标签对应多个目标关键词,则所述计算所述候选标签的权重包括:分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。
5.根据权利要求1所述的标签关联方法,其特征在于,还包括:建立关键词词典,所述建立所述关键词词典包括:
获取分类体系数据;
参照所述分类体系数据得到标签和所述标签对应的数据;
对所述标签对应的数据和所述标签进行分词处理,将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。
6.根据权利要求5所述的标签关联方法,其特征在于,所述建立关键词词典的方法包括:对所述关键词词典进行去重。
7.根据权利要求5所述的标签关联方法,其特征在于,所述建立关键词词典的方法包括:
检测所述关键词词典中每个关键词映射的标签的数量;
去除映射的标签的数量大于阈值的关键词。
8.一种标签关联装置,其特征在于,包括:
匹配处理单元,对待进行标签关联的目标数据进行匹配处理,以得到目标关键词,所述匹配处理参照关键词词典进行,所述关键词词典中包含映射至一个或多个标签的关键词;
标签权重计算单元,适于计算候选标签的权重,所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签;
关联单元,适于基于所述候选标签的权重选取目标标签,建立所述目标标签与所述目标数据之间的关联关系。
9.根据权利要求8所述的标签关联装置,其特征在于,所述匹配处理单元包括:
分词处理单元,适于对所述目标数据进行分词处理,以得到多个词语;
过滤单元,适于去除所述关键词词典中未包含的词语,剩余的词语为目标关键词。
10.根据权利要求8所述的标签关联装置,其特征在于,所述标签权重计算单元参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。
11.根据权利要求10所述的标签关联装置,其特征在于,若所述候选标签对应多个目标关键词,则所述标签权重计算单元分别计算所述候选标签对应每个关键词的得分,基于候选标签对应每个关键词的得分得到所述候选标签的权重。
12.根据权利要求8所述的标签关联装置,其特征在于,还包括:关键词词典建立单元,所述关键词词典建立单元包括:
分类体系获取单元,适于获取分类体系数据;
数据提取单元,适于参照所述分类体系数据得到标签和所述标签对应的数据;
映射单元,适于对所述标签对应的数据进行分词处理,并将分词处理得到的关键词映射至所述标签,以得到所述关键词词典。
13.根据权利要求12所述的标签关联装置,其特征在于,所述关键词词典建立单元包括:去重单元,适于对所述关键词词典进行去重。
14.根据权利要求12所述的标签关联装置,其特征在于,所述关键词词典建立单元包括:
数量检测单元,适于检测所述关键词词典中每个关键词映射的标签的数量;
整理单元,适于去除映射的标签的数量大于阈值的关键词。
CN201610060688.1A 2016-01-28 2016-01-28 标签关联方法及装置 Pending CN105740404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610060688.1A CN105740404A (zh) 2016-01-28 2016-01-28 标签关联方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610060688.1A CN105740404A (zh) 2016-01-28 2016-01-28 标签关联方法及装置

Publications (1)

Publication Number Publication Date
CN105740404A true CN105740404A (zh) 2016-07-06

Family

ID=56246864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610060688.1A Pending CN105740404A (zh) 2016-01-28 2016-01-28 标签关联方法及装置

Country Status (1)

Country Link
CN (1) CN105740404A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202498A (zh) * 2016-07-20 2016-12-07 淮阴工学院 一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法
CN106649680A (zh) * 2016-12-15 2017-05-10 天脉聚源(北京)传媒科技有限公司 一种新闻处理方法及装置
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN107093122A (zh) * 2016-12-02 2017-08-25 北京小度信息科技有限公司 对象分类方法及装置
CN107292365A (zh) * 2017-06-27 2017-10-24 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107679121A (zh) * 2017-09-20 2018-02-09 晶赞广告(上海)有限公司 分类体系的映射方法及装置、存储介质、计算设备
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN109101477A (zh) * 2018-06-04 2018-12-28 东南大学 一种企业领域分类及企业关键词筛选方法
CN109299399A (zh) * 2018-12-17 2019-02-01 广东小天才科技有限公司 一种学习内容的推荐方法及终端设备
CN109670080A (zh) * 2018-12-21 2019-04-23 深圳创维数字技术有限公司 一种影视标签的确定方法、装置、设备及存储介质
WO2021024080A1 (en) * 2019-08-05 2021-02-11 International Business Machines Corporation Active learning for data matching
US11663275B2 (en) 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101415A1 (en) * 2001-11-23 2003-05-29 Eun Yeung Chang Method of summarizing markup-type documents automatically
CN101216842A (zh) * 2008-01-07 2008-07-09 华为技术有限公司 获取页面关键词的方法及页面信息处理装置
CN101408886A (zh) * 2007-10-05 2009-04-15 富士通株式会社 通过分析文档的段落来选择该文档的标签
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机***有限公司 一种自动给文档添加标签的方法和装置
CN103425763A (zh) * 2013-08-05 2013-12-04 微梦创科网络科技(中国)有限公司 基于sns的用户推荐方法及装置
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101415A1 (en) * 2001-11-23 2003-05-29 Eun Yeung Chang Method of summarizing markup-type documents automatically
CN101408886A (zh) * 2007-10-05 2009-04-15 富士通株式会社 通过分析文档的段落来选择该文档的标签
CN101216842A (zh) * 2008-01-07 2008-07-09 华为技术有限公司 获取页面关键词的方法及页面信息处理装置
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机***有限公司 一种自动给文档添加标签的方法和装置
CN103425763A (zh) * 2013-08-05 2013-12-04 微梦创科网络科技(中国)有限公司 基于sns的用户推荐方法及装置
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和***

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202498A (zh) * 2016-07-20 2016-12-07 淮阴工学院 一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法
CN107093122A (zh) * 2016-12-02 2017-08-25 北京小度信息科技有限公司 对象分类方法及装置
CN107093122B (zh) * 2016-12-02 2021-01-19 北京星选科技有限公司 对象分类方法及装置
CN106649680A (zh) * 2016-12-15 2017-05-10 天脉聚源(北京)传媒科技有限公司 一种新闻处理方法及装置
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106709040B (zh) * 2016-12-29 2021-02-19 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN107292365B (zh) * 2017-06-27 2021-01-08 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107292365A (zh) * 2017-06-27 2017-10-24 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107679121A (zh) * 2017-09-20 2018-02-09 晶赞广告(上海)有限公司 分类体系的映射方法及装置、存储介质、计算设备
CN107679121B (zh) * 2017-09-20 2020-10-20 晶赞广告(上海)有限公司 分类体系的映射方法及装置、存储介质、计算设备
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN109101477A (zh) * 2018-06-04 2018-12-28 东南大学 一种企业领域分类及企业关键词筛选方法
CN109101477B (zh) * 2018-06-04 2023-01-31 东南大学 一种企业领域分类及企业关键词筛选方法
CN109299399A (zh) * 2018-12-17 2019-02-01 广东小天才科技有限公司 一种学习内容的推荐方法及终端设备
CN109670080A (zh) * 2018-12-21 2019-04-23 深圳创维数字技术有限公司 一种影视标签的确定方法、装置、设备及存储介质
WO2021024080A1 (en) * 2019-08-05 2021-02-11 International Business Machines Corporation Active learning for data matching
GB2600369A (en) * 2019-08-05 2022-04-27 Ibm Active learning for data matching
US11409772B2 (en) 2019-08-05 2022-08-09 International Business Machines Corporation Active learning for data matching
US11663275B2 (en) 2019-08-05 2023-05-30 International Business Machines Corporation Method for dynamic data blocking in a database system

Similar Documents

Publication Publication Date Title
CN105740404A (zh) 标签关联方法及装置
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN105069072A (zh) 基于情感分析的混合用户评分信息推荐方法及其推荐装置
CN103885933B (zh) 用于评价文本的情感度及用于评价实体的方法和设备
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及***
CN103679190A (zh) 分类装置、分类方法以及电子设备
CN107463616B (zh) 一种企业信息分析方法及***
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN104850617A (zh) 短文本处理方法及装置
CN106649662A (zh) 一种领域词典的构建方法
CN103268346B (zh) 半监督分类方法及***
CN111125443A (zh) 一种基于自动去重的试题题库在线更新方法
CN108268458B (zh) 一种基于knn算法的半结构化数据分类方法及装置
CN111079582A (zh) 一种图像识别的英语作文跑题判断方法
CN107169520A (zh) 一种大数据缺失属性补全方法
CN110442736A (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN106844765B (zh) 基于卷积神经网络的显著信息检测方法及装置
CN103853701A (zh) 一种基于神经网络的自学习语义检测方法及***
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识***
CN105740389A (zh) 一种分类方法及装置
CN110717029A (zh) 一种信息处理方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication