CN103870446B - 一种描述词筛选方法及装置 - Google Patents

一种描述词筛选方法及装置 Download PDF

Info

Publication number
CN103870446B
CN103870446B CN201210551720.8A CN201210551720A CN103870446B CN 103870446 B CN103870446 B CN 103870446B CN 201210551720 A CN201210551720 A CN 201210551720A CN 103870446 B CN103870446 B CN 103870446B
Authority
CN
China
Prior art keywords
descriptor
statistical value
dictionary
business object
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210551720.8A
Other languages
English (en)
Other versions
CN103870446A (zh
Inventor
侯磊
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210551720.8A priority Critical patent/CN103870446B/zh
Publication of CN103870446A publication Critical patent/CN103870446A/zh
Application granted granted Critical
Publication of CN103870446B publication Critical patent/CN103870446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种描述词筛选方法及装置,包括:针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词,并确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值;在针对该多个业务对象中的每个业务对象均进行上述统计之后,根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。采用本申请实施例提供的方案,提高了对业务对象的描述词确定的准确性。

Description

一种描述词筛选方法及装置
技术领域
本申请涉及互联网技术领域和计算机技术领域,尤其涉及一种描述词筛选方法及装置。
背景技术
在现有的互联网技术中,网站上一般会发布一些业务对象,供登录该网站的用户浏览,以及进一步的针对特定业务对象的后续处理操作。例如,以电子商务网站为例,业务对象具体可以是卖家用户发布的产品,业务对象的信息具体可以是对产品的各种特征的描述信息等,如产品的类型信息、价格信息、性能信息和品牌信息等,登录电子商务网站的用户可以通过浏览所发布产品的各种信息,了解该产品的详细情况,并可以进一步的执行收藏、购买或推荐给其他用户等处理操作;以社区网站为例,业务对象具体可以是社区用户发布的帖子,业务对象的信息具体可以是帖子的描述信息,帖子的内容信息等,登录社区网站的浏览用户可以通过浏览发布的帖子的各种信息,了解该帖子的详细情况,并可以进一步的执行收藏、回帖或推荐给其他用户等处理操作。
在实际应用中,业务对象的描述信息可以是由业务对象的提供者在发布该业务对象时输入的,并且由于各种实际原因,如操作失误,对业务对象不够了解等原因,可能出现业务对象的提供者针对其提供的业务对象所输入的描述信息不准确的情况。例如,对于品牌信息的输入,可能由于提供者对业务对象的实际品牌不熟悉,或者认识错误等原因,导致输入的品牌词并非是一个真实存在的品牌。而此时如果将基于错误的品牌信息数据提取出来的品牌词列表,用于业务对象的品牌识别处理中,将会进一步的导致识别结果不准确,从而还需要进一步的对不准确的识别结果进行更正,从而浪费了处理资源,且降低了品牌识别的处理效率。
发明内容
有鉴于此,本申请实施例提供一种描述词筛选方法及装置,用于解决现有技术中存在的对业务对象的描述词确定不准确的问题。
本申请实施例通过如下技术方案实现:
本申请实施例提供了一种描述词筛选方法,包括:
针对多个业务对象中的每个业务对象,执行如下步骤A和步骤B:
步骤A:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;
步骤B:确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;
在针对所述多个业务对象中的每个业务对象,执行步骤A和步骤B之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。
本申请实施例还提供了一种描述词筛选装置,包括:
第一抽取单元,用于针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;
统计单元,用于确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;
筛选单元,用于在针对所述多个业务对象中的每个业务对象,通过所述第一抽取单元和所述统计单元进行处理之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。
本申请实施例提供的上述至少一个技术方案中,在基于描述词词典包括的各描述词进行筛选时,首先针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词,然后确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值;其中,当一个描述词在业务对象的标题内容和指定描述信息中均存在时,表示该描述词一定程度上是准确的,反之,当一个描述词只在业务对象的标题内容中存在,而在该业务对象的指定描述信息中不存在时,表示该描述词一定程度上是不准确的,所以,在对多个业务对象都完成上述统计之后,描述词词典包括的每个描述词都对应有第一统计值和第二统计值,并且,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确,从而根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,去除不准确的描述词,能够得到其中描述词更准确的更新后的描述词词典,即提高了所确定的描述词的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中:
图1为本申请实施例提供的描述词筛选方法的流程图;
图2为本申请实施例1中提供的描述词筛选方法的流程图;
图3为本申请实施例1中提供的描述词识别处理的流程图;
图4为本申请实施例2中提供的描述词筛选装置的结构示意图。
具体实施方式
为了给出提高确定业务对象的描述词的准确性的实现方案,本申请实施例提供了一种描述词筛选方法及装置,该技术方案可以应用于确定业务对象的描述词词典的过程,既可以实现为一种方法,也可以实现为一种装置。以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例提供一种描述词筛选方法,如图1所示,包括:
针对多个业务对象中的每个业务对象,执行如下步骤101和步骤102:
步骤101:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词。
步骤102:确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值。
步骤103、在针对该多个业务对象中的每个业务对象,执行步骤101和步骤102之后,根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。
其中,描述词词典包括的各描述词,可以是由在该多个业务对象的指定描述信息中出现过的描述词组成的。
进一步的,本申请实施例提供的上述方法中,在得到更新后的描述词词典之后,可以针对更新后的描述词词典,采用上述图1所示的描述词筛选方式,对更新后的描述词词典包括的各描述词再次进行筛选,以便进一步的提高描述词词典所包括的描述词的准确性。
进一步的,本申请实施例提供的上述方法中,在得到更新后的描述词词典之后,即可以基于该更新后的描述词词典包括的各描述词,对一个业务对象进行描述词识别处理,以补充该业务对象的指定描述信息,或者纠正该业务对象的指定描述信息中不准确的描述词,针对一个待处理业务对象,具体可以包括:
基于更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在更新后的描述词词典中存在的描述词;
当抽取的该描述词在待处理业务对象的指定描述信息中不存在时,将抽取的该描述词加入到待处理业务对象的指定描述信息中,或者,将抽取的该描述词替换待处理业务对象的指定描述信息中的描述词。
下面结合附图,用具体实施例对本申请提供的方法及装置进行详细描述。
实施例1:
图2为本申请实施例1中提供的描述词筛选方法的流程图,具体包括如下处理步骤:
步骤201、获取多个业务对象中每个业务对象的标题内容,以及该多个业务对象中每个业务对象的指定描述信息。
其中,该多个业务对象可以为属于同一类目的多个业务对象,例如,以电子商务网站为例,多个业务对象可以属于同一产品类目,如男装类目,女装类目,或手机类目等。
该指定描述信息可以是业务对象的属性信息,比如业务对象为商品时,该指定描述信息可以为商品的品牌信息。该指定描述信息可以与后续所筛选的描述词的类型有关,例如,后续筛选的描述词为品牌词时,相应的,该指定描述信息可以为品牌信息。
步骤202、确定该多个业务对象的指定描述信息中的描述词。
步骤203、将在该多个业务对象的指定描述信息中出现过的描述词组成描述词词典。
本步骤中,还可以分别统计描述词词典包括的各描述词在该多个业务对象的指定描述信息中出现的次数,该次数可用于后续对描述词词典中的描述词的筛选。
在得到初始的描述词词典之后,即可以将该多个业务对象中的每个业务对象分别作为待处理业务对象,执行如下步骤204至步骤207。
步骤204、基于该描述词词典包括的各描述词,从当前待处理业务对象的标题内容中,抽取在该描述词词典中存在的描述词。
本步骤可以基于当前待处理业务对象的标题内容进行分词处理,并确定得到的每个分词在该描述词词典中是否存在。
本步骤也可以基于描述词词典中的每个描述词,确定该描述词是否在当前待处理业务对象的标题内容中存在,此时不需要对当前待处理业务对象的标题内容进行分词处理。
优选的,本步骤具体可以采用Aho-Corasick算法实现,Aho-Corasick算法是一种基于词典的字符串集合匹配算法,是一通通过有限状态自动结构建类似Trie树结构的字符串匹配算法。
步骤205、对于上述步骤204中确定出的在描述词词典中存在,且在当前待处理业务对象的标题内容中也存在的一个描述词,确定该描述词在当前待处理业务对象的指定描述信息中是否存在,如果存在,进入步骤206,如果不存在,进入步骤207。
步骤206、按照设定增量更新该描述词对应的第一统计值。
即,将设定增量与该描述词对应的原第一统计值的和值,作为该描述词对应的更新后的第一统计值。
在后续针对其它待处理业务对象按照步骤204至步骤207进行统计时,将本步骤中的得到的该描述词更新后的第一统计值,迭代入下一次针对该描述词进行的统计计算中。即在下一次对该描述词的第一统计值的更新为对在本步骤中得到的该描述词更新后的第一统计值基础上的更新。
也就是说,对该描述词的第一统计值更新前的值为上一次对该描述词更新后的第一统计值。其中,在首次针对该描述词进行统计时,其对应的第一统计值为初始值,该初始值可以设置为0。该设定增量可以设置为1。
步骤207、按照设定增量更新该描述词对应的第二统计值。
即,将设定增量与该描述词对应的原第二统计值的和值,作为该描述词对应的更新后的第二统计值。
在后续针对其它待处理业务对象按照步骤204至步骤207进行统计时,将本步骤中的得到的该描述词更新后的第二统计值,迭代入下一次针对该描述词进行的统计计算中,即在下一次对该描述词的第二统计值的更新为对在本步骤中得到的该描述词更新后的第二统计值基础上的更新。
也就是说,对该描述词的第二统计值更新前的值为上一次对该描述词更新后的第二统计值。其中,在首次针对该存在的描述词进行统计时,其对应的第二统计值为初始值,该初始值可以设置为0。该设定增量可以设置为1。
步骤208、在针对该多个业务对象中的每个业务对象,分别执行步骤204至步骤207之后,该描述词词典包括的各描述词分别对应有第一统计值和第二统计值,本步骤中,即可以根据该描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对该描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,具体可以采用如下方式:
第一种方式:首先,根据该描述词词典包括的各描述词分别对应的第一统计值和第二统计值,确定该描述词词典包括的各描述词的综合分值;
其中,一个描述词对应的第一统计值越高,表示该描述词越准确,所以,综合分值可以随着第一统计值的增加而增加,反之,一个描述词对应的第二统计值越高,表示该描述词越不准确,所以,综合分值可以随着第二统计值的增加而增加;
综合分值的具体计算方式可以根据需要采用各种方式,例如,可以为第一统计值减去第二统计值的差值,也可以为第一统计值占第一统计值和第二统计值的和值的比例等;
然后,按照综合分值的高低,对该描述词词典包括的各描述词进行筛选,例如,将综合分值小于预设分值阈值的描述词从该描述词词典中排除,保留综合分值不小于预设分值阈值的描述词,从而得到更新后的描述词词典。
第二种方式:从该描述词词典包括的各描述词中,选择对应的第一统计值满足第一预设统计值条件,且对应的第二统计值满足第二预设统计值条件的描述词,组成更新后的描述词词典;
其中,第一预设统计值条件和第二预设统计值条件,可以根据实际需要进行灵活设置,例如,由于一个描述词对应的第一统计值越高,表示该描述词越准确,反之,一个描述词对应的第二统计值越高,表示该描述词越不准确,所以,第一预设统计值条件可以为对应的第一统计值不小于第一预设统计值阈值,第二预设统计值条件可以为对应的第二统计值小于第二预设统计值阈值。
当上述步骤203中还统计了描述词词典包括的各描述词在该多个业务对象的指定描述信息中出现的次数时,本步骤中,也可以根据该描述词词典包括的各描述词分别对应的第一统计值和第二统计值,以及在该多个业务对象的指定描述信息中出现的次数,对该描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,具体可以采用如下方式:
第三种方式:首先,根据该描述词词典包括的各描述词分别对应的第一统计值和第二统计值,以及各描述词分别在该多个业务对象的指定描述信息中出现的次数,确定该描述词词典包括的各描述词的综合分值;
其中,一个描述词对应的第一统计值越高,表示该描述词越准确,综合分值可以随着第一统计值的增加而增加,反之,一个描述词对应的第二统计值越高,表示该描述词越不准确,综合分值可以随着第二统计值的增加而增加;而一个描述词在该多个业务对象的指定描述信息中出现的次数越大,表示该描述词越准确,综合分值可以随着该次数的增加而增加;
综合分值的具体计算方式可以根据需要采用各种方式,例如,可以为该次数加上第一统计值再减去第二统计值得到的数值,也可以针对第一统计值减去第二统计值的差值,以及该次数,进行加权求和得到的数值;
优选的,本申请实施例中提出可以采用如下公式计算描述词的综合分值:
Score=log(C+n1)+((P+n2)/(N+n2)+1)/Th;
其中,Score为一个描述词的综合分值,C为该描述词在该多个业务对象的指定描述信息中出现的次数,P为该描述词对应的第一统计值,N为该描述词对应的第二统计值,Th为调整阈值。n1及n2为平滑调整系数,其目的是为了得到平滑数据,例如,n1可以设定为2,n2可以设定为1。调整阈值Th可以根据实际需要和实际统计情况进行灵活设置,用于滤除噪声;
然后,按照综合分值的高低,对该描述词词典包括的各描述词进行筛选,例如,将综合分值小于预设分值阈值的描述词从该描述词词典中排除,保留综合分值不小于预设分值阈值的描述词,从而得到更新后的描述词词典。
第四种方式:从该描述词词典包括的各描述词中,选择对应的第一统计值满足第一预设统计值条件,且对应的第二统计值满足第二预设统计值条件,且在该多个业务对象的指定描述信息中出现的次数满足预设次数条件的描述词,组成更新后的描述词词典;
其中,第一预设统计值条件、第二预设统计值条件和预设次数条件,可以根据实际需要进行灵活设置,例如,由于一个描述词对应的第一统计值越高,表示该描述词越准确,反之,一个描述词对应的第二统计值越高,表示该描述词越不准确,一个描述词在该多个业务对象的指定描述信息中出现的次数越大,表示该描述词越准确,所以,第一预设统计值条件可以为对应的第一统计值不小于第一预设统计值阈值,第二预设统计值条件可以为对应的第二统计值小于第二预设统计值阈值;预设次数阈值可以为在该多个业务对象的指定描述信息中出现的次数满足预设次数不小于预设次数阈值。
采用本申请实施例1提供的上述描述词筛选方法,由于当一个描述词在业务对象的标题内容和指定描述信息中均存在时,表示该描述词一定程度上是准确的,反之,当一个描述词只在业务对象的标题内容中存在,而在该业务对象的指定描述信息中不存在时,表示该描述词一定程度上是不准确的,所以,在对多个业务对象都完成统计之后,描述词词典包括的每个描述词都对应有第一统计值和第二统计值,并且,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确,从而根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,去除不准确的描述词,能够得到其中描述词更准确的更新后的描述词词典,即提高了所确定的描述词的准确性。
本申请实施例中,在通过上述描述词筛选方法,得到更新后的描述词词典之后,还可以对更新后的描述词词典中的描述词进行排序显示,在排序时可以按照采用上述第三种方式确定的综合分值从高到低的顺序进行排序。
本申请实施例中,在通过上述描述词筛选方法,得到更新后的描述词词典之后,还可以基于该更新后的描述词词典包括的各描述词,对一个业务对象进行描述词识别处理,以补充该业务对象的指定描述信息,或者纠正该业务对象的指定描述信息中不准确的描述词,针对一个待处理业务对象,如图3所示,具体可以包括如下处理步骤:
步骤301、基于更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在更新后的描述词词典中存在的描述词。
本步骤可以基于该业务对象的标题内容进行分词处理,并确定得到的每个分词在该更新后的描述词词典中是否存在。
本步骤也可以基于更新后的描述词词典中的每个描述词,确定该描述词是否在该业务对象的标题内容中存在,此时不需要对该业务对象的标题内容进行分词处理。
优选的,本步骤具体可以采用Aho-Corasick算法实现。
步骤302、确定抽取的该描述词在待处理业务对象的指定描述信息中是否存在,如果不存在,进入步骤303,如果存在,进入步骤304。
步骤303、根据抽取的该描述词更新该待处理业务对象的指定描述信息。
具体的,可以将抽取的该描述词加入到待处理业务对象的指定描述信息中,或者,将抽取的该描述词替换待处理业务对象的指定描述信息中的描述词。
具体的,如果待处理业务对象的指定描述信息为空,则可以将抽取的该描述词加入到该待处理业务对象的指定描述信息中;如果待处理业务对象的指定描述信息不为空,且抽取的该描述词与该指定描述信息中的描述词相似时,例如,存在相同的文字,则可以将抽取的该描述词替换待处理业务对象的指定描述信息中的描述词。
步骤304、保持该待处理业务对象的指定描述信息不变。
由于更新后的描述词词典包括的描述词更准确,所以,基于该更新后的描述词词典对业务对象进行描述词识别处理时,提高了识别处理的准确性,且避免了后续对识别结果的更正处理,从而减少了处理资源的浪费,并提高了描述词识别的处理效率。
实施例2:
基于同一发明构思,根据本申请上述实施例提供的描述词筛选方法,相应地,本申请实施例2还提供了一种描述词筛选装置,其结构示意图如图4所示,具体包括:
第一抽取单元401,用于针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;
统计单元402,用于确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;
筛选单元403,用于在针对所述多个业务对象中的每个业务对象,通过所述第一抽取单元和所述统计单元进行处理之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。
进一步的,上述装置,还包括:
词典确定单元404,用于确定所述多个业务对象的指定描述信息中的描述词;并将在所述多个业务对象的指定描述信息中出现过的描述词组成所述描述词词典。
进一步的,上述装置,还包括:
次数确定单元405,用于分别统计所述描述词词典包括的各描述词在所述多个业务对象的指定描述信息中出现的次数;
筛选单元403,具体用于根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,以及在所述多个业务对象的指定描述信息中出现的次数,对所述描述词词典包括的各描述词进行筛选。
进一步的,筛选单元403,具体用于根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,确定所述描述词词典包括的各描述词的综合分值;并按照综合分值的高低,对所述描述词词典包括的各描述词进行筛选。
进一步的,筛选单元403,具体用于从所述描述词词典包括的各描述词中,选择对应的第一统计值满足第一预设统计值条件,且对应的第二统计值满足第二预设统计值条件的描述词,组成更新后的描述词词典。
进一步的,上述装置,还包括:
第二抽取单元406,用于基于所述更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在所述更新后的描述词词典中存在的描述词;
描述词补充单元407,用于当抽取的该描述词在所述待处理业务对象的指定描述信息中不存在时,将抽取的该描述词加入到所述待处理业务对象的指定描述信息中,或者,将抽取的该描述词替换所述待处理业务对象的指定描述信息中的描述词。
上述各单元的功能可对应于图1至图3所示流程中的相应处理步骤,在此不再赘述。
综上所述,本申请实施例提供的方案,包括:针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词,并确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值;在针对该多个业务对象中的每个业务对象均进行上述统计之后,根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。采用本申请实施例提供的方案,提高了对业务对象的描述词确定的准确性。
本申请的实施例所提供的筛选装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要筛选装置具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种描述词筛选方法,其特征在于,包括:
针对多个业务对象中的每个业务对象,执行如下步骤A和步骤B:
步骤A:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;
步骤B:确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;
在针对所述多个业务对象中的每个业务对象,执行步骤A和步骤B之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,其中,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确。
2.如权利要求1所述的方法,其特征在于,描述词词典的确定方法包括:
确定所述多个业务对象的指定描述信息中的描述词;
将在所述多个业务对象的指定描述信息中出现过的描述词组成描述词词典。
3.如权利要求2所述的方法,其特征在于,还包括:
分别统计所述描述词词典包括的各描述词在所述多个业务对象的指定描述信息中出现的次数;
根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,具体为:
根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,以及在所述多个业务对象的指定描述信息中出现的次数,对所述描述词词典包括的各描述词进行筛选。
4.如权利要求1所述的方法,其特征在于,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,具体包括:
根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,确定所述描述词词典包括的各描述词的综合分值;并按照综合分值的高低,对所述描述词词典包括的各描述词进行筛选。
5.如权利要求4所述的方法,其特征在于,所述综合分值采用如下公式计算:Score=log(C+n1)+((P+n2)/(N+n2)+1)/Th;
其中,Score为一个描述词的综合分值,C为该描述词在该多个业务对象的指定描述信息中出现的次数,P为该描述词对应的第一统计值,N为该描述词对应的第二统计值,Th为调整阈值,n1及n2为平滑调整系数。
6.如权利要求1所述的方法,其特征在于,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,具体包括:
从所述描述词词典包括的各描述词中,选择对应的第一统计值满足第一预设统计值条件,且对应的第二统计值满足第二预设统计值条件的描述词,组成更新后的描述词词典。
7.如权利要求1所述的方法,其特征在于,还包括:
基于所述更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在所述更新后的描述词词典中存在的描述词;
当抽取的该描述词在所述待处理业务对象的指定描述信息中不存在时,将抽取的该描述词加入到所述待处理业务对象的指定描述信息中,或者,将抽取的该描述词替换所述待处理业务对象的指定描述信息中的描述词。
8.如权利要求1-7任一所述的方法,其特征在于,所述多个业务对象为属于同一类目的多个业务对象。
9.如权利要求1-7任一所述的方法,其特征在于,所述描述词词典包括的各描述词为品牌词,所述指定描述信息为品牌信息。
10.一种描述词筛选装置,其特征在于,包括:
第一抽取单元,用于针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;
统计单元,用于确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;
筛选单元,用于在针对所述多个业务对象中的每个业务对象,通过所述第一抽取单元和所述统计单元进行处理之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,其中,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确。
11.如权利要求10所述的装置,其特征在于,还包括:
词典确定单元,用于确定所述多个业务对象的指定描述信息中的描述词;并将在所述多个业务对象的指定描述信息中出现过的描述词组成所述描述词词典。
12.如权利要求11所述的装置,其特征在于,还包括:
次数确定单元,用于分别统计所述描述词词典包括的各描述词在所述多个业务对象的指定描述信息中出现的次数;
所述筛选单元,具体用于根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,以及在所述多个业务对象的指定描述信息中出现的次数,对所述描述词词典包括的各描述词进行筛选。
13.如权利要求10所述的装置,其特征在于,所述筛选单元,具体用于根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,确定所述描述词词典包括的各描述词的综合分值;并按照综合分值的高低,对所述描述词词典包括的各描述词进行筛选。
14.如权利要求10所述的装置,其特征在于,所述筛选单元,具体用于从所述描述词词典包括的各描述词中,选择对应的第一统计值满足第一预设统计值条件,且对应的第二统计值满足第二预设统计值条件的描述词,组成更新后的描述词词典。
15.如权利要求10所述的装置,其特征在于,还包括:
第二抽取单元,用于基于所述更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在所述更新后的描述词词典中存在的描述词;
描述词补充单元,用于当抽取的该描述词在所述待处理业务对象的指定描述信息中不存在时,将抽取的该描述词加入到所述待处理业务对象的指定描述信息中,或者,将抽取的该描述词替换所述待处理业务对象的指定描述信息中的描述词。
CN201210551720.8A 2012-12-18 2012-12-18 一种描述词筛选方法及装置 Active CN103870446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210551720.8A CN103870446B (zh) 2012-12-18 2012-12-18 一种描述词筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210551720.8A CN103870446B (zh) 2012-12-18 2012-12-18 一种描述词筛选方法及装置

Publications (2)

Publication Number Publication Date
CN103870446A CN103870446A (zh) 2014-06-18
CN103870446B true CN103870446B (zh) 2016-12-28

Family

ID=50908990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210551720.8A Active CN103870446B (zh) 2012-12-18 2012-12-18 一种描述词筛选方法及装置

Country Status (1)

Country Link
CN (1) CN103870446B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469184B (zh) * 2015-08-20 2019-12-27 阿里巴巴集团控股有限公司 数据对象标签处理、显示方法及服务器和客户端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101599A (zh) * 2007-06-20 2008-01-09 精实万维软件(北京)有限公司 一种从网页中提取广告主信息的方法
CN102473190A (zh) * 2009-07-30 2012-05-23 阿尔卡特朗讯 为网页分配关键词
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152059B2 (en) * 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
JP2007104312A (ja) * 2005-10-04 2007-04-19 Toshiba Corp 電子ガイド情報を用いた情報処理方法およびその装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101599A (zh) * 2007-06-20 2008-01-09 精实万维软件(北京)有限公司 一种从网页中提取广告主信息的方法
CN102473190A (zh) * 2009-07-30 2012-05-23 阿尔卡特朗讯 为网页分配关键词
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于词典的搜索引擎***动态更新模型;雷鸣 等;《计算机研究与发展》;20001031;第37卷(第10期);第1265-1270页 *
基于机器学习的文本聚类描述算法研究;章成志;《第三届全国信息检索与内容安全学术会议论文集》;20071101;第216-225页 *
词表的自动丰富-从元数据中提取关键词及其定位;王军;《中文信息学报》;20051125;第19卷(第6期);第36-43页 *

Also Published As

Publication number Publication date
CN103870446A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
CN104572616B (zh) 文本倾向性的确定方法和装置
CN106056407A (zh) 基于用户行为分析的网银用户画像方法及设备
CN110110075A (zh) 网页分类方法、装置以及计算机可读存储介质
CN105260782A (zh) 挂号预约信息处理方法及装置
CN104035968A (zh) 基于社交网络的训练语料集的构建方法和装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110489449A (zh) 一种图表推荐方法、装置和电子设备
CN108304509A (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN110162681A (zh) 文本识别、文本处理方法、装置、计算机设备和存储介质
CN108319888A (zh) 视频类型的识别方法及装置、计算机终端
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN107657030A (zh) 收集用户阅读数据的方法、装置、终端设备及存储介质
CN105335375B (zh) 主题挖掘方法和装置
CN108876452A (zh) 用电客户需求信息获取方法、装置以及电子设备
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
EP2816491A1 (en) Dictionary generation device, dictionary generation method, dictionary generation program and computer-readable recording medium storing same program
CN105335446A (zh) 一种基于词矢量的短文本分类模型生成方法与分类方法
CN107357782A (zh) 一种识别用户性别的方法及终端
CN103870446B (zh) 一种描述词筛选方法及装置
CN103678548B (zh) 基于组合模式的失效服务替代推荐方法
CN108460049A (zh) 一种确定信息类别的方法和***
JP6499763B2 (ja) ビデオ情報に対して検証を行うための方法及び装置
CN103678720B (zh) 用户反馈数据处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant