发明内容
为了解决上述技术问题,本发明实施例提供了一种网页信息的识别方法及装置,以自动地识别出虚假的网页信息,提高识别的工作效率,同时,也提高了搜索引擎的搜索质量。
本申请实施例公开了如下技术方案:
一种网页信息的识别方法,包括:
从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
利用统计的所述各类目中的网页日志信息建立各类目的统计模型,根据所述统计模型确定各类目描述对象的特征信息分布;
判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内;
如果是,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。
一种网页信息识别方法,包括:
从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及在曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息;
利用统计的所述各类目中各子类目的网页日志信息建立各类目中各子类目的统计模型,根据所述统计模型确定各类目中各子类目描述对象的特征信息分布;
判断被识别的网页信息中描述对象的特征信息是否在所属类目下所属子类目的特性信息分布的正常范围内;
如果是,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。
一种网页信息的识别装置,包括:
获取模块,用于从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
统计模块,用于按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
第一建立模型模块,用于利用统计的所述各类目中的网页日志信息建立各类目的统计模型,根据所述统计模型确定各类目描述对象的特征信息分布;
第一判断模块,用于判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内;
第一确定模块,用于当第一判断模块的结果为是时,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。
一种网页信息识别装置,包括:
获取模块,用于从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
行业统计模块,用于按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
类型统计模块,用于按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息;
第二建立模型模块,用于利用统计的所述类目中各子类目的网页日志信息建立各类目中各子类目的统计模型,根据所述统计模型确定各类目中各子类目描述对象的特征信息分布;
第二判断模块,用于判断被识别的网页信息中描述对象的特征信息是否在所属类目下所属子类目的特征信息分布的正常范围内;
第二确定模块,用于当第二判断模块判断结果为是,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。
由上述实施例可以看出,建立各类目描述对象的特征信息分布,或者建立各类目下各子类目描述对象的特征信息分布,根据各类目描述对象的特征信息分布或者各类目下各子类目描述对象的特征信息分布自动识别出一个网页信息是否为虚假信息。这种自动识别网页信息的方式提高了识别效率。
另外,搜索引擎在查找到搜索结果后,在搜索结果中过滤掉包含虚假的网页信息的网页,或者,按照搜索结果的各网页的网页信息中描述对象的特征信息在所属类目的特征信息分布中的概率对搜索结果进行排序,可以提高搜索引擎的搜索质量。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。
实施例一
请参阅图1,其为本申请实施例一揭示的一种网页信息识别方法的方法流程图,该方法包括以下步骤:
步骤101:从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及在曝光日志中的特征信息、在点击日志中的特征信息和在交易日志中的特征信息中的任意一个或任意多个;
网站的网页作为一种新型的信息承载体,用于承载某一特定对象的信息,以便网站用户进行了浏览,该特定对象即为网页的描述对象。不同网站的网页的描述对象也是不同的,比如:针对淘宝、京东、亚马逊、当当等购物网站,其网页的描述对象可以是产品(即,服装、食品、家具、家电、书本等);针对优酷、爱奇艺、土豆等视频网站,其网页的描述对象可以是视频(即,电影、电视、动漫、音乐等形式的视频)。此外,小说网站、招聘网站等其它网站的网页也有其针对的描述对象,也就说,任何一种网站的网页都有自己的描述对象。
在网页上承载的各种信息中,最关键一个信息是描述对象的特征信息。所谓“描述对象的特征信息”,就是指能够表征描述对象在某一方面的特征的信息。例如,对于产品而言,价格就是其一个特征,价格信息就是产品的特征信息。下面仅以购物网站的网页的描述对象-产品为例进行说明:在第三方购物平台的数据库中,会记录有在各个卖家用户发布网页时所产生的一些历史信息,并将其作为发布日志保存起来,发布日志中包括有产品的特征信息。另外,在第三方购物平台的数据库中还会记录有曝光日志、点击日志和/或交易日志,其中也都包括有产品的特征信息,即,产品在曝光日志中的特征信息、在点击日志中的特征信息和在交易日志中的特征信息。
所谓“产品的发布”是指当买家用户在第三方购物平台上发布产品网页时,产品网页上描述的产品被认为是发布了。在数据库中就会相应地记录该产品的发布价格信息。
所谓“产品的曝光”是指当买家用户通过第三方购物平台上的搜索引擎搜索满足特定的搜索条件的网页,且搜索引擎将满足特定的搜索条件的网页作为搜索结果展示给买家用户时,搜索结果所描述的产品就被认为是曝光了。产品每被曝光一次,在数据库中就会相应地记录该产品被曝光的次数和曝光价格信息。例如,买家用户在第三方购物平台上搜索与“手机”相关的网页,搜索引擎将与“手机”相关的网页展示给买家用户,此时,这些与“手机”相关的网页中涉及的“手机”产品被曝光了。在数据库中也就会记录该“手机”产品的曝光次数和曝光价格信息。
所谓“产品的点击”是指当买家用户对搜索结果中的各网页进行点击浏览时,被点击的网页所描述的产品被认为是点击了。产品每被点击一次,在数据库中就会相应地记录该产品被点击的次数和点击价格信息。例如,买家用户在搜索引擎展示的所有与“手机”相关的网页中对与“苹果手机”的网页进行点击查看,此时,被点击的“苹果手机”网页中涉及的“苹果手机”产品被点击了。在数据库中就会记录该“苹果手机”产品的点击次数和点击价格信息。
所谓“产品的交易”是指当买家用户成功购买了被点击的网页所描述的产品时,被购买的产品被认为是进行了交易。产品每被交易一次,在数据库中会相应地记录交易的次数、每次交易的产品数量以及交易价格信息。
产品在发布日志、曝光日志、点击日志和交易日志中都有可能会有其特征信息,并且产品在发布日志、曝光日志、点击日志和交易日志中的特征信息有可能各不同。
例如:产品的特征信息为价格信息,某个产品在发布过程的价格信息为100、而在曝光过程的价格信息为100、在点击过程的价格信息有可能为150、在交易过程的价格信息又有可能为180。也就是说,产品的在发布过程的价格信息与该产品在曝光过程、点击过程和交易过程的价格信息很有可能会是不同的。
以第三方购物平台上的Iphone4产品为例,在数据库中记录了该产品的产品在发布时的发布价格是3100,产品所属行业为“手机”,产品标题为“苹果4代Iphone4手机官方无锁16G正品原装智能苹果手机批发”。在数据库的曝光日志信息中还记录了该产品的曝光次数为100次,其中30次的曝光价格为3500,70次的曝光价格为3000(每次曝光的产品曝光价格可能相同也可能不同)。该产品的点击次数为40次,其中10次的点击价格为3500,30次的点击价格为3000(每次点击的产品的点击价格可能相同也可能不同),该产品的交易次数为20次,其中15次交易中每次交易的产品个数为50个,交易价格为3000,其中5次交易中每次交易的产品个数为40个,交易价格为3500(每次交易的产品个数和交易价格都可能不同也可能相同)。
步骤102:按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
根据描述对象所属的类目划分上述获得的所有网页信息,例如,可将产品分为至少以下类目:手机行业、电脑行业、服装行业和家电行业等。当然,以上的列举仅仅是示例性,还可以包括其它的类目。这里,根据实际需求可以粗粒度地划分描述对象所属的类目,也可以细粒度地划分产品所属的类目。并且,针对不同类型的描述对象,其类目的分类方式和分类结果也各不相同。本发明并不对各描述对象的类目分类方式和分类结果进行限定。对于本发明的技术方案而言,当描述对象的类目分类方式确定后,分类结果也就确定了。
例如,当划分描述对象的类目为手机行业、电脑行业、服装行业和家电行业后,将获取的所有网页日志信息分别划分为:手机行业的网页日志信息、电脑行业的网页日志信息、服装行业的网页日志信息和家电行业的网页日志信息,然后再统计各类目中的网页日志信息。
步骤103:利用统计的所述各类目中的网页日志信息建立各类目的统计模型,根据所述统计模型确定各类目描述对象的特征信息分布;
当描述对象为产品,特征信息为价格信息时,步骤103具体为:利用统计的所述各类目产品的网页日志信息建立各类目产品的统计模型,利用所述统计模型确定各类目产品的价格信息分布。
假设各类目产品的价格信息都服从高斯混合分布,在此情况下,利用统计的所述各类目的网页日志信息建立统计模型的实现方式是:采用最大期望算法解析所述统计的所述各类目的网页日志信息,利用解析结果建立各类目描述对象的高斯混合模型;根据所述各类目描述对象的高斯混合模型确定各类目描述对象的特征信息分布。
建立高斯混合模型的过程是:将获得的各类目的网页日志信息中的数据作为训练数据,利用机器学习的方法将训练数据训练成一个高斯混合模型来拟合描述对象的特征信息的概率分布,若训练数据的样品个数为N,则混合模型中共包含N个单高斯函数,它们有不同的均值、不同的协方差矩阵和不同的权值,按照不同的参数值进行组合求和得到高斯混合模型。所谓最大期望算法是通过训练数据的增加迭代使得似然函数值达到最大,进而求得函数值最大时所对应的模型参数,即可拟合出高斯混合模型,根据高斯混合模型得到描述对象的特征信息分布。当然,描述对象的特征信息除了可以服从高斯混合分布之外,也可以服从其它分布,如,对数正态分布、X2分布、T分布、F分布或泊松分布,基于其它的分布方式,也可以建立对应的其它统计模型。最大期望算法是一种基于高斯混合模型的聚类算法,除了采用最大期望算法解析统计模型之外,也可以采用K-means算法、最小二乘算法、极大似然算法等参数估计方法解析高斯混合模型,得到描述对象的特征信息分布。当采用其它的统计模型时,还可以采用其它的算法进行解析。
需要说明的是,本申请实施例中并不限定采用何种算法去解析统计模型,也就是说,可以采用上述列举的任意一种算法解析统计模型,当然,也可以采用现有技术公开的其他算法解析统计模型。另外,本申请实施例也并不限定采用何种统计模型,可以采用上述列举的任意一种统计模型,当然,也可以采用现有技术公开的其他统计模型。
还需要说明的是:为了更好地训练统计模型,使得训练出的统计模型的拟合度更高,训练模型更精准,对训练数据的真实性要求较高,由于数据库中的交易日志信息是最真实,最能反映用户行为的数据,其次是点击日志信息、曝光日志信息、产品的特征信息。所以,在获取网页日志信息时,可根据统计模型需要的训练数据的个数,来决定利用数据库中的哪些信息作为网页日志信息。比如:当需要的训练数据的个数为100,从交易日志中获取的描述对象在交易过程的特征信息共30个、从点击日志中获取的描述对象在点击过程的特征信息共40个、从曝光日志中获取的描述对象在曝光过程的特征信息共50个。训练统计模型时,需要使用交易日志的全部信息(30个)和点击日志中的全部信息(40个)和曝光日志中的部分信息(30个)。即,在提取网页日志信息时,根据日志信息真实性由大到小的顺序,按照训练数据要求的个数选择数据来训练模型。另外,当交易日志和/或点击日志中的信息量比较小,而无法满足训练数据个数的要求时,可以对交易日志和/或点击日志中的特征信息(即,描述对象在交易过程的特征信息和/或在点击过程的特征信息)进行加权处理,再进行训练。也就是说,为了满足训练数据个数要求和精度要求,对网页日志信息中真实度较高的信息进行加权处理后,再进行训练。
步骤104:判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内,如果是,进入步骤105,否则,进入步骤106;
当描述对象为产品,特征信息为价格信息时,步骤104具体为:判断被识别的网页信息中的产品的价格信息是否在所属产品类目的价格信息分布的正常范围内。
当采用高斯混合模型时,判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内的实现方式为:根据被识别的网页信息的描述对象所属类目的高斯混合模型计算高斯混合分布的两个标准差数值范围;判断被识别的网页信息中描述对象的特征信息是否在所述两个标准差之间的数值范围内,如果是,被识别的网页信息中描述对象的特征信息在所属类目的特征信息分布的正常范围内,否则,被识别的网页信息中描述对象的特征信息不在所属类目的特征信息分布的正常范围内。
当假设描述对象的特征信息服从高斯混合分布时,由于高斯分布中的大部分数据都集中在两个标准差之间,因此,本发明将两个标准差之间的数值范围作为高斯分布的正常范围,位于这个范围之内的特征信息被判定是真实信息,位于这个范围之外的特征信息被判定是虚假信息。除了利用上述方法进行判断,当假设特征信息服从其它分布时,还可以根据其他分布的分布特征,确定特征信息分布的正常数值范围。
在实际应用中,可以根据实际需要选择统计模型的类型,并进一步确定特征信息分布的正常范围,在本申请中不做限定。
步骤105:确定所述被识别的网页信息为真实信息;
步骤106:确定所述被识别的网页信息为虚假信息。
另外,为了使统计模型的拟合效果更好,还可以在步骤103之后,进一步包括:去除统计的网页日志信息中的数值偏低和数值偏高的部分数据;
则在步骤104中,利用去除处理后的各类目中的网页日志信息建立各类目的统计模型,根据统计模型确定各类目描述对象的特征信息分布。
搜索引擎可以利用上述网页信息的识别结果,可以对搜索结果进行过滤,筛除包含虚假的网页信息的搜索结果。或者,搜索引擎还可以基于搜索结果中各网页的网页信息中描述对象的特征信息在所属类目的特征信息分布中的概率,对搜索结果中的各网页进行排序。这里,可以由搜索引擎对网页信息进行识别,并直接利用识别结果对搜索结果进行过滤或排序。当然,也可以由第三方购物平台上的其它功能模块执行网页信息的识别,搜索引擎从该功能模块中调用识别结果。本发明对此不做限定。
优选的,在识别出网页信息为虚假信息后,还包括:从搜索结果中过滤掉包含虚假的网页信息的网页,将过滤后的搜索结果反馈给客户端。
或者,优选的,在得到各类目的特征信息分布后,还包括:在对搜索结果中的各网页进行排序时,计算各网页的网页信息中描述对象的特征信息在所属类目的特征信息分布中的概率;按照所述概率从大到小的顺序对搜索结果中的各网页进行排序。当然,也可以按照其他顺序方式进行排序处理。
由上述实施例可以看出,从数据库获取网页日志信息,建立各个类目的统计模型,并根据统计模型确定各类目描述对象的特征信息分布,通过各类目描述对象的特征信息分布识别出被识别的网页信息是否为虚假信息,还可以提供排序为消费者提供更好的选择。
特别的,搜索引擎可以利用识别出的网页信息的真实性,将虚假的网页信息过滤掉,将过滤后的搜索结果反馈给客户端,从而提高搜索引擎的搜索质量。搜索引擎还可以通过对搜索结果中的真实的网页信息按照在分布中的概率按照由大到小的方式进行排序,从而提高用户体验。
实施例二
由于每个类目下的描述对象种类众多,特性信息的差异很大,所以判断结果精确度不高。因此,本发明实施例二提供了的一种信息识别方法,以进一步识别各类目中各子类目的描述对象是否为虚假信息。请参阅图2,其为本申请实施例二揭示的另一种网页信息识别方法的方法流程图,包括以下步骤:
步骤201:从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及在曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
其中,描述对象的特征信息至少包括标题信息。
步骤202:按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
步骤203:按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息;
当描述对象的特征信息至少包括标题信息时,按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息具体为::采用语义分析工具(例如Termweight)对所述标题信息进行语义分析,得到各类目中的描述对象所属的子类目;统计各类目中具有相同子类目的描述对象的网页日志信息。
例如:产品的类目为手机行业,产品的标题为“苹果4代Iphone4手机官方无锁16G正品原装智能苹果手机批发”,通过语义分析工具分析产品标题,得到分析结果具体如图6所示,可以进一步知道该产品的子类目为苹果4代手机,然后统计手机行业中所有苹果4代的网页日志信息。再例如:产品的类目为服装行业,产品的标题为“耐克/NIKE运动男夹克男装拼色夹克”,通过语义分析进一步知道该产品的子类目为耐克男式夹克,然后统计服装行业中所有子类目为耐克男式夹克的网页日志信息。
需要说明的是,这里,根据实际需求可以粗粒度地划分描述对象所属的子类目,也可以细粒度地划分产品所属的子类目。并且,针对不同类型的描述对象,其子类目的分类方式和分类结果也各不相同。本发明并不对各描述对象的子类目分类方式和分类结果进行限定。对于本发明的技术方案而言,当描述对象的子类目分类方式确定后,分类结果也就确定了。
步骤204:利用统计的所述各类目中各子类目的网页日志信息建立各类目中各子类目的统计模型,根据所述统计模型确定各类目中各子类目描述对象的特征信息分布;
当产品的特征信息为价格信息,上述步骤具体为:利用统计的所述各产品行业中各类型产品的网页日志信息建立各产品行业中各产品类型的统计模型,根据所述统计模型确定各产品行业中各产品类型的价格信息分布。
步骤205:判断被识别的网页信息中描述对象的特征信息是否在所属类目下所属子类目的特征信息分布的正常范围内,如果是,进入步骤206,否则,进入步骤207;
在实际应用中,可以根据实际需要选择不同的统计模型的类型,并根据不同的统计模型进一步确定特征信息分布的正常范围,在本申请中不做限定。
步骤206:确定所述被识别的网页信息为真实信息;
步骤207:确定所述被识别的网页信息为虚假信息。
上述步骤204-207的执行过程可以参见实施一中的步骤103-106,由于该部分内容已经在实施例一中进行了详细地描述,故此处就不再赘述。
另外为了使得建立的统计模型更加精确,在步骤203统计各类目中各子类目描述对象的网页日志信息之后,还可以从统计的网页日志信息中去除数值偏低和数值偏高的部分数据;部分数据可以是5%、10%或其他百分比的数据,根据实际情况决定去除多少数据。则步骤204具体为:利用去除处理后的各类目中各子类目的网页日志信息建立各类目中各子类目描述对象的统计模型,根据所述统计模型确定各类目中各子类目描述对象的特征信息分布。
搜索引擎可以利用上述网页信息的识别结果,可以对搜索结果进行过滤,筛除包含虚假的网页信息的搜索结果。或者,搜索引擎还可以基于搜索结果中各网页的网页信息中描述对象的特征信息在所属类目下所属子类目的特征信息分布中的概率,对搜索结果中的各网页进行排序。这里,可以由搜索引擎对网页信息进行识别,并直接利用识别结果对搜索结果进行过滤或排序。当然,也可以由第三方购物平台上的其它功能模块执行网页信息的识别,搜索引擎从该功能模块中调用识别结果。本发明对此不做限定。
优选的,在识别出网页信息为虚假信息后,还包括:从搜索结果中过滤掉包含虚假的网页信息的网页,将过滤后的搜索结果反馈给客户端。
或者,优选的,在得到各类目中各子类目的特征信息分布后,还包括:在得到各产品行业中各产品类型的网页信息分布后,还包括:在对搜索结果中的各网页进行排序时,计算各网页的网页信息中描述对象的特征信息在所属类目下所属子类目的特征信息分布中的概率;按照所述概率从大到小的顺序对各网页进行排序。当然,也可以按照其他顺序进行排序。
由上述实施例可以看出,从数据库获取网页日志信息,建立各类目下各子类目的统计模型,并根据统计模型确定各类目下各子类目描述对象的特征信息分布,通过各类目下各子类目描述对象的特征信息分布识别出被识别的网页信息是否为虚假信息,使得识别的效果更高,识别的精度更加高。
特别是,当搜索引擎利用识别的产品网页信息的真实性,将真实的网页信息反馈给客户端,还可以根据产品网页信息分布的概率对搜索结果进行排序,不仅可以提供搜索质量,更可以为用户提供更好的搜索体验。
实施例三
下面以统计模型为高斯混合模型,描述对象为产品,特征信息包括价格信息和标题信息,按照产品所属的行业划分产品类目,按照产品所属的类型划分产品子类目为例,对本申请提供的一种网页信息识别方法进行更为详细地描述。请参阅图3,其为本申请实施例三揭示的一种信息识别方法的方法流程图,包括以下步骤:
步骤301:从数据库中提取网页日志信息,所述网页日志信息包括产品在发布日志中的价格信息以及在曝光日志中的价格信息、点击日志中的价格信息和交易日志中的价格信息中的任意一个或任意多个;
步骤302:按照产品所属的行业划分获取的所述网页日志信息,并统计各产品行业的网页日志信息;
步骤303:按照产品所属的类型划分所述各产品行业的网页日志信息,并统计各产品行业中各产品类型的网页日志信息;
按照产品所属的类型划分划分所述各产品行业的网页信息的具体实现方式为:采用语义分析工具(例如Termweight)对所述标题信息进行语义分析,得到各产品行业所属的产品类型;然后统计各产品行业中具有相同产品类型的产品的网页日志信息。
步骤304:利用统计的所述各产品行业中各类型产品的网页日志信息建立各产品行业中各产品类型的统计模型,根据所述统计模型确定各产品行业中各产品类型的价格信息分布;
步骤305:判断被识别的网页信息中产品的价格信息是否在所属产品行业下所属产品类型的价格信息分布的正常范围内,如果是,进入步骤306,否则,进入步骤307;
当统计模型为高斯混合模型时,步骤305的一种实现方式为:根据被识别产品网页信息所属产品行业下所属产品类型的高斯混合模型计算高斯混合分布的两个标准差数值范围;
判断被识别的网页信息中产品的价格信息是否在所述两个标准差数值范围内,如果是,被识别的网页信息中产品的价格信息在所属产品行业下所属类型的产品价格信息分布的正常范围内,否则,被识别的网页信息中产品的价格信息不在所属产品行业下所属类型的产品价格信息分布的正常范围内。
步骤306:确定所述被识别的网页信息为真实信息;
步骤307:确定所述被识别的网页信息为虚假信息;
步骤308:在对搜索结果中的各网页进行排序时,计算各网页的网页信息中产品的价格信息在所属产品行业下所属产品类型的产品价格信息分布中的概率;
步骤309:按照所述概率从大到小的顺序对搜索结果中的各网页进行排序。
另外,为了使得建立的高斯混合模型更加精确,在步骤303并统计各产品行业中各产品类型的网页日志信息之后,还可以去除统计的网页日志信息中的数值偏低和数值偏高的部分数据;例如,部分数据可以是5%、10%或其他百分比的数据,根据实际情况决定去除多少数据。
则步骤304具体为:利用去除处理后的所述各产品行业中各产品类型的网页日志信息建立各产品行业中各产品类型的高斯混合模型,根据所述高斯混合模型确定各产品行业中各产品类型的价格信息分布。
由上述实施例可以看出,利用统计的所述各产品行业中各类型产品的产品网页日志信息建立高斯混合模型,得到各产品行业中各类型产品的产品网页特征信息分布,并对产品进行排序,不仅可以准确的识别出各行业各类型产品的产品网页信息是否为虚假信息,使得识别的效果更高,识别的精度更加高,而且能够给消费者提供更可靠的搜索信息和更方便的搜索体验。
实施例四
与上述实施例一中的一种网页信息识别方法相对应,本申请实施例提供了一种网页信息识别装置。请参阅图4,其为本申请实施例四揭示的一种网页信息识别装置的装置结构图,该装置包括:获取模块401、统计模块402、第一建立模型模块403、第一判断模块404和第一确定模块405。下面结合该装置的工作原理进一步介绍其内部结构及其连接关系。
获取模块401,用于从数据库中获取网页日志信息,所述网页信息包括描述对象在发布日志中的特征信息以及曝光日志中的信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
统计模块402,用于按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
第一建立模型模块403,用于利用统计的所述各类目中的网页日志信息建立各类目的统计模型,根据所述统计模型确定各类目描述对象的特征信息分布;
第一判断模块404,用于判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内;
第一确定模块405,用于当第一判断模块的结果为是时,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。
优选的,当统计模型为高斯混合模型时,所述第一建立模型模块403包括:解析子模块一和确定子模块一,其中,解析子模块一,用于采用最大期望算法解析所述统计的所述各类目的网页日志信息,利用解析结果建立各类目的高斯混合模型;确定子模块一,用于根据所述各类目的高斯混合模型确定各类目的特征信息分布。
优选的,所述第一建立模型模块403包括解析子模块一和确定子模块一时,所述第一判断模块404包括:计算子模块一,用于根据被识别的网页信息的描述对象所属类目的高斯混合模型计算高斯混合分布的两个标准差数值范围;判断子模块一,用于判断被识别的网页信息中描述对象的特征信息是否在所述两个标准差数值范围内,如果是,被识别的网页信息中描述对象的特征信息在所属类目的特征信息分布的正常范围内,否则,被识别的网页信息中描述对象的特征信息不在所属类目的特征信息分布的正常范围内。
优选的,该装置还包括:第一反馈模块,用于从搜索结果中过滤掉包含虚假的网页信息的网页,将过滤后的搜索结果反馈给客户端。
优选的,该装置还包括:第一计算概率模块,用于在对搜索结果中的各网页进行排序时,计算各网页的网页信息中描述对象的特征信息在所属类目的特征信息分布中的概率;
第一排序模块,用于按照所述概率从大到小的顺序对搜索结果中的各网页进行排序。
由上述实施例可以看出,从数据库获取网页日志信息,建立各个类目的统计模型,并根据统计模型确定各类目描述对象的特征信息分布,通过各类目描述对象的特征信息分布识别出被识别的网页信息是否为虚假信息,还可以提供排序为消费者提供更好的选择。
特别的,搜索引擎可以利用识别出的网页信息的真实性,将虚假的网页信息过滤掉,将过滤后的搜索结果反馈给客户端,从而提高搜索引擎的搜索质量。搜索引擎还可以通过对搜索结果中的真实的网页信息按照在分布中的概率按照由大到小的方式进行排序,从而提高用户体验。
实施例五
与上述实施例二中的一种网页信息识别方法相对应,本申请实施例提供了一种网页信息识别装置。请参数图5,其为本申请实施例五揭示的一种网页信息识别装置的装置示意图,该装置包括:获取模块501、行业统计模块502、类型统计模型503、第二建立模型模块504、第二判断模块505、第二确定模块506。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
获取模块501,用于从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;
行业统计模块502,用于按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;
类型统计模型503,用于按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息;
第二建立模型模块504,用于利用统计的所述各类目中各子类目的网页日志信息建立各类目中各子类目的统计模型,根据所述统计模型确定各类目中各子类目描述对象的特征信息分布;
第二判断模块505,用于判断被识别的网页信息中描述对象的特征信息是否在所属类目下所属子类目的特征信息分布的正常范围内;
第二确定模块506,用于当第二判断模块判断结果为是,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。
优选的,所述描述对象的特征信息至少包括标题信息,则所述类型统计模块,具体包括:分析子模块和统计子模块;其中,分析子模块,用于采用语义分析工具对所述标题信息进行语义分析,得到各类目中的描述对象所属的子类目;
统计子模块,用于统计各类目中具有相同子类目的描述对象的网页日志信息。
优选的,还包括:第二反馈模块,用于从搜索结果中过滤掉包含虚假的网页信息的网页,将过滤后的搜索结果反馈给客户端。
优选的,还包括:第二计算模块和第二排序模块;
第二计算概率模块,用于在对搜索结果中的各网页进行排序时,计算各网页的网页信息中描述对象的特征信息在所属类目下所属子类目的特征信息分布中的概率;
第二排序模块,用于按照所述概率从大到小的顺序对各网页进行排序。
由上述实施例可以看出,从数据库获取网页日志信息,建立各类目下各子类目的统计模型,并根据统计模型确定各类目下各子类目描述对象的特征信息分布,通过各类目下各子类目描述对象的特征信息分布识别出被识别的网页信息是否为虚假信息,使得识别的效果更高,识别的精度更加高。
特别是,当搜索引擎利用识别的产品网页信息的真实性,将真实的网页信息反馈给客户端,还可以根据产品网页信息分布的概率对搜索结果进行排序,不仅可以提供搜索质量,更可以为用户提供更好的搜索体验。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上对本发明所提供的一种网页信息识别方法和装置进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。