CN101515269A - 实现观点搜索引擎排序的方法 - Google Patents
实现观点搜索引擎排序的方法 Download PDFInfo
- Publication number
- CN101515269A CN101515269A CNA2008100578798A CN200810057879A CN101515269A CN 101515269 A CN101515269 A CN 101515269A CN A2008100578798 A CNA2008100578798 A CN A2008100578798A CN 200810057879 A CN200810057879 A CN 200810057879A CN 101515269 A CN101515269 A CN 101515269A
- Authority
- CN
- China
- Prior art keywords
- user comment
- information
- comment information
- user
- search engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000007418 data mining Methods 0.000 claims abstract description 7
- 238000012552 review Methods 0.000 claims description 39
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 241000272183 Geococcyx californianus Species 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000036962 time dependent Effects 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000012800 visualization Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实现观点搜索引擎排序的方法,包括:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;对转换以后的用户评论信息建立倒排序索引;对建立倒排序索引的用户评论信息进行排序;对用户评论信息进行统计分析及可视化。利用本发明,有效地融合了用户评论信息的品质因素,并充分考虑了时间维度信息,能够为***提供更准确、更相关、更及时的观点信息服务。
Description
技术领域
本发明涉及信息检索和搜索引擎技术领域,是一种实现观点搜索引擎排序的方法。
背景技术
二十一世纪是信息化的时代,第三产业在各国的比重不断上升,特别是服务业,信息服务业成为21世纪的主导产业,这导致了电子商务的产生和发展,在全球信息化大势所驱的影响下,各国的电子商务不断的改进和完善,电子商务成为各个国家和各大公司争夺的焦点。而在我国,计算机与网络技术的普及与发展,电子商务迅速崛起,众多的信息技术企业、风险投资公司、生产流通企业纷纷开展电子商务。
2007年,世界电子商务继续快速发展,成为经济全球化的助推器。电子商务的广泛应用降低了企业经营、管理和商务活动的成本,促进了资金、技术、产品、服务和人员在全球范围的流动,推动了经济全球化的发展。目前,电子商务的应用已经成为决定企业国际竞争力的重要因素,以美国亚马逊、EBAY以及中国的阿里巴巴等公司的成功说明电子商务正在引领世界服务业发展,并影响着未来商业发展模式。
从整体情况看,2007年世界电子商务交易额达12.8万亿美元,占全球商品交易的18%。以美国为首的发达国家,仍然是电子商务主力军,中国等发展中国家电子商务异军突起,日益成为国际电子商务市场的重要力量。2007年,B2B电子商务仍占主导地位,B2C、G2C、G2B、C2C等电子商务发展迅猛,呈现多元发展态势。以大型骨干企业为龙头的行业电子商务是B2B主流力量,ASP等第三方电子商务平台成为中小企业电子商务应用的成功模式之一。
当在网上购物时,用户面临的一个很大的问题就是如何在众多的电子商务网站上找到自己想要的物品评价信息,基于用户评论信息的观点搜索引擎是解决这个问题的关键,当用户输入一个产品或产品属性时,观点搜索引擎就按照关键词语到索引文件中查找,并返回最相关的产品观点信息。
目前针对用户评论信息的观点搜索引擎还处在研究阶段。并且存在以下问题,第一没有充分考虑到评论信息的品质高低。第二没有考虑到时间维度信息在搜索结果排序中的重要性。第三没有对搜索结果进行统计分析及可视化。
发明内容
(一)要解决的技术问题
有鉴于此,为了为***提供方便快捷的观点信息服务,以及解决现有的观点搜索排序方法存在的问题,本发明的主要目的是提供一种实现观点搜索引擎排序的方法,以克服现有观点搜索引擎排序方法存在的问题,如只考虑观点信息的相关性,没有对搜索结果进行可视化等缺陷,为***提供更有效的观点信息服务。
(二)技术方案
为了达到上述目的,本发明提供了一种实现观点搜索引擎排序的方法,该方法包括:
步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;
步骤S2:使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;
步骤S3:转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;
步骤S4:对转换以后的用户评论信息建立倒排序索引;
步骤S5:对建立倒排序索引的用户评论信息进行排序;
步骤S6:对用户评论信息进行统计分析及可视化。
优选地,步骤S1中所述对用户评论网页进行抓取,首先获得电子商务网站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这些电子商务网站进行抓取。
优选地,步骤S1中所述提取出用户评论信息采用RoadRunner算法对抓取的用户评论信息网页进行提取。
优选地,步骤S2中所述数据挖掘技术为association rule mining技术,所述确定属性评论信息的极性是确定用户对该属性的评论是正面的还是反面的。
优选地,步骤S3中所述用户评论信息文档的层次结构用于表示用户评论信息中的元数据信息和用户评论信息的具体内容,在用户评论信息的具体内容表示上以用户评论信息中含有产品属性和观点极性的评论句子为单位,评论句子包括该句子含有的产品属性、观点极性和句子的具体内容。
优选地,步骤S4中所述建立的倒排序索引,用于存储用户评论信息中的元数据,同时索引了评论句子的具体内容,该索引是建立在句子层次上的索引,而不是在用户评论文档层次上的索引。
优选地,步骤S5中所述对建立倒排序索引的用户评论信息进行排序,以评论信息的相关性、评论信息的品质因子、评论信息的时间维度信息为关键词进行。
优选地,步骤S6中所述对用户评论信息进行统计分析及可视化,是通过对搜索出的用户评论信息进行统计分析,将用户评论信息随时间变化的趋势信息,以及对于某种产品属性的正反面评价对比信息进行可视化。
(三)有益效果
从上述技术方案可以看出,本发明提供的这种实现观点搜索引擎排序的方法,有效地融合了用户评论信息的品质因素,并充分考虑了时间维度信息,能够为***提供更准确、更相关、更及时的观点信息服务。因此,本发明从一定程度上解决了现有观点搜索排序方法存在的问题。同时本发明对搜索结果进行统计分析,将用户评论信息随时间变化的趋势信息,以及对于某种产品属性的正反面评价对比信息进行可视化,给***清晰直观的用户评论信息。
附图说明
图1是本发明提供的实现观点搜索引擎排序的方法流程图;
图2是依照本发明实施例经过步骤S1预处理后的结果示意图;
图3是依照本发明实施例步骤S2属性抽取以及属性评论信息的极性确定的结果示意图;
图4是依照本发明实施例表示用户评论信息文档的层次结构图;
图5是依照本发明实施例经过步骤S3转换后的结果示意图;
图6是依照本发明实施例评论信息随时间变化的曲线图;
图7是依照本发明实施例正反面观点对比用的直方图;
图8是依照本发明实施例用户搜索产品属性“Sony W55 Size”是***返回的结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
为了实现本发明的方法,考虑到算法涉及多线程抓取和建立倒排序索引,如果在单机实现,最好保证处理器主频不小于2GHz,内存不小于1G,可采用任何常用编程语言编写。
本发明提出的观点搜索引擎排序方法,总体流程如图1所示,具体包括:用户评论信息抓取(步骤S1)部分和构建评论信息库(S2)为整个搜索引擎准备数据;步骤S3将评论信息库中所有用户评论信息文档转换成如图4所示的层次结构;步骤S4是对转换以后的用户评论信息建立倒排序索引;步骤S5是对用户的搜索结果进行排序;步骤S6是对用户搜索结果进行统计分析及可视化。
基于图1所示的实现观点搜索引擎排序的方法流程图,以下详细说明本发明提供的这种实现观点搜索引擎排序的方法流程图。
步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息。
在本步骤中,对用户评论网页进行抓取,首先获得电子商务网站网站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这些电子商务网站进行抓取。对电子商务网站进行目录式抓取,因为本发明是针对用户评论信息,所以要抓取的目标网页主要来自电子商务网站,比如亚马逊等。首先人为获得这些网站的URL网址,用自己编写的抓取器对这些电子商务网站进行抓取。由于这些网站绝大多数都是电子商务主题的信息,而且层次较少,所以采用宽度优先抓取的策略。见图1中步骤S 1。由于网页抓取已经有许多成熟的方法,所以不属于本发明强调的内容。
使用基于RoadRunner算法对抓取的用户评论信息网页进行相关信息抽取,主要提取用户发表在网站上评论信息,RoadRunner算法参考文献:“RoadRunner:Towards Automatic Data Extraction from Large WebSites”。预处理的结果如图2所示。
步骤S2:使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库。
在本步骤中,所述提取出用户评论信息采用RoadRunner算法对抓取的用户评论信息网页进行提取,即采用数据挖掘中association rulemining技术从步骤S1预处理的结果提取产品属性以及对属性的评论信息,具体方法参考文献:“Mining Opinion Features in CustomerReviews”。然后确定属性的评论信息的观点极性,即确定用户对该属性的评论是正面的还是反面的,确定观点极性的方法参考文献:“Thumbs Up or Thumbs Down?Semantic Orientation Applied toUnsupervised Classification of Reviews”。提取结果如图3所示。
步骤S3:转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构。
在本步骤中,所述用户评论信息文档的层次结构用于表示用户评论信息中的元数据信息和用户评论信息的具体内容,在用户评论信息的具体内容表示上以用户评论信息中含有产品属性和观点极性的评论句子为单位,评论句子包括该句子含有的产品属性、观点极性和句子的具体内容。
将步骤S2处理的结果转换成如图4所示的层次结构,转换结果如图5所示。该层次结构能够清晰表示用户评论文档的元数据以及用户评论文档的具体内容。
步骤S4:对转换以后的用户评论信息建立倒排序索引。
在本步骤中,所述建立的倒排序索引,用于存储用户评论信息中的元数据,同时索引了评论句子的具体内容,该索引是建立在句子层次上的索引,而不是在用户评论文档层次上的索引。为了能够快速找到用户需求的信息,我们为步骤S3处理的结果建立倒排序索引,所谓倒排序索引就是在搜索引擎实际的引用之中,有时需要按照关键字的某些值查找记录,所以我们是按照关键字建立索引,这个索引我们就称之为倒排索引,而带有倒排索引的文件我们又称作倒排索引文件也可以叫它为倒排文件来实现快速的检索与高速的效率。注意本发明中倒排序索引的特点是对元数据进行存储的,在实施例中的元数据为:“Avery good choice for lots of people-easy to carry,easy to use”;“257/261”;“2007年3月24日”。而对用户评论信息的具体内容我们是以句子为单位进行索引,而不是以一个用户评论信息文档为单位进行索引的。这样做的好处是,用户评论信息文档中往往会对产品的多个属性进行评论,而每个句子一般只含有对一个属性的评论信息,以句子为单位进行索引,有利于更精确的定位到用户查询的属性。
步骤S5:对建立倒排序索引的用户评论信息进行排序。
在本步骤中,所述对建立倒排序索引的用户评论信息进行排序,以评论信息的相关性、评论信息的品质因子、评论信息的时间维度信息为关键词进行。本发明中排序方法不单单考虑相关性,而且考虑了用户评论信息品质因子、时间维度信息。具体算法如下所述:
品质因子计算公式: 其中OQi是第i个用户评论文档的品质因子;ai是阅读了本评论的读者中认为该评论有帮助的人数;bi是阅读了本条评论的读者人数。
时间维度信息计算公式: 其中TDFi是第i个用户评论文档的时间维度信息;ti是该用户评论信息发表的时间;t是用户查询的时间;β是一个常量。
相关性计算公式: 该公式。
最终得分计算公式:FRi=αLR+(1-α)(TDFi+OQi),FRi为第i个用户评论文档的最终得分。它将决定该文档最终的排序;α为0到1的常量。
下面给出一个具体的计算排序的实例,为了简单在这里以3个用户评论信息文档为例,如表1所示。本例中α=0.65,β=10。
Review1 | Review2 | Review3 | |
Help | 257/261 | 16/17 | 15/18 |
Date | 3/24/07 | 4/10/07 | 5/15/07 |
表1
三个评论信息的品质因子分别为:
三个评论信息的时间维度信息分别为:
三个评论信息的相关性分别为:
LRi=0.87
LR2=0.91
LR3=0.96
三个评论信息最终得分为:
FR1=0.65*0.87+0.35*(1.85+1.49)=1.73
FR2=0.65*0.91+0.35*(0.99+1.51)=1.47
FR3=0.65*0.96+0.35*(0.88+1.58)=1.49
根据最后的得分FR1>FR3>FR2,可以确定三个评论信息排名。
步骤S6:对用户评论信息进行统计分析及可视化。
在本步骤中,所述对用户评论信息进行统计分析及可视化,是通过对搜索出的用户评论信息进行统计分析,将用户评论信息随时间变化的趋势信息,以及对于某种产品属性的正反面评价对比信息进行可视化。
为了给用户提供更加直观的信息,需要对搜索结果进行可视化,评论信息随时间变化曲线具体实现方法如下,以月份为基本单位,统计每个月份中针对某种产品评论的总数,然后以月份为横坐标,每个月份的评论数为纵坐标得到用户评论信息随时间变化的趋势曲线,见图6。正反面观点信息对比直方图实现方法是,在搜索结果中统计正面观点总数与反面观点总数,然后将正反面观点对比用直方图表示,见图7。图8为用户搜索产品属性“Sony W55 Size”是***返回的结果图。其中左上方为“Sony W55 Size”的评论信息随时间变化趋势曲线,右上方为“Sony W55 Size”正反面观点信息对比直方图,下方为针对“Sony W55 Size”这一属性具体的评论信息。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1、一种实现观点搜索引擎排序的方法,其特征在于,该方法包括:
步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;
步骤S2:使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;
步骤S3:转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;
步骤S4:对转换以后的用户评论信息建立倒排序索引;
步骤S5:对建立倒排序索引的用户评论信息进行排序;
步骤S6:对用户评论信息进行统计分析及可视化。
2、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S1中所述对用户评论网页进行抓取,首先获得电子商务网站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这些电子商务网站进行抓取。
3、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S1中所述提取出用户评论信息采用RoadRunner算法对抓取的用户评论信息网页进行提取。
4、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S2中所述数据挖掘技术为association rule mining技术,所述确定属性评论信息的极性是确定用户对该属性的评论是正面的还是反面的。
5、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S3中所述用户评论信息文档的层次结构用于表示用户评论信息中的元数据信息和用户评论信息的具体内容,在用户评论信息的具体内容表示上以用户评论信息中含有产品属性和观点极性的评论句子为单位,评论句子包括该句子含有的产品属性、观点极性和句子的具体内容。
6、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S4中所述建立的倒排序索引,用于存储用户评论信息中的元数据,同时索引了评论句子的具体内容,该索引是建立在句子层次上的索引,而不是在用户评论文档层次上的索引。
7、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S5中所述对建立倒排序索引的用户评论信息进行排序,以评论信息的相关性、评论信息的品质因子、评论信息的时间维度信息为关键词进行。
8、根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S6中所述对用户评论信息进行统计分析及可视化,是通过对搜索出的用户评论信息进行统计分析,将用户评论信息随时间变化的趋势信息,以及对于某种产品属性的正反面评价对比信息进行可视化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100578798A CN101515269B (zh) | 2008-02-20 | 2008-02-20 | 实现观点搜索引擎排序的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100578798A CN101515269B (zh) | 2008-02-20 | 2008-02-20 | 实现观点搜索引擎排序的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101515269A true CN101515269A (zh) | 2009-08-26 |
CN101515269B CN101515269B (zh) | 2011-08-31 |
Family
ID=41039726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100578798A Expired - Fee Related CN101515269B (zh) | 2008-02-20 | 2008-02-20 | 实现观点搜索引擎排序的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101515269B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214201A (zh) * | 2010-04-08 | 2011-10-12 | 微软公司 | 从产品或服务评论中得出陈述 |
CN102609481A (zh) * | 2012-01-20 | 2012-07-25 | 苏州简拔林网络科技有限公司 | 一种评论信息的实时更新汇总方法 |
CN102609424A (zh) * | 2011-01-21 | 2012-07-25 | 日电(中国)有限公司 | 评价信息抽取方法和设备 |
CN102637165A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN102722545A (zh) * | 2012-05-25 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种用于对已发布信息进行排序的方法、装置与设备 |
CN103164438A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种网络评论的采集方法及*** |
CN103593426A (zh) * | 2013-11-07 | 2014-02-19 | 北京奇虎科技有限公司 | 一种商品搜索及提供方法及装置 |
CN103823893A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种基于用户评论的产品检索方法及产品检索*** |
CN103870973A (zh) * | 2012-12-13 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 基于电子信息的关键词提取的信息推送、搜索方法及装置 |
CN103914373A (zh) * | 2012-12-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 一种用于确定模块特征信息所对应的优先级的方法和设备 |
CN103927381A (zh) * | 2014-04-29 | 2014-07-16 | 北京百度网讯科技有限公司 | 一种是非问题的处理方法及装置 |
CN104156390A (zh) * | 2014-07-07 | 2014-11-19 | 乐视网信息技术(北京)股份有限公司 | 一种评论推荐方法和*** |
WO2015062313A1 (zh) * | 2013-10-28 | 2015-05-07 | 百度在线网络技术(北京)有限公司 | 一种用于处理并提供评测信息的方法与设备 |
CN104951558A (zh) * | 2015-06-30 | 2015-09-30 | 北京奇艺世纪科技有限公司 | 一种视频待改善项确定方法及装置 |
CN105975487A (zh) * | 2016-04-26 | 2016-09-28 | 昆明理工大学 | 一种app软件用户评论有关性判断方法 |
CN106485634A (zh) * | 2016-09-27 | 2017-03-08 | 北京百度网讯科技有限公司 | 基于人工智能的民意调查方法及装置 |
CN107807933A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 一种针对提问的回复方法和装置 |
CN112214573A (zh) * | 2020-10-30 | 2021-01-12 | 数贸科技(北京)有限公司 | 信息搜索***、方法、计算设备及计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1395206A (zh) * | 2002-08-23 | 2003-02-05 | 北京大学 | 一种收集、分析和提供网上信息的方法和*** |
-
2008
- 2008-02-20 CN CN2008100578798A patent/CN101515269B/zh not_active Expired - Fee Related
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214201A (zh) * | 2010-04-08 | 2011-10-12 | 微软公司 | 从产品或服务评论中得出陈述 |
CN102609424A (zh) * | 2011-01-21 | 2012-07-25 | 日电(中国)有限公司 | 评价信息抽取方法和设备 |
CN102609424B (zh) * | 2011-01-21 | 2014-10-08 | 日电(中国)有限公司 | 评价信息抽取方法和设备 |
CN103164438B (zh) * | 2011-12-13 | 2016-07-06 | 北大方正集团有限公司 | 一种网络评论的采集方法及*** |
CN103164438A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种网络评论的采集方法及*** |
WO2013087005A1 (zh) * | 2011-12-13 | 2013-06-20 | 北大方正集团有限公司 | 一种网络评论的采集方法及*** |
US20140289395A1 (en) * | 2011-12-13 | 2014-09-25 | Peking University Founder Group Co., Ltd. | Network comment collection method and system |
CN102609481A (zh) * | 2012-01-20 | 2012-07-25 | 苏州简拔林网络科技有限公司 | 一种评论信息的实时更新汇总方法 |
CN102637165A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN102637165B (zh) * | 2012-02-17 | 2014-08-20 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN102722545A (zh) * | 2012-05-25 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种用于对已发布信息进行排序的方法、装置与设备 |
CN102722545B (zh) * | 2012-05-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种用于对已发布信息进行排序的方法、装置与设备 |
CN103870973A (zh) * | 2012-12-13 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 基于电子信息的关键词提取的信息推送、搜索方法及装置 |
CN103870973B (zh) * | 2012-12-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于电子信息的关键词提取的信息推送、搜索方法及装置 |
CN103914373A (zh) * | 2012-12-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 一种用于确定模块特征信息所对应的优先级的方法和设备 |
WO2015062313A1 (zh) * | 2013-10-28 | 2015-05-07 | 百度在线网络技术(北京)有限公司 | 一种用于处理并提供评测信息的方法与设备 |
CN103593426A (zh) * | 2013-11-07 | 2014-02-19 | 北京奇虎科技有限公司 | 一种商品搜索及提供方法及装置 |
CN103593426B (zh) * | 2013-11-07 | 2018-04-06 | 北京奇虎科技有限公司 | 一种商品搜索及提供方法及装置 |
CN103823893A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种基于用户评论的产品检索方法及产品检索*** |
CN103927381A (zh) * | 2014-04-29 | 2014-07-16 | 北京百度网讯科技有限公司 | 一种是非问题的处理方法及装置 |
CN103927381B (zh) * | 2014-04-29 | 2018-03-06 | 北京百度网讯科技有限公司 | 一种是非问题的处理方法及装置 |
CN104156390A (zh) * | 2014-07-07 | 2014-11-19 | 乐视网信息技术(北京)股份有限公司 | 一种评论推荐方法和*** |
CN104951558A (zh) * | 2015-06-30 | 2015-09-30 | 北京奇艺世纪科技有限公司 | 一种视频待改善项确定方法及装置 |
CN105975487A (zh) * | 2016-04-26 | 2016-09-28 | 昆明理工大学 | 一种app软件用户评论有关性判断方法 |
CN105975487B (zh) * | 2016-04-26 | 2019-07-16 | 昆明理工大学 | 一种app软件用户评论有关性判断方法 |
CN107807933A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 一种针对提问的回复方法和装置 |
CN106485634A (zh) * | 2016-09-27 | 2017-03-08 | 北京百度网讯科技有限公司 | 基于人工智能的民意调查方法及装置 |
CN112214573A (zh) * | 2020-10-30 | 2021-01-12 | 数贸科技(北京)有限公司 | 信息搜索***、方法、计算设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101515269B (zh) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101515269B (zh) | 实现观点搜索引擎排序的方法 | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN102982153B (zh) | 一种信息检索方法及其装置 | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
CN102207936B (zh) | 用于提示电子文档内容变更的方法和*** | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN100507918C (zh) | 一种网络关键资源页面的自动定位方法 | |
CN101620608A (zh) | 信息采集方法及*** | |
CN103365839A (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
US20150287047A1 (en) | Extracting Information from Chain-Store Websites | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN101706812B (zh) | 一种文档的检索方法和装置 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
CN102214183A (zh) | 按页面反馈内容与固定排名相结合的搜索引擎查询方法 | |
US20150302090A1 (en) | Method and System for the Structural Analysis of Websites | |
Henrys | Importance of web scraping in e-commerce and e-marketing | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和*** | |
Zhang et al. | TOB: Timely Ontologies for Business Relations. | |
CN103177126B (zh) | 用于搜索引擎的色情用户查询识别方法及设备 | |
Zhang et al. | A tag recommendation system for folksonomy | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及*** | |
CN103312584A (zh) | 一种在网络社区中发布信息的方法与设备 | |
CN102436472B (zh) | 一种基于关系机制的多类别web对象抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110831 |