CN104424215B - 进行数据搜索的方法及搜索服务器 - Google Patents
进行数据搜索的方法及搜索服务器 Download PDFInfo
- Publication number
- CN104424215B CN104424215B CN201310370878.XA CN201310370878A CN104424215B CN 104424215 B CN104424215 B CN 104424215B CN 201310370878 A CN201310370878 A CN 201310370878A CN 104424215 B CN104424215 B CN 104424215B
- Authority
- CN
- China
- Prior art keywords
- word
- search
- inquiry
- query word
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002159 abnormal effect Effects 0.000 claims abstract description 103
- 108010001267 Protein Subunits Proteins 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- RLLPVAHGXHCWKJ-IEBWSBKVSA-N (3-phenoxyphenyl)methyl (1s,3s)-3-(2,2-dichloroethenyl)-2,2-dimethylcyclopropane-1-carboxylate Chemical compound CC1(C)[C@H](C=C(Cl)Cl)[C@@H]1C(=O)OCC1=CC=CC(OC=2C=CC=CC=2)=C1 RLLPVAHGXHCWKJ-IEBWSBKVSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了进行数据搜索的方法及搜索服务器,其中,该方法包括:从搜索日志中提取出设定时间段内的搜索记录;从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;由查询词的特征参数确定查询词是否为异常查询词;对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。本发明方案能够提高数据搜索时显示提示词的准确性。
Description
技术领域
本发明涉及数据处理技术,尤其涉及进行数据搜索的方法及搜索服务器。
背景技术
现有技术中,进行数据搜索时,用户在搜索网页的查询栏中输入查询词,向搜索服务器发送包含查询词的查询请求,接收搜索服务器反馈关于查询词的搜索条目;之后,用户可点击搜索条目,以切换到该搜索条目对应的网页查询详细内容。
在用户输入查询词的过程中,搜索服务器会根据用户输入的过程信息反馈联想词,以显示在网页的智能提示栏中;用户可直接点击联想词,以作为查询词,发送给搜索服务器。并且,在显示搜索条目时,网页在相关搜索栏还会显示与查询词关联的相关搜索词,一般地,相关搜索栏置于网页下端。
举例进行说明,想要输入的查询词为ABC,当输入到AB时,即过程信息为AB,联想词里包括ABC、阿波罗、ABB等,这时可以直接选中ABC;进行查询之后,相关搜索栏中显示的相关搜索词包括智能ABC输入法、ABC儿歌等。
用户的搜索行为记录在搜索日志中,搜索服务器对搜索日志进行分析,来确定各查询词的联想词和相关搜索词。分析方法有多种,举例说明:对于查询词ABC,如果搜索日志中记录的以“ABC公司最好”为查询词进行查询的次数大于设定阈值,则将“ABC公司最好”作为ABC的联想词和相关搜索词,分别放入联想词库和相关搜索词库中。这里,将联想词和相关搜索词统称为提示词。
在实际运用中,存在采用机器操作频繁输入查询词,以增加某查询词的搜索次数,进而将其设置到联想词库和相关搜索词库中,以提高该查询词为用户点击的几率。这导致搜索时显示提示词的准确性较低。
目前,机器操作一般具有搜索频率较高的特点,例如为1分钟10次查询,因而,为了避免机器操作,常采用如下的解决方式:对用户关于某查询词的搜索频率进行判断,如果大于设定阈值,例如大于1分钟5次,则判断为机器操作,对其进行标记,不将其作为提示词。但该方式存在以下缺陷:如果机器操作时将搜索频率降低,例如为1分钟1次,则无法对其进行避免,仍为将其确定为提示词,导致搜索时显示提示词的准确性很低。
发明内容
本发明提供了一种进行数据搜索的方法,该方法能够提高数据搜索时显示提示词的准确性。
本发明提供了一种进行数据搜索的搜索服务器,该搜索服务器提高数据搜索时显示提示词的准确性。
一种进行数据搜索的方法,该方法包括:
从搜索日志中提取出设定时间段内的搜索记录;
从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
由查询词的特征参数确定查询词是否为异常查询词;
对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
一种进行数据搜索的搜索服务器,该搜索服务器包括搜索记录提取单元、特征参数统计单元、异常查询词确定单元和标记单元;
所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述特征参数统计单元;
所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词;
所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
从上述方案可以看出,本发明中,从搜索日志中提取出设定时间段内的搜索记录;对提取出的搜索记录进行分析,从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv;根据Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。本发明基于查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询词的判断,而不采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。
附图说明
图1为本发明进行数据搜索的方法示意性流程图;
图2为本发明进行数据搜索的方法流程图实例;
图3为本发明进行数据搜索的***结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明基于查询词的多个特征参数确定其是否为异常查询词,而不再仅基于搜索频率来确定异常查询词;这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,提高了数据搜索时显示提示词的准确性。
参见图1,为本发明进行数据搜索的方法示意性流程图,其包括以下步骤:
步骤101,从搜索日志中提取出设定时间段内的搜索记录。
用户的搜索行为记录在搜索日志中,包括对每次搜索的搜索时间、查询词、每次搜索后对搜索条目进行点击的次数,搜索行为输入的统一资源定位符(URL,UniformResource Locator)地址等等。
根据需要,可以从搜索日志中提取出设定时间段的搜索记录,设定时间段例如为2天。
步骤102,从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv。
用于确定异常查询词的特征参数可根据需要设置,例如包括本步骤上述的两项,下面进行说明,设定时间段内记载的搜索记录中包含关于多个查询词的搜索行为,针对每个查询词分别统计出其特征参数。
针对某一查询词,Qv为设定时间段内该查询词被搜索的总次数,对设定时间段内关于该查询词的搜索行为进行累加,得到的结果便为总次数。
搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用户先输入前驱行为URL地址,然后再输入关于查询词的URL地址;一般地,前驱行为URL地址为搜索网站主页。举例说明,前驱行为URL地址为www.bdui.com,用户输入查询词“专利”,相应地,后续记录的URL地址为“http://www.bdui.com/s?wd=专利&rsv......”;正常地,搜索行为中记录有前驱行为URL地址;如果为机器操作,则直接多次输入后续URL地址,而没有前驱行为URL地址,这里统计出某查询词没有前驱行为URL地址的次数,作为前驱行为为空的查询次数NoreferQv。对应地,搜索记录中包含前驱行为URL地址的搜索行便为前驱行为非空的搜索,统计出某查询词有前驱行为URL地址的次数,作为前驱行为非空的查询次数referQv。
通过搜索记录,还可获知用户搜索各次查询词之后是否对搜索条目进行了点击,例如搜索关于查询词“专利”的搜索条目后,是否点击了搜索条目;对有点击的搜索行为数目进行统计,得到的结果作为有点击行为的查询次数CQv。进一步地,还可以统计针对搜索条目的点击次数,针对某查询词,将针对该查询词搜索条目进行点击的次数进行统计,得到的结果作为对搜索条目的点击次数Clicks。
所述特征参数还可以包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种,关于NoEentryQv、SentryQv和URLQv,后续将分别进行说明。
步骤103,由查询词的特征参数确定查询词是否为异常查询词。
基于特征参数包含的不同内容,确定查询词是否为异常查询词具体方式也相应不同。下面进行具体说明。
特征参数包含Qv和NoReferQv时,本步骤可具体包括:判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
若所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所述判断NoReferQv/Qv不大于第一设定阈值之后,该方法还包括:
判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
如果判断出不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,可以将查询词确定为非异常查询词。
进一步地,所述判断NoReferQv/Qv是否大于第一设定阈值之前,该方法还包括:
判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于第一设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词。
步骤104,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
具体标记时,可以对联想词库和相关搜索词库中的异常查询词进行标记;或者,生成异常词列表,将确定出的异常查询词添加到异常词列表中。
后续进行数据搜索,向用户反馈提示词时,可以结合标记,不向用户反馈异常查询词;具体地:
接收包含过程信息的查询过程输入信息;
从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;
接收包含查询词的查询请求;
从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
本发明中,从搜索日志中提取出设定时间段内的搜索记录;对提取出的搜索记录进行分析,从搜索记录中统计出对应查询词的多个特征参数,包括:Qv、NoReferQv;根据Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。本发明基于查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询词的判断,而不采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。
除了上述提到的根据Qv、NoReferQv和CQv进行判断,以确定出异常查询词。为了提高向用户显示提示词的准确性,还可以结合更多的特征参数或结合进一步的判断步骤确定异常查询词,下面进行举例说明:
实例一:
特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数NoEentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv。
一般地,针对某查询词,其搜索记录中包含有搜索行为的来源,该来源具体如URL地址来源;对于机器操作,某些情况没有来源渠道,这里,对没有来源渠道的搜索行为次数进行统计,得到的总值表示为NoEentryQv。
通过记录的URL地址,可以获知来源渠道;确定SentryQv的方法包括:对于某查询词,对设定时间段内的搜索行为来源渠道进行统计,统计出关于各来源渠道的搜索次数,如果某来源渠道的搜索次数所占比例存在异常,则将该来源渠道确定为特定渠道,将关于该特定渠道的搜索行为进行统计,将得到的总次数作为SentryQv。举例说明,针对查询词“刘德华”,从三个来源渠道进行搜索,搜索行为总次数为1000次,三个入口分别为hao123网页、新浪网页和百度网页,搜索次数分别为200、300和500次,这属于正常行为;如果搜索行为总次数为1000次,从hao123网页、新浪网页和百度网页口三个入访问的搜索次数分别为20、40、940次,则确定从百度网页进行访问的搜索行为为特定渠道来源的行为,这种情况多为机器操作,则SentryQv为940。
相应地,步骤103所述判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值之后,该方法还包括:
判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
实例二:
特征参数包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数。
搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用户先输入前驱行为URL地址,然后再输入关于查询词的URL地址,前驱行为URL地址为搜索网站主页;一般地,各次输入的URL地址是一致的;如果不一致,则多为机器操作,统计出这种搜索行为的次数,作为URLQv。
例如,前驱行为URL地址为www.bdui.com,用户输入查询词“专利”,后续记录的URL地址为“http://www.bdui.com/s?wd=专利&rsv......”,该地址中包含“www.bdui.com”,与前面的地址信息一致,确定两者一致;如果后续记录的地址为“http://www.bbb.com/s?wd=专利......”,与“www.bdui.com”不一致,则确定为机器操作,与实际情况不相符合。
相应地,所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括:
判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
下面通过图2的流程,对本发明进行数据搜索的方法举例说明,其包括以下步骤:
步骤201,从搜索日志中提取出设定时间段内的搜索记录。
步骤202,从搜索记录中统计出对应查询词的特征参数。
本实例中,特征参数包括表1所示的统计项,其中Uv为针对某查询词,进行搜索行为的用户数目总和。
统计项 | 说明 |
Qv | 查询词被查询的总次数 |
Uv | 查询用户总数 |
CQv | 对查询词对应的查询结果有点击行为的查询次数 |
Clicks | 对搜索条目的点击次数 |
NoReferQv | 查询词对应的查询前驱行为为空的查询次数 |
SEntryQv | 查询词对应的搜索行为来源渠道为特定渠道的查询次数 |
NoEntryQv | 查询词对应的搜索行为没有标明来源渠道的查询次数 |
UrlQv | URL信息错误次数 |
表1特征参数包含的统计项
统计出特征参数后,对设定时间段内的各查询词分别执行步骤203-208,以确定其是否为异常查询词。针对每个特征参数,都有相应的设定阈值,各设定阈值为用于确定是否为异常查询词的临界值。
步骤203,判断Qv是否大于第四设定阈值,如果是,则执行步骤204;否则,将查询词确定为非异常查询词。
本实例中,第四设定阈值为50。
步骤204,判断NoReferQv/Qv是否大于第一设定阈值的步骤,如果是,则将查询词确定为异常查询词,否则,执行步骤205。
本实例中,第一设定阈值为0.8。
步骤205,判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词;否则执行步骤206。
本实例中,第二设定阈值为0.05,第三设定阈值为200。
步骤206,判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则执行步骤207。
本实例中,第五设定阈值为0.8。
步骤207,判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词;否则执行步骤208。
本实例中,第六设定阈值为0.8。
步骤208,判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词;否则将查询词确定为非异常查询词。
本实例中,第七设定阈值为0.8。
步骤209,对异常查询词进行标记,以使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。
本实例基于查询词的多个特征参数确定查询词是否为异常查询词,而不再仅基于搜索频率来确定异常查询词;这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,提高了数据搜索时显示提示词的准确性。
参见图3,为本发明进行数据搜索的搜索服务器,其特征在于,该搜索服务器包括搜索记录提取单元、特征参数统计单元、异常查询词确定单元和标记单元;
所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述特征参数统计单元;
所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词;
所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
较佳地,所述特征参数还包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种。
较佳地,所述异常查询词确定单元包括第一判断子单元,判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所述异常查询词确定单元还包括第二判断子单元,判断NoReferQv/Qv不大于第一设定阈值之后,向所述第二判断子单元发送启动指令;
所述第二判断子单元,接收启动指令,判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,所述异常查询词确定单元还包括第三判断子单元,判断Qv是否大于第四设定阈值,如果是,则向所述第一判断子单元发送启动指令,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词;
所述第一判断子单元在接收启动指令后才对查询词的特征参数进行判断。
较佳地,所述特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数SentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数NoEentryQv;所述异常查询词确定单元还包括第四判断子单元;
所述第二判断子单元,判断查询词的特征参数不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,向所述第四判断子单元发送启动指令;
所述第四判断子单元,接收启动指令,判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,所述特征参数还包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数;所述异常查询词确定单元还包括第五判断子单元;
所述第四判断子单元判断出NoEentryQv/Qv不大于第六设定阈值时,向所述第五判断子单元发送启动指令;
所述第五判断子单元,接收启动指令,判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,该搜索服务器还包括搜索反馈单元,接收包含过程信息的查询过程输入信息;从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;接收包含查询词的查询请求,从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种进行数据搜索的方法,其特征在于,该方法包括:
从搜索日志中提取出设定时间段内的搜索记录;
从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
由查询词的特征参数确定查询词是否为异常查询词,所述异常查询词为机器操作输入的查询词;
对异常查询词进行标记,以使异常查询词不用于后续的搜索处理;
所述由查询词的特征参数确定查询词是否为异常查询词,包括:判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
2.如权利要求1所述的方法,其特征在于,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv、查询词对应的搜索行为没有标明来源渠道的查询次数NoEentryQv、查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv和查询词对应的URL信息中含有的标签与实际情况不相符合的次数URLQv中的至少一种。
3.如权利要求1所述的方法,其特征在于,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,判断NoReferQv/Qv不大于第一设定阈值之后,该方法还包括:
判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
4.如权利要求3所述的方法,其特征在于,所述判断NoReferQv/Qv是否大于第一设定阈值之前,该方法还包括:
判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于第一设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词。
5.如权利要求3或4所述的方法,其特征在于,所述特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数NoEentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv;判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值之后,该方法还包括:
判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
6.如权利要求5所述的方法,其特征在于,所述特征参数还包含统一资源定位符URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数;所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括:
判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
7.如权利要求1所述的方法,其特征在于,该方法还包括:
接收包含过程信息的查询过程输入信息;
从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;
接收包含查询词的查询请求;
从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
8.一种进行数据搜索的搜索服务器,其特征在于,该搜索服务器包括搜索记录提取单元、特征参数统计单元、异常查询词确定单元和标记单元;
所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述特征参数统计单元;
所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词,所述异常查询词为机器操作输入的查询词;
所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理;
所述异常查询词确定单元包括第一判断子单元,判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
9.如权利要求8所述的搜索服务器,其特征在于,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv、查询词对应的搜索行为没有标明来源渠道的查询次数NoEentryQv、查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv和查询词对应的URL信息中含有的标签与实际情况不相符合的次数URLQv中的至少一种。
10.如权利要求8所述的搜索服务器,其特征在于,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所述异常查询词确定单元还包括第二判断子单元,判断NoReferQv/Qv不大于第一设定阈值之后,向所述第二判断子单元发送启动指令;
所述第二判断子单元,接收启动指令,判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
11.如权利要求10所述的搜索服务器,其特征在于,所述异常查询词确定单元还包括第三判断子单元,判断Qv是否大于第四设定阈值,如果是,则向所述第一判断子单元发送启动指令,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词;
所述第一判断子单元在接收启动指令后才对查询词的特征参数进行判断。
12.如权利要求10或11所述的搜索服务器,其特征在于,所述特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数SentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数NoEentryQv;所述异常查询词确定单元还包括第四判断子单元;
所述第二判断子单元,判断查询词的特征参数不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,向所述第四判断子单元发送启动指令;
所述第四判断子单元,接收启动指令,判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
13.如权利要求12所述的搜索服务器,其特征在于,所述特征参数还包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数;所述异常查询词确定单元还包括第五判断子单元;
所述第四判断子单元判断出NoEentryQv/Qv不大于第六设定阈值时,向所述第五判断子单元发送启动指令;
所述第五判断子单元,接收启动指令,判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
14.如权利要求8所述的搜索服务器,其特征在于,该搜索服务器还包括搜索反馈单元,接收包含过程信息的查询过程输入信息;从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;接收包含查询词的查询请求,从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310370878.XA CN104424215B (zh) | 2013-08-23 | 2013-08-23 | 进行数据搜索的方法及搜索服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310370878.XA CN104424215B (zh) | 2013-08-23 | 2013-08-23 | 进行数据搜索的方法及搜索服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104424215A CN104424215A (zh) | 2015-03-18 |
CN104424215B true CN104424215B (zh) | 2018-02-27 |
Family
ID=52973213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310370878.XA Active CN104424215B (zh) | 2013-08-23 | 2013-08-23 | 进行数据搜索的方法及搜索服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104424215B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874510A (zh) * | 2017-03-01 | 2017-06-20 | 深圳市博信诺达经贸咨询有限公司 | 应用于大数据的统计方法及*** |
CN112037818A (zh) * | 2020-08-30 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 异常情况确定方法和正向匹配式生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140587A (zh) * | 2007-10-15 | 2008-03-12 | 深圳市迅雷网络技术有限公司 | 一种搜索方法及装置 |
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN102043833A (zh) * | 2010-11-25 | 2011-05-04 | 北京搜狗科技发展有限公司 | 一种基于查询词进行搜索的方法和搜索装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012900B (zh) * | 2009-09-04 | 2013-01-30 | 阿里巴巴集团控股有限公司 | 信息检索方法和*** |
-
2013
- 2013-08-23 CN CN201310370878.XA patent/CN104424215B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140587A (zh) * | 2007-10-15 | 2008-03-12 | 深圳市迅雷网络技术有限公司 | 一种搜索方法及装置 |
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN102043833A (zh) * | 2010-11-25 | 2011-05-04 | 北京搜狗科技发展有限公司 | 一种基于查询词进行搜索的方法和搜索装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104424215A (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103631948B (zh) | 命名实体的识别方法 | |
Mapes et al. | Knowledge on DNA success rates to optimize the DNA analysis process: from crime scene to laboratory | |
CN103365839B (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
EP2321745B1 (en) | Providing posts to discussion threads in response to a search query | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和*** | |
CN106469185A (zh) | 一种网站统计中进行数据收集的方法 | |
US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
CN107577788B (zh) | 一种自动结构化数据的电商网站主题爬虫方法 | |
JPWO2008087728A1 (ja) | キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 | |
US20200272765A1 (en) | Method and apparatus for detecting label data leakage channel | |
KR20150018880A (ko) | 정보 취합 분류의 디스플레이 방법 및 시스템 | |
CN103729178A (zh) | 一种浏览器多标签页的处理方法及*** | |
CN106126544A (zh) | 一种互联网内容的投放方法及装置 | |
CN103853771B (zh) | 一种搜索结果的推送方法及*** | |
CN104424215B (zh) | 进行数据搜索的方法及搜索服务器 | |
JP5787717B2 (ja) | 情報処理装置、プログラム及び情報検索システム | |
CN116055551A (zh) | 信息推送方法、装置、***、电子设备及存储介质 | |
TWI489409B (zh) | 不同內文提供者間相關最新新聞之即時關聯 | |
CN104391936A (zh) | 浏览器收藏夹中标签的处理方法和装置 | |
CN103593360A (zh) | 基于页面分析的互联网信息发表时间提取方法 | |
CN101977251A (zh) | 服务器端网址资源优化装置及其优化方法 | |
CN107577667A (zh) | 一种实体词处理方法和装置 | |
KR20050109106A (ko) | 통합 검색 결과를 효율적으로 제공하는 검색 서비스 제공방법 및 시스템 | |
CN110633430B (zh) | 事件发现方法、装置、设备和计算机可读存储介质 | |
CN112487319A (zh) | 一种基于dom树路径匹配的文章解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240103 Address after: 518057, 35th Floor, Tencent Building, Keji Middle Road, High tech Zone, Shenzhen, Guangdong Province Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |