CN103207901B - 一种基于搜索引擎获取ip地址归属地的方法和装置 - Google Patents

一种基于搜索引擎获取ip地址归属地的方法和装置 Download PDF

Info

Publication number
CN103207901B
CN103207901B CN201310091285.XA CN201310091285A CN103207901B CN 103207901 B CN103207901 B CN 103207901B CN 201310091285 A CN201310091285 A CN 201310091285A CN 103207901 B CN103207901 B CN 103207901B
Authority
CN
China
Prior art keywords
word
address
user
weighted value
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310091285.XA
Other languages
English (en)
Other versions
CN103207901A (zh
Inventor
阮星华
才鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310091285.XA priority Critical patent/CN103207901B/zh
Publication of CN103207901A publication Critical patent/CN103207901A/zh
Application granted granted Critical
Publication of CN103207901B publication Critical patent/CN103207901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于搜索引擎获取IP地址归属地的方法和装置,其中方法包括:获取一段时间内的用户搜索记录,所述用户搜索记录包括用户ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;S2、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;S3、根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。本发明能够基于搜索引擎准确获取用户IP地址的归属地。

Description

一种基于搜索引擎获取IP地址归属地的方法和装置
【技术领域】
本发明涉及互联网协议(IP)地址定位技术,尤其涉及一种基于搜索引擎获取IP地址归属地的方法和装置。
【背景技术】
随着搜索引擎技术的不断发展,搜索引擎的地域扩展功能也越来越受到人们的重视。“地域扩展功能”即搜索引擎指根据用户所在的地理位置向用户返回具有地域特性的搜索结果,例如,位于北京的用户搜索查询词为“天气”,则搜索引擎会向其返回北京的天气预报信息,与此类似的“地域扩展功能”能够智能地更加准确地满足用户需求。
而实现“地域扩展功能”的关键点之一就是确定用户IP地址的归属地。现有的方法中,通常只有网络运营商能够掌握其所辖IP地址的归属地,即需要IP地址归属地信息的公司只能通过商业合作向网络运营商等第三方来获取,增加了一定的成本。
【发明内容】
有鉴于此,本发明提供了一种基于搜索引擎获取IP地址归属地的方法和装置,能够准确获得IP地址所在的地理位置信息。
具体技术方案如下:
一种基于搜索引擎获取IP地址归属地的方法,该方法包括:
S1、获取一段时间内的用户搜索记录,所述用户搜索记录包括用户标识(ID)、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;
S2、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;
S3、根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。
根据本发明一优选实施示例,步骤S1中识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词具体包括:
S11、对所述用户搜索记录中的查询词进行分词,识别其中的地名词;
S12、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。
根据本发明一优选实施例,所述步骤S12后还包括:
S13、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。
根据本发明一优选实施例,所述步骤S13后还包括:
S14、根据带有地域属性的词的所属类别,对所述步骤S13提取出的带有地域属性的词进行归一化处理。
根据本发明一优选实施例,所述步骤S2具体包括:
根据公式获取带有地域属性的词M的置信度P[M],其中,T[地名i]为所述训练样本中带有地域属性的词M与地名词i共现的记录数,R[地名i]为所述训练样本中带有地域属性的词M与地名词i共现时预先标注的IP地址归属地为该地名词i对应的地域的记录数,n为训练样本中与M共现的地名词数目。
根据本发明一优选实施例,步骤S3中所述确定该IP地址的归属地为:
按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。
根据本发明一优选实施例,在所述按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值时,具体包括:
根据公式获取IP地址归属于地域L的第一权重值Z[L],其中,Cid为含有地名词的该IP地址的用户搜索记录中包括的用户ID数,C[L,词i]为所述含有地名词的该IP地址的用户搜索记录中地域L对应的地名词与带有地域属性的词i的共现的记录所对应的用户ID数,P[词i]为带有地域属性的词i的置信度,m为所述含有地名词的该IP地址的用户搜索记录中带有地域属性的词的数目。
根据本发明一优选实施例,所述根据该第一权重值确定该IP地址的归属地为:
将用户IP地址归属于所述地名词对应的各地域的第一权重值中,第一权重值最高的地域作为该IP地址的归属地。
根据本发明一优选实施例,该方法还包括:
S4、根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值;
所述根据该第一权重值确定该IP地址的归属地具体为:
整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地。
根据本发明一优选实施例,所述计算IP地址归属于各个地域的第二权重值,具体包括:
将所述预先获取的用户在地图搜索引擎中设置的默认城市属于某一地域的用户ID数与总的用户ID数的比例作为IP地址归属于所述某一地域的第二权重值。
根据本发明一优选实施例,所述整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地具体包括:
将IP地址归属于各个地域的第一权重值和第二权重值相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的归属地。
一种基于搜索引擎获取IP地址归属地的装置,该装置包括:
预处理单元,用于获取一段时间内的用户搜索记录,所述用户搜索记录包括用户ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;
训练单元,用于利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;
判别单元,用于根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。
根据本发明一优选实施例,所述预处理单元在识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词时,具体执行:
S21、对所述用户搜索记录中的查询词进行分词,识别其中的地名词;
S22、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。
根据本发明一优选实施例,所述预处理单元在执行S22后,还执行:
S23、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。
根据本发明一优选实施例,所述预处理单元在执行S23后,还执行:
S24、根据带有地域属性的词的所属类别,对所述步骤S23提取出的带有地域属性的词进行归一化处理。
根据本发明一优选实施例,所述训练单元具体执行:
根据公式获取带有地域属性的词M的置信度P[M],其中,T[地名i]为所述训练样本中带有地域属性的词M与地名词i共现的记录数,R[地名i]为所述训练样本中带有地域属性的词M与地名词i共现时预先标注的IP地址归属地为该地名词i对应的地域的记录数,n为训练样本中与M共现的地名词数目。
根据本发明一优选实施例,所述判别单元在确定该IP地址的归属地时,具体执行:
按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。
根据本发明一优选实施例,所述判别单元按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值时,具体执行:
根据公式获取IP地址归属于地域L的第一权重值Z[L],其中,Cid为含有地名词的该IP地址的用户搜索记录中包括的用户ID数,C[L,词i]为所述含有地名词的该IP地址的用户搜索记录中地域L对应的地名词与带有地域属性的词i的共现的记录所对应的用户ID数,P[词i]为带有地域属性的词i的置信度,m为所述含有地名词的该IP地址的用户搜索记录中带有地域属性的词的数目。
根据本发明一优选实施例,所述判别单元根据该第一权重值确定该IP地址的归属地时,具体执行:
将用户IP地址归属于所述地名词对应的各地域的第一权重值中,第一权重值最高的地域作为该IP地址的归属地。
根据本发明一优选实施例,该装置还包括:
地图信息判别单元,用于根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值;
所述判别单元根据该第一权重值确定该IP地址的归属地时,具体执行:
整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地。
根据本发明一优选实施例,所述地图信息判别单元计算IP地址归属于各个地域的第二权重值时,具体执行:
将所述预先获取的用户在地图搜索引擎中设置的默认城市属于某一地域的用户ID数与总的用户ID数的比例作为IP地址归属于所述某一地域的第二权重值。
根据本发明一优选实施例,所述判别单元整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地时,具体执行:
将IP地址归属于各个地域的第一权重值和第二权重值相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的归属地。
由以上技术方案可以看出,本发明通过分析预先获取的一段时间内用户搜索记录中的查询词Query,识别其中的地名词以及带有地域属性的词,并结合训练得到的带有地域属性的词以及用户ID,能够获取用户IP地址的归属地,同时,还可以结合根据用户使用地图搜索引擎时设置的默认城市以及用户ID等信息,整合获取用户IP地址的最终归属地。本发明使得互联网公司能够利用搜索引擎自动分析获得用户ID地址的归属地。
【附图说明】
图1为本发明实施例一所提供的基于搜索引擎获取IP地址归属地的方法流程图;
图2为本发明实施例一所提供的识别查询词Query中的地名词以及带有地域属性的词的方法流程图;
图3为本发明实施例一所提供的预先标注IP地址归属地的用户搜索记录示例图;
图4为本发明实施例一所提供的用户搜索记录示例图;
图5为本发明实施例一所提供的用户在地图搜索引擎中设置的默认城市信息以及用户ID记录示例图;
图6为本发明实施例二所提供的识别查询词Query中的地名词以及带有地域属性的词的装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
分析用户使用搜索引擎时的搜索行为可以发现,用户通常都会通过搜索引擎获取其所在地的有关信息,因此,用户在搜索引擎所搜索的查询词Query中往往会隐含其地理位置的信息。本发明正是通过分析一段时间内用户的搜索记录来获取用户IP地址的地理位置信息。
实施例一
图1为本发明实施例一所提供的基于搜索引擎获取IP地址归属地的方法流程图,如图1所示,该方法包括:
S101、分析预先获取的一段时间内的用户搜索记录,识别用户搜索的查询词Query中的地名词以及带有地域属性的词。
可以预先记录一段时间内用户访问搜索引擎时的信息,该些信息可以包括用户ID、用户搜索的查询词Query和用户IP地址,将该些信息形成一条用户搜索记录进行保存。其中,用户ID是在用户初次通过终端(诸如PC、手机、平板电脑等)的浏览器访问搜索引擎网站时,为用户分配的ID,该用户ID保存在用户PC端的Cookie中,之后当用户再次访问搜索引擎网站时,可以直接从用户PC端的Cookie中获取用户ID。保存用户搜索记录的时间长短可以根据需要进行设定,例如,可以保存30天内的用户搜索记录。“00017255861E0FE2D25B26B6BDB1139A,114.112.29.35,北京362路公交”为一个用户搜索记录的示例,其中,“00017255861E0FE2D25B26B6BDB1139A”为用户ID,“114.112.29.35”为用户IP地址,“北京362路公交”为用户搜索的查询词Query。
为了能够根据用户搜索的查询词Query分析得到用户IP地址的归属地,可以在得到预先获取的一段时间内的用户搜索记录后,进一步分析处理用户搜索的查询词Query,以从Query中识别地名词以及带有地域属性的词。带有地域属性的词即指地域相关性较高的词,例如,“公交”和“天气”的地域相关性较高,而“万有引力”的地域相关性较低,可以认为“公交”和“天气”为带有地域属性的词。如图2所示,可以通过下述步骤S1011-S1012识别Query中的地名词以及带有地域属性的词:
S1011、对Query进行分词处理,并获取Query中的地名词。
可以先对Query进行分词处理,将Query划分为一个个独立的分词,该过程属于现有技术,在此不过多赘述。之后,识别Query的分词中属于地名词的分词,可以通过将Query中的分词分别与预先建立的地名词典中的地名词进行匹配来完成这一识别过程。
更进一步地,还可以在本步骤中将所识别出的Query中的地名词根据其地理位置的从属关系将其归一为其所属地域,例如,某一查询词Query为“坐地铁苹果园到北影怎么走”,识别出其中“苹果园”和“北影”为地名,可以进一步在预先建立的地名词典中查询这两个地名的所属地域,得知“苹果园”和“北影”都位于北京,因此,可以将在该Query中识别出的地名词“苹果园”和“北影”归一为“北京”,即判别该Query中的地名词为“北京”。
S1012、提取Query中非地名分词,并查看每个非地名分词与地名词的共现率,将其中与地名词的共现率高于预设阈值的非地名分词作为带有地域属性的词。
将Query进行分词并识别出其中的地名词后,可以提取Query中非地名词的分词(后续称为非地名分词),并查看每个非地名分词与地名词的共现率。与地名词的共现率即指某一非地名分词与所有地名词同时出现在Query中的频率,每个非地名分词与地名词的共现率可以通过下述方法获得:统计预先获取的一段时间的用户搜索的查询词Query中同时出现某一非地名分词和任一地名词的Query数N1,以及查询词Query中出现该某一非地名分词的Query数N2,则该某一非地名分词与地名词的共现率为N1/N2。例如,“餐厅”这一分词在预先获取的一段时间内的用户搜索记录的2000个Query中出现过,而“餐厅”与任一地名词共同在400个Query中出现过,则“餐厅”与地名词的共现率为400/2000=0.2。在得到了每一个非地名分词与地名词的共现率后,将与地名词的共现率高于预设阈值的非地名分词作为带有地域属性的词。
通过上述步骤S1011-S1012可以得到用户搜索的查询词Query中带有地域属性的词,更进一步地,还可以通过下述步骤S1013在所得到的带有地域属性的词中提取出核心地域属性词。
S1013、对所得到的带有地域属性的词进行词义分析,并提取核心地域属性词。
可以对所得到的带有地域属性的词进行词义分析,根据每个带有地域属性的词的词义在Query中的重要程度,为各个带有地域属性的词设定权重,其中,词义越重要的带有地域属性的词的权重值越高,最后可以提取权重值高于预设阈值的带有地域属性的词作为核心地域属性词。例如,某一Query中有“天气”和“的”两个带有地域属性的词,通过词义分析设定权重后,“天气”的权重值高于预设阈值,而“的”的权重值小于预设阈值,因此,提取“天气”作为核心地域属性词。对Query中的分词进行词性分析,并根据词义设定权重属于现有技术,在此不过多赘述。
通过步骤S1013可以从带有地域属性的词中提取出核心地域属性词,更进一步地,还可以通过下述步骤S1014对所得到的核心地域属性词进行归一化处理,得到最终的核心地域属性词。
可以对步骤S1013中得到的核心地域属性词进行归一化处理,归一化处理即指将属于同一类型的词进行归一化,例如,“公交”、“公交车”、“公共汽车”都属于“公交”这一类别,因此,将核心地域属性词中的“公交”、“公交车”、“公共汽车”都归一化为“公交”,“餐厅”、“餐馆”、“饭店”都属于“餐厅”这一类别,因此,将核心地域属性词中的“餐厅”、“餐馆”、“饭店”都归一化为“餐厅”。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。对核心地域属性词的归一化处理可以通过预先经过训练的文本分类器来实现,即,用预先经过训练的文本分类其对所得到的核心地域属性词进行分类,并将各个核心地域属性词归一化为其所属类别,得到最终的核心地域属性词,该方法属于现有技术,在此不过多赘述。
通过上述步骤S1011-S1014能够识别出用户搜索的查询词Query中的地名词,以及带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词),可以通过步骤S102根据该些信息分析得到用户IP地址的归属地。
S102、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到带有地域属性的词的置信度。
为了准确获得IP地址的归属地,可以先获取Query中的带有地域属性的词的置信度,某一带有地域属性的词的置信度即表征该带有地域属性的词在判别IP地址归属地时的影响力的重要程度。带有地域属性的词的置信度可以通过以预先标注了IP地址归属地的用户搜索记录作为样本后训练获得,具体可以通过下述方法来训练获得某一带有地域属性的词的置信度:预先获取带有地名词并标注了IP地址归属地的用户搜索记录,统计在该些记录的Query中同时包含该带有地域属性的词与各个地名词的记录数,分别记为T[地名1]、T[地名2]、……T[地名n],同时统计在该些记录中该带有地域属性的词与某个地名词共现时,IP归属地为该地名的记录数,分别记为R[地名1]、R[地名2]、……R[地名n],将该带有地域属性的词的置信度记为P,则例如,图3为预先标注了IP地址归属地的用户搜索记录示例图,要从图3所示示例中获得带有地域属性的词“公交”的置信度,则统计“公交”与各个地名在Query中的共现频次,如,“公交”与“南京”在4条记录的Query中一同出现过,则T[南京]=4,其中有3条记录的IP地址归属地为南京,则R[南京]=3,同样,可以针对“公交”统计出T[北京]、T[天津]、R[北京]、R[天津]等,最后,“公交”的置信度为 需要说明的是,若在步骤S101中进一步从带有地域属性的词中提取了核心地域属性词,或者进一步得到了归一化后的最终核心地域属性词,则上述训练过程中训练得到的为核心地域属性词或者归一化后的最终核心地域属性词的置信度。
S103、根据用户ID、用户搜索的查询词Query和带有地域属性的词的置信度按预先设定的规则计算IP地址归属于Query中各个地域地名词的第一权重值,将第一权重值最高的地域作为IP地址的归属地。
在分析用户的搜索记录,识别了用户搜索的查询词Query中的地名词和带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词),以及在得到了各个带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的置信度P后,可以按照预先设定的规则计算IP地址归属于其对应的Query中各个地域地名词的第一权重值,并将第一权重值最高的地域作为IP地址的归属地。下面为本发明提供的一种优选实施方式来计算某一IP地址归属于各个地域的第一权重值:选取Query中含有地名词的该IP地址的用户搜索记录,统计含有该IP地址的用户搜索记录中的用户ID数,记为Cid,统计同时包含该地域地名词与各个带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的Query所对应的用户ID数,分别记为C[地名,词1]、C[地名,词2]……C[地名,词m],将该IP地址归属于该地域的第一权重值记为Z[地名],则 其中,词1、词2、……词m即指各个带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的置信度。通过上述方法可以算出某一IP地址归属于各个地域的第一权重值,最后,将第一权重值最高的地域作为IP地址的归属地。可以理解的是,上述计算IP地址归属于各个地域的第一权重值的方法仅为本发明提供的一种优选实施方式,在实际应用中可根据需要设定不同的规则来计算IP地址归属于各个地域的第一权重值,本发明对此不做限制。
下面通过具体示例来进一步阐述上述IP地址归属于各个地域的第一权重值计算过程,例如,图4为从预先获取的一段时间内的用户搜索记录示例中提取的IP地址为“114.112.29.35”且Query中含有地域地名词的用户搜索记录示例图,如图4所示,该些用户搜索记录的Query中共出现了“南京”和“北京”这两个地域的地名词,则可以采用上述方法分别计算该IP归属于“南京”和“北京”的第一权重值。在该些用户搜索记录中,共出现了3个不同的用户ID,则Cid=3,假定在该些用户搜索记录的Query中有“公交”和“天气”两个词为带有地域属性的词,其中“公交”与“南京”共在两个不同用户ID对应的用户搜索记录中出现过,则C[南京,公交]=2,“天气”与“南京”共在1个用户ID应的用户搜索记录中出现过,则C[南京,天气]=1,同样,可以得到C[北京,公交]=0,C[北京,天气]=1,假定“公交”和“天气”的置信度分别为P[公交]=0.6、P[天气]=0.75,则IP地址“114.112.29.35”归属于“南京”的第一权重值为 归属于“北京”的第一权重值为 可见,该IP地址归属于“南京”的第一权重值高于归属于“北京”的第一权重值,因此,判定该IP地址的归属地为“南京”。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
上述步骤S101-S103所提供的方法,能够通过分析预先获取的一段时间内用户搜索记录中的查询词Query,并结合用户ID,准确获取用户IP地址的归属地。之后,可以进一步将获取了用户IP地址归属地的记录作为样本用于训练获取上述方法中的带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的置信度P。
更进一步地,本发明所提供的方法还可以包括下述步骤S104-S105来结合地图搜索引擎获取用户的IP地址的归属地。
S104、根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值。
通常,地图搜索引擎在向用户提供地图搜索服务时,能够供用户设定默认城市,以便用户在使用访问地图搜索引擎网站时能够直接在其设定的默认城市中搜索相关地图信息,而用户在地图搜索引擎所设定的默认城市往往就是其所在地,因此,分析一段时间内用户在地图搜索引擎中设置的默认城市信息并结合用户ID可以获取用户IP地址的归属地。
可以预先将一段时间内用户访问地图搜索引擎网站时所设定的默认城市,以及用户ID和用户IP地址等信息形成记录后保存。例如“43179D117F6AC7BD4856744B31F4E0E8,125.34.37.129,北京”为一条所保存的用户设定的默认城市以及用户ID和用户IP地址的记录,其中,“43179D117F6AC7BD4856744B31F4E0E8”为用户ID,“125.34.37.129”为用户IP地址,“北京”为用户设定的默认城市。
可以根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,获取用户IP地址的归属地,具体方法可以为:根据用户设置的默认城市信息以及用户ID计算用户IP归属于不同城市的第二权重值Z[地图,地名],并将第二权重值Z[地图,地名]最高的城市作为IP地址的归属地,其中,用户IP归属于某一城市的第二权重值Z[地图,地名]为所预先获取的记录中默认城市为该城市的用户ID数与总的用户ID数的比例。图5为IP地址为“218.25.103.196”的默认城市信息以及用户ID记录示例图,如图5所示,所获取的该IP地址的记录中,共有4个用户ID,其中3个用户ID对应的默认城市为“沈阳”,1个用户ID对应的默认城市为“长春”,则该IP地址归属于“沈阳”的第二权重值Z[地图,沈阳]=3/4=0.75,该IP地址归属于“长春”的第二权重值Z[地图,长春]=1/4=0.25,因此判定该IP地址的归属地为“沈阳”。
通过步骤S104可以根据用户使用地图搜索引擎时设置的默认城市以及用户ID等信息,获取用户IP地址的归属地。之后,可以进一步通过步骤S105对根据用户搜索记录中的查询词Query和用户ID获得的用户IP的归属地,以及根据用户在地图搜索引擎中设置的默认城市和用户ID获得的用户IP的归属地进行整合。
S105、根据用户IP地址归属于各个地域的第一权重值和第二权重值对用户IP地址的归属地进行整合。
可以根据用户IP地址归属于各个地域的第一权重值和第二权重值对用户IP地址的归属地进行整合,具体可以采用下述方式来实现:
将IP地址归属于同一地域的第一权重值Z[地名]和第二权重值Z[地图,地名]相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的最终归属地。例如,某一IP地址根据用户ID和用户搜索的查询词Query得到的归属于“南京”和“北京”的第一权重值分别为Z[南京]=0.65,Z[北京]=0.25,该IP地址根据用户在地图搜索引擎中设置的默认城市和用户ID得到的归属于“南京”和“北京”的第二权重值分别为Z[地图,南京]=0.45,Z[地图,北京]=0.3,则该IP地址归属于“南京”的综合权重值为Z[南京]Z[地图,南京]=0.2925,归属于“南京”的综合权重值为Z[北京]Z[地图,北京]=0.075,该IP地址归属于“南京”的综合权重值较高,判定该IP地址的最终归属地为“南京”。
上述为对本发明实施例一所提供的方法进行的描述,可以看出,本发明能够基于搜索引擎,根据预先获取的用户搜索记录中的用户ID与查询词Query准确分析出用户IP地址的归属地,同时,本发明还可以根据用户在地图中设置的默认城市信息以及用户ID获取用户IP地址的归属地,并将两种方法的分析结果进行整合,得到更加准确的结果。通过本发明所提供的方法,使得互联网公司能够利用搜索引擎分析获得用户的所在地,从而能够进一步向用户提供具有地域特性的搜索服务。
实施例二
图6为本发明实施例二所提供的一种基于搜索引擎获取IP地址归属地的装置示意图,如图6所示,该装置包括:预处理单元10、训练单元20和判别单元30,该装置还可以进一步包括地图信息判别单元40。
预处理单元10,获取一段时间内的用户搜索记录,该用户搜索记录包括用户ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词。
可以预先记录一段时间内用户访问搜索引擎时的信息,该些信息可以包括用户ID、用户搜索的查询词Query和用户IP地址,将该些信息形成一条用户搜索记录进行保存。其中,用户ID是在用户初次通过PC端的浏览器访问搜索引擎网站时,为用户分配的ID,该用户ID保存在用户PC端的Cookie中,之后当用户再次访问搜索引擎网站时,可以直接从用户PC端的Cookie中获取用户ID。保存用户搜索记录的时间长短可以根据需要进行设定,例如,可以保存30天内的用户搜索记录。“00017255861E0FE2D25B26B6BDB1139A,114.112.29.35,北京362路公交”为一个用户搜索记录的示例,其中,“00017255861E0FE2D25B26B6BDB1139A”为用户ID,“114.112.29.35”为用户IP地址,“北京362路公交”为用户搜索的查询词Query。
为了能够根据用户搜索的查询词Query分析得到用户IP地址的归属地,预处理单元10可以在得到预先获取的一段时间内的用户搜索记录后,进一步分析处理用户搜索的查询词Query,以从Query中识别地名词以及带有地域属性的词。带有地域属性的词即指地域相关性较高的词,例如,“公交”和“天气”的地域相关性较高,而“万有引力”的地域相关性较低,可以认为“公交”和“天气”为带有地域属性的词。预处理单元10可以执行下述操作S2011-S2012识别Query中的地名词以及带有地域属性的词:
S2011、对Query进行分词处理,并获取Query中的地名词。
预处理单元10可以先对Query进行分词处理,将Query划分为一个个独立的分词,该过程属于现有技术,在此不过多赘述。之后,识别Query的分词中属于地名词的分词,预处理单元10可以通过将Query中的分词分别与预先建立的地名词典中的地名词进行匹配来完成这一识别过程。
更进一步地,预处理单元10还可以在本步骤中将所识别出的Query中的地名词根据其地理位置的从属关系将其归一为其所属地域,例如,某一查询词Query为“坐地铁苹果园到北影怎么走”,识别出其中“苹果园”和“北影”为地名,可以进一步在预先建立的地名词典中查询这两个地名的所属地域,得知“苹果园”和“北影”都位于北京,因此,可以将在该Query中识别出的地名词“苹果园”和“北影”归一为“北京”,即判别该Query中的地名词为“北京”。
S2012、提取Query中非地名词的分词,并查看每个非地名分词与地名词的共现率,将其中与地名词的共现率高于预设阈值的非地名分词作为带有地域属性的词。
将Query进行分词并识别出其中的地名词后,预处理单元10可以提取Query中非地名词的分词,并查看每个非地名分词与地名词的共现率。与地名词的共现率即指某一非地名词分词与所有地名词同时出现在Query中的频率,预处理单元10可以执行下述操作获得每个非地名分词与地名词的共现率:统计预先获取的一段时间的用户搜索的查询词Query中同时出现某一非地名分词和任一地名词的Query数N1,以及查询词Query中出现该某一非地名分词的Query数N2,则该某一非地名分词与地名词的共现率为N1/N2。例如,“餐厅”这一分词在预先获取的一段时间内的用户搜索记录的2000个Query中出现过,而“餐厅”与任一地名词共同在400个Query中出现过,则“餐厅”与地名词的共现率为400/2000=0.2。在得到了每一个非地名分词与地名词的共现率后,将与地名词的共现率高于预设阈值的非地名分词作为带有地域属性的词。
通过执行上述操作S2011-S2012预处理单元10可以得到用户搜索的查询词Query中带有地域属性的词,更进一步地,预处理单元10还可以执行下述操作S2013在所得到的带有地域属性的词中提取出核心地域属性词。
S2013、对所得到的带有地域属性进行词义分析,并提取核心地域属性词。
预处理单元10可以对所得到的带有地域属性的词进行词义分析,根据每个带有地域属性的词的词义在Query中的重要程度,为各个带有地域属性的词设定权重,其中,词义越重要的带有地域属性的词的权重值越高,最后可以提取权重值高于预设阈值的带有地域属性的词作为核心地域属性词。例如,某一Query中有“天气”和“的”两个带有地域属性的词,通过词义分析设定权重后,“天气”的权重值高于预设阈值,而“的”的权重值小于预设阈值,因此,提取“天气”作为核心地域属性词。对Query中的分词进行词性分析,并根据词义设定权重属于现有技术,在此不过多赘述。
执行操作S2013后,预处理单元10可以从带有地域属性的词中提取出核心地域属性词,更进一步地,预处理单元10还可以执行下述操作S2014对所得到的核心地域属性词进行归一化处理,得到最终的核心地域属性词。
S2014、对所得到的核心地域属性词进行归一化,得到最终的核心地域属性词。
预处理单元10可以对步骤S2013中得到的核心地域属性词进行归一化处理,归一化处理即指将属于同一类型的词进行归一化,例如,“公交”、“公交车”、“公共汽车”都属于“公交”这一类别,因此,将核心地域属性词中的“公交”、“公交车”、“公共汽车”都归一化为“公交”,“餐厅”、“餐馆”、“饭店”都属于“餐厅”这一类别,因此,将核心地域属性词中的“餐厅”、“餐馆”、“饭店”都归一化为“餐厅”。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。对核心地域属性词的归一化处理可以通过预先经过训练的文本分类器来实现,即,用预先经过训练的文本分类其对所得到的核心地域属性词进行分类,并将各个核心地域属性词归一化为其所属类别,得到最终的核心地域属性词,该方法属于现有技术,在此不过多赘述。
执行上述操作S2011-S2014后,预处理单元10能够识别出用户搜索的查询词Query中的地名词,以及带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)。
训练单元20,用于利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度。
为了能过准确获得IP地址的归属地,可以通过训练单元20获取Query中的带有地域属性的词的置信度,某一带有地域属性的词的置信度即表征该带有地域属性的词在判别IP地址归属地时的影响力的重要程度。带有地域属性的词的置信度可以通过以预先标注了IP地址归属地的用户搜索记录作为样本后训练获得,训练单元20具体可以执行下述操作来训练获得某一带有地域属性的词的置信度:预先获取带有地名词并标注了IP地址归属地的用户搜索记录,统计在该些记录的Query中同时包含该带有地域属性的词与各个地名词的记录数,分别记为T[地名1]、T[地名2]、……T[地名n],同时统计在该些记录中该带有地域属性的词与某个地名词共现时,IP归属地为该地名的记录数,分别记为R[地名1]、R[地名2]、……R[地名n],将该带有地域属性的词的置信度记为P,则
需要说明的是,若预处理单元10进一步从带有地域属性的词中提取了核心地域属性词,或者进一步得到了归一化后的最终核心地域属性词,则训练单元20在上述训练过程中训练得到的为核心地域属性词或者归一化后的最终核心地域属性词的置信度。
判别单元30,用于根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。优选地,可以按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。
在分析用户的搜索记录,识别了用户搜索的查询词Query中的地名词和带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词),在得到了各个带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的置信度P后,判别单元30可以按照预先设定的规则计算IP地址归属于其对应的Query中各个地域地名词的第一权重值,并将第一权重值最高的地域作为IP地址的归属地,下面为本发明提供的一种优选实施方式来计算某一IP地址归属于各个地域的第一权重值:选取Query中含有地名词的该IP地址的用户搜索记录,统计含有该IP地址的用户搜索记录中的用户ID数,记为Cid,统计同时包含该地域地名词与各个带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的Query所对应的用户ID数,分别记为C[地名,词1]、C[地名,词2]……C[地名,词m],将该IP地址归属于该地域的第一权重值记为Z[地名],则 其中,词1、词2、……词m即指各个带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的置信度。通过上述方法可以算出某一IP地址归属于各个地域的第一权重值,最后,将第一权重值最高的地域作为IP地址的归属地。可以理解的是,上述计算IP地址归属于各个地域的第一权重值的方法仅为本发明提供的一种优选实施方式,在实际应用中可根据需要设定不同的规则来计算IP地址归属于各个地域的权重值,本发明对此不做限制。
利用上述预处理单元10、训练单元20、判别单元30,能够通过分析预先获取的一段时间内用户搜索记录中的查询词Query,并结合用户ID,准确获取用户IP地址的归属地。之后,可以进一步将获取了用户IP地址归属地的记录作为样本用于训练获取上述方法中的带有地域属性的词(或核心地域属性词,或归一化后的最终核心地域属性词)的置信度P。
更进一步地,本发明所提供的装置还可以包括下述装置地图信息判别单元40来结合地图搜索引擎获取用户的IP地址的归属地。
地图信息判别单元40,用于根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值。
通常,地图搜索引擎在向用户提供地图搜索服务时,能够供用户设定默认城市,以便用户在使用访问地图搜索引擎网站时能够直接在其设定的默认城市中搜索相关地图信息,而用户在地图搜索引擎所设定的默认城市往往就是其所在地,因此,分析一段时间内用户在地图搜索引擎中设置的默认城市信息并结合用户ID可以获取用户IP地址的归属地。
可以预先将一段时间内用户访问地图搜索引擎网站时所设定的默认城市,以及用户ID和用户IP地址等信息形成记录后保存。例如“43179D117F6AC7BD4856744B31F4E0E8,125.34.37.129,北京”为一条所保存的用户设定的默认城市以及用户ID和用户IP地址的记录,其中,“43179D117F6AC7BD4856744B31F4E0E8”为用户ID,“125.34.37.129”为用户IP地址,“北京”为用户设定的默认城市。
之后,地图信息判别单元40可以根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,获取用户IP地址的归属地,地图信息判别单元40具体可以执行下述操作:根据用户设置的默认城市信息以及用户ID计算用户IP归属于不同城市的第二权重值Z[地图,地名],并将第二权重值Z[地图,地名]最高的城市作为IP地址的归属地,其中,用户IP归属于某一城市的第二权重值Z[地图,地名]为所预先获取的记录中默认城市为该城市的用户ID数与总的用户ID数的比例。
地图信息判别单元40可以根据用户使用地图搜索引擎时设置的默认城市以及用户ID等信息,获取用户IP地址的归属地。之后,判别单元30可以进一步对根据用户搜索记录中的查询词Query和用户ID获得的用户IP的归属地,以及根据用户在地图搜索引擎中设置的默认城市和用户ID获得的用户IP的归属地进行整合。
判别单元30可以根据用户IP地址归属于各个地域的第一权重值和第二权重值对用户IP地址的归属地进行整合,具体可以采用下述方式来实现:
将IP地址归属于同一地域的第一权重值Z[地名]和第二权重值Z[地图,地名]相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的最终归属地。例如,某一IP地址根据用户ID和用户搜索的查询词Query得到的归属于“南京”和“北京”的第一权重值分别为Z[南京]=0.65,Z[北京]=0.25,该IP地址根据用户在地图搜索引擎中设置的默认城市和用户ID得到的归属于“南京”和“北京”的第二权重值分别为Z[地图,南京]=0.45,Z[地图,北京]=0.3,则该IP地址归属于“南京”的综合权重值为Z[南京]Z[地图,南京]=0.2925,归属于“南京”的综合权重值为Z[北京]Z[地图,北京]=0.075,该IP地址归属于“南京”的综合权重值较高,判定该IP地址的最终归属地为“南京”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种基于搜索引擎获取互联网协议IP地址归属地的方法,其特征在于,该方法包括:
S1、获取一段时间内的用户搜索记录,所述用户搜索记录包括用户标识ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;
S2、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;
S3、根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地;
所述S2具体包括:
利用获取带有地域属性的词M的置信度P[M],其中,T[地名i]为所述训练样本中带有地域属性的词M与地名词i共现的记录数,R[地名i]为所述训练样本中带有地域属性的词M与地名词i共现时预先标注的IP地址归属地为该地名词i对应的地域的记录数,n为训练样本中与M共现的地名词数目。
2.根据权利要求1所述的方法,其特征在于,步骤S1中识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词具体包括:
S11、对所述用户搜索记录中的查询词进行分词,识别其中的地名词;
S12、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。
3.根据权利要求2所述的方法,其特征在于,所述步骤S12后还包括:
S13、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。
4.根据权利要求3所述的方法,其特征在于,所述步骤S13后还包括:
S14、根据带有地域属性的词的所属类别,对所述步骤S13提取出的带有地域属性的词进行归一化处理。
5.根据权利要求1至4任一权项所述的方法,其特征在于,步骤S3中所述确定该IP地址的归属地为:
按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。
6.根据权利要求5所述的方法,其特征在于,在所述按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值时,具体包括:
根据公式获取IP地址归属于地域L的第一权重值Z[L],其中,Cid为含有地名词的该IP地址的用户搜索记录中包括的用户ID数,C[L,词i]为所述含有地名词的该IP地址的用户搜索记录中地域L对应的地名词与带有地域属性的词i的共现的记录所对应的用户ID数,P[词i]为带有地域属性的词i的置信度,m为所述含有地名词的该IP地址的用户搜索记录中带有地域属性的词的数目。
7.根据权利要求5所述的方法,其特征在于,所述根据该第一权重值确定该IP地址的归属地为:
将用户IP地址归属于所述地名词对应的各地域的第一权重值中,第一权重值最高的地域作为该IP地址的归属地。
8.根据权利要求5所述的方法,其特征在于,该方法还包括:
S4、根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值;
所述根据该第一权重值确定该IP地址的归属地具体为:
整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地。
9.根据权利要求8所述的方法,其特征在于,所述计算IP地址归属于各个地域的第二权重值,具体包括:
将所述预先获取的用户在地图搜索引擎中设置的默认城市属于某一地域的用户ID数与总的用户ID数的比例作为IP地址归属于所述某一地域的第二权重值。
10.根据权利要求8所述的方法,其特征在于,所述整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地具体包括:
将IP地址归属于各个地域的第一权重值和第二权重值相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的归属地。
11.一种基于搜索引擎获取IP地址归属地的装置,其特征在于,该装置包括:
预处理单元,用于获取一段时间内的用户搜索记录,所述用户搜索记录包括用户ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;
训练单元,用于利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;
判别单元,用于根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地;
其中,训练单元具体用于:根据获取带有地域属性的词M的置信度P[M],其中,T[地名i]为所述训练样本中带有地域属性的词M与地名词i共现的记录数,R[地名i]为所述训练样本中带有地域属性的词M与地名词i共现时预先标注的IP地址归属地为该地名词i对应的地域的记录数,n为训练样本中与M共现的地名词数目。
12.根据权利要求11所述的装置,其特征在于,所述预处理单元在识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词时,具体执行:
S21、对所述用户搜索记录中的查询词进行分词,识别其中的地名词;
S22、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。
13.根据权利要求12所述的装置,其特征在于,所述预处理单元在执行S22后,还执行:
S23、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。
14.根据权利要求13所述的装置,其特征在于,所述预处理单元在执行S23后,还执行:
S24、根据带有地域属性的词的所属类别,对所述步骤S23提取出的带有地域属性的词进行归一化处理。
15.根据权利要求11至14任一权项所述的装置,其特征在于,所述判别单元在确定该IP地址的归属地时,具体执行:
按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。
16.根据权利要求15所述的装置,其特征在于,所述判别单元按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值时,具体执行:
根据公式获取IP地址归属于地域L的第一权重值Z[L],其中,Cid为含有地名词的该IP地址的用户搜索记录中包括的用户ID数,C[L,词i]为所述含有地名词的该IP地址的用户搜索记录中地域L对应的地名词与带有地域属性的词i的共现的记录所对应的用户ID数,P[词i]为带有地域属性的词i的置信度,m为所述含有地名词的该IP地址的用户搜索记录中带有地域属性的词的数目。
17.根据权利要求15所述的装置,其特征在于,所述判别单元根据该第一权重值确定该IP地址的归属地时,具体执行:
将用户IP地址归属于所述地名词对应的各地域的第一权重值中,第一权重值最高的地域作为该IP地址的归属地。
18.根据权利要求15所述的装置,其特征在于,该装置还包括:
地图信息判别单元,用于根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值;
所述判别单元根据该第一权重值确定该IP地址的归属地时,具体执行:
整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地。
19.根据权利要求18所述的装置,其特征在于,所述地图信息判别单元计算IP地址归属于各个地域的第二权重值时,具体执行:
将所述预先获取的用户在地图搜索引擎中设置的默认城市属于某一地域的用户ID数与总的用户ID数的比例作为IP地址归属于所述某一地域的第二权重值。
20.根据权利要求18所述的装置,其特征在于,所述判别单元整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地时,具体执行:
将IP地址归属于各个地域的第一权重值和第二权重值相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的归属地。
CN201310091285.XA 2013-03-21 2013-03-21 一种基于搜索引擎获取ip地址归属地的方法和装置 Active CN103207901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310091285.XA CN103207901B (zh) 2013-03-21 2013-03-21 一种基于搜索引擎获取ip地址归属地的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310091285.XA CN103207901B (zh) 2013-03-21 2013-03-21 一种基于搜索引擎获取ip地址归属地的方法和装置

Publications (2)

Publication Number Publication Date
CN103207901A CN103207901A (zh) 2013-07-17
CN103207901B true CN103207901B (zh) 2019-03-08

Family

ID=48755123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310091285.XA Active CN103207901B (zh) 2013-03-21 2013-03-21 一种基于搜索引擎获取ip地址归属地的方法和装置

Country Status (1)

Country Link
CN (1) CN103207901B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104780234B (zh) * 2014-01-14 2019-09-17 腾讯科技(深圳)有限公司 Ip归属地查询方法、装置及***
CN104780235B (zh) * 2014-01-14 2019-08-06 腾讯科技(深圳)有限公司 Ip归属地查询方法、装置和服务器
CN104168163A (zh) * 2014-08-27 2014-11-26 福建富士通信息软件有限公司 一种智能网络线路质量检测及数据分析方法
CN105335480A (zh) * 2015-10-13 2016-02-17 国家电网公司 一种互联网网站责任主体识别方法
CN106096040B (zh) * 2016-06-29 2019-06-04 中国人民解放军国防科学技术大学 基于搜索引擎的机构网站归属地判别方法及其装置
CN106357835B (zh) * 2016-09-05 2020-03-06 百度在线网络技术(北京)有限公司 一种用于确定目标ip地址所属地域的方法与设备
CN111327721B (zh) * 2020-02-28 2023-01-10 加和(北京)信息科技有限公司 Ip地址定位方法及装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012900A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 信息检索方法和***
CN102033947A (zh) * 2010-12-22 2011-04-27 百度在线网络技术(北京)有限公司 一种基于检索词的地域识别装置及方法
CN102880721A (zh) * 2012-10-15 2013-01-16 瑞庭网络技术(上海)有限公司 垂直搜索引擎的实现方法
CN102932492A (zh) * 2011-09-12 2013-02-13 微软公司 用户与ip地址租用事件的关联

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012900A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 信息检索方法和***
CN102033947A (zh) * 2010-12-22 2011-04-27 百度在线网络技术(北京)有限公司 一种基于检索词的地域识别装置及方法
CN102932492A (zh) * 2011-09-12 2013-02-13 微软公司 用户与ip地址租用事件的关联
CN102880721A (zh) * 2012-10-15 2013-01-16 瑞庭网络技术(上海)有限公司 垂直搜索引擎的实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用"百度"搜索网络信息资源;黄西安;《科技情报开发与经济》;20051231;第15卷(第4期);第257-259页
基于地理信息的用户行为理解;谢幸等;《https://wenku.***.com/view/927fed7202768e73876.html》;20110221;正文第6页

Also Published As

Publication number Publication date
CN103207901A (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
CN103207901B (zh) 一种基于搜索引擎获取ip地址归属地的方法和装置
CN110472066B (zh) 一种城市地理语义知识图谱的构建方法
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN104143005B (zh) 一种相关搜索***及方法
CN103955505B (zh) 一种基于微博的事件实时监测方法及***
CN103678576B (zh) 基于动态语义分析的全文检索***
CN110162695A (zh) 一种信息推送的方法及设备
CN105244031A (zh) 说话人识别方法和装置
CN106933947B (zh) 一种搜索方法及装置、电子设备
CN105843850B (zh) 搜索优化方法和装置
CN109582969A (zh) 实体匹配方法、装置及电子设备
US20140025701A1 (en) Query expansion
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN102541936A (zh) 兴趣点流行度获取方法和装置
CN109636495A (zh) 一种基于大数据的科技信息在线推荐方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN108241690A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
CN110246496A (zh) 语音识别方法、***、计算机设备及储存介质
CN102646124A (zh) 一种自动识别地址信息的方法
CN109299469A (zh) 一种在长文本中识别复杂住址的方法
WO2010096986A1 (zh) 移动搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant