CN102033947B - 一种基于检索词的地域识别装置及方法 - Google Patents
一种基于检索词的地域识别装置及方法 Download PDFInfo
- Publication number
- CN102033947B CN102033947B CN 201010600685 CN201010600685A CN102033947B CN 102033947 B CN102033947 B CN 102033947B CN 201010600685 CN201010600685 CN 201010600685 CN 201010600685 A CN201010600685 A CN 201010600685A CN 102033947 B CN102033947 B CN 102033947B
- Authority
- CN
- China
- Prior art keywords
- regional feature
- region
- term
- words
- regional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于检索词的地域识别装置及方法,该方法包括:获取检索词;扩充检索词,获得描述检索词的描述文本信息;从描述文本信息提取第一地域特征词集合;根据描述文本信息计算第一地域特征词对应的权值,形成第一地域特征向量;根据第一地域特征词集合获取多个备选地域,按照行政区域分别对多个备选地域进行扩展,获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合,根据行政区域级别计算多个第二地域特征词的权值,形成多个第二地域特征向量;分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,根据计算结果判断检索词的对应地域。通过以上方式,可精确定位检索词所描述地域。
Description
技术领域
本发明涉及互联网技术,特别涉及一种基于检索词的地域识别装置及方法。
背景技术
随着互联网技术的发展,网络地图已成为人们日常生活的一部分。人们可利用网络地图进行公交路线查找、驾驶导航、街道和建筑物搜索等动作,网络地图的出现极大地便利了人们的生活。
就现有技术而言,通常,若用户需要在网络地图上查找某个地点名称(如某某街道、天安门或东方明珠塔等),网络地图往往会先提供城市列表给用户选择,由用户挑选城市后,然后可在网络地图上输入一个检索词,然后网络地图在用户挑选的城市范围内进行搜索与检索词匹配的地点名称及相应座标。
另外一些网络地图中,网络地图会根据用户当前使用的电脑的IP地址所在城市预先定位和限定搜索的范围,然后网络地图在用户电脑的IP地址所属的城市范围内进行搜索与检索词匹配的地点名称及相应座标。
上述两种网络地图的现有技术均透过预先限定搜索范围而非在全部地图范围内进行搜索,来加速搜索的响应时间。然而,若用户当前使用的电脑的IP地址所在城市为广州市时(又或者是用户在网络地图上手动选择了特定城市为广州市),在网络地图上输入检索词为“天安门”,想在网络地图上获得北京天安门广场的地图信息时,网络地图却会限定在广州市内对标示有“天安门”的所有街道、建筑以及地名进行查询,可能会输出一系列与天安门不相关的街道、建筑或地名,如天安门大酒店、天安门大道等,与用户想要检索到的城市“北京市”不符。
由此可见,现有技术中的网络地图难以精确定位检索词所描述的地域,举例来说,若用户仅知道地点名称,却不知道所在城市的情况,所输入的检索词在现有技术的搜索结果难以精准定位到检索词所在城市,造成用户为了查找到检索词所在城市,需要不断修正检索词或者点选多次的搜索结果才能得知检索词所在城市,导致网络地图服务器资源占用,以及网络流量浪费等问题。
发明内容
本发明提供了一种基于检索词的地域识别装置及方法,可解决现有技术中的网络地图难以精确定位检索词所描述的地域的技术问题。
具体方案如下:提供一种基于检索词的地域识别方法,包括:a.获取检索词;b.对检索词进行扩充,获得描述检索词的描述文本信息;c.从描述文本信息提取第一地域特征词集合;d.根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;e.根据第一地域特征词集合获取多个备选地域,按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合,并根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;f.分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根据计算结果判断检索词的对应地域。
根据本发明之一优选实施例,在步骤b中,利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信息。
根据本发明之一优选实施例,在步骤c中,根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词。
根据本发明之一优选实施例,在步骤d中,根据描述文本信息利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
根据本发明之一优选实施例,在步骤e中,利用聚类算法从第一地域特征词集合提取备选地域。
根据本发明之一优选实施例,在步骤e中,行政区域级别越低的第二地域特征词的权值越大。
根据本发明之一优选实施例,在步骤f中,利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。
根据本发明之一优选实施例,在步骤f中,进一步判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域。
根据本发明之一优选实施例,在步骤f中,判断最大值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准。
本发明进一步提供一种基于检索词的地域识别装置,包括:检索词获取模块,用于获取检索词;检索词扩充模块,用于对检索词进行扩充,获得描述检索词的描述文本信息;第一地域特征词获取模块,用于从描述文本信息提取第一地域特征词集合,第一地域特征向量获取模块,用于根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;第二地域特征向量获取模块,包括:备选地域获取模块,用于根据第一地域特征词集合获取多个备选地域;第二地域特征词获取模块,用于按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合;第二地域特征词权值计算模块,用于根据行政区域级别计算多组第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;相似度计算模块,用于分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根据计算结果判断检索词的对应地域。
根据本发明之一优选实施例,检索词扩充模块利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信息。
根据本发明之一优选实施例,第一地域特征词获取模块用于根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词。
根据本发明之一优选实施例,第一地域特征向量获取模块用于根据描述文本信息利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
根据本发明之一优选实施例,备选地域获取模块利用聚类算法从第一地域特征词集合提取备选地域。
根据本发明之一优选实施例,第二地域特征词权值计算模块的权值计算规则为:行政区域级别越低的第二地域特征词的权值越大。
根据本发明之一优选实施例,相似度计算模块包括余弦相似度计算模块,余弦相似度计算模块利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。
根据本发明之一优选实施例,相似度计算模块进一步包括判断模块,判断模块用于判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域。
根据本发明之一优选实施例,判断模块用于判断最大值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准。
因此,本发明提供的技术方案可准确获取与检索词所描述最为接近的地域,保证了网络地图可在与检索词所描述最为接近的地域进行搜索,即用户在网络地图输入想要查找目的地的检索词后,本发明提供的基于检索词的地域识别装置及方法可精确定位检索词所描述的地域(如省、城市、县、区等),网络地图可在该地域上进行搜索,以向用户呈现目标地域中的搜索结果。
附图说明
图1是根据本发明第一实施例的基于检索词的地域识别方法的流程图;
图2是根据本发明第一实施例的基于检索词的地域识别方法中的形成第二地域特征向量的流程图;
图3是根据本发明第二实施例的基于检索词的地域识别装置的示意框图;
图4是根据本发明第二实施例的基于检索词的地域识别装置的相似度计算模块的示意框图;
图5是根据本发明第三实施例的基于检索词的地域识别装置的示意框图;以及
图6是根据本发明第四实施例的基于检索词的地域识别装置的示意框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参见图1,图1是根据本发明第一实施例的基于检索词的地域识别方法的流程图。如图1所示,根据本发明第一实施例的基于检索词的地域识别方法包括如下步骤:
步骤101,获取检索词。在本发明的优选实施例中,检索词可为用户输入至网络地图进行查询的地点名称(如街道、建筑物、路标等),举例而言,用户可输入“罗阳五村”至网络地图进行查询。
步骤102,对检索词进行扩充,获得描述检索词的描述文本信息。在本发明的优选实施例中,可利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信息。具体而言,可对搜索引擎搜索到的与检索词相关的特定个数的页面的网页信息进行分析,如可取搜索引擎搜索到的与检索词相关的前10页的网页信息作为检索词的描述文本信息。如,当用户输入检索词为“罗阳五村”时,可利用搜索引擎搜索带有“罗阳五村”检索词的网页信息,并截取前10页作为描述文本信息。
步骤103,从描述文本信息提取第一地域特征词集合。在本发明的优选实施例中,可根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词集合,其中,地域特征词典中记录有地域特征词,如某某省、某某市、某某县、某某区、某某街道、某某建筑物、某某路标等,当在描述文本信息中发现有在地域特征词典中记录的地域特征词时,就将该描述文本信息中对应的地域特征词作为第一地域特征词,从而提取多个第一地域特征词以组成第一地域特征词集合。因此,在对描述文本信息进行匹配搜索后,可提取第一地域特征词集合。优选地,第一地域特征词集合是由复数个不重复的第一地域特征词所组成,并且第一地域特征词集合不包含检索词。如,承步骤102中所举例子,在利用搜索引擎搜索带有“罗阳五村”检索词的网页信息,并截取前10页作为描述文本信息后,可利用地域特征词典对描述文本信息进行匹配搜索,以获取复数个不重复的第一地域特征词,以形成第一地域特征词集合。其中,第一地域特征词集合可例如为:{上海 闵行 闵行区 上海市 徐汇 莲花 广州 方正 长宁区 瑞丽 奉贤区}。
步骤104,根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量。其中,检索词可以作为第一地域特征向量的名称或者识别信息。具体来说,计算第一地域特征词对应的权值的算法可使用现有技术的词频统计、词的知名度加权、TF-IDF等方法。在本发明的优选实施例中,可利用TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文件频率)算法计算第一地域特征词集合中每一第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
因此,在第一地域特征词集合为{上海 闵行 闵行区 上海市 徐汇 莲花 广州 方正 长宁区 瑞丽 奉贤区}时,在算得其权值后所形成的第一地域特征向量如下(为节省篇幅,将计算过程略去,其计算方法可利用如上所述的词频统计、词的知名度加权、TF-IDF等方法,并且提供以下权值以作参考):
罗阳五村:{{上海:183.84}{闵行:136.83}{闵行区:67.54}{上海市:15.55}{徐汇:10.39}{莲花:10.39}{广州:4.24}{方正:3.46}{长宁区:3.46}{瑞丽:1.73}{奉贤区:1.73}}
步骤105,根据第一地域特征词集合形成多个第二地域特征向量。
以下将参见图2对步骤105作进一步说明,图2是根据本发明第一实施例的基于检索词的地域识别方法的形成第二地域特征向量的流程图,其为步骤105中形成第二地域特征向量的优选方法。
如图2所示,形成第二地域特征向量的流程包括:
步骤1051,根据第一地域特征词集合获取多个备选地域。
步骤1052,按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合。
步骤1053,根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词对应的权值,形成多个第二地域特征向量。
其中,在步骤1051中,可利用现有技术中的聚类算法从第一地域特征词集合提取备选地域,该备选地域应为同一级别的行政区域,如省、城市、县、区中的任意一者。当备选地域的行政区域级别设定为“城市”时,可根据聚类算法将第一地域特征词集合中的城市提取出来。
比方,当第一地域特征词中包含“深南路”一词时,通过聚类算法,可将其所对应的城市“深圳市”提取出来,同样地,当第一地域特征词中包含“东方明珠塔”一词时,通过聚类算法,亦可将其所对应的城市“上海市”提取出来。以上所举之例子以“城市”作为备选地域的行政区域级别,但,备选地域亦可根据需要设置为不同的行政区域级别,如省、县、区等等,因此,若选取“区”作为备选地域的行政区域级别时,若第一地域特征词中包含“东方明珠塔”一词时,通过聚类算法,可将其对应的区“浦东新区”提取出来。
因此,在本实施例中,以“城市”作为备选地域的行政区域级别,因此,在第一地域特征词集合为{上海 闵行 闵行区 上海市 徐汇 莲花 广州方正 长宁区 瑞丽 奉贤区}时,可根据第一地域特征词集合获取多个备选地域如下:
{上海市 萍乡市 广州市 哈尔滨市}
具体来说,步骤1051所使用的聚类算法可例如为以下任一种皆可:凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法。值得注意的是,本发明并不限定所采用的聚类算法,只要可以保证所采用算法能将第一地域特征词归类在一起即可,聚类算法为本领域公知常识,在此不再赘述。
在步骤1052中,当按照行政区域分别对多个备选地域进行扩展时,具体可通过查询地域特征词典进行扩展,如当利用聚类算法从第一地域特征词集合中提取的备选地域以“城市”作为行政区域级别时,可进一步查询该城市中的所有县、区或所在省,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词,以形成多个备选地域相对应的第二地域特征词集合。优选地,第二地域特征词集合是由复数个不重复的第二地域特征词所组成。
在本实施例中,步骤1051获取的多个备选地域如下:
{上海市 萍乡市 广州市 哈尔滨市}
步骤1052根据每个备选地域获得相应的第二地域特征词集合如下:
上海市:{上海市 上海 宝山区 宝山 南汇区 南汇 浦东新区 浦东 杨浦区 杨浦 闵行区 闵行......}
萍乡市:{江西省 江西 萍乡市 萍乡 莲花 县莲花......}
广州市:......
哈尔滨市:......
在步骤1053中,根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词对应的权值,形成多个第二地域特征向量。其中,在本发明的优选实施例中,可定义行政区域级别越低的第二地域特征词的权值越大,并且,备选地域可以作为第二地域特征向量的名称或者识别信息。因此,算得其权值后所形成的第二地域特征向量如下:
上海市:{{上海市:4}{上海:3}{宝山区:6}{宝山:5}{南汇区:6}{南汇:5}{浦东新区:6}{浦东:5}{杨浦区:6}{杨浦:5}{闵行区:6}{闵行:5}......}
萍乡市:{{江西省:2}{江西:1}{萍乡市:4}{萍乡:3}{莲花县:6}{莲花:5}......}
广州市:......
哈尔滨市:......
因此,本发明优选利用图2中之步骤1051-1053形成多个第二地域特征向量。
请继续参见图1,步骤106,其分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根据计算结果判断检索词的对应地域。
在本发明的优选实施例中,可利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。并且,可判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域,进一步地,更可判断最大值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准,从而输出对应地域。
具体地,余弦相似度计算公式可为:
因此,如上,多个第二地域特征向量为:
上海市:{{上海市:4}{上海:3}{宝山区:6}{宝山:5}{南汇区:6}{南汇:5}{浦东新区:6}{浦东:5}{杨浦区:6}{杨浦:5}{闵行区:6}{闵行:5}......}
萍乡市:{{江西省:2}{江西:1}{萍乡市:4}{萍乡:3}{莲花县:6}{莲花:5}......}
广州市:......
哈尔滨市:......
现可分别将以上多个第二地域特征向量与第一地域特征向量:
罗阳五村:{{上海:183.84}{闵行:136.83}{闵行区:67.54}{上海市:15.55}{徐汇:10.39}{莲花:10.39}{广州:4.24}{方正:3.46}{长宁区:3.46}{瑞丽:1.73}{奉贤区:1.73}}
代入至公式1.1中,以获取多个余弦相似度值。
如,可首先将第一地域特征向量与上海市的第二地域特征向量进行余弦相似度运算如下:
Sim(“罗阳五村”,“上海市”)=(183.84×4+136.83×3+15.55×6+10.39×5+3.46×6+1.73×6)/sqrt((183.84×183.84+136.83×136.83+67.54×67.54+15.55×15.55+10.39×10.39+10.39×10.39+4.24×4.24+3.46×3.46+1.73×1.73)×(4×4+3×3+6×6+5×5+6×6+5×5+6×6+......))=......同理,计算其它城市的相似度:
Sim(“罗阳五村”,“萍乡市”)
=......
Sim(“罗阳五村”,“广州市”)
=......
Sim(“罗阳五村”,“哈尔滨市”)
=......
分别将以上相似度计算结果进行如下比较,如果以下2个条件同时成立,则说明“罗阳五村”这个检索词的对应地域是“上海市”,因此输出“上海市”作为结果:
1.Sim(“罗阳五村”,“上海市”)≥第一阈值
2.Sim(“罗阳五村”,“上海市”)/(Sim(“罗阳五村”,”上海市”)+Sim(“罗阳五村”,”萍乡市”)+Sim(“罗阳五村”,”广州市”)+Sim(“罗阳五村”,”哈尔滨市”))≥第二阈值
其中,第一阈值和第二阈值根据实际应用测算,其值可根据实际需要而变动。
另外,当算出各城市的相似度不满足以上2个条件中的任一者时,将不会输出对应地域。值得注意的是,当发生以上情况时,很可能是因为用户所输入的检索词为“肯德基”、“餐厅”、“公路”等不能作为城市(或地域)的标志性建筑(或地标)的词语(因各地均有以上名称)。对于以上词语,本方法将不会输出对应地域。
值得注意的是,在本发明的其他实施例中,更可保存处理过的检索词与对应地域,并在检索词与对应地域之间建立一一对应的索引关系,当用户输入检索词时,可进一步查询该检索词在之前是否处理过,即查询该检索词是否保存,若查询到该检索词已保存,则可根据索引关系直接调取对应地域作为结果输出网络地图,由网络地图在对应地域范围内上进行搜索与检索词匹配的地点名称及相应座标。
请继续参见图3,图3是根据本发明第二实施例的基于检索词的地域识别装置的示意框图,值得注意的是,根据本发明第二实施例的基于检索词的地域识别装置中的各个模块可分别执行根据本发明第一实施例的基于检索词的地域识别方法中每一步骤。如图3所示,本发明的基于检索词的地域识别装置300包括:
检索词获取模块310,用于获取检索词。在本发明的优选实施例中,检索词可为用户输入至网络地图进行查询的地点名称(如街道、建筑物、路标等),举例而言,用户可输入“罗阳五村”至网络地图进行查询。
检索词扩充模块320,用于对检索词进行扩充,获得描述检索词的描述文本信息。在本发明的优选实施例中,检索词扩充模块320可利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信息。具体而言,可对搜索引擎搜索到的与检索词相关的特定个数的页面的网页信息进行分析,如可取搜索引擎搜索到的与检索词相关的前10页的网页信息作为检索词的描述文本信息。如,当用户输入检索词为“罗阳五村”时,可利用搜索引擎搜索带有“罗阳五村”检索词的网页信息,并截取前10页作为描述文本信息。
第一地域特征词获取模块330,用于从描述文本信息提取第一地域特征词集合。在本发明的优选实施例中,可根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词集合,其中,地域特征词典中记录有地域特征词,如某某省、某某市、某某县、某某区、某某街道、某某建筑物、某某路标等,当在描述文本信息中发现有在地域特征词典中记录的地域特征词时,就将该描述文本信息中对应的地域特征词作为第一地域特征词,从而提取多个第一地域特征词以组成第一地域特征词集合。因此,在对描述文本信息进行匹配搜索后,可提取第一地域特征词集合。优选地,第一地域特征词集合是由复数个不重复的第一地域特征词所组成,并且第一地域特征词集合不包含检索词。如,在利用搜索引擎搜索带有“罗阳五村”检索词的网页信息,并截取前10页作为描述文本信息后,可利用地域特征词典对描述文本信息进行匹配搜索,以获取复数个不重复的第一地域特征词,以形成第一地域特征词集合。其中,第一地域特征词集合可例如为:{上海 闵行 闵行区 上海市 徐汇 莲花 广州 方正 长宁区 瑞丽 奉贤区}。
第一地域特征向量获取模块340,用于根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量。其中,检索词可以作为第一地域特征向量的名称或者识别信息。具体来说,计算第一地域特征词对应的权值的算法可使用现有技术的词频统计、词的知名度加权、TF-IDF等方法。在本发明的优选实施例中,可利用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)算法计算第一地域特征词集合中每一第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
因此,在第一地域特征词集合为{上海闵行闵行区上海市徐汇莲花广州方正长宁区瑞丽奉贤区}时,在算得其权值后所形成的第一地域特征向量如下(为节省篇幅,将计算过程略去,其计算方法可利用如上所述的词频统计、词的知名度加权、TF-IDF等方法,并且提供以下权值以作参考):
罗阳五村:{{上海:183.84}{闵行:136.83}{闵行区:67.54}{上海市:15.55}{徐汇:10.39}{莲花:10.39}{广州:4.24}{方正:3.46}{长宁区:3.46}{瑞丽:1.73}{奉贤区:1.73}}。
第二地域特征向量获取模块350,根据第一地域特征词集合形成多个第二地域特征向量。
其中,第二地域特征向量获取模块350可包括:
备选地域获取模块351,用于根据第一地域特征词集合获取多个备选地域。
第二地域特征词获取模块352,用于按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合。
第二地域特征词权值计算模块353,用于根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词对应的权值,形成多个第二地域特征向量。
其中,备选地域获取模块351可利用现有技术中的聚类算法从第一地域特征词集合提取备选地域,该备选地域应为同一级别的行政区域,如省、城市、县、区中的任意一者。当备选地域的行政区域级别设定为“城市”时,可根据聚类算法将第一地域特征词集合中的城市提取出来。
比方,当第一地域特征词中包含“深南路”一词时,通过聚类算法,可将其所对应的城市“深圳市”提取出来,同样地,当第一地域特征词中包含“东方明珠塔”一词时,通过聚类算法,亦可将其所对应的城市“上海市”提取出来。以上所举之例子以“城市”作为备选地域的行政区域级别,但,备选地域亦可根据需要设置为不同的行政区域级别,如省、县、区等等,因此,若选取“区”作为备选地域的行政区域级别时,若第一地域特征词中包含“东方明珠塔”一词时,通过聚类算法,可将其对应的区“浦东新区”提取出来。
因此,在本实施例中,以“城市”作为备选地域的行政区域级别,因此,在第一地域特征词集合为{上海 闵行 闵行区 上海市 徐汇 莲花 广州方正 长宁区 瑞丽 奉贤区}时,可根据第一地域特征词集合获取多个备选地域如下:
{上海市 萍乡市 广州市 哈尔滨市}
具体来说,备选地域获取模块351所使用的聚类算法可例如为以下任一种皆可:凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法。值得注意的是,本发明并不限定所采用的聚类算法,只要可以保证所采用算法能将第一地域特征词归类在一起即可,聚类算法为本领域公知常识,在此不再赘述。
第二地域特征词获取模块352可用于按照行政区域分别对多个备选地域进行扩展时,具体可通过查询地域特征词典进行扩展,当备选地域获取模块351利用聚类算法从第一地域特征词集合中提取的备选地域以“城市”作为行政区域级别时,第二地域特征词获取模块352可进一步查询该城市中的所有县、区或所在省,以获取多个与备选地域相关的不同行政区域级别的第二地域特征词,以形成多个备选地域相对应的第二地域特征词集合。优选地,第二地域特征词集合是由复数个不重复的第二地域特征词所组成。
在本实施例中,备选地域获取模块351获取的多个备选地域如下:
{上海市 萍乡市 广州市 哈尔滨市}
第二地域特征词获取模块352根据每个备选地域获得相应的第二地域特征词集合如下:
上海市:{上海市 上海 宝山区 宝山 南汇区 南汇 浦东新区 浦东 杨浦区 杨浦 闵行区 闵行......}
萍乡市:{江西省 江西 萍乡市 萍乡 莲花县 莲花......}
广州市:......
哈尔滨市:......
并且,第二地域特征词权值计算模块353用于根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词对应的权值,形成多个第二地域特征向量。其中,在本发明的优选实施例中,可定义行政区域级别越低的第二地域特征词的权值越大,并且,备选地域可以作为第二地域特征向量的名称或者识别信息。因此,算得其权值后所形成的第二地域特征向量如下:
上海市:{{上海市:4}{上海:3}{宝山区:6}{宝山:5}{南汇区:6}{南汇:5}{浦东新区:6}{浦东:5}{杨浦区:6}{杨浦:5}{闵行区:6}{闵行:5}......}
萍乡市:{{江西省:2}{江西:1}{萍乡市:4}{萍乡:3}{莲花县:6}{莲花:5}......}
广州市:......
哈尔滨市:......
另外,本发明的基于检索词的地域识别装置包括相似度计算模块360,其用于分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根据计算结果判断检索词的对应地域。
请进一步参见图4,其中图4是根据本发明第二实施例的基于检索词的地域识别装置的相似度计算模块360的示意框图,如图4所示,相似度计算模块360包括余弦相似度计算模块361,其可利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。并且,相似度计算模块360更可包括判断模块362,其可判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域。在本发明的优选实施方式中,判断模块362可判断最大值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准,从而输出对应地域。
因此,如上,多个第二地域特征向量为:
上海市:{{上海市:4}{上海:3}{宝山区:6}{宝山:5}{南汇区:6}{南汇:5}{浦东新区:6}{浦东:5}{杨浦区:6}{杨浦:5}{闵行区:6}{闵行:5}......}
萍乡市:{{江西省:2}{江西:1}{萍乡市:4}{萍乡:3}{莲花县:6}{莲花:5}......}
广州市:......
哈尔滨市:......
余弦相似度计算模块361可分别将以上多个第二地域特征向量与第一地域特征向量:
罗阳五村:{{上海:183.84}{闵行:136.83}{闵行区:67.54}{上海市:15.55}{徐汇:10.39}{莲花:10.39}{广州:4.24}{方正:3.46}{长宁区:3.46}{瑞丽:1.73}{奉贤区:1.73}}
代入至公式1.1中,以获取多个余弦相似度值。
如,余弦相似度计算模块361可首先将第一地域特征向量与上海市的第二地域特征向量进行余弦相似度运算如下:
Sim(“罗阳五村”,“上海市”)=(183.84×4+136.83×3+15.55×6+10.39×5+3.46×6+1.73×6)/sqrt((183.84×183.84+136.83×136.83+67.54×67.54+15.55×15.55+10.39×10.39+10.39×10.39+4.24×4.24+3.46×3.46+1.73×1.73)×(4×4+3×3+6×6+5×5+6×6+5×5+6×6+......))=......同理,计算其它城市的相似度:
Sim(“罗阳五村”,“萍乡市”)
=......
Sim(“罗阳五村”,“广州市”)
=......
Sim(“罗阳五村”,“哈尔滨市”)
=......
然后,判断模块362分别将以上相似度计算结果进行如下比较,如果以下2个条件同时成立,则说明“罗阳五村”这个检索词的对应地域是“上海市”,因此输出“上海市”作为结果:
1.Sim(“罗阳五村”,“上海市”)≥第一阈值
2.Sim(“罗阳五村”,“上海市”)/(Sim(“罗阳五村”,”上海市”)+Sim(“罗阳五村”,”萍乡市”)+Sim(“罗阳五村”,”广州市”)+Sim(“罗阳五村”,”哈尔滨市”))≥第二阈值
其中,第一阈值和第二阈值根据实际应用测算,其值可根据实际需要而变动。
另外,当阈值判断模块算出各城市的相似度不满足以上2个条件中的任一者时,将不会输出结果。值得注意的是,当发生以上情况时,很可能是因为用户所输入的检索词为“肯德基”、“餐厅”、“公路”等不能作为城市(或地域)的标志性建筑(或地标)的词语(因各地均有以上名称)。对于以上词语,本装置将不会输出结果。
另外,判断模块362除可利用阈值进行以上所述的判断外,也可以采用其他预定标准作比较,只要其能保证多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准即可。
请进一步参见图5,图5是根据本发明第三实施例的基于检索词的地域识别装置的示意框图。如图5所示,本发明的基于检索词的地域识别装置300可设置于浏览器400与网络地图***500之间,因此,网络地图***500可直接在本发明的基于检索词的地域识别装置300所输出的检索词的对应地域范围内上进行地图检索,从而可更加准确地在网络地图***500上获取目标地点,进而提升了用户体验。
并请参见图6,图6是根据本发明第四实施例的基于检索词的地域识别装置的示意框图。如图6所示,与本发明第三实施例相比,本实施例中的地域识别装置可进一步包括检索词记录模块370和检索词对应地域信息记录模块380,检索词记录模块370用于存储检索词获取模块310所获取的检索词,检索词对应地域信息记录模块380用于存储相似度计算模块360所计算出的与该检索词对应的对应地域。
具体而言,检索词获取模块310可将所获取的检索词备份至检索词记录模块370,并且相似度计算模块360可将与检索词对应的对应地域备份至检索词对应地域信息记录模块380,而在检索词记录模块370与检索词对应地域信息记录模块380中可根据检索词建立检索词与检索词对应地域信息一一对应的索引关系。
因此,当检索词获取模块310获取一检索词后,可进一步在检索词记录模块370中进行匹配查找,以判断检索词记录模块370中是否存在相同检索词,若判断到检索词记录模块370中存在相同检索词,则表明之前已经对该检索词进行过处理,并且处理结果(即该检索词的对应地域)作为检索词对应地域信息存储于检索词对应地域信息记录模块380中。此时,检索词对应地域信息记录模块380可将该检索词对应的检索词对应地域信息作为对应地域输出至网络地图***500,从而避免了重复运算,提高了处理效率。
通过上述方式,本发明提供了一种基于检索词的地域识别装置及方法,可准确获取与检索词所描述最为接近的地域,保证了网络地图可在与检索词所描述最为接近的地域进行搜索,即用户在网络地图输入想要查找目的地的关键词后,本发明提供的基于检索词的地域识别装置及方法可精确定位检索词所描述的地域(如省、城市、县、区等),网络地图可在该地域上进行搜索,以向用户呈现目标地域中的搜索结果。。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种基于检索词的地域识别方法,其特征在于,包括:
a.获取所述检索词;
b.对所述检索词进行扩充,获得描述所述检索词的描述文本信息;
c.从所述描述文本信息提取第一地域特征词集合;
d.根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;
e.根据所述第一地域特征词集合获取多个备选地域,按照行政区域分别对所述多个备选地域进行扩展,以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合,并根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;
f.分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算,并根据计算结果判断所述检索词的对应地域。
2.根据权利要求1所述的方法,其特征在于,在所述步骤b中,利用搜索引擎搜索与所述检索词相关的网页信息,并将所述网页信息作为所述描述文本信息。
3.根据权利要求1所述的方法,其特征在于,在所述步骤c中,根据地域特征词典对所述描述文本信息进行匹配搜索,以获取所述第一地域特征词。
4.根据权利要求1所述的方法,其特征在于,在所述步骤d中,根据所述描述文本信息利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值,以形成所述第一地域特征向量;其中,所述TF-IDF为:词频-逆文件频率。
5.根据权利要求1所述的方法,其特征在于,在所述步骤e中,利用聚类算法从所述第一地域特征词集合提取所述备选地域。
6.根据权利要求5所述的方法,其特征在于,在所述步骤e中,行政区域级别越低的第二地域特征词的权值越大。
7.根据权利要求1所述的方法,其特征在于,在所述步骤f中,利用余弦相似度计算公式分别对所述多个第二地域特征向量与所述第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。
8.根据权利要求7所述的方法,其特征在于,在所述步骤f中,进一步判断所述多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若所述区别度符合所述预定标准,则将所述最大值对应的备选地域作为所述检索词的对应地域。
9.根据权利要求8所述的方法,其特征在于,在所述步骤f中,判断所述最大值是否大于第一阈值,并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大于第二阈值,若所述最大值大于所述第一阈值且所述比例大于所述第二阈值,则判定所述区别度符合所述预定标准。
10.一种基于检索词的地域识别装置,其特征在于,包括:
检索词获取模块,用于获取所述检索词;
检索词扩充模块,用于对所述检索词进行扩充,获得描述所述检索词的描述文本信息;
第一地域特征词获取模块,用于从所述描述文本信息提取第一地域特征词集合;
第一地域特征向量获取模块,用于根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;
第二地域特征向量获取模块,包括:
备选地域获取模块,用于根据所述第一地域特征词集合获取多个备选地域;
第二地域特征词获取模块,用于按照行政区域分别对所述多个备选地域进行扩展,以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合;
第二地域特征词权值计算模块,用于根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;
相似度计算模块,用于分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算,并根据计算结果判断所述检索词的对应地域。
11.根据权利要求10所述的装置,其特征在于,所述检索词扩充模块利用搜索引擎搜索与所述检索词相关的网页信息,并将所述网页信息作为所述描述文本信息。
12.根据权利要求10所述的装置,其特征在于,所述第一地域特征词获取模块用于根据地域特征词典对所述描述文本信息进行匹配搜索,以获取所述第一地域特征词。
13.根据权利要求10所述的装置,其特征在于,所述第一地域特征向量获取模块用于根据所述描述文本信息利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值,以形成所述第一地域特征向量;其中,所述TF-IDF为:词频-逆文件频率。
14.根据权利要求10所述的装置,其特征在于,所述备选地域获取模块利用聚类算法从所述第一地域特征词集合提取所述备选地域。
15.根据权利要求14所述的装置,其特征在于,所述第二地域特征词权值计算模块的权值计算规则为:行政区域级别越低的第二地域特征词的权值越大。
16.根据权利要求10所述的装置,其特征在于,所述相似度计算模块包括余弦相似度计算模块,所述余弦相似度计算模块利用余弦相似度计算公式分别对所述多个第二地域特征向量与所述第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。
17.根据权利要求16所述的装置,其特征在于,所述相似度计算模块进一步包括判断模块,所述判断模块用于判断所述多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若所述区别度符合所述预定标准,则将所述最大值对应的备选地域作为所述检索词的对应地域。
18.根据权利要求17所述的装置,其特征在于,所述判断模块用于判断所述最大值是否大于第一阈值,并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大于第二阈值,若所述最大值大于所述第一阈值且所述比例大于所述第二阈值,则判定所述区别度符合所述预定标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010600685 CN102033947B (zh) | 2010-12-22 | 2010-12-22 | 一种基于检索词的地域识别装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010600685 CN102033947B (zh) | 2010-12-22 | 2010-12-22 | 一种基于检索词的地域识别装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102033947A CN102033947A (zh) | 2011-04-27 |
CN102033947B true CN102033947B (zh) | 2013-01-16 |
Family
ID=43886840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010600685 Active CN102033947B (zh) | 2010-12-22 | 2010-12-22 | 一种基于检索词的地域识别装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102033947B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426603B (zh) * | 2011-11-11 | 2014-06-18 | 任子行网络技术股份有限公司 | 一种文字信息地域识别方法及装置 |
CN103942221B (zh) * | 2013-01-23 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 检索方法及设备 |
CN103207901B (zh) * | 2013-03-21 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎获取ip地址归属地的方法和装置 |
CN104077324B (zh) * | 2013-03-29 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种地图搜索方法及*** |
KR102124657B1 (ko) | 2013-10-29 | 2020-06-18 | 팅크웨어(주) | 실시간 인덱스 생성을 통한 사용자 설정 검색 데이터 및 지역 필터링 데이터 최소화 장치 및 방법과 그 시스템 |
CN106570130B (zh) * | 2016-10-27 | 2019-10-01 | 厦门市美亚柏科信息股份有限公司 | 基于rdf知识库的文本地域判断方法及其*** |
CN109426415B (zh) * | 2017-08-31 | 2020-10-27 | 北京国双科技有限公司 | 一种生成级联选择器的方法及装置 |
CN108256044B (zh) * | 2018-01-12 | 2021-04-27 | 武汉斗鱼网络科技有限公司 | 直播间推荐方法、装置及电子设备 |
CN108491444B (zh) * | 2018-02-12 | 2019-03-12 | 龙马智芯(珠海横琴)科技有限公司 | 解决方案的生成方法和装置 |
CN108416005A (zh) * | 2018-02-28 | 2018-08-17 | 湖北邮电规划设计有限公司 | 一种电信网格数据处理方法及*** |
CN111782750B (zh) * | 2020-06-28 | 2024-01-09 | 北京百度网讯科技有限公司 | 地图检索信息倾向地域的确定方法、装置、电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388023A (zh) * | 2008-09-12 | 2009-03-18 | 北京搜狗科技发展有限公司 | 电子地图兴趣点数据冗余检测方法和*** |
CN101661461A (zh) * | 2008-08-29 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 确定文档中核心地理信息的方法、*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070276845A1 (en) * | 2006-05-12 | 2007-11-29 | Tele Atlas North America, Inc. | Locality indexes and method for indexing localities |
-
2010
- 2010-12-22 CN CN 201010600685 patent/CN102033947B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661461A (zh) * | 2008-08-29 | 2010-03-03 | 阿里巴巴集团控股有限公司 | 确定文档中核心地理信息的方法、*** |
CN101388023A (zh) * | 2008-09-12 | 2009-03-18 | 北京搜狗科技发展有限公司 | 电子地图兴趣点数据冗余检测方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN102033947A (zh) | 2011-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102033947B (zh) | 一种基于检索词的地域识别装置及方法 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN110472066B (zh) | 一种城市地理语义知识图谱的构建方法 | |
Xu et al. | Topic based context-aware travel recommendation method exploiting geotagged photos | |
CN109344213B (zh) | 一种基于字典树的中文地理编码方法 | |
US20150032770A1 (en) | Providing regional content by matching geographical properties | |
US20150356088A1 (en) | Tile-based geocoder | |
CN102163214B (zh) | 一种数字地图生成装置及方法 | |
CN105718579A (zh) | 一种基于上网日志挖掘和用户活动识别的信息推送方法 | |
CN107292417B (zh) | 基于重污染序列案例库的区域重污染判别预报方法及装置 | |
CN103064924A (zh) | 一种基于地理标注照片挖掘的旅游地点情境化推荐方法 | |
CN106874287B (zh) | 一种兴趣点 poi 地址编码的处理方法及装置 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN102968494A (zh) | 通过微博采集交通信息的***及方法 | |
CN108984640A (zh) | 一种基于web数据挖掘的地理信息获取方法 | |
Pla-Sacristán et al. | Finding landmarks within settled areas using hierarchical density-based clustering and meta-data from publicly available images | |
CN112800111B (zh) | 一种基于训练数据挖掘的位置预测方法 | |
Zeng et al. | Generating tourism path from trajectories and geo-photos | |
CN114896523B (zh) | 一种基于乡村旅游线路的道路规划方法及装置 | |
CN102915311A (zh) | 搜索方法及*** | |
Yu et al. | RePiDeM: A refined POI demand modeling based on multi-source data | |
CN115935086A (zh) | 地址信息识别方法、信息推送方法以及信息展示方法 | |
CN109990791A (zh) | 道路数据提取的方法、装置、设备和介质 | |
Han et al. | Traffic information service model considering personal driving trajectories | |
Zheng et al. | Discovering urban functional regions with call detail records and points of interest: A case study of Guangzhou city |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |