CN104239355A - 面向搜索引擎的数据处理方法及装置 - Google Patents
面向搜索引擎的数据处理方法及装置 Download PDFInfo
- Publication number
- CN104239355A CN104239355A CN201310250057.2A CN201310250057A CN104239355A CN 104239355 A CN104239355 A CN 104239355A CN 201310250057 A CN201310250057 A CN 201310250057A CN 104239355 A CN104239355 A CN 104239355A
- Authority
- CN
- China
- Prior art keywords
- participle
- word
- speech
- wait
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向搜索引擎的数据处理方法及装置。所述方法包括:对地址查询串进行分词,得到所述地址查询串的分词集合;为所述地址查询串添加地理词词性标注;判断所述地址查询串是否在添加地理词词性标注的位置被分词,如果是,则根据分词集合中的分词,获取未登陆词。相应的,本发明实施例还提供了一种实现所述面向搜索引擎的数据处理方法的装置。本发明提高未登录词识别的效率和准确性。
Description
技术领域
本发明涉及搜索引擎数据处理技术领域,更具体地说,涉及一种面向搜索引擎的数据处理方法及装置。
背景技术中
地址搜索引擎是一种垂直搜索引擎,通过搜集、组织和处理地址信息形成的地址分词词库为用户提供地址搜索服务。为提供准确的搜索结果,现有技术需要不断对地址分词词库进行完善,完善地址分词词库的一种方式是识别出未收录到地址分词词库中的地址并将该地址的相关信息增加至地址分词库,所述未收录到地址分词词库中的地址可称为未登录词。
现有的地址未登陆词的识别,是基于词法规则或统计的方法,其中基于词法规则的方法是利用人为及固化的词法所进行的识别,但是对于地址类的查询串中的新词,尤其是店名或品牌名没有固定的形式而容易出现遗漏和识别不准确的情况;统计的方法,通过单字之间的频率研究成词的可能性,由于大部分地址类的新词出现的频率较低,因而,该种未登录词识别方法同样存在统计结果不准确的技术缺陷。
发明内容
有鉴于此,本发明提供一种面向搜索引擎的数据处理方法及装置,以实现提高未登录词识别效率和准确性的技术目的。
本发明实施例提供了一种面向搜索引擎的数据处理方法,所述方法包括:
对地址查询串进行分词,得到所述地址查询串的分词集合;
在所述地址查询串中,添加地理词词性标注;
判断所述地址查询串是否在添加地理词词性标注的位置被分词,如果是,则根据分词集合中的分词,获取未登陆词。
进一步,本发明实施例还提供了一种面向搜索引擎的数据处理装置,所述装置包括:
分词单元,用于对地址查询串进行分词,得到所述地址查询串的分词集合;
标注单元,用于在所述地址查询串中,添加地理词词性标注;
分词位置判断单元,用于判断所述地址查询串是否在添加地理词词性标注的位置被分词单元切分,如果是,则触发未登录词获取单元;
未登录词获取单元,用于根据分词集合中的分词,获取未登陆词。
本发明实施例提供了一种面向搜索引擎的数据处理的技术方案,该方案通过对地址查询串进行分词,得到所述地址查询串的分词集合;为所述地址查询串添加地理词词性标注;再通过判断地址查询串是否在添加地理词词性标注的位置被分词,判断出地址查询串的分词结果与地理词词性标注结果是否存在歧义,如果地址查询串在添加地理词词性标注的位置被分词,则说明分词结果与地理词词性标注结果不存在歧义,说明地址查询串中存在未登陆词,再根据分词集合中的分词,获取未登陆词。本发明实施例提供技术方案极大的改善了现有的识别和统计法发现未登录词准确性较低的技术缺陷,达到了提高未登录词识别准确性的技术目的;同时,上述实施例无需进行大规模的语料分析与统计处理,具备较快的未登录词发现速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种面向搜索引擎的数据处理方法流程图;
图2为本发明实施例公开的一种判断地址查询串是否在添加地理词词性标注的位置被分词的方法流程图;
图3为本发明实施例公开的一种判断是单字的分词能否与其之前一个或之后的分词结合的方法流程图;
图4为本发明实施例公开的一种面向搜索引擎的数据处理装置组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例公开的一种面向搜索引擎的数据处理方法,该方法包括如下步骤:
步骤10:对地址查询串进行分词,得到所述地址查询串的分词集合;
在实际应用中,所述地址查询串可以从用户地址查询日志中获取,也可以从其他记录地址查询串的文件中获取,并不影响本发明实施例的实现。
步骤20:在所述地址查询串中,添加地理词词性标注;
其中,在所述地址查询串中,添加地理词词性标注的实现过程具体为:
对地址查询串进行以地理词为单位的分词,并在切分得到的分词之后添加地理词词性标注。
在实际应用中,步骤10和步骤20可以同时执行,也可以先执行步骤10再执行步骤20,或者先执行步骤20再执行步骤10,并不影响本发明实施例的实现。
步骤30:判断地址查询串是否在添加地理词词性标注的位置被分词,如果是,则进入步骤40,如果否,则结束本流程;
步骤40:根据分词集合中的分词,获取未登陆词。
其中,通过步骤30可以判断出地址查询串的分词结果和地理词词性标注结果是否存在歧义,如果不存在歧义,说明地址查询串中有未登录词。
以上是本发明实施例提供的一种面向搜索引擎的数据处理方法,该方法通过判断分词结果和地理词词性标注结果是否存在歧义,以确定地址查询串中是否存在未登陆词,并在分词结果和地理词词性标注结果无歧义的情况下,根据分词集合中的分词及其词性标注,获取未登陆词,该方法极大的改善了现有的识别和统计法发现未登录词准确性较低的技术缺陷,达到了提高未登录词识别准确性的技术目的;同时,上述实施例无需进行大规模的语料分析与统计处理,具备较快的未登录词发现速度。
在实际应用中,可以采用预置的分词词库对地址查询串进行机械分词并通过隐马克尔夫算法消除分词歧义,由于预置的分词词库中的分词已带有词性标注(表1所示),因此,通过分词处理即可完成对地址查询串的分词还可以得到分词的词性。比如,地址查询串为“天津奥蓝际德酒店”,按照本发明实施例提供的分词方式,得到的该地址查询串的分词集合为“天津/S奥蓝际/H德/H酒店/U”,其中,S、H、U为分词的词性,其含义请参见表1,S表示天津的词性是省级地理词,H表示奥蓝际、德的词性是核心词,U表示酒店的词性是后缀类别词。
在实际应用中,可以按照表2所示词性标注规则,为所述地址查询串添加地理词词性标注,即只在地址查询串中是地理词的词后面添加词性标注。比如,“天津奥蓝际德酒店”按照表2所示词性标注规则,得到的标注结果为“天津/CS奥蓝际德酒店/OP”。
表1分词的词性标注
词性标注 | 定义 | 例子 |
S | 地理词-省 | 河北省 |
C | 地理词-市 | 石家庄市 |
D | 地理词-区县 | 海淀区 |
T | 地理词-乡镇村 | 倴城镇 |
R | 地理词-道路 | 北四环西路 |
M | 地理词-自然地名 | 黄果树瀑布 |
Q | 地理词-桥 | 四通桥 |
B | 地理词-公交站点 | 中关村北站 |
P | 地理词-POI | 翠宫饭店 |
G | 地理词-其它 | 3e商务大厦 |
U | 类别词-后缀词 | 酒店 |
E | 类别词-限定词 | 保险代理 |
H | 核心词 | 肯德基 |
L | 特殊词-英文字母 | A,B… |
X | 特殊词-数词(中文大写数字、***数字) | 1,2,肆,捌…… |
Y | 特殊词-量词 | 个,双…… |
W | 特殊词-数量词短语 | 第四,第二…… |
N | 特殊词-方位词 | 东,东南,北…… |
Z | 其它(标点符号) | ,。?…… |
根据前文举例,地址查询串“天津奥蓝际德酒店”通过分词得到的分词集合是“天津/S奥蓝际/H德/H酒店/U”,通过地理词词性标注得到地理词词性标注结果是“天津/CS奥蓝际德酒店/OP”,由此结果可以看出“天津奥蓝际德酒店”在添加地理词词性标注的位置(“津”和“奥”之间的位置,“店”之后的位置)被分词,这说明“天津奥蓝际德酒店”中存在未登陆词需要进一步根据其分词集合获取未登录词。而地址查询串“六里桥东”,通过分词得到分词集合是“六里/H桥东/N”,通过地理词词性标注得到地理词词性标注结果“六里桥/Q东”,由此结果可以看出“六里桥东”在添加地理词词性标注的位置(“桥”和“东”之间的位置)没有被分词,二者存在歧义,故不再进行未登陆词获取。
表2地址级别表
在实际应用中,判断地址查询串是否在添加地理词词性标注的位置被分词具体为:判断所述地址查询串的分词集合中的分词是否满足下述规则1或规则2,若地址查询串的分词集合中的分词满足下述规则1或者规则2,则说明地址查询串在添加地理词词性标注的位置被分词:
规则1:分词集合中分词的长度等于从地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度;
或者,
规则2:分词集合中分词的长度小于地址查询串中该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度但该分词与其他分词组合后得到的组合分词的长度等于从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度。
需要说明的是,地址查询串的分词结果会比地址查询串的地理词词性标注结果更为精细,因此,通常会出现的情况是,多个分词组合后得到的组合分词长度等于从组合分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度,但并不排除地址查询串的地理词词性标注结果比地址查询串的分词结果更为精细的情况,在这种情况下,若地址查询串的分词集合中的分词满足下述规则3,也说明地址查询串在添加地理词词性标注的位置被分词:
规则3:分词集合中分词的长度大于地址查询串中该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度,但从该分词的首字到所述首字后第N(N≥2)个地理词词性标注之间的部分地址查询串的长度等于该分词的长度。
以下以地址查询串“天津奥蓝际德酒店”为例,结合附图2,对本发明实施例提供的判断地址查询串是否在添加地理词词性标注的位置被分词的方法流程进行详细介绍,其分词集合为“天津/S奥蓝际/H德/H酒店/U”,地理词词性标注为“天津/OS奥蓝际德酒店/OP”,该方法包括:
步骤301:从分词集合中读取分词“天津”;
步骤302:判断分词“天津”的长度与从地址查询串“天津奥蓝际德酒店”的“天”字开始到“天”字后第一个地理词词性标注之间的部分地址查询串“天津”的长度关系,得到的判断结果为二者相等,进入步骤303;
步骤303:从分词集合中读取分词“奥蓝际”;
步骤304:判断分词“奥蓝际”的长度与从地址查询串“天津奥蓝际德酒店”的“奥”字开始到“奥”字后第一个地理词词性标注之间的部分地址查询串“奥蓝际德酒店”的长度关系,得到的判断结果为分词长度小于部分地址查询串长度,进入步骤305;
步骤305:从分词集合中读取分词“德”;
步骤306:将分词“奥蓝际”与分词“德”进行组合,得到分词组合“奥蓝际德”;
步骤307:判断分词组合“奥蓝际德”的长度与部分地址查询串“奥蓝际德酒店”的长度关系,得到的判断结果为分词组合的长度小于部分地址查询串长度,进入步骤308;
步骤308:从分词集合中读取分词“酒店”;
步骤309:将分词“奥蓝际”、分词“德”及“酒店”进行组合,得到分词组合“奥蓝际德酒店”;
步骤309:判断分词组合“奥蓝际德酒店”的长度与部分地址查询串“奥蓝际德酒店”的长度关系,得到的判断结果为分词组合的长度等于部分地址查询串的长度,由于分词集合中的第一个分词满足上述规则1,剩余的分词满足上述规则2,因此,判断得到地址查询串“天津奥蓝际德酒店”在添加地理词词性标注的位置被分词。
以下以地址查询串“六里桥东”为例,对本发明判断地址查询串是否在添加地理词词性标注的位置被分词的方法流程再进行简要介绍,其分词集合为“六里/H桥东/N”,地理词词性标注结果为“六里桥/Q东”:
从分词集合中读取分词“六里”,由于“六里”的长度小于“六里桥”的长度,则从分词集合中读取分词“桥东”,并将“六里”和“桥东”进行组合,得到分词组合“六里桥东”,由于“六里桥东”的长度大于“六里桥”,分词集合中的分词不满足上述三个规则中的任意一个,因此,判断得到地址查询串“六里桥东”没有在添加地理词词性标注的位置被分词。
以上对本发明实施例提供的如何判断地址查询串是否在添加地理词词性标注的位置被分词的方法进行了详细介绍。以下结合具体实例,对本发明实施例提供的如何根据分词集合中的分词及其词性标注获取未登录词的方法进行详细介绍。
在具体实现中,所述步骤40根据分词集合中的分词及其词性标注,获取未登陆词,具体是,根据分词集合中连续的满足上述规则2的分词及其词性标注,获取未登陆词。
在实际应用中,所述根据分词集合中连续的满足上述规则2的分词及其词性标注,获取未登陆词具体包括:
遍历分词集合中连续的满足所述规则2的分词,如果发现是单字的分词,则根据分词的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合,并将能够结合的分词按照分词在地址查询串中的顺序进行组合后作为未登陆词输出。
需要说明的是,遍历分词集合中连续的满足所述规则2的分词,在发现了是单字的分词之后,如果单字之前有多个分词,则只判断单字与其之前相邻的一个分词能否结合,比如,分词1、分词2、分词3(单字),则只判断分词3能否与分词2结合;如果单字之后还有多个分词,则需要判断单字与其之后的分词是否都能够结合,比如,分词1(单字)、分词2、分词3,则需要判断分词1能否与分词2结合,如果能,还需要判断分词1、分词2、分词3能否结合,以此类推,直到找到不能结合的分词或者处理到连续的满足所述规则2的分词中的最后一个分词,结束该流程。
以下结合附图3,对本发明实施例提供根据分词的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合的方法进行详细介绍,以下将单字之前一个或者之后的分词统称为待考察分词,该方法包括:
步骤4021:判断所述待考察分词是否为单字,如果是,则单字可以与待考察分词结合,如果否,则进入步骤4022;
步骤4022:判断待所述考察分词是否由三个以上单字构成,如果是,则不能结合,如果否,则进入步骤4023和步骤4025;
步骤4023:判断所述待考察分词的词性是否为村庄,如果是,则进入步骤4024,如果否,则进入步骤4027;
步骤4024:判断待考察分词的尾字是否是表示村庄的字(比如,村、乡、庄、屯),如果是,则不能结合,如果否,则能够结合;
步骤4025:判断所述待考察分词的词性是否为道路,如果是,则进入步骤4026,如果否,则进入步骤4027;
步骤4026:判断待考察分词的尾字是否是表示道路的字(比如,路、街、巷、线),如果是,则不能结合,如果不是,则可以结合;
在实际应用中,对于词性是道路或者村庄的分词,如“大川村”中的“大川”,“大川”在分词词库中可能存在“大川路”、“大川街”“大川商店”等,因此,在这种情况下,还需要判断这类分词的末尾字是否具备明显的地理特征,如果末尾字是“村”“乡”“庄”或“道”、“路”,则表明这是一个村庄级地名或道路名,则所述单字不能与该分词结合。
步骤4027:判断待考察分词的词性标注是否为核心词、限定词、兴趣点词、类别词中的一个,如果不是,则不能结合,如果是,则进入步骤4028;
步骤4028:判断所述待考察分词是否为高频词,如果是,则不能结合,如果否,则可以结合。
其中,在预置的分词词库中会记录待考察分词的查询频率,可以据此判断所述待考察分词是否为高频词。
以上介绍了本发明实施例提供的如何判断单字能否与其前后分词进行结合的方法。以下以前文所述“天津奥蓝际德酒店”为例,对发明实施例提供的方法进行介绍。
地址查询串“天津奥蓝际德”的分词集合中满足上述规则2的分词包括:“奥蓝际/H德/B酒店/U”,因此,需要在这些分词中找到未登陆词,具体包括:遍历“奥蓝际/H德/B酒店/U”发现单字“德/B”,“德/B”之前分词是“奥蓝际/H”,“奥蓝际/H”由三个单字构成,其词性既不是村庄也不是道路,而是核心词且不是高频词,因此,将奥蓝际/H”和德/B”进行组合得到“奥蓝际德”;“德/B”之后分词是“酒店/U”,“酒店/U”由两个单字构成,词性既不是村庄也不是道路,而是类别词且不是高频词,因此,将“奥蓝际德”与“酒店”进行组合,得到“奥蓝际德酒店”,由于“酒店”是最后一个分词,因此,将“奥蓝际德酒店”作为未登陆词输出。
以下以地址查询串“佛山飞羽亚狮龙羽毛球馆”为例对本发明实施例提供的方法进行详细介绍。地址查询串“佛山飞羽亚狮龙羽毛球馆”经过分词***处理得到的分词集合为“佛山/C飞羽/P亚/H狮龙/P羽毛/E球馆/U”,经过地理级别标注***处理得到的地理级别标注为“佛山/OC飞羽亚狮龙羽毛球馆/OP”,其中“飞羽/P亚/H狮龙/P羽毛/E球馆/U”满足上述规则2,对“飞羽/P亚/H狮龙/P羽毛/E球馆/U”进行遍历,找到单字“亚”,其相邻的分词是“飞羽/P”和“狮龙/P”,“飞羽/P”和“狮龙/P”是长度均小于3个字且词性为兴趣点词的非高频词,故“飞羽/P”和“狮龙/P”能够与“亚”组合,得到“飞羽亚狮龙”,“狮龙”的后一个分词为“羽毛”,“羽毛”属于非地理类短高频词,不可结合,因此,第一个未登录词识别终止,结果为“飞羽亚狮龙”;再从“羽毛”这个词继续开始遍历,“羽毛”为非单字,则找到“球馆”,“球馆”属于非单字,而且属于类别词,故本流程结束,最终在“佛山飞羽亚狮龙羽毛球馆”找到一个未登录词“飞羽亚狮龙”。
以上是本发明实施例提供的面向搜索引擎的数据处理方法,以下结合附图对本发明实施例提供的实现上述方法的装置进行详细介绍。
请参见图4,是本发明实施例提供的一种面向搜索引擎的数据处理装置,该装置包括:
分词单元50,用于对地址查询串进行分词,得到所述地址查询串的分词集合;
标注单元51,用于在所述地址查询串中,添加地理词词性标注;
分词位置判断单元52,用于判断所述地址查询串是否在添加地理词词性标注的位置被分词单元切分,如果是,则触发未登录词获取单元53;
未登录词获取单元53,用于根据分词集合中的分词,获取未登陆词。
在实际应用中,所述分词位置判断单元52具体用于:
判断所述地址查询串的分词集合中的分词是否满足下述规则,若满足,则所述地址查询串在添加地理词词性标注的位置被分词单元切分:
规则1:分词集合中分词的长度等于地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度;
或者,
规则2:分词集合中分词的长度小于地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度但该分词与其他分词组合后得到的组合分词的长度等于从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度。
在实际应用中,所述未登录词获取单元53具体用于:
根据分词集合中连续的满足所述规则2的分词及其词性标注,获取未登陆词。
优选地,在实际应用中,所述未登录词获取单元53具体包括:
单字发现子单元,用于遍历分词集合中连续的满足所述规则2的分词,如果发现是单字的分词,则触发未登录词获取子单元;
分词结合判断子单元,用于根据分词的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合;
未登陆词获取子单元,用于将所述分词结合判断子单元判断得到的能够结合的分词按照分词在地址查询串中的顺序进行组合后作为未登陆词输出。
优选地,所述单字的分词之前一个或之后的分词称为待考察分词,则所述分词结合判断子单元具体包括:
单字判断子单元,用于判断所述待考察分词是否为单字,如果是,则能够结合,如果否,则触发字长判断单元;
所述字长判断子单元,用于判断所述待考察分词是否由三个以上单字构成,如果是,则不能结合,如果否,则触发第一词性判断子单元,用于判断所述待考察分词的词性是否为村庄以及触发第二词性判断子单元,用于判断所述待考察分词的词性是否为道路;
如果所述待考察分词的词性是村庄且所述待考察分词的尾字是表示村庄的字,则不能结合;
如果所述待考察分词的词性是村庄但所述待考察分词的尾字不是表示村庄的字,则能够结合;
如所述待考察分词的词性是道路且所述待考察分词的尾字是表示街道的字,则不能结合;
如果所述待考察分词的词性是道路但所述待考察分词的尾字不是表示街道的字,则能够结合;
如果所述待考察分词的词性不是村庄和道路,则触发第三词性判断子单元,用于判断所述判断待考察分词的词性标注是否为核心词、限定词、兴趣点词或者类别词,如果不是,则不能结合,如果是且所述待考察分词不是高频词,则能够结合。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对于***实施例而言,由于其基本相应于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明实施例的精神或范围的情况下,在其它实施例中实现。因此,本发明实施例将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种面向搜索引擎的数据处理方法,其特征在于,所述方法包括:
对地址查询串进行分词,得到所述地址查询串的分词集合;
在所述地址查询串中,添加地理词词性标注;
判断所述地址查询串是否在添加地理词词性标注的位置被分词,如果是,则根据分词集合中的分词,获取未登陆词。
2.如权利要求1所述的方法,其特征在于,所述判断所述地址查询串是否在添加地理词词性标注的位置被分词具体包括:
判断所述地址查询串的分词集合中的分词是否满足下述规则,若满足,则所述地址查询串在添加地理词词性标注的位置被分词:
规则1:分词集合中分词的长度等于地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度;
或者,
规则2:分词集合中分词的长度小于地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度但该分词与其他分词组合后得到的组合分词的长度等于从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度。
3.如权利要求2所述的方法,其特征在于,所述根据分词集合中的分词,获取未登陆词具体包括:
根据分词集合中连续的满足所述规则2的分词及其词性标注,获取未登陆词。
4.如权利要求3所述的方法,其特征在于,所述根据分词集合中连续的满足所述规则2的分词及其词性标注,获取未登陆词具体包括:
遍历分词集合中连续的满足所述规则2的分词,如果发现是单字的分词,则根据分词的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合,并将能够结合的分词按照分词在地址查询串中的顺序进行组合后作为未登陆词输出。
5.如权利要求4所述的方法,其特征在于,所述单字的分词之前一个或之后的分词称为待考察分词,则所述根据分词的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合具体包括:
判断所述待考察分词是否为单字,如果是,则能够结合,如果否,则判断所述待考察分词是否由三个以上单字构成,如果是,则不能结合,如果否,则判断所述待考察分词的词性是否为村庄以及判断所述待考察分词的词性是否为道路;
如果所述待考察分词的词性是村庄且所述待考察分词的尾字是表示村庄的字,则不能结合;
如果所述待考察分词的词性是村庄但所述待考察分词的尾字不是表示村庄的字,则能够结合;
如所述待考察分词的词性是道路且所述待考察分词的尾字是表示街道的字,则不能结合;
如果所述待考察分词的词性是道路但所述待考察分词的尾字不是表示街道的字,则能够结合;
如果所述待考察分词的词性不是村庄和道路,则判断所述判断待考察分词的词性标注是否为核心词、限定词、兴趣点词或者类别词,如果不是,则不能结合,如果是且所述待考察分词不是高频词,则能够结合。
6.一种面向搜索引擎的数据处理装置,其特征在于,所述装置包括:
分词单元,用于对地址查询串进行分词,得到所述地址查询串的分词集合;
标注单元,用于在所述地址查询串中,添加地理词词性标注;
分词位置判断单元,用于判断所述地址查询串是否在添加地理词词性标注的位置被分词单元切分,如果是,则触发未登录词获取单元;
未登录词获取单元,用于根据分词集合中的分词,获取未登陆词。
7.如权利要求6所述的装置,其特征在于,所述分词位置判断单元具体用于:
判断所述地址查询串的分词集合中的分词是否满足下述规则,若满足,则所述地址查询串在添加地理词词性标注的位置被分词单元切分:
规则1:分词集合中分词的长度等于地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度;
或者,
规则2:分词集合中分词的长度小于地址查询串中从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度但该分词与其他分词组合后得到的组合分词的长度等于从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查询串的长度。
8.如权利要求7所述的装置,其特征在于,所述未登录词获取单元具体用于:
根据分词集合中连续的满足所述规则2的分词及其词性标注,获取未登陆词。
9.如权利要求8所述的装置,其特征在于,所述未登录词获取单元具体包括:
单字发现子单元,用于遍历分词集合中连续的满足所述规则2的分词,如果发现是单字的分词,则触发未登录词获取子单元;
分词结合判断子单元,用于根据分词的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合;
未登陆词获取子单元,用于将所述分词结合判断子单元判断得到的能够结合的分词按照分词在地址查询串中的顺序进行组合后作为未登陆词输出。
10.如权利要求9所述的装置,其特征在于,所述单字的分词之前一个或之后的分词称为待考察分词,则分词结合判断子单元具体包括:
单字判断子单元,用于判断所述待考察分词是否为单字,如果是,则能够结合,如果否,则触发字长判断单元;
所述字长判断子单元,用于判断所述待考察分词是否由三个以上单字构成,如果是,则不能结合,如果否,则触发第一词性判断子单元,用于判断所述待考察分词的词性是否为村庄以及触发第二词性判断子单元,用于判断所述待考察分词的词性是否为道路;
如果所述待考察分词的词性是村庄且所述待考察分词的尾字是表示村庄的字,则不能结合;
如果所述待考察分词的词性是村庄但所述待考察分词的尾字不是表示村庄的字,则能够结合;
如所述待考察分词的词性是道路且所述待考察分词的尾字是表示街道的字,则不能结合;
如果所述待考察分词的词性是道路但所述待考察分词的尾字不是表示街道的字,则能够结合;
如果所述待考察分词的词性不是村庄和道路,则触发第三词性判断子单元,用于判断所述判断待考察分词的词性标注是否为核心词、限定词、兴趣点词或者类别词,如果不是,则不能结合,如果是且所述待考察分词不是高频词,则能够结合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310250057.2A CN104239355B (zh) | 2013-06-21 | 2013-06-21 | 面向搜索引擎的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310250057.2A CN104239355B (zh) | 2013-06-21 | 2013-06-21 | 面向搜索引擎的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104239355A true CN104239355A (zh) | 2014-12-24 |
CN104239355B CN104239355B (zh) | 2018-09-11 |
Family
ID=52227438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310250057.2A Active CN104239355B (zh) | 2013-06-21 | 2013-06-21 | 面向搜索引擎的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104239355B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127677A1 (zh) * | 2015-02-13 | 2016-08-18 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
CN108763212A (zh) * | 2018-05-23 | 2018-11-06 | 北京神州泰岳软件股份有限公司 | 一种地址信息提取方法及装置 |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1197885A2 (en) * | 2000-10-12 | 2002-04-17 | QAS Limited | Method of and apparatus for retrieving data representing a postal address from a database of postal addresses |
CN101154226A (zh) * | 2006-09-27 | 2008-04-02 | 腾讯科技(深圳)有限公司 | 在输入法词库中添加未登录词的方法及文字输入装置 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
US20110087839A1 (en) * | 2009-10-09 | 2011-04-14 | Verizon Patent And Licensing Inc. | Apparatuses, methods and systems for a smart address parser |
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
-
2013
- 2013-06-21 CN CN201310250057.2A patent/CN104239355B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1197885A2 (en) * | 2000-10-12 | 2002-04-17 | QAS Limited | Method of and apparatus for retrieving data representing a postal address from a database of postal addresses |
CN101154226A (zh) * | 2006-09-27 | 2008-04-02 | 腾讯科技(深圳)有限公司 | 在输入法词库中添加未登录词的方法及文字输入装置 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
US20110087839A1 (en) * | 2009-10-09 | 2011-04-14 | Verizon Patent And Licensing Inc. | Apparatuses, methods and systems for a smart address parser |
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
Non-Patent Citations (1)
Title |
---|
赵阳阳 等: "地址要素识别机制的地名地址分词算法", 《测绘科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127677A1 (zh) * | 2015-02-13 | 2016-08-18 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
CN108763212A (zh) * | 2018-05-23 | 2018-11-06 | 北京神州泰岳软件股份有限公司 | 一种地址信息提取方法及装置 |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104239355B (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN104866593B (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN103186524B (zh) | 一种地名识别方法和装置 | |
CN109344263B (zh) | 一种地址匹配方法 | |
WO2016050088A1 (zh) | 一种地址搜索方法和设备 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
CN103440311A (zh) | 一种地名实体识别的方法及*** | |
CN102460430B (zh) | 简短兴趣点标题生成 | |
CN102289467A (zh) | 确定目标网点的方法和装置 | |
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
CN107368471B (zh) | 一种网页文本中地名地址的提取方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和*** | |
CN107908627A (zh) | 一种多语言的地图poi 搜索*** | |
CN106874287A (zh) | 一种兴趣点poi地址编码的处理方法及装置 | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN106126383A (zh) | 一种日志处理方法和装置 | |
CN106021556A (zh) | 地址信息处理方法及装置 | |
CN106600956A (zh) | 一种交通信息发布方法及装置 | |
CN104239355A (zh) | 面向搜索引擎的数据处理方法及装置 | |
CN108012192A (zh) | 一种视频资源的识别和聚合的方法及*** | |
CN105930361A (zh) | 一种关系型数据库向Neo4j模型转换和数据迁移方法 | |
CN110866125A (zh) | 基于bert算法模型的知识图谱构建*** | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN108831442A (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN109492066A (zh) | 一种兴趣点分支名称的确定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200514 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5 Patentee before: AUTONAVI SOFTWARE Co.,Ltd. |