CN106502978A

CN106502978A - 一种中文地址分词方法及装置

Info

Publication number: CN106502978A
Application number: CN201610831343.1A
Authority: CN
Inventors: 葛琳; 王素华
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-03-15

Abstract

本发明提供了一种中文地址分词方法及装置，收集至少两个地址特征，并为所述至少两个地址特征分配对应的编码，设置至少两种切分规则，还包括：接收目标源地址；根据所述至少两个地址特征对应的编码，为所述目标源地址生成地址编码；在所述至少一种切分规则中，为所述地址编码确定目标切分规则；利用所述目标切分规则，对所述地址编码进行切分。本发明能够有效提高地址分词的准确率。

Description

一种中文地址分词方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种中文地址分词方法及装置。

背景技术

中文地址分词就是对使用自然语言表述的地理位置进行切分，从而将一整串地址切分成单个的词。目前，在物流、城市规划及土地管理等领域中，通过将切分成的多个词在地理库中找到相应坐标，并实现在地图中向用户展示具体的位置信息具有重要意义。

目前，中文地址分词的方式是，通过将一整串地址与预先设置的词典中的词条进行匹配，当词典中找到某个地址字串时，则识别出一个词，并将该词切分出来，以此类推继续进行切分。但是，由于中文地址描述手段具有多样化，预置的词典中不可能包含所有的字串，因此在进行匹配时，有些地址字串是匹配不到的，从而也就无法对其进行切分，因此，造成地址分词的不准确。

发明内容

本发明实施例提供了一种中文地址分词方法及装置，能够有效提高地址分词的准确率。

第一方面，本发明实施例提供了一种中文地址分词方法，收集至少两个地址特征，并为所述至少两个地址特征分配对应的编码，设置至少一种切分规则，还包括：

接收目标源地址；

根据所述至少两个地址特征对应的编码，为所述目标源地址生成地址编码；

在所述至少一种切分规则中，为所述地址编码确定目标切分规则；

利用所述目标切分规则，对所述地址编码进行切分。

优选地，所述设置至少一种切分规则，包括：

将所述至少两个地址特征对应的编码进行任意组合，形成至少一种组合编码；

确定每一种所述组合编码的组合位置为对应的切分位置。

优选地，所述地址特征包括：省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个；

所述为所述至少两个地址特征分配对应的编码，包括：

为所述省、市、区、县、桥、镇、门牌号分配第一编码；

为所述表示方位的字分配第二编码。

优选地，所述为所述地址编码确定目标切分规则，包括：

将所述地址编码与每一种所述组合编码进行匹配，利用下述计算公式(1)，计算所述地址编码与每一种所述组合编码的匹配度；

其中，T_i表征地址编码与组合编码i对应的匹配度；n表征组合编码i中包含的编码个数；n_i表征地址编码与组合编码i中包含的编码的匹配个数；

确定最大匹配度的组合编码以及所述最大匹配度的组合编码对应的切分位置；

所述利用所述目标切分规则，对所述地址编码进行切分，包括：根据所述最大匹配度的组合编码对应的切分位置，对所述地址编码进行切分。

优选地，在所述利用所述目标切分规则，对所述地址编码进行切分之后，进一步包括：

根据所述至少两个地址特征对应的编码，将切分后的地址编码恢复为对应的地址特征。

第二方面，本发明实施例提供了一种中文地址分词装置，包括：编码分配单元、设置单元、接收单元、生成单元、确定单元和分词单元，其中，

所述编码分配单元，用于收集至少两个地址特征，并为所述至少两个地址特征分配对应的编码；

所述设置单元，用于设置至少一种切分规则；

所述接收单元，用于接收目标源地址；

所述生成单元，用于根据所述编码分配单元为所述至少两个地址特征分配的对应编码，为所述接收单元接收到的所述目标源地址生成地址编码；

所述确定单元，用于根据所述设置单元中设置的所述至少一种切分规则，为所述生成单元生成的所述地址编码确定目标切分规则；

所述分词单元，用于利用所述确定单元确定的所述目标切分规则，对所述生成单元生成的所述地址编码进行切分。

优选地，所述设置单元，用于：

确定每一种所述组合编码的组合位置为对应的切分位置。

所述编码分配单元，用于：为所述省、市、区、县、桥、镇、门牌号分配第一编码；为所述表示方位的字分配第二编码。

优选地，所述确定单元，包括：计算子单元和确定子单元，其中，

所述计算子单元，用于将所述地址编码与每一种所述组合编码进行匹配，利用下述计算公式(1)，计算所述地址编码与每一种所述组合编码的匹配度；

所述确定子单元，用于确定最大匹配度的组合编码以及所述最大匹配度的组合编码对应的切分位置；

所述分词单元，用于根据所述最大匹配度的组合编码对应的切分位置，对所述地址编码进行切分。

优选地，进一步包括：恢复单元，其中，所述恢复单元，用于根据所述至少两个地址特征对应的编码，将切分后的地址编码恢复为对应的地址特征。

本发明实施例提供了一种中文地址分词方法及装置，通过预先设置至少两种切分规则，那在接收到目标源地址后，通过将编码生成的地址编码与每一种切分规则进行匹配，当确定与地址编码最大的匹配规则时，在查找到的地址编码中的相应位置完成对地址编码的切分，因此，即使接收到目标源地址中的一部分字符并未包含在词典中，但是只要匹配到相应的切分规则，就可以实现地址分词，从而有效提高了地址分词的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种中文地址分词方法的流程图；

图2是本发明另一个实施例提供的一种中文地址分词方法的流程图；

图3是本发明一个实施例提供的一种装置所在设备的硬件架构图；

图4是本发明一个实施例提供的一种中文地址分词装置的结构示意图；

图5是本发明另一个实施例提供的一种中文地址分词装置的结构示意图；

图6是本发明又一个实施例提供的一种中文地址分词装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种中文地址分词方法，该方法可以包括以下步骤：

步骤101：预先收集至少两个地址特征，并为所述至少两个地址特征分配对应的编码。

步骤102：预先设置至少一种切分规则。

步骤103：接收目标源地址。

步骤104：根据所述至少两个地址特征对应的编码，为所述目标源地址生成地址编码。

步骤105：在所述至少一种切分规则中，为所述地址编码确定目标切分规则。

步骤106：利用所述目标切分规则，对所述地址编码进行切分。

本发明实施例提供了一种中文地址分词方法，通过预先设置至少两种切分规则，那在接收到目标源地址后，通过将编码生成的地址编码与每一种切分规则进行匹配，当确定与地址编码最大的匹配规则时，在查找到的地址编码中的相应位置完成对地址编码的切分，因此，即使接收到目标源地址中的一部分字符并未包含在词典中，但是只要匹配到相应的切分规则，就可以实现地址分词，从而有效提高了地址分词的准确率。

在本发明另一个实施例中，为了避免词典中包含的地址字符串不全面，提高地址分词的准确率，步骤102的具体实施方式，包括：将所述至少两个地址特征对应的编码进行任意组合，形成至少一种组合编码；确定每一种所述组合编码的组合位置为对应的切分位置。

值得说明的是，本发明实施例中所包含的匹配编码可根据用户需求进行设定。例如，以三种地址特征分别为A、B和C为例，其中，为A分配的编码为01，为B分配的编码为02，为C分配的编码为03，那么，任意进行组合，以其中生成的3种编码分别为0102、0203和010203、以“C数值”表示切分位置为例，则对于0102和0203而言，切分位置就可以设定为C2，对于010203而言，切分位置就可以设定为C24，其中，C2表示在第二个数字后面进行切分，C24表示在第二和第四个数字后面进行切分，这样就可以确定3条切分规则，分别为0102C2、0203C2和010203C24。

通过预先设置每一条切分规则相应的编码及切分位置，完成对待分词地址的切分，而不再使用词典进行字符串匹配，从而有效防止了由于词典包含地址字符串不全面导致的地址分词不准确。

在本发明再一个实施例中，为实现地址的匹配与切分，在所述步骤101中，所述地址特征包括：省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个；步骤101的具体实施方式，包括：为所述省、市、区、县、桥、镇、门牌号分配第一编码；为所述表示方位的字分配第二编码。

在本发明实施例中，以第一编码为“1”、第二编码为“2”为例，而且，为了方便对地址进行表示，可以为地址特征省、市、区、县、桥、镇等前面的普通字符分配第三编码“0”，另外，为了方便表示一个地址编码的结束，还可以分配一个第四编码“3”表示结束字符。例如，地址“山东省历下区七里桥镇汉东村32号”对应的编码为“01010110212013”。

通过为地址特征分配对应的编码，那么接收到的源地址就可以根据该对应编码生成相应的地址编码，从而就可以与预先设置的规则进行匹配，为实现地址匹配奠定基础。

在本发明又一个实施例中，为了提高待分词地址的准确性以及能够实现地址分词，步骤105的具体实施方式包括：将所述地址编码与每一种所述组合编码进行匹配，利用下述计算公式(1)，计算所述地址编码与每一种所述组合编码的匹配度；

确定最大匹配度的组合编码以及所述最大匹配度的组合编码对应的切分位置。

步骤106的具体实施方式，包括：根据所述最大匹配度的组合编码对应的切分位置，对所述地址编码进行切分。

例如，以预先设置的第一切分规则为“010102C24”、第二切分规则为“010202C24”及地址编码为“0101”为例，那么，地址编码0101与第一切分规则010102C24的匹配度为地址编码0101与第二切分规则010202C24的匹配度为由于T₁＞T₂，因此，T₁为地址编码0101的最大匹配度，从而可以确定第一切分规则为地址编码0101的目标切分规则。

以地址编码0101对应的目标切分规则为010102C24为例，由于0101与010102C24的前两个编码匹配，因此，首先确定地址编码0101的切分位置为C2，也就是说在第一个01的后面进行切分，也即得到两个分词编码01和01。

通过计算匹配度，可以找出与地址编码最佳的切分规则，从而提高待切分地址的准确性，并为之后的分词奠定基础。

在本发明又一个实施例中，为了完成对地址的切分，在步骤106之后，进一步包括：根据所述至少两个地址特征对应的编码，将切分后的地址编码恢复为对应的地址特征。

通过确定地址编码的切分位置，从而将一整串地址编码切分成至少一个分词编码，从而实现地址编码的分词过程，为实现在地图中向用户展示具体的位置信息具有重要意义。

下面以预先设置两种切分规则为例，对本发明实施例提供的一种中文地址分词方法做详细说明，如图2所示，该方法可以包括以下步骤：

步骤201：预先收集4个地址主特征字省、区、村及门牌号，1个表示空间关系的地址补充特征字东。

在本发明实施例中，由于省、区、村及门牌号是用户经常使用的地址特征字，因此预先收集这4个地址特征字，并将这4个地址特征字作为本发明实施例中的地址主特征字，而目前，表示空间关系的字，如东、南、西、北等也经常用于表征具体地址，如汉东村，那么，在本发明实施例中是以东为例进行说明。

步骤202：预先为4个地址主特征字分配编码1，为4个地址主特征字前面的字符分配编码0，为1个表示空间关系的地址补充特征字分配编码2。

在本发明实施例中，将省、区、村及门牌号进行统一分配编码，均分配编码1，由于表示空间关系的东在地址表示中可能并很常用，因此将表示空间关系的东单独分配编码2，除此之外，为之后的地址进行匹配，可将省、区、村及门牌号之前的字符分配编码0，例如，山东省，那么山和东就是两个普通字符，那山东省的编码就为001，但是，为了简化表达，可将冗余的0进行合并，因此，山东省的编码就表示为01。

步骤203：预先根据4个地址主特征字和1个地址补充特征字设置第一切分规则和第二切分规则。

在本发明实施例中，以省、区、村、门牌号及东组合的编码作为第一切分规则中的匹配编码，由步骤202可知，该匹配编码为010102101，同时可以确定相应的切分位置为C247，所以第一切分规则为“010102101C247”以省、区及门牌号组合的编码作为第二切分规则中的匹配编码，那么该匹配编码为0101010101，则相应的切分位置为C2468，所以第二切分规则为“0101010101C2468”。

步骤204：接收目标源地址“某某省某某区某东村某号”。

步骤205：根据省、区、村、门牌号对应的编码1和东对应的编码2，为“某某省某某区某东村某号”生成地址编码。

在本发明实施例中，由步骤202可知，某某省的地址编码为01，某某区的地址编码为01，某东村的编码为021，某号号的地址编码为01，因此，目标源地址“某某省某某区某东村某号”生成的地址编码为“010102101”。

步骤206：计算地址编码010102101与第一切分规则的第一匹配度，与第二切分规则的第二匹配度。

在本发明实施例中，当地址编码010102101与第一切分规则010102101C247包含的编码进行匹配时，共有4部分完全匹配的编码，即从左往右为01、01、021和01，当地址编码010102101与第二切分规则0101010101C2468包含的编码进行匹配时，共有两部分完全匹配的编码，即从左往右为01和01，则利用匹配度计算公式(1)，可以计算得到第一匹配度为第二匹配度为

步骤207：比较第一匹配度与第二匹配度，并将最大匹配度对应的切分规则作为目标切分规则。

在步骤206中，得到第一匹配度T₁为100％，第二匹配度T₂为40％，由于100％＞40％，即T₁＞T₂，因此，可以确定第一匹配度为最大匹配度，而第一匹配度对应的切分规则为第一切分规则，从而确定目标切分规则即为第一切分规则。

步骤208：利用目标切分规则，确定地址编码010102101的3个切分位置。

在本发明实施例中，目标切分规则即为第一切分规则，由于地址编码010102101与第一切分规则中包含的编码完全匹配，所以就可以直接按照第一切分规则中包含的切分位置C247，确定地址编码010102101共有3个切分位置，分别是整个地址编码的第2位、第4位和第7位的后面，切分的位置可以表示为01\01\021\01。

步骤209：在上述相应的3个切分位置处，对地址编码010102101进行切分，生成4个分词编码。

在本发明实施例中，对地址编码010102101从左到右依次进行扫描，当扫描到第2位1时，进行第一次切分，当扫描到第4位1时，进行第二次切分，当扫描到第7位1时，进行第三次切分，那经过三次切分后，将会得到4个分词编码，分别为01、01、021和01。

步骤210：对上述4个分词编码01、01、021和01进行恢复，并得到对应的某某省、某某区、某东村和某号。

为实现最终的目标源地址“某某省某某区某东村某号”分词，应将上述步骤209得到的4个分词编码，分别恢复成相应的地址特征，从而最终得到目标源地址分词后的对应地址为某某省\某某区\某东村\某号。

如图3、图4所示，本发明实施例提供了一种中文地址分词装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的中文地址分词装置所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种中文地址分词装置，包括：

编码分配单元401、设置单元402、接收单元403、生成单元404、确定单元405、分词单元406，其中，

所述编码分配单元401，用于收集至少两个地址特征，并为所述至少两个地址特征分配对应的编码；

所述设置单元402，用于设置至少一种切分规则；

所述接收单元403，用于接收目标源地址；

所述生成单元404，用于根据所述编码分配单元401为所述至少两个地址特征分配的对应编码，为所述接收单元403接收到的所述目标源地址生成地址编码；

所述确定单元405，用于根据所述设置单元402中设置的所述至少一种切分规则，为所述生成单元404生成的所述地址编码确定目标切分规则；

所述分词单元406，用于利用所述确定单元405确定的所述目标切分规则，对所述生成单元404生成的所述地址编码进行切分。

在本发明一个实施例中，所述设置单元402，用于：

确定每一种所述组合编码的组合位置为对应的切分位置。

在本发明一个实施例中，所述地址特征包括：省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个；

所述编码分配单元401，用于：为所述省、市、区、县、桥、镇、门牌号分配第一编码；为所述表示方位的字分配第二编码。

如图5所示，在本发明一个实施例中，所述确定单元405，包括：计算子单元501和确定子单元502，其中，

所述计算子单元501，用于将所述地址编码与每一种所述组合编码进行匹配，利用下述计算公式(1)，计算所述地址编码与每一种所述组合编码的匹配度；

所述确定子单元502，用于确定最大匹配度的组合编码以及所述最大匹配度的组合编码对应的切分位置；

所述分词单元406，用于根据所述最大匹配度的组合编码对应的切分位置，对所述地址编码进行切分。

如图6所示，在本发明一个实施例中，为得到字符表示的切分地址，进一步包括：恢复单元601，其中，所述恢复单元601，用于根据所述至少两个地址特征对应的编码，将切分后的地址编码恢复为对应的地址特征。

综上，本发明各个实施例至少具有如下有益效果：

1、在本发明实施例中，通过预先设置至少两种切分规则，那在接收到目标源地址后，通过将编码生成的地址编码与每一种切分规则进行匹配，当确定与地址编码最大的匹配规则时，在查找到的地址编码中的相应位置完成对地址编码的切分，因此，即使接收到目标源地址中的一部分字符并未包含在词典中，但是只要匹配到相应的切分规则，就可以实现地址分词，从而有效提高了地址分词的准确率。

2、在本发明实施例中，通过预先设置每一条切分规则相应的编码及切分位置，完成对待分词地址的切分，而不再使用词典进行字符串匹配，从而有效防止了由于词典包含地址字符串不全面导致的地址分词不准确。

3、在本发明实施例中，通过为地址特征分配对应的编码，那么接收到的源地址就可以根据该对应编码生成相应的地址编码，从而就可以与预先设置的规则进行匹配，为实现地址匹配奠定基础。

4、在本发明实施例中，通过计算匹配度，可以找出与地址编码最佳的切分规则，从而提高待切分地址的准确性，并为之后的分词奠定基础。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种中文地址分词方法，其特征在于，收集至少两个地址特征，并为所述至少两个地址特征分配对应的编码，设置至少一种切分规则，还包括：

接收目标源地址；

利用所述目标切分规则，对所述地址编码进行切分。

2.根据权利要求1所述的方法，其特征在于，所述设置至少一种切分规则，包括：

确定每一种所述组合编码的组合位置为对应的切分位置。

3.根据权利要求1所述的方法，其特征在于，所述地址特征包括：省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个；

所述为所述至少两个地址特征分配对应的编码，包括：

为所述省、市、区、县、桥、镇、门牌号分配第一编码；

为所述表示方位的字分配第二编码。

4.根据权利要求2所述的方法，其特征在于，

所述为所述地址编码确定目标切分规则，包括：

将所述地址编码与每一种所述组合编码进行匹配，利用下述计算公式，计算所述地址编码与每一种所述组合编码的匹配度；

T_{i} = \frac{n_{i}}{n} \times 100 %

5.根据权利要求1所述的方法，其特征在于，在所述利用所述目标切分规则，对所述地址编码进行切分之后，进一步包括：

6.一种中文地址分词装置，其特征在于，包括：编码分配单元、设置单元、接收单元、生成单元、确定单元和分词单元，其中，

所述设置单元，用于设置至少一种切分规则；

所述接收单元，用于接收目标源地址；

7.根据权利要求6所述的装置，其特征在于，所述设置单元，用于：

确定每一种所述组合编码的组合位置为对应的切分位置。

8.根据权利要求6所述的装置，其特征在于，所述地址特征包括：省、市、区、县、桥、镇、门牌号和表示方位的字中的任意两个或多个；

9.根据权利要求7所述的装置，其特征在于，所述确定单元，包括：计算子单元和确定子单元，其中，

所述计算子单元，用于将所述地址编码与每一种所述组合编码进行匹配，利用下述计算公式，计算所述地址编码与每一种所述组合编码的匹配度；

T_{i} = \frac{n_{i}}{n} \times 100 %

10.根据权利要求6所述的装置，其特征在于，进一步包括：恢复单元，其中，所述恢复单元，用于根据所述至少两个地址特征对应的编码，将切分后的地址编码恢复为对应的地址特征。