CN113836920A - 地址信息的识别方法、装置、计算机设备及存储介质 - Google Patents
地址信息的识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113836920A CN113836920A CN202111217637.2A CN202111217637A CN113836920A CN 113836920 A CN113836920 A CN 113836920A CN 202111217637 A CN202111217637 A CN 202111217637A CN 113836920 A CN113836920 A CN 113836920A
- Authority
- CN
- China
- Prior art keywords
- address
- entity
- information
- suffix
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及地址识别领域,揭示了一种地址信息的识别方法、装置、计算机设备及存储介质,其中方法包括:获取地址数据;通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;若所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。本申请能够提高地址识别的泛化能力,提高地址识别的准确率与效率。
Description
技术领域
本申请涉及到地址识别领域,特别是涉及到一种地址信息的识别方法、装置、计算机设备及存储介质。
背景技术
目前对于地址信息识别场景,需要将客户表达的地址信息提取出来,地址信息提取需要从客户表达的内容中将地址提取出来,然而在地址提取中,正确识别地址和非地址的边界最为重要,而目前模型对于地址识别需要标准化的地址数据才能进行准确地识别,从而导致现有模型在实际提取地址信息的泛化能力遇到瓶颈,准确度不高。
发明内容
本申请的主要目的为提供一种地址信息的识别方法、装置、计算机设备及存储介质,旨在解决目前地址识别的泛化能力低的问题。
为了实现上述发明目的,本申请提出一种地址信息的识别方法,包括:
获取地址数据;
通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;
根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;
若所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
进一步地,所述根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息,包括:
从预设的后缀特征选取第一后缀特征,根据所述第一后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
获取所述预设的后缀特征的层级关系;
根据所述层级关系与所述第一后缀特征确定第二后缀特征;
根据第二后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息。
进一步地,所述根据所述层级关系与所述第一后缀特征确定第二后缀特征,包括:
获取所述第一后缀特征的第一等级;
根据所述层级关系与所述第一等级确定第二等级;
从预设的后缀特征中选取所述第二等级对应的第二后缀特征。
进一步地,判断所述第一实体信息与所述第二实体信息满足地址特征要求,包括:
将所述第一实体信息在预设的地址库中进行匹配,判断第一实体信息是否存在于所述预设的地址库中;
若存在,确定所述第一实体信息满足所述地址特征要求;
将所述第二实体信息在预设的地址库中进行匹配,判断第二实体信息是否存在于所述预设的地址库中;
若存在,判定所述第一实体信息与所述第二实体信息均满足地址特征要求。
进一步地,判定所述第一实体信息存在于所述预设的地址库中,包括:
将所述第一实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第一实体信息,确定所述第一实体信息的第一语义;
将所述第一语义在预设的第一地址库进行匹配,若所述预设的第一地址库存在所述第一语义对应的向量,确定所述第一实体信息存在于所述预设的地址库;
判定所述第二实体信息存在于所述预设的地址库中,包括:
将所述第二实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第二实体信息,确定所述第二实体信息的第二语义;
将所述第二语义在预设的第二地址库进行匹配,若所述预设的第二地址库存在所述第二语义对应的向量,确定所述第二实体信息存在于所述预设的地址库。
进一步地,所述将所述第二语义在预设的第二地址库进行匹配之前,还包括:
根据所述第一语义确定所述第一实体信息的第一地址;
获取所述第一实体信息与所述第二实体信息的关联关系;
根据所述关联关系与所述第一地址确定第二地址库,作为预设的第二地址库。
进一步地,所述通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,包括:
获取所述门控网络的滑动窗口的窗口大小配置信息;
根据所述窗口大小配置信息依次配置窗口值;
基于所述窗口值对应的门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据。
本申请还提供一种地址信息的识别装置,包括:
数据获取模块,用于获取地址数据;
实体识别模块,用于通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;
第一嵌入模块,用于根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
第二嵌入模块,用于根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;
评分筛选模块,用于若判定所述第一实体信息与所述第二实体信息满足地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述地址信息的识别方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述地址信息的识别方法的步骤。
本申请例提供了一种针对边界模糊的地址数据进行识别的方法,首先获取地址数据;所述地址数据为原始的未经处理的数据,然后通过门控网络的滑动窗口识别所述地址数据,所述门控网络设定有一个滑动窗口,并且所述滑动窗口配置了待定词的特征与待定词的下文词特征的识别要求,基于所述滑动窗口对所述地址数据进行实体数据提取,从而通过门控网络的滑动窗口识别获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体,在识别得到第一实体与第二实体之后,根据预设的后缀特征对所述第一实体、所述第二实体进行后缀嵌入,所述后缀特征为地址信息领域的行政级别特征,然后将生成的第一实体信息与第二实体信息在预设的地址库中进行匹配,若第一实体信息与第二实体信息存在预设的地址库中,则判定所述第一实体信息与所述第二实体信息满足地址特征要求,从而根据所述第一实体信息与所述第二实体信息准确地确定所述地址数据对应的地址信息,通过门控网络清楚地识别地址数据中的地址和非地址信息,以及地址与地址之间的边界,提高地址识别的泛化能力,提高地址识别的准确率与效率。
附图说明
图1为本申请地址信息的识别方法的一实施例流程示意图;
图2为本申请地址信息的识别装置的一实施例结构示意图;
图3为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种地址信息的识别方法,包括步骤S10-S50,对于所述地址信息的识别方法的各个步骤的详细阐述如下,所述地址信息的识别方法可以由内置有相应功能的应用程序完成,例如内置于应用程序中的“地址识别”功能,通过该功能使得应用程序能够完成地址数据的识别,所述应用程序可以运行于终端设备上或运行于云端服务器中,因此,所述地址信息的识别方法也可以理解为由运行所述应用程序的终端设备或云端服务器完成。
S10、获取地址数据。
本实施例应用于人工智能的地址信息识别场景中,随着数字化的不断发展,在不同的领域下,自动、准确地识别地址信息可以提高业务办理的效率,当需要识别地址信息时,获取地址数据,所述地址数据为原始的未经处理的数据,在一种实施方式中,所述地址数据可以是用户输入的文本数据;或者,所述地址数据可以是在视频面谈过程中,机器人询问用户居住地址详细信息,用户回答的语音数据,例如机器人提问:请说出您居住的详细地址?用户回答:在广东南山**街道**路**大厦,从而获取用户回答的语音数据,将该语音数据作为地址数据。
S20、通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体。
本实施例中,在获取地址数据之后,为了准确地识别所述地址数据中的地址信息,通过门控网络的滑动窗口识别所述地址数据,所述门控网络设定有一个滑动窗口,基于所述滑动窗口对所述地址数据进行实体数据提取,具体的,所述滑动窗口配置了待定词X的特征与待定词X的下文词特征的识别要求,然后通过所述滑动窗口选取所述地址数据中的词语,当滑动窗口得到一个词语的特征与该词语的下一个词组的特征满足识别要求时,继而筛选出该词语,并将该词语定义为实体,从而通过门控网络的滑动窗口识别获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体,其中,所述第一实体为待定词X,所述第二实体为待定词X的下一词组。
S30、根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
S40、根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息。
本实施例中,在识别得到第一实体与第二实体之后,根据预设的后缀特征对所述第一实体、所述第二实体进行后缀嵌入,在地址信息领域,所述后缀特征包含“省”、“直辖市”、“自治区”、“市”、“区”、“县”等,首先根据预设的后缀特征对所述第一实体进行后缀嵌入,即从所述后缀特征中选取一个特征添加至所述第一实体中,生成第一实体信息,然后根据预设的后缀特征对对所述第二实体进行后缀嵌入,同样的,从所述后缀特征中选取一个特征添加至所述第二实体中,生成第二实体信息,例如,在对第一实体进行后缀嵌入时,选取的后缀特征为“省”,对第二实体进行后缀嵌入时,选取的后缀特征为“市”,从而生成第一实体信息与第二实体信息,即生成包含完整后缀的实体信息。
S50、若所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
本实施例中,在根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;以及根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息之后,判断所述第一实体信息与所述第二实体信息是否满足地址特征要求,其中,所述预设的地址特征要求为所述第一实体信息与第二实体信息与预设的地址库相匹配,所述地址库录入了不同等级的行政级别的地址,包括,第一等级的行政级别为“国家”,包括中国、美国、韩国等;第二等级的行政级别为第一等级的行政级别的下属行政区域,如“省”、“直辖市”、“自治区”、“州”等,依次类推,将不同行政级别的地址录入至地址库中,生成预设的地质录。
将生成的第一实体信息与第二实体信息在预设的地址库中进行匹配,若第一实体信息与第二实体信息均存在预设的地址库中,则判定所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。例如,当识别得到第一实体为“广东”,嵌入的后缀特征为“省”,生成第一实体信息“广东省”,“广东省”存在于预设的地址库中,则第一实体信息满足地址特征要求,若嵌入的后缀为“市”,生成第一实体信息“广东市”,“广东市”不存在于预设的地址库中,则第一实体信息不满足地址特征要求,依次判定第一实体信息与第二实体信息,当第一实体信息与第二实体信息均满足地址特征要求后,则确定对所述地址数据完成后缀嵌入,即对所述地址数据完成特征扩充,能够准确地识别出地址数据对应的地址信息,从而根据所述第一实体信息与所述第二实体信息准确地确定所述地址数据对应的地址信息,能够清楚地识别地址数据中的地址和非地址信息,以及地址与地址之间的边界,提高地址识别的泛化能力,提高地址识别的准确率与效率。
本实施例提供了一种针对边界模糊的地址数据进行识别的方法,首先获取地址数据;所述地址数据为原始的未经处理的数据,然后通过门控网络的滑动窗口识别所述地址数据,所述门控网络设定有一个滑动窗口,并且所述滑动窗口配置了待定词的特征与待定词的下文词特征的识别要求,基于所述滑动窗口对所述地址数据进行实体数据提取,从而通过门控网络的滑动窗口识别获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体,在识别得到第一实体与第二实体之后,根据预设的后缀特征对所述第一实体、所述第二实体进行后缀嵌入,所述后缀特征为地址信息领域的行政级别特征,然后将生成的第一实体信息与第二实体信息在预设的地址库中进行匹配,若第一实体信息与第二实体信息存在预设的地址库中,则判定所述第一实体信息与所述第二实体信息满足地址特征要求,从而根据所述第一实体信息与所述第二实体信息准确地确定所述地址数据对应的地址信息,通过门控网络清楚地识别地址数据中的地址和非地址信息,以及地址与地址之间的边界,提高地址识别的泛化能力,提高地址识别的准确率与效率。
在一个实施例中,所述根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息,包括:
从预设的后缀特征选取第一后缀特征,根据所述第一后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
获取所述预设的后缀特征的层级关系;
根据所述层级关系与所述第一后缀特征确定第二后缀特征;
根据第二后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息。
本实施例中,在根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;以及根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息的过程中,首先从预设的后缀特征选取第一后缀特征,然后根据所述第一后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息,再获取所述预设的后缀特征的层级关系,在一种实施方式中,后缀特征中以行政等级作为后缀特征的层级关系,例如第一等级的行政级别为“国家”;第二等级的行政级别为第一等级的行政级别的下属行政区域,包括“省”、“直辖市”、“自治区”、“州”等;第三等级的行政级别包括“市”、“区”。然后根据所述层级关系与所述第一后缀特征确定第二后缀特征,即选取不同层级关系的后缀特征分别对第一实体与第二实体进行后缀嵌入,然后根据第二后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息,可以缩小第二实体嵌入的后缀特征的范围,减少第二后缀特征的数量,从而提高第二实体信息的生成效率,提高地址识别的效率。
在一个实施例中,所述根据所述层级关系与所述第一后缀特征确定第二后缀特征,包括:
获取所述第一后缀特征的第一等级;
根据所述层级关系与所述第一等级确定第二等级;
从预设的后缀特征中选取所述第二等级对应的第二后缀特征。
本实施例中,在根据所述层级关系与所述第一后缀特征确定第二后缀特征的过程中,首先获取所述第一后缀特征的等级,将其定义为第一等级,然后根据所述层级关系与所述第一等级确定第二等级,在一种实施方式中,将第一等级的下一等级确定为第二等级,例如,当第一后缀特征的等级为一,确定的第二等级的等级为二;当第一后缀特征的等级为二,确定的第二等级的等级为三,然后从预设的后缀特征中选取所述第二等级对应的第二后缀特征,即选取后缀特征的等级为第二等级的作为第二后缀特征,例如当选取第一后缀特征为“省”,确定的第二后缀特征为“市”,当选取的第一后缀特征为“直辖市”,确定的第二后缀特征为“区”,从而缩小第二实体嵌入的后缀特征的范围,减少第二后缀特征的数量,从而提高第二实体信息的生成效率,提高地址识别的效率。
在一个实施例中,判断所述第一实体信息与所述第二实体信息满足地址特征要求,包括:
将所述第一实体信息在预设的地址库中进行匹配,判断第一实体信息是否存在于所述预设的地址库中;
若存在,确定所述第一实体信息满足所述地址特征要求;
将所述第二实体信息在预设的地址库中进行匹配,判断第二实体信息是否存在于所述预设的地址库中;
若存在,判定所述第一实体信息与所述第二实体信息均满足地址特征要求。
本实施例中,在判断所述第一实体信息与所述第二实体信息满足地址特征要求的过程中,将所述第一实体信息在预设的地址库中进行匹配,判断第一实体信息是否存在于所述预设的地址库中,若存在,确定所述第一实体信息满足所述地址特征要求,在确定第一实体信息满足地址特征要求后,才将所述第二实体信息在预设的地址库中进行匹配,判断第二实体信息是否存在于所述预设的地址库中,若存在,则判定所述第一实体信息与所述第二实体信息均满足地址特征要求,当第一实体信息与第二实体信息均满足地址特征要求后,则确定对所述地址数据完成后缀嵌入,从而提高实体信息判断的效率。
在一个实施例中,判定所述第一实体信息存在于所述预设的地址库中,包括:
将所述第一实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第一实体信息,确定所述第一实体信息的第一语义;
将所述第一语义在预设的第一地址库进行匹配,若所述预设的第一地址库存在所述第一语义对应的向量,确定所述第一实体信息存在于所述预设的地址库;
判定所述第二实体信息存在于所述预设的地址库中,包括:
将所述第二实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第二实体信息,确定所述第二实体信息的第二语义;
将所述第二语义在预设的第二地址库进行匹配,若所述预设的第二地址库存在所述第二语义对应的向量,确定所述第二实体信息存在于所述预设的地址库。
本实施例中,在判定所述第一实体信息存在于所述预设的地址库的过程包括,将所述第一实体信息输入至Bi-LSTM(双向长短记忆)与CRF(条件随机场)的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第一实体信息,确定所述第一实体信息的第一语义,将所述第一语义在预设的第一地址库进行匹配,若所述预设的第一地址库存在所述第一语义对应的向量,确定所述第一实体信息存在于所述预设的地址库,同样的,对于第二实体信息,将所述第二实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第二实体信息,确定所述第二实体信息的第二语义;将所述第二语义在预设的第二地址库进行匹配,若所述预设的第二地址库存在所述第二语义对应的向量,确定所述第二实体信息存在于所述预设的地址库,保证第一实体信息与第二实体信息的准确率。
在一个实施例中,所述将所述第二语义在预设的第二地址库进行匹配之前,还包括:
根据所述第一语义确定所述第一实体信息的第一地址;
获取所述第一实体信息与所述第二实体信息的关联关系;
根据所述关联关系与所述第一地址确定第二地址库,作为预设的第二地址库。
本实施例中,在将所述第二语义在预设的第二地址库进行匹配之前,通过已确定的第一实体信息的地址确定预设的第二地址库,具体的,根据所述第一语义确定第一实体信息的第一地址,然后获取所述第一实体信息与所述第二实体信息的关联关系,根据所述关联关系与所述第一地址确定第二地址库,作为预设的第二地址库,在一种实施方式中,当所述第一实体信息满足的地址特征要求后,确定了第一实体信息的第一地址为“广东省”,获取所述第一实体信息与第二实体信息的关联关系,根据所述关联关系与所述第一地址确定第二地址库,作为预设的第二地址库,即选取广东省下的地址库作为预设的第二地址库,如广东省包含的地级市的地址库作为预设的第二地址库,当第一实体信息的第一地址为“广州市”,则选取广州市下的地址库作为预设的第二地址库,如广州市包含的区的地址库作为预设的第二地址库,从而缩小地址库的范围,减少地址的匹配数量,提高地址的匹配效率。
在一个实施例中,所述通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,包括:
获取所述门控网络的滑动窗口的窗口大小配置信息;
根据所述窗口大小配置信息依次配置窗口值;
基于所述窗口值对应的门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据。
本实施例中,在通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据的过程中,获取所述门控网络的滑动窗口的窗口大小配置信息,然后根据所述窗口大小配置信息依次配置窗口值,再基于所述窗口值对应的门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,首先以最小值窗口对应的门控网络的滑动窗口识别所述地址数据,得到第一实体,若识别得到的第一实体在进行后缀嵌入后满足地址特征要求,则再以最小值窗口对应的门控网络的滑动窗口识别所述地址数据,得到第二实体。若识别得到的第一实体在进行后缀嵌入后不满足地址特征要求,则更换窗口大小,例如窗口值增加一,然后再识别所述地址数据,从而有效地控制实体数据的识别进度,准确地识别出地址数据中各个实体的边界,得到准确的第一实体与第二实体,从而提高地址信息识别的准确率。
参照图2,本申请还提供一种地址信息的识别装置,包括:
数据获取模块10,用于获取地址数据;
实体识别模块20,用于通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;
第一嵌入模块30,用于根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
第二嵌入模块40,用于根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;
评分筛选模块50,用于若判定所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
如上所述,可以理解地,本申请中提出的所述地址信息的识别装置的各组成部分可以实现如上所述地址信息的识别方法任一项的功能。
在一个实施例中,所述根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息,包括:
从预设的后缀特征选取第一后缀特征,根据所述第一后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
获取所述预设的后缀特征的层级关系;
根据所述层级关系与所述第一后缀特征确定第二后缀特征;
根据第二后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息。
在一个实施例中,所述根据所述层级关系与所述第一后缀特征确定第二后缀特征,包括:
获取所述第一后缀特征的第一等级;
根据所述层级关系与所述第一等级确定第二等级;
从预设的后缀特征中选取所述第二等级对应的第二后缀特征。
在一个实施例中,判断所述第一实体信息与所述第二实体信息满足地址特征要求,包括:
将所述第一实体信息在预设的地址库中进行匹配,判断第一实体信息是否存在于所述预设的地址库中;
若存在,确定所述第一实体信息满足所述地址特征要求;
将所述第二实体信息在预设的地址库中进行匹配,判断第二实体信息是否存在于所述预设的地址库中;
若存在,判定所述第一实体信息与所述第二实体信息均满足地址特征要求。
在一个实施例中,判定所述第一实体信息存在于所述预设的地址库中,包括:
将所述第一实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第一实体信息,确定所述第一实体信息的第一语义;
将所述第一语义在预设的第一地址库进行匹配,若所述预设的第一地址库存在所述第一语义对应的向量,确定所述第一实体信息存在于所述预设的地址库;
判定所述第二实体信息存在于所述预设的地址库中,包括:
将所述第二实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第二实体信息,确定所述第二实体信息的第二语义;
将所述第二语义在预设的第二地址库进行匹配,若所述预设的第二地址库存在所述第二语义对应的向量,确定所述第二实体信息存在于所述预设的地址库。
在一个实施例中,所述将所述第二语义在预设的第二地址库进行匹配之前,还包括:
根据所述第一语义确定所述第一实体信息的第一地址;
获取所述第一实体信息与所述第二实体信息的关联关系;
根据所述关联关系与所述第一地址确定第二地址库,作为预设的第二地址库。
在一个实施例中,所述通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,包括:
获取所述门控网络的滑动窗口的窗口大小配置信息;
根据所述窗口大小配置信息依次配置窗口值;
基于所述窗口值对应的门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作***、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种地址信息的识别方法。
上述处理器执行上述的地址信息的识别方法,包括:获取地址数据;通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;若所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
所述计算机设备提供了一种针对边界模糊的地址数据进行识别的方法,首先获取地址数据;所述地址数据为原始的未经处理的数据,然后通过门控网络的滑动窗口识别所述地址数据,所述门控网络设定有一个滑动窗口,并且所述滑动窗口配置了待定词的特征与待定词的下文词特征的识别要求,基于所述滑动窗口对所述地址数据进行实体数据提取,从而通过门控网络的滑动窗口识别获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体,在识别得到第一实体与第二实体之后,根据预设的后缀特征对所述第一实体、所述第二实体进行后缀嵌入,所述后缀特征为地址信息领域的行政级别特征,然后将生成的第一实体信息与第二实体信息在预设的地址库中进行匹配,若第一实体信息与第二实体信息存在预设的地址库中,则判定所述第一实体信息与所述第二实体信息满足地址特征要求,从而根据所述第一实体信息与所述第二实体信息准确地确定所述地址数据对应的地址信息,通过门控网络清楚地识别地址数据中的地址和非地址信息,以及地址与地址之间的边界,提高地址识别的泛化能力,提高地址识别的准确率与效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种地址信息的识别方法,包括步骤:获取地址数据;通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;若所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
所述计算机可读存储介质提供了一种针对边界模糊的地址数据进行识别的方法,首先获取地址数据;所述地址数据为原始的未经处理的数据,然后通过门控网络的滑动窗口识别所述地址数据,所述门控网络设定有一个滑动窗口,并且所述滑动窗口配置了待定词的特征与待定词的下文词特征的识别要求,基于所述滑动窗口对所述地址数据进行实体数据提取,从而通过门控网络的滑动窗口识别获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体,在识别得到第一实体与第二实体之后,根据预设的后缀特征对所述第一实体、所述第二实体进行后缀嵌入,所述后缀特征为地址信息领域的行政级别特征,然后将生成的第一实体信息与第二实体信息在预设的地址库中进行匹配,若第一实体信息与第二实体信息存在预设的地址库中,则判定所述第一实体信息与所述第二实体信息满足地址特征要求,从而根据所述第一实体信息与所述第二实体信息准确地确定所述地址数据对应的地址信息,通过门控网络清楚地识别地址数据中的地址和非地址信息,以及地址与地址之间的边界,提高地址识别的泛化能力,提高地址识别的准确率与效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种地址信息的识别方法,其特征在于,包括:
获取地址数据;
通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;
根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;
若所述第一实体信息与所述第二实体信息均满足预设的地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
2.根据权利要求1所述的地址信息的识别方法,其特征在于,所述根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息,包括:
从预设的后缀特征选取第一后缀特征,根据所述第一后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
获取所述预设的后缀特征的层级关系;
根据所述层级关系与所述第一后缀特征确定第二后缀特征;
根据第二后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息。
3.根据权利要求2所述的地址信息的识别方法,其特征在于,所述根据所述层级关系与所述第一后缀特征确定第二后缀特征,包括:
获取所述第一后缀特征的第一等级;
根据所述层级关系与所述第一等级确定第二等级;
从预设的后缀特征中选取所述第二等级对应的第二后缀特征。
4.根据权利要求1所述的地址信息的识别方法,其特征在于,判断所述第一实体信息与所述第二实体信息满足地址特征要求,包括:
将所述第一实体信息在预设的地址库中进行匹配,判断第一实体信息是否存在于所述预设的地址库中;
若存在,确定所述第一实体信息满足所述地址特征要求;
将所述第二实体信息在预设的地址库中进行匹配,判断第二实体信息是否存在于所述预设的地址库中;
若存在,判定所述第一实体信息与所述第二实体信息均满足地址特征要求。
5.根据权利要求4所述的地址信息的识别方法,其特征在于,判定所述第一实体信息存在于所述预设的地址库中,包括:
将所述第一实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第一实体信息,确定所述第一实体信息的第一语义;
将所述第一语义在预设的第一地址库进行匹配,若所述预设的第一地址库存在所述第一语义对应的向量,确定所述第一实体信息存在于所述预设的地址库;
判定所述第二实体信息存在于所述预设的地址库中,包括:
将所述第二实体信息输入至Bi-LSTM与CRF的结合网络中,基于所述Bi-LSTM与CRF的结合网络识别所述第二实体信息,确定所述第二实体信息的第二语义;
将所述第二语义在预设的第二地址库进行匹配,若所述预设的第二地址库存在所述第二语义对应的向量,确定所述第二实体信息存在于所述预设的地址库。
6.根据权利要求5所述的地址信息的识别方法,其特征在于,所述将所述第二语义在预设的第二地址库进行匹配之前,还包括:
根据所述第一语义确定所述第一实体信息的第一地址;
获取所述第一实体信息与所述第二实体信息的关联关系;
根据所述关联关系与所述第一地址确定第二地址库,作为预设的第二地址库。
7.根据权利要求1所述的地址信息的识别方法,其特征在于,所述通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,包括:
获取所述门控网络的滑动窗口的窗口大小配置信息;
根据所述窗口大小配置信息依次配置窗口值;
基于所述窗口值对应的门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据。
8.一种地址信息的识别装置,其特征在于,包括:
数据获取模块,用于获取地址数据;
实体识别模块,用于通过门控网络的滑动窗口识别所述地址数据,获得所述地址数据包含的实体数据,所述实体数据包括第一实体与第二实体;
第一嵌入模块,用于根据预设的后缀特征对所述第一实体进行后缀嵌入,生成第一实体信息;
第二嵌入模块,用于根据预设的后缀特征对所述第二实体进行后缀嵌入,生成第二实体信息;
评分筛选模块,用于若判定所述第一实体信息与所述第二实体信息满足地址特征要求,根据所述第一实体信息与所述第二实体信息确定所述地址数据对应的地址信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述地址信息的识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述地址信息的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111217637.2A CN113836920A (zh) | 2021-10-19 | 2021-10-19 | 地址信息的识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111217637.2A CN113836920A (zh) | 2021-10-19 | 2021-10-19 | 地址信息的识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836920A true CN113836920A (zh) | 2021-12-24 |
Family
ID=78965587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111217637.2A Pending CN113836920A (zh) | 2021-10-19 | 2021-10-19 | 地址信息的识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836920A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050015451A1 (en) * | 2001-02-15 | 2005-01-20 | Sheldon Valentine D'arcy | Automatic e-mail address directory and sorting system |
US20130111066A1 (en) * | 2011-10-26 | 2013-05-02 | Ramprasad Vempati | Device and Method for Split DNS Communications |
CN108256718A (zh) * | 2017-05-04 | 2018-07-06 | 平安科技(深圳)有限公司 | 保单服务任务分配方法、装置、计算机设备和存储设备 |
CN111291277A (zh) * | 2020-01-14 | 2020-06-16 | 浙江邦盛科技有限公司 | 一种基于语义识别和高级语言搜索的地址标准化方法 |
US10839156B1 (en) * | 2019-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Address normalization using deep learning and address feature vectors |
CN112579919A (zh) * | 2020-12-09 | 2021-03-30 | 小红书科技有限公司 | 数据处理方法、装置及电子设备 |
CN112633003A (zh) * | 2020-12-30 | 2021-04-09 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
US20210110343A1 (en) * | 2019-10-10 | 2021-04-15 | United States Postal Service | Methods and systems for generating address score information |
-
2021
- 2021-10-19 CN CN202111217637.2A patent/CN113836920A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050015451A1 (en) * | 2001-02-15 | 2005-01-20 | Sheldon Valentine D'arcy | Automatic e-mail address directory and sorting system |
US20130111066A1 (en) * | 2011-10-26 | 2013-05-02 | Ramprasad Vempati | Device and Method for Split DNS Communications |
CN108256718A (zh) * | 2017-05-04 | 2018-07-06 | 平安科技(深圳)有限公司 | 保单服务任务分配方法、装置、计算机设备和存储设备 |
US10839156B1 (en) * | 2019-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Address normalization using deep learning and address feature vectors |
US20210110343A1 (en) * | 2019-10-10 | 2021-04-15 | United States Postal Service | Methods and systems for generating address score information |
CN111291277A (zh) * | 2020-01-14 | 2020-06-16 | 浙江邦盛科技有限公司 | 一种基于语义识别和高级语言搜索的地址标准化方法 |
CN112579919A (zh) * | 2020-12-09 | 2021-03-30 | 小红书科技有限公司 | 数据处理方法、装置及电子设备 |
CN112633003A (zh) * | 2020-12-30 | 2021-04-09 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063221B (zh) | 基于混合策略的查询意图识别方法和装置 | |
CN107798136B (zh) | 基于深度学习的实体关系抽取方法、装置及服务器 | |
CN110321408B (zh) | 基于知识图谱的搜索方法、装置、计算机设备和存储介质 | |
CN111797629B (zh) | 医疗文本数据的处理方法、装置、计算机设备和存储介质 | |
CN108038544B (zh) | 基于大数据和深度学习的神经网络深度学习方法和*** | |
CN105634855A (zh) | 网络地址的异常识别方法及装置 | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN114399379A (zh) | 基于人工智能的催收行为识别方法、装置、设备及介质 | |
CN111291135A (zh) | 知识图谱构建方法和装置、服务器、计算机可读存储介质 | |
CN112784857A (zh) | 一种模型训练以及图像处理方法及装置 | |
CN111026938B (zh) | 时空大数据整合分析方法、装置、设备及存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN111737990A (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN112241458A (zh) | 文本的知识结构化处理方法、装置、设备和可读存储介质 | |
CN110826318A (zh) | 物流信息识别的方法、设备、计算机设备和存储介质 | |
CN110609618A (zh) | 一种人机对话方法、装置、计算机设备及存储介质 | |
CN113949525A (zh) | 异常访问行为的检测方法、装置、存储介质及电子设备 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
CN113836920A (zh) | 地址信息的识别方法、装置、计算机设备及存储介质 | |
CN113849644A (zh) | 文本分类模型的配置方法、装置、计算机设备及存储介质 | |
CN113220859A (zh) | 基于图像的问答方法、装置、计算机设备及存储介质 | |
CN114972792A (zh) | 基于双模态特征融合的问答方法、装置、设备和存储介质 | |
CN105512145A (zh) | 信息分类方法及装置 | |
CN112825087A (zh) | 用户信息查找方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |