CN110046341A - 用于对信息进行匹配的方法和*** - Google Patents

用于对信息进行匹配的方法和*** Download PDF

Info

Publication number
CN110046341A
CN110046341A CN201811638970.9A CN201811638970A CN110046341A CN 110046341 A CN110046341 A CN 110046341A CN 201811638970 A CN201811638970 A CN 201811638970A CN 110046341 A CN110046341 A CN 110046341A
Authority
CN
China
Prior art keywords
information
matched
matching
modification
raw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811638970.9A
Other languages
English (en)
Other versions
CN110046341B (zh
Inventor
鲁志军
赵张云
李岭
孙小羽
陆佳伟
仇志付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201811638970.9A priority Critical patent/CN110046341B/zh
Publication of CN110046341A publication Critical patent/CN110046341A/zh
Application granted granted Critical
Publication of CN110046341B publication Critical patent/CN110046341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术,具体涉及用于对信息进行匹配的方法、***以及实现该方法的计算机设备和计算机可读存储介质。按照本发明一个方面的用于对信息进行匹配的方法,其特征在于,包括下列步骤:A)对原始信息进行修正;B)将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别;C)对所述多个信息部分分别进行校正以得到经校正信息;以及D)对所述经校正信息进行分词匹配。

Description

用于对信息进行匹配的方法和***
技术领域
本发明涉及计算机技术,具体涉及用于对信息进行匹配的方法、***以及实现该方法的计算机设备和计算机可读存储介质。
背景技术
现有技术中,对信息的匹配方法多是采用精确匹配方法,例如采用表格精确匹配或者人工关键词匹配的方法,所述方法导致出现了匹配成功率较低以及效率低下等问题。在实际应用中,例如行名和行号的匹配中,由于行号过期或者行号错误导致客户资金结算交易的失败,为银行工作带来很多困难。
在精确匹配的方法中,采用表格的精确匹配成功率较低,人工关键词匹配的方法效率低下。此外,所述方法难以解决在匹配失败的情况下的修正的机制。
公开于本发明背景部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的一个方面是提供一种对信息进行匹配的方法。
按照本发明的一个方面的一种对信息进行匹配的方法,其中,包括下列步骤:
A)对原始信息进行修正;
B)将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别;
C) 对所述多个信息部分分别进行校正以得到经校正信息;
D) 对所述经校正信息进行分词匹配;
其中,对所述多个信息部分进行校正包括如下项中的至少一项:
C1)基于信息变更表来变更所述步骤B)中未匹配成功的信息;其中,所述信息变更表记录对应于各所述信息类别的所述信息部分的名称变更信息;以及
C2)基于第一数据源来对所述步骤B)中未匹配成功的信息进行补充。
可选地,在上述方法中,在步骤A)中,所述修正包括下列中的一种或多种:剔除公有信息、替换简称和修改错误信息。
可选地,在上述方法中,所述信息变更表基于匹配成功的信息进行更新。
可选地,在上述方法中,所述分词匹配包括下列步骤:
基于信息的划分类别将所述信息划分为多个部分;以及
对所述多个部分分别进行匹配。
可选地,在上述方法中在步骤D)中,如果所述信息匹配出多个名称,则利用所述名称的相似度进行筛选。
可选地,在上述方法中,在步骤D)中,进一步包括:
当所述信息匹配成功时,输出所述信息的匹配名称和编号;以及
当所述信息未匹配成功时,基于精确匹配方法对所述信息进行匹配,并将匹配结果加入所述信息变更表。
可选地,在上述方法中,其中所述信息是银行行号和行名。
本发明另一方面的目的是提供一种对信息进行匹配的***。
按照本发明的另一方面的一种对信息进行匹配的***,其包括
修正模块,用于对原始信息进行修正;
分类模块,用于将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别;
校正模块,用于对所述多个信息部分分别进行校正以得到经校正信息;以及
匹配模块,用于对上述信息进行匹配。
本发明还一方面的目的是提供一种对信息进行匹配的计算机设备。按照本发明的还一方面的一种对信息进行匹配的计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述用于对信息进行匹配的方法。
本发明又一方面的目的是提供一种计算机可读存储介质。按照本发明又一方面的计算机可读存储介质,其上存储计算机程序,该计算机程序被处理器执行时实现上述的用于对信息进行匹配的方法。
根据本发明的一个方面的用于对信息进行匹配的方法,能够解决在多场景下的信息匹配问题,针对一些不完整、不准确的信息,其匹配成功率高,且具备自我学习的机制,能够记录匹配失败的信息,以提高下一次匹配的成功率。
多种其它特征和优点将从如下详细描述和附图中显而易见。
附图说明
本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示。附图包括:
图1示出了按照本发明一实施例的用于对信息进行匹配的方法的流程图。
图2示出了按照本发明一实施例的用于对信息进行匹配的示例性方法的流程图。
图3示出了按照本发明一实施例的对信息进行匹配的***的示意图。
图4示出了按照本发明一实施例的用于对信息进行匹配的计算机设备的示意图。
具体实施方式
在本说明书中,参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现,而不应解读为仅限于本文给出的各实施例。给出的各实施例旨在使本文的披露全面完整,以将本发明的保护范围更为全面地传达给本领域技术人员。
诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。
下文参考根据本发明实施例的方法和***的流程图说明、框图和/或流程图来描述本发明。将理解这些流程图说明和/或框图的每个框、以及流程图说明和/或框图的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以构成机器,以便由计算机或其他可编程数据处理设备的处理器执行的这些指令创建用于实施这些流程图和/或框和/或一个或多个流程框图中指定的功能/操作的部件。
可以将这些计算机程序指令存储在计算机可读存储器中,这些指令可以指示计算机或其他可编程处理器以特定方式实现功能,以便存储在计算机可读存储器中的这些指令构成包含实施流程图和/或框图的一个或多个框中指定的功能/操作的指令部件的制作产品。
可以将这些计算机程序指令加载到计算机或其他可编程数据处理器上以使一系列的操作步骤在计算机或其他可编程处理器上执行,以便构成计算机实现的进程,以使计算机或其他可编程数据处理器上执行的这些指令提供用于实施此流程图和/或框图的一个或多个框中指定的功能或操作的步骤。还应该注意在一些备选实现中,框中所示的功能/操作可以不按流程图所示的次序来发生。例如,依次示出的两个框实际可以基本同时地执行或这些框有时可以按逆序执行,具体取决于所涉及的功能/操作。
图1示出了按照本发明一实施例的用于对信息进行匹配的方法的流程图。
如图1所示,在步骤110中,对原始信息进行修正,主要的修正包括:提出公有信息、替换简称或修改错误信息。之后进入步骤120。
在步骤120中,将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别,第一词库是指所述信息对应于行业标准中制定的相应名称和编号。之后进入步骤130。
在步骤130中,对所述多个信息部分分别进行校正以得到经校正信息,其中,对所述多个信息部分进行校正包括如下项中的至少一项:
基于信息变更表来变更所述步骤120中未匹配成功的信息;其中,所述信息变更表记录对应于各所述信息类别的所述信息部分的名称变更信息;以及基于第一数据源来对所述步骤120中未匹配成功的信息进行补充。
在步骤140中,对所述经校正信息进行分词匹配,如果所述信息匹配出多个名称,则利用所述名称的相似度进行筛选。可选地,步骤140进一步包括:当所述信息匹配成功时,输出所述信息的匹配名称和编号;以及当所述信息未匹配成功时,基于精确匹配方法对所述信息进行匹配,并将匹配结果加入所述信息变更表。
图2示出了按照本发明一实施例的用于对信息进行匹配的示例性方法的流程图。所述方法需要通过配置Python并导入Pandas、Jieba、Time和Fuzzywuzzy四个模块以实现对信息的划分以及模糊匹配的功能。首先读取信息并判断是否可以进行精确匹配,如果不能成功匹配,则进行模糊匹配,其配置的具体步骤如下。作为示例,在本实施例中将待匹配的信息假设为银行行号和行名。
在步骤210中,对原始信息进行修正并将其划分为多个信息部分。在本实施例中,对原始的银行行名进行初步修正,主要针对可能出现的有些名称存在简称的情况下进行修正。然后,基于银行类别(例如,中、农、工、建、交、邮储、信用社等)对经修正的行名进行分类。之后进行步骤220、步骤230和步骤240的三次模糊匹配,其中,依次放宽匹配条件,且仅在上一次匹配失败的情况下才进行下一步匹配,以下对所述三次匹配过程进行详细描述。
在步骤220中,剔除公有词、替换简称,利用Jieba分词模块,根据中文词库将信息分为多个词语,以在对应的分类下与第一词库(例如,基于银行行业标准制定的行名行号表)进行无序匹配。如果匹配不成功,则进入步骤230。
在步骤230中,基于信息变更表,将未匹配成功的信息替换为新的信息。通过特定的划分类别,剔除出多个关键词,然后进行分词匹配。例如,可以通过地区类别来按照包括除直辖市外的省级行政区划分,则划分出“省”、“市”、“县”等关键词,分词并匹配。如果匹配不成功,则进入步骤240。
在步骤240中,利用爬虫获取相关权威官网上的相关完整信息,按照其指定的划分类别将对应的不完整的类别名称补齐为完整的名称。然后进行分词并匹配。若仍未能实现匹配,则采用其它精确匹配的方法,并将匹配结果加入信息变更表。例如,利用爬虫获取国家***官网上的行政区划数据,将行名中的三级行政区划补齐,例如将 “张浦镇”补齐为“江苏省苏州市昆山市张浦镇”,分词并匹配。
在步骤250中,如果将行名匹配成功,则利用之前所得行名“江苏省苏州市昆山市张浦镇新吴街招商银行”,在行名行号表中匹配行号,若出现同一行名匹配多个行号的情况,则利用Fuzzywuzzy模块基于原行名的相似度筛选出未过期的行号,若仍存在多个行号,则寻求其它匹配方法。
根据图2所示的示例性方法,在仅提供不准确甚至不完整的行名的情况下,仍然能通过多层匹配,最大限度地将其与规范制定的行名行号表相匹配,从而提高匹配的效率和成功率。
图3示出了按照本发明一实施例的对信息进行匹配的***的示意图。信息匹配***30包括修正模块310,用于对原始信息进行修正;
分类模块320,用于将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别;校正模块330,用于对所述多个信息部分分别进行校正以得到经校正信息;以及匹配模块340,用于对上述的信息进行匹配。
作为示例,上述信息匹配***30可以用于银行业务***中的行号与行名的匹配,也可以用于商业结算过程中商户的商户名与商户号的匹配,对用户提交的不完整或者不准确的名称,通过本***30自动化模糊匹配的方法,对名称与编号进行模糊匹配,从而大大提高了匹配的效率和准确率。
图4示出了按照本发明一实施例的用于对信息进行匹配的计算机设备的示意图。该计算机设备40包含存储器410、处理器420以及存储在所述存储器上并且可在所述处理器上运行的计算机程序430。所述处理器420运行所述程序430以实现上述用于检测网络***异常的方法。
按照本发明的另一方面,还提供了一种计算机可读存储介质,其上存储计算机程序,该程序被处理器执行时可实现上述用于对信息进行匹配的方法。
根据本发明的方法及其***,通过将本***配置Python语言并导入相关功能模块对相关信息进行分词、筛选,以实现信息模糊匹配的功能。本方法配置简单、***运行稳定、匹配成功率高,此外还具备自我学习机制,能够记录失败的匹配信息,以提高下一次匹配的成功率。
提供本文中提出的实施例和示例,以便最好地说明按照本技术及其特定应用的实施例,并且由此使本领域的技术人员能够实施和使用本发明。但是,本领域的技术人员将会知道,仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。
鉴于以上所述,本公开的范围通过以下权利要求书来确定。

Claims (10)

1.一种对信息进行匹配的方法,其特征在于,包括下列步骤:
A)对原始信息进行修正;
B)将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别;
C) 对所述多个信息部分分别进行校正以得到经校正信息;以及
D) 对所述经校正信息进行分词匹配;
其中,对所述多个信息部分进行校正包括如下项中的至少一项:
C1)基于信息变更表来变更所述步骤B)中未匹配成功的信息;其中,所述信息变更表记录对应于各所述信息类别的所述信息部分的名称变更信息;以及
C2)基于第一数据源来对所述步骤B)中未匹配成功的信息进行补充。
2.如权利要求1所述的方法,其中,在步骤A)中,所述修正包括下列中的一种或多种:剔除公有信息、替换简称和修改错误信息。
3.如权利要求1所述的方法,其中,所述信息变更表基于匹配成功的信息进行更新。
4. 如权利要求1所述的方法,其中,所述分词匹配包括下列步骤:
基于信息的划分类别将所述信息划分为多个部分;以及
对所述多个部分分别进行匹配。
5.如权利要求1所述的方法,其中,在步骤D)中,如果所述信息匹配出多个名称,则利用所述名称的相似度进行筛选。
6. 如权利要求1所述的方法,其中,在步骤D)中,进一步包括:
当所述信息匹配成功时,输出所述信息的匹配名称和编号;以及
当所述信息未匹配成功时,基于精确匹配方法对所述信息进行匹配,并将匹配结果加入所述信息变更表。
7. 如权利要求1至6中任一项所述的方法,其中所述信息是银行行号和行名。
8.一种对信息进行匹配的***,其特征在于,包括
修正模块,用于对原始信息进行修正;
分类模块,用于将所修正的原始信息划分为多个信息部分以分别与第一词库进行匹配,其中所述多个信息部分分别对应于所述原始信息的多个信息类别;
校正模块,对所述多个信息部分分别进行校正以得到经校正信息;;以及
匹配模块,用于对所述权利要求1至7中任一项所述的信息进行匹配。
9.一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的对信息进行匹配的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的对信息进行匹配的方法。
CN201811638970.9A 2018-12-29 2018-12-29 用于对信息进行匹配的方法和*** Active CN110046341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811638970.9A CN110046341B (zh) 2018-12-29 2018-12-29 用于对信息进行匹配的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811638970.9A CN110046341B (zh) 2018-12-29 2018-12-29 用于对信息进行匹配的方法和***

Publications (2)

Publication Number Publication Date
CN110046341A true CN110046341A (zh) 2019-07-23
CN110046341B CN110046341B (zh) 2023-06-09

Family

ID=67274034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811638970.9A Active CN110046341B (zh) 2018-12-29 2018-12-29 用于对信息进行匹配的方法和***

Country Status (1)

Country Link
CN (1) CN110046341B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561518A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 信息识别方法、装置及存储介质
CN113268986A (zh) * 2021-05-24 2021-08-17 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理***及方法
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
US20170270438A1 (en) * 2016-03-17 2017-09-21 Ca, Inc. Method and Apparatus for Repairing Policies
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理***及方法
US20170270438A1 (en) * 2016-03-17 2017-09-21 Ca, Inc. Method and Apparatus for Repairing Policies
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561518A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 信息识别方法、装置及存储介质
CN113268986A (zh) * 2021-05-24 2021-08-17 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN113268986B (zh) * 2021-05-24 2024-05-24 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置

Also Published As

Publication number Publication date
CN110046341B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
Steinbuch et al. Learning matrices and their applications
CN107862567B (zh) 一种订单核对方法
US7904353B2 (en) Method and system for processing payments
CN111428599B (zh) 票据识别方法、装置和设备
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
WO2006055975A2 (en) Account data reconciliation
CN107463661A (zh) 数据的导入方法及装置
CN101996380A (zh) 一种查找错账的方法、装置及***
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN110046341A (zh) 用于对信息进行匹配的方法和***
CN103903137A (zh) 一种自动的支付对账方法和***
CN110532269B (zh) 一种基于机器学习财务报表跨国会计准则转换方法
JP6441718B2 (ja) 帳票処理システム、帳票処理方法及びプログラム
CN109885541A (zh) 信息批量处理的方法和装置
CN110322206A (zh) 一种基于ocr识别的试剂信息录入方法及装置
CN106445907A (zh) 一种领域词典的生成方法及装置
CN112785404A (zh) ***开具管理***
CN106022736A (zh) 交通领域多城市互通中发卡方与收单方清结算方法
US8485435B2 (en) System and method of financial instrument processing with duplicate item detection
CN110942066B (zh) 票据核对方法及装置
CN107977454A (zh) 双语语料清洗的方法、装置及计算机可读存储介质
CN106227872A (zh) 一种基于电商平台的数据清洗验证方法
CN105335446A (zh) 一种基于词矢量的短文本分类模型生成方法与分类方法
TWI628607B (zh) Accounting processing notice billing re-validation method and system
CN111797616A (zh) 基于tf-idf词向量的银行名称批量校正方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant