CN113569568A - 文本识别方法、装置、电子设备、存储介质及转账方法 - Google Patents

文本识别方法、装置、电子设备、存储介质及转账方法 Download PDF

Info

Publication number
CN113569568A
CN113569568A CN202110867483.5A CN202110867483A CN113569568A CN 113569568 A CN113569568 A CN 113569568A CN 202110867483 A CN202110867483 A CN 202110867483A CN 113569568 A CN113569568 A CN 113569568A
Authority
CN
China
Prior art keywords
standard
corpus
vocabulary
text
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110867483.5A
Other languages
English (en)
Inventor
徐志
毛群
戴辛晨
王宇
梁晨翊
罗杰文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110867483.5A priority Critical patent/CN113569568A/zh
Publication of CN113569568A publication Critical patent/CN113569568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提供了一种文本识别方法、装置、电子设备、可读存储介质及转账方法,可以应用于人工智能技术领域、金融领域或其他领域。该文本识别方法,包括:获取非标准文本内容,对非标准文本内容进行第一预处理,生成非标准语料库,非标准文本内容属于标准类别库的一种;对标准类别库中的标准文本内容进行第二预处理,生成标准语料库;比对标准语料库的标准词汇和非标准语料库中的非标准词汇,基于比对结果对非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,第三预处理包括添加和/或删除非标准语料库中的非标准词汇;对标准语料库的标准词汇和准标准语料库中的准标准词汇进行后置处理以生成排名,根据排名输出文本识别结果。

Description

文本识别方法、装置、电子设备、存储介质及转账方法
技术领域
本公开涉及人工智能技术领域,更具体地涉及一种文本识别方法、装置、电子设备、可读存储介质及银行转账方法。
背景技术
在银行进行汇款等业务办理时,需要收集用户填写的各种银行名称、银行账号等收款信息。在实际的业务处理过程中,由于用户填写或输入的收款银行名称经常是非标准的银行名称,不能直接查找到对应的银行账号,需要依靠人工对银行名称进行复核确认,并查找对应的银行账号。在进行该类人工识别或处理过程中,主要存在以下问题:跨行汇款业务量大,时效性要求高,依靠人工查找标准行名容易造成业务处理不及时,办理效率低的问题。此外,人工补录标准不一,依赖于业务人员的经验,有时可能会出现录错的风险,造成汇款业务失败。
发明内容
鉴于上述问题,本公开提供了可以文本识别方法、装置、电子设备及可读存储介质,能够有效解决人工识别效率低,易出错的问题。
根据本公开的第一个方面,提供了一种文本识别方法,包括:获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库,所述非标准文本内容属于标准类别库的一种;对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库;比对所述标准语料库的标准词汇和所述非标准语料库中的非标准词汇,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,所述第三预处理包括添加和/或删除所述非标准语料库中的非标准词汇;对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据所述相似度排名输出文本识别结果。
根据本公开的实施例,所述获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库包括:获取非标准文本内容,对所述非标准文本内容进行分词处理,生成所述非标准词汇,所述非标准词汇包含关键词;根据所述非标准词汇中的关键词确定所述非标准文本内容所在的所述标准类别库;对所述非标准词汇进行过滤处理,生成所述非标准语料库。
根据本公开的实施例,所述对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库包括:获取所述标准类别库中的所有标准文本内容;对每一条所述标准文本内容进行分词处理,生成所述标准词汇;对所述标准词汇进行过滤处理,生成所述标准语料库。
根据本公开的实施例,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理包括:若所述非标准词汇存在于所述非标准语料库中,且不存在所述标准语料库中,则删除所述非标准语料库中的所述非标准词汇。
根据本公开的实施例,所述基于比对结果对所述非标准语料库中的词汇进行第三预处理还包括:获取所述非标准语料库中的每一个所述非标准词汇,根据获取的所述非标准词汇,提取所述标准语料库中包含所述非标准词汇的所述标准词汇;根据提取的所述标准词汇生成交集词汇;若所述交集词汇不在所述非标准语料库中,则将生成的所述交集词汇添加至所述非标准语料库,以生成准标准语料库,所述准标准语料库包含准标准词汇。
根据本公开的实施例,所述对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成排名,根据所述排名输出文本识别结果包括:对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行向量化处理;根据所述向量化处理结果,计算所述标准词汇向量和所述准标准词汇向量的余弦相似度;基于余弦相似度生成相似度排名,选择排名大于设定阈值的所述标准词汇所对应的标准文本作为目标文本输出。
根据本公开的实施例,所述目标文本还包括与所述标准文本对应的标准编号。
根据本公开的实施例,所述非标准文本内容包括用户输入的文本内容,所述标准文本内容包括存储在服务器的设定文本内容。
本公开实施例的第二方面提供了一种银行转账方法,应用于付款服务器,包括:接收银行账户的转账请求,所述转账请求包括:付款账户信息、收款账户信息和转账金额信息;比对所述转账请求中的所述付款账户信息与付款服务器中的第一标准账户信息;基于比对结果向收款服务器进行转账交易;其中所述付款账户信息和收款账户信息中的至少一者是通过上文所述的文本识别方法识别获取的。
本公开实施例的第三方面提供了一种银行转账方法,应用于收款服务器,包括:接收付款服务器的收款请求,所述收款请求包括:付款账户信息、收款账户信息和收款金额;比对所述收款请求中的所述收款账户信息与收款服务器中的第二标准账户信息;基于比对结果向服务器返回转账交易结果;其中,所述付款账户信息和收款账户信息中的至少一者是通过上文所述的文本识别方法识别获取的。
根据本公开的第四方面,提供了一种文本识别装置,包括:第一预处理模块,配置为获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库,所述非标准文本内容属于标准类别库的一种;第二预处理模块,配置为对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库;第三预处理模块,比对所述标准语料库的标准词汇和所述非标准语料库中的非标准词汇,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,所述第三预处理包括添加和/或删除所述非标准语料库中的非标准词汇;后置处理模块,配置为对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据所述相似度排名输出文本识别结果。
根据本公开的实施例,所述第一预处理模块包括第一预处理子模块,所述第一预处理子模块配置为获取非标准文本内容,对所述非标准文本内容进行分词处理,生成所述非标准词汇,所述非标准词汇包含关键词;根据所述非标准词汇中的关键词确定所述非标准文本内容所在的所述标准类别库;对所述非标准词汇进行过滤处理,生成所述非标准语料库。
根据本公开的实施例,所述第二预处理模块包括第二预处理子模块,所述第二预处理子模块配置为获取所述标准类别库中的所有标准文本内容;对每一条所述标准文本内容进行分词处理,生成所述标准词汇;对所述标准词汇进行过滤处理,生成所述标准语料库。
根据本公开的实施例,所述第三预处理模块包括删除模块,所述删除模块配置为若所述非标准词汇存在于所述非标准语料库中,且不存在所述标准语料库中,则删除所述非标准语料库中的所述非标准词汇。
根据本公开的实施例,所述第三预处理模块还包括添加模块,所述添加模块配置为获取所述非标准语料库中的每一个所述非标准词汇,根据获取的所述非标准词汇,提取所述标准语料库中包含所述非标准词汇的所述标准词汇;根据提取的所述标准词汇生成交集词汇;若所述交集词汇不在所述非标准语料库中,则将生成的所述交集词汇添加至所述非标准语料库,以生成准标准语料库,所述准标准语料库包含准标准词汇。
根据本公开的实施例,所述后置处理模块包括后置处理子模块,所述后置处理子模块配置为对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行向量化处理;根据所述向量化处理结果,计算所述标准词汇向量和所述准标准词汇向量的余弦相似度;基于余弦相似度生成相似度排名,选择排名大于设定阈值的所述标准词汇所对应的标准文本作为目标文本输出。
根据本公开的第五方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据上文所述的文本识别方法。
根据本公开的第六方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时,实现根据上文所述的文本识别方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理执行时实现根据上文所述的文本识别方法。
根据本公开的实施例,通过用户输入的非标准文本进行第一预处理可有效缩小文本识别范围,通过对非标准文本的非标准词汇进行删除和/或添加,可以加快识别速度和提高识别准确率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了可以应用本公开实施例的文本识别方法的***架构的示意图;
图2示意性示出了根据本公开实施例的文本识别方法的流程图;
图3示意性示出了根据本公开实施例的文本识别方法的第一预处理的流程图;
图4示意性示出了根据本公开实施例的文本识别方法的第二预处理的流程图;
图5示意性示出了根据本公开实施例的文本识别方法的第三预处理的流程图;
图6示意性示出了根据本公开实施例的文本识别方法的后置处理的流程图;
图7A示意性示出了根据本公开实施例的文本识别装置的结构框图;
图7B示意性示出了根据本公开实施例的文本识别装置的第三预处理模块的结构框图;
图8示意性示出了根据本公开实施例的适于实现文本识别方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
本公开的实施例提供了一种文本识别方法,其包括:获取非标准文本内容,对非标准文本内容进行第一预处理,生成非标准语料库,非标准文本内容属于标准类别库的一种。对标准类别库中的标准文本内容进行第二预处理,生成标准语料库。比对标准语料库的标准词汇和非标准语料库中的非标准词汇,基于比对结果对非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,第三预处理包括添加和/或删除非标准语料库中的非标准词汇。对标准语料库的标准词汇和准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据相似度排名输出文本识别结果。根据本公开的实施例,通过用户输入的非标准文本进行第一预处理可有效缩小文本识别范围,通过对非标准文本的非标准词汇进行删除和/或添加,可以加快识别速度和提高识别准确率。
图1示意性示出了可以应用本公开实施例的文本识别方法的***架构100的示意图。需要注意的是,图1所示仅为可以应用本公开实施例的***架构100的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。需要说明的是,本公开实施例提供的文本识别方法和装置可用于人工智能技术领域、金融领域在文本识别的相关方面,也可用于除金融领域之外的任意领域,本公开实施例提供的文本识别方法和装置对应用领域不做限定。
如图1所示,可以应用文本识别方法的示例性***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有银行转账客户端应用,例如银行的客户端引用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有文字输入模块的且支持文本输入或输出的各种电子设备,包括但不限于智能手机、智能电视、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所输入的信息或文本提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户输入的文本或信息进行分析等处理,并将处理结果(例如用户输入的信息是否正确等)反馈给终端设备。
需要说明的是,本公开实施例所提供的文本识别方法一般可以由终端设备101、102、103或者服务器105执行。相应地,本公开实施例所提供的文本识别装置一般可以设置于终端设备101、102、103或者服务器105中。本公开实施例所提供的文本识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将通过图2至图6对公开实施例的文本识别方法进行详细描述。
图2示意性示出了根据本公开实施例的文本识别方法的流程图。
如图2所示,本公开实施例文本识别方法200包括操作S210至操作S240。
在操作S210中,获取非标准文本内容,对非标准文本内容进行第一预处理,生成非标准语料库,非标准文本内容属于标准类别库的一种。
例如,非标准文本内容可以是用户输入的银行名称,标准文本内容是标准银行名称,该标准银行名称是存储在数据库中的经过审核后的文本内容,并且标准文本内容是存储在服务器的设定文本内容。标准银行名称中包括有银行的省、市、县详细地址、邮编等多种信息。
又例如,标准类别库是不同银行的标准银行名称所属的类别。比如,中国工商银行的标准类别库包括全国或全球所有属于中国工商银行的标准银行名称、银行账户等信息。又比如,中国银行的标准类别库包括全国或全球所有属于中国银行的标准银行名称、银行账户等信息。不同的银行具有不同的标准类别库,根据确定的标准类别库,可以快速的确定该标准类别库的所有标准银行名称。
图3示意性示出了根据本公开实施例的文本识别方法的第一预处理的流程图。
如图3所示,本公开实施例的第一预处理的流程S210包括操作S211至操作S213。
在操作S211中,获取非标准文本内容,对非标准文本内容进行分词处理,生成非标准词汇,非标准词汇包含关键词。
获取用户输入非标准文本内容,例如可以是用户输入的需要转账的银行名称,用户输入的银行名称一般与标准类别库中的银行名称不一致。使用分词工具对非标准文本内容进行分词处理,例如对用户输入的银行名称进行分词,根据分词处理的结果,可以得到银行名称中的关键词。例如,用户输入的非标准银行名称为“工商银行北京复兴门支行”,进行分词处理后生成的非标准词汇包括“工商银行”“北京”“复兴门”“支行”,则从非标准词汇可以获取到关键词“工商银行”。
在操作S212中,根据非标准词汇中的关键词确定非标准文本内容所在的标准类别库。
在分词处理后,根据银行名称中得到的关键词,确定用户输入的银行名称所在的标准类别库。例如,用户输入的银行名称文本分词后包含“中国工商银行”、“中国工商银行股份有限公司”、“工行”“工商银行”等与中国工商银行相关的关键词,则可以确定用户输入的银行名称所在的标准类别库是中国工商银行股份有限公司名称所在的标准类别库。在后续文本识别的过程中,仅考虑中国工商银行股份有限公司所对应的标准类别库,在该标准类别库中,进行非标准文本内容的识别匹配。
根据本公开的实施例,通过关键词确定非标准文本内容所在的标准类别库,可以有效缩小文本识别范围,加快识别速度和提高识别准确率。
在操作S213中,对非标准词汇进行过滤处理,生成非标准语料库。
在本公开的实施例中,用户输入的非标准文本内容具有一些无关词语,需要进行过滤,从而减少干扰项,提高文本识别的准确率。例如,用户输入的非标准银行名称中包括有“省”、“市”、“支行”、“分行”等与文本识别任务无关的词语,在对非标准银行名称进行分词处理后,得到多个非标准词汇,过滤掉非标准词汇中的“省”、“市”、“支行”、“分行”等无关词语,生成非标准语料库M1。
在操作S220中,对标准类别库中的标准文本内容进行第二预处理,生成标准语料库。
在本公开的实施例中,对非标准文本内容进行处理后得到非标准语料库。在将非标准文本与标准类别库中的标准文本内容进行比对时,首先需要对标准文本内容进行处理,生成标准语料库后才能进行比对。对标准文本内容进行处理的过程如下所述。
图4示意性示出了根据本公开实施例的文本识别方法的第二预处理的流程图。
根据本公开的实施例,如图4所示,对标准文本内容进行第二预处理的流程S220包括操作S221至操作S223。
在操作S221中,获取标准类别库中的所有标准文本内容。
例如,在根据用户输入的非标准文本内容确定了该非标准文本内容所在的标准类别库后,需要将非标准文本内容与该标准类别库中的标准文本内容进行比对。该标准类别库是该非标准文本内容基于关键词确定的标准类别库。例如,用户输入的非标准银行名称中包含关键词“工商银行”,则该标准类别库为中国工商银行股份有限公司的标准类别库,该标准类别库中包括全国或全球的工商银行的银行名称和银行账号等信息。
在本公开的实施例中,获取标准类别库中的所有标准文本内容,例如可以是获取根据非标准文本内容的关键字确定的标准类别库中的所有标准文本内容。
例如,标准类别库是中国工商银行股份有限公司的银行名称类别库,则该类别库中包含有全国或全球的所有中国工商银行的标准银行名称,获取所有的在该类别库中的标准银行名称。
在操作S222中,对每一条标准文本内容进行分词处理,生成标准词汇。
在本公开的实施例中,标准类别库中包括有多条标准文本内容,对每一条标准文本内容进行分词处理,生成标准词汇。
例如,获取了所有的标准银行名称后,对每一个标准银行名称进行分词处理,生成每一个标准银行名称所对应的标准词汇,该标准词汇可以是多个。
在操作S223中,对标准词汇进行过滤处理,生成标准语料库。
在本公开的实施例中,标准词汇中也包含一些无关词汇。例如,标准银行名称中包括“省”、“市”、“支行”、“分行”等与文本识别任务无关的词语。通过对每一条标准文本内容采用过滤处理,过滤掉无关词汇后,可以得到每一条标准文本所对应的单个标准语料库mi,(i=1,2,3···n),其中n是正整数,n代表标准文本内容中的总数量。例如,n可以是中国工商银行股份有限公司所对应的标准类别库中的中国工商银行的银行名称的总数量。所有mi的集合构成标准语料库M2,该标准语料库M2包含了标准类别库中所有的信息。
在操作S230中,比对标准语料库的标准词汇和非标准语料库中的非标准词汇,基于比对结果对非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,第三预处理包括添加和/或删除非标准语料库中的非标准词汇。
图5示意性示出了根据本公开实施例的文本识别方法的第三预处理的流程图。
如图5所示,本公开实施例的文本识别方法的第三预处理的流程S230包括操作S231至操作S234。
在操作S231中,比对标准语料库的标准词汇和非标准语料库中的非标准词汇,若非标准词汇存在于非标准语料库中,且不存在标准语料库中,则删除非标准语料库中的非标准词汇。
例如,用户输入的非标准语料库中的非标准词汇在标准语料库中没有出现,则说明用户输入的该非标准词汇可能存在输入错误的问题,通过将该非标准词汇从非标准语料库中删除,可以实现自动排出用户输入的错误信息,减少错误信息的干扰。例如,用户输入非标准文本内容的银行名称中包含有词汇“城堡”、“工商银行”等,根据关键词“工商银行”确定该非标准文本内容所在标准类别库。该类别库经过处理后生成的标准语料库M2中不包含有“城堡”词汇,则说明用户输入存在错误内容,根据判断结果,将非标准语料库中的非标准词汇“城堡”删除,以减少用户输入的错误信息的干扰。
在操作S232中,获取非标准语料库中的每一个非标准词汇,根据获取的非标准词汇,提取标准语料库中包含非标准词汇的标准词汇。
例如,非标准语料库中包含有多个非标准词汇,首先,选择其中一个非标准词汇,根据选择的非标准词汇提取标准语料库中包含该选择的非标准词汇的标准词汇。然后再继续选择非标准语料库中未被选择的非标准词汇,进行同样的操作,直至非标准语料库中的所有非标准词汇均被选择,得到多个标准词汇。
在操作S233中,根据提取的标准词汇生成交集词汇。
根据操作S232中得到的多个标准词汇,可以得出该每一个标准词汇所对应的其他的标准词汇。例如,每一条标准银行名称经过分词处理和过滤处理之后,具有与该条标准银行名称相关联的标准词汇。根据非标准词汇可以得出多个标准词汇对应的多条标准银行名称,求出多条标准银行名称中的多个标准词汇的交集,生成交集词汇。例如,非标准词汇是“西城区”,根据非标准词汇“西城区”提取的多个标准词汇中包含有“北京”,则根据这些标准词汇获得的交集词汇包括“北京”。
在操作S234中,若交集词汇不在非标准语料库中,则将生成的交集词汇添加至非标准语料库,以生成准标准语料库,准标准语料库包含准标准词汇。
在本公开的实施例中,根据操作S233中生成的交集词汇,判断非标准语料库中是否包含该交集词汇。例如,若包含该交集词汇,则说明用户输入的内容完整,无需对非标准语料库进行处理。若交集词汇不包含在非语料库中,则说明用户少输入了相应的内容,则将该交集词汇添加至非标准语料库,生成准标准语料库。该准标准语料库中包含了更多的与标准语料库相同的词汇,二者更为相似,有利于后续操作中的相似度处理。例如,对“中国工商银行股份有限公司复兴门城楼支行”这一用户输入的非标准银行名称进行分词和过滤无关词后得到“复兴门”,“城楼”两个词语。删除不存在标准语料库的未知词语“城楼”。由于“复兴门”在标准语料库中的交集词汇是“北京”,最后得到准标准语料库“复兴门”,“北京”。
在本公开的实施例中,准标准语料库包含准标准词汇。准标准词汇是对非标准词汇进行删除以及添加后得到的词汇。
根据本公开的实施例,主要依据标准语料库对非标准语料库进行调整,得到准标准语料库,使调整后的非标准语料库(准标准语料库)与标准语料中包含的语料库更为相似,有助于提升后续处理的相似度。
在操作S240中,对标准语料库的标准词汇和准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据相似度排名输出文本识别结果。
图6示意性示出了根据本公开实施例的文本识别方法的后置处理的流程图。
如图6所示,本公开实施例的文本识别方法的后置处理的流程S240包括操作S241至操作S243。
在操作S241中,对标准语料库的标准词汇和准标准语料库中的准标准词汇进行向量化处理。
在本公开的实施例中,采用BoW(Bag of Words,词袋模型)的思想,并通过TF-TDF算法完成对标准语料库的标准词汇以及准标准语料库的准标准词汇进行向量化处理。
例如,词袋模型是将语料库中的所有不同的词语装进一个袋子里,每个词语是独立的,这样就形成了一个维度为词语数量的向量(词袋中含有n个词语时,语料库映射成一个n维向量)。统计每段文本中每个单词出现的次数作为向量的值,这样就将每段文本映射成为特征向量。例如,语料库由“北京广安门内”、“北京鼓楼”、“南京南京鼓楼”、“西安鼓楼”四段行名文本组成,则词袋为{北京、广安门内、鼓楼、南京、西安},词袋中包含词语数为5,根据词袋建立维度为5的向量,其中第一维代表“北京”一词出现的次数,第二维代表“广安门内”一词出现的次数,以此类推,则四段文本的向量表示为:
北京广安门内:[1,1,0,0,0]
北京鼓楼:[1,0,1,0,0]
南京南京鼓楼:[0,0,1,2,0]
西安鼓楼:[0,0,1,0,1]
通过词袋模型将文本转化为向量仅仅考虑了词频,没有考虑语料库中文本之间的上下文语义关联,存在局限性。
例如,TF-IDF算法是一种用于评估给定文本中一个词语在语料库中区分程度的方法,其中TF(Term Frequency,词频)表示一个给定词语在一篇文本中出现的频率,对于词语w,其计算公式为
Figure BDA0003186051320000141
其中,Nw是在该文本中词语w出现的次数,N是该文本的总词数。可以看出,词语出现次数越多,其在该文本中出现的频率越高,其TF值越大。
IDF(Inverse Document Frequency,逆文档频率)是词语在文本库中区分能力的度量。对于词语w,其计算公式为:
Figure BDA0003186051320000142
其中,Y是语料库的文本总数,Yw是包含词语w的文本数,分母取Yw+1是为了避免词语w未在语料库的文本中出现导致分母为0的情况。可以看到,包含该词语的文本越少,说明该词语的在语料库中的区分度越高,IDF值越大。
TF-IDF算法的理论假设是:对文本分类任务而言,最具区分性的关键词语应该是在对应的文本中出现频率高,而在整个语料库的其他文本中出现频率低。对于词语w,TF-IDF值的计算公式为:
TF-IDFw=TFw*IDFw
TF-IDF值越大,表示该词语在当前文本中的出现频率高且在整个语料库中区分度高。
在本公开的实施例中,将词袋模型与TF-IDF算法相结合,用TF-IDF值表示文本向量。对语料库中的所有词语,计算其TF-IDF值。对每一个银行名称文本,计算每个词语的TF-IDF值,将该值作为向量在该词语维度上的特征值,从而得到银行名称文本的特征向量。以上文语料库为例,对“北京广安门内”文本,分别计算“北京”一词的TF-IDF值,和“广安门内”一词的TF-IDF值,替换掉原有词袋模型中第一维和第二维的向量值,就得到了该行名文本的特征向量。对每一类银行的标准类别库的标准银行名称文本进行向量化之后,将TF-IDF计算结果和标准银行名称向量存于相应数据表中。由于部分语料库中包含成百上千个词语,对银行名称向量而言,向量维度非常大,但是特征值不是0的维度很少,存在向量稀疏的问题,给存储和计算造成较大开销。为此,建立“键-值”字典映射的方式对特征向量进行压缩,字典的键代表向量的第n个值不为0的维度,字典的值代表第n维对应词语的TF-IDF值,在保证了不影响后续相似度计算的前提下,大幅降低了数据库的存储开销。
在本公开的实施例中,对准标准语料库中的准标准词汇进行向量化处理。例如,可以假设准标准语料库中包括“北京”、“复兴门”两个准标准词汇,对应的语料库供有N个词汇。则“北京”、“复兴门”两个准标准词汇分别位于语料库中第n1位和第n2位,用户输入文本的可表示第n1位和第n2位为1,其他位为0的N维向量:
Figure BDA0003186051320000151
以准标准语料库为全集,计算“北京”、“复兴门”两个词的TF-IDF值,并替换原向量中的1,从而得到用户输入的银行名称文本的特征向量。
例如:
Figure BDA0003186051320000152
如上所述,在本公开的实施例中,对准标准语料库处理后,继续对标准语料库的标准词汇进行向量化处理,采用上述相同的方法,得到标准银行名称文本的特征向量。
在操作S242中,根据向量化处理结果,计算标准词汇的向量和准标准词汇的向量的余弦相似度。
在本公开的实施例中,根据准标准语料库计算得到用户输入的银行名称文本的特征向量(即准标准词汇的向量,以下称第一向量),根据标准语料库计算得到标准银行名称文本的特征向量(即标准词汇的向量,以下称第二向量)。计算第一向量和每一个第二向量之间的余弦相似度,将余弦相似度作为本公开的文本相似度。
在本公开的实施例中,余弦相似度是通过计算两个向量的夹角余弦值来评估它们的相似性。以二维向量空间为例,如果两个向量的夹角越小,即夹角余弦值越接近于1,认为两个向量越相似。余弦相似度对任何维度的向量空间均适用。对两n维向量,向量A为[A1,A2,···,An],向量B为[B1,B2,···,Bn],则两个向量的余弦相似度为:
Figure BDA0003186051320000161
通过上述公式计算向量间的余弦相似度,判别非标准银行名称和标准银行名称之间的相似度。
在操作S243中,基于余弦相似度生成相似度排名,选择排名大于设定阈值的标准词汇所对应的标准文本作为目标文本输出。
例如,基于余弦相似度,可以计算出与第一向量(用户输入的银行名称文本的特征向量)相似的多个第二向量(标准银行名称文本的特征向量),将多个第二向量进行相似度排名。其中设定阈值例如可以是排名的前5个第二向量,也可以是其他的阈值。此处,以阈值为前五为例,筛选出相似度排名前五的第二向量所对应的标准银行名称文本。再通过地区规则匹配,过滤掉与用户填写的银行名称不属于同一地区的银行名称,保证输出的结果的准确性。
例如,如用户填写“西城区鼓楼支行”,标准银行名称匹配结果中相似度较高的有“北京鼓楼支行”“南京鼓楼支行”,由于西城区属北京市,因此将“南京鼓楼支行”这一较相似的匹配结果过滤。过滤掉非同一地区的银行名称后,最终得到相似度最高的银行名称。
在本公开的实施例中,可以通过调整设定阈值来控制输出结果。例如,输出的目标文本还包括与标准文本(即标准银行名称)对应的标准编号。例如,在输出标准银行名称后,通过关联标准银行名称的银行账号表,将银行名称对应的标准银行账号一并输出。
根据本公开的实施例,通过将采用TF-IDF算法以及向量余弦相似度计算,实现了对用户输入的非标准文本的自动识别,替代了人工查找、录入的传统方式,提高了业务处理的准确性和时效性。此外,在现有的应用TF-IDF算法及向量余弦相似度实现文本相似度挖掘的基础上,应用集合的运算对文本进行处理,例如根据标准文本信息,删除非标准文本中的干扰词和添加辅助词,提升标准文本和非标准文本之间的相似度,提高文本识别准确率。
在本公开实施例中,还提供了一种银行转账方法,应用于付款服务器,包括:接收银行账户的转账请求,转账请求包括:付款账户信息、收款账户信息和转账金额信息;比对转账请求中的付款账户信息与付款服务器中的第一标准账户信息;基于比对结果向收款服务器进行转账交易;其中付款账户信息和收款账户信息中的至少一者是通过上文所述的文本识别方法识别获取的。
例如,转账请求包括有付款账户信息和收款账户信息和转账金额信息,该账户信息可以是用户手写的,或者是用户通过输入设备输入的。一般的用户在进行转账过程中,其对于付款账户信息和收款账户信息的诸如银行名称等并不能保持与银行数据库中的标准账户名称相同。通过本公开实施例的文本识别方法可以对用户输入的付款账户信息和收款账户信息进行识别,可以有效提高转账的成功率,提高效率。
在本公开的实施例中,第一标准账户信息例如可以是存储在付款服务器中的与付款账户相对应的账户信息。该信息是存储在银行数据库中的标准信息,根据第一标准账户信息可以确定付款账户信息是否正确。比对付款账户信息与第一标准账户信息,若一致,则说明用户输入的付款账户信息无误,可以向收款服务器进行转账交易;若不一致,则说明户输入的付款账户信息有误,则不执行转账交易。
在本公开实施例中,还提供了一种银行转账方法,应用于收款服务器,包括:接收付款服务器的收款请求,收款请求包括:付款账户信息、收款账户信息和收款金额;比对收款请求中的收款账户信息与收款服务器中的第二标准账户信息;基于比对结果向服务器返回转账交易结果;其中,付款账户信息和收款账户信息中的至少一者是通过上文所述的文本识别方法识别获取的。
在本公开的实施例中,第二标准账户信息例如可以是存储在收款服务器中的与收款账户相对应的账户信息。收款服务器可以通过比对接收到的收款请求中的收款账户信息与第二标准账户信息来确定是否进行转账交易。若比对一致,则说明用户输入的收款账户信息无误,可以向付款服务器返回转账结果,例如,转账成功;若不一致,则说明户输入的收款账户信息有误,则拒绝收款,并向付款服务器返回转账结果,例如,转账失败。
图7A示意性示出了根据本公开实施例的文本识别装置的结构框图。图7B示意性示出了根据本公开实施例的文本识别装置的第三预处理模块的结构框图。
如图7A所示,本公开实施例的文本识别装置700包括第一预处理模块710、第二预处理模块720、第三预处理模块730以及后置处理模块740。
其中,第一预处理模块710配置为获取非标准文本内容,对非标准文本内容进行第一预处理,生成非标准语料库,非标准文本内容属于标准类别库的一种。在一实施例中,第一预处理模块710可以用于执行前文描述的操作S210,在此不再赘述。
第二预处理模块720配置为对标准类别库中的标准文本内容进行第二预处理,生成标准语料库。在一实施例中,第二预处理模块720可以用于执行前文描述的操作S220,在此不再赘述。
第三预处理模块730配置为比对标准语料库的标准词汇和非标准语料库中的非标准词汇,基于比对结果对非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,第三预处理包括添加和/或删除非标准语料库中的非标准词汇。在一实施例中,第三预处理模块730可以用于执行前文描述的操作S230,在此不再赘述。
后置处理模块740配置为对标准语料库的标准词汇和准标准语料库中的准标准词汇进行后置处理以生成排名,根据排名输出文本识别结果。在一实施例中,后置处理模块740可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,第一预处理模块710包括第一预处理子模块,第一预处理子模块配置为获取非标准文本内容,对非标准文本内容进行分词处理,生成非标准词汇,非标准词汇包含关键词;根据非标准词汇中的关键词确定非标准文本内容所在的标准类别库;对非标准词汇进行过滤处理,生成非标准语料库。
根据本公开的实施例,第二预处理模块720包括第二预处理子模块,第二预处理子模块配置为获取标准类别库中的所有标准文本内容;对每一条标准文本内容进行分词处理,生成标准词汇;对标准词汇进行过滤处理,生成标准语料库。
根据本公开的实施例,如图7B所示,第三预处理模块730包括删除模块731和添加模块732。其中,删除模块731配置为比对标准语料库的标准词汇和非标准语料库中的非标准词汇,若非标准词汇存在于非标准语料库中,且不存在标准语料库中,则删除非标准语料库中的非标准词汇。
添加模块732配置为获取非标准语料库中的每一个非标准词汇,根据获取的非标准词汇,提取标准语料库中包含非标准词汇的标准词汇;根据提取的标准词汇生成交集词汇;若交集词汇不在非标准语料库中,则将生成的交集词汇添加至非标准语料库,以生成准标准语料库,准标准语料库包含准标准词汇。
根据本公开的实施例,后置处理模块740包括后置处理子模块,后置处理子模块配置为对标准语料库的标准词汇和准标准语料库中的准标准词汇进行向量化处理;根据向量化处理结果,计算标准词汇向量和准标准词汇向量的余弦相似度;基于余弦相似度生成相似度排名,选择排名大于设定阈值的标准词汇所对应的标准文本作为目标文本输出。
根据本公开的实施例,第一预处理模块710、第二预处理模块720、第三预处理模块730、后置处理模块740、删除模块731、添加模块732、第一预处理子模块、第二预处理子模块、第三预处理子模块以及后置处理子模块中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一预处理模块710、第二预处理模块720、第三预处理模块730、后置处理模块740、删除模块731、添加模块732、第一预处理子模块、第二预处理子模块、第三预处理子模块以及后置处理子模块中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一预处理模块710、第二预处理模块720、第三预处理模块730、后置处理模块740、删除模块731、添加模块732、第一预处理子模块、第二预处理子模块、第三预处理子模块以及后置处理子模块中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的适于实现文本识别方法的电子设备的方框图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的文本识别方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时,该程序代码用于使计算机***实现本公开实施例所提供的文本识别方法。
在该计算机程序被处理器801执行时执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例,上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分809被下载和安装,和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (14)

1.一种文本识别方法,包括:
获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库,所述非标准文本内容属于标准类别库的一种;
对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库;
比对所述标准语料库的标准词汇和所述非标准语料库中的非标准词汇,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,所述第三预处理包括添加和/或删除所述非标准语料库中的非标准词汇;
对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据所述相似度排名输出文本识别结果。
2.根据权利要求1所述的文本识别方法,其中,所述获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库包括:
获取非标准文本内容,对所述非标准文本内容进行分词处理,生成所述非标准词汇,所述非标准词汇包含关键词;
根据所述非标准词汇中的关键词确定所述非标准文本内容所在的所述标准类别库;
对所述非标准词汇进行过滤处理,生成所述非标准语料库。
3.根据权利要求2所述的文本识别方法,其中,所述对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库包括:
获取所述标准类别库中的所有标准文本内容;
对每一条所述标准文本内容进行分词处理,生成所述标准词汇;
对所述标准词汇进行过滤处理,生成所述标准语料库。
4.根据权利要求3所述的文本识别方法,其中,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理包括:
若所述非标准词汇存在于所述非标准语料库中,且不存在所述标准语料库中,则删除所述非标准语料库中的所述非标准词汇。
5.根据权利要求4所述的文本识别方法,其中,所述基于比对结果对所述非标准语料库中的词汇进行第三预处理还包括:
获取所述非标准语料库中的每一个所述非标准词汇,根据获取的所述非标准词汇,提取所述标准语料库中包含所述非标准词汇的所述标准词汇;
根据提取的所述标准词汇生成交集词汇;
若所述交集词汇不在所述非标准语料库中,则将生成的所述交集词汇添加至所述非标准语料库,以生成准标准语料库,所述准标准语料库包含准标准词汇。
6.根据权利要求5所述的文本识别方法,其中,所述对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成排名,根据所述排名输出文本识别结果包括:
对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行向量化处理;
根据所述向量化处理结果,计算所述标准词汇的向量和所述准标准词汇的向量的余弦相似度;
基于余弦相似度生成相似度排名,选择排名大于设定阈值的所述标准词汇所对应的标准文本作为目标文本输出。
7.根据权利要求6所述的文本识别方法,其中,所述目标文本还包括与所述标准文本对应的标准编号。
8.根据权利要求1至7中任一项所述的文本识别方法,其中,所述非标准文本内容包括用户输入的文本内容,所述标准文本内容包括存储在服务器的设定文本内容。
9.一种银行转账方法,应用于付款服务器,包括:
接收银行账户的转账请求,所述转账请求包括:付款账户信息、收款账户信息和转账金额信息;
比对所述转账请求中的所述付款账户信息与付款服务器中的第一标准账户信息;
基于比对结果向收款服务器进行转账交易;
其中所述付款账户信息和收款账户信息中的至少一者是通过权利要求1至8中任一项所述的文本识别方法识别获取的。
10.一种银行转账方法,应用于收款服务器,包括:
接收付款服务器的收款请求,所述收款请求包括:付款账户信息、收款账户信息和收款金额;
比对所述收款请求中的所述收款账户信息与收款服务器中的第二标准账户信息;
基于比对结果向服务器返回转账交易结果;
其中,所述付款账户信息和收款账户信息中的至少一者是通过权利要求1至8中任一项所述的文本识别方法识别获取的。
11.一种文本识别装置,其中,包括:
第一预处理模块,配置为获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库,所述非标准文本内容属于标准类别库的一种;
第二预处理模块,配置为对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库;
第三预处理模块,比对所述标准语料库的标准词汇和所述非标准语料库中的非标准词汇,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,所述第三预处理包括添加和/或删除所述非标准语料库中的非标准词汇;
后置处理模块,配置为对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据所述相似度排名输出文本识别结果。
12.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1至8中任一项所述的文本识别方法。
13.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时,实现根据权利要求1至8中任一项所述的文本识别方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序被处理执行时实现根据权利要求1至8中任一项所述的文本识别方法。
CN202110867483.5A 2021-07-29 2021-07-29 文本识别方法、装置、电子设备、存储介质及转账方法 Pending CN113569568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110867483.5A CN113569568A (zh) 2021-07-29 2021-07-29 文本识别方法、装置、电子设备、存储介质及转账方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110867483.5A CN113569568A (zh) 2021-07-29 2021-07-29 文本识别方法、装置、电子设备、存储介质及转账方法

Publications (1)

Publication Number Publication Date
CN113569568A true CN113569568A (zh) 2021-10-29

Family

ID=78169315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110867483.5A Pending CN113569568A (zh) 2021-07-29 2021-07-29 文本识别方法、装置、电子设备、存储介质及转账方法

Country Status (1)

Country Link
CN (1) CN113569568A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196893A (zh) * 2019-05-05 2019-09-03 平安科技(深圳)有限公司 基于文本相似度的非主观题阅卷方法、装置及存储介质
CN110909539A (zh) * 2019-10-15 2020-03-24 平安科技(深圳)有限公司 语料库的词语生成方法、***、计算机设备和存储介质
CN111191446A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
WO2020168750A1 (zh) * 2019-02-18 2020-08-27 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN112307763A (zh) * 2020-12-30 2021-02-02 望海康信(北京)科技股份公司 术语标准化方法、***及相应设备和存储介质
CN112527785A (zh) * 2020-12-16 2021-03-19 平安银行股份有限公司 数据补录方法、装置、电子设备及存储介质
CN112700881A (zh) * 2020-12-29 2021-04-23 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN112907009A (zh) * 2019-12-04 2021-06-04 贝壳技术有限公司 标准化模型的构建方法、装置、存储介质及设备
CN113052587A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 基于区块链的转账业务处理方法及装置
US20210200962A1 (en) * 2019-12-31 2021-07-01 Ubtech Robotics Corp Ltd Computer-implemented method for text conversion, computer device, and non-transitory computer readable storage medium
CN113128216A (zh) * 2019-12-31 2021-07-16 ***通信集团贵州有限公司 一种语言识别方法、***及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020168750A1 (zh) * 2019-02-18 2020-08-27 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110196893A (zh) * 2019-05-05 2019-09-03 平安科技(深圳)有限公司 基于文本相似度的非主观题阅卷方法、装置及存储介质
CN110909539A (zh) * 2019-10-15 2020-03-24 平安科技(深圳)有限公司 语料库的词语生成方法、***、计算机设备和存储介质
CN112907009A (zh) * 2019-12-04 2021-06-04 贝壳技术有限公司 标准化模型的构建方法、装置、存储介质及设备
CN111191446A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
US20210200962A1 (en) * 2019-12-31 2021-07-01 Ubtech Robotics Corp Ltd Computer-implemented method for text conversion, computer device, and non-transitory computer readable storage medium
CN113128216A (zh) * 2019-12-31 2021-07-16 ***通信集团贵州有限公司 一种语言识别方法、***及装置
CN112527785A (zh) * 2020-12-16 2021-03-19 平安银行股份有限公司 数据补录方法、装置、电子设备及存储介质
CN112700881A (zh) * 2020-12-29 2021-04-23 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN112307763A (zh) * 2020-12-30 2021-02-02 望海康信(北京)科技股份公司 术语标准化方法、***及相应设备和存储介质
CN113052587A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 基于区块链的转账业务处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓加原,等: "基于无监督学习算法的推特文本规范化", 计算机应用, no. 07, 10 July 2016 (2016-07-10), pages 1887 - 1892 *

Similar Documents

Publication Publication Date Title
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
US20220012486A1 (en) Identification of table partitions in documents with neural networks using global document context
EP3179387A1 (en) Analytic systems, methods, and computer-readable media for structured, semi-structured, and unstructured documents
US20210064908A1 (en) Identification of fields in documents with neural networks using global document context
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN111651552B (zh) 结构化信息确定方法、装置和电子设备
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN113507419B (zh) 流量分发模型的训练方法、流量分发方法及装置
US20220319143A1 (en) Implicit Coordinates and Local Neighborhood
CN113450075A (zh) 基于自然语言技术的工单处理方法及装置
CN115689717A (zh) 企业风险预警方法、装置、电子设备、介质和程序产品
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
CN111428486A (zh) 物品信息数据处理方法、装置、介质及电子设备
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN112541055A (zh) 一种确定文本标签的方法及装置
CN112527969A (zh) 增量意图聚类方法、装置、设备及存储介质
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN116089886A (zh) 信息处理方法、装置、设备及存储介质
CN113569568A (zh) 文本识别方法、装置、电子设备、存储介质及转账方法
CN114064859A (zh) 知识抽取方法、装置、设备、介质和程序产品
CN115062110A (zh) 文本处理方法、装置、电子设备和介质
CN113935334A (zh) 文本信息处理方法、装置、设备和介质
CN114898390A (zh) 表格生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination