CN108255802B - 通用文本解析架构及基于所述架构解析文本的方法和装置 - Google Patents
通用文本解析架构及基于所述架构解析文本的方法和装置 Download PDFInfo
- Publication number
- CN108255802B CN108255802B CN201611249460.3A CN201611249460A CN108255802B CN 108255802 B CN108255802 B CN 108255802B CN 201611249460 A CN201611249460 A CN 201611249460A CN 108255802 B CN108255802 B CN 108255802B
- Authority
- CN
- China
- Prior art keywords
- text
- preprocessing
- evaluation value
- algorithm
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Devices For Executing Special Programs (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开一种通用文本解析架构及基于所述架构解析文本的方法和装置,涉及数据分析技术领域,能够提高开发完整文本解析程序的效率。架构中的预处理层用于提供组件化的预处理逻辑,在基于预处理逻辑获得预处理组件后,利用预处理组件对文本进行预处理,并将预处理结果传输至语料仓库层进行缓存;信息搜索算法层用于提供对公共算法进行封装的信息搜索逻辑,并在基于信息搜索逻辑获得封装的算法后,将算法进行缓存,预处理组件和/或算法有热插拔性;维度业务逻辑层用于通过调用信息搜索算法层中的算法,实现对语料仓库层中缓存的预处理结果的搜索,并通过维度业务逻辑对搜索结果进行处理获得文本解析结果。主要适用于开发文本解析程序的场景中。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种通用文本解析架构及基于所述架构解析文本的方法和装置。
背景技术
随着文本信息数据量的增大以及种类的增多,人们通过肉眼以及大脑对文本信息进行分析,从中获取所需信息的效率越来越低。因此,文本解析程序应运而生,即只要待解析文本的格式、业务需求等信息与文本解析程序相匹配,则就可以利用文本解析程序从待解析文本中解析出业务需求所需的信息。
然而,发明人在实现上述发明的过程中发现,由于现有的文本解析程序都是开发人员针对客户的需求进行定制开发的,所以当客户的需求发生改变时,开发人员则需要花费大量时间重新开发一套文本解析程序,从而使得开发效率较低。
发明内容
鉴于上述技术问题,本发明提出了一种通用文本解析架构及基于所述架构解析文本的方法和装置,能够使得开发人员基于通用文本解析架构进行二次开发,从而提高了开发完整的文本解析程序的效率。
本发明的目的是采用以下技术方案来实现的:
第一方面,本发明提供一种通用文本解析架构,所述通用文本解析架构包括:预处理层、语料仓库层、信息搜索算法层以及维度业务逻辑层;其中,
所述预处理层用于提供将预处理过程进行组件化的预处理逻辑,并在基于所述预处理逻辑获得至少一个预处理组件后,利用所述至少一个预处理组件对文本进行预处理,并将预处理结果传输至语料仓库层;
所述语料仓库层用于缓存所述预处理层的预处理结果;
所述信息搜索算法层用于提供对非业务逻辑的公共算法进行封装的信息搜索逻辑,并在基于所述信息搜索逻辑获得至少一个封装的算法后,将所述至少一个封装的算法进行缓存,其中,所述预处理组件和/或所述封装的算法具有热插拔性;;
维度业务逻辑层用于通过调用信息搜索算法层中的算法,实现对所述语料仓库层中缓存的预处理结果的搜索,并通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。
第二方面,本发明提供一种基于通用文本解析架构解析文本的方法,所述方法包括:
获取待解析的文本;
利用预处理层中的至少一个预处理组件对所述文本进行预处理,并将预处理结果缓存至语料仓库层中;
利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索,所述封装的算法为基于非业务逻辑的公共算法,且所述预处理组件和/或所述封装的算法具有热插拔性;
通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。
第三方面,本发明提供一种基于通用文本解析架构解析文本的装置,所述装置包括:
获取单元,用于获取待解析的文本;
预处理单元,用于利用预处理层中的至少一个预处理组件对所述获取单元获取的所述文本进行预处理;
缓存单元,用于将所述预处理单元获得的预处理结果缓存至语料仓库层中;
搜索单元,用于利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索,所述封装的算法为基于非业务逻辑的公共算法,且所述预处理组件和/或所述封装的算法具有热插拔性;
逻辑处理单元,用于通过待搜索维度的业务逻辑对所述搜索单元的搜索结果进行处理,获得文本解析结果。
借由上述技术方案,本发明提供的通用文本解析架构及基于所述架构解析文本的方法和装置,能够为开发完整的文本解析程序的开发人员提供预先构建好的、包括预处理层、语料仓库层、信息搜索算法层以及维度业务逻辑层的文本解析架构,从而使得开发人员在开发各种业务需求的文本解析程序时,只需根据当前的业务需求编写预处理层所需的预处理算法以及信息搜索算法层所需信息搜索算法,而无需编写其他通用程序,进而提高了编写完整的文本解析程序的效率。此外,由于预处理层中的预处理组件以及信息搜索层中封装的算法具有热插拔性,所以在基于通用文本解析平台开发的完整的文本解析程序在运行时,二次开发人员可以随时删除已有的任意一个预处理组件或者算法,也可以随时添加新的预处理组件或者算法,从而进一步提高了二次开发人员更新文本解析程序的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种通用文本解析架构的组成框图;
图2示出了本发明实施例提供的一种语料仓库存储示意图;
图3示出了本发明实施例提供的一种文本解析程序的架构示意图;
图4示出了本发明实施例提供的一种基于通用文本解析架构解析文本的方法的流程图;
图5示出了本发明实施例提供的一种基于通用文本解析架构解析文本的装置的组成框图;
图6示出了本发明实施例提供的另一种基于通用文本解析架构解析文本的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了提高开发人员开发文本解析程序的效率,本发明实施例提供了一种通用文本解析架构,如图1所示,所述通用文本解析架构主要包括:预处理层11、语料仓库层12、信息搜索算法层13以及维度业务逻辑层14。
下面分别对预处理层11、语料仓库层12、信息搜索算法层13以及维度业务逻辑层14进行详细介绍:
(1)预处理层11
所述预处理层11用于对文本进行预处理,并将预处理结果传输至语料仓库层12。
具体的,所述预处理层11用于提供将预处理过程进行组件化的预处理逻辑,并在基于所述预处理逻辑获得至少一个预处理组件后,利用所述至少一个预处理组件对文本进行预处理,并将预处理结果传输至语料仓库层12。
也就是说,通用文本解析架构提供的预处理层11中可以提供一个预处理接口,并且该预处理接口定义有组件化的预处理逻辑。当开发人员想要基于通用文本解析架构开发完整的文本解析程序时,可以根据业务需求编写至少一个预处理组件,实现预处理层11中定义的预处理接口,进而完成预处理过程的编码操作。在用户指定了预处理组件的处理级别(例如全文、段落、句子、词)和优先级后,通用文本解析架构会自动对预处理组件进行调用和追踪,并将对应的预处理结果存储到语料仓库层12中。
需要补充的是,本发明实施例中的预处理功能包括但不限于以下几种:分词、分句、依存语法以及NLP(Natrue Language Process,自然语言过程),并且在进行整个预处理过程中,所涉及的具体预处理功能可能为上述几种中的任意一种,也可能为上述几种中任意几项的组合,其具体所需的预处理功能根据业务需求而定。
此外,预处理层11中的预处理组件具有热插拔性。其中,热插拔性是指可以任意修改和删除而不影响架构的设计方式,即能够在软件***运行时将软件功能模块***软件***或者从软件***中卸下的方式。也就是说,当预处理组件具有热插拔性时,基于通用文本解析平台开发的完整的文本解析程序在运行时,二次开发人员可以随时删除已有的任意一个预处理组件,也可以随时添加新的预处理组件,而不会导致该完整的文本解析程序停止运行。
(2)语料仓库层12
所述语料仓库层12用于缓存所述预处理层11的预处理结果。
其中,所述语料仓库层12在存储预处理层11传输的预处理结果时,可以以树形结构进行存储,也可以以其他方式进行存储,其具体存储方式在此不做限定。
示例性的,若语料仓库层12中存储的预处理结果以树形结构进行存储,则具体表现形式可以如图2所示,可以将预处理结果以文本->段落->语句->词语构成的树形结构进行存储。
(3)信息搜索算法层13
所述信息搜算法索层13用于提供对非业务逻辑的公共算法进行封装的信息搜索逻辑,并在基于所述信息搜索逻辑获得至少一个封装的算法后,将所述至少一个封装的算法进行缓存。
也就是说,通用文本解析架构提供的信息搜索层13中可以提供一个算法接口,并且该算法接口定义有组件化(或者封装)的信息搜索逻辑。当开发人员想要基于通用文本解析架构开发完整的文本解析程序时,可以根据业务需求编写至少一个非业务逻辑的公共算法,并对编写的算法进行封装,从而实现信息搜索算法层13中定义的算法接口,进而完成信息搜索算法的编码操作。
此外,与预处理层11相类似的,信息搜索算法层13中封装的算法也具有热插拔性,二次开发人员可以随时删除已有的任意一个算法,也可以随时添加新的算法。
需要补充的是,由于信息搜索算法层13中的算法是非业务逻辑的公共算法,而非具体的业务逻辑对应的算法,所以能够使维度的公共逻辑得到最大限度的复用,使信息搜索算法层13的开发人员和维度业务逻辑层14的开发人员直接解耦。此外,通用文本解析架构还会追踪每个算法的升级情况,并实现对算法的管理。
(4)维度业务逻辑层14
维度业务逻辑层14用于通过调用信息搜索算法层13中的算法,实现对所述语料仓库层12中缓存的预处理结果的搜索,并通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。
其中,当维度之间具有依赖性时,维度业务逻辑层会自动判断维度的优先解析顺序。
需要补充的是,所述通用文本解析架构能够同时运行至少两个完整的文本解析程序,所述完整的文本解析程序为基于所述通用文本解析架构进行二次开发后构成的、直接用于解析文本的可执行程序。
基于通用文本解析架构进行二次开发后,完整的文本解析程序的架构可以如图3所示。
本发明实施例提供的通用文本解析架构,能够为开发完整的文本解析程序的开发人员提供预先构建好的、包括预处理层、语料仓库层、信息搜索算法层以及维度业务逻辑层的文本解析架构,从而使得开发人员在开发各种业务需求的文本解析程序时,只需根据当前的业务需求编写预处理层所需的预处理算法以及信息搜索算法层所需信息搜索算法,而无需编写其他通用程序,进而提高了编写完整的文本解析程序的效率。此外,由于预处理层中的预处理组件以及信息搜索层中封装的算法具有热插拔性,所以在基于通用文本解析平台开发的完整的文本解析程序在运行时,二次开发人员可以随时删除已有的任意一个预处理组件或者算法,也可以随时添加新的预处理组件或者算法,从而进一步提高了二次开发人员更新文本解析程序的效率。
进一步的,由于二次开发人员编写的信息搜索算法层13中的算法往往会存在一定的误差,所以为了使得二次开发人员能够直观地获知其所编写的算法的质量,本发明实施例在图1的基础上提出了以下内容:
所述通用文本解析架构还可以定义有第一评估值和/或第二评估值,并在输出文本解析结果时输出所述第一评估值和/或所述第二评估值;
其中,所述第一评估值用于评估所述维度业务逻辑层14获得的文本解析结果与对应维度的算法的匹配度;所述第二评估值用于评估所述文本解析结果的逻辑准确度,且所述第二评估值根据预先设置的后验规则计算而得。
(a)关于第一评估值:
由于基于通用文本解析架构编写的信息搜索算法实际产生的文本解析结果在信息个数、每个信息的内容等方面与信息搜索算法本身所需结果可能存在差异。因此,通过利用第一评估值评估文本解析结果与信息搜索算法的匹配度,能够直观地反映实际产生的文本解析结果在信息个数、具体内容是否与信息搜索算法本身输入的信息个数、具体内容是否相符,从而直接反映信息搜索算法的可靠性。
示例性的,若第一评估值的范围为[0,1],则二次开发人员本身想要利用算法搜索的内容包括两个信息,但是实际产生的文本解析结果却仅包括一个信息时,第一评估值为0.5。又如,二次开发人员本身想要利用算法搜索的内容为15岁,但是实际产生的文本解析结果却为20岁时,则可以基于正态分布计算出第一评估值。
此外,在使用同一种信息搜索算法对多个文本进行解析时,通用文本解析架构计算而得的第一评估值可能不相同,因此通用文本解析架构还可以对同一种信息搜索算法对应的所有第一评估值进行平均运算,获得平均的第一评估值,以便让二次开发人员确定该算法整体可靠性。
(b)关于第二评估值:
在实际应用中,即使第一评估值为最大值(即文本解析结果与算法完全匹配),也可能存在文本解析结果与实际逻辑不符的现象。例如,输入的维度为性别,但是利用算法搜索出来的结果却为一个人名。因此,为了直观让二次开发人员获知其开发的算法所搜索的信息搜索结果是否逻辑正确,可以预先利用正确的逻辑设置一个后验规则,以便在获得文本解析结果后,利用后验规则来验证文本解析结果在逻辑方面的正确性,从而也从侧面反映出算法的可靠性。
由于第一评估值能够在匹配度上反映算法的可靠性,第二评估值能够在文本解析结果逻辑正确性上反映算法的可靠性,所以为了对算法的可靠性进行综合评估,基于通用文本解析架构还可以基于所述第一评估值以及所述第二评估值,综合评估对应的算法的可靠性。
其中,综合评估的具体实现方式可以为:对第一评估值与第二评估值进行加权处理。
进一步的,在上述实施例中提及基于通用文本解析架构编写的完整的文本解析程序可能有多种,且这些完整的文本解析程序中很可能存在同一纬度的不同信息搜索的算法,而不同的算法的可靠性可能不同。因此,对于同一纬度,不仅可以向二次开发人员提供当前算法对应的文本解析结果、第一评估值以及第二评估值,还可以一并提供同一纬度的其他算法对应的文本解析结果、第一评估值以及第二评估值,以便供二次开发人员根据不同的文本解析结果的第一评估值以及第二评估值来确定最优的文本解析结果。
需要补充的是,这些完整的文本解析程序可能是同时运行,也可能是先后运行。
此外,通用文本解析架构还可以自动向二次开发人员提供最优的文本解析结果。具体的,所述通用文本解析架构还用于在存在至少两个完整的文本解析程序的情况下,若对于同一个维度存在至少两种算法,则在输出文本解析结果时,分别将当前算法对应的文本解析结果的第一评估值以及第二评估值与同一纬度的其他算法对应的文本解析结果的第一评估值以及第二评估值进行比较,确定并输出可靠性最高的文本解析结果。
进一步的,由于在实际应用中往往有通用的文本解析业务需求,例如从文本中提取某个人的名字,所以为了进一步加快二次开发人员的开发效率,通用文本解析架构可以直接为二次开发人员提供已经编写好的预处理算法和/或信息搜索算法,以便当业务需求与预先提供的算法相符时,可以直接使用,而无需二次开发人员再进行开发。也就是说,所述预处理层还可以包括至少一个预先编写的预处理组件;和/或,所述信息搜索算法层还可以包括至少一个预先编写且已封装的算法组件。
基于上述实施例提供的通用文本解析架构能够快速开发出完整的文本解析程序,并且可以利用完整的文本解析程序对文本进行解析。因此,本发明的另一个实施例还提供了一种基于通用文本解析架构解析文本的方法,如图4所示,所述方法主要包括:
201、获取待解析的文本。
202、利用预处理层中的至少一个预处理组件对所述文本进行预处理,并将预处理结果缓存至语料仓库层中。
其中,预处理组件是二次开发人员根据通用文本解析架构的预处理层中提供的将预处理过程进行组件化的预处理逻辑开发的组件。具体的,预处理层中可以提供一个预处理接口,并且该预处理接口定义有组件化的预处理逻辑。当开发人员想要基于通用文本解析架构开发完整的文本解析程序时,可以根据业务需求编写至少一个预处理组件,实现预处理层中定义的预处理接口,进而完成预处理过程的编码操作。其中,预处理组件的预处理功能包括分句以及分词等。
在实际应用中,用户可以指定预处理组件的处理级别和执行的优先级,也可以随时删除已有的任意一个预处理组件,也可以随时添加新的预处理组件,并且对预处理组件的随意增减不会对通用文本解析架构造成影响,也就是说,本步骤中的预处理组件具有热插拔性。
此外,在获得预处理结果后,可以将该预处理结果以树形结构缓存至语料仓库层(详见图2),也可以以其他缓存形式缓存至语料仓库层,其具体缓存方式在此不做限定。
203、利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索。
其中,封装的算法为基于非业务逻辑的公共算法,且该算法也可以具有热插拔性,即二次开发人员可以随时删除已有的任意一个算法,也可以随时添加新的算法,并且对算法的随意增减不会对通用文本解析架构造成影响。
具体的,算法是二次开发人员根据通用文本解析架构的信息搜索算法层中提供的对非业务逻辑的公共算法进行封装的信息搜索逻辑开发的信息搜索算法。在实际应用中,信息搜索层中可以提供一个算法接口,并且该算法接口定义有组件化(或者封装)的信息搜索逻辑。当开发人员想要基于通用文本解析架构开发完整的文本解析程序时,可以根据业务需求编写至少一个非业务逻辑的公共算法,并对编写的算法进行封装,从而实现信息搜索算法层中定义的算法接口,进而完成信息搜索算法的编码操作。
204、通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。
其中,当维度之间具有依赖性时,维度业务逻辑层会自动判断维度的优先解析顺序。
由于信息搜索算法层中的算法是非业务逻辑的公共算法,而非具体的业务逻辑对应的算法,所以在通过算法从语料仓库中搜索获得搜索结果后,还需要根据具体的业务逻辑对该搜索结果进行二次处理,从而获得最终需要的文本解析结果。例如,基于信息搜索算法层中的算法获得的搜索结果为男生5名、女生10名,业务需求是男女比例,则需要再对搜索结果进行比例运算,从而获得文本解析结果为1:2。
本发明实施例提供的基于通用文本解析架构解析文本的方法,能够先基于预处理层中预处理组件对文本进行预处理,并将预处理结果缓存至语料仓库中,然后利用维度业务逻辑层调用信息搜索算法层中的公共算法,实现对预处理结果的搜索,最后再通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。由于本发明中的预处理过程以及搜索过程都是基于组件化的程序进行处理的,所以用户可以对预处理组件或者封装的算法进行任意调用,从而并非业务需求一发生改变就需要重新编写文本解析程序,而可能只需更改预处理组件以及算法的调用顺序、调用个数等,进而提高了文本解析效率。此外,当当前的预处理组件或者算法无法满足业务需求时,二次开发人员只需根据当前的业务需求重新编写预处理算法以及信息搜索算法,而无需编写其他通用程序,进而提高了编写完整的文本解析程序的效率。并且由于预处理层中的预处理组件以及信息搜索层中封装的算法具有热插拔性,所以当二次开发人员需要重新编写预处理算法或者信息搜索算法时,可以直接在通用文本解析平台开发的完整的文本解析程序的基础上,随时删除已有的任意一个预处理组件或者算法以及随时添加新的预处理组件或者算法,从而进一步提高了二次开发人员更新文本解析程序的效率。
可选的,由于二次开发人员编写的信息搜索算法层中的算法往往会存在一定的误差,所以为了使得二次开发人员能够直观地获知其所编写的算法的质量,在通过步骤204获得文本解析结果后,可以先基于所述文本解析结果计算第一评估值以及第二评估值,然后再根据所述第一评估值以及所述第二评估值,输出文本解析结果。
其中,所述第一评估值用于评估所述维度业务逻辑层获得的文本解析结果与对应维度的算法的匹配度;所述第二评估值用于评估所述文本解析结果的逻辑准确度,且所述第二评估值根据预先设置的后验规则计算而得。关于第一评估值以及第二评估值的详细介绍见通用文本解析架构的实施例。
根据所述第一评估值以及所述第二评估值,输出文本解析结果的具体实现方式主要分为以下三种:
(1)直接将文本解析结果以及该文本解析结果对应的第一评估值、第二评估值进行输出,以便用户根据第一评估值和第二评估值确定是否重新编写算法。
(2)若基于所述通用文本解析架构开发有至少两个完整的文本解析程序,则若对于同一个维度存在至少两种算法,则输出当前算法应的文本解析结果、第一评估值以及第二评估值,以及输出同一纬度的其他算法对应的文本解析结果、第一评估值以及第二评估值,以便用户根据多个算法的第一评估值和第二评估值,确定可靠性最高的文本解析结果。
(3)若对于同一个维度存在至少两种算法,则在输出文本解析结果时,分别将当前算法对应的文本解析结果的第一评估值以及第二评估值与同一纬度的其他算法对应的文本解析结果的第一评估值以及第二评估值进行比较,确定并输出可靠性最高的文本解析结果。
需要补充的是,这些完整的文本解析程序可能是同时运行,也可能是先后运行。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种基于通用文本解析架构解析文本的装置,如图5所示,所述装置主要包括:获取单元31、预处理单元32、缓存单元33、搜索单元34以及逻辑处理单元35。其中,
获取单元31,用于获取待解析的文本;
预处理单元32,用于利用预处理层中的至少一个预处理组件对所述获取单元31获取的所述文本进行预处理;
缓存单元33,用于将所述预处理单元32获得的预处理结果缓存至语料仓库层中;
搜索单元34,用于利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索,所述封装的算法为基于非业务逻辑的公共算法,且所述预处理组件和/或所述封装的算法具有热插拔性;
逻辑处理单元35,用于通过待搜索维度的业务逻辑对所述搜索单元34的搜索结果进行处理,获得文本解析结果。
可选的,如图6所示,所述装置还包括:
计算单元36,用于基于所述文本解析结果计算第一评估值以及第二评估值;其中,所述第一评估值用于评估所述维度业务逻辑层获得的文本解析结果与对应维度的算法的匹配度;所述第二评估值用于评估所述文本解析结果的逻辑准确度,且所述第二评估值根据预先设置的后验规则计算而得;
输出单元37,用于根据所述第一评估值以及所述第二评估值,输出文本解析结果。
可选的,所述输出单元37用于当基于所述通用文本解析架构开发有至少两个完整的文本解析程序时,若对于同一个维度存在至少两种算法,则输出当前算法应的文本解析结果、第一评估值以及第二评估值,以及输出同一纬度的其他算法对应的文本解析结果、第一评估值以及第二评估值。
可选的,所述输出单元37用于基于所述通用文本解析架构开发有至少两个完整的文本解析程序时,若对于同一个维度存在至少两种算法,则在输出文本解析结果时,分别将当前算法对应的文本解析结果的第一评估值以及第二评估值与同一纬度的其他算法对应的文本解析结果的第一评估值以及第二评估值进行比较,确定并输出可靠性最高的文本解析结果。
本发明实施例提供的基于通用文本解析架构解析文本的装置,能够先基于预处理层中预处理组件对文本进行预处理,并将预处理结果缓存至语料仓库中,然后利用维度业务逻辑层调用信息搜索算法层中的公共算法,实现对预处理结果的搜索,最后再通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。由于本发明中的预处理过程以及搜索过程都是基于组件化的程序进行处理的,所以用户可以对预处理组件或者封装的算法进行任意调用,从而并非业务需求一发生改变就需要重新编写文本解析程序,而可能只需更改预处理组件以及算法的调用顺序、调用个数等,进而提高了文本解析效率。此外,当当前的预处理组件或者算法无法满足业务需求时,二次开发人员只需根据当前的业务需求重新编写预处理算法以及信息搜索算法,而无需编写其他通用程序,进而提高了编写完整的文本解析程序的效率。并且由于预处理层中的预处理组件以及信息搜索层中封装的算法具有热插拔性,所以当二次开发人员需要重新辨析预处理算法或者信息搜索算法时,可以直接在通用文本解析平台开发的完整的文本解析程序的基础上,随时删除已有的任意一个预处理组件或者算法以及随时添加新的预处理组件或者算法,从而进一步提高了二次开发人员更新文本解析程序的效率。
所述通用文本解析架构包括处理器和存储器,上述预处理层、语料仓库层、信息搜索算法层以及维度业务逻辑层等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
基于通用文本解析架构解析文本的装置包括处理器和存储器,上述获取单元、预处理单元、缓存单元、搜索单元以及逻辑处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高开发完整的文本解析程序的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,所述计算机程序产品为通用文本解析架构。
具体的,所述通用文本解析架构包括:预处理层、语料仓库层、信息搜索算法层以及维度业务逻辑层;其中,
所述预处理层用于提供将预处理过程进行组件化的预处理逻辑,并在基于所述预处理逻辑获得至少一个预处理组件后,利用所述至少一个预处理组件对文本进行预处理,并将预处理结果传输至语料仓库层;
所述语料仓库层用于缓存所述预处理层的预处理结果;
所述信息搜索算法层用于提供对非业务逻辑的公共算法进行封装的信息搜索逻辑,并在基于所述信息搜索逻辑获得至少一个封装的算法后,将所述至少一个封装的算法进行缓存,其中,所述预处理组件和/或所述封装的算法具有热插拔性;;
维度业务逻辑层用于通过调用信息搜索算法层中的算法,实现对所述语料仓库层中缓存的预处理结果的搜索,并通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取待解析的文本;
利用预处理层中的至少一个预处理组件对所述文本进行预处理,并将预处理结果缓存至语料仓库层中;
利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索,所述封装的算法为基于非业务逻辑的公共算法,且所述预处理组件和/或所述封装的算法具有热插拔性;
通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种基于通用文本解析架构解析文本的方法,其特征在于,所述方法包括:
获取待解析的文本;
利用预处理层中的至少一个预处理组件对所述文本进行预处理,并将预处理结果缓存至语料仓库层中;
利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索,所述封装的算法为基于非业务逻辑的公共算法,且所述预处理组件和/或所述封装的算法具有热插拔性;
通过待搜索维度的业务逻辑对搜索结果进行处理,获得文本解析结果;
所述方法还包括:
基于所述文本解析结果计算第一评估值以及第二评估值;其中,所述第一评估值用于评估所述维度业务逻辑层获得的文本解析结果与对应维度的算法的匹配度;所述第二评估值用于评估所述文本解析结果的逻辑准确度,且所述第二评估值根据预先设置的后验规则计算而得;
根据所述第一评估值以及所述第二评估值,输出文本解析结果。
2.根据权利要求1所述的方法,其特征在于,若基于所述通用文本解析架构开发有至少两个完整的文本解析程序,则所述根据所述第一评估值以及所述第二评估值,输出文本解析结果包括:
若对于同一个维度存在至少两种算法,则输出当前算法对应的文本解析结果、第一评估值以及第二评估值,以及输出同一纬度的其他算法对应的文本解析结果、第一评估值以及第二评估值。
3.根据权利要求1所述的方法,其特征在于,若基于所述通用文本解析架构开发有至少两个完整的文本解析程序,则所述根据所述第一评估值以及所述第二评估值,输出文本解析结果包括:
若对于同一个维度存在至少两种算法,则在输出文本解析结果时,分别将当前算法对应的文本解析结果的第一评估值以及第二评估值与同一纬度的其他算法对应的文本解析结果的第一评估值以及第二评估值进行比较,确定并输出可靠性最高的文本解析结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述将预处理结果缓存至语料仓库层中包括:
将所述预处理结果以树形结构缓存至所述语料仓库层中。
5.一种基于通用文本解析架构解析文本的装置,其特征在于,所述装置包括:
获取单元,用于获取待解析的文本;
预处理单元,用于利用预处理层中的至少一个预处理组件对所述获取单元获取的所述文本进行预处理;
缓存单元,用于将所述预处理单元获得的预处理结果缓存至语料仓库层中;
搜索单元,用于利用维度业务逻辑层调用信息搜索算法层中至少一个封装的算法,实现对所述语料仓库层中缓存的所述预处理结果的搜索,所述封装的算法为基于非业务逻辑的公共算法,且所述预处理组件和/或所述封装的算法具有热插拔性;
逻辑处理单元,用于通过待搜索维度的业务逻辑对所述搜索单元的搜索结果进行处理,获得文本解析结果;
所述装置还包括:
计算单元,用于基于所述文本解析结果计算第一评估值以及第二评估值;其中,所述第一评估值用于评估所述维度业务逻辑层获得的文本解析结果与对应维度的算法的匹配度;所述第二评估值用于评估所述文本解析结果的逻辑准确度,且所述第二评估值根据预先设置的后验规则计算而得;
输出单元,用于根据所述第一评估值以及所述第二评估值,输出文本解析结果。
6.根据权利要求5所述的装置,其特征在于,所述输出单元用于当基于所述通用文本解析架构开发有至少两个完整的文本解析程序时,若对于同一个维度存在至少两种算法,则输出当前算法对应的文本解析结果、第一评估值以及第二评估值,以及输出同一纬度的其他算法对应的文本解析结果、第一评估值以及第二评估值。
7.根据权利要求5所述的装置,其特征在于,所述输出单元用于基于所述通用文本解析架构开发有至少两个完整的文本解析程序时,若对于同一个维度存在至少两种算法,则在输出文本解析结果时,分别将当前算法对应的文本解析结果的第一评估值以及第二评估值与同一纬度的其他算法对应的文本解析结果的第一评估值以及第二评估值进行比较,确定并输出可靠性最高的文本解析结果。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的基于通用文本解析架构解析文本的方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求4中任意一项所述的基于通用文本解析架构解析文本的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611249460.3A CN108255802B (zh) | 2016-12-29 | 2016-12-29 | 通用文本解析架构及基于所述架构解析文本的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611249460.3A CN108255802B (zh) | 2016-12-29 | 2016-12-29 | 通用文本解析架构及基于所述架构解析文本的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108255802A CN108255802A (zh) | 2018-07-06 |
CN108255802B true CN108255802B (zh) | 2021-08-24 |
Family
ID=62721184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611249460.3A Active CN108255802B (zh) | 2016-12-29 | 2016-12-29 | 通用文本解析架构及基于所述架构解析文本的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255802B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783562B (zh) * | 2019-01-17 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 一种业务处理方法和装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488123A (zh) * | 2008-01-16 | 2009-07-22 | 鸿富锦精密工业(深圳)有限公司 | 文本解析***及方法 |
CN101699440A (zh) * | 2009-11-24 | 2010-04-28 | 中国电信股份有限公司 | 按业务检索的方法及*** |
CN102214098A (zh) * | 2011-06-15 | 2011-10-12 | 中山大学 | 一种基于WebKit浏览器引擎的动态页面数据采集方法 |
US8612206B2 (en) * | 2009-12-08 | 2013-12-17 | Microsoft Corporation | Transliterating semitic languages including diacritics |
CN103512581A (zh) * | 2012-06-28 | 2014-01-15 | 北京搜狗科技发展有限公司 | 一种路径规划方法和装置 |
GB2516117A (en) * | 2013-07-13 | 2015-01-14 | It Res Ct For The Holy Quran And Its Sciences Noor Taibah University | Digital quran e-content integrity analyser and verifier |
CN104866327A (zh) * | 2015-06-19 | 2015-08-26 | 上海斐讯数据通信技术有限公司 | 一种php开发方法及框架 |
CN104933095A (zh) * | 2015-05-22 | 2015-09-23 | 中国电子科技集团公司第十研究所 | 异构信息通用性关联分析***及其分析方法 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
CN105956082A (zh) * | 2016-04-29 | 2016-09-21 | 深圳前海大数点科技有限公司 | 实时数据处理与存储*** |
CN105956077A (zh) * | 2016-04-29 | 2016-09-21 | 上海交通大学 | 基于语义需求匹配的流程挖掘*** |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
-
2016
- 2016-12-29 CN CN201611249460.3A patent/CN108255802B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488123A (zh) * | 2008-01-16 | 2009-07-22 | 鸿富锦精密工业(深圳)有限公司 | 文本解析***及方法 |
CN101699440A (zh) * | 2009-11-24 | 2010-04-28 | 中国电信股份有限公司 | 按业务检索的方法及*** |
US8612206B2 (en) * | 2009-12-08 | 2013-12-17 | Microsoft Corporation | Transliterating semitic languages including diacritics |
CN102214098A (zh) * | 2011-06-15 | 2011-10-12 | 中山大学 | 一种基于WebKit浏览器引擎的动态页面数据采集方法 |
CN103512581A (zh) * | 2012-06-28 | 2014-01-15 | 北京搜狗科技发展有限公司 | 一种路径规划方法和装置 |
GB2516117A (en) * | 2013-07-13 | 2015-01-14 | It Res Ct For The Holy Quran And Its Sciences Noor Taibah University | Digital quran e-content integrity analyser and verifier |
CN104933095A (zh) * | 2015-05-22 | 2015-09-23 | 中国电子科技集团公司第十研究所 | 异构信息通用性关联分析***及其分析方法 |
CN104866327A (zh) * | 2015-06-19 | 2015-08-26 | 上海斐讯数据通信技术有限公司 | 一种php开发方法及框架 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
CN105956082A (zh) * | 2016-04-29 | 2016-09-21 | 深圳前海大数点科技有限公司 | 实时数据处理与存储*** |
CN105956077A (zh) * | 2016-04-29 | 2016-09-21 | 上海交通大学 | 基于语义需求匹配的流程挖掘*** |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于本体的自适应Web信息抽取方法研究;李传席;《中国博士学位论文全文数据库 信息科技辑》;20130115;第I138-81页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108255802A (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11714611B2 (en) | Library suggestion engine | |
US11221832B2 (en) | Pruning engine | |
US11740876B2 (en) | Method and system for arbitrary-granularity execution clone detection | |
WO2019174422A1 (zh) | 实体关联关系的分析方法及相关装置 | |
CN110287477B (zh) | 实体情感分析方法及相关装置 | |
US8959646B2 (en) | Automated detection and validation of sanitizers | |
CN109582948B (zh) | 评价观点抽取的方法及装置 | |
CN110008470B (zh) | 报表的敏感性分级方法和装置 | |
CN111159016A (zh) | 一种规范检测方法及装置 | |
US11327722B1 (en) | Programming language corpus generation | |
CN107766036B (zh) | 一种模块的构建方法、构建装置及终端设备 | |
CN111199157A (zh) | 一种文本数据处理方法及其装置 | |
CN109388568B (zh) | 代码测试方法和装置 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
CN108255802B (zh) | 通用文本解析架构及基于所述架构解析文本的方法和装置 | |
US8819645B2 (en) | Application analysis device | |
CN111143203B (zh) | 机器学习、隐私代码确定方法、装置及电子设备 | |
CN110019831B (zh) | 一种产品属性的分析方法和装置 | |
CN117909505B (zh) | 事件论元的抽取方法及相关设备 | |
US11887579B1 (en) | Synthetic utterance generation | |
KR102382017B1 (ko) | 악성코드 진화관계를 분석하는 장치 및 방법 | |
CN114489774A (zh) | 网页应用打包方法、装置、设备及存储介质 | |
CN117333291A (zh) | 金融产品数据的处理方法及装置、存储介质和电子设备 | |
CN117453566A (zh) | 代码缺陷修复方法、装置、电子设备和存储介质 | |
CN116414921A (zh) | 实体关系构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |