CN111126058A - 文本信息自动抽取方法、装置、可读存储介质和电子设备 - Google Patents
文本信息自动抽取方法、装置、可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN111126058A CN111126058A CN201911311207.XA CN201911311207A CN111126058A CN 111126058 A CN111126058 A CN 111126058A CN 201911311207 A CN201911311207 A CN 201911311207A CN 111126058 A CN111126058 A CN 111126058A
- Authority
- CN
- China
- Prior art keywords
- information
- extraction
- text
- target text
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本信息自动抽取方法、装置、可读存储介质和电子设备,本发明实施例通过基于Xpath属性以及语义理解对目标文本内包含的信息进行抽取,在抽取过程中融合了多种信息抽取方式,一定程度上解决了现有技术面临的实体局限、关系局限和语义局限性等问题,进而实现抽取内容复杂、表述多变的文本中的信息,显著的节约了人工成本、提高了文本信息抽取的准确度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本信息自动抽取方法、装置、可读存储介质和电子设备。
背景技术
在互联网时代,信息资讯的传播速度越来越快。人们在查找信息时,可以获取信息的渠道越来越多,获取信息的数量也越来越大。但因为获取信息的数量大,内容多,在庞大的信息群中获取自己需要的内容是一件耗费时间和精力的事情。同时,对于时效性要求较高的信息,很难及时的获取需要的信息内容。现有的信息抽取方法为基于预设的规则在获取的信息中抽取需要的内容,但这种方法因预设的规则不灵活有一定的局限性,在信息内容复杂、表述方式多变的情况下,无法正确实现抽取,会导致信息抽取结果不准确的问题。
发明内容
有鉴于此,本发明实施例公开了一种文本信息自动抽取方法、装置、可读存储介质和电子设备,旨在实现抽取内容复杂、表述多变的文本信息,提高信息抽取的准确度。
第一方面,本发明实施例公开了一种文本信息自动抽取方法,其特征在于,所述方法包括:
接收抽取请求,所述抽取请求中包括文本信息;
根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;
通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的Xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型;
以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。
进一步地,所述根据抽取请求确定目标文本包括:
获取所述抽取请求中的文本信息,所述文本信息中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;
将所述文本信息加入待执行的任务队列;
根据加入所述任务队列的时间顺序依次从所述任务队列中获取待处理的文本信息作为目标文本。
进一步地,所述方法还包括:
监控所述抽取模型对所述目标文本进行抽取的过程以确定对应的任务处理状态;
反馈所述任务处理状态。
进一步地,所述Xpath抽取子模型包括页面元素抽取层、数组抽取层和键值对抽取层;
所述文本抽取子模型包括规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层。
进一步地,所述通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息包括:
对所述目标文本进行预处理,得到至少一个特征信息文本;
通过所述Xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息;
通过预设的处理规则对所述各特征信息文本对应的抽取信息进行处理得到所述目标文本对应的概念信息以及与所述各概念信息对应的实体信息。
进一步地,所述对所述目标文本进行预处理,得到至少一个特征信息文本包括:
对所述目标文本进行格式转换,得到可以被所述抽取模型识别的标准目标文本;
根据预设的拆分规则对所述标准目标文本进行拆分,得到包含所述标准目标文本内容的至少一个特征信息文本。
进一步地,所述通过所述Xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息具体为:
通过所述页面元素抽取层、数组抽取层、键值对抽取层、规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层中的至少一个对所述各特征信息文本进行抽取,以确定对应的抽取信息。
进一步地,所述处理规则为将所述各特征信息文本对应的抽取信息合并。
第二方面,本发明实施例公开了一种文本信息自动抽取装置,所述装置包括:
请求接收模块,用于接收抽取请求,所述抽取请求中包括文本信息;
文本确定模块,用于根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;
信息抽取模块,用于通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的Xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型;
信息存储模块,用于以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。
第三方面,本发明实施例公开了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例公开了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例通过基于Xpath属性以及语义理解对目标文本内包含的信息进行抽取,在抽取过程中融合了多种信息抽取方式,一定程度上解决了现有技术面临的实体局限、关系局限和语义局限性等问题,进而实现抽取内容复杂、表述多变的文本中的信息,显著的节约了人工成本、提高了文本信息抽取的准确度。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本申请实施例的文本信息自动抽取方法的流程图;
图2为本申请实施例的文本信息自动抽取方法的示意图;
图3为本申请实施例的抽取模型的示意图;
图4为本申请实施例的一种数据库中存储内容的示意图;
图5为本申请实施例的文本信息自动抽取装置的示意图;
图6为本申请实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为本申请实施例的文本信息自动抽取方法的流程图,如图1所示,所述文本信息自动抽取方法包括:
步骤S100、接收抽取请求。
具体地,所述抽取请求用于发起文本信息自动抽取任务,可以通过客户端发送,由服务器接收并处理。其中,所述抽取请求还包括待处理的文本信息,所述服务器接收到所述抽取请求后获取所述文本信息,并对所述文本信息进行文本信息自动抽取。例如,在金融行业中,所述文本信息可以为金融相关资讯、知名评论家博客、最新的金融相关政策等文本;在互联网行业中,所述文本信息可以为国家发布的科技相关政策、权威技术论坛文章、科技相关资讯等文本。可选的,所述抽取请求还可以包括与所述文本信息对应的抽取规则,用于所述服务器基于所述规则抽取对应的文本信息中的内容。所述抽取规则可以包括目标内容标识和抽取指令。其中,所述目标内容标识用于表征抽取目标,例如,在金融行业中,所述抽取目标例如可以是“发行机构-债券”组成的键值对,所述目标内容标识可以为用于表征所述“发行机构-债券”对应的编码、代号等。所述抽取指令用于对文本信息进行分割,以及指定抽取文本信息或文本信息中某一部分的具体处理单元。
步骤S200、根据抽取请求确定目标文本。
具体地,所述服务器在接收到所述抽取请求后,可以根据所述抽取请求确定待进行文本信息抽取的目标文本。在本发明实施例的一个可选的实施方式中,所述服务器可以直接将所述抽取请求中的文本信息确定为目标文本,以处理所述文本信息。
在本发明实施例的另一个可选的实施方式中,所述根据抽取请求确定目标文本还可以包括:
步骤S210、获取所述抽取请求中的文本信息,所述文本信息中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息。
具体地,通过服务器解析接收到的抽取请求,得到所述抽取请求中包含的文本信息。其中,所述文本信息中还包括至少一个概念信息和与所述概念信息对应的至少一个实体信息。所述概念信息用于表征所述文本信息对应领域的一个基本概念,所述实体信息用于表征所述基本概念对应的实体内容。例如,当所述文本信息为金融资讯、政策,即判断所述文本信息对应的领域为金融领域,所述概念信息可以为发行机构,所述实体信息可以为所述发行机构发行的债券名称。
步骤S220、将所述文本信息加入待执行的任务队列。
具体地,所述服务器内部维护一个用于确定服务器接收的大量文本信息处理顺序的任务队列。所述服务器根据接收到文本信息的顺序将所述各文本信息依次加入任务队列中,以确定所述各文本信息的处理顺序。
步骤S230、根据加入所述任务队列的时间顺序依次从所述任务队列中获取待处理的文本信息作为目标文本。
具体地,所述服务器根据加入所述任务队列的时间顺序从所述任务队列中获取待处理的文本信息并将每次获取到的所述文本信息作为目标文本进行处理。即在服务器接收到大量文本信息时,按顺序确定所述任务队列中的文本信息为目标文本,在对当前的目标文本进行文本信息抽取后再确定所述任务队列中的下一个文本信息为目标文本,以实现依次处理所述服务器接收到的文本信息。可选的,所述服务器还可以同时确定多个文本信息为目标文本,并行处理所述各目标文本。
进一步地,所述服务器还可以监控所述抽取模型对所述目标文本进行抽取的过程以确定对应的任务处理状态,并反馈所述任务处理状态。所述监控过程可以在服务器确定目标文本的过程中实现。即在根据预定的时间周期确定目标文本的情况下,当需要确定下一个目标文本时,检测当前目标文本的处理结果,所述处理结果例如可以是处理完成、处理失败、处理中等任务处理状态,并反馈所述任务处理状态以根据所述任务处理状态进行对应的处理。
步骤S300、通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息。
具体地,在通过步骤S200确定所述目标文本后,将所述目标文本输入抽取模型中,输出抽取到的至少一个概念信息以及与所述各概念信息对应的实体信息。所述抽取模型根据预先标注的训练集训练得到。在本申请实施例中,所述抽取模型包括通过定位目标文本位置进行信息抽取的Xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型。其中,所述Xpath抽取子模型基于Xpath语言进行信息抽取,所述Xpath语言为一种通过对元素和属性进行遍历在结构化文档中查找信息的语言,可以通过路径表达式来获取结构化文档中的节点或者节点集。所述结构化文档例如可以是XML文件。
例如,对于结构化文档:
<发行机构:公司A>
<债券:债券B>
<期限:两年>
</期限>
</债券>
</发行机构>
所述Xpath语言遍历后确定的节点集通过“发行机构/债券/期限”的路径表达式表示,所述路径表达式的每个路径下存储对应的内容。因此,所述Xpath抽取子模型还可以包括通过遍历目标文本中的元素进行信息定位及抽取的页面元素抽取层、通过遍历目标文本中的属性确定数组进行信息定位及抽取的数组抽取层和通过遍历目标文本中的属性确定键值对进行信息定位及抽取的键值对抽取层,所述各抽取层对目标文本进行抽取得到的信息均为所述Xpath语言遍历所述结构化文档后得到的路径和各路径对应内容组成的键值对,仍以上述XML文档为例,抽取的结果为“发行机构:公司A”、“债券:债券”和“期限:两年”。所述文本抽取子模型包括基于预设规则识别所述目标文本中文字内容进行信息抽取的规则抽取层、基于文本信息分类对所述目标文本进行信息抽取的分类抽取层、通过长短期记忆网络识别所述目标文本内容进行信息抽取的长短期记忆网络抽取层和通过文本语义理解对所述目标文本进行信息抽取的语义抽取层。
因此,所述通过抽取模型对所述目标文本进行抽取的过程包括:
步骤S310、对所述目标文本进行预处理,得到至少一个特征信息文本。
具体地,因所述抽取模型中包括不同的抽取子模型,所述预处理过程包括将所述目标文本进行拆分,以及将所述目标文本进行对应的格式转换的过程,最终得到可以输入所述各子模型的特征信息文本。
在本申请实施例的一个可选的实现方式中,所述获取特征信息文本的过程包括:
步骤S311、对所述目标文本进行格式转换,得到可以被所述抽取模型识别的标准目标文本。
具体地,所述服务器将确定的目标文本转换为预设格式的标准目标文本,使所述目标文本的内容可以被所述抽取模型识别。以所述预设格式为HTML格式为例进行说明,当所述目标文本的格式为图片、PDF或word等格式时,将所述目标文本转换为HTML格式以确定标准目标文本,当所述目标文本格式为HTML格式,则不需要对所述目标文本进行格式转换,直接确定所述目标文本为标准目标文本。
步骤S312、根据预设的拆分规则对所述标准目标文本进行拆分,得到包含所述标准目标文本内容的至少一个特征信息文本。
具体地,所述拆分规则可以根据客户端发送的抽取请求中包含的抽取指令确定,也可以为所述服务器内预先设定的规则。所述服务器可以根据预设的拆分规则对所述标准目标文本进行拆分,得到包含所述标准目标文本内容的至少一个特征信息文本。以所述拆分规则为根据段落进行拆分为例,当所述标准目标文本为一个包含10个段落的文本信息,可以将所述标准目标文本的1-3段、4-6段、7-10段分别确定为一个特征信息文本。可选地,所述服务器还可以自动识别输入的标准目标文本内容,根据识别结果对所述标准目标文本进行拆分得到对应的特征信息文本。例如,对于HTML格式的标准目标文本,当服务器识别到其中包含数组时,将所述数组确定为一个特征信息文本,当所述服务器识别到其中包含键值对格式内容时,将所述键值对格式内容确定为一个特征信息文本。
进一步地,所述确定特征目标文本的过程可以为先对所述目标文本进行拆分得到至少一个信息文本,再分别对拆分得到的信息文本进行格式转换得到对应的特征信息文本,以输入对应的子模型或子模型的层中进行文本信息抽取。
步骤S320、通过所述Xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息。
具体地,在确定了至少一个特征信息文本后,可以将每一个所述特征文本信息输入Xpath抽取子模型、文本抽取子模型中的一个子模型中得到对应的抽取信息,或同时输入Xpath抽取子模型和文本抽取子模型分别得到对应的抽取信息。其中,所述Xpath抽取子模型根据HTML格式的特征文本信息的页面属性定位待提取信息的位置,并提取所述位置的信息,即至少一个概念信息和与所述各概念信息对应的至少一个实体信息。所述Xpath抽取子模型可以通过标记好的HTML页面训练得到,即将HTML页面作为所述Xpath抽取子模型的输入,将所述HTML页面中包含的概念信息和各概念信息对应的实体信息作为所述Xpath抽取子模型的输出训练得到所述Xpath抽取子模型。所述文本抽取子模型根据所述特征文本信息中的包含的内容语义对所述特征文本信息进行提取,可以通过标记好的文本信息训练得到。
进一步地,因所述各子模型中还包括不同的抽取层,所述抽取各特征信息文本的过程可以为通过所述页面元素抽取层、数组抽取层、键值对抽取层、规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层中的至少一个对所述各特征信息文本进行抽取,以确定对应的抽取信息。所述各特征信息文本输入的子模型以及抽取层可以由所述服务器预先设定,或根据所述客户端发送的抽取请求指定。其中,每个所述抽取层可以单独实现对特征信息文本的抽取,所述各特征信息文本在输入一个或多个子模型后,在所述各子模型中可以输入一个或多个抽取层,分别输出对应的至少一个概念信息和与所述各概念信息对应的至少一个实体信息。
所述各特征信息文本输入一个或多个子模型中的一个或多个抽取层得到对应的输出后,可以根据服务器中预设的规则汇总得到每个特征信息文本对应的抽取信息。
在本发明实施例的一个可选的实现方式中,所述各特征信息文本对应的抽取信息为将所述各特征信息文本输入一个或多个子模型中的一个或多个抽取层,并将输出的全部结果合并后去重。例如,当将一个特征信息文本分别输入Xpath抽取子模型和所述文本抽取子模型中,所述Xpath抽取子模型输出的抽取信息为{概念信息A:实体信息1,实体信息2,实体信息3},{概念信息B:实体信息4,实体信息5},{概念信息C:实体信息6,实体信息7}。所述文本抽取子模型输出的抽取信息为{概念信息A:实体信息1,实体信息2,{概念信息B:实体信息4,实体信息10}时,确定所述特征信息文本对应的抽取结果为{概念信息A:实体信息1,实体信息2,实体信息3},{概念信息B:实体信息4,实体信息5,实体信息10},{概念信息C:实体信息6,实体信息7}。
在本发明实施例的另一个可选的实现方式中,所述特征信息文本输入一个或多个子模型中的一个或多个抽取层后,可以对不同抽取层输出的抽取信息可信度进行判断,确定可信度最高的抽取信息为所述特征信息文本对应的抽取信息。例如,当将一个特征信息文本分别输入Xpath抽取子模型和所述文本抽取子模型中的页面元素抽取层、键值对抽取层、长短期记忆网络抽取层和语义抽取层,所述页面元素抽取层输出的抽取信息为{概念信息A:实体信息1,实体信息2,实体信息3},所述键值对抽取层输出的抽取信息为{概念信息A:实体信息1,实体信息4},所述长短期记忆网络抽取层输出的抽取信息为{概念信息A:实体信息4,实体信息5},所述语义抽取层输出的抽取信息为{概念信息A:实体信息1,实体信息2,实体信息4},所述服务器根据预设的可信度判断模块判断所述页面元素抽取层、键值对抽取层、长短期记忆网络抽取层和语义抽取层输出抽取信息的可信度为0.2、0.76、0.55、0.98时。确定所述特征信息文本对应的抽取结果为{概念信息A:实体信息1,实体信息2,实体信息4}。
步骤S330、通过预设的处理规则对所述各特征信息文本对应的抽取信息进行处理得到所述目标文本对应的概念信息以及与所述各概念信息对应的实体信息。
具体地,所述处理规则可以通过服务器预先设定,在本发明实施例的一个可选的实现方式中,所述预设的处理规则为将所述各特征信息文本对应的抽取信息合并,即合并全部特征信息文本对应的抽取信息得到所述目标文本对应的概念信息以及与所述各概念信息对应的实体信息。进一步地,所述处理规则还可以将所述各特征信息文本对应的抽取信息进行归一化处理得到相同格式的抽取信息,再合并所述各抽取信息。
图3为本申请实施例的抽取模型的示意图,如图3所示,所述抽取模型300包括Xpath抽取子模型310和文本抽取子模型320,所述Xpath抽取子模型310包括页面元素抽取层311、数组抽取层312和键值对抽取层313,所述文本抽取子模型320包括规则抽取层321、分类抽取层322、长短期记忆网络抽取层323和语义抽取层324。所述各子模型中的各抽取层分别通过对应的训练集训练得到,可以分别实现对输入的文本信息进行信息抽取。
步骤S400、以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。
具体地,在通过步骤S300抽取到所述目标文本中包含的至少一个概念信息和所述各概念信息对应的至少一个实体信息后,将各概念信息和对应的实体信息绑定以确定对应的键值对,再将所述确定的键值对输出至预定的数据库中存储。可选的,所述数据库中存储的键值对可以被所述服务器读取,并转化成对应的格式发送至客户端显示。
图4为本申请实施例的一种数据库中存储内容的示意图,如图4所示,所述数据库中维护一个用于存储键值对的表格,其中,所述键值对的键为概念信息40,与所述各键对应的值为实体信息41,每个概念信息40可以对应一个或多个实体信息41。可选的,所述键值对可以以图4所示的表格形式输出至客户端显示。
所述方法基于Xpath属性定位以及语义理解对目标文本内包含的信息进行抽取,在抽取过程中融合了多种信息抽取方式,一定程度上解决了现有技术面临的实体局限、关系局限和语义局限性等问题,进而实现抽取内容复杂、表述多变的文本中的信息,显著的节约了人工成本、提高了文本信息抽取的准确度。
图2为本申请实施例的文本信息自动抽取方法的示意图,如图2所示,所述服务器在接收到抽取请求后,将所述抽取请求中包括的文本信息加入任务队列20,并在所述任务队列20中确定目标文本,同时监控上一目标文本的任务处理状态并反馈所述任务处理状态。所述服务器确定目标文本后将所述目标文本输入抽取模型21中先将目标文本进行格式转换22以得到标准目标文本,再通过所述标准目标文本确定至少一个特征信息文本,对所述各特征信息文本进行文本信息抽取23以确定抽取信息,最终汇总各特征信息文本对应的抽取信息,并存储至数据库24。
图5为本申请实施例的文本信息自动抽取装置的示意图,如图5所示,所述装置包括请求接收模块50、文本确定模块51、信息抽取模块52和信息存储模块53。
具体地,所述请求接收模块50用于接收抽取请求,所述抽取请求中包括文本信息。所述文本确定模块51用于根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息。所述信息抽取模块52用于通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的Xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型。所述信息存储模块53用于以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。
所述装置基于Xpath属性定位以及语义理解对目标文本内包含的信息进行抽取,在抽取过程中融合了多种信息抽取方式,一定程度上解决了现有技术面临的实体局限、关系局限和语义局限性等问题,进而实现抽取内容复杂、表述多变的文本中的信息,显著的节约了人工成本、提高了文本信息抽取的准确度。
图6为本发明实施例的电子设备的示意图,如图6所示,在本实施例中,所述电子设备可以为服务器或终端等,所述终端例如可以是手机、电脑、平板电脑等智能设备。如图所示,所述电子设备包括:至少一个处理器61;与至少一个处理器通信连接的存储器60;以及与存储介质通信连接的通信组件62,所述通信组件62在处理器的控制下接收和发送数据;其中,存储器60存储有可被至少一个处理器61执行的指令,指令被至少一个处理器61执行以实现如本发明实施例所述的文本信息自动抽取方法。
具体地,所述存储器60作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器61通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本信息自动抽取方法。
存储器60可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器60可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器60可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器60中,当被一个或者多个处理器61执行时,执行上述任意方法实施例中的文本信息自动抽取方法。
上述产品可执行本申请实施例所公开的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所公开的方法。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种文本信息自动抽取方法,其特征在于,所述方法包括:
接收抽取请求,所述抽取请求中包括文本信息;
根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;
通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的Xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型;
以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。
2.根据权利要求1所述的方法,其特征在于,所述根据抽取请求确定目标文本包括:
获取所述抽取请求中的文本信息,所述文本信息中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;
将所述文本信息加入待执行的任务队列;
根据加入所述任务队列的时间顺序依次从所述任务队列中获取待处理的文本信息作为目标文本。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监控所述抽取模型对所述目标文本进行抽取的过程以确定对应的任务处理状态;
反馈所述任务处理状态。
4.根据权利要求1所述的方法,其特征在于,所述Xpath抽取子模型包括页面元素抽取层、数组抽取层和键值对抽取层;
所述文本抽取子模型包括规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层。
5.根据权利要求4所述的方法,其特征在于,所述通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息包括:
对所述目标文本进行预处理,得到至少一个特征信息文本;
通过所述Xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息;
通过预设的处理规则对所述各特征信息文本对应的抽取信息进行处理得到所述目标文本对应的概念信息以及与所述各概念信息对应的实体信息。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标文本进行预处理,得到至少一个特征信息文本包括:
对所述目标文本进行格式转换,得到可以被所述抽取模型识别的标准目标文本;
根据预设的拆分规则对所述标准目标文本进行拆分,得到包含所述标准目标文本内容的至少一个特征信息文本。
7.根据权利要求5所述的方法,其特征在于,所述通过所述Xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息具体为:
通过所述页面元素抽取层、数组抽取层、键值对抽取层、规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层中的至少一个对所述各特征信息文本进行抽取,以确定对应的抽取信息。
8.根据权利要求5所述的方法,其特征在于,所述处理规则为将所述各特征信息文本对应的抽取信息合并。
9.一种文本信息自动抽取装置,其特征在于,所述装置包括:
请求接收模块,用于接收抽取请求,所述抽取请求中包括文本信息;
文本确定模块,用于根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;
信息抽取模块,用于通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的Xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型;
信息存储模块,用于以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。
10.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911311207.XA CN111126058B (zh) | 2019-12-18 | 2019-12-18 | 文本信息自动抽取方法、装置、可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911311207.XA CN111126058B (zh) | 2019-12-18 | 2019-12-18 | 文本信息自动抽取方法、装置、可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126058A true CN111126058A (zh) | 2020-05-08 |
CN111126058B CN111126058B (zh) | 2023-09-12 |
Family
ID=70499771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911311207.XA Active CN111126058B (zh) | 2019-12-18 | 2019-12-18 | 文本信息自动抽取方法、装置、可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126058B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507118A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 信息分类抽取方法、装置和电子设备 |
CN113836268A (zh) * | 2021-09-24 | 2021-12-24 | 北京百度网讯科技有限公司 | 文档理解方法及装置、电子设备和介质 |
WO2022095385A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 文档知识抽取方法、装置、计算机设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
WO2019024755A1 (zh) * | 2017-08-01 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、***及电子设备 |
CN110555440A (zh) * | 2019-09-10 | 2019-12-10 | 杭州橙鹰数据技术有限公司 | 一种事件抽取方法及装置 |
-
2019
- 2019-12-18 CN CN201911311207.XA patent/CN111126058B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024755A1 (zh) * | 2017-08-01 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、***及电子设备 |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
CN110555440A (zh) * | 2019-09-10 | 2019-12-10 | 杭州橙鹰数据技术有限公司 | 一种事件抽取方法及装置 |
Non-Patent Citations (1)
Title |
---|
金燕;: "基于本体的Web信息抽取研究综述", no. 16 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095385A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 文档知识抽取方法、装置、计算机设备及可读存储介质 |
CN112507118A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 信息分类抽取方法、装置和电子设备 |
CN113836268A (zh) * | 2021-09-24 | 2021-12-24 | 北京百度网讯科技有限公司 | 文档理解方法及装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111126058B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126058B (zh) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN109033282B (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
US20190179965A1 (en) | Method and apparatus for generating information | |
CN110210038B (zh) | 核心实体确定方法及其***、服务器和计算机可读介质 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及*** | |
CN110851136A (zh) | 数据获取方法、装置、电子设备及存储介质 | |
CN110413307B (zh) | 代码功能的关联方法、装置及电子设备 | |
CN115827084A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112579937A (zh) | 一种字符的高亮显示方法及装置 | |
CN113918794A (zh) | 企业网络舆情效益分析方法、***、电子设备及存储介质 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
CN112487181B (zh) | 关键词确定方法和相关设备 | |
CN111767161A (zh) | 远程调用深度识别方法、装置、计算机设备及可读存储介质 | |
CN115437930B (zh) | 网页应用指纹信息的识别方法及相关设备 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114201376A (zh) | 基于人工智能的日志解析方法、装置、终端设备及介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN117150106B (zh) | 数据处理的方法、***及电子设备 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN116738105A (zh) | 信息采集方法、装置、计算机设备和存储介质 | |
CN117574010A (zh) | 一种数据采集方法、装置、设备以及存储介质 | |
CN113961850A (zh) | 网页的特定内容提取方法、装置、设备和存储介质 | |
CN117215947A (zh) | 一种页面白屏检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230712 Address after: No. 15 Zhongshan East 1st Road, Huangpu District, Shanghai, 200002 Applicant after: China Foreign Exchange Trading Center (National Interbank Interbank lending market Center) Address before: 201203 building 6, Lane 1388, Zhangdong Road, Pudong New Area, Shanghai Applicant before: CFETS INFORMATION TECHNOLOGY (SHANGHAI) CO.,LTD. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |