CN111814482A - 文本关键数据的提取方法、***和计算机设备 - Google Patents
文本关键数据的提取方法、***和计算机设备 Download PDFInfo
- Publication number
- CN111814482A CN111814482A CN202010912996.9A CN202010912996A CN111814482A CN 111814482 A CN111814482 A CN 111814482A CN 202010912996 A CN202010912996 A CN 202010912996A CN 111814482 A CN111814482 A CN 111814482A
- Authority
- CN
- China
- Prior art keywords
- key
- text
- sentence
- extracting
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明例涉及人工智能领域,提供了一种文本关键数据的提取方法,所述方法包括:接收客户终端发送的原始文本;提取所述原始文本中的多个关键句;对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体;根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组;及对所述词组类型对所述多个关键词组进行拼接操作,以得到至少一个目标文本并将所述目标文本上传到区块链中。本发明通过将原本文本中的关键词进行结构化形成关键词组,并对关键词组进行拼接,提高了文本关键数据的提取速度和准确度。
Description
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种文本关键数据的提取方法、***、计算机设备及计算机可读存储介质。
背景技术
文本摘要是将长文本提炼成精简的句子或短语,以减少用户在阅读理解上所花费的时间。目前文本摘要主要是通过提取关键指标数据的方法进行摘要,例如,通过人为的方式制定摘要规则,以对长文本进行匹配、提取,以得到精简的句子或短语。但是这种方法需要不断地罗列规则去适配大量不同的句式,才能提取出文章中关键的指标数据;且需要事先设定好关键指标名称,而对于之前未提及过的指标,并不能通过自然语言的学习智能地识别出来。因此,如何使模型在快速提取出文本中关键的指标数据的情况下,进一步的提高模型提取关键指标数据准确度,成为了当前亟需解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种文本关键数据的提取方法、***、计算机设备及计算机可读存储介质,以解决在当前提取文本中关键的指标数据的速度慢的技术问题。
为实现上述目的,本发明实施例提供了一种文本关键数据的提取方法,所述方法步骤包括:
接收客户终端发送的原始文本;
提取所述原始文本中的多个关键句;
对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体;
根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组;
对所述词组类型对所述多个关键词组进行拼接操作,以得到至少一个目标文本;及
将所述目标文本发送到所述客户终端,并上传到区块链中。
示例性的,所述提取所述原始文本中的多个关键句,包括:
从所述原始文本中提取至少一个初始长句;
对每个初始长句进行分词操作,以得到多个初始词语;
对所述多个初始词语进行拼接,以得到多个初始短句;及
从所述多个初始短句确定多个关键句。
示例性的,所述从所述多个初始短句确定多个关键句,包括:从所述多个初始短句中选择多个不重复的初始短句,以得到多个关键句。
示例性的,所述根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组,包括:
对每个关键句进行分词操作,以得到多个关键分词,其中,每个关键分词对应一个命名实体;
根据每个关键分词对应的命名实体,对所述多个关键分词进行重组操作,以得到多个关键词组。
示例性的,所述对所述多个关键词组进行拼接操作,以得到至少一个目标文本,包括:
对所述多个关键词组进行分类,以确定每个关键词组对应的词组类型;
根据所述词组类型从所述多个关键词组中确定多个目标关键词组;及
对所述目标关键词组进行拼接操作,以得到至少一个目标文本。
示例性的,所述词组类型包括数据词组、指标词组和对象词组。
示例性的,所述将所述目标文本发送到所述客户终端,包括:将所述目标文本上传到区块链中。
为实现上述目的,本发明实施例还提供了一种文本关键数据的提取***,包括:
接收模块,用于接收客户终端发送的原始文本;
提取模块,用于提取所述原始文本中的多个关键句;
识别模块,用于对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体;
分词模块,用于根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组;
拼接模块,用于对所述多个关键词组进行拼接操作,以得到至少一个目标文本;及
将所述目标文本发送到所述客户终端,并上传到区块链中。
示例性的,所述提取模块,还用于:
从所述原始文本中提取至少一个初始长句;
对每个初始长句进行分词操作,以得到多个初始词语;
对所述多个初始词语进行拼接,以得到多个初始短句;及
从所述多个初始短句确定多个关键句。
示例性的,所述分词模块,还用于:
对每个关键句进行分词操作,以得到多个关键分词,其中,每个关键分词对应一个命名实体;及
根据每个关键分词对应的命名实体,对所述多个关键分词进行重组操作,以得到多个关键词组。
示例性的,所述拼接模块,还用于:
对所述多个关键词组进行分类,以确定每个关键词组对应的词组类型;
根据所述词组类型从所述多个关键词组中确定多个目标关键词组;及
对所述目标关键词组进行拼接操作,以得到至少一个目标文本。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的文本关键数据的提取方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的文本关键数据的提取方法的步骤。
本发明实施例提供的文本关键数据的提取方法、***、计算机设备及计算机可读存储介质,通过将原本文本中的关键词进行结构化形成关键词组,并对关键词组进行拼接,提高了文本关键数据的提取速度和准确度。
附图说明
图1为本发明实施例文本关键数据的提取方法的流程示意图。
图2为本发明实施例一中获取初始长句的流程示意图。
图3为本发明实施例一中获取关键句的流程示意图。
图4为本发明实施例一中获取关键句的流程示意图。
图5为本发明实施例一中获取关键句的实体命名的流程示意图。
图6为本发明实施例一中获取关键词组的流程示意图。
图7为本发明实施例一中根据关键句获取目标文本的流程示意图。
图8为本发明文本关键数据的提取***实施例二的程序模块示意图。
图9为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例中,将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例之文本关键数据的提取方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,接收客户终端发送的原始文本。
计算机设备2可以接收用户通过客户终端发送的原始文本。所述原始文本可以是专业类文本,如政务项目类文本。在一些实施例中,与客户终端相关联的用户可以通过所述客户终端将所述原始文本发送到计算机设备2中,通过的提取***从原始文本中快速提炼出关键信息,以减少用户在阅读理解上所花费的时间。
步骤S102,提取所述原始文本中的多个关键句。
每个关键句均为含有关键信息的句子。计算机设备2可以从所述原始文本中提取多个含有关键信息的句子。
在示例性的实施例中,所述步骤S102可以包括所述步骤S102a~S102d,其中:
步骤S102a,从所述原始文本中提取至少一个初始长句。
所述初始长句是从原始文本中提取出来的原始句子,该原始句子是未经过修改的句子。
在示例性的实施例中,计算机设备2可以通过二分类模型判断所述原始文本中是否有包含关键信息的句子,如果有则将所述包含关键信息的句子提取出来,以得到初始长句。
所述二分类模型为预先训练好的模型。所述二分类模型的训练可以通过训练文本对卷积神经网络(CNN)进行训练得到,所述训练文本包括多个含有关键信息的句子和多个不含关键信息的句子。其中,通过python自然语言工具包NLTK对预先获取的文章进行分句得到可以所述多个含有关键信息的句子和所述多个不含关键信息的句子。
步骤S102b,对每个初始长句进行分词操作,以得到多个初始词语。
计算机设备2可以通过分词工具对每个初始长句进行分词操作,例如,通过ICTCLAS分词器对初始长句“连续三年每年分别给予五十万元、三十万元、二十万元的补贴”进行分词操作,以得到多个“初始”、“词语”、“连续”、“三年”、“每年”、“分别”、“给予”、“五十”、“万元”、“三十”、“万元”、“二十”、“万元”、“的”以及“补贴”。
步骤S102c,对所述多个初始词语进行拼接,以得到多个初始短句。
计算机设备2可以将所述多个初始词语输入到循环神级网络,以通过所述循环神级网络对所述多个初始词语进行拼接,以得到多个初始短句。其中,所述循环神级网络可以提取每个初始词语的向量,以得到多个初始词向量,每个初始词向量对应一个初始词语;并根据所述多个初始词向量对所述多个初始词语进行拼接,以得到多个初始短句。
所述循环神经网络包括look-up层和RNN层,所述look-up层为所述循环神经网络的第一层,所述RNN层为所述循环神经网络的第二层,其中:
所述look-up层用于提取所述多个初始词语的词向量,例如,可以通过利用Word2Vec方法训练好的embedding矩阵将句子中的词语由one-hot向量映射为低维稠密的词向量,更好地获取词语的特征;并在输入下一层之前,设置dropout以缓解过拟合。
所述RNN层用于提取初始长句的特征,例如,将一个句子的词语的word embedding序列作为RNN的输入,经过RNN网络后理解句义,生成完整的句子。例如,“连续三年每年分别给予50万元、30万元、20万元的补贴”一句,只有“50万元”与“连续三年每年分别给予”关联,在此,应该生成“连续三年每年分别给予50万元、连续三年每年分别给予30万元、连续三年每年分别给予20万元的补贴”的完整句。
步骤S102d,从所述多个初始短句确定多个关键句。
示例性的,所述步骤S102d还可以进行一步的包括:从所述多个初始短句选择多个不重复的短句,以得到多个关键句。
不难理解,将初始词语拼接为初始短句,会出现重复的初始短句。所以如果在所述多个初始短句中出现了重复的初始短句,则重复的初始短句中只保留其中一个,以得到多个不重复的短句。
步骤S104,对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体。
所述命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,用于指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
在本实施例中,计算器设备2可以根据第一BiLSTM+CRF模型对每个关键句进行命名实体识别操作,以得到多个命名实体。所述第一BiLSTM+CRF模型为双向长短记忆+条件随机场(BiLSTM+CRF)模型。基于双向长短记忆+条件随机场(BiLSTM+CRF)模型等技术可以对每个关键句进行命名实体识别(NER)。所述双向长短记忆+条件随机场(BiLSTM+CRF)模型包括look-up层、双向LSTM层和CRF层,,所述look-up层为第一BiLSTM+CRF模型的第一层,所述双向LSTM层为第一BiLSTM+CRF模型的第二层,所述CRF层第一BiLSTM+CRF模型的第三层,其中:
所述look-up层用于将关键句中的词语映射为词向量,例如,可以通过预先训练好的embedding矩阵将关键句中的词语由one-hot向量映射为低维稠密的词向量,以获取词语的特征;并在输入下一层之前,设置dropout以缓解过拟合。
所述双向LSTM层用于提取关键句特征,例如,可以将一个句子的词语的wordembedding序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列。在设置dropout后,接入一个线性层,得到自动提取的关键句的命名实体特征,以及关键句中每个词语对应命名实体的概率值。
所述CRF层用于对命名实体后的关键句序列标注,以输出命名实体后的关键句。
步骤S106,根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组。
计算机设备2可以对根据所述多个命名实体对每个关键句进行分词操作,得到多个关键分词,并对所述多个关键分词进行重组,以得到多个关键词组。在一些实施例中,将所述多个关键句输入到第二BiLSTM+CRF模型中,以通过所述第二BiLSTM+CRF模型从多个关键句中提取出多个关键词组。
所述第二BiLSTM+CRF模型为双向长短记忆+条件随机场(BiLSTM+CRF)模型。继续以BiLSTM+CRF模型,从多个关键分词中取出具有摘要意义的关键词组。其中,具有摘要性意义的关键词组如“连续三年每年50万元”等,所述关键词组可以作为目标文本(数据、指标和对象)三元组的基础。
在示例性的实施例中,所述步骤S106可以包括所述步骤S106a~S106b,其中:
步骤S106a,对每个关键句进行分词操作,以得到多个关键分词,其中,每个关键分词对应一个命名实体。
计算机设备2可以通过分词工具对每个关键句进行分词操作,例如,通过ICTCLAS分词器对初始长句“连续三年每年分别给予五十万元”进行分词操作,以得到多个初始词语“连续”、“三年”、“每年”、“分别”、“给予”、“五十”、“万元”、“的”以及“补贴”。
步骤S106b,根据每个关键分词对应的命名实体,对所述多个关键分词进行重组操作,以得到多个关键词组。
所述命名实体可以包括时间、数字、人名、地名、机构名等,计算机设备2可以通过判断相邻的两个关键分词是否同属于同一种命名实体,如果相邻的关键分词属于同一种命名实体,这两个关键分词可以组成一个初始词组。例如,在“连续”、“三年”、“每年”、“分别”、“给予”、“五十”、“万元”、“的”以及“补贴”中,“连续”、“三年”以及“每年”可以组成“连续三年每年”的时间词组,“五十”和“万元”可以组成“五十万元”的数字词组等。
计算机设备2还可以根据初始词组的对应的词组类型对所述初始词组进行拼接,以得到多个关键词组。其中,所述词组类型包括数据词组、指标词组和对象词组。例如,时间词组“连续三年每年”和数字词组“五十万元”可以组成词组类型为数据词组的关键词组,“连续三年每年50万元”。
步骤S108,对所述多个关键词组进行拼接操作,以得到至少一个目标文本。
所述目标文本包括数据、指标和对象三个部分,即,数据、指标和对象三元组。一个目标文本中包括一个数据、一个指标和一个对象。计算机设备2可以从多个关键词组提取至少一组数据、指标和对象,并对提取到的数据、指标和对象进行拼接操作,以得到至少一个目标文本。另外,提取出的关键词组按序存于(数据,指标,对象)三元组中(每个三元组中每个类型的元素数量只能为1或0)。如此,即可抽取一句话中的一个或多个关键要素。
在示例性的实施例中,所述步骤S108可以包括步骤S108a~S108d,其中:
步骤S108a,对所述多个关键词组进行分类,以确定每个关键词组对应的词组类型;步骤S108b,根据所述词组类型从所述多个关键词组中确定多个目标关键词组;步骤S108c,对所述目标关键词组进行拼接操作,以得到至少一个目标文本;及步骤S108d,将所述目标文本发送到所述客户终端。
示例性的,所述词组类型包括数据词组、指标词组和对象词组。
计算机设备2可以将所述多个关键词组分类为数据词组、指标词组和对象词组,从词组类型中挑选一个或零个目标关键词组,并将挑选出来的目标关键词组进行拼接操作,以得到目标文本,并将所述目标文本发送到所述客户终端。
示例性的,所述步骤S108d还可以包括:将将所述目标文本上传到区块链中。
将目标文本上传至区块链可保证其安全性和公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例可以用于提取对政务项目类文本的关键指标数据及其对象。其中,提取关键指标数据及其对象的意思是,提取文本中的数据、指标和对象三个部分。通过数据、指标和对象三个部分可以快速确定政务项目类文本中一个数字(数据)大小,该数字代表什么(指标),以及这个数据属于什么主语(对象)。此外,还可以确保提取到的这个信息对全文是具有重要作用的。本实施可以有助于用户快速提炼文章的关键信息。较之传统的文本摘要将原始文本提炼成精简的句子或短语,本方法要做到的是直接将文章中关键的内容进行结构化,尽可能地减少用户在阅读理解上所花费的时间。
为了使得本发明更好容易理解,以下提供一个具体操作流程:
①预先训练一个二分类模型,所述二分类模型可以用于从原始文本中获取多个长文本,所述初始长句为包含有关键信息的句子。其中:1)从多个训练文本中获取多个训练分句。示例性的,预先获取多个训练文本,利用python自然语言工具包NLTK对训练文本进行分句处理,以得到多个训练分句。所述训练文本可以是预先获取的政务项目类文章。2)提取每个训练分句中的词语特征。示例性的,可以利用Word2Vec方法训练词向量,以提取每个训练分句中的训练词向量。3)对多个训练文本进行分类,以得到含有关键信息的训练文本和不含关键信息的训练文本;将含有关键信息的训练文本作为正例、不含关键信息的句子作为负例对预训练二分类模型进行训练,以得到二分类模型;所述二分类模型用于判断句子是否含有关键信息。示例性的,以句子为单位将所述多个训练分句对应的训练词向量,作为预训练二分类模型的输入。所述预训练二分类模型可以基于卷积神经网络(CNN)得到。所述CNN以训练好的词向量为基础,通过卷积的方式以n-gram的思路获取相邻词语的关联。
②将原始文本输入到所述二分类模型中,以得到多个初始长句。所述初始长句为包含有关键信息的句子。流程如图2所示。
③利用循环神经网络(RNN)语言生成模型对多个初始长句进行合理拼接补充以得到多个关键句。RNN模型通常用于预测给定之前所有词时当前词出现的概率,所以可以达到较好的语言生成效果。例如,在“连续三年每年分别给予50万元、30万元、20万元的补贴”句子(初始长句)中,只有“50万元”与“连续三年每年分别给予”关联,在此,应该生成“连续三年每年分别给予50万元、连续三年每年分别给予30万元、连续三年每年分别给予20万元的补贴”的完整句,还可以将所述完整句拆分为初始短句,例如,“连续三年每年分别给予50万元”、“连续三年每年分别给予30万元”、“连续三年每年分别给予20万元的补贴”,并从多个初始短句中获取多个关键句。其中:1)在循环神经网络(RNN)中,第一层是 look-up层,利用步骤①中预训练的embedding矩阵将句子中的词语由one-hot向量映射为低维稠密的词向量,更好地获取词语的特征。在输入下一层之前,设置dropout以缓解过拟合。2)第二层是RNN层,提取句子特征。将一个句子的词语的word embedding序列作为RNN的输入,经过RNN网络后理解句义,生成完整的句子。流程如图3和图4所示。
④对从步骤③中提取出来的每个关键句进行进一步分析。基于双向长短记忆+条件随机场(BiLSTM+CRF)等技术对每个关键句进行命名实体识别(NER),对句子进行合理分词,以得到多个关键词组,并识别每个词组所属词性。其中:1)在该网络中,第一层是look-up 层,利用步骤①中预训练的embedding矩阵将句子中的词语由one-hot向量映射为低维稠密的词向量,更好地获取词语的特征。在输入下一层之前,设置dropout以缓解过拟合。2)第二层是双向LSTM层,自动提取每个关键句特征。将一个每个关键句的词语的wordembedding序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列。在设置dropout后,接入一个线性层,得到自动提取的句子特征(词分类到该标签的打分值矩阵)。3)模型的第三层是CRF层,进行句子级的序列标注。以例2为例,该句应分词结果应为“连续三年每年”、“50万元”、“承担”、“国际标准化分技术委员会(SC)秘书处”等关键词组。如图5所示。
⑤继续以BiLSTM + CRF模型,提取关键句中具有摘要意义的关键词组。其中:1)在该网络中,以步骤④中词分类到该标签的打分值矩阵作为输入;2)模型的第三层是CRF层,进行句子级的序列标注。再以例2为例,该句中短词组应拼接为具有摘要性意义的词组如“承担国际标准化分技术委员会(SC)秘书处工作的机构”、“连续三年每年50万元”等,作为最终结果{数据,指标,对象}三元组的基础。如图6所示。
⑥将提取出的摘要词组按序存于{数据,指标,对象}三元组中(注:每个三元组中每个类型的元素数量只能为1或0)。如此,即可抽取一句话中的一个或多个关键要素。流程如图7所示。
改进后的方法使得开发人员不再需要制定各种各样的规则去适配不同的句式,便利了代码的维护;同时,业务人员也不用事先去罗列大量的重要指标,以供开发人员作为参考去提取。更重要的是,使用基于自然语言处理技术训练好的模型去提取关键指标数据的方法,在实际操作中具有更强的泛化性。这样的方法能够通过模型强大的学习能力对我们事先未知、但可能会有需要到的文本信息进行提取。
本专利的意义在于帮助用户快速提炼原始文本的关键信息。对于需要从大批量的文本提取信息的用户来说,自动的对文本关键指标数据结构化是一件非常有用而且重要的事情。这样的方法大大减少了这些用户在阅读理解上所花费的时间,降低了开发的成本,也为用户后续开发其他功能提供了基础。
实施例二
图8为本发明文本关键数据的提取***实施例二的程序模块示意图。文本关键数据的提取***20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述文本关键数据的提取方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述文本关键数据的提取***20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
接收模块200,用于接收客户终端发送的原始文本。
提取模块202,用于提取所述原始文本中的多个关键句。
示例性的,所述提取模块202,还可以用于:从所述原始文本中提取至少一个初始长句;对每个初始长句进行分词操作,以得到多个初始词语;对所述多个初始词语进行拼接,以得到多个初始短句;及从所述多个初始短句确定多个关键句。
识别模块204,用于对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体。
分词模块206,用于根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组。
示例性的,所述分词模块206,还用于:对每个关键句进行分词操作,以得到多个关键分词,其中,每个关键分词对应一个命名实体;及根据每个关键分词对应的命名实体,对所述多个关键分词进行重组操作,以得到多个关键词组。
拼接模块208,用于对所述多个关键词组进行拼接操作,以得到至少一个目标文本。
示例性的,所述拼接模块208,还用于:对所述多个关键词组进行分类,以确定每个关键词组对应的词组类型;根据所述词组类型从所述多个关键词组中确定多个目标关键词组;及对所述目标关键词组进行拼接操作,以得到至少一个目标文本。
本实施例可以用于提取对政务项目类文本的关键指标数据及其对象。其中,提取关键指标数据及其对象的意思是,提取文本中的数据、指标和对象三个部分。通过数据、指标和对象三个部分可以快速确定政务项目类文本中一个数字(数据)大小,该数字代表什么(指标),以及这个数据属于什么主语(对象)。此外,还可以确保提取到的这个信息对全文是具有重要作用的。本实施可以有助于用户快速提炼原始文本的关键信息。较之传统的文本摘要将初始长句提炼成精简的句子或短语,本方法要做到的是直接将原始文本中关键的内容进行结构化,尽可能地减少用户在阅读理解上所花费的时间。
实施例三
参阅图9,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过***总线相互通信连接存储器21、处理器22、网络接口23、以及文本关键数据的提取***20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作***和各类应用软件,例如实施例二的文本关键数据的提取***20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行文本关键数据的提取***20,以实现实施例一的文本关键数据的提取方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图9仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的文本关键数据的提取***20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图8示出了本发明实施例二之所述实现文本关键数据的提取***20的程序模块示意图,该实施例中,所述文本关键数据的提取***20可以被划分为接收模块200、提取模块202、识别模块204、分词模块206和拼接模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述文本关键数据的提取***20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于文本关键数据的提取***20,被处理器执行时实现实施例一的文本关键数据的提取方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本关键数据的提取方法,其特征在于,所述方法包括:
接收客户终端发送的原始文本;
提取所述原始文本中的多个关键句;
对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体;
根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组;及
对所述词组类型对所述多个关键词组进行拼接操作,以得到至少一个目标文本。
2.如权利要求1所述的文本关键数据的提取方法,其特征在于,所述提取所述原始文本中的多个关键句,包括:
从所述原始文本中提取至少一个初始长句;
对每个初始长句进行分词操作,以得到多个初始词语;
对所述多个初始词语进行拼接,以得到多个初始短句;及
从所述多个初始短句确定多个关键句。
3.如权利要求2所述的文本关键数据的提取方法,其特征在于,所述从所述多个初始短句确定多个关键句,包括:从所述多个初始短句中选择多个不重复的初始短句,以得到多个关键句。
4.如权利要求1所述的文本关键数据的提取方法,其特征在于,所述根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组,包括:
对每个关键句进行分词操作,以得到多个关键分词,其中,每个关键分词对应一个命名实体;
根据每个关键分词对应的命名实体,对所述多个关键分词进行重组操作,以得到多个关键词组。
5.如权利要求1所述的文本关键数据的提取方法,其特征在于,所述对所述多个关键词组进行拼接操作,以得到至少一个目标文本,包括:
对所述多个关键词组进行分类,以确定每个关键词组对应的词组类型;
根据所述词组类型从所述多个关键词组中确定多个目标关键词组;
对所述目标关键词组进行拼接操作,以得到至少一个目标文本;及
将所述目标文本发送到所述客户终端。
6.如权利要求5所述的文本关键数据的提取方法,其特征在于,所述词组类型包括数据词组、指标词组和对象词组。
7.如权利要求5所述的文本关键数据的提取方法,其特征在于,所述将所述目标文本发送到所述客户终端,包括:将所述目标文本上传到区块链中。
8.一种文本关键数据的提取***,其特征在于,包括:
接收模块,用于接收客户终端发送的原始文本;
提取模块,用于提取所述原始文本中的多个关键句;
识别模块,用于对每个关键句进行命名实体识别,以得到所述多个命名实体,其中,每个关键句对应的至少一个命名实体;
分词模块,用于根据所述多个命名实体对所述多个关键句进行分词操作,以得到多个关键词组;及
拼接模块,用于对所述多个关键词组进行拼接操作,以得到至少一个目标文本。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本关键数据的提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的文本关键数据的提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010912996.9A CN111814482B (zh) | 2020-09-03 | 2020-09-03 | 文本关键数据的提取方法、***和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010912996.9A CN111814482B (zh) | 2020-09-03 | 2020-09-03 | 文本关键数据的提取方法、***和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814482A true CN111814482A (zh) | 2020-10-23 |
CN111814482B CN111814482B (zh) | 2020-12-11 |
Family
ID=72859906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010912996.9A Active CN111814482B (zh) | 2020-09-03 | 2020-09-03 | 文本关键数据的提取方法、***和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814482B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307175A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112668321A (zh) * | 2020-12-29 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 关键词提取方法及装置、电子设备、存储介质 |
CN113779259A (zh) * | 2021-11-15 | 2021-12-10 | 太平金融科技服务(上海)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN114138928A (zh) * | 2021-09-27 | 2022-03-04 | 平安国际智慧城市科技股份有限公司 | 文本内容提取的方法、***、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694160A (zh) * | 2018-05-15 | 2018-10-23 | 北京三快在线科技有限公司 | 文章生成方法、设备及存储介质 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109918657A (zh) * | 2019-02-28 | 2019-06-21 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
CN110134792A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110737768A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达***工程股份有限公司 | 基于深度学习的文本摘要自动生成方法及装置、存储介质 |
-
2020
- 2020-09-03 CN CN202010912996.9A patent/CN111814482B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694160A (zh) * | 2018-05-15 | 2018-10-23 | 北京三快在线科技有限公司 | 文章生成方法、设备及存储介质 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109918657A (zh) * | 2019-02-28 | 2019-06-21 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
CN110134792A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110737768A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达***工程股份有限公司 | 基于深度学习的文本摘要自动生成方法及装置、存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307175A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112307175B (zh) * | 2020-12-02 | 2021-11-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112668321A (zh) * | 2020-12-29 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 关键词提取方法及装置、电子设备、存储介质 |
CN112668321B (zh) * | 2020-12-29 | 2023-11-07 | 竹间智能科技(上海)有限公司 | 关键词提取方法及装置、电子设备、存储介质 |
CN114138928A (zh) * | 2021-09-27 | 2022-03-04 | 平安国际智慧城市科技股份有限公司 | 文本内容提取的方法、***、装置、电子设备及介质 |
CN113779259A (zh) * | 2021-11-15 | 2021-12-10 | 太平金融科技服务(上海)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111814482B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814482B (zh) | 文本关键数据的提取方法、***和计算机设备 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN111783471A (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其*** | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN114842982A (zh) | 一种面向医疗信息***的知识表达方法、装置及*** | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN115169370A (zh) | 语料数据增强方法、装置、计算机设备及介质 | |
CN115115432A (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN114691716A (zh) | Sql语句转换方法、装置、设备及计算机可读存储介质 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN114117047A (zh) | 一种基于c4.5算法对非法语音进行分类的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |