CN113722436A - 文本信息提取方法、装置、计算机设备及存储介质 - Google Patents
文本信息提取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113722436A CN113722436A CN202111007458.6A CN202111007458A CN113722436A CN 113722436 A CN113722436 A CN 113722436A CN 202111007458 A CN202111007458 A CN 202111007458A CN 113722436 A CN113722436 A CN 113722436A
- Authority
- CN
- China
- Prior art keywords
- word vector
- text
- determined
- initial
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了文本信息提取方法、装置、计算机设备及存储介质,涉及人工智能技术领域,可以提高文本信息提取的准确性。其中方法包括:通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组;利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量;根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量;根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。本申请适用于数据集中目标文本的提取。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及文本信息提取方法、装置、计算机设备及存储介质。
背景技术
文本信息提取作为从文本数据中提取特定信息的一种技术,伴随人工智能等学科的发展,正向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。目前广泛应用的文本信息提取方式有,基于正则表达式,由人工设立的过滤或者匹配规则,对文本进行提取的正则规则方式;利用命名实体识别NER模型,通过设定提取任务进行处理的方式;以及,对文本中单个字词进行预测的其他主流方式。
现有技术中,正则规则方式存在依赖人工规则的问题,当面临复杂的语句环境、语义不完整的文本时,无法完备地提取文本信息;NER模型识别容易产生过拟合,当面临包含新语料信息的文本时,提取的准确性大幅下降;以及提取孤立文本中的字词等,导致文本信息提取的准确性较低。
发明内容
有鉴于此,本申请提供了文本信息提取方法、装置、计算机设备及存储介质。主要目的在于解决现有技术中,正则规则方式存在依赖人工规则的问题,且当面临复杂的语句环境、语义不完整的文本时,文本提取存在局限性;NER模型识别易产生过拟合,且当面临包含新语料信息的文本时,文本提取准确性较低;以及,提取孤立文本中的字词导致文本提取的准确性较低的技术问题。
根据本申请的一个方面,提供了一种文本信息提取方法,该方法包括:
通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组;
利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量;
根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量;
根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。
根据本申请的另一方面,提供了一种文本信息提取装置,该装置包括:
语句识别模块,用于通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组;
第一位置预测模块,用于利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量;
第二位置预测模块,用于根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量;
确定模块,用于根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本信息提取方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本信息提取方法。
借由上述技术方案,本申请提供的文本信息提取方法、装置、计算机设备及存储介质,与现有基于正则规则、NER模型识别等主流方式的文本信息提取方案相比,本申请通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组;利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量;根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量;根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。可见,通过预先训练好的文本信息提取网络模型能够有效避免现有正则规则方式的人工规则依赖性较强,且无法完备地提取复杂或不完整的文本信息;NER模型识别易产生过拟合,且当面临包含新语料信息的文本时,文本提取准确性较低;以及,其他主流方式提取孤立文本中的字词导致文本提取准确性较低的技术问题,从而有效提高文本信息提取的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文本信息提取方法的流程示意图;
图2示出了本申请实施例提供另一种文本信息提取方法的流程示意图;
图3示出了本申请实施例提供的训练阶段的文本提取网络模型架构示意图;
图4示出了本申请实施例提供的一种的文本信息提取装置的结构示意图;
图5示出了本申请实施例提供的另一种文本信息提取装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(AI:Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
针对现有技术中正则规则方式,NER模型识别方式,以及其他主流方式存在的文本信息提取准确性较低的技术问题,以正则规则方式为例,在数据集引用的上下文中,对于其他文本信息的引用通常会以较高频率出现“Survey”、“Data”、“Study”、“Database”、“Statistics”等字词,且所用词汇会以大写开头。正则规则方式通过对匹配出的引用信息过滤,进一步实现对文本信息的提取,但正则规则方式过于简单,且文本提取性能取决于人工规则的指定,文本提取效果相对较差。基于此,本实施例提供了一种文本信息提取方法,如图1所示,以该方法应用于服务器等计算机设备为例进行说明,其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN:Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,如智能医疗***、数字医疗平台等。上述方法包括以下步骤:
步骤S101、通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组。
在本实施例中,为了便于文本提取网络模型对文本信息的处理,对待提取文本段落字词进行分词处理,并按照预设序列长度,对分词后的文本段落进行划分,得到一个或多个包含完整语句的初始数据序列,并对初始数据序列进行词向量转换处理,得到初始词向量组。具体地,对文本段落以语句为单位进行划分,小于预设序列长度的文本段落进行补齐处理。
本申请的示例性实施例中,对分词后的文本段落按512字词进行划分,能够增强文本提取网络模型对长文本的提取能力,进一步地,以语句为单位进行划分,能够有效避免文本段落划分过程中,将一个完整语句划分到不同的数据序列中,进而影响文本提取网络模型对上下文语义提取的准确性的问题。
根据实际应用场景的需要,例如,百科问答的响应事件,根据用户输入的问题信息和获取到的目标文本段落进行拼接处理,得到包含问题信息的待提取文本段落,根据包含问题信息的待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组,从而进一步预测该待提取文本段落中的开始词向量位置,以及结束词向量位置,由于补入用户的问题信息,使得提取到的文本信息更加准确。
步骤S102、利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量。
在本实施例中,利用预先训练好的文本提取网络模型中的预训练模块(GPT:Generative Pre-training),使初始词向量组中每个词向量学习其他词向量的语义信息,得到包含上下文语义信息的第一词向量组;进一步,利用第一位置预测模块,获取第一词向量组内每个词向量的起始位置预测概率值,通过遍历确定第一词向量组内K个起始位置预测概率值最大的待确定起始词向量。
本申请的示例性实施例中,预训练模型GPT采用多层Transformer架构,其中的自注意力机制self-attention使每个词向量在经过多层的学习后,能够提取除自身特征外的语法,句法及其他深层次的语义信息,建立每个词向量在初始词向量组中的上下文联系,从而提高文本提取网络模型对文本信息提取的准确性。
步骤S103、根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量。
在本实施例中,为进一步提高词向量起始和结束位置预测的准确性,借助预测得到的词向量起始位置信息对词向量结束位置进行预测。具体为,将K个待确定起始词向量分别与初始词向量组进行向量拼接处理,得到K个用于输入第二位置预测模块的拼接词向量组。利用第二位置预测模块获取拼接词向量组内对应每个待确定起始词向量的结束位置预测概率值,通过遍历确定拼接词向量组内对应每个待确定起始词向量的N个结束位置预测概率值最大的待确定结束词向量。其中,K与N可以根据实际应用场景的需求设定为相等或不相等。
步骤S104、根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。
在本实施例中,根据每个待确定起始词向量,以及分别对应的N个结束位置预测概率值最大的待确定结束词向量,得到K*N个初始提取文本组合,进一步确定K*N个初始提取文本组合中满足预设条件的待确定提取文本组合,并根据待确定提取文本组合中每个待确定起始词向量的起始位置预测概率值,与其对应的多个待确定结束词向量的结束位置预测概率值,通过乘积计算确定最大乘积值对应的起始词向量为目标起始词向量,以及其对应的结束词向量为目标结束词向量,从而得到目标提取文本。
对于本实施例可以按照上述方案,将通过语句识别得到的待提取文本段落的初始词向量组输入预先训练好的文本提取网络模型,预测该初始词向量组中的多个待确定起始词向量,根据多个待确定起始词向量和初始词向量组,预测每个待确定起始词向量对应的多个待确定结束词向量,从而根据预测得到的多个待确定起始词向量,以及每个待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。与现有正则规则方式,NER模型识别方式,以及其他主流方式的技术方案相比,本实施例能够基于起始词向量和初始词向量组提升文本提取网络模型的提取准确性,从而更加准确地提取文本段落中的目标文本。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种文本信息提取方法,如图2所示,该方法包括:
步骤S201、训练初始文本提取网络模型。
具体地,如图3所示,为提升文本信息提取的准确性,所构建的初始文本提取网络模型包括串行的第一位置预测模块和第二位置预测模块,即span模块,分别用于实现对目标提取文本的起始位置和结束位置的预测;在第一位置预测模型的输入端增设预训练模块GPT,用于获取每个词向量的上下文语义信息;在模型训练阶段,通过增设修正模块,使文本提取网络模型训练得到模型参数的更新更容易趋于稳定。
为了说明步骤201的具体实施方式,作为一种优选实施例,步骤201具体可以包括:根据训练样本中起始位置序号和结束位置序号对应的位置标签,训练所述初始文本提取网络模型;当监测到所述初始文本提取网络模型中的第一损失函数的当前损失值下降至初始损失值的预设百分比时,得到第一阶段文本提取网络模型;利用所述第一损失函数和预先设定的修正模块对应的第二损失函数,根据忽略所述位置标签的训练样本,对所述第一阶段文本提取网络模型进行二次训练,得到训练好的文本提取网络模型。中,修正模块用于辅助训练所述第一阶段文本提取网络模型中的第一位置预测模块和第二位置预测模块。
对构建的初始文本提取网络模型进行训练的具体步骤包括:
1)获取一段文本段落作为训练样本,预设该训练样本中用于提取的标记文本序列为[w100,w101,w102,w103],其中w100对应引用的目标起始位置,w103对应引用的目标结束位置。
2)对训练样本进行分词处理,英文采用空格进行分词,中文采用百度公开的分词工具jieba进行分词,得到分词后的文本段落。
3)将分词后的文本段落按照预设的序列长度进行划分,得到一组或多组包含完整语句的初始数据序列。具体地,设定序列长度为512个字词,长度小于512个字词的文本段落进行补齐,以建立一组包含完整语句的初始数据序列;大于512个字词的文本段落基于完整语句进行截断,截断后对不足512个字词的部分进行补齐,以建立一组包含完整语句的初始数据序列,将截断后剩下的文本段落作为一段新的文本段落继续进行划分,直至划分结束,得到多组包含完整语句的初始数据序列。
4)利用训练好的word2vec或者GloVe词向量模块,将初始数据序列中的每个字词转化为词向量,得到初始词向量组,表示为[w1,w2,…w512]。
5)利用初始文本提取网络模型中的GPT模块,对初始词向量组中的每个字词进行语义特征提取,得到包含上下文语义的第一词向量组,表示为[h1,h2,…h512]。具体地,GPT模型采用多层Transformer架构,在Transformer每一层中都包含自注意力机制self-attention,该机制可以使[w1,w2,…w512]中的每个字词对其他位置的字词做特征信息提取,并将提取到的特征信息用于对自身向量的更新,以获取其他字词与自身的深层次关系,即初始词向量组中的每个词向量在经过多层学习后,得到包含初始词向量组内其他所有位置字词信息的语法、句法及其他深层次语义信息的词向量,从而得到包含上下文语义的第一词向量组[h1,h2,…h512]。
6)将第一词向量组[h1,h2,…h512]输入初始文本提取网络模型中的第一位置预测模块(span模块),输出目标起始位置处起始词向量h100的起始位置预测概率值。
7)将表征目标起始位置处第一词向量h100分别与第一词向量组中的每一个词向量进行拼接处理,得到拼接词向量组,表示为[h100+h1,h100+h2,…h100+h512]。
8)将拼接词向量组输入初始文本提取网络模型中的第二位置预测模块,输出目标结束位置处结束词向量h103的结束位置预测概率值,其中,第一位置预测模块与第二位置预测模块相同。可选地,第一位置预测模块,第二位置预测模块可以是两个位置预测模块,也可以是一个位置预测模块,依次输出起始词向量,结束词向量的位置预测概率值,此处不对位置预测模块做具体限定。
9)在训练过程中,以目标起始位置与目标结束位置的位置预测概率值的乘积最大为目标,若监测到位置预测模块的第一损失函数L1的当前损失值下降至初始损失值的30%,则将目标开始位置和目标结束位置设置为空,并利用多任务学习框架进行二次训练,得到训练好的文本提取网络模型。其中,多任务学习框架为利用修正模块辅助训练位置预测模块,即将第一损失函数L1的当前损失值Lm下降至初始损失值的30%时,得到第一阶段文本提取网络模型,根据修正模块对应的第二损失函数L2和第一损失函数L1继续训练第一阶段文本提取网络模型,得到第二阶段文本提取网络模型并作为训练好的文本提取网络模型。具体为:
①将包含上下文语义的第一词向量组[h1,h2,…h512]重新输入第一阶段文本提取网络模型中的第一位置预测模块,输出每个第一词向量的起始位置预测概率值,取K个起始位置预测概率值最大的词向量作为待确定起始词向量;针对每个待确定起始词向量,将其分别与第一词向量组中的每个词向量进行拼接处理,得到拼接词向量组;通过第一阶段文本提取网络模型中的第二位置预测模块,得到对应每个待确定起始词向量的每个词向量的结束位置预测概率值,取N个结束位置预测概率值最大的词向量作为待确定结束词向量;根据K个待确定起始词向量,以及每个待确定起始词向量分别对应的N个待确定结束词向量,建立K*N个初始提取文本组合。
位置预测模块用于计算词向量的位置预测概率值,其计算公式为:
p=S(Wx+b)
其中,W为权重,b为偏置值,是通过模型训练、学习不断更新的网络模型参数,s代表sigmoid函数,表达式如下:
②将包含上下文语义的第一词向量组[h1,h2,…h512]同步输入修正模块,用于直接提取文本信息,即通过不断预测下一位置字词的方式实现长文本提取,具体结构为一个全连接层加一个softmax层,即P=softmax(wx+b),其中x为包含上下文语义的词向量组[h1,h2,…h512],利用softmax层预测每个下一位置字词的位置概率值,输出和为1的数字向量。
③根据目标损失函数L对①和②的输出结果进行迭代训练,直至训练结束,得到训练好的文本提取网络模型。具体为:模型训练最多迭代次数为N轮,N默认为10000,用户可自定义。目标损失函数定义为L=L1+L2,损失函数L1用于计算目标开始位置和目标结束位置的负对数,公式如下:
其中,P开始位置表示第一位置预测模块输出的目标起始位置对应的词向量的位置预测概率值;P结束位置表示第二位置预测模块输出的目标结束位置对应的词向量的位置预测概率值;M为预设词汇表大小,设定为50000个词向量;yhc表示当前词向量h索引c处的维度值为1,其他为0,0<c<M;phc表示当前词向量h为c处的概率,即上述softmax层处理后数字向量第c维对应的值。
通过补入修正模块的方式实现多任务训练,能够更加贴近于文本提取的实际场景,同时在训练过程中置空文本提取位置处的向量标记会导致模型的损失值骤增,增加学习难度,模型最终无法收敛,通过补入修正模块的方式对模型的第一损失函数进行辅助修正,使得模型参数的更新更加稳定,需要说明的是,在文本提取的实际应用中,训练好的文本提取网络模型中不包括修正模块,修正模块仅用于进一步优化位置预测模块中的模型参数。
在PyTorch架构中,以损失函数L最小化为目标,利用随机梯度下降算法SGD对初始文本提取网络模型中的网络模型参数W,b进行迭代更新,得到训练好的文本提取网络模型。具体为,在模型训练过程中,若相邻两次训练得到的Lm和Lm+1的差值小于设定值,即Lm-Lm+1<0.01,则认为模型已收敛,判定训练结束,得到训练好的文本提取网络模型。
步骤S202、对所述待提取文本段落进行分词处理,得到分词处理后的文本段落。
步骤S203、按照预设的序列长度,得到包含完整语句的初始数据序列。
步骤S204、对所述初始数据序列进行词向量转换处理,得到初始词向量组。
步骤S205、根据所述初始词向量组,利用所述预先训练好的文本提取网络模型中的预训练模块,得到包含上下文语义信息的第一词向量组。
步骤S206、利用所述预先训练好的文本提取网络模型中的第一位置预测模块,根据所述第一词向量组中每个词向量的起始位置预测概率值,得到所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量。
步骤S207、针对每个待确定起始词向量,对所述待确定起始词向量和所述初始词向量组进行拼接处理,得到拼接词向量组。
为了说明步骤207的具体实施方式,作为一种优选实施例,步骤207具体可以包括:将所述待确定起始词向量分别与所述初始词向量组内的每个词向量进行拼接处理,得到拼接词向量组。
步骤S208、利用所述预先训练好的文本提取网络模型中的第二位置预测模块,根据拼接词向量组中每个词向量的结束位置预测概率值,得到所述拼接词向量组中用于表征文本提取结束位置的多个待确定结束词向量。
步骤S209、根据预测得的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定初始提取文本组合。
步骤S210、获取所述初始提取文本组合中满足预设条件的待确定提取文本组合。其中,所述预设条件至少包括:待确定结束词向量对应的结束位置序号与待确定起始词向量的起始位置序号的差值大于设定阈值。
在本实施例中,不同于文本提取网络模型训练过程,在获取到K*N个初始提取文本组合后,根据预设条件确定K*N个初始提取文本组合中满足预设条件的待确定提取文本组合,预设条件为,待确定提取文本组合中待确定结束词向量对应的结束位置序号大于待确定起始词向量的起始位置序号,且结束位置序号与起始位置序号的差值大于设定阈值(例如,2),此处不对预设条件进行具体限定。
步骤S211、根据所述待确定提取文本组合中每个所述待确定起始词向量的起始位置预测概率值,分别与每个所述待确定起始词向量对应的多个待确定结束词向量的结束位置预测概率值的概率乘积值,确定目标起始词向量及其对应的目标结束词向量。
在本实施例中,将所述待确定提取文本组合中每个待确定起始词向量的起始位置预测概率值,分别与其对应的N个待确定结束词向量的结束位置预测概率值进行乘积处理,通过遍历每个概率乘积值,将概率乘积值最大的提取文本组合确定目标起始词向量及其对应的目标结束词向量。
步骤S212、根据所述目标起始词向量对应的起始位置序号和所述目标结束词向量对应的结束位置序号,得到目标提取文本。
通过应用本实施例的技术方案,将通过语句识别得到的待提取文本段落的初始词向量组输入预先训练好的文本提取网络模型,预测该初始词向量组中的多个待确定起始词向量,根据多个待确定起始词向量和初始词向量组,预测每个待确定起始词向量对应的多个待确定结束词向量,从而根据预测得到的多个待确定起始词向量,以及每个待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。可见,通过预先训练好的文本信息提取网络模型能够有效避免现有正则规则方式的人工规则依赖性较强,且无法完备地提取复杂或不完整的文本信息;NER模型识别易产生过拟合,且当面临包含新语料信息的文本时,文本提取准确性较低;以及,其他主流方式提取孤立文本中的字词导致文本提取准确性较低的技术问题,从而有效提高文本信息提取的准确性。
进一步地,作为图1方法的具体实现,本申请实施例提供了一种文本信息提取装置,如图4所示,该装置包括:语句识别模块32、第一位置预测模块33,第二位置预测模块34,确定模块35。
语句识别模块32,可以用于通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组。
第一位置预测模块33,可以用于利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量。
第二位置预测模块34,可以用于根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量。
确定模块35,可以用于根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。
在具体的应用场景中,如图5所示,还包括模型训练模块31。
在具体的应用场景中,语句识别模块32包括分词处理单元321、分组划分单元322、词向量转化单元323。
分词处理单元321,可以用于对所述待提取文本段落进行分词处理,得到分词处理后的文本段落。
分组划分单元322,可以用于按照预设的序列长度,得到包含完整语句的初始数据序列。
词向量转化单元323,可以用于对所述初始数据序列进行词向量转换处理,得到初始词向量组。
在具体的应用场景中,第一位置预测模块33包括预训练单元331、起始位置预测单元332。
预训练单元331,可以用于根据所述初始词向量组,利用所述预先训练好的文本提取网络模型中的预训练模块,得到包含上下文语义信息的第一词向量组。
起始位置预测单元332,可以用于利用所述预先训练好的文本提取网络模型中的第一位置预测模块,根据所述第一词向量组中每个词向量的起始位置预测概率值,得到所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量。
在具体的应用场景中,第二位置预测模块34包括向量拼接单元341、结束位置预测单元342。
向量拼接单元341,可以用于针对每个待确定起始词向量,对所述待确定起始词向量和所述初始词向量组进行拼接处理,得到拼接词向量组。
结束位置预测单元342,可以用于利用所述预先训练好的文本提取网络模型中的第二位置预测模块,根据拼接词向量组中每个词向量的结束位置预测概率值,得到所述拼接词向量组中用于表征文本提取结束位置的多个待确定结束词向量。
在具体的应用场景中,确定模块35包括组合确定单元351、预设条件单元352、概率判定单元353、文本提取单元354。
组合确定单元351,可以用于根据预测得的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定初始提取文本组合。
预设条件单元352,可以用于获取所述初始提取文本组合中满足预设条件的待确定提取文本组合;其中,所述预设条件至少包括:待确定结束词向量对应的结束位置序号与待确定起始词向量的起始位置序号的差值大于设定阈值。
概率值判定单元353,可以用于根据所述待确定提取文本组合中每个所述待确定起始词向量的起始位置预测概率值,分别与每个所述待确定起始词向量对应的多个待确定结束词向量的结束位置预测概率值的概率乘积值,确定目标起始词向量及其对应的目标结束词向量。
文本提取单元354,可以用于根据所述目标起始词向量对应的起始位置序号和所述目标结束词向量对应的结束位置序号,得到目标提取文本。
在具体的应用场景中,模型训练模块31,可以用于训练初始文本提取网络模型。模型训练模块31包括第一阶段训练单元311、训练监测单元312、第二阶段训练单元313。
第一阶段训练单元311,可以用于根据训练样本中起始位置序号和结束位置序号对应的位置标签,训练所述初始文本提取网络模型。
训练监测单元312,可以用于当监测到所述初始文本提取网络模型中的第一损失函数的当前损失值下降至初始损失值的预设百分比时,得到第一阶段文本提取网络模型。
第二阶段训练单元313,可以用于利用所述第一损失函数和预先设定的修正模块对应的第二损失函数,根据忽略所述位置标签的训练样本,对所述第一阶段文本提取网络模型进行二次训练,得到训练好的文本提取网络模型。
在具体的应用场景中,所述修正模块用于辅助训练所述第一阶段文本提取网络模型中的第一位置预测模块和第二位置预测模块。
需要说明的是,本申请实施例提供的一种文本信息提取装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2的文本信息提取方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图4、图5所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本信息提取方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作***、网络通信模块。操作***是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与现有基于正则规则的文本信息提取方案相比,本实施例能够利用训练好的文本提取网络模型,有效避免现有技术方案依赖人工规则,准确率低,效率低的技术问题,同时解决了仅预测文章中每个字是不是引用,无法在字与字之间建立必要联系的问题,从而提高文本提取的灵活性和适应性,有效提升文本信息提取的准确度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种文本信息提取方法,其特征在于,包括:
通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组;
利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量;
根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量;
根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。
2.根据权利要求1所述的方法,其特征在于,所述通过对待提取文本段落进行语句识别,得到待提取文本的初始词向量组,具体包括:
对所述待提取文本段落进行分词处理,得到分词处理后的文本段落;
按照预设的序列长度,得到包含完整语句的初始数据序列;
对所述初始数据序列进行词向量转换处理,得到初始词向量组。
3.根据权利要求1所述的方法,其特征在于,所述利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量,具体包括:
根据所述初始词向量组,利用所述预先训练好的文本提取网络模型中的预训练模块,得到包含上下文语义信息的第一词向量组;
利用所述预先训练好的文本提取网络模型中的第一位置预测模块,根据所述第一词向量组中每个词向量的起始位置预测概率值,得到所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量。
4.根据权利要求1或3所述的方法,其特征在于,所述根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量,具体包括:
针对每个待确定起始词向量,对所述待确定起始词向量和所述初始词向量组进行拼接处理,得到拼接词向量组;
利用所述预先训练好的文本提取网络模型中的第二位置预测模块,根据拼接词向量组中每个词向量的结束位置预测概率值,得到所述拼接词向量组中用于表征文本提取结束位置的多个待确定结束词向量;
所述对所述待确定起始词向量和所述初始词向量组进行拼接处理,得到拼接词向量组,具体包括:
将所述待确定起始词向量分别与所述初始词向量组内的每个词向量进行拼接处理,得到拼接词向量组。
5.根据权利要求1或4所述的方法,其特征在于,所述根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本,具体包括:
根据预测得的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定初始提取文本组合;
获取所述初始提取文本组合中满足预设条件的待确定提取文本组合;
根据所述待确定提取文本组合中每个所述待确定起始词向量的起始位置预测概率值,分别与每个所述待确定起始词向量对应的多个待确定结束词向量的结束位置预测概率值的概率乘积值,确定目标起始词向量及其对应的目标结束词向量;
根据所述目标起始词向量对应的起始位置序号和所述目标结束词向量对应的结束位置序号,得到目标提取文本;
其中,所述预设条件至少包括:待确定结束词向量对应的结束位置序号与待确定起始词向量的起始位置序号的差值大于设定阈值。
6.根据权利要求1所述的方法,其特征在于,还包括:
训练初始文本提取网络模型,具体包括:
根据训练样本中起始位置序号和结束位置序号对应的位置标签,训练所述初始文本提取网络模型;
当监测到所述初始文本提取网络模型中的第一损失函数的当前损失值下降至初始损失值的预设百分比时,得到第一阶段文本提取网络模型;
利用所述第一损失函数和预先设定的修正模块对应的第二损失函数,根据忽略所述位置标签的训练样本,对所述第一阶段文本提取网络模型进行二次训练,得到训练好的文本提取网络模型。
7.根据权利要求6所述的方法,其特征在于,所述修正模块用于辅助训练所述第一阶段文本提取网络模型中的第一位置预测模块和第二位置预测模块。
8.一种文本信息提取装置,其特征在于,包括:
语句识别模块,用于通过对待提取文本段落进行语句识别,得到待提取文本段落的初始词向量组;
第一位置预测模块,用于利用预先训练好的文本提取网络模型,预测所述初始词向量组中用于表征文本提取开始位置的多个待确定起始词向量;
第二位置预测模块,用于根据多个所述待确定起始词向量和所述初始词向量组,预测所述初始词向量组中每个所述待确定起始词向量对应的多个待确定结束词向量;
确定模块,用于根据预测得到的多个待确定起始词向量,以及每个所述待确定起始词向量对应的多个待确定结束词向量,确定目标提取文本。
9.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的文本信息提取方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的文本信息提取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111007458.6A CN113722436A (zh) | 2021-08-30 | 2021-08-30 | 文本信息提取方法、装置、计算机设备及存储介质 |
PCT/CN2022/071444 WO2023029354A1 (zh) | 2021-08-30 | 2022-01-11 | 文本信息提取方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111007458.6A CN113722436A (zh) | 2021-08-30 | 2021-08-30 | 文本信息提取方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113722436A true CN113722436A (zh) | 2021-11-30 |
Family
ID=78679376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111007458.6A Pending CN113722436A (zh) | 2021-08-30 | 2021-08-30 | 文本信息提取方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113722436A (zh) |
WO (1) | WO2023029354A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023029354A1 (zh) * | 2021-08-30 | 2023-03-09 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、存储介质及计算机设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016416B (zh) * | 2023-03-24 | 2023-08-04 | 深圳市明源云科技有限公司 | 垃圾邮件识别方法、装置、设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674271A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种问答处理方法及装置 |
CN111597314A (zh) * | 2020-04-20 | 2020-08-28 | 科大讯飞股份有限公司 | 推理问答方法、装置以及设备 |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
CN112464656A (zh) * | 2020-11-30 | 2021-03-09 | 科大讯飞股份有限公司 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112685548A (zh) * | 2020-12-31 | 2021-04-20 | 中科讯飞互联(北京)信息科技有限公司 | 问题回答方法以及电子设备、存储装置 |
CN113255327A (zh) * | 2021-06-10 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259663B (zh) * | 2020-01-14 | 2023-05-26 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN112464641B (zh) * | 2020-10-29 | 2023-01-03 | 平安科技(深圳)有限公司 | 基于bert的机器阅读理解方法、装置、设备及存储介质 |
CN113051926B (zh) * | 2021-03-01 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
CN113268571A (zh) * | 2021-07-21 | 2021-08-17 | 北京明略软件***有限公司 | 一种确定段落中正确答案位置的方法、装置、设备及介质 |
CN113722436A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、计算机设备及存储介质 |
-
2021
- 2021-08-30 CN CN202111007458.6A patent/CN113722436A/zh active Pending
-
2022
- 2022-01-11 WO PCT/CN2022/071444 patent/WO2023029354A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674271A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种问答处理方法及装置 |
CN111597314A (zh) * | 2020-04-20 | 2020-08-28 | 科大讯飞股份有限公司 | 推理问答方法、装置以及设备 |
CN112464656A (zh) * | 2020-11-30 | 2021-03-09 | 科大讯飞股份有限公司 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112685548A (zh) * | 2020-12-31 | 2021-04-20 | 中科讯飞互联(北京)信息科技有限公司 | 问题回答方法以及电子设备、存储装置 |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
CN113255327A (zh) * | 2021-06-10 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023029354A1 (zh) * | 2021-08-30 | 2023-03-09 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2023029354A1 (zh) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
CN107168952B (zh) | 基于人工智能的信息生成方法和装置 | |
CN109284399B (zh) | 相似度预测模型训练方法、设备及计算机可读存储介质 | |
CN107066449A (zh) | 信息推送方法和装置 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN109086303A (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
WO2023029354A1 (zh) | 文本信息提取方法、装置、存储介质及计算机设备 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN115309915B (zh) | 知识图谱构建方法、装置、设备和存储介质 | |
CN113836268A (zh) | 文档理解方法及装置、电子设备和介质 | |
CN110489744B (zh) | 一种语料的处理方法、装置、电子设备和存储介质 | |
CN109933216B (zh) | 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质 | |
CN113343692A (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN117556005A (zh) | 质量评估模型的训练方法、多轮对话质量评估方法和装置 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN114611529A (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN114357164A (zh) | 情感-原因对抽取方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |