CN110705211A - 文本重点内容标记方法、装置、计算机设备及存储介质 - Google Patents
文本重点内容标记方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110705211A CN110705211A CN201910842265.9A CN201910842265A CN110705211A CN 110705211 A CN110705211 A CN 110705211A CN 201910842265 A CN201910842265 A CN 201910842265A CN 110705211 A CN110705211 A CN 110705211A
- Authority
- CN
- China
- Prior art keywords
- text
- key
- label
- marked
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本重点内容标记方法,包括以下步骤:获取训练语料,所述训练语料中的关键文本串经过重点标记;对所述训练语料中经过标记的关键文本串和未经过标记的非关键文本串进行不同标签标注,得到所述训练语料对应的实际标签标注结果;根据所述训练语料及对应的所述实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型;利用所述经过训练的机器学习模型对待标记文本进行处理,预测得到所述待标记文本的标签标注结果;根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来。本发明能够自动将合同中的重点内容标记出来,大大节约人力成本,提高工作效率。
Description
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种文本重点内容标记方法、装置、计算机设备及存储介质。
背景技术
在日常生活中,常常需要将文本中的重点内容标注出来。以合同文本为例,合同中通常会涉及较多的合同条款,为了保证合同所涉及的所有对象的利益,合同所涉及的对象需要详细审核合同中的各条条款。然而,用于描述合同条款的词和字通常冗长且晦涩,所以审核人员容易忽略掉本该特别注意的重点内容,因而需要在制定合同时将重点内容着重标记出来,便于重点关注。
例如,对于保险合同,监管部门要求保险合同中的所有免责条款必须做出明确标记,以保障投保人的权益。对保险合同中的这些条款,通常需采用加粗、斜体字、黑体字等方式做出标记提示。然而,目前在合同文本或其它文本的撰写过程中,需要手动将重点内容一一标记出来,不仅费时费力,而且容易出错,严重影响工作效率和质量。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种文本重点内容标记方法、装置、计算机设备及存储介质,以实现对文本重点内容的自动标记,提高工作效率,避免出错。
为了实现上述目的,本发明提供一种文本重点内容标记方法,包括以下步骤:
获取训练语料,所述训练语料中的关键文本串经过重点标记;
对所述训练语料中经过重点标记的关键文本串和未经过重点标记的非关键文本串进行不同标签标注,得到所述训练语料对应的实际标签标注结果;
根据所述训练语料及对应的所述实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型;
利用所述经过训练的机器学习模型对待标记文本进行处理,预测得到所述待标记文本的标签标注结果;
根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来。
进一步地,所述机器学习模型包含双向长短期记忆模型和条件随机场模型。
进一步地,所述对预先建立的机器学习模型进行训练的步骤包括:获取所述训练语料中各词对应的词向量;将所述训练语料中各词对应的词向量及所述训练语料对应的实际标签标注结果输入到预先建立的双向长短期记忆模型和条件随机场模型进行迭代训练,得到经过训练的双向长短期记忆模型和条件随机场模型。
进一步地,所述利用所述经过训练的机器学习模型对所述待标记文本进行处理,得到所述待标记文本的标签标注结果的步骤包括:
获取所述待标记文本中各词对应的词向量;
利用经过训练的双向长短期记忆模型对所述待标记文本中各词对应的词向量进行处理,得到所述待标记文本对应的文本特征序列;
利用经过训练的条件随机场模型对所述待标记文本对应的文本特征序列进行处理,预测得到所述待标记文本的标签标注结果。
进一步地,所述在所述对所述训练语料中经过标记的关键文本串和未经过标记的非关键文本串进行不同标签标注的步骤包括:对各所述关键文本串的第一个字标注重点开始标签,对所述关键文本串的最后一个字标注重点结尾标签,对所述关键文本串的中间字标注重点中间字标签,对非关键文本串中的每个字均标记非重点标签。
进一步地,所述预测得到的所述待标记文本的标签标注结果包括对所述待标记文本中的各字分别标注重点开始标签、重点结尾标签、重点中间字标签或非重点标签的标签标注结果。
进一步地,所述根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来的步骤包括:将所述待标记文本中标注为重点开始标签、重点结尾标签和重点中间字标签的内容作为所述待标记文本中的重点内容标记出来。
为了实现上述目的,本发明还提供一种文本重点内容标记装置,包括:
训练语料获取模块,用于获取训练语料,所述训练语料中的关键文本串经过重点标记;
训练语料标注模块,用于对所述训练语料中经过重点标记的关键文本串和未经过重点标记的非关键文本串进行不同标签标注,得到所述训练语料对应的实际标签标注结果;
模型训练模块,用于根据所述训练语料及所述实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型;
标签预测模块,用于利用所述经过训练的机器学习模型对待标记文本进行处理,预测得到所述待标记文本的标签标注结果;
重点标记模块,用于根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来。
进一步地,所述机器学习模型包含双向长短期记忆模型和条件随机场模型。
进一步地,所述模型训练模块包括:
训练语料向量化单元,用于获取所述训练语料中各词对应的词向量;
训练单元,用于将所述训练语料中各词对应的词向量及所述训练语料对应的实际标签标注结果输入到预先建立的双向长短期记忆模型和条件随机场模型进行迭代训练,得到经过训练的双向长短期记忆模型和条件随机场模型。
进一步地,所述标签预测模块包括:
待标记文本向量化单元,用于获取所述待标记文本中各词对应的词向量;
双向长短期记忆模型处理单元,用于利用经过训练的双向长短期记忆模型对所述待标记文本中各词对应的词向量进行处理,得到所述待标记文本对应的文本特征序列;
条件随机场模型处理单元,用于利用经过训练的条件随机场模型对所述待标记文本对应的文本特征序列进行处理,预测得到所述待标记文本的标签标注结果。
进一步地,所述训练语料标注模块包括:
重点内容标签标注单元,用于对各所述关键文本串的第一个字标注重点开始标签,对所述关键文本串的最后一个字标注重点结尾标签,对所述关键文本串的中间字标注重点中间字标签;
非重点内容标签标注单元,用于对非关键文本串中的每个字均标记非重点标签。
进一步地,所述标签预测模块预测得到的所述待标记文本的标签标注结果包括对所述待标记文本中的各字分别标注重点开始标签、重点结尾标签、重点中间字标签或非重点标签的标签标注结果。
进一步地,所述重点标记模块用于将所述待标记文本中标注为重点开始标签、重点结尾标签和重点中间字标签的内容作为所述待标记文本中的重点内容标记出来。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上技术方案,本发明具有如下有益效果:
1、本发明能够自动将合同等文本中的重点内容标记出来,大大节约人力成本,提高工作效率。
2、本发明引入了机器学习模型,通过人为标记训练语料来训练机器学习模型能够学习人为识别文本重点内容的丰富经验。
3、本发明利用长短期记忆神经网络模型来获取待标记文本对应的文本特征序列,能充分地考虑了上下文词与词的关系,充分利用了双向信息,再结合条件随机场模型进行处理,从而提高了标签标注的准确率。
附图说明
图1为本发明文本重点内容标记方法的一个实施例的流程图;
图2为本发明中机器学习模型的示意图;
图3为本发明文本重点内容标记装置的一个实施例的结构框图;
图4为本发明中训练语料标注模块的一个实施例的结构框图;
图5为本发明中模型训练模块的一个实施例的结构框图;
图6为本发明中标签预测模块的一个实施例的结构框图;
图7为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,其示出了本发明提供的文本重点内容标记方法的一个实施例的流程图,如图1所示,本发明的文本重点内容标记方法包括如下几个步骤:
S1,获取训练语料,该训练语料包含若干docx格式的标准文本,其中,各标准文本中的关键文本串已根据人为经验重点标记出来。例如,在一标准保险合同文本中,具有条款“本保单的免赔额是零”,其中的文本串“免赔额”被人为识别为关键文本串,被人工以字体加粗方式重点标记出来。应该理解,在docx文本中,各字分别配置有相应的字体属性,例如,是否加粗、是否倾斜、何种字体颜色、是否加下划线等。若文本中字体常规配置为非加粗,则可以通过将重点内容进行加粗的方式对其进行重点标记。
S2,从训练语料中识别经过标记的关键文本串和未经过标记的非关键字,并对识别到的关键文本串和非关键字进行不同标签标注,从而得到训练语料对应的实际标签标注结果。具体地,首先可以采用现有的python-docx程序加载并解析各标准文本,以得到各标准文本中各文字的字体属性,若检测到有文本串的字体属性符合预设的重点标记属性(如字体属性为加粗),则将所述文本串识别为关键文本串,而后对关键文本串的第一个字标注重点开始标签,对关键文本串的最后一个字标注重点结尾标签,对关键文本串的中间字标注重点中间字标签,对字体属性不符合预设重点标记属性的非关键字标记非重点标签。
例如,以前述保险合同中的条款“本保单的免赔额是零”为例,若识别到该条款中的“免赔额”三个字的字体属性均符合预设的重点标记属性,则将“免赔额”作为关键文本串并将其标注为标签“BMI”,其中,B为重点开始标签,表示该关键文本串的首字,M为重点中间字标签,表示该关键文本串的中间字,I为重点结尾标签,表示该关键文本串的尾字;对于该条款中“免赔额”以外的其它字则识别为非关键字并分别标注为标签“S”,S在此为非重点标签,表示非关键字,从而“本保单的免赔额是零”条款对应的实际标签标注结果为“SSSSBMISS”。需要说明的是,B、M、I、S在此仅作为示例,在实际使用过程中,可以采用其它合适的标签形式代替,只要保证重点开始标签、重点结尾标签、重点中间字标签、非重点标签不一致即可。
S3,根据前述训练语料及对应的实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型。在本实施例中,机器学习模型采用Bi-LSTM(LongShort-Term Memory,长短期记忆)模型与CRF(conditional random field algorithm,条件随机场)模型相合的模型。其中,LSTM模型是一种时间递归神经网络模型,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,其可有效解决传统循环神经网络长路径依赖的问题。在本实施例中,优选采用的是Bi-LSTM模型,即双向LSTM模型,包括前向层LSTM和后向层LSTM,Bi-LSTM模型能充分考虑上下文词与词之间的关系,充分利用双向信息,即,LSTM处理语句时有两个方向不同的LSTM对数据进行处理,分别从前后两个不同的方向进行传播,避免了在处理序列数据时只受到前时刻数据的影响。CRF是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字序列或是生物序列。
本发明对Bi-LSTM模型和CRF模型的训练过程如下:
S31,对训练语料中的词进行向量化处理,得到训练语料中各词对应的词向量。具体地,首先通过常用的One-hot或labelencode算法得到训练语料中各词的编号,而后通过Word Embedding对训练语料中各词的编号进行处理,从而得到训练语料中各词对应的词向量。
S32,如图2所示,将训练语料中各词(x1、x2、…、xn)对应的词向量输入到预先建立的Bi-LSTM模型,具体地,将各词向量同时输入到Bi-LSTM模型的前向层LSTM和后向层LSTM,其中,前向层LSTM的第i个神经元单元的输出同时作为前向层LSTM的第i+1个神经元单元的输入,后向层LSTM的第i+1个神经元单元的输出同时作为后向层LSTM的第i个神经元单元的输入。
S33,将前向层LSTM和后向层LSTM中各神经元单元的输出结果作为CRF模型的输入,经CRF模型处理后可得到训练语料对应的预测标签标注结果。
S34,根据训练语料对应的预测标签标注结果和实际标签标注结果计算CRF模型的损失函数,并判断该损失函数的值是否小于预设的最小损失函数值,若是,训练结束,得到经过训练的Bi-LSTM模型和CRF模型,否则,更新Bi-LSTM模型和CRF模型的参数,并返回步骤S32,继续迭代训练Bi-LSTM模型和CRF模型。
S4,利用经过训练的机器学习模型对待标记文本进行处理,预测得到待标记文本的标签标注结果,具体包括:
S41,获取待标记文本,并对待标记文本中的各词进行向量化处理,得到待标记文本中各词对应的词向量。具体地,首先通过常用的One-hot或labelencode算法得到待标记文本中各字的编号,而后通过Word Embedding对待标记文本中各字的编号进行处理,从而得到待标记文本中各词对应的词向量。
S42,将待标记文本中各词对应的词向量代入经过训练的Bi-LSTM模型进行处理,从而得到待标记文本对应的文本特征序列。由于LSTM模型在处理自然语言语句时,因为是序列输入,处理这一时刻的输入数据时只收到当前输入词和此时刻前输入词的影响,而日常生活中人们所说的语句中存在前后关联,并不只是受到前面词语的影响。因此,本发明实施例提供的方法使用Bi-LSTM即双向LSTM进行处理,相当于得到了一个较好的对输入数据的表示方法,Bi-LSTM单元最终输出的文本特征序列即可以看成是输入数据的一种表示形式。
S43,将待标记文本对应的文本特征序列代入经过训练的CRF模型进行处理,从而可预测得到待标记文本的标签标注结果。在传统的机器学习任务中,CRF是根据海量的特征工程提取足够的不同维度的特征,然后根据这些特征做序列标注。在实际应用中,CRF模型是一种无向图模型,其是在给定需要标记的观察序列的条件下,计算整个标签序列的联合概率分布。在本实施例中,对于输入的长度为m的序列X[X1、X2…Xi…Xm],假设标签的标注结果为[y1,…,ym],则CRF模型将在已知序列X的条件下,找出使得[y1,…,ym]的概率P(y1,…,ym)最大的序列[Y1,…,Ym]作为预测得到的标签标注结果。其中,预测得到的标签标注结果包括对待标记文本中的各字分别标注重点开始标签、重点结尾标签、重点中间字标签或非重点标签的标签标注结果。
S5,根据得到的待标记文本的标签标注结果,对待标记文本中的重点内容进行标记。具体地,经过Bi-LSTM模型和CRF模型处理后,将输出待标记文本中各字符对应的重点开始标签、重点结尾标签、重点中间字标签或非重点标签的标签标注结果,本步骤则将标注为重点开始标签、重点结尾标签和重点中间字标签的字符作为待标记文本中的重点内容标记出来。例如,假设待标记文本中有条款“累记免赔额1万”,经前述Bi-LSTM模型和CRF模型处理后,将输出该条款对应的标签为“SSBMISS”,则将“BMI”对应的字符“免赔额”作为该条款的重点内容,对其进行重点标记。其中,可以采用以下标记方式对重点内容进行标记:将重点内容加粗、将重点内容倾斜、改变重点内容的颜色、和/或对重点内容加下划线等,具体通过改变相应的字体属性实现。
通过上述步骤,能够自动将合同等文本中的重点内容标记出来,大大节约人力成本,提高工作效率。
需要说明的是,对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
实施例二
本实例提供如图3所示的文本重点内容标记装置,包括:
训练语料获取模块11,用于获取训练语料,训练语料中的关键文本串经过人工标记;
训练语料标注模块12,用于对训练语料中经过标记的关键文本串和未经过标记的非关键文本串进行不同标签标注,得到训练语料对应的实际标签标注结果;
模型训练模块13,用于根据训练语料及实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型,其中,机器学习模型优选采用双向长短期记忆模型和条件随机场模型相结合的模型;
标签预测模块14,用于利用经过训练的机器学习模型对待标记文本进行处理,预测得到待标记文本的标签标注结果;
重点标记模块15,用于根据待标记文本的标签标注结果,通过以下标记方式将待标记文本中的重点内容标记出来:将重点内容加粗、将重点内容变为斜体、改变重点内容的颜色、对重点内容加下划线、和/或对重点内容添加背景色。
在本实施例中,训练语料标注模块12如图4所示,包括:
重点内容标签标注单元121,用于对各关键文本串的第一个字标注重点开始标签,对关键文本串的最后一个字标注重点结尾标签,对关键文本串的中间字标注重点中间字标签;
非重点内容标签标注单元122,用于对非关键文本串中的每个字均标记非重点标签。
例如,以前述保险合同中的条款“本保单的免赔额是零”为例,若本步骤识别到该条款中的文本串“免赔额”被重点标记,则通过重点内容标签标注单元121将“免赔额”作为关键文本串标注为标签“BMI”,其中,B为重点开始标签,表示该关键文本串的首字,M为重点中间字标签,表示该关键文本串的中间字,I为重点结尾标签,表示该关键文本串的尾字;对于未被重点标记的文本串“本保单的”和“是零”,则被作为非关键文本串,通过非重点内容标签标注单元122将其中每个字分别标注为标签“S”,S为非重点标签,表示非关键字,从而“本保单的免赔额是零”条款对应的实际标签标注结果为“SSSSBMISS”。需要说明的是,B、M、I、S在此仅作为示例,在实际使用过程中,可以采用其它合适的字母标签代替,只要保证重点开始标签、重点结尾标签、重点中间字标签、非重点标签不一致即可。
在本实施例中,模型训练模块13如图5所示,包括:
训练语料向量化单元131,用于获取训练语料中各词对应的词向量;
训练单元132,用于将训练语料中各词对应的词向量及训练语料对应的实际标签标注结果输入到预先建立的双向长短期记忆模型和条件随机场模型进行多次迭代训练,得到经过训练的双向长短期记忆模型和条件随机场模型。
在本实施例中,标签预测模块14如图6所示,包括:
待标记文本向量化单元141,用于获取待标记文本中各词对应的词向量;
双向长短期记忆模型处理单元142,用于利用经过训练的双向长短期记忆模型对待标记文本中各词对应的词向量进行处理,得到待标记文本对应的文本特征序列;
条件随机场模型处理单元143,用于利用经过训练的条件随机场模型对待标记文本对应的文本特征序列进行处理,预测得到待标记文本的标签标注结果。
在本实施例中,标签预测模块14预测得到的待标记文本的标签标注结果包括对待标记文本中的各字分别标注重点开始标签、重点结尾标签、重点中间字标签或非重点标签的标签标注结果。重点标记模块15具体用于将待标记文本中标注为重点开始标签、重点结尾标签和重点中间字标签的内容作为待标记文本中的重点内容标记出来。
实施例三
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过***总线相互通信连接的存储器21、处理器22,如图7所示。需要指出的是,图7仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作***和各类应用软件,例如实施例二的文本重点内容标记装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行文本重点内容标记装置10,以实现实施例一的文本重点内容标记方法。
实施例四
本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本重点内容标记装置10,被处理器执行时实现实施例一的文本重点内容标记方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本重点内容标记方法,其特征在于,包括以下步骤:
获取训练语料,所述训练语料中的关键文本串经过重点标记;
对所述训练语料中经过重点标记的关键文本串和未经过重点标记的非关键文本串进行不同标签标注,得到所述训练语料对应的实际标签标注结果;
根据所述训练语料及对应的所述实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型;
利用所述经过训练的机器学习模型对待标记文本进行处理,预测得到所述待标记文本的标签标注结果;
根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来。
2.根据权利要求1所述的文本重点内容标记方法,其特征在于,所述机器学习模型包含双向长短期记忆模型和条件随机场模型。
3.根据权利要求2所述的文本重点内容标记方法,其特征在于,所述对预先建立的机器学习模型进行训练的步骤包括:获取所述训练语料对应的词向量;将所述训练语料对应的词向量及所述训练语料对应的实际标签标注结果输入到预先建立的双向长短期记忆模型和条件随机场模型进行迭代训练,得到经过训练的双向长短期记忆模型和条件随机场模型。
4.根据权利要求3所述的文本重点内容标记方法,其特征在于,所述利用所述经过训练的机器学习模型对所述待标记文本进行处理,得到所述待标记文本的标签标注结果的步骤包括:
获取所述待标记文本中各词对应的词向量;
利用经过训练的双向长短期记忆模型对所述待标记文本中各词对应的词向量进行处理,得到所述待标记文本对应的文本特征序列;
利用经过训练的条件随机场模型对所述待标记文本对应的文本特征序列进行处理,预测得到所述待标记文本的标签标注结果。
5.根据权利要求1所述的文本重点内容标记方法,其特征在于,所述在所述对所述训练语料中经过标记的关键文本串和未经过标记的非关键文本串进行不同标签标注的步骤包括:对各所述关键文本串的第一个字标注重点开始标签,对所述关键文本串的最后一个字标注重点结尾标签,对所述关键文本串的中间字标注重点中间字标签,对非关键文本串中的每个字均标记非重点标签。
6.根据权利要求5所述的文本重点内容标记方法,其特征在于,所述预测得到的所述待标记文本的标签标注结果包括对所述待标记文本中的各字分别标注重点开始标签、重点结尾标签、重点中间字标签或非重点标签的标签标注结果。
7.根据权利要求6所述的文本重点内容标记方法,其特征在于,所述根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来的步骤包括:将所述待标记文本中标注为重点开始标签、重点结尾标签和重点中间字标签的内容作为所述待标记文本中的重点内容标记出来。
8.一种文本重点内容标记装置,其特征在于,包括:
训练语料获取模块,用于获取训练语料,所述训练语料中的关键文本串经过重点标记;
训练语料标注模块,用于对所述训练语料中经过重点标记的关键文本串和未经过重点标记的非关键文本串进行不同标签标注,得到所述训练语料对应的实际标签标注结果;
模型训练模块,用于根据所述训练语料及所述实际标签标注结果,对预先建立的机器学习模型进行训练,得到经过训练的机器学习模型;
标签预测模块,用于利用所述经过训练的机器学习模型对待标记文本进行处理,预测得到所述待标记文本的标签标注结果;
重点标记模块,用于根据所述待标记文本的标签标注结果,将所述待标记文本中的重点内容标记出来。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842265.9A CN110705211A (zh) | 2019-09-06 | 2019-09-06 | 文本重点内容标记方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842265.9A CN110705211A (zh) | 2019-09-06 | 2019-09-06 | 文本重点内容标记方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705211A true CN110705211A (zh) | 2020-01-17 |
Family
ID=69194412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910842265.9A Pending CN110705211A (zh) | 2019-09-06 | 2019-09-06 | 文本重点内容标记方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705211A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985478A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 文本定位播放方法、装置、计算机设备及可读存储介质 |
CN112101034A (zh) * | 2020-09-09 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 一种判别医学实体的属性的方法、装置及相关产品 |
EP3879427A3 (en) * | 2020-11-30 | 2021-12-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information extraction method, extraction model training method, apparatus and electronic device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109829159A (zh) * | 2019-01-29 | 2019-05-31 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及*** |
-
2019
- 2019-09-06 CN CN201910842265.9A patent/CN110705211A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109829159A (zh) * | 2019-01-29 | 2019-05-31 | 南京师范大学 | 一种古汉语文本的一体化自动词法分析方法及*** |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985478A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 文本定位播放方法、装置、计算机设备及可读存储介质 |
CN112101034A (zh) * | 2020-09-09 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 一种判别医学实体的属性的方法、装置及相关产品 |
CN112101034B (zh) * | 2020-09-09 | 2024-02-27 | 沈阳东软智能医疗科技研究院有限公司 | 一种判别医学实体的属性的方法、装置及相关产品 |
EP3879427A3 (en) * | 2020-11-30 | 2021-12-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information extraction method, extraction model training method, apparatus and electronic device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704633B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN110765763A (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN109858010A (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN110134959B (zh) | 命名实体识别模型训练方法及设备、信息抽取方法及设备 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN108897869B (zh) | 语料标注方法、装置、设备和存储介质 | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN111160032A (zh) | 一种命名实体提取方法、装置、电子设备及存储介质 | |
CN111079432A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其*** | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和*** | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111191028A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN113536735A (zh) | 一种基于关键词的文本标记方法、***和存储介质 | |
CN111091004A (zh) | 一种语句实体标注模型的训练方法、训练装置及电子设备 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN112560504A (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
CN116796726A (zh) | 简历解析方法、装置、终端设备及介质 | |
CN111581972A (zh) | 文本中症状和部位对应关系识别方法、装置、设备及介质 | |
CN110826330B (zh) | 人名识别方法及装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |