CN115358206A - 文本排版方法及*** - Google Patents
文本排版方法及*** Download PDFInfo
- Publication number
- CN115358206A CN115358206A CN202211276577.6A CN202211276577A CN115358206A CN 115358206 A CN115358206 A CN 115358206A CN 202211276577 A CN202211276577 A CN 202211276577A CN 115358206 A CN115358206 A CN 115358206A
- Authority
- CN
- China
- Prior art keywords
- classification
- sentence unit
- tag
- label
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本排版方法及***,用以解决文本识别准确率低的技术问题。其中,一种文本排版方案,通过对所述文本数据进行分句,以针对句子级别的文本进行排版,提高了文本排版的灵活性;通过采用两种不同的模型对句子单元的分类标签做出预测,后续再在两个分类标签中选择一个作为最终的预测结果,从而提高了对句子单元分类标签的预测准确率,进而提高了文本排版的准确率。并且,其中一种模型对句子单元分类标签的预测过程中加入法律工作者根据自身经验给出的预设权重值,使得该预测模型对句子单元的分类标签预测准确率更高。
Description
技术领域
本申请涉及文本编辑技术领域,尤其涉及一种文本排版方法及***。
背景技术
现实生活中的部分文本具有规范的排版要求,例如论文、法律文件、报告、书信、通知、会议纪要和电报等。为满足文本排版规范,使文本更加美观,需要排版人员对文本进行位置设置和格式设置。在排版人员对文本进行排版时,需要反复查看调整后的公文是否满足排版规范,增加了排版人员的工作量,降低了排版的效率。
而现有的排版软件大多是在文书模板中设置好格式,保留模板中各个文书结构中的格式,从而实现文书格式的规范化。
在实现现有技术的过程中,发明人发现:
根据最高人民法院发布的《人民法院民事裁判文书制作规范》《民事诉讼文书样式》等文书制作规范可知,法律文书有特殊的排版要求。
法律文书具有较强的专业性,部分案件内容较为复杂,且语言表达存在差异,这些因素导致现有技术的文本排版装置难以准确识别文本,进而导致文本排版失败。
因此,需要提供一种新的文本排版方案,用以解决文本识别准确率低的技术问题。
发明内容
本申请实施例提供一种新的文本排版方案,用以解决文本识别准确率低的技术问题。
具体的,一种文本排版方法,包括以下步骤:
获取文本数据;
对所述文本数据进行分句,得到元素为句子单元的文本集合;
输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值;
根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签;
获取具有分类标签排列规则的待输入区域;
根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元;
所述文本集合至少包括第一句子单元;
输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值,具体包括:
通过第一预测模型对第一句子单元进行关键特征提取,得到与分类标签相关的关键特征信息;
将所述关键特征信息经过Softmax函数计算,得到对应分类标签的归属概率值;
将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签;
其中,所述第一预测模型为预训练模型;
所述第一预测模型通过以下步骤训练获得:
获取具有真实分类标签的句子单元作为训练数据;
计算预测分类标签与真实分类标签的交叉熵,进行负反馈优化,以对所述第一预测模型进行迭代训练。
进一步的,所述第一句子单元由若干实体构成;所述实体具有若干实体标签;
所述方法还包括:
建立实体标签排列顺序与句子单元分类标签的映射关系,生成第一预设分类标签表;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体包括:
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序;
计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值;
根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
进一步的,根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,具体包括:
当第一分类标签与第二分类标签相同,确定第一分类标签作为所述句子单元的第三分类标签;
当第一分类标签与第二分类标签不同,比较第一分类标签的归属概率值与第二分类标签的归属概率值;
确定归属概率值最高的分类标签作为所述句子单元的第三分类标签。
进一步的,所述第一预设分类标签表还包括评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体还包括:
根据实体标签排列顺序与句子单元分类标签的映射关系、评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度乘以预设权重值的结果,作为对应分类标签的归属概率值。
进一步的,所述第一句子单元由若干实体构成;所述实体具有若干实体标签;
所述方法还包括:
建立句子单元中的实体标签种类与句子单元分类标签的映射关系,生成第二预设分类标签表;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体包括:
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的种类;
计算第一句子单元中实体标签的种类与第二预设分类标签表中实体标签种类的关联度;
将第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度,作为对应分类标签的归属概率值;
根据实体标签种类与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
进一步的,根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,具体包括:
在第一分类标签与第二分类标签相同的情况下,以第二预设权重系数乘以与第一分类标签对应的归属概率值生成第一结果、以第三预设权重系数乘以与第二分类标签对应的归属概率值生成第二结果;
将第一结果与第二结果相加,得到对应第一分类标签最终归属概率值的第三结果;
确定最终归属概率值最高的分类标签作为所述句子单元的第三分类标签。
本申请实施例还提供一种文本排版***。
具体的,一种文本排版***,包括:
获取模块,用于获取文本数据;
分割模块,用于对所述文本数据进行分句,得到元素为句子单元的文本集合;
识别模块,用于输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值;还用于输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值;还用于根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签;
排版模块,用于获取具有分类标签排列规则的待输入区域;还用于根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元;
所述文本集合至少包括第一句子单元;
所述识别模块用于输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值,具体用于:
通过第一预测模型对第一句子单元进行关键特征提取,得到与分类标签相关的关键特征信息;
将所述关键特征信息经过Softmax函数计算,得到对应分类标签的归属概率值;
将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签;
其中,所述第一预测模型为预训练模型;
所述第一预测模型通过以下步骤训练获得:
获取具有真实分类标签的句子单元作为训练数据;
计算预测分类标签与真实分类标签的交叉熵,进行负反馈优化,以对所述第一预测模型进行迭代训练。
进一步的,所述第一句子单元由若干实体构成;所述实体具有若干实体标签;
所述文本排版***还包括:
预设模块,用于建立实体标签排列顺序与句子单元分类标签的映射关系,生成第一预设分类标签表;
所述识别模块用于输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体用于:
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序;
计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值;
根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
本申请实施例提供的技术方案,至少具有如下有益效果:
通过对所述文本数据进行分句,以针对句子级别的文本进行排版,提高了文本排版的灵活性;通过采用两种不同的模型对句子单元的分类标签做出预测,后续再在两个分类标签中选择一个作为最终的预测结果,从而提高了对句子单元分类标签的预测准确率,进而提高了文本排版的准确率。并且,其中一种模型对句子单元分类标签的预测过程中加入法律工作者根据自身经验给出的预设权重值,使得该预测模型对句子单元的分类标签预测准确率更高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种文本排版方法的流程框图;
图2为本申请实施例提供的一种文本排版***的结构示意图。
图中标号说明:
100 文本排版***
11 获取模块
12 分割模块
13 识别模块
14 排版模块。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,为解决文本识别准确率低的技术问题,本申请提供一种文本排版方法,包括以下步骤:
S110:获取文本数据。
可以理解的是,所述文本数据至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。
在本申请提供的一种具体实施方式中,所述文本数据可以表现为法律文书,所述法律文书包含法律信息。具体的,所述文本数据表现为收案审批单、谈话笔录、授权委托书、起诉书、上诉书、反诉状、诉讼保全、证据保全、法院裁定书、判决书、调解书、结案报告中至少一种法律文书。通常所述文本数据的格式表现为txt、word、html、ofd或pdf。
进一步的,为减少文本数据原有格式对文本排版造成干扰,本申请优选采用无排版设置的文本数据。
在本申请提供的一种具体实施方式中,在步骤S110获取文本数据后,还将对获取的文本数据进行格式清除。例如去除文本数据中的空格、跳格(\t),换行符号(\n)等格式切换符号。
S120:对所述文本数据进行分句,得到元素为句子单元的文本集合。
可以理解的是,现有技术通常针对段落级别的文本进行排版,而发明人考虑到同类模板在不同的应用场景下,段落也将有不同的排版要求,且针对段落级别的文本排版对于新填充的内容不能灵活排版。
为提高文本排版的灵活性,本申请提供的技术方案针对句子级别的文本进行排版调整。在本申请提供的一种具体实施方式中,步骤S120对所述文本数据进行分句,得到元素为句子单元的文本集合,表现为:
识别文本数据中的标点符号;
当标点符号为预设标点符号,则对文本数据进行分割,以分割出句子单元;
若干句子单元构成文本集合。
考虑到通常情况下句号、感叹号、问号、省略号均可用于中断句子与句子之间的语义关系,逗号、顿号、分号则用于延续句子与句子之间的语义关系。因此,此处的预设标点符号可以是句号、感叹号、问号、省略号中任意一种标点符号。
S130:输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值。
需要指出的是,此处的第一预测模型是预训练模型,基于历史训练数据得到。在实际应用中,所述第一预测模型可以表现为Bert语言预训练模型(Bidirectional EncoderRepresentations from Transformer) 或基于Bert语言预训练模型开发的其他语言预训练模型,例如AlBert(A LITE BERT)模型。
具体的,所述Bert模型是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
本申请优选采用AlBert模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值,实质是采用AlBert模型计算句子单元的语句语义值或语句结构值等信息作为关键特征,之后利用AlBert模型的预测机制,对句子单元对应若干分类标签的归属概率值进行预测。
下面以第一预测模型预测第一句子单元的第一分类标签和与第一分类标签对应的归属概率值为例,介绍输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值的具体实施过程。
在本申请提供的一种具体实施方式中,所述文本集合至少包括第一句子单元。
通过第一预测模型对第一句子单元进行关键特征提取,得到与分类标签相关的关键特征信息;
将所述关键特征信息经过Softmax函数计算,得到对应分类标签的归属概率值;
将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签。
需要强调的是,文本集合可以由多个句子单元构成、单个句子单元也可能具有多个分类标签。为使描述简洁,此处仅以第一预测模型预测第一句子单元的第一分类标签和与第一分类标签对应的归属概率值进行描述,并不能因此而理解为对发明专利范围的限制。
当然,第一预测模型基于历史训练数据得到,因此本申请还提供所述第一预测模型的步骤训练:
获取具有真实分类标签的句子单元作为训练数据;
计算预测分类标签与真实分类标签的交叉熵,进行负反馈优化,以对所述第一预测模型进行迭代训练。
在本申请提供的一种具体应用场景中,文本排版方法应用于法律文书排版。在此应用场景下,任意句子单元固定有六种标签,分别为标题段标签、当事人段标签、事实与理由段标签、审判结果段标签、审判组织段标签、法律法条段标签。换句话说,训练后的第一预测模型只能计算输入的句子单元归类于这六种标签的概率。
具体的,输入第一句子单元至训练后的第一预测模型。第一预测模型在第一句子单元的句首加入标签 [CLS],将句首标签所对应的输出特征向量后接入全连接层和Softmax 层,以保证输出维数与类别数目一致,最后通过 argmax 操作得到相对应的类别结果,之后计算预测分类标签与真实分类标签的交叉熵,将其作为优化目标,在任务数据上进行微调训练。最后将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签。
例如,将“原告:xxx,女,地址:xxxxxxx”作为第一句子单元输入至训练后的第一预测模型,将输出:
当事人标签 0.9
事实与理由标签 0.2
法条标签 0.1
判决结果标签 0.01
审判组织标签 0.01
其中当事人标签为归属概率值最高的分类标签,则将作为第一句子单元的第一分类标签。
S140:输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。
需要指出的是,此处的第二预测模型不同于第一预测模型,所述第二预测模型用于根据句子单元中的实体,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。进一步的,所述实体可以理解为是词级别的对象,例如当事人的名字、法院的名称、公司的名称、货币、日期等信息的文本。
在实际应用中,所述第二预测模型可以表现为MLP多层感知模型(Multi-Layerperceptron) 或基于MLP多层感知模型开发的其他感知模型,例如gMLP(gate Multi-Layerperceptron)模型。
具体的,所述MLP是深度神经网络(DNN)的基础算法,由输入层、中间层和输出层构成。而gMLP模型基于MLP多层感知模型与门控机制的结合,使其更适用于关键语言的识别。本申请优选采用gMLP模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。
在本申请提供的一种具体实施方式中,所述文本集合中的任意句子单元由若干实体构成。所述实体具有若干实体标签,用于表征实体种类。
在具体的应用中,步骤S140可以根据句子单元中的实体标签种类或实体标签的排列顺序,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。其中,根据句子单元中的实体标签种类的处理速度更为快速,根据句子单元中的实体标签的排列顺序的准确率更高。
下面先介绍根据句子单元中的实体标签的排列顺序,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的实施过程:
为便于第二预测模型根据句子单元中的实体标签的排列顺序,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,所述文本排版方法在步骤S140前还包括步骤:建立实体标签排列顺序与句子单元分类标签的映射关系,生成第一预设分类标签表。
所述第一预设分类标签表可以理解为实体标签的排列顺序与句子单元分类标签的对应关系。例如,当句子单元中实体标签的排列顺序为“人名+地名+当事人” 排列顺序,则可以推断出句子单元的分类标签为当事人标签。
下面以第二预测模型预测第一句子单元的第二分类标签和与第二分类标签对应的归属概率值为例,介绍输入所述文本集合至第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的具体实施过程。所述第一句子单元由若干实体构成。
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序;
计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值;
根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
在本申请提供的一种具体应用场景中,文本排版方法应用于法律文书排版。在此应用场景下,任意句子单元中的实体标签可以表现为诉讼地位、姓名、地址、职务、文书标题、事实、理由等。
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序可以表现为:
在每个实体的语义特征向量之后添加全连接层,将语义特征转化为序列标注任务所需的特征。单句标注任务需要对每个实体都做标注,因此不需要引入辅助向量,直接对经过全连接层后的结果做 Softmax 操作,即可得到第一句子单元中各实体标签的概率分布。之后选择最高概率对应的标签作为实体标签,则可以得到第一句子单元中实体标签的排列顺序。
之后计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度。
当然,上述将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值也有可能出现误差。为进一步提高第二预测模型对第一句子单元的分类标签预测准确率,在本申请提供的又一种具体实施方式中,所述第一预设分类标签表还包括评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数。所述预设权重值可以理解为法律工作者根据自身经验给出的判断因素。
则输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体还包括:
根据实体标签排列顺序与句子单元分类标签的映射关系、评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度乘以预设权重值的结果,作为对应分类标签的归属概率值。
这样加入法律工作者根据自身经验给出的预设权重值,可以使得第二预测模型对第一句子单元的分类标签预测准确率更高。
下面介绍根据句子单元中的实体标签种类,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的实施过程:
为便于第二预测模型根据句子单元中的实体标签种类,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,所述文本排版方法在步骤S140前还包括步骤:建立句子单元中的实体标签种类与句子单元分类标签的映射关系,生成第二预设分类标签表。
所述第二预设分类标签表可以理解为实体标签种类与句子单元分类标签的对应关系。例如,当句子单元中实体标签种类包括“人名、地名、当事人”,则可以推断出句子单元的分类标签为当事人标签。
下面以第二预测模型预测第一句子单元的第二分类标签和与第二分类标签对应的归属概率值为例,介绍输入所述文本集合至第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的具体实施过程。所述第一句子单元由若干实体构成。
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的种类;
计算第一句子单元中实体标签的种类与第二预设分类标签表中实体标签种类的关联度;
将第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度,作为对应分类标签的归属概率值;
根据实体标签种类与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
在本申请提供的一种具体应用场景中,文本排版方法应用于法律文书排版。在此应用场景下,任意句子单元中的实体标签可以表现为诉讼地位、姓名、地址、职务、文书标题、事实、理由等。
在输入所述文本集合至第二预测模型,识别第一句子单元中实体标签种类后,计算第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度可以表现为:
第一句子单元中的实体标签可视为集合A。集合A中总共有n个实体,第二预设分类标签表中有对应句子单元分类标签的实体标签种类。以句子单元分类标签为审理方式标签为例,集合A中有m个实体标签种类在对应审理方式标签的实体标签种类中出现,即此句子单元的分类标签为审理方式标签的关联度P为m/n。此时将剩下的(n-m)个实体去其他对应句子单元分类标签的实体标签种类中查找,依次获得其他关联度。
将第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度,作为对应分类标签的归属概率值。最后根据实体标签种类与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
S150:根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签。
需要指出的是,本申请通过两种不同的模型对句子单元的分类标签做出预测,相当于提供两种参考信息,后续再在两个分类标签中选择一个作为最终的预测结果,从而提高了对句子单元分类标签的预测准确率。
进一步的,在本申请提供的一种具体实施方式中,根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,具体包括:
当第一分类标签与第二分类标签相同,确定第一分类标签作为所述句子单元的第三分类标签;
当第一分类标签与第二分类标签不同,比较第一分类标签的归属概率值与第二分类标签的归属概率值;
确定归属概率值最高的分类标签作为所述句子单元的第三分类标签。
换句话说,当第一分类标签与第二分类标签相同,就不再考虑第一分类标签的归属概率值与第二分类标签的归属概率值,而是直接将第一分类标签作为所述句子单元的第三分类标签。而当第一分类标签与第二分类标签不同,则选择归属概率值最高的分类标签作为所述句子单元的第三分类标签。
进一步的,在本申请提供的又一种具体实施方式中,根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,还可以表现为:
在第一分类标签与第二分类标签相同的情况下,以第二预设权重系数乘以与第一分类标签对应的归属概率值生成第一结果、以第三预设权重系数乘以与第二分类标签对应的归属概率值生成第二结果;
将第一结果与第二结果相加,得到对应第一分类标签最终归属概率值的第三结果;
确定最终归属概率值最高的分类标签作为所述句子单元的第三分类标签。
需要指出的是,在这里的具体实施方式中,本申请提供的文本排版方法更为关注第一预测模型预测句子单元的所有分类标签、和第二预测模型预测句子单元的所有分类标签,对于确定句子单元的第三分类标签的影响。随着关注对象的增加,这样的选择方案也更加智能、准确率更高。
当然,文本集合可以由多个句子单元构成、单个句子单元也可能具有多个分类标签。为使描述简洁,此处以第一预测模型预测第一句子单元的第一分类标签和与第一分类标签对应的归属概率值、第二预测模型预测第一句子单元的第二分类标签和与第二分类标签对应的归属概率值进行描述,并不能因此而理解为对发明专利范围的限制。
在具体的实施过程中,可以将第一预测模型预测句子单元的所有分类标签和与分类标签对应的归属概率值保存为第一概率表。将第二预测模型预测句子单元的所有分类标签和与分类标签对应的归属概率值保存为第二概率表。
根据第一概率表、第二概率表,确定同一分类标签和该分类标签在第一概率表、第二概率表中对应的归属概率值。以预设的两种权重系数乘以同一分类标签在第一概率表、第二概率表中对应的归属概率值,再对结果进行相加,从而作为该分类标签的最终归属概率值。
最后将所有分类标签和与分类标签对应的最终归属概率值保存为第三概率表。确定最终归属概率值最高的分类标签作为所述句子单元的第三分类标签。
S160:获取具有分类标签排列规则的待输入区域。
S170:根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元。
所述获取具有分类标签排列规则的待输入区域可以理解为输入模板。通常所述获取具有分类标签排列规则的待输入区域表现为word文档的输入区域。
进一步的,所述待输入区域的分类标签排列规则用于指示不同分类标签的分布位置。根据分类标签排列规则,可以在待输入区域填入对应第三分类标签的句子单元,从而完成针对句子级别的文本排版。而若干句子单元将构成的段落,从而实现在不同的应用场景下,对于段落的灵活排版。
当然,所述待输入区域的分类标签排列规则可以根据使用需求而进行调整。而对待输入区域的分类标签排列规则的调整,通常是改变模板中分类标签的类型,或改变模板中分类标签的位置,从而调整针对句子级别的文本排版。
进一步的,所述分类标签排列规则还可以包括字体属性设置或段落属性设置。根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元也将遵循设置的字体属性或段落属性,从而实现对不同句子、不同段落的分立设置,使得文本排版更为灵活。
当然,也可以对句子单元同类的分类标签的基础上,进一步设置子标签。相应的,在所述待输入区域的分类标签排列规则中加入对子标签的字体属性设置或段落属性设置,从而实现对同一段落中不同句子单元进行字体属性或段落属性的分立设置,进一步使得文本排版更为灵活。
综上所述,本申请提供的文本排版方法,通过对所述文本数据进行分句,以针对句子级别的文本进行排版,提高了文本排版的灵活性;通过采用两种不同的模型对句子单元的分类标签做出预测,后续再在两个分类标签中选择一个作为最终的预测结果,从而提高了对句子单元分类标签的预测准确率,进而提高了文本排版的准确率。并且,其中一种模型对句子单元分类标签的预测过程中加入法律工作者根据自身经验给出的预设权重值,使得该预测模型对句子单元的分类标签预测准确率更高。
请参照图2,为支持文本排版方法,本申请还提供一种文本排版***100,包括:
获取模块11,用于获取文本数据;
分割模块12,用于对所述文本数据进行分句,得到元素为句子单元的文本集合;
识别模块13,用于输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值;还用于输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值;还用于根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签;
排版模块14,用于获取具有分类标签排列规则的待输入区域;还用于根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元。
具体的,获取模块11获取的所述文本数据至少包括由文本构成的词组、句子、段落或文档。所述文本可以理解为文字、数字、字母、符号中至少一种字符。
在本申请提供的一种具体实施方式中,所述文本数据可以表现为法律文书,所述法律文书包含法律信息。进一步的,所述文本数据表现为收案审批单、谈话笔录、授权委托书、起诉书、上诉书、反诉状、诉讼保全、证据保全、法院裁定书、判决书、调解书、结案报告中至少一种法律文书。通常所述文本数据的格式表现为txt、word、html、ofd或pdf。
进一步的,为减少文本数据原有格式对文本排版造成干扰,获取模块11优选获取无排版设置的文本数据。
在本申请提供的一种具体实施方式中,在获取模块11获取文本数据后,还将对获取的文本数据进行格式清除。例如去除文本数据中的空格、跳格(\t),换行符号(\n)等格式切换符号。
之后分割模块12对所述文本数据进行分句,得到元素为句子单元的文本集合。
可以理解的是,现有技术通常针对段落级别的文本进行排版,而发明人考虑到同类模板在不同的应用场景下,段落也将有不同的排版要求,且针对段落级别的文本排版对于新填充的内容不能灵活排版。
为提高文本排版的灵活性,文本排版***100针对句子级别的文本进行排版调整。在本申请提供的一种具体实施方式中,分割模块12对所述文本数据进行分句,得到元素为句子单元的文本集合,表现为:
识别文本数据中的标点符号;
当标点符号为预设标点符号,则对文本数据进行分割,以分割出句子单元;
若干句子单元构成文本集合。
考虑到通常情况下句号、感叹号、问号、省略号均可用于中断句子与句子之间的语义关系,逗号、顿号、分号则用于延续句子与句子之间的语义关系。因此,此处的预设标点符号可以是句号、感叹号、问号、省略号中任意一种标点符号。
之后识别模块13输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值。
需要指出的是,此处的第一预测模型是预训练模型,基于历史训练数据得到。在实际应用中,所述第一预测模型可以表现为Bert语言预训练模型(Bidirectional EncoderRepresentations from Transformer) 或基于Bert语言预训练模型开发的其他语言预训练模型,例如AlBert(A LITE BERT)模型。
具体的,所述Bert模型是谷歌研究人员于2018年提出的一种语言预训练模型,通过在33亿文本的语料上训练语言模型,分别在不同的下游任务上微调,这样的模型在不同的自然语言处理任务均取得了目前为止最好的结果。Bert模型使用Transformer构成了双向语言模型进行预训练,在训练过程中提出了遮挡机制和预测机制,然后根据不同的下游任务基于微调的方式,对下层网络的输出方式进行调整。
本申请优选采用AlBert模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值,实质是采用AlBert模型计算句子单元的语句语义值或语句结构值等信息作为关键特征,之后利用AlBert模型的预测机制,对句子单元对应若干分类标签的归属概率值进行预测。
下面以第一预测模型预测第一句子单元的第一分类标签和与第一分类标签对应的归属概率值为例,介绍识别模块13输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值的具体实施过程。
在本申请提供的一种具体实施方式中,所述文本集合至少包括第一句子单元。
识别模块13通过第一预测模型对第一句子单元进行关键特征提取,得到与分类标签相关的关键特征信息;
第一预测模型将所述关键特征信息经过Softmax函数计算,得到对应分类标签的归属概率值;
识别模块13将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签。
需要强调的是,文本集合可以由多个句子单元构成、单个句子单元也可能具有多个分类标签。为使描述简洁,此处仅以第一预测模型预测第一句子单元的第一分类标签和与第一分类标签对应的归属概率值进行描述,并不能因此而理解为对发明专利范围的限制。
当然,第一预测模型基于历史训练数据得到,因此本申请还提供所述第一预测模型的步骤训练:
获取具有真实分类标签的句子单元作为训练数据;
计算预测分类标签与真实分类标签的交叉熵,进行负反馈优化,以对所述第一预测模型进行迭代训练。
在本申请提供的一种具体应用场景中,文本排版***100应用于法律文书排版。在此应用场景下,任意句子单元固定有六种标签,分别为标题段标签、当事人段标签、事实与理由段标签、审判结果段标签、审判组织段标签、法律法条段标签。换句话说,训练后的第一预测模型只能计算输入的句子单元归类于这六种标签的概率。
具体的,识别模块13输入第一句子单元至训练后的第一预测模型。第一预测模型在第一句子单元的句首加入标签 [CLS],将句首标签所对应的输出特征向量后接入全连接层和 Softmax 层,以保证输出维数与类别数目一致,最后通过 argmax 操作得到相对应的类别结果,之后计算预测分类标签与真实分类标签的交叉熵,将其作为优化目标,在任务数据上进行微调训练。最后识别模块13将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签。
例如,识别模块13将“原告:xxx,女,地址:xxxxxxx”作为第一句子单元输入至训练后的第一预测模型,将输出:
当事人标签 0.9
事实与理由标签 0.2
法条标签 0.1
判决结果标签 0.01
审判组织标签 0.01
其中当事人标签为归属概率值最高的分类标签,则识别模块13将作为第一句子单元的第一分类标签。
识别模块13还输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。
需要指出的是,此处的第二预测模型不同于第一预测模型,所述第二预测模型用于根据句子单元中的实体,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。进一步的,所述实体可以理解为是词级别的对象,例如当事人的名字、法院的名称、公司的名称、货币、日期等信息的文本。
在实际应用中,所述第二预测模型可以表现为MLP多层感知模型(Multi-Layerperceptron) 或基于MLP多层感知模型开发的其他感知模型,例如gMLP(gate Multi-Layerperceptron)模型。
具体的,所述MLP是深度神经网络(DNN)的基础算法,由输入层、中间层和输出层构成。而gMLP模型基于MLP多层感知模型与门控机制的结合,使其更适用于关键语言的识别。本申请优选采用gMLP模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。
在本申请提供的一种具体实施方式中,所述文本集合中的任意句子单元由若干实体构成。所述实体具有若干实体标签,用于表征实体种类。
在具体的应用中,第二预测模型可以根据句子单元中的实体标签种类或实体标签的排列顺序,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值。其中,根据句子单元中的实体标签种类的处理速度更为快速,根据句子单元中的实体标签的排列顺序的准确率更高。
下面先介绍第二预测模型根据句子单元中的实体标签的排列顺序,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的实施过程:
为便于第二预测模型根据句子单元中的实体标签的排列顺序,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,所述文本排版***100还包括预设模块,用于建立实体标签排列顺序与句子单元分类标签的映射关系,生成第一预设分类标签表。
所述第一预设分类标签表可以理解为实体标签的排列顺序与句子单元分类标签的对应关系。例如,当句子单元中实体标签的排列顺序为“人名+地名+当事人” 排列顺序,则可以推断出句子单元的分类标签为当事人标签。
下面以第二预测模型预测第一句子单元的第二分类标签和与第二分类标签对应的归属概率值为例,介绍识别模块13输入所述文本集合至第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的具体实施过程。所述第一句子单元由若干实体构成。
识别模块13输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序;
识别模块13计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度;
识别模块13将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值;
识别模块13根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
在本申请提供的一种具体应用场景中,文本排版***100应用于法律文书排版。在此应用场景下,任意句子单元中的实体标签可以表现为诉讼地位、姓名、地址、职务、文书标题、事实、理由等。
识别模块13输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序可以表现为:
在每个实体的语义特征向量之后添加全连接层,将语义特征转化为序列标注任务所需的特征。单句标注任务需要对每个实体都做标注,因此不需要引入辅助向量,直接对经过全连接层后的结果做 Softmax 操作,即可得到第一句子单元中各实体标签的概率分布。之后识别模块13选择最高概率对应的标签作为实体标签,则可以得到第一句子单元中实体标签的排列顺序。
之后识别模块13计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度。
识别模块13将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值。最后识别模块13根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
当然,识别模块13将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值也有可能出现误差。为进一步提高第二预测模型对第一句子单元的分类标签预测准确率,在本申请提供的又一种具体实施方式中,所述第一预设分类标签表还包括评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数。所述预设权重值可以理解为法律工作者根据自身经验给出的判断因素。
则识别模块13输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体还包括:
识别模块13根据实体标签排列顺序与句子单元分类标签的映射关系、评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数;
识别模块13将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度乘以预设权重值的结果,作为对应分类标签的归属概率值。
这样加入法律工作者根据自身经验给出的预设权重值,可以使得第二预测模型对第一句子单元的分类标签预测准确率更高。
下面介绍第二预测模型根据句子单元中的实体标签种类,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的实施过程:
为便于第二预测模型根据句子单元中的实体标签种类,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,所述文本排版***100还包括预设模块,用于建立句子单元中的实体标签种类与句子单元分类标签的映射关系,生成第二预设分类标签表。
所述第二预设分类标签表可以理解为实体标签种类与句子单元分类标签的对应关系。例如,当句子单元中实体标签种类包括“人名、地名、当事人”,则可以推断出句子单元的分类标签为当事人标签。
下面以第二预测模型预测第一句子单元的第二分类标签和与第二分类标签对应的归属概率值为例,介绍识别模块13输入所述文本集合至第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值的具体实施过程。所述第一句子单元由若干实体构成。
识别模块13输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的种类;
识别模块13计算第一句子单元中实体标签的种类与第二预设分类标签表中实体标签种类的关联度;
识别模块13将第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度,作为对应分类标签的归属概率值;
识别模块13根据实体标签种类与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
在本申请提供的一种具体应用场景中,文本排版***100应用于法律文书排版。在此应用场景下,任意句子单元中的实体标签可以表现为诉讼地位、姓名、地址、职务、文书标题、事实、理由等。
在识别模块13输入所述文本集合至第二预测模型,识别第一句子单元中实体标签种类后,计算第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度可以表现为:
第一句子单元中的实体标签可视为集合A。集合A中总共有n个实体,第二预设分类标签表中有对应句子单元分类标签的实体标签种类。以句子单元分类标签为审理方式标签为例,集合A中有m个实体标签种类在对应审理方式标签的实体标签种类中出现,即此句子单元的分类标签为审理方式标签的关联度P为m/n。此时将剩下的(n-m)个实体去其他对应句子单元分类标签的实体标签种类中查找,依次获得其他关联度。
识别模块13将第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度,作为对应分类标签的归属概率值。最后根据实体标签种类与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
再之后识别模块13根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签。
需要指出的是,识别模块13通过两种不同的模型对句子单元的分类标签做出预测,相当于提供两种参考信息,后续再在两个分类标签中选择一个作为最终的预测结果,从而提高了对句子单元分类标签的预测准确率。
进一步的,在本申请提供的一种具体实施方式中,识别模块13根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,具体包括:
当第一分类标签与第二分类标签相同,识别模块13确定第一分类标签作为所述句子单元的第三分类标签;
当第一分类标签与第二分类标签不同,识别模块13比较第一分类标签的归属概率值与第二分类标签的归属概率值;
识别模块13确定归属概率值最高的分类标签作为所述句子单元的第三分类标签。
换句话说,当第一分类标签与第二分类标签相同,识别模块13就不再考虑第一分类标签的归属概率值与第二分类标签的归属概率值,而是直接将第一分类标签作为所述句子单元的第三分类标签。而当第一分类标签与第二分类标签不同,识别模块13则选择归属概率值最高的分类标签作为所述句子单元的第三分类标签。
进一步的,在本申请提供的又一种具体实施方式中,识别模块13根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,还可以表现为:
在第一分类标签与第二分类标签相同的情况下,以第二预设权重系数乘以与第一分类标签对应的归属概率值生成第一结果、以第三预设权重系数乘以与第二分类标签对应的归属概率值生成第二结果;
将第一结果与第二结果相加,得到对应第一分类标签最终归属概率值的第三结果;
确定最终归属概率值最高的分类标签作为所述句子单元的第三分类标签。
需要指出的是,在这里的具体实施方式中,本申请提供的文本排版***100更为关注第一预测模型预测句子单元的所有分类标签、和第二预测模型预测句子单元的所有分类标签,对于确定句子单元的第三分类标签的影响。随着关注对象的增加,这样的选择方案也更加智能、准确率更高。
当然,文本集合可以由多个句子单元构成、单个句子单元也可能具有多个分类标签。为使描述简洁,此处以第一预测模型预测第一句子单元的第一分类标签和与第一分类标签对应的归属概率值、第二预测模型预测第一句子单元的第二分类标签和与第二分类标签对应的归属概率值进行描述,并不能因此而理解为对发明专利范围的限制。
在具体的实施过程中,可以将第一预测模型预测句子单元的所有分类标签和与分类标签对应的归属概率值保存为第一概率表。将第二预测模型预测句子单元的所有分类标签和与分类标签对应的归属概率值保存为第二概率表。
根据第一概率表、第二概率表,确定同一分类标签和该分类标签在第一概率表、第二概率表中对应的归属概率值。以预设的两种权重系数乘以同一分类标签在第一概率表、第二概率表中对应的归属概率值,再对结果进行相加,从而作为该分类标签的最终归属概率值。
最后将所有分类标签和与分类标签对应的最终归属概率值保存为第三概率表。确定最终归属概率值最高的分类标签作为所述句子单元的第三分类标签。
最后排版模块14获取具有分类标签排列规则的待输入区域。排版模块14根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元。
其中,排版模块14获取的具有分类标签排列规则的待输入区域可以理解为输入模板。通常所述获取具有分类标签排列规则的待输入区域表现为word文档的输入区域。
进一步的,所述待输入区域的分类标签排列规则用于指示不同分类标签的分布位置。排版模块14根据分类标签排列规则,可以在待输入区域填入对应第三分类标签的句子单元,从而完成针对句子级别的文本排版。而若干句子单元将构成的段落,从而实现在不同的应用场景下,对于段落的灵活排版。
当然,所述待输入区域的分类标签排列规则可以根据使用需求而进行调整。而对待输入区域的分类标签排列规则的调整,通常是改变模板中分类标签的类型,或改变模板中分类标签的位置,从而调整针对句子级别的文本排版。
进一步的,所述分类标签排列规则还可以包括字体属性设置或段落属性设置。排版模块14根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元也将遵循设置的字体属性或段落属性,从而实现对不同句子、不同段落的分立设置,使得文本排版更为灵活。
当然,识别模块13也可以对句子单元同类的分类标签的基础上,进一步设置子标签。相应的,在所述待输入区域的分类标签排列规则中加入对子标签的字体属性设置或段落属性设置,从而实现排版模块14对同一段落中不同句子单元进行字体属性或段落属性的分立设置,进一步使得文本排版更为灵活。
综上所述,本申请提供的文本排版***100,通过分割模块12对所述文本数据进行分句,以针对句子级别的文本进行排版,提高了文本排版的灵活性;通过识别模块13采用两种不同的模型对句子单元的分类标签做出预测,后续再在两个分类标签中选择一个作为最终的预测结果,从而提高了对句子单元分类标签的预测准确率,进而提高了文本排版的准确率。并且,其中一种模型对句子单元分类标签的预测过程中加入法律工作者根据自身经验给出的预设权重值,使得该预测模型对句子单元的分类标签预测准确率更高。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种文本排版方法,其特征在于,包括以下步骤:
获取文本数据;
对所述文本数据进行分句,得到元素为句子单元的文本集合;
输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值;
根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签;
获取具有分类标签排列规则的待输入区域;
根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元;
所述文本集合至少包括第一句子单元;
输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值,具体包括:
通过第一预测模型对第一句子单元进行关键特征提取,得到与分类标签相关的关键特征信息;
将所述关键特征信息经过Softmax函数计算,得到对应分类标签的归属概率值;
将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签;
其中,所述第一预测模型为预训练模型;
所述第一预测模型通过以下步骤训练获得:
获取具有真实分类标签的句子单元作为训练数据;
计算预测分类标签与真实分类标签的交叉熵,进行负反馈优化,以对所述第一预测模型进行迭代训练。
2.如权利要求1所述的文本排版方法,其特征在于,所述第一句子单元由若干实体构成;所述实体具有若干实体标签;
所述方法还包括:
建立实体标签排列顺序与句子单元分类标签的映射关系,生成第一预设分类标签表;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体包括:
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序;
计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值;
根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
3.如权利要求2所述的文本排版方法,其特征在于,根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,具体包括:
当第一分类标签与第二分类标签相同,确定第一分类标签作为所述句子单元的第三分类标签;
当第一分类标签与第二分类标签不同,比较第一分类标签的归属概率值与第二分类标签的归属概率值;
确定归属概率值最高的分类标签作为所述句子单元的第三分类标签。
4.如权利要求2所述的文本排版方法,其特征在于,所述第一预设分类标签表还包括评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体还包括:
根据实体标签排列顺序与句子单元分类标签的映射关系、评价实体标签排列顺序与句子单元分类标签映射关系的第一预设权重系数;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度乘以预设权重值的结果,作为对应分类标签的归属概率值。
5.如权利要求1所述的文本排版方法,其特征在于,所述第一句子单元由若干实体构成;所述实体具有若干实体标签;
所述方法还包括:
建立句子单元中的实体标签种类与句子单元分类标签的映射关系,生成第二预设分类标签表;
输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体包括:
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的种类;
计算第一句子单元中实体标签的种类与第二预设分类标签表中实体标签种类的关联度;
将第一句子单元中实体标签种类与第二预设分类标签表中实体标签种类的关联度,作为对应分类标签的归属概率值;
根据实体标签种类与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
6.如权利要求1所述的文本排版方法,其特征在于,根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签,具体包括:
在第一分类标签与第二分类标签相同的情况下,以第二预设权重系数乘以与第一分类标签对应的归属概率值生成第一结果、以第三预设权重系数乘以与第二分类标签对应的归属概率值生成第二结果;
将第一结果与第二结果相加,得到对应第一分类标签最终归属概率值的第三结果;
确定最终归属概率值最高的分类标签作为所述句子单元的第三分类标签。
7.一种文本排版***,其特征在于,包括:
获取模块,用于获取文本数据;
分割模块,用于对所述文本数据进行分句,得到元素为句子单元的文本集合;
识别模块,用于输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值;还用于输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值;还用于根据所述句子单元的第一分类标签和与第一分类标签对应的归属概率值、所述句子单元的第二分类标签和与第二分类标签对应的归属概率值,确定所述句子单元的第三分类标签;
排版模块,用于获取具有分类标签排列规则的待输入区域;还用于根据分类标签排列规则,在待输入区域填入对应第三分类标签的句子单元;
所述文本集合至少包括第一句子单元;
所述识别模块用于输入所述文本集合至第一预测模型,预测句子单元的第一分类标签和与第一分类标签对应的归属概率值,具体用于:
通过第一预测模型对第一句子单元进行关键特征提取,得到与分类标签相关的关键特征信息;
将所述关键特征信息经过Softmax函数计算,得到对应分类标签的归属概率值;
将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标签;
其中,所述第一预测模型为预训练模型;
所述第一预测模型通过以下步骤训练获得:
获取具有真实分类标签的句子单元作为训练数据;
计算预测分类标签与真实分类标签的交叉熵,进行负反馈优化,以对所述第一预测模型进行迭代训练。
8.如权利要求7所述的文本排版***,其特征在于,所述第一句子单元由若干实体构成;所述实体具有若干实体标签;
所述文本排版***还包括:
预设模块,用于建立实体标签排列顺序与句子单元分类标签的映射关系,生成第一预设分类标签表;
所述识别模块用于输入所述文本集合至不同于第一预测模型的第二预测模型,预测句子单元的第二分类标签和与第二分类标签对应的归属概率值,具体用于:
输入所述文本集合至不同于第一预测模型的第二预测模型,识别第一句子单元中实体标签的排列顺序;
计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度;
将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序的关联度,作为对应分类标签的归属概率值;
根据实体标签排列顺序与句子单元分类标签的映射关系,将第二预测模型输出的归属概率值最高的分类标签作为第一句子单元的第二分类标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211276577.6A CN115358206B (zh) | 2022-10-19 | 2022-10-19 | 文本排版方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211276577.6A CN115358206B (zh) | 2022-10-19 | 2022-10-19 | 文本排版方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115358206A true CN115358206A (zh) | 2022-11-18 |
CN115358206B CN115358206B (zh) | 2023-03-24 |
Family
ID=84008035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211276577.6A Active CN115358206B (zh) | 2022-10-19 | 2022-10-19 | 文本排版方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115358206B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090099A (zh) * | 2016-11-22 | 2018-05-29 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN108920579A (zh) * | 2018-06-22 | 2018-11-30 | 龙马智芯(珠海横琴)科技有限公司 | 句子的分类方法、装置、终端设备及存储介质 |
CN110222182A (zh) * | 2019-06-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
CN111475626A (zh) * | 2020-06-22 | 2020-07-31 | 上海冰鉴信息科技有限公司 | 裁判文书结构化分块方法及装置 |
CN112860889A (zh) * | 2021-01-29 | 2021-05-28 | 太原理工大学 | 一种基于bert的多标签分类方法 |
CN113704471A (zh) * | 2021-08-26 | 2021-11-26 | 唯品会(广州)软件有限公司 | 语句的分类方法、装置、设备和存储介质 |
CN115130538A (zh) * | 2022-04-20 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本处理的方法、设备及介质 |
-
2022
- 2022-10-19 CN CN202211276577.6A patent/CN115358206B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090099A (zh) * | 2016-11-22 | 2018-05-29 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN108920579A (zh) * | 2018-06-22 | 2018-11-30 | 龙马智芯(珠海横琴)科技有限公司 | 句子的分类方法、装置、终端设备及存储介质 |
CN110222182A (zh) * | 2019-06-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
CN111475626A (zh) * | 2020-06-22 | 2020-07-31 | 上海冰鉴信息科技有限公司 | 裁判文书结构化分块方法及装置 |
CN112860889A (zh) * | 2021-01-29 | 2021-05-28 | 太原理工大学 | 一种基于bert的多标签分类方法 |
CN113704471A (zh) * | 2021-08-26 | 2021-11-26 | 唯品会(广州)软件有限公司 | 语句的分类方法、装置、设备和存储介质 |
CN115130538A (zh) * | 2022-04-20 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本处理的方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115358206B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
CN112016310A (zh) | 文本纠错方法、***、设备及可读存储介质 | |
CN110489555A (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN112711660B (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN112084334B (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
CN113435179A (zh) | 一种作文评阅方法、装置、设备及存储介质 | |
CN110795525A (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
CN113221545B (zh) | 一种文本处理方法、装置、设备及介质、程序产品 | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN111008530A (zh) | 一种基于文档分词的复杂语义识别方法 | |
CN114528845A (zh) | 异常日志的分析方法、装置及电子设备 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN114970506A (zh) | 基于多粒度语法错误模板学习微调的语法纠错方法和*** | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115358206B (zh) | 文本排版方法及*** | |
WO2023083176A1 (zh) | 样本处理方法、设备及计算机可读存储介质 | |
CN113095063A (zh) | 一种基于遮蔽语言模型的两阶段情感迁移方法和*** | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN115169370A (zh) | 语料数据增强方法、装置、计算机设备及介质 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 | |
CN110599230B (zh) | 一种二手车的定价模型构建方法,定价方法及装置 | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
CN116894427B (zh) | 一种中英文信息融合的数据分级方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |