CN111090981B - 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及*** - Google Patents

基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及*** Download PDF

Info

Publication number
CN111090981B
CN111090981B CN201911241042.3A CN201911241042A CN111090981B CN 111090981 B CN111090981 B CN 111090981B CN 201911241042 A CN201911241042 A CN 201911241042A CN 111090981 B CN111090981 B CN 111090981B
Authority
CN
China
Prior art keywords
sentence
marks
loss function
chinese text
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911241042.3A
Other languages
English (en)
Other versions
CN111090981A (zh
Inventor
屈丹
杨绪魁
张文林
司念文
陈琦
牛铜
闫红刚
张连海
李�真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force , Zhengzhou Xinda Institute of Advanced Technology filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN201911241042.3A priority Critical patent/CN111090981B/zh
Publication of CN111090981A publication Critical patent/CN111090981A/zh
Application granted granted Critical
Publication of CN111090981B publication Critical patent/CN111090981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该***包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。

Description

基于双向长短时记忆网络的中文文本自动断句与标点生成模 型构建方法及***
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***。
背景技术
现有的文本自动断句与标点方法,主要分为两方面:一方面集中于研究英语文本的断句与标点,而中文文本(如古汉语文本)虽有部分研究,但采用的方法多为传统的统计机器学习模型(如条件随机场),这类方法需要人工特征设计,且准确率并不高,并且实现的功能只涉及自动断句功能,而较少或不涉及自动添加标点符号功能(陈萧,柯登峰,徐波.基于全局词汇信息的中文口语句子标点生成[C]//第十二届全国人机语音通讯学术会议(NCMMSC'2013).)(张合,王晓东,杨建宇,et al.一种基于层叠CRF的古文断句与句读标记方法[J].计算机应用研究,2009,26(9):3326-3329.)。另一方面的研究集中于语音转写文本后处理领域,如公开号为CN 102231278 A的发明专利中需要结合语句间停顿位置时长(设置门限值),加上分类器的分类作用,共同决定当前位置添加标点类型,这样断句与标点功能时延较长,实时性不高,并且添加标点的模型较为复杂。
发明内容
本发明针对语音转写文本中,无法自动断句以及标点符号缺失的问题,提出一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***。
为了实现上述目的,本发明采用以下技术方案:
一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,包括:
步骤1:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;
步骤2:利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
步骤3:采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
进一步地,所述步骤1包括:
步骤1.1:保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
步骤1.2:将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;
步骤1.3:将语料中的四则运算符、希腊字母保留;
步骤1.4:为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号。
进一步地,所述步骤3包括:
采用对数似然损失函数,损失函数为:
Figure BDA0002306235820000021
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
在句子x(i)中,计算输出标签y(i)中逗号、句号、问号及感叹号对应标签的个数:
Figure BDA0002306235820000022
其中n表示标签的个数,j表示标签号,
Figure BDA0002306235820000023
表示第i个句子第j个标签的个数;
加入长句惩罚因子β,对损失函数进行改进,改进后的损失函数为:
Figure BDA0002306235820000024
以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***,包括:
语料处理模块,用于将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;
网络结构选择模块,用于利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
模型构建与优化模块,用于采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
进一步地,所述语料处理模块具体用于:
保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;
将语料中的四则运算符、希腊字母保留;
为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号。
进一步地,所述模型构建与优化模块具体用于:
采用对数似然损失函数,损失函数为:
Figure BDA0002306235820000031
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
在句子x(i)中,计算输出标签y(i)中逗号、句号、问号及感叹号对应标签的个数:
Figure BDA0002306235820000041
其中n表示标签的个数,j表示标签号,
Figure BDA0002306235820000042
表示第i个句子第j个标签的个数;
加入长句惩罚因子β,对损失函数进行改进,改进后的损失函数为:
Figure BDA0002306235820000043
以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
与现有技术相比,本发明具有的有益效果:
本发明可以解决语音转写文本中,无法自动断句以及标点符号缺失等问题。通过本发明中提供的技术方案和实现方法,能够对语音识别文本进行后处理,自动断句和添加4种常用的标点符号(逗号,句号,问号,感叹号),能够明显提升用户的阅读体验。
本发明将自动标点视为一个标准的自然语言序列标注任务,采用双向LSTM 网络为时序文本序列建模,对输入的每个字符打上标签,共设计了五种标签,分别表示该字符后紧跟着下一字符的形式:{非标点符号,逗号,句号,问题,感叹号},以此标准格式将原始文本预处理,制作训练语料,训练中采用时政、法律、名著小说等多领域文本约300M左右,输入到一个2层的双向LSTM中进行学习,经过多次迭代优化后,输出每个字符对应的标签,再进行标点符号恢复,即得到添加标点后的文本。
附图说明
图1为本发明实施例一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法的基本流程图;
图2为本发明实施例自动断句与标点生成模型网络结构示意图;
图3为本发明实施例一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***的架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
实施例1
如图1所示,一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,包括:
步骤S101:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;
步骤S102:利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
步骤S103:采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
具体地,所述步骤S101包括:
步骤S101.1:保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
步骤S101.2:将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;替换策略具体如表1所示:
表1训练语料标点处理策略
Figure 1
步骤S101.3:将语料中的四则运算符、希腊字母保留;
步骤S101.4:为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号:
具体地,共设计了五种标签:
标签1:N,对应NONE;
标签2:C,对应COMMA;
标签3:P,对应PERIOD;
标签4:Q,对应QUESTION;
标签5:E,对应EXCLAMATION。
以上标签中,分别表示该字符后紧跟着下一字符的形式:
非标点符号,逗号,句号,问号,感叹号。
以此标准格式将原始中文文本进行预处理,制作训练语料,输入到一个双向长短时记忆网络中进行学习,输出每个字符对应的标签,再进行标点恢复即可。
示例如下:
原始:他指出,这次会…
输入:他指出这次会…
标签:N N C N N N…。
具体地,所述步骤S102包括:
自然语言序列标注任务中,经常用到循环神经网络(recurrent neural network,RNN)模型,其中,长短时记忆网络(long short-term memory,LSTM)作为一种特殊类型的RNN,通过在每个隐含层单元内部引入记忆单元(memory cell)和门机制(gatedmechanism),用于控制信息流的输入和输出,有效解决了普通的 RNN存在的梯度消失问题。与之相比,LSTM更加擅长处理序列化数据如自然语言文本,可对序列中较大范围的上下文信息建模。
本发明采用的技术方案中,利用双向LSTM(bidirectional LSTM,BLSTM) 网络从正反两个方向来对自然语言文本进行建模,实现自动断句和标点功能,具体模型结构如图2所示。
上述网络结构中,各层的作用如下:
a)输入层和Embedding层:输入层采用去除标点的训练语料作为输入,通过建立word2id和id2word两个映射,实现从字符到字符索引之间的变换。索引序列按照字符向量表中初始化得到的字典来排序,按照这样的序列,同时可以实现索引到字符向量的变换。Embedding层的功能即是对字符向量的索引,将输入文字转化为统一维度的字符向量,其中包含丰富的语义信息。该模型中,使用的字符向量维度为300维,字典大小为14157。
b)前向和反向LSTM层:分别计算前向LSTM隐状态和反向LSTM隐状态,然后投射到共同的输出层。单向LSTM只含一个方向的隐层,根据当前时刻输入向量xt和前一时刻的隐状态向量ht-1,计算当前时刻隐状态ht。而双向LSTM包含前向层和反向层,需要分别计算当前时刻前向层的隐状态向量
Figure BDA0002306235820000071
和反向隐状态向量
Figure BDA0002306235820000072
Figure BDA0002306235820000073
Figure BDA0002306235820000074
其中m为隐单元维度,LSTM()函数表示LSTM网络的非线性变换,其主要功能是将输入字符向量编码为对应的隐状态向量。
c)输出层:采用加权求和的方式,将前向隐状态向量
Figure BDA0002306235820000075
和反向隐状态向量
Figure BDA0002306235820000076
进行线性组合,得到BLSTM的隐层向量ht∈Rm×1
Figure BDA0002306235820000077
其中,W1∈Rm×m和V1∈Rm×m为权重矩阵,b1∈Rm×1为相应的偏移项。该隐含层同时聚合了输入序列中当前元素的前向和后向两个方向的序列信息,能够为标注提供更加丰富的上下文特征。
具体地,所述步骤S103包括:
给定训练集
Figure BDA0002306235820000078
其中第i个句子
Figure BDA0002306235820000079
对应的标签序列为y(i)=[y1 (i),y2 (i),...,yn (i)]。模型训练中,采用对数似然损失函数,加上L2 正则化项,损失函数为:
Figure BDA00023062358200000710
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
为了提升断句质量和阅读体验,促进更加精细的断句,使结果中句长越短越好,这里对损失函数进行改进,加入长句惩罚因子:
在句子x(i)中,计算输出标签y(i)中逗号、句号、问号及感叹号对应标签的个数,即在句子x(i)中,计算其输出标签y(i)中非“NONE”标签的个数,也即计算 COMMA(逗号)、PERIOD(句号),QUESTION(问号),EXCLAMATION (感叹号):
Figure BDA0002306235820000081
其中n表示标签的个数,j表示标签号,
Figure BDA0002306235820000082
表示第i个句子第j个标签的个数;
将上式加入损失函数中,并加入长句惩罚因子β,对损失函数进行改进,跟随批次共同计算平均句长损失,改进后的损失函数为:
Figure BDA0002306235820000083
以最小化改进后的对数似然损失函数为目标进行中文文本自动断句与标点生成模型构建。
训练过程中,采用mini-batch梯度下降法,k为每个批次大小。应用Dropout 策略,以一定概率随机移除部分BLSTM隐层单元及其权重,防止训练数据过拟合。
为验证本发明效果,进行如下实验:
(1)获取原始中文文本语料(带标点符号),训练中采用时政、法律、名著等领域中文文本约300M左右。
(2)将原始文本中标点符号作归一处理,只保留逗号、句号、问号和感叹号,将其它标点符号自动归为这四类中的一类,或者直接去除。将归一处理后文本中每个单词标记为{N,C,P,Q,E}(代表{NONE,COMMA,PERIOD, QUESTION,EXCLAMATION})之一,并且这组标记规则被送到BLSTM神经网络进行训练。
(3)在另一部分随机抽取的文章中测试结果。
采用tensorflow库中的LSTM网络训练该标点生成模型,训练完成后将模型写入到*.pb二进制文件中,采用freeze_graph.py工具将权重数据与计算图冻结并生成可供C++调用的*.pb文件,在工程中即可应用。
采用本发明中的自动断句与标点生成模型,在公开语料上的部分实验结果如下所示:
表2公开语料上的部分实验结果示例
Figure BDA0002306235820000091
综上,本发明可以解决语音转写文本中,无法自动断句以及标点符号缺失等问题。通过本发明中提供的技术方案和实现方法,能够对语音识别文本进行后处理,自动断句和添加4种常用的标点符号(逗号,句号,问号,感叹号),能够明显提升用户的阅读体验。
本发明将自动标点视为一个标准的自然语言序列标注任务,采用双向LSTM 网络为时序文本序列建模,对输入的每个字符打上标签,共设计了五种标签,分别表示该字符后紧跟着下一字符的形式:{非标点符号,逗号,句号,问题,感叹号},以此标准格式将原始文本预处理,制作训练语料,训练中采用时政、法律、名著小说等多领域文本约300M左右,输入到一个2层的双向LSTM中进行学习,经过多次迭代优化后,输出每个字符对应的标签,再进行标点符号恢复,即得到添加标点后的文本。
实施例2
如图3所示,一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***,包括:
语料处理模块201,用于将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;
模型初始化模块202,用于利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
模型构建与优化模块203,用于采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
具体地,所述语料处理模块201具体用于:
保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;
将语料中的四则运算符、希腊字母保留;
为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号。
具体地,所述模型构建与优化模块203具体用于:
采用对数似然损失函数,损失函数为:
Figure BDA0002306235820000111
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
在句子x(i)中,计算输出标签y(i)中逗号、句号、问号及感叹号对应标签的个数:
Figure BDA0002306235820000112
其中n表示标签的个数,j表示标签号,
Figure BDA0002306235820000113
表示第i个句子第j个标签的个数;
加入长句惩罚因子β,对损失函数进行改进,改进后的损失函数为:
Figure BDA0002306235820000114
以最小化改进后的对数似然损失函数为目标进行中文文本自动断句与标点生成模型构建。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法,其特征在于,包括:
步骤1:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;所述步骤1包括:
步骤1.1:保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
步骤1.2:将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;
替换策略具体如下:
Figure FDA0003520421850000011
步骤1.3:将语料中的四则运算符、希腊字母保留;
步骤1.4:为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号;
步骤2:利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
步骤3:采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;所述步骤3包括:
采用对数似然损失函数,损失函数为:
Figure FDA0003520421850000012
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
在句子x(i)中,计算输出标签序列 y(i)中逗号、句号、问号及感叹号对应标签的个数:
Figure FDA0003520421850000021
其中n表示标签的个数,j表示标签号,
Figure FDA0003520421850000022
表示第i个句子第j个标签的个数;
加入长句惩罚因子β,对损失函数进行改进,改进后的损失函数为:
Figure FDA0003520421850000023
以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
2.一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建***,其特征在于,包括:
语料处理模块,用于将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;
网络结构选择模块,用于利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;
模型构建与优化模块,用于采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;
所述语料处理模块具体用于:
保留语料中的逗号、句号、问号及感叹号,且全部为全角符号;
将语料中的顿号、冒号、破折号及连接号替换为逗号,将分号及省略号替换为句号,将引号、括号、书名号及间隔号直接去除;
替换策略具体如下:
Figure FDA0003520421850000024
Figure FDA0003520421850000031
将语料中的四则运算符、希腊字母保留;
为输入的每个字符打上标签,所述标签用于表示该字符后紧跟着下一字符的形式:非标点符号,逗号,句号,问号,感叹号;
所述模型构建与优化模块具体用于:
采用对数似然损失函数,损失函数为:
Figure FDA0003520421850000032
其中x(i)表示第i个句子,1≤i≤N,N表示语料中句子总数,k表示批处理的句子的数量,1<k≤N,P(y(i)|x(i);θ)表示x(i)对应的标签序列y(i)的得分,θ表示模型的超参数集合,λ表示L2正则化参数;
在句子x(i)中,计算输出标签序列 y(i)中逗号、句号、问号及感叹号对应标签的个数:
Figure FDA0003520421850000033
其中n表示标签的个数,j表示标签号,
Figure FDA0003520421850000034
表示第i个句子第j个标签的个数;
加入长句惩罚因子β,对损失函数进行改进,改进后的损失函数为:
Figure FDA0003520421850000035
以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建。
CN201911241042.3A 2019-12-06 2019-12-06 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及*** Active CN111090981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911241042.3A CN111090981B (zh) 2019-12-06 2019-12-06 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241042.3A CN111090981B (zh) 2019-12-06 2019-12-06 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***

Publications (2)

Publication Number Publication Date
CN111090981A CN111090981A (zh) 2020-05-01
CN111090981B true CN111090981B (zh) 2022-04-15

Family

ID=70394814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241042.3A Active CN111090981B (zh) 2019-12-06 2019-12-06 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***

Country Status (1)

Country Link
CN (1) CN111090981B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723584B (zh) * 2020-06-24 2024-05-07 天津大学 基于考虑领域信息的标点预测方法
CN111951792B (zh) * 2020-07-30 2022-12-16 北京先声智能科技有限公司 一种基于分组卷积神经网络的标点标注模型
CN112001167B (zh) * 2020-08-26 2021-04-23 四川云从天府人工智能科技有限公司 一种标点符号添加方法、***、设备和介质
CN112101003B (zh) * 2020-09-14 2023-03-14 深圳前海微众银行股份有限公司 语句文本的切分方法、装置、设备和计算机可读存储介质
US20220139386A1 (en) * 2020-11-03 2022-05-05 Beijing Wodong Tianjun Information Tehnology Co., Ltd. System and method for chinese punctuation restoration using sub-character information
CN112906366B (zh) * 2021-01-29 2023-07-07 深圳力维智联技术有限公司 基于albert的模型构建方法、装置、***及介质
CN113542661A (zh) * 2021-09-09 2021-10-22 北京鼎天宏盛科技有限公司 一种视频会议语音识别方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887499A (zh) * 2019-04-11 2019-06-14 中国石油大学(华东) 一种基于循环神经网络的语音自动断句算法
CN110245332A (zh) * 2019-04-22 2019-09-17 平安科技(深圳)有限公司 基于双向长短时记忆网络模型的中文编码方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
SG10201507822YA (en) * 2010-09-24 2015-10-29 Univ Singapore Methods and systems for automated text correction
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report
US10423828B2 (en) * 2017-12-15 2019-09-24 Adobe Inc. Using deep learning techniques to determine the contextual reading order in a form document
US10431210B1 (en) * 2018-04-16 2019-10-01 International Business Machines Corporation Implementing a whole sentence recurrent neural network language model for natural language processing
CN109918666B (zh) * 2019-03-06 2024-03-15 北京工商大学 一种基于神经网络的中文标点符号添加方法
CN110110335B (zh) * 2019-05-09 2023-01-06 南京大学 一种基于层叠模型的命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887499A (zh) * 2019-04-11 2019-06-14 中国石油大学(华东) 一种基于循环神经网络的语音自动断句算法
CN110245332A (zh) * 2019-04-22 2019-09-17 平安科技(深圳)有限公司 基于双向长短时记忆网络模型的中文编码方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于循环神经网络的古文断句方法;王博立等;《北京大学学报(自然科学版)》;20161130;第53卷(第2期);参见第256页左栏第6段、右栏第6-8段、第257页左栏第2段、第258页左栏第2段 *
面向军事领域的句子级文本处理技术研究;司念文;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20190105(第1期);参见第10页第1段、第31页第2段、第42页第6段 *

Also Published As

Publication number Publication date
CN111090981A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111090981B (zh) 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及***
Du et al. Explicit interaction model towards text classification
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN111177374A (zh) 一种基于主动学习的问答语料情感分类方法及***
CN110347836B (zh) 融入观点句特征的汉越双语新闻情感分类方法
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及***
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN108829823A (zh) 一种文本分类方法
Xing et al. A convolutional neural network for aspect-level sentiment classification
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
Fung et al. Empathetic dialog systems
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN110222338A (zh) 一种机构名实体识别方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及***
CN112528649A (zh) 针对多语言混合文本的英文拼音识别方法和***
CN112131367A (zh) 自审核的人机对话方法、***及可读存储介质
CN114756681A (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN113609840B (zh) 一种汉语法律判决摘要生成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant