CN110377889B

CN110377889B - 一种基于前馈序列记忆神经网络的文本编辑方法及***

Info

Publication number: CN110377889B
Application number: CN201910487145.1A
Authority: CN
Inventors: 吴立刚; 刘迪; 邱镇; 黄晓光; 浦正国; 梁翀; 韩涛; 张天奇; 余江斌; 宋杰; 何东; 郭庆; 吴小华; 胡心颖; 周伟
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Anhui Jiyuan Software Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2023-06-20
Anticipated expiration: 2039-06-05
Also published as: CN110377889A

Abstract

本发明公开了一种基于前馈序列记忆神经网络的文本编辑方法，属于语音信号处理技术领域，包括：获取待编辑的原始文本；接收编辑语音数据；对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别，得到编辑命令；对所述编辑命令进行语义理解，执行所述编辑命令。本发明示例的技术方案，采用基于改进的前馈序列记忆神经网络进行语音识别，文本编辑更准确高效。

Description

一种基于前馈序列记忆神经网络的文本编辑方法及***

技术领域

本发明属于语音信号处理技术领域，具体而言是一种基于前馈序列记忆神经网络的文本编辑方法及***。

背景技术

随着手机的普及，人们每天都会在手机或平板电脑等便携式设备上接收到大量的文本信息。例如，短信、即时通讯类软件或其他软件推送的消息、网页内容和文字新闻等。当人们想要对文本信息中感兴趣的文字内容进行编辑时，首先需要将光标定位在感兴趣的文字内容处，再对选中的文字进行后续的操作，例如在光标位置新增文字、对选中的文字进行替换操作等，编辑过程复杂、不便捷。目前有技术是接收用户录入的语音数据，再根据语音数据对编辑对象执行相应的编辑操作即可。这样，用户在进行文本编辑时，不仅可以直接快速的选定文本中的编辑对象，无需复杂文本选中操作，用户还可以通过语音录入直接实现对编辑对象的编辑，简化了文本编辑过程。但是目前的接收语音数据后直接执行操作，不对语音任何处理，在一些远场以及噪音干扰比较强的情况下，语音识别***的性能不够理想，导致文本编辑不准确。

发明内容

为了解决上述现有技术中的不足，本发明的目的在于提供一种基于前馈序列记忆神经网络的文本编辑方法，采用基于改进的前馈序列记忆神经网络进行语音识别，文本编辑更准确高效。

为了解决上述技术问题，本发明采用如下技术方案：

一方面，本发明提供了一种基于前馈序列记忆神经网络的文本编辑方法，具体步骤为：

S1：获取待编辑的原始文本；

S2：接收编辑语音数据；

S3：对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别，得到编辑命令；

S4：对所述编辑命令进行语义理解，执行所述编辑命令。

进一步优选的，所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层，将记忆模块装备在所述线性投影层上，在相邻所述记忆模块添加跳转连接，从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块。

进一步优选的，所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达。

进一步优选的，所述记忆模块的操作采用基于标量或者矢量的编码。

进一步优选的，所述记忆模块的编码引入步幅因子。

另一方面，本发明还提供了一种基于前馈序列记忆神经网络的文本编辑***，包括：

采集单元，配置用获取待编辑的原始文本；

接收单元；配置用于接收编辑语音数据；

识别单元，配置用于对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别，得到编辑命令；

输出单元，配置用于对所述编辑命令进行语义理解，执行所述编辑命令，输出编辑文本。

另一方面，本发明还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行本发明示例的任一种基于前馈序列记忆神经网络的文本编辑方法。

另一方面，本发明还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现本发明示例的任一种基于前馈序列记忆神经网络的文本编辑。

与现有技术相比，本发明的有益效果为：

本发明示例的一种基于前馈序列记忆神经网络的文本编辑方法，获取待编辑的原始文本并接收用户录入的语音数据，再根据语音数据对编辑对象执行相应的编辑操作即可，这样，用户在进行文本编辑时，不仅可以直接快速的选定文本中的编辑对象，无需复杂文本选中操作，用户还可以通过语音录入直接实现对编辑对象的编辑，简化了文本编辑过程。另外，对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别，文本编辑更准确高效。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一个实施例的流程示意图；

图2为改进的前馈序列记忆神经网络的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本发明的一个实施例提供了一种基于前馈序列记忆神经网络的文本编辑方法，具体步骤为：

S1：获取待编辑的原始文本；

S2：接收编辑语音数据；

S4：对所述编辑命令进行语义理解，执行所述编辑命令。

所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层，将记忆模块装备在所述线性投影层上，在相邻所述记忆模块添加跳转连接，从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块。

所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达。

所述记忆模块的操作采用基于标量或者矢量的编码。

所述记忆模块的编码引入步幅因子，具体的计算公式如下：

其中

代表前一个cFSMN-layer层的记忆模块的输出,s1和s2分别代表回看和向

未来看的步幅。如果s1＝2则表示对历史编码时每个一个时刻取一个输入。这样在相同

的阶数情况下，就可以看到更远的历史，从而可以更加有效的对长时相关性进行建模。

本实施例改进的前馈序列记忆神经网络(cFSMN)与现有的Sigmoid-DNN、LSTM、BLSTM、sFSMN和vFSMN的语音识别***在SWB数据库上的性能以及模型参数量和每次迭代的训练时间对比，见表1：

表1：语音识别***在SWB数据库上的性能以及模型参数量和每次迭代的训练时间

实验结果表明，那些可以有效对长时相关进行建模的模型，例如LSTM和FSMN，可以取得DNN显著的性能提升。LSTM—次迭代需要9.5个小时，而BLSTM则需要23.2个小时。这是因为NVIDIA Tesla K20GPU内存只有3GB，从而基于BPTT训练的BLSTM只能采用16句话并行，而LSTM则可以采用64句话并行。所提出来的vFSMN相比于BLSTM可以获得少量的性能提升。vFSMN的模型结构更加简单，训练速度也更加迅速，一次迭代的vFSMN训练大致需要6.9小时，相比于BLSTM可以获得3倍的训练加速。但是vFSMN的模型参数却比BLSTM多。进一步的，提出的cFSMN可以将模型总的参数减少到74MB，相比于BLSTM，可以将参数量减少60％。更加重要的是，每次迭代只需要3.0小时，相比于BLSTM可以获得大致7倍的训练加速。而且基于cFSMN的模型可以获得12.5％的词错误率，相比于BLSTM可以获得0.9％个点的绝对性能提升。

改进的前馈序列记忆神经网络表示为216-N×[2048-P(N₁,N₂)]-M×2048-P-8911,其中N和M分别代表cFSMN-layer和标准全连接层的数目。P是低秩线性投影层的节点数目。N₁,N₂分别代表回看和前看的滤波器阶数。不同配置的采用改进的前馈序列记忆神经网络(cFSMN)声学模型在FSH任务的性能测试见表2：

表2：不同配置的采用快捷连接训练深层的cFSMN声学模型在FSH任务的性能

实验结果:exp1和exp2的结果表明了采用如公式(1)的记忆模块编码公式，通过设置大的步幅，可以看到更远的上下文信息，从而可以获得更好的性能。从exp2到exp6，逐渐增加cFSMN-layer的数目，模型性能逐渐提升。最终通过添加跳转连接，可以成功训练一个包含12个cFSMN-layer和2个全连接层的深层cFSMN，标记为Deep-cFSMN，在Hub5e00测试集上获得9.3％的词错误率。

采集单元，配置用获取待编辑的原始文本；

接收单元；配置用于接收编辑语音数据；

另一方面，本发明还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

除说明书所述的技术特征外，其余技术特征为本领域技术人员的已知技术，为突出本发明的创新特点，其余技术特征在此不再赘述。

Claims

1.一种基于前馈序列记忆神经网络的文本编辑方法，其特征在于：具体步骤为：

S1：获取待编辑的原始文本；

S2：接收编辑语音数据；

S4：对所述编辑命令进行语义理解，执行所述编辑命令；

所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层，将记忆模块装备在所述线性投影层上，在相邻所述记忆模块添加跳转连接，从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块；

所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达；

所述记忆模块的操作采用基于标量或者矢量的编码。

2.据权利要求1所述的基于前馈序列记忆神经网络的文本编辑方法，其特征在于：所述记忆模块的编码引入步幅因子。

3.一种基于前馈序列记忆神经网络的文本编辑***，包括：

采集单元，配置用获取待编辑的原始文本；

接收单元；配置用于接收编辑语音数据；

输出单元，配置用于对所述编辑命令进行语义理解，执行所述编辑命令，输出编辑文本；

所述记忆模块的操作采用基于标量或者矢量的编码。

4.一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行权利要求1-2任一所述的一种基于前馈序列记忆神经网络的文本编辑方法。

5.一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现权利要求1-2任一所述的一种基于前馈序列记忆神经网络的文本编辑方法。