CN116524931A

CN116524931A - 5g富媒体消息语音转文本***、方法、电子设备及介质

Info

Publication number: CN116524931A
Application number: CN202310437314.7A
Authority: CN
Inventors: 沈浩; 黄海量; 吴东进; 韩松乔; 吴优
Original assignee: Shanghai Zhixun Information Technology Co ltd
Current assignee: Shanghai Zhixun Information Technology Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-01

Abstract

本发明实施例公开了一种5G富媒体消息语音转文本***、方法、电子设备及介质，包括：获取5G富媒体消息中的视频信息，基于视频信息构建视频消息信息集合Y，基于视频消息信息集合Y构建训练集；构建改进CTC模型，其中，改进CTC模型是在CTC模型的基础上引入最大熵函数对CTC模型中CTC原有损失函数进行改进；通过训练集对改进CTC模型进行训练，得到训练好的改进CTC模型；通过训练好的改进CTC模型将视频消息信息集合Y转换为视频文本集合y。该5G富媒体消息语音转文本方法解决现有技术中随着语音环境中噪音的增大，CTC模型识别周期增长的问题。

Description

5G富媒体消息语音转文本***、方法、电子设备及介质

技术领域

本发明涉及计算机技术领域，具体涉及一种5G富媒体消息语音转文本***、方法、电子设备及介质。

背景技术

5G富媒体消息是短消息行业通信能力一次重大的飞跃，相比于传统文字短信而言，5G富媒体消息支持的媒体格式更多，表现形式更丰富，不仅可以发送长文本、图片、语音、视频等富媒体信息，还包括了公众号、小程序等用户交互和反馈能力，使得5G富媒体消息的应用场景、内容质量、使用范围都极大的提升。

5G富媒体消息往往存在于营销类的视频素材中，背景声音掺杂丰富的噪音，传统CTC模型的解码方案虽然有效的解决了基于注意力语音识别方法中存在的未对准问题，但是随着语音环境中噪音的增大，传统CTC模型通过最大似然估计学习找寻的可行路径的概率会呈指数增加，并且一旦传统CTC模型找到了主要的可行路径，错误信息也会集中在该条路径附近，使得识别周期被剧烈的放大。考虑到5G富媒体消息发送的高效性和及时性，5G富媒体消息语音转文本不能选择处理时间过长的深度学习神经网络算法。

因此，亟需一种处理时间较短的5G富媒体消息语音转文本方法。

发明内容

本发明实施例的目的在于提供一种5G富媒体消息语音转文本***、方法、电子设备及介质，用以解决现有技术中随着语音环境中噪音的增大，CTC模型识别周期增长的问题。

为实现上述目的，本发明实施例提供一种5G富媒体消息语音转文本方法，所述方法具体包括：

获取5G富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；

构建改进CTC模型，其中，所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；

通过所述训练集对所述改进CTC模型进行训练，得到训练好的改进CTC模型；

通过训练好的所述改进CTC模型将所述视频消息信息集合Y转换为视频文本集合y。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，所述5G富媒体消息语音转文本方法还包括：

获取5G富媒体消息中的文本消息；

基于所述文本消息和所述视频文本集合y构建文本消息信息集合X；

构建敏感词变体识别模型；

将所述文本消息信息集合X中的文本消息依次输入所述敏感词变体识别模型判断所述文本消息信息集合X中的所有文本消息是否全部合规。

进一步地，所述5G富媒体消息语音转文本方法还包括：

获取5G富媒体消息中的图片消息，基于所述图片消息构建图片消息信息集合Z；

构建不良图片分类模型和特征提取模型；

基于所述特征提取模型对所述图片消息信息集合Z进行特征提取得到图片深度特征集合z；

将所述图片深度特征集合z中的图片依次输入所述不良图片分类模型判断所述图片深度特征集合z中的所有图片是否全部合规。

进一步地，所述5G富媒体消息语音转文本方法还包括：

当所述文本消息信息集合X中的所有文本消息全部合规，且所述图片深度特征集合z中的图片全部合规时，判定所述5G富媒体消息可以正常发送。

进一步地，所述构建改进CTC模型，其中，所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进，包括：

通过公式1对所述CTC原有损失函数进行改进；

式中，为所述改进CTC模型的损失函数，/>为CTC原有损失函数，α为最大条件熵正则化的系数，H(p(π|l，X))为给定输入序列和目标序列的可行路径的熵。

通过公式2求解H(p(π|l，X))；

式中，(p(π|l，X))表示当给定5G语音信息X和真实输出I的情况下，某一条可行路径π的条件概率；

logp(π|X)表示给定5G语音信息X时，某一条可行路径π的条件概率的对数；表示无论是否给出真实输出I时，5G语音信息X的所有输出条件概率的和。

进一步地，所述通过所述训练集对所述改进CTC模型进行训练得到训练好的改进CTC模型，包括：

将所述视频消息信息集合Y划分为训练集、测试集和验证集；

基于所述训练集训练所述改进CTC模型；

基于所述验证集对所述改进CTC模型进行性能验证，保存满足性能条件的改进CTC模型；

基于所述测试集评估所述改进CTC模型的转换结果。

一种5G富媒体消息语音转文本***，包括：

获取模块，用于获取5G富媒体消息中的视频信息；

第一构建模块，用于基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；

改进CTC模型，其中，所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；

训练模块，用于通过所述训练集对所述改进CTC模型进行训练，得到训练好的改进CTC模型；

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

一种非暂态计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

本发明实施例具有如下优点：

本发明中5G富媒体消息语音转文本方法，获取5G富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；构建改进CTC模型，其中，所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；通过所述训练集对所述改进CTC模型进行训练，得到训练好的改进CTC模型；通过训练好的所述改进CTC模型将所述视频消息信息集合Y转换为视频文本集合y，解决了现有技术中随着语音环境中噪音的增大，CTC模型识别周期增长的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明5G富媒体消息语音转文本方法的流程图；

图2为本发明5G富媒体消息语音转文本***的第一架构图；

图3为本发明5G富媒体消息语音转文本***的第二架构图；

图4为本发明损失函数对比实验结果示意图；

图5为本发明提供的电子设备实体结构示意图。

其中附图标记为：

获取模块10，第一构建模块20，改进CTC模型30，敏感词变体识别模型40，特征提取模型50，不良图片分类模型60，电子设备70，处理器701，存储器702，总线703。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1为本发明5G富媒体消息语音转文本方法实施例流程图，如图1所示，本发明实施例提供的一种5G富媒体消息语音转文本方法包括以下步骤：

S101，获取5G富媒体消息中的视频信息，基于视频信息构建视频消息信息集合Y，基于视频消息信息集合Y构建训练集；

具体的，获取5G富媒体消息，由于5G富媒体消息单条最大容量为3M，因此可以在一条5G富媒体消息内包含多份文字短信、多张图片、多段视频/音频。一条5G富媒体消息可表示为T_xyz，T可以包含多条文本消息信息集合X(x₁,x₂,...)，多条视频消息信息集合Y(y₁,y₂,...)，以及多条图片消息信息集合Z(z₁,z₂,...)。

视频消息信息集合Y包含视频内容和音频内容，在安全合规审查中需要同时对视频和音频信息进行审核，分别将视频消息信息集合Y(y₁,y₂,...)转化为视频文本集合y和视频抽样图片集合y’，并基于视频消息信息集合Y构建训练集。

S102，构建改进CTC模型，其中，改进CTC模型是在CTC模型的基础上引入最大熵函数对CTC模型中CTC原有损失函数进行改进；

具体的，CTC(Connectionist temporal classification)，可以理解为基于神经网络的时序类分类；假设5G语音信息是序列长度为T的X_1:T，则通过CTC语音转文字模型给出的真实输出l的条件概率的表达式为：

式中，π代表CTC模型通过极大似然估计在所有串联信息中能够观察到的标签路径；B为所有可行路径π到真实输出l的多对一的映射集合；p(π|X_1:T)为5G语音信息输入序列X_1:T的所有可行路径π的条件概率；为选择该路径π下时所面临的损失，当5G语音信息中噪音太大时，该值会呈指数增加；

代表了所有可行路径下，5G语音信息输入序列X_1：T的所有可行路径条件概率的求和；其求和结果p(I| X_1：T)等于5G语音信息输入序列X_1：T的真实输入I的条件概率；CTC模型的核心即通过求解该条件概率的max，寻找到最佳的语音识别效果。

CTC原有损失函数之所以在噪音太大时会呈现指数级扩大，原因在于其求解过程是对所有可行路径π的条件概率p(I|X_1：T)取log，即：

当5G语音信息中噪音较多时，会呈指数级扩大，则使得CTC求解条件概率max时会耗费巨大的时间。

通过公式1对所述CTC原有损失函数进行改进；

式中，为所述改进CTC模型30的损失函数，/>为CTC原有损失函数，α为最大条件熵正则化的系数，H(p(π|l，X))为给定输入序列和目标序列的可行路径的熵。

如图4为损失函数对比实验结果，可以理解为用CTC原有指数型损失函数，减去了一个波动熵，从而使得本专利提出的损失函数的取值区间减小到0和/>之间，从而避免了5G语音信息中大量噪音导致的损失函数无穷扩大的问题。可以从视频消息信息集合Y中快速且准确的获得视频文本集合y。

通过公式2求解H(p(π|l，X))；

本发明中使用的损失函数，可以选择L1Loss、MSEloss、CrossEntropyLoss等，对改进CTC模型30最终效果不会有较大差异。

S103，通过训练集对改进CTC模型进行训练，得到训练好的改进CTC模型；

具体的，将所述视频消息信息集合Y划分为训练集、测试集和验证集；

基于所述训练集训练所述改进CTC模型30；基于所述验证集对所述改进CTC模型30进行性能验证，保存满足性能条件的改进CTC模型30；基于所述测试集评估所述改进CTC模型30的转换结果。

S104，通过训练好的改进CTC模型将视频消息信息集合Y转换为视频文本集合y。

所述5G富媒体消息语音转文本方法还包括：

获取5G富媒体消息中的文本消息；基于所述文本消息和所述视频文本集合y构建文本消息信息集合X；

构建敏感词变体识别模型40；优选的，所述敏感词变体识别模型40为Text CNN模型，基于Text CNN模型的不良短文本识别方法目前已经被较为成熟的运用在短消息文本审查中。

本发明中使用的敏感词变体识别模型40，除了Text CNN模型之外，还可以使用CRNN、LSTM+CTC等模型替代，识别效果不会有较大差异。

首先，待处理的5G富媒体消息需要经过数字字符标准化、英文字符标准化、繁体转简体、特殊意义符号处理、去除夹杂符号噪音、连续数字支付统一表示、字符串切分等预处理。

其次，通过word2vec将短文本进行向量化，并在卷积层中对文本向量进行高维卷积及延展，利用池化层和全连接层对敏感词汇进行向量激活，通过SoftMax函数计算敏感词的命中概率。此处选择的SoftMax函数表达式如下：

其中，x代表词向量。

最后，将所述文本消息信息集合X中的文本消息依次输入所述敏感词变体识别模型40判断所述文本消息信息集合X中的所有文本消息是否全部合规。如果文本消息合规性判定为不合规，则转为人工判断或预警。文本消息判定为合规，则进入后续判定流程。

构建不良图片分类模型60和特征提取模型50；

基于所述特征提取模型50对所述图片消息信息集合Z进行特征提取得到图片深度特征集合z；优选的，本发明中使用的图片原始特征提取方法为LBP、HOG、SIFT，可以使用其他相似特征提取算法替代，替代效果对最终不良图片分类模型60效果影响不会太大。

将所述图片深度特征集合z中的图片依次输入所述不良图片分类模型60判断所述图片深度特征集合z中的所有图片是否全部合规。如果图片或图片内某一特征信息判定为不合规，则该图片判定为不合规。如果图片或图片内任一特征信息均判定为合规，则该图片判定为合规。

该5G富媒体消息语音转文本方法，获取5G富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；构建改进CTC模型30，其中，所述改进CTC模型30是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；通过所述训练集对所述改进CTC模型30进行训练，得到训练好的改进CTC模型30；通过训练好的所述改进CTC模型30将所述视频消息信息集合Y转换为视频文本集合y。解决了现有技术中随着语音环境中噪音的增大，CTC模型识别周期增长的问题。

该5G富媒体消息语音转文本方法，与传统文本或图片审核方法相比具有以下优点。

审核维度更全。传统文的文本或图片审核方法均只能针对单一信息进行内容审核，审核内容较为单一。本发明利用多模态识别算法，创新性地提出了针对5G消息视频、文本、图片内容的安全审核框架，一体式的解决5G消息富媒体信息安全审核问题。

用CTC原有指数型损失函数，减去了一个波动熵，从而使得本专利提出的损失函数的取值区间减小到0和/>之间，从而避免了5G语音信息中大量噪音导致的损失函数无穷扩大的问题。可以从视频消息信息集合Y中快速且准确的获得视频文本集合y。

图2-图3为本发明5G富媒体消息语音转文本***实施例流程图；如图2-图3所示，本发明实施例提供的一种5G富媒体消息语音转文本***，包括以下步骤：

获取模块10，用于获取5G富媒体消息中的视频信息；

第一构建模块20，用于基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；将所述视频消息信息集合Y划分为训练集、测试集和验证集；基于所述训练集训练所述改进CTC模型30；

基于所述验证集对所述改进CTC模型30进行性能验证，保存满足性能条件的改进CTC模型30；基于所述测试集评估所述改进CTC模型30的转换结果。

改进CTC模型30，其中，所述改进CTC模型30是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；

通过公式1对所述CTC原有损失函数进行改进；

通过公式2求解H(p(π|l，X))；

训练模块，用于通过所述训练集对所述改进CTC模型30进行训练，得到训练好的改进CTC模型30；

通过训练好的所述改进CTC模型30将所述视频消息信息集合Y转换为视频文本集合y。

所述5G富媒体消息语音转文本***还包括：

所述获取模块10还用于：

获取5G富媒体消息中的文本消息和图片消息；

所述第一构建模块20还用于：

基于所述图片消息构建图片消息信息集合Z；

敏感词变体识别模型40，将所述文本消息信息集合X中的文本消息依次输入所述敏感词变体识别模型40判断所述文本消息信息集合X中的所有文本消息是否全部合规。

特征提取模型50，用于对所述图片消息信息集合Z进行特征提取得到图片深度特征集合z；

不良图片分类模型60，将所述图片深度特征集合z中的图片依次输入所述不良图片分类模型60判断所述图片深度特征集合z中的所有图片是否全部合规。

本发明的一种5G富媒体消息语音转文本***，通过获取模块10获取5G富媒体消息中的视频信息；通过第一构建模块20基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；改进CTC模型30，其中，所述改进CTC模型30是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；通过训练模块通过所述训练集对所述改进CTC模型30进行训练，得到训练好的改进CTC模型30；通过训练好的所述改进CTC模型30将所述视频消息信息集合Y转换为视频文本集合y。该5G富媒体消息语音转文本方法解决现有技术中随着语音环境中噪音的增大，CTC模型识别周期增长的问题。

图5为本发明实施例提供的电子设备实体结构示意图，如图5所示，电子设备70包括：处理器701(processor)、存储器702(memory)和总线703；

其中，处理器701、存储器702通过总线703完成相互间的通信；

处理器701用于调用存储器702中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取5G富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；构建改进CTC模型30，其中，所述改进CTC模型30是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；通过所述训练集对所述改进CTC模型30进行训练，得到训练好的改进CTC模型30；通过训练好的所述改进CTC模型30将所述视频消息信息集合Y转换为视频文本集合y。

本实施例提供一种非暂态计算机可读介质，非暂态计算机可读介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：获取5G富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合Y，基于所述视频消息信息集合Y构建训练集；构建改进CTC模型30，其中，所述改进CTC模型30是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进；通过所述训练集对所述改进CTC模型30进行训练，得到训练好的改进CTC模型30；通过训练好的所述改进CTC模型30将所述视频消息信息集合Y转换为视频文本集合y。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各实施例或者实施例的某些部分的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种5G富媒体消息语音转文本方法，其特征在于，所述方法具体包括：

2.根据权利要求1所述5G富媒体消息语音转文本方法，其特征在于，所述5G富媒体消息语音转文本方法还包括：

获取5G富媒体消息中的文本消息；

构建敏感词变体识别模型；

3.根据权利要求2所述5G富媒体消息语音转文本方法，其特征在于，所述5G富媒体消息语音转文本方法还包括：

构建不良图片分类模型和特征提取模型；

4.根据权利要求3所述5G富媒体消息语音转文本方法，其特征在于，所述5G富媒体消息语音转文本方法还包括：

5.根据权利要求1所述5G富媒体消息语音转文本方法，其特征在于，所述构建改进CTC模型，其中，所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进，包括：

通过公式1对所述CTC原有损失函数进行改进；

式中，为所述改进CTC模型的损失函数，/>为CTC原有损失函数，α为最大条件熵正则化的系数，H(p(π|l,X))为给定输入序列和目标序列的可行路径的熵。

6.根据权利要求1所述5G富媒体消息语音转文本方法，其特征在于，所述构建改进CTC模型，其中，所述改进CTC模型是在CTC模型的基础上引入最大熵函数对所述CTC模型中CTC原有损失函数进行改进，包括：

通过如下公式2求解H(p(π|l,X))；

式中，(p(π|l,X))表示当给定5G语音信息X和真实输出l的情况下，某一条可行路径π的条件概率；

logp(π|X)表示给定5G语音信息X时，某一条可行路径π的条件概率的对数；

表示无论是否给出真是输出l时，5G语音信息X的所有输出条件概率的和。

7.根据权利要求1所述5G富媒体消息语音转文本方法，其特征在于，所述通过所述训练集对所述改进CTC模型进行训练得到训练好的改进CTC模型，包括：

将所述视频消息信息集合Y划分为训练集、测试集和验证集；

基于所述训练集训练所述改进CTC模型；

基于所述测试集评估所述改进CTC模型的转换结果。

8.一种5G富媒体消息语音转文本***，其特征在于，包括：

获取模块，用于获取5G富媒体消息中的视频信息；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中的任一项所述的方法的步骤。

10.一种非暂态计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中的任一项所述的方法的步骤。