CN111966839A

CN111966839A - 数据处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN111966839A
Application number: CN202010826912.XA
Authority: CN
Inventors: 王睿宇; 程启健; 尚岩; 任翔宇; 张笑强
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-20
Anticipated expiration: 2040-08-17
Also published as: CN111966839B

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质，通过获取用于制作音频画面的音频文件和图片文件，根据各音频数据中的音频文字信息，分别对各音频数据进行划分，得到多个音频子数据针对任一图片，分别计算该图片中的图像文字信息与各音频子数据中的音频文字信息的相似度若任一图片中的图像文字信息与任一音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；利用图片与音频子数据之间的对应关系，将音频文件和图片文件制作成音频画面，以此实现自动匹配音频部分的内容和非音频部分的内容，从而提高了音频画面制作的效率。

Description

数据处理方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理方法、装置、电子设备及计算机存储介质。

背景技术

阅读可以帮助人们了解世界、学习知识、培养优良的爱好和兴趣、提高思维能力。传统的阅读方式是通过视觉浏览获取信息。为了提高人们对于阅读的兴趣，发展出一种新型的阅读方式，可以通过听觉与视觉想结合的方式获取信息，比如有声读物、儿童绘本、成人绘本等。当以听觉为主要方式，以视觉为辅助方式时，可以更好的激发阅读者的想象力。

当通过听觉与视觉相结合的方式获取信息时，需要包括音频部分和非音频部分，非音频部分，可以是文字、图像或者图片等，音频部分可以对非音频部分的内容进行讲解，为了更好的理解书籍内容，音频部分中的内容和非音频部分中的内容需要一一对应，这样随机阅读非音频部分的内容时，可以自动播放对应的音频部分。而现有技术中，有声读物、儿童绘本、成人绘本等中音频部分的内容和非音频部分的内容需要手工进行匹配，整个过程操作繁琐且容易出现错误，导致效率较低。

发明内容

本发明实施例的目的在于提供一种数据处理方法、装置、电子设备及计算机存储介质，以实现自动匹配音频部分的内容和非音频部分的内容。具体技术方案如下：

第一方面，本发明实施例提供一种数据处理方法，所述方法包括：

获取用于制作音频画面的音频文件和图片文件，所述音频文件包括至少一个音频数据，所述图片文件包括一张图片；各所述音频数据分别包括音频文字信息，各所述图片分别包括图像文字信息；

根据各所述音频数据中的音频文字信息，分别对各所述音频数据进行划分，得到多个音频子数据；

针对任一所述图片，分别计算该图片中的图像文字信息与各所述音频子数据中的音频文字信息的相似度；

若任一所述图片中的图像文字信息与任一所述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；

利用图片与音频子数据之间的对应关系，将所述音频文件和所述图片文件制作成音频画面。

可选的，所述根据各所述音频数据中的音频文字信息，分别对各所述音频数据进行划分，得到多个音频子数据，包括：

利用语音识别技术，识别所述音频数据中的音频文字信息，得到音频数据中的文字数据；

对所述文字数据进行语义关系识别，根据语义关系识别结果分别对各所述音频数据进行划分，得到多个音频子数据。

可选的，所述音频数据中的文字数据包括各个字符的时间戳；在所述利用语音识别技术，识别所述音频数据中的音频文字信息，得到音频数据中的文字数据的步骤之后，所述方法还包括：

按照所述文字数据中字符的先后顺序，依次读取所述文字数据中的各个字符；

计算相邻的字符的时间戳的差值，若所述差值不小于预设差值阈值，则将所述相邻的字符划分至两个不同的音频子数据，其中，将时间戳早的字符划分为前一音频子数据，将时间戳晚的字符划分为后一音频子数据；

若所述差值小于所述预设差值阈值，则将所述相邻的字符划分至同一音频子数据。

可选的，所述针对任一所述图片，分别计算该图片中的图像文字信息与各所述音频子数据中的音频文字信息的相似度，包括：

针对任一所述图片，基于图片中的文字特征识别该图片中的图像文字信息；

依次将识别到的图像文字信息与各音频子数据输入预先训练的匹配模型，得到所述图像文字信息与各所述音频子数据中的音频文字信息的匹配置信度；

所述若任一所述图片中的图像文字信息与任一所述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系，包括：

当所述文字图像数据与任一所述音频子数据的匹配置信度不小于预设第一置信度阈值时，则记录该图片与该音频子数据之间的对应关系。

可选的，在针对任一所述图片，识别该图片中的图像文字信息之后，所述方法还包括：

若多个图片对应的图像文字信息相同，针对所述图片文件中的任一图片，基于图像特征识别该图片中的图像文字数据；

依次将识别到的图像文字数据与各音频子数据进行匹配，得到所述图像文字数据与各音频子数据的匹配置信度；

所述当所述文字图像数据与任一所述音频子数据的匹配置信度不小于预设第一置信度阈值时，则记录该图片与该音频子数据之间的对应关系，包括：

当所述图像文字数据与任一音频子数据的匹配结果匹配置信度达到预设第二置信度阈值时，记录该图片与所述音频子数据的对应关系。

第二方面，本发明实施例提供一种数据处理装置，所述装置包括：

采集模块，用于获取用于制作音频画面的音频文件和图片文件，所述音频文件包括至少一个音频数据，所述图片文件包括一张图片；各所述音频数据分别包括音频文字信息，各所述图片分别包括图像文字信息；

划分模块，用于根据各所述音频数据中的音频文字信息，分别对各所述音频数据进行划分，得到多个音频子数据；

计算模块，用于针对任一所述图片，分别计算该图片中的图像文字信息与各所述音频子数据中的音频文字信息的相似度；

记录模块，用于若任一所述图片中的图像文字信息与任一所述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；

制作模块，用于利用图片与音频子数据之间的对应关系，将所述音频文件和所述图片文件制作成音频画面。

可选的，所述划分模块包括：

音频文字信息识别子模块，用于利用语音识别技术，识别所述音频数据中的音频文字信息，得到音频数据中的文字数据；

第一划分子模块，用于对所述文字数据进行语义关系识别，根据语义关系识别结果分别对各所述音频数据进行划分，得到多个音频子数据。

可选的，所述音频数据中的文字数据包括各个字符的时间戳；所述装置还包括：

读取子模块，用于按照所述文字数据中字符的先后顺序，依次读取所述文字数据中的各个字符；

差值计算子模块，用于计算相邻的字符的时间戳的差值，若所述差值不小于预设差值阈值，则将所述相邻的字符划分至两个不同的音频子数据，其中，将时间戳早的字符划分为前一音频子数据，将时间戳晚的字符划分为后一音频子数据；

第二划分子模块，用于若所述差值小于所述预设差值阈值，则将所述相邻的字符划分至同一音频子数据。

可选的，所述计算模块包括：

第一图像文字信息识别子模块，用于针对任一所述图片，基于图片中的文字特征识别该图片中的图像文字信息；

第一匹配子模块，用于依次将识别到的图像文字信息与各音频子数据输入预先训练的匹配模型，得到所述图像文字信息与各所述音频子数据中的音频文字信息的匹配置信度；

所述记录模块具体用于：

可选的，所述装置还包括：

第二图像文字信息识别子模块，用于若多个图片对应的图像文字信息相同，针对所述图片文件中的任一图片，基于图像特征识别该图片中的图像文字数据；

第二匹配子模块，用于依次将识别到的图像文字数据与各音频子数据进行匹配，得到所述图像文字数据与各音频子数据的匹配置信度；

所述记录模块具体用于：

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的所述计算机程序时，实现第一方面任一所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法。

本发明实施例提供的数据处理方法、装置、电子设备及计算机存储介质，可以获取用于制作音频画面的音频文件和图片文件，音频文件包括至少一个音频数据，图片文件包括一张图片；各音频数据分别包括音频文字信息，各图片分别包括图像文字信息；根据各音频数据中的音频文字信息，分别对各音频数据进行划分，得到多个音频子数据；针对任一图片，分别计算该图片中的图像文字信息与各音频子数据中的音频文字信息的相似度；若任一图片中的图像文字信息与任一音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；利用图片与音频子数据之间的对应关系，将音频文件和图片文件制作成音频画面。

本发明实施例中，可以自动将音频数据划分为多个音频子数据，针对任一所述图片，分别计算该图片中的图像文字信息与各所述音频子数据中的音频文字信息的相似度，根据相似度将图片与该音频子数据进行对应。应用本发明实施例，可实现各图片与音频数据的音频子数据自动建立关联，实现自动匹配音频部分的内容和非音频部分的内容。利用图片与音频子数据之间的对应关系，将音频文件和所述图片文件制作成音频画面，从而提高了音频画面制作的效率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的第一种数据处理方法流程图；

图2为本发明实施例提供的第二种数据处理方法流程图；

图3为本发明实施例提供的第三种数据处理方法流程图；

图4为本发明实施例提供的第四种数据处理方法流程图；

图5为本发明实施例提供的第五种数据处理方法流程图；

图6为本发明实施例提供的第六种数据处理方法流程图；

图7为本发明实施例提供的第一种数据处理装置结构示意图；

图8为本发明实施例提供的第二种数据处理装置结构示意图；

图9为本发明实施例提供的第三种数据处理装置结构示意图；

图10为本发明实施例提供的第四种数据处理装置结构示意图；

图11为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中需要人工手动来匹配音频画面中音频部分的内容和非音频部分的内容的问题，本发明实施例提供了一种数据处理方法、装置、电子设备、计算机存储介质及包含指令的计算机程序产品。

下面，首先对本发明实施例提供的数据处理方法进行介绍。该方法应用于电子设备，具体的，该电子设备可以为任一可以提供数据处理服务的电子设备，例如，个人计算机、服务器等。本发明实施例所提供的数据处理方法可以被设置于电子设备中的软件、硬件电路和逻辑电路中的至少一种实现。

本发明实施例提供一种数据处理方法，参见图1，图1为本发明实施例提供的第一种数据处理方法流程图；该方法包括：

S101，获取用于制作音频画面的音频文件和图片文件。上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息。

S102，根据各上述音频数据中的音频文字信息，分别对各上述音频数据进行划分，得到多个音频子数据。

S103，针对任一上述图片，分别计算该图片中的图像文字信息与各上述音频子数据中的音频文字信息的相似度。

S104，若任一上述图片中的图像文字信息与任一上述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系。

S105，利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

本发明实施例中，可以自动将音频数据划分为多个音频子数据，针对任一所述图片，分别计算该图片中的图像文字信息与各所述音频子数据中的音频文字信息的相似度，根据相似度将图片与该音频子数据进行对应，以此实现各图片与音频数据的音频子数据自动建立关联，实现自动匹配音频部分的内容和非音频部分的内容。利用图片与音频子数据之间的对应关系，将音频文件和所述图片文件制作成音频画面，从而提高了音频画面制作的效率。

音频画面可以为有声读物、儿童绘本、成人绘本等，音频画面中包括音频部分的内容和非音频部分的内容，其中，音频部分的内容可以用于对非音频部分的内容进行进一步的解释说明，非音频部分的内容可以展示音频部分的内容说表达的画面。例如，在浏览儿童绘本时，儿童绘本中包括多张图片，当浏览一张图片时，儿童绘本会播放图片对应的音频部分的内容，以此可以达到更好的浏览、阅读效果。为了制作音频画面，需要有音频文件和图片文件，音频文件用于制作音频画面中的音频部分的内容，图片文件用于制作非音频画面中的音频部分的内容，音频文件包括至少一个音频数据，图片文件包括至少一张图片；各音频数据分别包括音频文字信息，各图片分别包括图像文字信息，音频文字信息表征音频数据表达的文本信息，例如，音频数据为“今天天气很好”，则音频数据中的音频文字信息为“今天天气很好”，图像文字信息表征图片中包括的文本信息，例如，图片中包含文本为“天气”，则图像文字信息为“天气”。

在得到音频数据的音频文字信息后，可以按照预设方式对各音频数据进行划分，得到多个音频子数据，音频子数据是音频数据中的部分数据。例如，音频数据为包括三段文字的课文，其中，每段文字中包括多个句子，则音频子数据可以为一段文字，也可以为单个句子。例如音频数据为一段文字，该段文字中包括三个句子，则音频子数据可以为各个句子。

示例性的，对各音频数据进行划分的方式可以按照音频文字信息中语义关系，将音频数据进行划分。也可以识别音频文字信息中字符的先后顺序，根据音频文字信息中字符的先后顺序对各音频数据进行划分。例如，音频数据为小学课文《影子》的音频，包括“影子在前，影子在后，影子常常跟着我，就像一条小黑狗”那么可以按照语义关系，对“影子在前影子在后影子常常跟着我就像一条小黑狗”进行划分，从而可以得到“影子在前”“影子在后”“影子常常跟着我”“就像一条小黑狗”这四个音频子数据。

为了将音频子数据和图片进行关联，针对任一图片，分别计算该图片中的图像文字信息与各音频子数据中的音频文字信息的相似度。可以理解为，一个图片可以与一个音频子数据具有对应关系，也可以与多个音频子数据具有对应关系。针对任一图片，具体可以根据计算得到的相似度来确定图片和各音频子数据之间是否具有对应关系，然后可以利用图片与音频子数据之间的对应关系，将音频文件和图片文件制作成音频画面。示例性的，针对任一图片，当该图片与多个音频子数据具有对应关系时，可以按照各个音频子数据在上述音频文件中的先后顺序，确定各音频子数据对应该图片的先后顺序。

特别的，在对各音频数据进行划分时，基于图1所示实施例，本发明实施例提供另一种数据处理方法，参见图2，图2为本发明实施例提供的第二种数据处理方法流程图；该方法包括：

S201，获取用于制作音频画面的音频文件和图片文件。上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息；

S202，利用语音识别技术，识别上述音频数据中的音频文字信息，得到音频数据中的文字数据；

S203，对上述文字数据进行语义关系识别，根据语义关系识别结果分别对各上述音频数据进行划分，得到多个音频子数据；

S204，针对任一上述图片，分别计算该图片中的图像文字信息与各上述音频子数据中的音频文字信息的相似度；

S205，若任一上述图片中的图像文字信息与任一上述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；

S206，利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

本发明实施例中，利用语音识别技术，识别音频数据中的音频文字信息，得到音频数据中的文字数据。具体的，可以将音频数据输入预先训练好的语音识别模型中，该语音识别模型可以识别音频数据中的音频文字信息，将音频数据转化为文字数据，语音识别模型可以为深度学习网络，比如卷积神经网络或者递归神经网络中的任一种，或者为非深度学习网络方法。利用语音识别技术，可以将音频数据转为文字数据，即，将语音转换为文本。

在得到文字数据后，可以对文字数据进行语义关系识别，例如，将文本数据输入BI-LSTM(Bi-direction Long Short-Term Memory，双向长短期记忆神经网络)模型中进行识别，通过识别文本数据中的文本的上下文关系，对各上述音频数据进行划分，得到多个音频子数据。例如，文字数据为“今天天气很热她穿了裙子”，则根据语义关系可以得到各音频子数据为“今天天气很热”，“她穿了裙子”。

在一种可实现的方式中，可以根据图片文件中的图片数量，先确定音频子数据的个数，然后对上述文字数据进行语义关系识别，根据语义关系识别结果分别对各上述音频数据进行划分，得到各个音频子数据。

在一种可实现的方式中，将图片文件中的图片数量作为音频子数据的个数。例如，图片文件中一共包括6张图片，则可以将音频文件划分为6个音频子数据。在一种可实现的方式中，对图片文件中的图片数量进行加权计算，将加权计算结果作为音频子数据的个数。例如，图片文件中一共包括6张图片，则对图片进行加权计算，例如，将6+2＝8，可以将音频文件划分为8个音频子数据，或者，将6乘以加权系数2，则可以将音频文件划分为12个音频子数据，其中，加权系数的大小可以根据实际情况进行设定，在此不作限定。

示例性的，图片数量为N，则将图片数量作为音频子数据的个数，即将音频划分为N个音频子数据，则需要N-1个间隔，则可以对文字数据进行语义关系识别，根据语义关系识别结果对频数据进行划分，然后得到N个音频子数据。

基于图2所示实施例，本发明实施例提供另一种数据处理方法，上述音频数据中的文字数据包括各个字符的时间戳；参见图3，图3为本发明实施例提供的第三种数据处理方法流程图；该方法包括：

S301，获取用于制作音频画面的音频文件和图片文件。上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息；

S302，利用语音识别技术，识别上述音频数据中的音频文字信息，得到音频数据中的文字数据；

S303，按照上述文字数据中字符的先后顺序，依次读取上述文字数据中的各个字符；

S304，计算相邻的字符的时间戳的差值，若上述差值不小于预设差值阈值，则将上述相邻的字符划分至两个不同的音频子数据，其中，将时间戳早的字符划分为前一音频子数据，将时间戳晚的字符划分为后一音频子数据；

S305，若上述差值小于上述预设差值阈值，则将上述相邻的字符划分至同一音频子数据；

S306，对上述文字数据进行语义关系识别，根据语义关系识别结果分别对各上述音频数据进行划分，得到多个音频子数据；

S307，针对任一上述图片，分别计算该图片中的图像文字信息与各上述音频子数据中的音频文字信息的相似度；

S308，若任一上述图片中的图像文字信息与任一上述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；

S309，利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

一般而言，当阅读文本时，如果此段文本中包括多个段落，在阅读各段落之间时，需要进行停顿，以此区分各段落之间的内容。则在音频中，各段落之间会有一个较大的时间差。因此，当音频数据中包括有时间戳，识别音频数据中的文字数据时，具体可以得到各个字符的时间戳。

利用各个字符的时间戳，计算相邻两个音频子数据之间的间隔时长，具体可以表示为：

spaced[i]＝sentence[i]start_time–sentence[i-1]end_time

其中，sentence[i-1]end_time表示上一音频子数据最后一个字符的时间戳，sentence[i]start_time表示当前音频子数据第一个字符的时间戳，spaced[i]表示当前音频子数据和上一音频子数据的间隔时长。

以此可以得到M个间隔时长，在M个间隔时长中从大到小选择N-1个间隔时长，在这N-1个间隔时长对应的间隔处进行音频子数据的划分。根据间隔时长进行划分，可以使一张图片对应的音频数据划分至一个音频子数据，确保图片数据与音频子数据的对应关系，从而在浏览图片时可以听到该图片对应的音频部分的内容，从而浏览一张图片时不受前一张图片对应到的音频部分的内容的影响。

例如，当前字符对应的时间戳为第1秒，下一字符对应的时间戳为第3秒，当前字符和下一字符的时间戳的差值为2秒，大于预设差值阈值1秒，则说明当前字符和下一字符之间有2秒的停顿，说明当前字符和下一字符属于不同的段落内容。在一种实施例中，当阅读文本时，如果此段文本中包括多个段落，每段中包括多个句子，则当阅读当前句子后，阅读下一句时，可以停留第一间隔时间，其中第一间隔时间可以为大于0.2秒，小于0.6秒，当阅读当前段落后，阅读下一段落时，可以停留第二间隔时间，其中第二间隔时间可以为大于0.8秒，其中，句子之间的间隔和段落之间的间隔根据实际情况进行设定，在此不作限定。以此可以根据相邻的字符的时间戳的差值，来对各个字符进行划分。

基于图1所示实施例，本发明实施例提供另一种数据处理方法，参见图4，图4为本发明实施例提供的第四种数据处理方法流程图；该方法包括：

S401，获取用于制作音频画面的音频文件和图片文件。上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息；

S402，根据各上述音频数据中的音频文字信息，分别对各上述音频数据进行划分，得到多个音频子数据；

S403，针对任一上述图片，基于图片中的文字特征识别该图片中的图像文字信息；

S404，依次将识别到的图像文字信息与各音频子数据输入预先训练的匹配模型，得到上述图像文字信息与各上述音频子数据中的音频文字信息的匹配置信度；

S405，当上述文字图像数据与任一上述音频子数据的匹配置信度不小于预设第一置信度阈值时，则记录该图片与该音频子数据之间的对应关系；

S406，利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

本发明实施例中，收集一些图片数据集，在图片中包括有文本，比如公开的挑战赛数据集、街景文本数据集、自然场景文本数据集等，基于tensorflow(一种人工智能学习***)、keras(一种神经网络接口)等框架，训练CTPN(一种文本检测神经网络)、CRNN(一种文本识别神经网络)网络，即以tensorflow或者keras为框架基础构建图像识别模型，输入图片到图像识别模型中，图像识别模型会基于图片中的文字特征识别该图片中的图像文字信息，输出识别结果，将识别结果与预设结果进行误差比对，如果误差大于预设阈值则修改模型参数，直到当误差小于或等于预设阈值时、或者迭代次数达到预设次数时，训练过程结束，得到适用于本发明实施例的对图片数据中的内容进行文字识别的图像识别模型，利用该模型，输入任一图片，可以输出该图片中的图像文字信息，更进一步的，图像识别模型还可以记录图片和图像文字信息的对应关系，示例性的，比如输入图片1，图片1的名称为“DavidPic1”，则将图片1输入图像识别模型后，图像识别模型的输出结果可以为：

{imgname:‘DavidPic1’,texts:[text11,text12…]}

其中，imgname表示图片名称，texts表示文字数据，text11、text12表示文字数据具体内容。

在得到图片1的图像文字信息后，需要计算该图像文字信息与各音频子数据的相似度，具体的，可以将该图像文字信息与各音频子数据输入预先训练的匹配模型，得到该图像文字信息与各音频子数据中的音频文字信息的匹配置信度。例如，音频子数据包括3个，音频子数据1，音频子数据2，音频子数据3，得到图像文字信息1与音频子数据1的匹配置信度为90％，图像文字信息1与音频子数据2的匹配置信度为30％，图像文字信息1与音频子数据1的匹配置信度为60％，设定预设第一置信度阈值为80％，因为图像文字信息1与音频子数据1的匹配置信度大于预设第一置信度阈值，则记录图片1与音频子数据1具有对应关系，即，在制作音频画面时，图片1需要和音频数据1进行关联。

基于图4所示实施例，本发明实施例提供另一种数据处理方法，参见图5，图5为本发明实施例提供的第五种数据处理方法流程图；该方法包括：

S501，获取用于制作音频画面的音频文件和图片文件。上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息；

S502，根据各上述音频数据中的音频文字信息，分别对各上述音频数据进行划分，得到多个音频子数据；

S503，针对任一上述图片，基于图片中的文字特征识别该图片中的图像文字信息；

S504，若多个图片对应的图像文字信息相同，针对上述图片文件中的任一图片，基于图像特征识别该图片中的图像文字数据；

S505，依次将识别到的图像文字数据与各音频子数据进行匹配，得到上述图像文字数据与各音频子数据的匹配置信度；

S506，当上述图像文字数据与任一音频子数据的匹配结果匹配置信度达到预设第二置信度阈值时，记录该图片与上述音频子数据的对应关系；

S507，利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

本发明实施例中，当多个图片对应的图像文字信息相同时，比如图片1和图片2对应的文本相同，例如，图片1中包括的文本为“小明家”，图片2中包括的文本为“小明家”，因为图片1中图像文字信息和图片2中的图像文字信息相同，所以当一个音频子数据与两个图像文字数据的匹配置信度相同时，无法判断该音频子数据对应哪张图片。或者，当图片对应两个音频子数据，或者同一个音频子数据对应两个图片时，则无法判断音频子数据的前后顺序，无法判断两张图片的前后顺序。针对这种情况，本发明实施例的解决方案是基于图像特征识别该图片中的图像文字数据，根据图像文字数据与各音频子数据的匹配结果，进行图片数据与音频子数据的关联。

其中，图像文字数据是基于图像特征识别对图片进行识别得到的，与图片中的图像特征相对应，具体的，可以将图片输入到预先训练好的图像文字识别模型中，通过图像文字识别模型对图片进行图像特征识别，得到图像文字数据。示例性的，图像文字数据是识别图片中的物体、场景等得到的，比如识别到物体椅子时得到图像文字数据“椅子”。假设只识别图片数据中的物体，针对图片1，识别到图像文字数据有“椅子”、“男孩”、“小狗”、“球”四个标识，将识别到图像文字数据与各音频子数据进行匹配。当图像文字数据与任一音频子数据的匹配结果匹配置信度达到预设第二置信度阈值时，记录该图片与音频子数据的对应关系。其中，图像文字识别模型是基于样本图像预先训练得到的具有图像文字识别功能的模型，图像文字识别模型可以为基于机器学习的模型，例如，可以为基于深度学习的模型。具体的训练过程可以采用传统的反向传播的方式实现模型训练，在此不再赘述。

示例性的，当音频子数据中包括有图像文字数据时，对音频子数据进行打分，比如每出现一个打十分，最后根据得分，确定各音频子数据与图片1是否具有对应关系，例如，3个图片对应的图像文字信息相同，分别为图片1，图片2，图片3，经过打分，图片1与音频子数据1的匹配得分为90％，图片1与音频子数据1的匹配得分为60％，图片1与音频子数据1的匹配得分为40％，第二置信度阈值为80％，则可以确定图片1与音频子数据1具有对应关系。以此提高图片与音频子数据之间的对应关系的准确度。

以下根据结合场景的具体实施例进行说明，儿童绘本属于新型书籍的一种，是一类以绘画为主，并附有少量文字的书籍。目前在儿童绘本的制作过程中，主要靠合作方提供绘本图片、音频及图片与音频对应的时间点，为了保证绘本质量，审核人员会审核对应的时间点和图片是否对应。对于合作方来说全手动填写时间区间以及对应的图片，操作繁琐，体验较差；对于审核人员来说面对的是很多错误，比对工作量大，效率较低。

因此，本发明实施例提供一种数据处理方法，参见图6，图6为本发明实施例提供的第六种数据处理方法流程图；本发明实施例中，一个儿童绘本通常包含一个音频文件和多张图片，合作方批量上传多张图片和一个音频文件之后，首先利用预先采集的图片数据集训练文字识别模型(如CTPN、CRNN)，利用模型识别绘本图片中的图像文字信息，并记录绘本图片和图像文字信息的对应关系。

然后利用预先采集的音频数据训练语音识别模型(如ASR/CNN)，利用语音识别从音频文件生成类似srt字幕文件(文本格式的字幕文件)内容格式的文件，简称为类srt文件。这一步只是整个过程的一个中间结果，不需要考虑是否适合观看，而是为了获得音频中的句子对应的时间戳。利用现有的语音识别接口，可以得到音频对应的整体文本内容，即，音频对应的音频文字信息，以及音频中每个字或单词的起止时间戳的word Items(数组)，即一个数组包含：一个字或单词、起始时间、终止时间、标点符号。根据数组生成类srt文件：遍历数组，从第一个数组开始一个句子，如果包含句末标点符号(包括句号、问号)则一个句子结束，开始下一个句子，如果不包含句末标点符号，则将数组划分到当前句子，继续遍历下一个数组；如果当前遍历的数组是新句子的开始，则记为start Flag＝1，记录这个数组对应的start_time(起始时间)，将字或单词内容划分到当前句子中；当数组包含句末标点符号时，则记录其对应的end_time(终止时间)，最后得到的sentence(句子)表示为sentence[i]＝{content:‘xxxxx’,timeStamps:[start_time,end_time]}，timeStamps为时间戳，将内容追加到当前句子中，并且新建一个句子sentence[i+1]，迭代上述步骤直至遍历完所有数组，得到很多个句子，且每个句子带有起始时间和终止时间。

通常音频的音频文字信息与图片中的图像文字信息不是完全匹配，图片中的图像文字信息相比于音频的音频文字信息会少很多或者多很多。本发明实施例利用已有的字幕文件，基于BiLSTM训练字幕文件分段模型，对类srt文件进行分段处理；得到各个音频子数据。其中，字幕文件分段模型是基于样本图像预先训练得到的具有字幕文件分段功能的模型，字幕文件分段模型可以为基于机器学习的模型，例如，可以为基于深度学习的模型。具体的训练过程可以采用传统的反向传播的方式实现模型训练，在此不再赘述。

在得到绘本图片中的图像文字信息和音频的各个音频子数据后，判断是否有多个绘本图片的图像文字信息相同，当没有多个绘本图片的图像文字信息相同时，针对任一绘本图片的图像文字信息，分别计算该图片的图像文字信息与各音频子数据的相似度，若任一图片中的图像文字信息与任一音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系。然后利用图片与音频子数据之间的对应关系，将音频文件和所述图片文件制作成音频画面。示例性的，训练句子段落匹配模型(如LSTM)，利用句子段落匹配模型获取图片的图像文字信息和各音频子数据的相似度。其中，句子段落匹配模型是基于样本图像预先训练得到的具有句子段落匹配功能的模型，句子段落匹配模型可以为基于机器学习的模型，例如，可以为基于深度学习的模型。具体的训练过程可以采用传统的反向传播的方式实现模型训练，在此不再赘述。

当多个绘本图片的图像文字信息相同时，针对图片文件中的任一图片，基于图像特征识别该图片中的图像文字数据，依次将识别到的图像文字数据与各音频子数据进行匹配，得到图像文字数据与各音频子数据的匹配置信度，当图像文字数据与任一音频子数据的匹配结果匹配置信度达到预设第二置信度阈值时，记录该图片与音频子数据的对应关系，利用图片与音频子数据之间的对应关系，将音频文件和图片文件制作成音频画面。

本发明实施例中，利用语音识别技术从音频文件提取类srt文件，再将其与图片中的图像文字信息以及图像文字数据进行匹配，最终实现对音频按照图片内容划分。可以帮助减少合作方提交音频时间点和对应图片时的操作，提高提交信息的准确度，提升用户体验，同时可以帮助减少审核时的工作量，提高审核效率。

本发明实施例提供一种数据处理装置，参见图7，图7为本发明实施例提供的第一种数据处理装置结构示意图；该装置包括采集模块710、划分模块720、计算模块730、记录模块740和制作模块750，其中：

采集模块710，用于获取用于制作音频画面的音频文件和图片文件。上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息；

划分模块720，用于根据各上述音频数据中的音频文字信息，分别对各上述音频数据进行划分，得到多个音频子数据；

计算模块730，用于针对任一上述图片，分别计算该图片中的图像文字信息与各上述音频子数据中的音频文字信息的相似度；

记录模块740，用于若任一上述图片中的图像文字信息与任一上述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；

制作模块750，用于利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

参见图8，图8为本发明实施例提供的第二种数据处理装置结构示意图，在一种可能的实施方式中，上述划分模块720包括：

音频文字信息识别子模块7201，用于利用语音识别技术，识别上述音频数据中的音频文字信息，得到音频数据中的文字数据；

第一划分子模块7202，用于对上述文字数据进行语义关系识别，根据语义关系识别结果分别对各上述音频数据进行划分，得到多个音频子数据。

基于图8所示实施例，本发明实施例提供另一种数据处理装置，参见图9，图9为本发明实施例提供的第三种数据处理装置结构示意图，在一种可能的实施方式中，上述音频数据中的文字数据包括各个字符的时间戳；上述装置还包括：

读取子模块7203，用于按照上述文字数据中字符的先后顺序，依次读取上述文字数据中的各个字符；

差值计算子模块7204，用于计算相邻的字符的时间戳的差值，若上述差值不小于预设差值阈值，则将上述相邻的字符划分至两个不同的音频子数据，其中，将时间戳早的字符划分为前一音频子数据，将时间戳晚的字符划分为后一音频子数据；

第二划分子模块7205，用于若上述差值小于上述预设差值阈值，则将上述相邻的字符划分至同一音频子数据。

参见图10，图10为本发明实施例提供的第四种数据处理装置结构示意图，在一种可能的实施方式中，上述计算模块730包括：

第一图像文字信息识别子模块7301，用于针对任一上述图片，基于图片中的文字特征识别该图片中的图像文字信息；

第一匹配子模块7302，用于依次将识别到的图像文字信息与各音频子数据输入预先训练的匹配模型，得到上述图像文字信息与各上述音频子数据中的音频文字信息的匹配置信度；

上述记录模块740具体用于：

当上述文字图像数据与任一上述音频子数据的匹配置信度不小于预设第一置信度阈值时，则记录该图片与该音频子数据之间的对应关系。

在一种可能的实施方式中，上述装置还包括：

第二图像文字信息识别子模块，用于若多个图片对应的图像文字信息相同，针对上述图片文件中的任一图片，基于图像特征识别该图片中的图像文字数据；

第二匹配子模块，用于依次将识别到的图像文字数据与各音频子数据进行匹配，得到上述图像文字数据与各音频子数据的匹配置信度；

上述记录模块740具体用于：

当上述图像文字数据与任一音频子数据的匹配结果匹配置信度达到预设第二置信度阈值时，记录该图片与上述音频子数据的对应关系。

本发明实施例还提供了一种电子设备，如图11所示，图11为本发明实施例提供的一种电子设备结构示意图，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

获取用于制作音频画面的音频文件和图片文件，上述音频文件包括至少一个音频数据，上述图片文件包括一张图片；各上述音频数据分别包括音频文字信息，各上述图片分别包括图像文字信息；

根据各上述音频数据中的音频文字信息，分别对各上述音频数据进行划分，得到多个音频子数据；

针对任一上述图片，分别计算该图片中的图像文字信息与各上述音频子数据中的音频文字信息的相似度；

若任一上述图片中的图像文字信息与任一上述音频子数据中的音频文字信息的相似度不小于预设相似度阈值，则记录该图片与该音频子数据之间的对应关系；

利用图片与音频子数据之间的对应关系，将上述音频文件和上述图片文件制作成音频画面。

可选的，处理器1101，用于执行存储器1103上所存放的程序时，还可以实现上述任一数据处理方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一上述数据处理方法。

在本申请实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一上述数据处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD(Digital Versatile Disc，数字多功能光盘))、或者半导体介质(例如SSD(Solid StateDisk，固态硬盘))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各所述音频数据中的音频文字信息，分别对各所述音频数据进行划分，得到多个音频子数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述音频数据中的文字数据包括各个字符的时间戳；在所述利用语音识别技术，识别所述音频数据中的音频文字信息，得到音频数据中的文字数据的步骤之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述针对任一所述图片，分别计算该图片中的图像文字信息与各所述音频子数据中的音频文字信息的相似度，包括：

5.根据权利要求4所述的方法，其特征在于，在针对任一所述图片，识别该图片中的图像文字信息之后，所述方法还包括：

6.一种数据处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述划分模块包括：

8.根据权利要求7所述的装置，其特征在于，所述音频数据中的文字数据包括各个字符的时间戳；所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

所述记录模块具体用于：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

所述记录模块具体用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的所述计算机程序时，实现权利要求1-5任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法。