CN109582823A

CN109582823A - 视频信息链式存储方法、装置、计算机设备及存储介质

Info

Publication number: CN109582823A
Application number: CN201811389154.9A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-04-05
Also published as: WO2020103447A1

Abstract

本发明公开了视频信息链式存储方法、装置、计算机设备及存储介质。方法包括：获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段；根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息；从待存储视频段中截取与文字信息对应的视图信息；根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。本发明基于数据压缩存储技术，以实现对待处理视频文件进行轻量化存储，在不遗失视频文件中重要信息的情况下大幅减小了视频文件所需的存储空间，在实际应用过程中取得了非常良好的效果。

Description

视频信息链式存储方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频信息链式存储方法、装置、计算机设备及存储介质。

背景技术

在对视频文件进行保存时需确保视频文件中的重要信息不被遗漏，因而需占用较大的内存空间，传统的处理方法均是将视频文件的格式进行转换或减小视频文件的分辨率以进行压缩处理，以减小视频文件的字节数，然而由于处理后所得到的视频文件依然需较大内存空间才能够存储，仍无法完美解决视频文件需占用大量内存空间的问题。因而，现有的视频处理方法存在无法将视频文件轻量化存储的问题。

发明内容

本发明实施例提供了一种视频信息链式存储方法、装置、计算机设备及存储介质，旨在解决现有技术中所存在的无法将视频文件轻量化存储的问题。

第一方面，本发明实施例提供了一种视频信息链式存储方法，其包括：

获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段；

根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息；

从待存储视频段中截取与文字信息对应的视图信息；

根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

第二方面，本发明实施例提供了一种视频信息链式存储装置，其包括：

视频文件切割单元，用于获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段；

语音信息识别单元，用于根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息；

视图信息获取单元，用于从待存储视频段中截取与文字信息对应的视图信息；

信息存储单元，用于根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的视频信息链式存储方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的视频信息链式存储方法。

本发明实施例提供了一种视频信息链式存储方法、装置、计算机设备及存储介质。通过对待处理视频文件进行切割，并获取待存储视频段中的文字信息及对应的视图信息，将文字信息和视图信息保存至链表中，以实现对待处理视频文件进行轻量化存储，在不遗失视频文件中重要信息的情况下大幅减小了视频文件所需的存储空间，在实际应用过程中取得了非常良好的效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频信息链式存储方法的流程示意图；

图2为本发明实施例提供的视频信息链式存储方法的子流程示意图；

图3为本发明实施例提供的视频信息链式存储方法的另一子流程示意图；

图4为本发明实施例提供的视频信息链式存储方法的另一子流程示意图；

图5为本发明实施例提供的视频信息链式存储方法的另一流程示意图；

图6为本发明实施例提供的视频信息链式存储装置的示意性框图；

图7为本发明实施例提供的视频信息链式存储装置的子单元示意性框图；

图8为本发明实施例提供的视频信息链式存储装置的另一子单元示意性框图；

图9为本发明实施例提供的视频信息链式存储装置的另一子单元示意性框图；

图10为本发明实施例提供的视频信息链式存储装置的另一示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的视频信息链式存储方法的流程示意图。该视频信息链式存储方法应用于具有信息存储功能的终端设备中，例如台式电脑、笔记本电脑、平板电脑或手机等。

如图1所示，该方法包括步骤S110～S140。

S110、获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段。

获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段。用户将一个待处理视频文件输入用户终端，通过视频切割模型对待处理视频文件进行识别并切割，得到多个待存储视频段。其中，待处理视频文件即是用户所输入的需进行轻量化存储的视频文件，待处理视频文件包括编号信息、视频时间戳及讲话人信息。具体的，编号信息即是用于待处理视频文件进行识别的编号，也即是待处理视频文件的ID，每一个待处理视频文件对应拥有一个编号信息，所有待处理视频文件的编号信息不重复；视频时间戳即是用于对待处理视频文件的时间进行标记的信息，通过视频时间戳即可确定待处理视频文件具体的创建时间；讲话人信息即是待处理视频文件所包含的讲话人的信息，一个待处理视频文件中可包含一个或多个讲话人。

例如，若待处理视频文件为一节课程的视频文件，其对应的讲话人信息中仅包含一个讲话人；若待处理视频文件为一段面对面的访谈节目录像，则其对应的讲话人信息中包含多个讲话人。

例如某一个待处理视频文件所包含的信息如表1所示。

编号信息	视频时间戳	讲话人信息
			S10021	2018.04.11	AA、BB、CCC

表1

在一实施例中，如图2所示，步骤S110包括子步骤S111和S112。

S111、通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点。

通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点。具体的，若讲话人信息中仅包含一个讲话人，则该待处理视频文件中无讲话人切换时间点，不对该待处理视频文件进行切割处理；若讲话人信息中包含多个讲话人，该待处理视频文件中包含一个或多个讲话人切换时间点，则需根据视频切割模型获取待处理视频文件中的讲话人切换时间点。通过视频切割模型对待处理视频文件中的讲话人进行识别，即可获取待处理视频文件中从一个讲话人切换至另一个讲话人的切换时间点，视频切割模型中包含所有讲话人的面部识别结果，通过视频切割模型对待处理视频文件中的讲话人进行面部识别，即可匹配得到当前画面的讲话人，当待处理视频文件中前一画面讲话人与后一画面讲话人不相同时则发生讲话人切换，获取待处理视频文件两个画面中讲话人发生切换的时间作为所得到的一个讲话人切换时间点。

S112、根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。

根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。根据所得到的讲话人切换时间点即可将待处理视频文件切割为多个待存储视频段，具体的，每一个待存储视频段均与一个讲话人对应，每一个待存储视频段均包含其在待处理视频文件中对应的时间信息。

S120、根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息。

根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别，以得到与讲话人对应的文字信息。通过语音识别模型即可对待存储视频段中的语音信息进行识别，以得到相应的文字信息，每一段文字信息均与一个讲话人对应。语音识别模型即是用于将视频文件中的语音信息进行识别的具体模型。语音识别模型包括声学模型、语音特征词典及语义解析模型。

在一实施例中，如图3所示，步骤S120包括子步骤S121、S122和S123。

S121、根据语音识别模型中的声学模型对所述语音信息进行切分以得到语音信息中所包含的多个音素。

根据语音识别模型中的声学模型对所述语音信息进行切分，即可得到该语音信息中所包含的多个音素。语音信息也即是用户通过发声所说的一句话，具体的，用户终端所接收到的语音信息由多个字符发音的音素而组成，一个字符的音素包括该字符发音的频率和音色。声学模型中包含所有字符发音的音素，通过将语音信息与声学模型中所有的音素进行匹配，即可对语音信息中单个字符的音素进行切分，通过切分最终得到该语音信息中所包含的多个音素。

S122、根据语音识别模型中的语音特征词典对所得到的音素进行匹配，以将所有音素转换为拼音信息。

根据语音识别模型中的语音特征词典对所得到的音素进行匹配，即可将所有音素转换为拼音信息。语音特征词典中包含所有字符拼音对应的音素信息，通过将所得到的音素与字符拼音对应的音素信息进行匹配，即可将单个字符的音素转换为语音特征词典中与该音素相匹配的字符拼音，以实现将语音信息中所包含的所有音素转换为拼音信息。

S123、根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析，以实现将拼音信息转换为文字信息。语义解析模型中包含拼音信息与文字信息之间所对应的映射关系，通过语义解析模型中所包含的映射关系即可对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

例如，拼音“hé、píng”在语义解析模型中所对应的文字信息为“和平”。

S130、从待存储视频段中截取与文字信息对应的视图信息。

从待存储视频段中随机截取与文字信息对应的视图信息。从待存储视频段中随机截取视图信息，即为与该待存储视频段对应的视图信息，由于每一个待存储视频段均与一个讲话人对应，所截取的视图信息与讲话人相对应。具体的，视图信息可以是一段视频或一张图片，通过一段视频或一张图片作为待存储视频段对应的视图信息，即可对待存储视频段中讲话人的视图信息进行截取和保存。例如，若视图信息为一段视频，则可截取待存储视频段中一段5秒或10秒的视频作为待存储视频段对应的视图信息；若视图信息为一张图片，则可从待存储视频段中随机截取一张讲话人的图片作为待存储视频段对应的视图信息。

S140、根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

将待处理视频文件中所包含的文字信息及视图信息存储至链表中，以对待处理视频文件中所包含的信息进行轻量化存储。由于待处理视频文件中的语音信息被转换为文字信息，从待处理视频文件中截取了每一个讲话人的视图信息，因此，待处理视频文件中所包含的信息均被保存。预设数据库即是用于对数据信息进行存储的数据库，数据库中包含多个链表，链表即是根据时间轴对待处理视频文件中所包含的文字信息及视图信息进行存储的数据存储单元，每一个讲话人与数据库中的一个链表相对应。其中，链表中所存储的数据信息的逻辑顺序是通过链表中的指针链接次序实现的，在本实施例中以文字信息在待处理视频文件中对应的时间信息作为链表的逻辑顺序，也即是通过时间信息为指针链接次序将待处理视频文件中文字信息及视图信息存储至链表中。通过以时间顺序作为链表的逻辑顺序对文字信息及视图信息进行存储，用户可通过链表获取到讲话人以时间信息为顺序的信息列表，其中链表所存储的信息具有无法删除的特性。

在一实施例中，如图4所示，步骤S140包括子步骤S141、S142和S143。

S141、获取文字信息在待处理视频文件中对应的时间信息。

获取文字信息在待处理视频文件中对应的时间信息。由于每一个待存储视频段均包含其在待处理视频文件中对应的时间信息，且文字信息与待处理视频文件中的待存储视频段一一对应，因此，通过获取与文字信息对应的带存储视频段在待处理视频文件中的时间信息，即可获取文字信息在待处理视频文件中对应的时间信息。

例如，某一待存储视频段在待处理视频文件中的时间信息为“1分20秒至3分10秒”，则将“1分20秒至3分10秒”作为与该待存储视频段对应文字信息在待处理视频文件中对应的时间信息。

S142、根据文字信息的时间信息及对应的讲话人以将文字信息存储至与讲话人对应的链表中。

根据文字信息的时间信息及对应的讲话人将文字信息存储至链表中。每一段文字信息均与一个讲话人对应，可通过讲话人从预设数据库中获取与该讲话人对应的链表，以文字信息的时间信息作为链表的逻辑顺序将文字信息存储至该链表中，并将与文字信息对应的讲话人添加至已存储的文字信息中。

S143、将与文字信息对应的视图信息***所述链表中的已存储文字信息以对视图信息进行保存。

将与文字信息对应的视图信息***所述链表中的已存储文字信息以对视图信息进行保存。由于文字信息均从相应待存储视频段中截取了于文字信息对应的视图信息，因此可通过文字信息与视图信息的对应关系，将于文字信息对应的视图信息***链表已存储的文字信息中。

在一实施例中，如图5所示，步骤S140之后还包括步骤S150。

S150、根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息并存储至所述数据库中。

根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息并存储至所述数据库中。为方便对链表中所存储的文字信息及视图信息进行查找，可根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息，一个待处理视频文件可对应一个或多个文字信息，则需对应生成一个或多个索引信息，通过将索引信息存储至数据库中，可大大方便用户对链表中所存储的数据进行快速查找，提高对链表中数据进行查找的效率。

例如，某一文字信息为表1中待处理视频文件的第三段文字，且文字信息在待处理视频文件中对应的时间信息为“1分20秒至3分10秒”，则对应生成的索引信息为“S10021-3，2018.04.11-1分20秒至3分10秒”。

通过对待处理视频文件进行切割，并获取待存储视频段中的文字信息及对应的视图信息，将文字信息和视图信息保存至链表中，以实现对待处理视频文件进行轻量化存储，在不遗失视频文件中重要信息的情况下大幅减小了视频文件所需的存储空间，在实际应用过程中取得了非常良好的效果。

本发明实施例还提供一种视频信息链式存储装置，该视频信息链式存储装置用于执行前述视频信息链式存储方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的视频信息链式存储装置的示意性框图。该视频信息链式存储装置可以配置于台式电脑、笔记本电脑、平板电脑或手机等终端设备中。

如图6所示，视频信息链式存储装置100包括视频文件切割单元110、语音信息识别单元120、视图信息获取单元130、信息存储单元140。

视频文件切割单元110，用于获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段。

其他发明实施例中，如图7所示，所述视频文件切割单元110包括子单元：切换时间点获取单元111和切割处理单元112。

切换时间点获取单元111，用于通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点。

切割处理单元112，用于根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。

语音信息识别单元120，用于根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息。

其他发明实施例中，如图8所示，所述语音信息识别单元120包括子单元：音素切分单元121、拼音信息获取单元122和文字信息获取单元123。

音素切分单元121，用于根据语音识别模型中的声学模型对所述语音信息进行切分以得到语音信息中所包含的多个音素。

拼音信息获取单元122，用于根据语音识别模型中的语音特征词典对所得到的音素进行匹配，以将所有音素转换为拼音信息。

文字信息获取单元123，用于根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

视图信息获取单元130，用于从待存储视频段中截取与文字信息对应的视图信息。

信息存储单元140，用于根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

其他发明实施例中，如图9所示，所述信息存储单元140包括子单元：时间信息获取单元141、文字信息存储单元142和视图信息存储单元143。

时间信息获取单元141，用于获取文字信息在待处理视频文件中对应的时间信息。

文字信息存储单元142，用于根据文字信息的时间信息及对应的讲话人以将文字信息存储至与讲话人对应的链表中。

视图信息存储单元143，用于将与文字信息对应的视图信息***所述链表中的已存储文字信息以对视图信息进行保存。

其他发明实施例中，如图10所示，所述视频信息链式存储装置100还包括子单元：索引信息存储单元150。

索引信息存储单元150，用于根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息并存储至所述数据库中。

上述视频信息链式存储装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。

参阅图11，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行视频信息链式存储方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行视频信息链式存储方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段；根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息；从待存储视频段中截取与文字信息对应的视图信息；根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

在一实施例中，处理器502在执行获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段的步骤时，执行如下操作：通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点；根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。

在一实施例中，处理器502在执行根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息的步骤时，执行如下操作：根据语音识别模型中的声学模型对所述语音信息进行切分以得到语音信息中所包含的多个音素；根据语音识别模型中的语音特征词典对所得到的音素进行匹配，以将所有音素转换为拼音信息；根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

在一实施例中，处理器502在执行根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中的步骤时，执行如下操作：获取文字信息在待处理视频文件中对应的时间信息；根据文字信息的时间信息及对应的讲话人以将文字信息存储至与讲话人对应的链表中；将与文字信息对应的视图信息***所述链表中的已存储文字信息以对视图信息进行保存。

在一实施例中，处理器502在执行根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中的步骤之后，还执行如下操作：根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息并存储至所述数据库中。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段；根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息；从待存储视频段中截取与文字信息对应的视图信息；根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

在一实施例中，所述获取待处理视频文件，通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段，包括：通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点；根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。

在一实施例中，所述根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息的步骤，包括：根据语音识别模型中的声学模型对所述语音信息进行切分以得到语音信息中所包含的多个音素；根据语音识别模型中的语音特征词典对所得到的音素进行匹配，以将所有音素转换为拼音信息；根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

在一实施例中，所述根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中的步骤，包括：获取文字信息在待处理视频文件中对应的时间信息；根据文字信息的时间信息及对应的讲话人以将文字信息存储至与讲话人对应的链表中；将与文字信息对应的视图信息***所述链表中的已存储文字信息以对视图信息进行保存。

在一实施例中，所述根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中的步骤之后，还包括：根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息并存储至所述数据库中。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频信息链式存储方法，其特征在于，包括：

从待存储视频段中截取与文字信息对应的视图信息；

根据所述讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中。

2.根据权利要求1所述的视频信息链式存储方法，其特征在于，所述通过视频切割模型对待处理视频文件进行切割以得到多个待存储视频段，包括：

通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点；

根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。

3.根据权利要求1所述的视频信息链式存储方法，其特征在于，所述根据预设的语音识别模型对所得到的多个待存储视频段中的语音信息进行识别以得到与讲话人对应的文字信息，包括：

根据语音识别模型中的声学模型对所述语音信息进行切分以得到语音信息中所包含的多个音素；

根据语音识别模型中的语音特征词典对所得到的音素进行匹配，以将所有音素转换为拼音信息；

根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

4.根据权利要求1所述的视频信息链式存储方法，其特征在于，所述根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中，包括：

获取文字信息在待处理视频文件中对应的时间信息；

根据文字信息的时间信息及对应的讲话人以将文字信息存储至与讲话人对应的链表中；

将与文字信息对应的视图信息***所述链表中的已存储文字信息以对视图信息进行保存。

5.根据权利要求1所述的视频信息链式存储方法，其特征在于，所述根据文字信息对应的讲话人将所得到的文字信息及视图信息存储至预设数据库与该讲话人对应的链表中之后，还包括：

根据待处理视频文件的编号信息、视频时间戳生成与文字信息对应的索引信息并存储至所述数据库中。

6.一种视频信息链式存储装置，其特征在于，包括：

7.根据权利要求6所述的视频信息链式存储装置，其特征在于，所述视频文件切割单元，包括：

切换时间点获取单元，用于通过视频切割模型及待处理视频文件中的讲话人信息获取得到讲话人切换时间点；

切割处理单元，用于根据待处理视频文件中讲话人切换时间点对待处理视频文件进行切割以获取每一个讲话人对应的待存储视频段。

8.根据权利要求6所述的视频信息链式存储装置，其特征在于，所述语音信息识别单元，包括：

音素切分单元，用于根据语音识别模型中的声学模型对所述语音信息进行切分以得到语音信息中所包含的多个音素；

拼音信息获取单元，用于根据语音识别模型中的语音特征词典对所得到的音素进行匹配，以将所有音素转换为拼音信息；

文字信息获取单元，用于根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析以将拼音信息转换为文字信息。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的视频信息链式存储方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的视频信息链式存储方法。