CN110019961A

CN110019961A - 视频处理方法和装置、用于视频处理的装置

Info

Publication number: CN110019961A
Application number: CN201710736673.7A
Authority: CN
Inventors: 张�杰; 卜海亮; 靳一笑; 邢真臻; 蒋品; 冯新强
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2019-07-16
Also published as: WO2019037615A1

Abstract

本发明实施例提供了一种视频处理方法和装置、一种用于视频处理的装置，其中的方法具体包括：对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；从预置物品库中获取与所述识别结果相匹配的目标物品；将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。本发明实施例可以缩短视频的处理时间、以及提升视频处理效率，且可以提高目标信息的视频覆盖率。

Description

视频处理方法和装置、用于视频处理的装置

技术领域

本发明涉及视频技术领域，特别是涉及一种视频处理方法和装置、一种用于视频处理的装置。

背景技术

随着互联网技术的发展，越来越多的用户习惯通过电脑、手机等终端观看视频，具体地，用户可以通过本地安装的客户端的播放器或者网页上植入的播放器观看感兴趣的视频。

目前，可以通过视频处理在视频中添加信息。现有方案可以通过人工操作在视频中添加信息，具体地，操作人员在观看视频后，首先从视频中抽取出适合添加信息的视频帧，然后获取该视频帧对应的信息，接着利用编辑***在该视频帧中***所获取的信息。

然而，现有方案通过人工操作在视频中添加信息，需要花费较多的时间成本和人力成本，这样将导致视频处理效率低下。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的视频处理方法、视频处理装置及用于视频处理的装置，本发明实施例可以缩短视频的处理时间、以及提升视频处理效率，且可以提高目标信息的视频覆盖率。

为了解决上述问题，本发明公开了一种视频处理方法，包括：

对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；

从预置物品库中获取与所述识别结果相匹配的目标物品；

将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

另一方面，本发明公开了一种视频处理装置，包括：

识别模块，用于对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；

目标物品获取模块，用于从预置物品库中获取与所述识别结果相匹配的目标物品；以及

目标信息添加模块，用于将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

可选地，所述识别模块包括：

图像识别子模块，用于对视频对应的视频流进行图像识别，以得到对应的图像目标信息；和/或

文本识别子模块，用于对视频对应的视频流进行文本识别，以得到对应的文本信息；和/或

语音识别子模块，用于对视频对应的音频流进行语音识别，以得到对应的文本信息。

可选地，所述目标物品获取模块包括：

第一判断子模块，用于在所述识别结果包括图像目标信息时，判断所述图像目标信息中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，若是，则将所述第一物品作为与所述识别结果相匹配的目标物品；和/或

第二判断子模块，用于在所述识别结果包括文本信息时，判断所述文本信息是否包括与所述预置物品库中第一物品或者第一物品的同类物品对应的特征信息相匹配的信息，若是，则将所述第一物品作为与所述文本信息相匹配的目标物品。

可选地，所述第一判断子模块包括：

匹配单元，用于将所述图像目标包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息进行匹配，以得到对应的匹配结果；

目标物品确定单元，用于若所述匹配结果为匹配成功，则确定所述识别结果中包括与所述预置物品库中第一物品相同、相似或者同类别的目标物品。

可选地，所述目标信息添加模块，包括：

目标位置确定子模块，用于确定所述视频流和/或音频流对应的视频帧中用于添加目标信息的目标位置；以及

添加子模块，用于在所述视频帧中的所述目标位置添加所述目标信息。

可选地，所述目标位置确定子模块包括：

目标视频帧选择单元，用于从所述音频流对应的视频帧中选择适于添加目标信息的目标视频帧；以及

目标位置确定单元，用于确定所述目标视频帧中用于添加目标信息的目标位置。

可选地，所述目标视频帧选择单元包括：

目标识别结果获取子单元，用于获取所述识别结果中与所述目标物品的特征信息相匹配的信息作为目标识别结果；

目标音频提取子单元，用于提取所述音频流中与所述目标识别结果对应的部分作为目标音频；

目标视频帧确定子单元，用于将所述目标音频对应的视频帧作为所述目标视频帧。

可选地，所述目标位置确定子模块包括：

第一目标位置确定单元，用于确定所述视频流和/或音频流对应的视频帧的已有物品与所述目标物品之间的符合度；从所述视频帧的已有物品中获取符合度符合预置条件的物品的位置，作为目标位置；和/或，

第二目标位置确定单元，用于识别出所述视频流和/或音频流对应的视频帧中适合于添加所述目标信息的预置图像目标区域，将所述预置图像目标区域作为所述目标位置。

可选地，所述目标位置为字幕相关位置；

所述添加子模块包括：

字幕修改单元，用于依据目标信息对所述视频帧中包括的字幕进行修改，以在所述视频帧包括的字幕中添加所述目标信息；和/或，

字幕附加单元，用于将目标信息作为所述视频帧中字幕的附加信息添加在所述字幕周围，以在所述视频帧中添加所述目标信息。

可选地，所述目标信息添加模块包括：

视频帧信息修改子模块，用于依据所述目标信息，对所述视频流和/或音频流对应的视频帧中对应目标位置的信息进行修改，以得到修改后的视频帧；或者

附加子模块，用于将所述目标信息作为所述视频流和/或音频流对应的视频帧中对应目标位置的附加信息。

可选地，所述装置还包括：

音频流修改模块，用于依据所述目标信息，对所述音频流进行修改，以得到与所述目标信息相匹配的修改后的音频流。

可选地，所述音频流修改模块包括：

语音特征获取子模块，用于获取所述音频流对应的语音特征；

语音合成子模块，用于利用所述语音特征，对所述目标信息进行语音合成，以得到目标音频；

替换子模块，用于采用所述目标音频替换所述音频流中与所述目标物品相匹配的音频，替换后的音频流作为修改后的音频流。

可选地，所述装置还包括：时间轴对齐模块，用于对修改后的音频流与修改前的音频流进行时间轴对齐。

再一方面，本发明公开了一种用于视频处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从预置物品库中获取与所述识别结果相匹配的目标物品；

又一方面，本发明公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述一个或多个所述的视频处理方法。

本发明实施例包括以下优点：

本发明实施例通过机器自动对视频对应的视频流和/或音频流进行识别，获取预置物品库中与识别结果相匹配的目标物品，并将所述目标物品对应的目标信息添加在相应的视频帧中；由于本发明实施例可以在无需人工干预的情况下快速获取与视频流和/或音频流所对应识别结果相匹配的目标物品，因此可以缩短视频的处理时间、以及提升视频处理效率。

并且，在视频处理时间被缩短的情况下，单位时间内可以处理的视频数量可以出现几何级别的增长，并且可以通过计算集群的方式来无限扩展处理视频的机器规模，这样，可以提高目标信息的视频覆盖率。

进一步，本发明实施例采用图像识别和预置物品库匹配的方式进行视频处理，这样，在该预置物品库中的信息发生变化的情况下，可以基于预置物品库匹配获得最新的目标物品及其对应的目标信息，因此可以提高在视频帧中添加的目标信息的时效性，甚至可以在一定程度上实现目标信息的实时更新。

附图说明

图1是本发明的一种视频处理方法实施例一的步骤流程图；

图2是本发明的一种视频处理方法实施例二的步骤流程图；

图3是本发明的一种视频处理装置实施例的结构框图；

图4是本发明的一种用于视频处理的装置900作为终端时的结构框图；及

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种视频处理方案，该方案可以对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；从预置物品库中获取与所述识别结果相匹配的目标物品；并将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

本发明实施例通过机器自动对视频对应的视频流和/或音频流进行识别，获取预置物品库中与识别结果相匹配的目标物品，并将所述目标物品对应的目标信息添加在到该视频流和/或音频流对应的视频帧中；由于本发明实施例可以在无需人工干预的情况下快速获取与视频流和/或音频流所对应识别结果相匹配的目标物品，因此可以缩短视频的处理时间、以及提升视频处理效率。

并且，在视频处理时间被缩短的情况下，单位时间内可以处理的视频数量可以出现几何级别的增长，并且可以通过计算集群的方式来无限扩展处理视频的机器规模，这样，可以进一步提高视频处理效率。

进一步，本发明实施例采用图像识别和预置物品库匹配的方式进行视频处理，这样，在该预置物品库中的信息发生变化的情况下，可以基于预置物品库匹配获得最新的目标物品及其对应的目标信息，因此可以缩短目标信息的更新周期，例如在一定程度上可以实现目标信息的实时更新。

本发明实施例提供的视频处理方案可以针对源自任意视频平台的视频进行处理，且本发明实施例提供的视频处理方案可以对离线视频或者实时播放视频进行处理，其中，该实时播放视频可以对应比赛、晚会等直播场景。其中，视频平台可以为用于提供视频的网络平台，在实际应用中，视频平台的例子可以包括：视频网站和/或视频APP(应用程序，Application)等。

参照图1，示出了本发明实施例的一种视频处理***的示例性结构图，该***可以包括：视频服务器101、视频客户端102和视频处理装置103；其中，视频服务器101与视频客户端102可以位于有线或无线网络中，通过该有线或无线网络，视频服务器101与视频客户端102进行数据交互；视频服务器101与视频处理装置103也可通过有线或无线网络进行数据交互。

在实际应用中，视频服务器101可以向视频客户端102提供第一视频，以使视频客户端102对视频服务器101提供的第一视频进行播放；例如，可以依据视频客户端102的播放请求或者下载请求，向视频客户端102提供对应的第一视频。

并且，视频服务器101可以向视频处理装置103提供需要添加信息的第二视频，则视频处理装置103可以利用本发明实施例的视频处理方案对第二视频进行处理，以得到添加有目标信息的第二视频，并向视频服务器101发送添加有目标信息的第二视频。

在实际应用中，第二视频可以为离线视频或者实时播放视频；其中，在第二视频为离线视频的情况下，第二视频可以为当前的热门视频等，视频服务器101可以向视频处理装置103发送离线视频，从视频处理装置103获取添加有目标信息的离线视频，并对添加有目标信息的第二视频进行存储，这样，在接收到视频客户端102发送的播放请求或者下载请求，则向视频客户端102提供的第一视频可以为：播放请求或者下载请求对应的添加有目标信息的第二视频。

在第二视频为实时播放视频的情况下，视频服务器101可以接收视频客户端102发送的播放请求，例如，该播放请求中可以携带有实时播放视频的URL(统一资源定位符，Uniform Resource Locator)等信息，则可以依据该URL获取实时播放视频，并向视频处理装置103发送实时播放视频，从视频处理装置103获取添加有目标信息的实时播放视频，则向视频客户端102提供的第一视频可以为：添加有目标信息的实时播放视频。

可以理解，图1所示视频处理***只是作为本发明实施例的视频处理方法的应用环境的示例，可以理解，本发明实施例的视频处理方法可以应用于任意的应用环境中，例如，本发明实施例的视频处理方法还可以应用于客户端的应用环境中，其中，视频客户端102可以采用本发明实施例的视频处理方法，对视频服务器101提供的第一视频进行处理，以在第一视频中添加目标信息等等，本发明实施例对于具体的应用环境不加以限制。

方法实施例

参照图2，示出了本发明的一种视频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201、对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；

步骤202、从预置物品库中获取与所述识别结果相匹配的目标物品；

步骤203、将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

本发明实施例对于步骤201中视频的来源不加以限制。例如，该视频可以源自视频服务器，也可以源自用户。其中，在该视频源自视频服务器的情况下，该视频可以为离线视频或者实时播放视频。在该视频源自用户的情况下，例如，可以通过网站或者APP的形式向用户提供上传接口，并将用户通过该上传接口上传的视频作为步骤201中视频。

视频通常由静止的画面组成，这些静止的画面被称为视频帧。视频对应的视频流可用于表示连续的视频帧。视频对应的音频流可用于表示连续的音频信号，该音频流与连续的视频帧具备同步性，以实现视频画面和音频的同步播放效果。

在实际应用中，视频对应的音频流可以与视频的台词、配乐等视频内容相应，该配乐可以包括：主题曲、插曲、片尾曲、以及台词对应的背景音乐等。可以理解，本发明实施例对于音频流对应的具体视频内容不加以限制。

在实际应用中，视频对应的视频流和音频流可以位于相同的文件中，此种情况下，可以从视频文件中提取出音频，具体地，可以将视频文件转换为音频文件，例如可以将MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer 4)格式的视频文件转换为MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)格式的音频文件等。或者，视频对应的视频流和音频流可以分别位于独立的文件中，也即，视频文件和音频文件可以是独立的，此种情况下，可以直接获取音频文件。上述音频文件中可以包括视频对应的音频流，故可以从上述音频文件中读取视频对应的音频流。

在实际应用中，可以按照预置时间间隔从视频中提取若干视频帧，提取得到的视频帧可以作为图像识别的对象。可以理解，本领域技术人员可以根据实际应用需求，确定上述预置时间间隔，例如，上述预置时间间隔可以为N个视频帧对应的播放时长，N为正整数，可以理解，本发明实施例对于具体的N及预置时间间隔不加以限制。

本发明实施例可以采用如下识别方式对视频对应的视频流和/或音频流进行识别：

识别方式1、对视频对应的视频流进行图像识别，以得到对应的图像目标信息；和/或

识别方式2、对视频对应的视频流进行文本识别，以得到对应的文本信息；和/或

识别方式3、对视频对应的音频流进行语音识别，以得到对应的文本信息。

识别方式1中，图像识别，是指利用机器对图像进行处理、分析和理解，以识别各种不同模式的图像目标的技术。具体到本发明实施例，可以利用机器对视频帧进行处理、分析和理解，以识别各种不同模式的图像目标的技术，其中，通常视频帧中的图像目标可以在视频帧中对应有一定的图像区域，视频帧中的图像目标可以包括：物品、人物、空间等，例如，人物可以为视频帧中人物，物品可以为视频帧中人物穿戴的物品，空间可以为视频帧中人物所处的环境空间，如室外环境、室内环境等，例如，室内环境可以包括室内的墙壁、地面等信息，可以理解，本发明实施例对于视频帧中的具体图像目标不加以限制。

在本发明的一种可选实施例中，对视频流和/或音频流对应的视频帧进行图像识别的过程可以包括：检测视频帧中的图像目标，并利用深度学习方法对获取到的图像目标进行分析，以得到对应的图像目标信息，因此，本发明实施例的识别结果可以包括：视频帧对应的图像目标信息。上述图像目标信息可以包括：图像目标的图像(也即图像目标在视频帧中的图像，该图像目标在视频帧中通常对应有一定的封闭区域)、图像目标的识别结果(如识别得到的图像目标的名称、类别等信息)。例如，可以利用人脸检测技术检测视频帧中的人脸，并利用深度学习方法对人脸进行分析，以得到人物的性别、年龄等信息，甚至还可以得到人物的来源，如源自哪个影视剧等，甚至还可以得到人物是哪个名人。进一步，还可以检测该人物穿戴的物品，如服装、鞋子、佩戴的手表、首饰等。或者，还可以检测该人物所处的空间信息等。

视频帧中的文本信息可以包括：图像中包括的文本信息、和/或、字幕中的文本信息。

对于识别方式2，可以采用文本识别技术对视频流和/或音频流对应的视频帧进行文本识别。上述文本识别技术可以包括：OCR(光学字符识别，Optical CharacterRecognition)技术等，OCR技术可以在对图像进行降噪等预处理后，对图像中的字符进行切分，以得到单个的字符图像，并识别单个字符图像对应的字符。可以理解，本发明实施例对于具体的文本识别技术不加以限制。

对于识别方式2，可以获取视频帧的字幕对应的字幕文件，并从该字幕文件中获取字幕中的文本信息；或者，可以对视频帧对应的画面进行截屏，并对截屏图像进行文本识别，以得到字幕中的文本信息。可以理解，本发明实施例对于字幕中的文本信息的具体获取方式不加以限制。

对于识别方式3，可以采用语音识别技术将视频对应的音频流转换为文本信息。如果将视频对应的音频流记作S，对S进行一系列处理后得到与之相对应的语音特征序列O，记作O＝{O₁，O₂，…，O_i，…，O_T}，其中O_i是第i个语音特征，T为语音特征总个数。音频流S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

在步骤201得到视频流和/或音频流对应的识别结果之后，步骤202可以从预置物品库中获取与所述识别结果相匹配的目标物品。

其中，预置物品库可用于存储第一物品，并且，该第一物品还可以对应有特征信息和目标信息。在实际应用中，可以与运营商进行合作，以得到第一物品及其对应的特征信息和目标信息。

其中，第一物品的特征信息用于表征第一物品的物品特征，其可以作为与文本信息进行匹配的匹配依据。

目标信息为用于在视频帧中添加的信息；例如，目标信息可以为第一物品的徽标、图片等吸引用户的信息，又如，目标信息可以为链接等访问入口，以使用户通过该访问入口进入第一物品对应的页面。

第一物品的例子可以包括：服装、鞋子、饮料、佩戴物等商品，目标信息可以包括：徽标、展示图、海报等图片格式的目标信息和/或文本格式的目标信息等，可以理解，运营商可以根据实际应用需求，确定需要进行推荐的第一物品及其对应的目标信息，本发明实施例对于具体的第一物品及其对应的目标信息不加以限制。

另外，可以理解，上述通过运营商提供第一物品及其对应的特征信息和目标信息的方式只是作为可选实施例，实际上，本领域技术人员可以根据实际应用需求，采用其他方式获取第一物品及其对应的特征信息和目标信息，例如，根据用户的历史行为数据获取第一物品等等，具体地，可以根据用户的历史行为数据获取用户的感兴趣特征，并获取该感兴趣特征对应的第一物品，例如，该感兴趣特征可以为用户购买过的商品特征，该第一物品可以为该商品特征同类别的特征等，可以理解，本发明实施例对于第一物品及其对应的目标信息的具体获取方式不加以限制。

在本发明的一种可选实施例中，上述识别结果包括：图像目标信息，上述步骤202从预置物品库中获取与所述识别结果相匹配的目标物品的过程可以包括：判断所述图像目标信息中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，若是，则将所述第一物品作为与所述图像目标信息相匹配的目标物品。本发明实施例可以将与图像目标信息中包括的第二物品相同或者同类别的第一物品，作为目标物品，因此可以提高目标信息的视频覆盖率。例如，图像目标信息中包括的“帽子1”与预置物品库中包括的“帽子2”相同；又如，图像目标信息中包括的“西装1”与预置物品库中包括的“西装2”相似；再如，预置物品库中包括的物品为“可乐”，图像目标信息中物品为“雪碧”，“可乐”和“雪碧”所属的类别均为易拉罐形状的饮料等等。

具体地，上述判断所述图像目标信息中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品的过程，可以包括：将所述图像目标信息中包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息进行匹配，以得到对应的匹配结果；若所述匹配结果为匹配成功，则确定所述图像目标信息中包括与所述预置物品库中第一物品相同、相似或者同类别的目标物品；其中，所述特征信息可以包括：形状、颜色和类别中的至少一种。

在实际应用中，可以依据图像目标信息包括的第二物品的轮廓确定第二物品的形状；和/或，可以依据第二物品的色彩值(如RGB(红绿蓝，Red Green Blue)值)确定第二物品的颜色；和/或，利用深度学习方法对第二物品进行分析，以得到第二物品的类别。

可选地，将所述图像目标信息包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息进行匹配的过程可以包括：确定所述图像目标信息包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息之间的相似度，并判断该相似度是否符合预置相似度条件，若是，则对应的匹配结果可以为匹配成功。

例如，可以将图像目标信息包括的第二物品的形状和颜色与预置物品库中第一物品的形状和颜色进行匹配，若匹配成功，则可以认为该第一物品与该第二物品相匹配。例如，若某电视剧的视频帧对应的图像目标信息包括的服装的形状和颜色分别为“西装形状1”和“酒红色”，而某预置物品库中包括的第一物品的形状和颜色分别为“西装形状2”和“枣红色”，则可以认为图像目标信息包括的该服装与该第一物品匹配成功。可以理解，本发明实施例对于具体的预置相似度条件不加以限制，例如，预置相似度条件可以包括：相似度超过相似度阈值，该相似度可以为0.8等不超过1的正数。

在本发明的另一种可选实施例中，上述识别结果包括：文本信息，上述步骤202从预置物品库中获取与所述识别结果相匹配的目标物品的过程可以包括：判断所述文本信息是否包括与所述预置物品库中第一物品或者第一物品的同类物品对应的特征信息相匹配的信息，若是，则将所述第一物品作为与所述文本信息相匹配的目标物品。

可选地，所述特征信息可以包括：名称、品牌、类别和广告语的至少一种。文本信息与特征信息相匹配可以包括：全部或部分文本信息与特征信息对应的字符相同、语义相同、语义相似、语义相关等。可选地，可以分别确定文本信息和特征信息对应的文本向量，并根据两个文本向量之间的相似度进行语义相似的判断，可以理解，本发明实施例对于文本信息与特征信息相匹配、及其对应的匹配过程不加以限制。

在本发明的一种应用示例1中，假设视频帧对应的字幕包括文本信息“有我最喜欢的三只松鼠”，则可以将该文本信息与预置物品库中第一物品对应的名称、品牌、类别等特征信息进行匹配，由于该文本信息包括与第一物品对应的特征信息相匹配的信息，故可以得到品牌为“三只松鼠”的目标物品，还可以得到品牌为“良品铺子”的目标物品，其中，“良品铺子”与“三只松鼠”的类别相同。

在本发明的一种应用示例2中，假设视频帧对应的字幕包括文本信息“我想过一个精彩的人生”，则可以将该文本信息与预置物品库中第一物品对应的广告语信息进行匹配，假设匹配结果表明：该文本信息与某种饮料的广告语“年轻就要醒着拼”相匹配，则可以将该饮料作为目标物品。

在本发明的一种应用示例3中，假设视频帧对应的图像中包括文本信息“GAP”，也即图像中的人物穿戴有带有“GAP”徽标的物品(如衣服、帽子、书包等)，则可以将该文本信息与预置物品库中第一物品对应的名称、品牌、类别等特征信息进行匹配，由于该文本信息包括与第一物品对应的特征信息相匹配的信息，故可以得到品牌为“GAP”的目标物品，还可以得到品牌为“优衣库”的目标物品，其中，“优衣库”与“GAP”的类别相同或者相似。

在步骤202从预置物品库中获取与所述识别结果相匹配的目标物品之后，步骤203可以将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中，以便后续用户观看该视频时，当视频进度至该视频帧时，将目标信息展示给用户。

在本发明的一种可选实施例中，上述步骤203将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中的过程，可以包括：确定所述视频帧中用于添加所述目标信息的目标位置；在所述视频帧中的目标位置添加所述目标信息。

在实际应用中，可以对视频帧进行分析，以从视频帧的位置中获取适合于添加目标信息的目标位置。

本申请实施例中，音频流对应的视频帧可以为一个或者多个。在实际应用中，可以将目标物品对应的目标信息添加在所述音频流对应的全部视频帧中，也可以仅将目标物品对应的目标信息添加在所述音频流对应的部分视频帧中。可选地，可以首先从所述音频流对应的视频帧中选择适于添加目标信息的目标视频帧，然后将所述目标物品对应的目标信息添加在该目标视频帧中。可选地，可以将与目标物品相匹配的文本信息对应的视频帧，作为目标视频帧，这样，可以实现视频画面和目标信息的同步。例如，与目标物品相匹配的文本信息为视频中某段台词的信息，则可以将该段台词对应的视频帧，作为适于添加目标信息的目标视频帧。当然，本发明实施例对于具体的目标视频帧不加以限制，例如，其还可以为位于与目标物品相匹配的文本信息对应的视频帧之后的视频帧等，假设与目标物品相匹配的文本信息位于视频中某段台词的末尾，则可以将该段台词对应的下一视频帧作为目标视频帧。

在本发明的一种可选实施例中，上述步骤203将所述目标物品对应的目标信息添加在所述音频流对应的视频帧中的过程，可以包括：从所述音频流对应的视频帧中选择适于添加目标信息的目标视频帧；确定所述目标视频帧中用于添加所述目标信息的目标位置；在所述目标视频帧中的目标位置添加所述目标信息。

其中，所述目标视频帧可以包括：与目标物品相匹配的文本信息对应的视频帧。具体的，所述从所述音频流对应的视频帧中选择适于添加所述目标信息的目标视频帧，可以包括：获取所述识别结果中与所述目标物品的特征信息相匹配的信息作为目标识别结果；提取所述音频流中与所述目标识别结果对应的部分作为目标音频；将所述目标音频对应的视频帧作为所述目标视频帧；所述识别结果即为对所述音频流通过语音识别得到的文本信息。在实际应用中，音频流可以具有一定的长度，作为识别结果的文本信息也可以具有一定的长度，故可以首先依据目标物品的特征信息获取目标识别结果，如文本信息中的目标文本信息，然后提取音频流中的目标音频，进而定位到目标音频对应的目标视频帧，其中，可以按照视频流与音频流之间的同步性，定位到目标音频对应的目标视频帧。

需要说明的是，在目标视频帧为多个时，可以分别针对每个目标视频帧，确定其中用于添加所述目标信息的目标位置；这样，可以在一定程度上避免一个目标视频帧对应的持续时间较短导致用户错过目标信息的问题。

在本发明的一种可选实施例中，所述目标位置可以为字幕相关位置。字幕相关位置可以包括：字幕位置、或者字幕的周围位置。其中，在目标位置为字幕位置时，可以依据目标信息对该视频帧中包括的字幕进行修改，以在所述视频帧包括的字幕中添加所述目标信息。或者，在目标位置为字幕的周围位置时，可以将目标信息作为所述视频帧中字幕的附加信息添加在所述字幕周围。

在本发明的一种可选实施例中，所述目标位置可以与所述目标物品相符，这样，可以提高视频的自然度。相应地，上述确定所述视频帧中用于添加所述目标信息的目标位置的过程可以包括：确定所述视频帧的已有物品与所述目标物品之间的符合度；从所述视频帧的已有物品中获取符合度符合预置条件的物品的位置，作为目标位置。

其中，已有物品可以为视频帧中包括的物品，在实际应用中，可以将视频帧的已有物品的特征信息(如形状、颜色、名称、类别等)与所述目标物品的特征信息(如形状、颜色、名称、类别、品牌、及目标信息等)进行匹配，以得到两者之间的符合度。进一步，若该符合度符合预置条件，则可以将该已有物品在该视频帧中的位置作为目标位置。可选地，符合度符合预置条件可以包括：符合度超过预设阈值等。例如，若目标物品“可乐”为易拉罐形状的饮料，那么依据图像分析，可以获取视频帧中形状为易拉罐形状、或者瓶状的物品所在的位置等，作为目标位置。又如，若目标物品的目标信息为某品牌(如”GAP”)的徽标，那么可以获取视频帧中与该徽标相符的服装或者鞋帽的物品所在的位置等，作为目标位置，例如，如与“GAP”的徽标相符的服装或者鞋帽的风格可以为与“GAP”对应的休闲风格，可以理解，该目标位置可以为视频帧中与该徽标相符的物品所在的位置均在本发明实施例的目标位置的保护范围之内，其中，物品所在的位置与该徽标相符可以指适于在该物品所在的位置添加该徽标。

在本发明的另一种可选实施例中，所述目标位置可以为预置图像目标区域对应的位置，该预置图像目标可以为不影响用户观看的图像目标，该预置图像目标可以包括：除了人物、人物穿戴的物品之外的图像目标，该预置图像目标可以为墙壁、地面、电梯、蓝天等空间，该预置图像目标还可以为家具等物品等。相应地，上述确定所述视频帧中用于添加所述目标信息的目标位置的过程可以包括：识别出视频帧中适合于添加所述目标信息的预置图像目标区域，将所述预置图像目标区域作为所述目标位置。

在本发明的一种应用示例中，假设某视频帧中存在大面积的预置图像目标区域(如墙壁区域、地面区域、电梯区域或者衣柜区域等)，则可以通过图像识别技术识别出该预置图像目标区域，并在该预置图像目标区域中***目标信息(如海报信息、展示图等)。通常对于观看视频的用户来说，其基本不会察觉到预置图像目标区域的内容为视频以外的内容，因此可以在降低目标信息对视频的影响、以及用户对于目标信息的反感度的的同时，实现目标信息的推荐。

在实际应用中，上述步骤203将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中所采用的添加方式可以包括：

添加方式1、依据所述目标信息，对所述视频帧中对应目标位置的信息进行修改，以得到修改后的包括所述目标信息的视频帧；或者

添加方式2、将所述目标信息作为所述视频帧中对应目标位置的附加信息添加入所述视频帧。

其中，添加方式1可以通过对视频帧中对应目标位置的信息进行修改，将目标信息添加至所述视频帧，这样可以使视频帧中的信息发生改变。

根据一种实施例，上述对所述视频帧中对应目标位置的信息进行修改的过程可以包括：对视频帧中对应目标位置的像素值进行修改，具体地，可以将所述视频帧中对应目标位置的第一像素值替换为目标信息对应的第二像素值，其中，可以依据图片格式的目标信息和/或文本格式的目标信息的色彩值(如RGB(红绿蓝，Red Green Blue)值)，确定目标信息对应的第二像素值。

根据另一种实施例，上述对所述视频帧中对应目标位置的信息进行修改的过程可以包括：对视频帧中对应字幕位置的文本信息进行修改，以将对应字幕位置的文本信息修改为文本格式的目标信息。

添加方式2可以将所述目标信息作为所述视频帧中对应目标位置的附加信息，其中，该附加信息可以包括字幕信息、或者蒙层信息。

其中，可以将文本格式的目标信息作为视频帧中对应目标位置的字幕信息，例如，视频帧的人物穿有服装，则可以将目标物品对应的目标信息(如服装品牌A)作为该服装对应位置的字幕信息，以实现服装品牌A的推荐。需要说明的是，若视频帧中人物穿着的服装带有品牌，则可以通过图像处理技术将该视频帧的人物穿的服装带有的品牌去除，以避免品牌的重复。

蒙层是指具有一定透明值的图层，蒙层的参数可以包括大小、显示位置和透明值。本发明实施例中的蒙层可以覆盖在视频帧上，这样，可以通过蒙层的参数，实现蒙层和视频帧的同时显示。例如，可在显示视频帧的同时，在视频帧中的目标位置通过蒙层显示所述目标信息。并且，为了降低蒙层对于视频帧的影响，该蒙层可以位于前述的预置图像目标所在的位置区域。

本发明实施例将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中的应用示例可以包括：

应用示例1、假设视频的台词包括文本信息“有我最喜欢的三只松鼠”，假设通过匹配得到品牌为“良品铺子”的目标物品，则可以将该视频帧的字幕中包括的文本信息“有我最喜欢的三只松鼠”中的“三只松鼠”替换为“良品铺子”，得到修改后的字幕信息为“有我最喜欢的良品铺子”，并展现在添加后的视频帧中。

应用示例2、假设视频帧的台词包括文本信息“我想过一个精彩的人生”，假设该文本信息与某种饮料的广告语“年轻就要醒着拼”相匹配，则可以将该饮料作为目标物品，并在字幕的周围区域(如上方区域)设置蒙层，通过该蒙层加载目标物品对应的目标信息，如饮料的徽标及广告语等，并将该蒙层展现在添加后的视频帧中。

应用示例3、假设视频帧对应的图像中的人物穿戴有带有“GAP”徽标的物品(如衣服、帽子、书包等)，假设通过匹配得到品牌为“优衣库”的目标物品，则可以在所述视频帧的图像中对应目标位置上添加目标物品的徽标(例如优衣库的徽标UNIQLO)，或者将所述视频帧中第二物品的徽标替换为目标物品的徽标(例如将视频帧中服饰上的徽标“GAP”替换为“UNIQLO”)。其中，可以通过像素值的修改或者蒙层来实现目标物品的徽标的添加或者替换。并且，目标位置可以与目标物品的徽标相符，具体地，该徽标可以覆盖任意物品类型的物品位置等，例如，优衣库徽标“UNIQLO”覆盖的物品类型可以包括：服装、帽子等等。

应用示例4、将所述视频帧中对应目标位置的第一像素值替换为目标目标信息对应的第二像素值。例如，可以将视频帧中某第二物品对应第一图像包括的第一像素值替换为与该第二物品同类别的目标物品对应第二图像包括的第二像素值。第二物品的例子可以包括：易拉罐形状或者瓶状的第一饮料，与该第二物品同类别的目标物品可以包括：易拉罐形状或者瓶状的第二饮料，这样可以将视频帧中第一饮料的画面替换为第二饮料的画面。

应用示例5、在所述视频帧中对应目标位置上添加目标物品的徽标，或者将所述视频帧中第二物品的徽标替换为目标物品的徽标。其中，可以通过像素值的修改或者蒙层来实现目标物品的徽标的添加或者替换。并且，目标位置可以与目标物品的徽标相符，例如，目标物品的徽标为某品牌的徽标，则该目标位置可以为适于添加该徽标的位置，具体地，该徽标可以覆盖任意物品类型的物品位置等，例如，徽标“GAP”覆盖的物品类型可以包括：服装、帽子等，徽标“NIKE”覆盖的物品类型可以包括：服装、鞋帽、箱包等。

应用示例6、在所述视频帧中对应目标位置上通过蒙层显示目标物品对应的目标信息，如徽标、展示图、海报等图片格式的目标信息和/或文本格式的目标信息等，通过蒙层显示的目标信息可以带有链接，以使用户通过该链接进入目标物品对应的页面。

在本发明的一些实施例中，还可以对视频包括的连续视频帧中的图像目标进行图像跟踪，这样，可以依据图像跟踪结果针对后续的视频帧中的图像目标，复用之前的视频帧中相同图像目标对应的目标物品，这样不仅可以降低目标物品的获取所需的运算量，而且目标物品的多次出现可以加深用户对于目标物品的记忆。例如，视频帧i(i为视频帧的编号，i为大于等于0的整数)出现了易拉罐形状的饮料1，该饮料1对应的目标物品为与饮料1同类别的易拉罐形状的饮料2，则可以对该饮料1进行图像追踪，若后续的视频帧i+1、视频帧i+2…视频帧i+M(其中，M为正整数)中仍然出现饮料1，则可以针对后续的视频帧i+1、视频帧i+2…视频帧i+M中包括的饮料1，复用饮料2对应的目标信息，直到识别到视频帧i+M+1中该饮料1消失为止，由此使得，当视频进度至植入了目标信息的视频帧时，用户可以看到加入了饮料2的目标信息，直至该饮料1不再显示为止。

在本发明的一些实施例中，可以针对实时播放视频进行处理。相应地，可以针对当前播放时刻对应的第一视频帧获取对应的第一目标物品，并在下一播放时刻对应的第二视频帧中添加所述第一目标物品对应的目标信息，其中，第二视频帧对应的识别结果可以与第一目标物品相匹配。

需要说明的是，在连续视频帧包括相同图像目标的情况下，相同图像目标对应的目标物品可以对应有多个目标信息，这样，可以在连续视频帧的不同视频帧中添加该目标物品对应的不同目标信息，这样可以实现目标物品对应目标信息的多样性。例如，该目标物品对应的不同目标信息可以包括：同一目标物品对应的徽标、展示图、海报、甚至文本信息等。

在本发明的一种可选实施例中，本发明实施例的方法还可以包括：依据所述目标信息，对所述音频流进行修改，以得到与所述目标信息相匹配的修改后的音频流。其中，修改后的音频流中可以包括与目标信息相匹配的音频，例如，假设视频的台词包括文本信息“有我最喜欢的三只松鼠”，假设目标物品为“良品铺子”，则可以将该台词对应的音频修改为“有我最喜欢的良品铺子”对应的音频。

根据一种实施例，可以对所述目标信息进行语音合成，以得到目标音频；采用所述目标音频替换所述音频流中与所述目标物品相匹配的音频，替换后的音频流作为修改后的音频流。

语音合成技术又称文语转换(TTS，Text-to-Speech)技术，即将文字转换为语音的技术。语音合成技术的例子可以包括：基于隐马尔可夫模型(HMM，Hidden Markov Model)的语音合成(HTS，HMM-based Speech Synthesis System)，HTS的基本思路是：对语音信号进行参数化分解，并建立各声学参数对应的HMM模型，合成时利用训练得到的HMM模型预测待合成文本的声学参数，这些声学参数被输入至参数合成器，最终得到合成语音。上述声学参数可以包括：频谱参数和基频参数中的至少一种。

根据另一种实施例，上述对所述音频流进行修改的过程可以包括：获取所述音频流对应的语音特征；利用所述语音特征，对所述目标信息进行语音合成，以得到目标音频；采用所述目标音频替换所述音频流中与所述目标物品相匹配的音频，替换后的音频流作为修改后的音频流。本实施例中，可以利用所述语音特征，确定语音合成对应的声学参数，这样，可以实现音频流中未被替换的音频与替换后的音频在语音特征方面的一致性。

可选地，上述语音特征可以包括声纹特征，声纹特征是用电声学仪器显示的携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性的特点。本发明实施例利用音频流对应的声纹特征进行目标信息的语音合成，可以使合成得到的目标音频与音频流对应的原声相匹配，实现视频内容的完整性。

在本发明的一种可选实施例中，可以对修改后的音频流与修改前的音频流进行时间轴对齐，上述时间轴对齐可以实现修改后的音频流与修改前的音频流(原始音频流)在时间轴方面的一致性，这样可以避免音频流的修改对于视频音频同步的影响。假设原始音频流中与文本信息“有我最喜欢的三只松鼠”对应的为第一音频，假设修改后的音频流中与修改后文本信息“有我最喜欢的良品铺子”对应的为第二音频，则第一音频在原始音频流中的时间信息与第二音频在修改后的音频流中的时间信息是一致的；具体地，第一音频和第二音频对应的时长可以是一致的，并且，第一音频在原始音频流中的起始时间和终止时间与第二音频在修改后的音频流中的起始时间和终止时间是一致的。

需要说明的是，在获取与文本信息相匹配的目标物品后，可以记录文本信息与目标物品之间的映射关系，这样，对于音频流对应的文本信息，可以通过该映射关系，获取与文本信息相匹配的目标物品。这样不仅可以降低目标物品的获取所需的运算量，而且目标物品的多次出现可以加深用户对于目标物品的记忆。例如，若音频流对应的台词中多次出现“三只松鼠”，则在首次获取“三只松鼠”对应的目标物品“良品铺子”后，可以建立“三只松鼠”与“良品铺子”之间的映射关系；这样，可以针对后续出现的“三只松鼠”，通过该映射关系获取与其相匹配的目标物品“良品铺子”。

在本发明的一种可选实施例中，本发明实施例的方法还可以包括：获取设备所处的地理区域、以及所述地理区域对应的目标语言；将音频流对应的文本信息翻译为符合所述目标语言的目标文本信息；将所述目标文本信息添加在所述视频流和/或音频流对应的视频帧中。其中，设备可以为用户所使用的设备，本发明实施例可以针对用户所处的地理区域，将音频流对应的文本信息(如台词、歌词等)进行机器翻译，这样可以实现不同语言用户都可以看懂视频内容的目的。上述地理区域的粒度可以为国家等，这样，对于处于欧美区域的用户，可以将音频流对应的文本信息从一种语言(如汉语)翻译为英语。当然，上述地理区域的粒度还可以为省市等，这样，可以将音频流对应的文本信息从一种语言(如汉语)翻译为某个区域的方言(如东北方言、四川方言、广东方言等)。

综上，本发明实施例的视频处理方法，通过机器自动识别视频帧中的信息，获取预置物品库中与识别结果相匹配的目标物品，并将所述目标物品对应的目标信息添加在到视频帧中；由于本发明实施例可以在无需人工干预的情况下快速获取与视频流和/或音频流所对应识别结果相匹配的目标物品，因此可以缩短视频的处理时间、以及提升视频处理效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种视频处理装置实施例的结构框图，具体可以包括：识别模块301、目标物品获取模块302和目标信息添加模块303。

其中，识别模块301，用于对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；

目标物品获取模块302，用于从预置物品库中获取与所述识别结果相匹配的目标物品；

目标信息添加模块303，用于将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

可选地，所述识别模块301可以包括：

可选地，所述目标物品获取模块302可以包括：

第一判断子模块，用于在所述识别结果可以包括图像目标信息时，判断所述图像目标信息中是否可以包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，若是，则将所述第一物品作为与所述识别结果相匹配的目标物品；和/或

第二判断子模块，用于在所述识别结果可以包括文本信息时，判断所述文本信息是否可以包括与所述预置物品库中第一物品或者第一物品的同类物品对应的特征信息相匹配的信息，若是，则将所述第一物品作为与所述文本信息相匹配的目标物品。

可选地，所述第一判断子模块可以包括：

匹配单元，用于将所述图像目标可以包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息进行匹配，以得到对应的匹配结果；

目标物品确定单元，用于若所述匹配结果为匹配成功，则确定所述识别结果中可以包括与所述预置物品库中第一物品相同、相似或者同类别的目标物品。

可选地，所述目标信息添加模块303，可以包括：

可选地，所述目标位置确定子模块可以包括：

可选地，所述目标视频帧选择单元可以包括：

可选地，所述目标位置确定子模块可以包括：

可选地，所述目标位置为字幕相关位置；

所述添加子模块可以包括：

字幕修改单元，用于依据目标信息对所述视频帧中可以包括的字幕进行修改，以在所述视频帧可以包括的字幕中添加所述目标信息；和/或，

可选地，所述目标信息添加模块303可以包括：

可选地，所述装置还可以包括：

可选地，所述音频流修改模块可以包括：

可选地，所述装置还可以包括：时间轴对齐模块，用于对修改后的音频流与修改前的音频流进行时间轴对齐。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于视频处理的装置，该装置可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；从预置物品库中获取与所述识别结果相匹配的目标物品；将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

可选地，所述对视频对应的视频流和/或音频流进行识别，包括：对视频对应的视频流进行图像识别，以得到对应的图像目标信息；和/或对视频对应的视频流进行文本识别，以得到对应的文本信息；和/或对视频对应的音频流进行语音识别，以得到对应的文本信息。

可选地，所述从预置物品库中获取与所述识别结果相匹配的目标物品，包括：所述识别结果包括图像目标信息，判断所述图像目标信息中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，若是，则将所述第一物品作为与所述识别结果相匹配的目标物品；和/或所述识别结果包括文本信息，判断所述文本信息是否包括与所述预置物品库中第一物品或者第一物品的同类物品对应的特征信息相匹配的信息，若是，则将所述第一物品作为与所述文本信息相匹配的目标物品。

可选地，所述判断所述图像目标中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，包括：将所述图像目标包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息进行匹配，以得到对应的匹配结果；若所述匹配结果为匹配成功，则确定所述识别结果中包括与所述预置物品库中第一物品相同、相似或者同类别的目标物品。

可选地，所述将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中，包括：确定所述视频流和/或音频流对应的视频帧中用于添加目标信息的目标位置；在所述视频帧中的所述目标位置添加所述目标信息。

可选地，所述确定所述视频流和/或音频流对应的视频帧中用于添加目标信息的目标位置，包括：从所述音频流对应的视频帧中选择适于添加目标信息的目标视频帧；确定所述目标视频帧中用于添加目标信息的目标位置。

可选地，所述从所述音频流对应的视频帧中选择适于添加所述目标信息的目标视频帧，包括：获取所述识别结果中与所述目标物品的特征信息相匹配的信息作为目标识别结果；提取所述音频流中与所述目标识别结果对应的部分作为目标音频；将所述目标音频对应的视频帧作为所述目标视频帧。

可选地，所述确定所述视频流和/或音频流对应的视频帧中用于添加所述目标信息的目标位置，包括：确定所述视频流和/或音频流对应的视频帧的已有物品与所述目标物品之间的符合度；从所述视频帧的已有物品中获取符合度符合预置条件的物品的位置，作为目标位置；和/或，识别出所述视频流和/或音频流对应的视频帧中适合于添加所述目标信息的预置图像目标区域，将所述预置图像目标区域作为所述目标位置。

可选地，所述目标位置为字幕相关位置；所述在所述视频帧中的所述目标位置添加所述目标信息包括：依据目标信息对所述视频帧中包括的字幕进行修改，以在所述视频帧包括的字幕中添加所述目标信息；和/或，将目标信息作为所述视频帧中字幕的附加信息添加在所述字幕周围，以在所述视频帧中添加所述目标信息。

可选地，所述将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中，包括：依据所述目标信息，对所述视频流和/或音频流对应的视频帧中对应目标位置的信息进行修改，以得到修改后的视频帧；或者将所述目标信息作为所述视频流和/或音频流对应的视频帧中对应目标位置的附加信息。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：依据所述目标信息，对所述音频流进行修改，以得到与所述目标信息相匹配的修改后的音频流。

可选地，所述对所述音频流进行修改，包括：获取所述音频流对应的语音特征；利用所述语音特征，对所述目标信息进行语音合成，以得到目标音频；采用所述目标音频替换所述音频流中与所述目标物品相匹配的音频，替换后的音频流作为修改后的音频流。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对修改后的音频流与修改前的音频流进行时间轴对齐。

图4是根据一示例性实施例示出的一种用于视频处理的装置900作为终端时的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物品的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种视频处理方法，所述方法包括：对视频对应的视频流和/或音频流进行识别，以得到对应的识别结果；从预置物品库中获取与所述识别结果相匹配的目标物品；将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种视频处理方法、一种视频处理装置和一种用于视频处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

从预置物品库中获取与所述识别结果相匹配的目标物品；

2.根据权利要求1所述的方法，其特征在于，所述对视频对应的视频流和/或音频流进行识别，包括：

对视频对应的视频流进行图像识别，以得到对应的图像目标信息；和/或

对视频对应的视频流进行文本识别，以得到对应的文本信息；和/或

对视频对应的音频流进行语音识别，以得到对应的文本信息。

3.根据权利要求1所述的方法，其特征在于，所述从预置物品库中获取与所述识别结果相匹配的目标物品，包括：

所述识别结果包括图像目标信息，判断所述图像目标信息中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，若是，则将所述第一物品作为与所述识别结果相匹配的目标物品；和/或

所述识别结果包括文本信息，判断所述文本信息是否包括与所述预置物品库中第一物品或者第一物品的同类物品对应的特征信息相匹配的信息，若是，则将所述第一物品作为与所述文本信息相匹配的目标物品。

4.根据权利要求3所述的方法，其特征在于，所述判断所述图像目标中是否包括与所述预置物品库中第一物品相同、相似或者同类别的第二物品，包括：

将所述图像目标包括的第二物品的特征信息与所述预置物品库中第一物品的特征信息进行匹配，以得到对应的匹配结果；

若所述匹配结果为匹配成功，则确定所述识别结果中包括与所述预置物品库中第一物品相同、相似或者同类别的目标物品。

5.根据权利要求1所述的方法，其特征在于，所述将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中，包括：

确定所述视频流和/或音频流对应的视频帧中用于添加目标信息的目标位置；

在所述视频帧中的所述目标位置添加所述目标信息。

6.根据权利要求5所述的方法，其特征在于，所述确定所述视频流和/或音频流对应的视频帧中用于添加目标信息的目标位置，包括：

从所述音频流对应的视频帧中选择适于添加目标信息的目标视频帧；

确定所述目标视频帧中用于添加目标信息的目标位置。

7.根据权利要求6所述的方法，其特征在于，所述从所述音频流对应的视频帧中选择适于添加所述目标信息的目标视频帧，包括：

获取所述识别结果中与所述目标物品的特征信息相匹配的信息作为目标识别结果；

提取所述音频流中与所述目标识别结果对应的部分作为目标音频；

将所述目标音频对应的视频帧作为所述目标视频帧。

8.根据权利要求5所述的方法，其特征在于，所述确定所述视频流和/或音频流对应的视频帧中用于添加所述目标信息的目标位置，包括：

确定所述视频流和/或音频流对应的视频帧的已有物品与所述目标物品之间的符合度；从所述视频帧的已有物品中获取符合度符合预置条件的物品的位置，作为目标位置；

和/或，

识别出所述视频流和/或音频流对应的视频帧中适合于添加所述目标信息的预置图像目标区域，将所述预置图像目标区域作为所述目标位置。

9.根据权利要求5所述的方法，其特征在于，所述目标位置为字幕相关位置；

所述在所述视频帧中的所述目标位置添加所述目标信息包括：

依据目标信息对所述视频帧中包括的字幕进行修改，以在所述视频帧包括的字幕中添加所述目标信息；

和/或，

将目标信息作为所述视频帧中字幕的附加信息添加在所述字幕周围，以在所述视频帧中添加所述目标信息。

10.根据权利要求1所述的方法，其特征在于，所述将所述目标物品对应的目标信息添加在所述视频流和/或音频流对应的视频帧中，包括：

依据所述目标信息，对所述视频流和/或音频流对应的视频帧中对应目标位置的信息进行修改，以得到修改后的视频帧；或者

将所述目标信息作为所述视频流和/或音频流对应的视频帧中对应目标位置的附加信息。

11.根据权利要求1至10中任一所述的方法，其特征在于，所述方法还包括：

依据所述目标信息，对所述音频流进行修改，以得到与所述目标信息相匹配的修改后的音频流。

12.根据权利要求11所述的方法，其特征在于，所述对所述音频流进行修改，包括：

获取所述音频流对应的语音特征；

利用所述语音特征，对所述目标信息进行语音合成，以得到目标音频；

采用所述目标音频替换所述音频流中与所述目标物品相匹配的音频，替换后的音频流作为修改后的音频流。

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

对修改后的音频流与修改前的音频流进行时间轴对齐。

14.一种视频处理装置，其特征在于，包括：

15.一种用于视频处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从预置物品库中获取与所述识别结果相匹配的目标物品；

16.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至13中一个或多个所述的视频处理方法。