CN112822539B

CN112822539B - 信息显示方法、装置、服务器及存储介质

Info

Publication number: CN112822539B
Application number: CN202011642906.5A
Authority: CN
Inventors: 陈妙; 钟宜峰; 吴耀华; 李琳
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-07-14
Anticipated expiration: 2040-12-30
Also published as: CN112822539A

Abstract

本发明实施例涉及视频领域，公开了一种信息显示方法、装置、服务器及存储介质。本发明中的信息显示方法，包括以下步骤：获取视频中显示文本的预设目标物品的出现时长；判断出现时长是否满足预设时长条件；若满足，则获取文本的文字识别结果；将文字识别结果存储在显示文件中；其中，显示文件供视频播放器读取，在播放视频时显示文字识别结果。实现自动补充视频文本信息，节省人力资源。

Description

信息显示方法、装置、服务器及存储介质

技术领域

本发明实施例涉及视频领域，特别涉及一种信息显示方法、装置、服务器及存储介质。

背景技术

随着互联网的发展，观看视频成为人们日常娱乐中不可缺少的一部分，视频播放软件或视频网站为用户播放视频时，视频中一些显示文字的画面显示时间较短，用户在显示时间内难以获取到完整的文字信息，从而使得用户难以从画面内容中得到足够的信息量，影响用户对于视频的内容理解。

在相关的信息显示方法中，通过人工长时间观看视频，辨识视频中需要补充显示的文字内容，将补充文字内容添加在视频画面中。

因此，相关的信息显示方法存在以下问题：需要人工辨别视频内容，将需要补充文字内容添加在视频中，需要较高的人力成本。

发明内容

本发明实施方式的目的在于提供一种信息显示方法、装置、服务器及存储介质，实现自动补充视频文本信息，节省人力资源。

为解决上述技术问题，本发明的实施方式提供了一种信息显示方法，包括以下步骤：获取视频中显示文本的预设目标物品的出现时长；判断出现时长是否满足预设时长条件；若满足，则获取文本的文字识别结果；将文字识别结果存储在显示文件中；其中，显示文件供视频播放器读取，在播放视频时显示文字识别结果。

本发明的实施方式还提供了一种信息显示装置，包括：获取模块，用于获取视频中显示文本的预设目标物品的出现时长；识别模块，用于判断出现时长是否满足预设时长条件；若满足，则获取文本的文字识别结果；显示模块，用于将文字识别结果存储在显示文件中；其中，显示文件供视频播放器读取，在播放视频时显示文字识别结果。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的信息显示方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述信息显示方法。

本发明实施方式相对于现有技术而言，通过获取视频中显示文本的预设目标物品的出现时长，判断出现时长是否满足预设时长条件，若满足，则获取文本的文字识别结果，将文字识别结果存储在显示文件，由于显示文件可以被视频播放器读取，在播放视频时显示文字识别结果，因此，本申请的信息显示方法无需通过人工进行视频的文字内容补充，可以实现自动获取预设目标物品显示的文本，并将此文本存储在显示文件中，从而实现自动补充视频文本信息，节省人力资源。

另外，在将文字识别结果存储在显示文件中前，还包括：判断文字识别结果与视频的后续情节是否相关；若相关，则将文字识别结果存储在显示文件中。通过判断文字识别结果与视频后续情节是否相关，若相关，则将文字识别结果存储在显示文件中，可以对补充显示的文本进行筛选，避免显示与视频情节无关的文本，从而实现节省***资源。

另外，判断文字识别结果与视频的后续情节是否相关，包括：判断预设目标物品出现的图像是否为广告；若否，则判断文字识别结果与后续情节是否一致；若一致，则文字识别结果与视频的后续情节相关。通过判断预设目标物品出现的图像是否为广告，若否，则判断文字识别结果与后续情节是否一致，若一致，则文字识别结果与视频后续情节相关，由于先对预设目标物品出现图像进行是否为广告的判断，可以筛选掉部分与视频后续情节无关的文本，实现节省***资源。

另外，预设时长条件，包括：出现时长小于文本的理解时间；理解时间根据文本包含的字数得到。根据文本包含字数得到理解时间，对出现时长小于理解时间的文本进行文本补充显示，使得文字识别结果的显示时长更符合用户的需求，可以提高判断文本是否需要补充显示的准确度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的信息显示方法流程图；

图2是根据本发明第二实施方式提供的信息显示方法流程图；

图3是根据本发明第三实施方式提供的信息显示装置示意图；

图4是根据本发明第四实施方式提供的服务器结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种信息显示方法。具体流程如图1所示。

步骤101，获取视频中显示文本的预设目标物品的出现时长；

步骤102，判断出现时长是否满足预设时长条件；

步骤103，若满足，则获取文本的文字识别结果；

步骤104，将文字识别结果存储在显示文件中；其中，显示文件供视频播放器读取，在播放视频时显示文字识别结果。

本实施方式的信息显示方法，应用于视频平台的服务器中，为视频提供补充信息显示。视频平台可以网页、客户端软件等形式为用户提供视频点播服务。其中，视频是视频平台的服务器中储存的供平台用户点播的视频，尤其是影视剧视频。影视剧视频中经常有主角人物观看书信、手机等物品上的文本内容的镜头，但这些镜头的出现时长通常都不足以让观众，即平台用户看完镜头中的文本信息，因此，观众仅凭视频中的文本信息难以获取到足够的情节信息，影响观众理解剧情内容。视频平台服务器通过对视频进行处理，生成补充文字显示的显示文件，当平台用户点播某一视频时，将此视频的视频文件和此视频对应的显示文件一起导入视频播放器，使得平台用户可以在观看视频的同时，获取补充显示的文本内容。

下面对本实施方式的信息显示方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

在步骤101中，视频平台服务器获取视频中显示文本的预设目标物品的出现时长，其中，显示文本的预设目标物品可以是信件、手机、路牌、留言条等影视剧中常用文本信息以提示视频情节的道具。

具体地，视频平台服务器在获取视频后，对视频画面进行定时截取，得到此视频的图像。视频平台服务器可以利用目标检测算法对此图像进行目标检测，识别图像中是否存在显示文本的预设目标物品和预设目标物品的文本显示区域。若图像中存在预设目标物品，则对此图像的后续图像进行识别，直到不能从连续的后续图像中识别出此预设目标物品，则根据出现此预设目标物品的首张图像和后续未识别到此预设目标物品的图像首张图像之间视频图像的数量，计算出此目标物品的出现时长。其中，视频平台服务器对视频画面的定时截取图像，可以是定时抽取视频帧。由于一个视频中每秒显示的帧数是固定的，定时抽取视频帧在具体实施时，可以是抽取相同帧间隔的视频帧。优选地，对视频帧的抽取可以是每隔5帧抽取一帧。具体地，可以将此图像输入预先训练好的图像识别模型，图像识别模型根据训练数据进行特征提取、识别检测，从而可以对输入的图像进行特征提取、识别检测，判断此图像中是否包含目标物品，并将结果输出。优选地，图像识别模型可以是YOLOv4(You Only Look Once，简称“YOLO”)算法模型，视频平台服务器使用YOLOv4算法模型得到检测图像中是否包含预设目标物品，及预设目标物品在图像中的位置。

例如，视频平台服务器识别到视频在第5帧中出现了手机，且手机屏幕上显示了文本信息，则视频平台服务器对后续图像进行识别，抽取第10帧、第15帧、第20帧等视频帧进行识别。若在第10帧、第15帧中检测到此显示文本信息的手机屏幕，第20帧中，未出现此显示文本信息的手机屏幕。则计算此显示文本信息的手机屏幕的出现时间为第5帧到第20帧，若此视频的帧率为每秒显示25帧，则此显示文本信息的手机屏幕的出现时间为0.6秒。

在步骤102中，视频平台服务器判断显示文本的物品的出现时长是否满足预设时长条件。其中，预设时长条件可以是出现时长小于文本的理解时间。当出现时长介于第一预设时长和第二预设时长之间时，视频平台服务器判断此出现时长是否小于此图像中文本的理解时间。其中，理解时间根据文本包含的字数得到。当出现时长小于理解时间时，对图像文字进行补充显示；当出现时长大于等于理解时间时，不对图像文字进行补充显示。具体地，视频平台服务器可以对图像的文本显示区域进行文字划分处理，统计文本的总字数，并根据人眼理解字数时间比计算得到理解时间，其中，对文本显示区域的文字划分处理可以选取目标物品图像中的任意一张进行，人眼理解字数时间比＝字数/人眼理解字数需要的时间。例如，若文本显示区域中文字划分出的总字数为n，根据大数据统计得到人眼理解字数时间比为r，则理解时间S＝n/r。

本实施例中，根据文本包含字数得到理解时间，对出现时长小于理解时间的文本进行文本补充显示，使得文字识别结果的显示时长更符合用户的需求，可以提高判断文本是否需要补充显示的准确度。

进一步地，视频平台服务器在判断出现时长是否小于理解时间前，还判断出现时长是否小于预设阈值，若小于预设阈值，则再执行判断出现时长是否满足预设时长条件。其中，预设阈值可以是预设的最长显示时间，最长显示时间由人眼阅读经验统计时长得到，若出现时长大于等于第一预设时长，则此预设目标物品的出现时间已经足够使观众理解文本的信息，不需要进行补充显示，不再执行信息显示方法的其他步骤。预设阈值还可以是预设的最短显示时间，由人眼阅读经验统计时长得到，若出现时长小于第一预设时长，则此预设目标物品的出现时间完全不足以使观众理解文本的信息，必须进行补充显示。

本实施例中，通过在判断出现时长是否满足预设时长条件前，判断出现时长是否小于预设阈值，若小于预设阈值，则再执行判断出现时长是否满足预设时长条件，由于判断出现时长是否小于预设阈值耗费的***资源少于判断出现时长是否小于理解时间耗费的***资源，因此，在判断出现时长是否满足预设时长条件前，判断出现时长是否小于预设阈值，可以先对物品的出现时长进行简单筛选，节省***资源。

在步骤103中，视频平台服务器获取出现时长满足预设时长条件的预设目标物品显示的文本的文字识别结果。具体地，视频平台服务器可以检测预设目标物品的文本显示区域，对文本显示区域中的文本进行文字识别，从而得到文字识别结果，可以利用卷积向量运算(Convolutions，简称“CONV”)、长短期记忆网络(Long Short-Term Memory，简称“LSTM”)、光学字符识别(Optical Character Recognition，简称“OCR”)算法进行文字特征提取识别，利用后过滤算法对识别结果进行优化，得到文字识别结果。

在步骤104中，视频平台服务器可以将文字识别结果存储在显示文件中，显示文件供视频播放器读取，在播放视频时，显示文字识别结果，其中，显示文件中包含文字识别结果、显示时间信息。显示文件是一个可被视频播放器识别的，在视频播放时运行，并将内容显示在视频上的文件，例如可用字幕文件或弹幕文件作为显示文件。在首次得到文字识别结果时，视频平台服务器可以生成显示文件。显示文件中包含需要显示的文本，即文字识别结果、文本的显示时间信息、显示位置信息、显示形式信息。其中，显示形式信息包括：文本的显示字体、大小、颜色等，视频平台服务器可以根据视频的画面尺寸、需要文字识别结果的字数、位置像素等因素，设置文字识别结果的显示形式信息。视频平台服务器还可以为显示文件中的需要显示的文本生成显示框，当显示文件被视频播放器运行时，显示的文本会在显示框中进行显示。

在一个例子中，视频平台服务器根据理解时间，生成文字识别结果对应的显示时间信息，将文字识别结果和对应的显示时间信息存储在显示文件中。例如，以理解时间的时长作为文字识别结果的显示时长，则视频平台服务器以标记显示文本的预设目标物品在视频中的出现时间作为显示文字识别结果的开始显示时间，并在出现时间加上理解时间的时长作为显示文字识别结果的结束显示时间。在显示文本的预设目标物品出现时，将文字识别结果显示在文本显示区域的周边位置，例如可以默认将文本显示在文本显示区域的左边。进一步地，视频平台服务器还可以根据显示文本的预设目标物品的出现时长，得到显示文本的预设目标物品的镜头结束时间，设置文字识别结果在开始显示时间至镜头结束时间之间，将文字识别结果显示在文本显示区域的周边，在显示文本预设目标物品的镜头结束时间至显示文字识别结果的结束显示时间之间，将文字识别结果显示在视频画面图像的任意区域中，例如，可以默认显示在视频画面图像的右上方。

本实施例中，文字识别结果的显示时间信息由视频平台服务器生成，显示时长根据显示文本的理解时间得到，避免在设置文字识别结果的显示时长时，受人工主观性影响，造成显示时长与用户理解文字内容需要的理解时间不匹配的情况，因此，本实施例的信息显示方法可以用客观统计得到的数据设置显示时长，对文字识别结果进行显示，使得文字识别结果的显示时长更符合用户的需求。

进一步地，视频平台服务器在设置文字识别结果的显示位置前，对文字识别结果显示时间内的视频图像进行人脸识别分割，避开人脸区域进行文字识别结果的显示。若无法避开人脸区域进行显示，可以在字幕位置进行显示。

本实施例中，通过对显示时间内的视频图像进行人脸识别分割，避开人脸区域进行文字识别结果的显示，可以避免文字识别结果显示在视频的人脸区域，从而可以提高用户观看视频时的观看体验。

在一个例子中，视频平台服务器在生成显示文件前，还对预设目标物品周边进行检测，检测预设目标物品周边是否已经有对文本的补充显示。具体地，可以对视频图像进行文本检测，并将检测得到的文本与文字识别结果进行比对，若检测到的文本内容与文字识别结果相同，则此视频中已经存在对文本的补充显示，不需要利用显示文件重复补充显示，若未检测到与文字识别结果相同的文本，则生成显示文件，对物品中显示的文本进行补充显示。

在一个例子中，视频平台服务器在获取视频后，还获取视频的类型标签，例如古装剧、都市剧等，根据视频标签可以为显示文字识别结果生成不同风格的显示框。具体地，可以预先导入不同视频的类型标签与不同预设显示框设置信息之间的对应的关系，为不同视频的文字识别结果选择不同显示框风格。

在一个例子中，视频平台服务器还获取用户的历史观看视频记录及历史观看视频对应的字幕信息，并根据历史观看视频记录及其字幕信息，得到第一语言类型，将文字识别结果的语言类型作为第二语言类型，若第一语言类型与第二语言类型不相同，可以将文字识别结果翻译为第一语言类型，并生成显示文件。

本实施例中，通过获取视频中显示文本的预设目标物品的出现时长，判断出现时长是否满足预设时长条件，若满足，则获取文本的文字识别结果，将文字识别结果存储在显示文件，由于显示文件可以被视频播放器读取，在播放视频时显示文字识别结果，因此，本申请的信息显示方法无需通过人工进行视频的文字内容补充，可以实现自动获取预设目标物品显示的文本，并将此文本存储在显示文件中，从而实现自动补充视频文本信息，节省人力资源，同时增加用户观看视频时获取信息的渠道，提升用户的观看体验。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第二实施方式涉及一种信息显示方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，将满足预设时长条件的预设目标物品显示的文本的文字识别结果生成显示文件。而在本发明第二实施方式中，只将与视频后续情节相关的文字识别结果生成显示文件。

本发明的第二实施方式涉及的信息显示方法，具体流程如图2所示。

步骤201，获取视频中显示文本的预设目标物品的出现时长；

步骤202，判断出现时长是否满足预设时长条件；

步骤203，若满足，则获取文本的文字识别结果；

步骤204，判断文字识别结果与视频的后续情节是否相关；

步骤205，若相关，则将文字识别结果存储在显示文件中；其中，显示文件供视频播放器读取，在播放视频时显示文字识别结果。

其中，步骤201、步骤202、步骤203、步骤205与第一实施方式中的步骤101、步骤102、步骤103、步骤104大致相同，不再赘述。

在步骤204中，视频平台服务器判断文字识别结果与视频的后续情节是否相关。其中，视频平台服务器可以判断显示文本的预设目标物品出现的图像是否为广告，若是广告，则此文字识别结果与后续情节不相关，不需要为其生成显示文件对其进行补充显示；若不是广告，则判定此文字识别结果与后续情节相关，生成文字识别结果的显示文件。

具体地，视频平台服务器可以将图像输入预先训练好的广告分类模型，利用广告分类模型判断此图像是否为广告图像。其中，可以使用I3D(Two-Stream Inflated 3DConvNet，简称“I3D”)算法构造广告分类模型，对广告画面图像和实际影视画面图像进行二分类，判断此图像是否为广告图像，从而判断此文字识别结果是否与后续情节相关。

进一步地，在判断预设目标物品出现图像不是广告后，视频平台服务器还判断文字识别结果与后续情节是否一致，若一致，则判定文字识别结果与视频的后续情节相关。其中，视频平台服务器获取后续预设时间内的视频图像，从后续预设时间内的视频图像中提取后续情节信息，从而判断文字识别结果与视频的后续情节是否一致。

本实施例中，通过判断物品出现的图像是否为广告，若否，则判断文字识别结果与后续情节是否一致，若一致，则文字识别结果与视频后续情节相关，由于先对物品出现图像进行是否为广告的判断，可以筛选掉部分与视频后续情节无关的文本，实现节省***资源。

在一个例子中，视频平台服务器对文字识别结果进行语言理解及内容提取，还对后续预设时间内的视频图像进行OCR识别，提取图像中的文字，尤其是字幕文字。视频平台服务器利用词袋模型、自然语言处理模型进行人名、事件、地名等关键词的提取，将二者的提取结果进行向量化处理及结果对比，其中，可以对二者的相似度进行计算，当相似度大于预设阈值时，判定文字识别结果与视频的后续情节一致。具体地，可以计算文字识别结果的关键词的词向量和后续视频图像的词向量的余弦距离，当余弦距离大于预设阈值时，判定文字识别结果与视频的后续情节一致。当视频是已经在视频平台中被用户点播过的视频，视频平台服务器还可以获取此视频的弹幕信息，从弹幕中进行关键词的提取。

在一个例子中，视频平台服务器还对视频后续情节进行动作提取分类进行视频后续情节的场景识别，在得到文字识别结果的关键词后，判断关键词与视频情节场景是否一致。例如，当视频后续情节为金榜题名，而文字识别结果的关键词为高中、状元等，则判定文字识别结果与视频的后续情节一致。具体地，可以使用I3D模型进行动作提取分类场景识别。

在一个例子中，视频平台服务器对文字识别结果进行语言理解及内容提取，提取文字识别结果中的文字情感类型，对后续预设时间内的视频图像中人物的人脸进行情感分析提取，得到人物情感类型，并对文字情感类型和人物情感类型进行判断是否相同，若相同，则判定文字识别结果与视频的后续情节一致。其中，可以使用CNN(ConvolutionalNeural Networks，简称“CNN”)人脸情感分析算法对人物的人脸进行情感分析提取。

在一个例子中，视频平台服务器还获取满足预设时长条件的预设目标物品的文字显示区域图像作为候选图像，对候选图像中的文本进行文字识别，判断此文字识别结果与视频后续情节是否相关，若相关，则从候选图像中筛选出文字识别结果与后续情节相关的目标图像，将目标图像中的预设目标物品的文字显示区域中文本信息，即目标图像中的文字识别结果生成显示文件。其中，视频平台服务器可以将视频中所有目标图像中的文字识别结果生成一个显示文件用于显示文本的补充显示。

本实施方式中，通过判断文字识别结果与视频后续情节是否相关，若相关，则生成显示文件，可以对补充显示的文本进行筛选，避免显示与视频情节无关的文本，从而实现节省***资源。

本发明第三实施方式涉及一种信息显示装置，如图3所示，包括：

获取模块301，用于获取视频中显示文本的预设目标物品的出现时长；

识别模块302，用于判断出现时长是否满足预设时长条件；若满足，则获取文本的文字识别结果；

显示模块303，用于将文字识别结果存储在显示文件中；其中，显示文件供视频播放器读取，在播放视频时显示文字识别结果。

在一个例子中，显示模块303，还用于在将文字识别结果存储在显示文件中前，判断文字识别结果与视频的后续情节是否相关；若相关，则将文字识别结果存储在显示文件中。

在一个例子中，显示模块303，还用于判断预设目标物品出现的图像是否为广告；若否，则判断文字识别结果与后续情节是否一致；若一致，则文字识别结果与视频的后续情节相关。

在一个例子中，判断文字识别结果与后续情节是否一致，包括：文字识别结果与后续情节中人物表情的情感类型一致，和/或，文字识别结果与后续情节的关键词一致。

在一个例子中，预设时长条件，包括：出现时长小于文本的理解时间；理解时间根据文本包含的字数得到。

在一个例子中，识别模块302，还用于在判断出现时长是否满足预设时长条件前，判断出现时长是否小于预设阈值；若小于预设阈值，则再执行判断出现时长是否满足预设时长条件。

在一个例子中，显示模块303，具体用于根据理解时间，生成文字识别结果对应的显示时间信息；将显示时间信息和文字识别结果存储在显示文件中。

在一个例子中，本申请的信息显示装置，还包括：截取模块，用于定时截取视频的图像；通过预先训练好的图像识别模型，识别图像中是否存在显示文本的预设目标物品。

不难发现，本实施方式为与上述实施方式相对应的装置实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种服务器，如图4所示，包括：至少一个处理器401；与至少一个处理器通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行上述的信息显示方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的信息通过天线在无线介质上进行传输，进一步，天线还接收信息并将信息传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器在执行操作时所使用的信息。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种信息显示方法，其特征在于，包括：

获取视频中显示文本的预设目标物品的出现时长；

判断所述出现时长是否满足预设时长条件；

若满足，则获取所述文本的文字识别结果；

将所述文字识别结果存储在显示文件中；其中，所述显示文件供视频播放器读取，在播放所述视频时显示所述文字识别结果；

所述预设时长条件，包括：

所述出现时长小于所述文本的理解时间；所述理解时间根据所述文本包含的字数得到；

在所述判断所述出现时长是否满足预设时长条件前，还包括：

判断所述出现时长是否小于预设阈值；

若小于所述预设阈值，则再执行所述判断所述出现时长是否满足预设时长条件。

2.根据权利要求1所述的信息显示方法，其特征在于，在所述将所述文字识别结果存储在显示文件中前，还包括：

判断所述文字识别结果与所述视频的后续情节是否相关；

若相关，则将所述文字识别结果存储在所述显示文件中。

3.根据权利要求2所述的信息显示方法，其特征在于，所述判断所述文字识别结果与所述视频的后续情节是否相关，包括：

判断所述预设目标物品出现的图像是否为广告；

若否，则判断所述文字识别结果与所述后续情节是否一致；

若一致，则所述文字识别结果与所述视频的后续情节相关。

4.根据权利要求3所述的信息显示方法，其特征在于，所述判断所述文字识别结果与所述后续情节是否一致，包括：

所述文字识别结果与所述后续情节中人物表情的情感类型一致，和/或，所述文字识别结果与所述后续情节的关键词一致。

5.根据权利要求1所述的信息显示方法，其特征在于，所述将所述文字识别结果存储在显示文件中，包括：

根据所述理解时间，生成文字识别结果对应的显示时间信息；

将所述显示时间信息和所述文字识别结果存储在所述显示文件中。

6.一种信息显示装置，其特征在于，包括：

获取模块，用于获取视频中显示文本的预设目标物品的出现时长；

识别模块，用于判断所述出现时长是否满足预设时长条件；若满足，则获取所述文本的文字识别结果；

所述预设时长条件，包括：

判断所述出现时长是否小于预设阈值；

若小于所述预设阈值，则再执行所述判断所述出现时长是否满足预设时长条件；

显示模块，用于将所述文字识别结果存储在显示文件中；其中，所述显示文件供视频播放器读取，在播放所述视频时显示所述文字识别结果。

7.一种服务器，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一所述的信息显示方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的信息显示方法。