CN116680440A

CN116680440A - 区段分割处理装置、方法以及存储介质

Info

Publication number: CN116680440A
Application number: CN202211059350.6A
Authority: CN
Inventors: 小林优佳; 吉田尚水; 岩田宪治; 久岛務嗣; 三原功雄; 永江尚义; 渡边奈夕子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-02-22
Filing date: 2022-08-31
Publication date: 2023-09-01
Also published as: JP2023122236A

Abstract

本发明的实施方式涉及一种区段分割处理装置、方法以及存储介质。提供能够高效地管理或者视听视频内容或者声音内容的区段分割处理装置、方法以及存储介质。实施方式的区段分割处理装置具备信息取得部、分割部、区段标签候选取得部、区段标签选择部以及区段标签赋予部。信息取得部取得视频或声音数据、视频或声音数据的领域、以及视频或声音数据的文本信息。分割部将视频或声音数据分割为1个以上的区段。区段标签候选取得部取得与领域对应的区段标签候选。区段标签选择部针对每个区段，根据文本信息从区段标签候选选择区段标签。区段标签赋予部对区段赋予所选择的区段标签。

Description

区段分割处理装置、方法以及存储介质

本申请以日本专利申请2022-025818(申请日：2022年2月22日)为基础，从该申请享受优先的权益。本申请通过参考该申请而包含该申请的全部内容。

技术领域

本发明的实施方式涉及区段分割处理装置、方法以及存储介质。

背景技术

近年来，在线教育、在线学会等正在增加，观看演讲视频的机会、收听演讲的声音数据的机会正在增加。因此，用于对大量的视频内容、声音内容进行管理的技术、用于高效地视听大量的内容的技术得到关注。

在这样的技术中，根据视频中的信息将视频分割为1个以上的区段(section)，对分割的各区段赋予区段名。在这样的情况下，针对各视频赋予零乱的区段名，所以在视频之间区段名未被统一。用户仅视听各视频的重要的部位，为了决定视听哪个区段，需要逐一地查看区段名。

发明内容

本发明想要解决的课题在于，提供一种能够高效地管理或者视听视频内容或者声音内容的区段分割处理装置、方法以及存储介质。

为了解决这样的课题，实施方式的区段分割处理装置具备信息取得部、分割部、区段标签候选取得部、区段标签选择部以及区段标签赋予部。信息取得部取得视频或声音数据、视频或声音数据的领域、以及视频或声音数据的文本信息。分割部将视频或声音数据分割为1个以上的区段。区段标签候选取得部取得与领域对应的区段标签候选。区段标签选择部针对每个区段，根据文本信息从区段标签候选选择区段标签。区段标签赋予部对区段赋予所选择的区段标签。

根据上述结构的分割处理装置，能够高效地视听多个视频内容或者声音内容。

附图说明

图1是示出第1实施方式所涉及的区段分割处理装置的结构的一个例子的图。

图2是例示第1实施方式所涉及的区段分割处理装置的视频分割处理的处理过程的流程图。

图3是示出由第1实施方式所涉及的区段分割处理装置使用文本信息来分割“学会”领域的视频的情形的一个例子的图。

图4是示出由第1实施方式所涉及的区段分割处理装置针对分割“学会”领域的视频而得到的各区段赋予区段标签的情形的一个例子的图。

图5是示出由第1实施方式所涉及的区段分割处理装置针对分割“教育”领域的视频而得到的各区段赋予区段标签的情形的一个例子的图。

图6是示出第2实施方式所涉及的区段分割处理装置的结构的一个例子的图。

图7是例示第2实施方式所涉及的区段分割处理装置的视频分割处理的处理过程的流程图。

图8是示出由第2实施方式所涉及的区段分割处理装置针对分割“学会”领域的视频而得到的各区段设定区段名的情形的一个例子的图。

图9是示出由第2实施方式所涉及的区段分割处理装置针对分割“教育”领域的视频而得到的各区段选择区段名的情形的一个例子的图。

图10是示出第2实施方式的第1变形例所涉及的区段分割处理装置的结构的一个例子的图。

图11是例示第2实施方式的第1变形例所涉及的区段分割处理装置的视频分割处理的处理过程的流程图。

图12是示出第2实施方式的第2变形例所涉及的区段分割处理装置的结构的一个例子的图。

图13是例示第2实施方式的第2变形例所涉及的区段分割处理装置的视频分割处理的处理过程的流程图。

图14是示出第2实施方式的第3变形例所涉及的区段分割处理装置的结构的一个例子的图。

图15是例示第2实施方式的第3变形例所涉及的区段分割处理装置的视频分割处理的处理过程的流程图。

(符号的说明)

100：区段分割处理装置；101：视频信息取得部；102：视频分割部；103：区段标签候选取得部；104：区段标签选择部；105：区段标签赋予部；106：区段名生成部；107：关键词检测部；108：检索词设定部；109：介绍数据生成部；110：类似度计算部；111：视频生成部；A1-A6：句子；B1-B6：内容词列表；C1-C4、D1-D4、F1-F6：区段。

具体实施方式

以下，参考附图，详细说明区段分割处理装置、方法以及程序的实施方式。在以下的说明中，对于具有大致相同的功能以及结构的构成要素，附加同一符号，仅在必要的情况下进行重复说明。

(第1实施方式)

图1是示出第1实施方式所涉及的区段分割处理装置100的结构的图。区段分割处理装置100取得用户想要视听的多个视频，根据可从视频取得的文本信息的内容将视频分割为多个区段，能够部分地视听视频。另外，区段分割处理装置100对各区段，赋予按领域而被统一的共同的区段标签。通过针对多个视频赋予被统一的区段标签，能够简单地进行大量的视频的管理。

此外，区段分割处理装置100不仅能够应用于视频文件形式的数据的管理，而且还能够应用于声音文件形式的数据的管理。另外，区段分割处理装置100还能够应用于视频文件形式的数据和声音文件形式的数据混合存在的多个数据的管理。在本实施方式中，作为一个例子，设为进行视频形式的数据的管理而进行说明，但在上述说明以及以下的说明中，“视频”、“视频内容”、“视频数据”等用词能够被置换为“声音”、“声音内容”、“声音数据”这样的用词。

区段分割处理装置100例如作为视频管理用的应用而搭载于用户使用的PC终端等终端装置、或经由网络连接到终端装置的云服务器。终端装置例如具备与区段分割处理装置100进行通信的通信接口以及通信功能、进行视频的输入的输入接口以及输入功能、对视频的管理画面、视频的再生画面进行显示的显示器以及显示控制功能、从管理的多个视频中检索特定的视频的视频检索功能等。网络例如是LAN(Local Area Network，局域网)。此外，向网络的连接可以是有线连接以及无线连接中的任意连接。另外，网络不限定于LAN，也可以是因特网、公共的通信线路等。

视频例如是e-learning(电子学习)、大学的讲义、学会发表等演讲的声音以及图像被记录的数据。视频也可以是对在线授课、在线学会等的演讲进行录像而得到的数据。另外，视频也可以是下载向视频共享站点投稿的视频而得到的数据。作为视频的领域，例如能够使用“教育”、“学会”等容易进行演讲的领域的视频，但不限于此。另外，视频也可以是仅包括演讲等的声音而不包括图像的数据。另外，视频也可以是仅包括对表示演讲内容的文字进行了显示的图像而不包括声音的数据。

区段分割处理装置100具备对区段分割处理装置100整体进行控制的处理电路、以及存储介质(存储器)。处理电路是通过调用并执行存储介质内的程序而执行视频信息取得部101、视频分割部102、区段标签候选取得部103、区段标签选择部104以及区段标签赋予部105的功能的处理器。处理电路由包括CPU(Central Processing Unit，中央处理单元)、ASIC(Application Specific Integrated Circuit，专用集成电路)或者FPGA(FieldProgrammable Gate Array，现场可编程门阵列)等的集成电路形成。处理器既可以由1个集成电路形成，也可以由多个集成电路形成。

在存储介质中，存储由处理器使用的处理程序、以及在处理器中的运算中使用的参数及表格等。存储介质是存储各种信息的HDD(Hard Disk Drive，硬盘驱动器)、SSD(Solid State Drive，固态驱动器)、集成电路等存储装置。另外，存储装置除了HDD、SSD等以外，也可以是CD(Compact Disc，高密度盘)、DVD(Digital Versatile Disc，数字多功能盘)、闪存存储器等可移动式存储介质，还可以是在与闪存存储器、RAM(Random AccessMemory，随机存取存储器)等半导体存储器元件等之间读写各种信息的驱动装置。另外，在存储介质中存储多个视频、后述的区段标签候选、在处理电路的处理中使用的数据或阈值等。存储介质是存储部的一个例子。

此外，视频信息取得部101、视频分割部102、区段标签候选取得部103、区段标签选择部104以及区段标签赋予部105具有的各功能既可以通过单一的处理电路来实现，也可以组合多个独立的处理器来构成处理电路，并通过由各处理器执行程序而实现各功能。另外，视频信息取得部101、视频分割部102、区段标签候选取得部103、区段标签选择部104以及区段标签赋予部105具有的各功能也可以被安装为单独的硬件电路。另外，处理电路具有的功能的全部或者一部分也可以搭载于在云上执行处理的云服务器。

视频信息取得部101取得视频、与视频的领域有关的信息(以下称为领域信息)、以及视频的文本信息。文本信息是表示视频的内容的文字数据。例如由用户经由终端装置的输入接口来输入视频、领域信息。视频信息取得部101使用声音辨识处理将视频内的声音变换为文字数据，取得变换的文字数据作为文本信息。声音例如既可以是演讲会的演讲者的声音，也可以是教育视频的出演者的声音，还可以是教育视频的机器声音。或者，视频信息取得部101也可以通过对视频中的图像执行OCR(Optical Character Recognition：光学文字识别)处理，将在视频内显示的内容变换为文字数据，并取得变换的文字数据作为文本信息。

另外，视频信息取得部101也可以对于包含于文本信息的各文字数据，检测发出声音的发声时刻、图像显示开始的开始时刻、图像显示结束的结束时刻。在该情况下，视频信息取得部101将检测到的时刻与各文字数据关联起来保存。上述的“时刻”表示将视频开始的时间点设为“0”的视频内的经过时刻。视频信息取得部101是信息取得部的一个例子。

另外，视频信息取得部101也可以关于从显示于视频的图像取得的文字数据，检测图像中的显示坐标(显示位置)。在该情况下，视频信息取得部101将检测到的显示坐标与对应的文字数据关联起来保存。

视频分割部102将视频分割为1个以上的区段。例如，视频分割部102根据文本信息，将多个视频分别分割为1个以上的区段。典型地是，视频分割部102将各视频分割为多个区段。执行了视频的分割处理的结果，视频也可以被分割为1个区段。以下，说明分割视频的方法的一个例子，但也可以使用公知的其他分割方法。另外，在以下的说明中，以将1个视频分割为多个区段的情况为例而进行说明。视频分割部102是分割部的一个例子。

作为使用文本信息来分割视频的方法，例如可以列举利用在说话者希望明确地划分区段的情况下使用的特定的措词来分割视频的方法。在教育视频、演讲视频中，在说话者希望明确地划分区段的情况下有时使用特定的措词。作为特定的措词，例如有“本会话结束。”、“那么，接下来关于○○进行说明。”等。以下，将这样的特定的措词称为区段划分用词。区段划分用词例如存储于存储介质。

在该方法中，视频分割部102从文本信息检测区段划分用词，以检测到区段划分用词的部分为边界，将多个视频分别分割为多个区段。具体而言，视频分割部102首先读出存储于存储介质的多个区段划分用词，关于文本信息中的各句子，计算与读出的各区段划分用词之间的类似度。作为类似度的计算方法，例如可以列举使用编辑距离的方法。接下来，视频分割部102将与区段划分用词之间的类似度是一定的值以上的句子检测为成为区段划分的句子。并且，视频分割部102在成为区段划分的句子的前后分割区段。在区段划分用词中，有在区段的最后使用的用词和在区段的最初使用的用词。因此，针对每个区段划分用词，预先设定在检测到区段划分用词的句子的前后的何处进行区段分割。例如，在检测到与“本会话结束。”这样的区段的划分词句之间的类似度成为预定的值以上的句子的情况下，视频分割部102紧接在检测到的句子之后划分区段。在该情况下，检测到的句子和紧接在之后的句子包含于不同的区段。另外，例如在检测到与“那么，接下来关于○○进行说明。”这样的区段的划分词句之间的类似度成为预定的值以上的句子的情况下，视频分割部102紧接在检测到的句子之前划分区段。在该情况下，检测到的句子和紧接在之前的句子包含于不同的区段。

接下来，作为使用文本信息来分割视频的方法的一个例子，说明利用包含于文本信息的内容词来分割视频的方法。内容词是指除了助词、助动词、代词、感叹词等以外的词句。内容词表示句子的内容。在该方法中，视频分割部102将包含于文本信息的文本分割为多个句子，从多个句子分别检测与视频的内容有关的内容词，并使用内容词来比较多个句子，以内容词发生了变化的部分为边界，将各视频分割为多个区段。

具体而言，视频分割部102首先针对每1个句子分割文本信息。作为针对每个句子分割文本信息的方法，例如可以列举使用句号等表示句尾的记号的方法。能够将该方法应用于通过声音辨识来取得的文本信息和通过OCR处理来取得的文本信息这两方。

作为针对每个句子分割文本信息的其他方法，例如可以列举如下方法：针对通过声音辨识来取得的文本信息，参考各文字数据的发声时刻，将在整个视频中未进行任何发声的期间检测为无声区间，在无声区间持续一定时间以上的部位处划分文本信息，从而将文本信息分割为多个句子。能够将该方法应用于通过声音辨识来取得的文本信息。

另外，作为针对每个句子分割文本信息的其他方法，例如可以列举如下方法：针对通过OCR处理来取得的文本信息，参考各文字数据的显示坐标，在显示坐标变化一定以上的部位处划分文本信息，从而将文本信息分割为多个句子。能够将该方法应用于通过OCR处理来取得的文本信息。

在针对每个句子分割文本信息之后，视频分割部102从分割的各句子检测内容词。作为从句子检测内容词的方法，能够采用公知的各种方法。作为从句子检测内容词的方法，例如可以列举使用词素解析的方法。在该方法中，视频分割部102通过针对分割的各句子执行词素解析而将各句子分割为单词，从分割的单词中抽出内容词。

作为抽出内容词的方法，例如可以列举如下方法：参考预先存储的内容词以外的单词(停止词)，将从分割的单词中去除停止词后的部分抽出为内容词。

作为抽出内容词的其他方法，例如可以列举使用IDF(Inverse DocumentFrequency：逆文档频率)的方法。在该方法中，视频分割部102首先参考事先存储的多个外部文档，关于分割的各单词而计算包含于外部文档的数量Nd，并使用下述的式(1)来计算各单词的IDF。在式(1)中，“N”表示所准备的外部文档的文档数。关于IDF，单词越是被通用地使用的单词则是越小的值，越是表示句子的特征的单词则是越大的值。并且，视频分割部102将各单词的IDF与预定的阈值进行比较，抽出IDF比阈值大的单词作为内容词。

IDF＝log(N/Nd) (1)

在抽出内容词之后，视频分割部102关于各句子，生成包括抽出的内容词的内容词列表。之后，视频分割部102关于包含于文本信息的连续的2个句子而计算内容词列表的类似度，在计算出的类似度比阈值低的情况下，在所比较的2个句子之间分割区段。例如，从包含于文本信息的第1个句子起依次进行与紧接在之后的句子之间的内容词列表的比较。作为计算内容词列表的类似度的方法，例如使用在内容词列表中一致的内容词的数量、包含于内容词列表的内容词的编辑距离来计算。或者，也可以使用预先准备的单词分布表现模型来计算内容词列表的类似度。

此外，也可以在作为类似度的比较的结果而未进行区段分割的情况下储存句子的内容词列表，比较所储存的内容词列表和接下来的句子的内容词列表。在该情况下，例如在包含于文本信息的第1个句子(以下称为第1句子)的内容词列表(以下称为第1内容词列表)和第2个句子(以下称为第2句子)的内容词列表(以下称为第2内容词列表)的类似度高于阈值的情况下，视频分割部102判断为第1句子和第2句子成为相同的区段，在第1句子与第2句子之间不分割区段。并且，在计算第2内容词列表和第3个句子(以下称为第3句子)的内容词列表(以下称为第3内容词列表)的类似度时，计算除了第2句子的内容词以外还包括第1句子的内容词的内容词列表与第3内容词列表的类似度，判断在第2句子与第3句子之间是否分割区段。此时，通过将包括相同的区段的第1句子和第2句子这两方的内容词的内容词列表用于比较，能够提高区段分割的精度。

接下来，说明除了文本信息以外还使用视频中的声音、图像的特征量来分割视频的方法的一个例子。在该方法中，视频分割部102取得视频的声音信息或者图像的特征量，根据声音信息或图像的特征量、以及文本信息，将视频分割为多个区段。在使用视频中的声音的情况下，例如在播放特定的音乐的定时(timing)、或有一定期间的无声的时间的定时分割区段。在使用视频中的图像的特征量的情况下，例如在从滑动显示的静止图像切换到视频的定时、说话者切换的定时、或者视频中的文字或图像的颜色变化的定时分割区段。

区段标签候选取得部103取得与视频的领域对应的区段标签候选。包含于区段标签候选的区段标签是依照各领域中的典型的视频流而被预先决定的，并按领域而存储到存储介质。例如，根据整个视频中的各区段的作用、功能来预先设定包含于区段标签候选的区段标签。视频的领域例如是“学会”、“教育”等。作为学会领域的区段标签候选，例如使用“研究背景”、“提议方法”、“实验”、“总结”等。另外，作为教育领域的区段标签候选，例如使用“回顾”、“概要”、“详细说明”、“具体例”、“总结”等。包含于区段标签候选的区段标签的数量是1个以上即可，也可以是例如6个以上。

区段标签选择部104针对所分割的每个区段，根据该区段的文本信息，从根据视频的领域而取得的区段标签候选中选择适合的区段标签。

作为从区段标签候选选择区段标签的方法，例如可以列举使用从文本信息抽出的内容词的方法。在该方法中，在存储介质中预先存储表示在各领域中设想的内容词和区段标签候选的关联度的表格。区段标签选择部104首先使用文本信息来检测各区段的内容词，针对每个区段而生成内容词列表。关于内容词的检测方法，可以使用上述方法中的任意方法。另外，在视频分割部102的处理中检测到各句子的内容词的情况下，也可以利用该内容词。区段标签选择部104使用内容词列表和上述表格，取得包含于内容词列表的内容词和包含于区段标签候选的区段标签的关联度，计算针对包含于区段标签候选的各区段标签的关联度。此时，区段标签选择部104关于包含于区段标签候选的各区段标签，取得与包含于内容词列表的各内容词之间的关联度，将所取得的多个关联度的平均值或最大值计算为该区段的关联度。区段标签选择部104将在区段标签候选中关联度最高的区段标签选择为该区段的区段标签。

此外，也可以使用机器学习模型来执行由视频信息取得部101取得文本信息的处理。在该情况下，机器学习模型例如受理视频的输入，输出视频的文本信息。作为机器学习模型，例如使用深度神经网络等。另外，由视频分割部102将视频分割为多个区段的处理也可以使用机器学习模型来执行。在该情况下，机器学习模型例如受理视频和从该视频取得的文本信息的输入，输出区段的分割结果。另外，由区段标签选择部104选择适合的区段标签的处理也可以使用机器学习模型来执行。在该情况下，机器学习模型例如受理视频和从该视频取得的文本信息、以及该视频中的区段分割结果的输入，输出各区段中的适合的区段标签。

区段标签赋予部105对各区段赋予通过区段标签选择部104的处理来选择的区段标签。区段标签赋予部105将对各区段赋予了所选择的区段标签的视频存储到存储介质。在存储介质中，存储由区段标签赋予部105等对各区段赋予了区段标签的多个视频。

接下来，说明由区段分割处理装置100执行的处理的动作。图2是示出视频分割处理的过程的一个例子的流程图。视频分割处理是如下处理：将所输入的视频分割为多个区段，对所分割的各区段赋予按领域设定的共同的区段标签。在向区段分割处理装置100输入了新的视频时自动地执行视频分割处理。此外，以下说明的各处理中的处理过程只不过是一个例子，各处理能够尽可能地适当变更。另外，关于以下说明的处理过程，根据实施方式而能够适当进行步骤的省略、置换以及追加。

(视频分割处理)

(步骤S201)

在向区段分割处理装置100输入了新的视频时，视频信息取得部101取得所输入的视频和该视频的领域信息。例如由用户手动地输入领域信息。另外，视频信息取得部101通过针对所取得的视频执行声音辨识处理、OCR处理而取得视频的文本信息。

(步骤S202)

接下来，视频分割部102使用在步骤S201的处理中取得的文本信息，将视频分割为多个区段。此时，例如视频分割部102使用上述方法中的任意方法而将视频分割为多个区段。

图3是示出使用文本信息来分割“学会”领域的视频的情形的一个例子的图。图3示出如下情形：使用文本信息内的句号，将包含于文本信息的文本分割为6个句子A1-A6，使用从句子A1-A6生成的内容词列表B1-B6将视频分割为4个区段C1-C4。包含于内容词列表B1-B6的粗体字的内容词表示与前后的句子共同的内容词。共同的内容词越多的句子，则越容易分割为相同的区段。

(步骤S203)

接下来，区段标签候选取得部103从存储介质取得与视频的领域对应的区段标签候选。在视频的领域是“学会”的情况下，例如取得包括“研究背景”、“提议方法”、“实验”以及“总结”的区段标签的区段标签候选。另外，在视频的领域是“教育”的情况下，例如作为区段标签候选而取得包括“回顾”、“概要”、“详细说明”、“具体例”以及“总结”的区段标签的区段标签候选。

(步骤S204)

区段标签选择部104针对各区段，从在步骤S203的处理中取得的区段标签候选中选择适合的区段标签。

(步骤S205)

区段标签赋予部105对于对应的区段，赋予通过步骤S204的处理来选择的区段标签。

图4是示出针对分割“学会”领域的视频而得到的各区段D1-D4赋予区段标签的情形的一个例子的图。图4示出针对各区段D1-D4选择了作为区段标签候选而取得的“研究背景”、“提议方法”、“实验”以及“总结”中的1个的情形。

另外，图5是示出针对分割“教育”领域的视频而得到的各区段F1-F7选择了区段标签的情形的一个例子的图。图5示出针对各区段F1-F7选择了作为区段标签候选而取得的“回顾”、“概要”、“详细说明”、“具体例”以及“总结”中的1个的情形。如图5所示，也可以有多个附加有相同的区段标签的区段。

在对各区段赋予了区段标签时，视频分割处理结束。通过针对所输入的各视频执行上述视频分割处理，对所管理的多个视频赋予按领域而被统一的区段标签。此外，在上述实施方式中，说明了针对1个视频执行步骤S201-步骤S205的处理的情况，但也可以针对所输入的多个视频执行步骤S201-步骤S205的各处理，集中执行针对多个视频的视频分割处理。

以下，说明本实施方式所涉及的区段分割处理装置100的效果。

本实施方式所涉及的区段分割处理装置100能够取得视频或声音数据、视频或声音数据的领域、以及视频或声音数据的文本信息，将视频或声音数据分割为1个以上的区段，取得与领域对应的区段标签候选，针对所分割的每个区段，根据文本信息而从区段标签候选选择区段标签，对区段赋予所选择的区段标签。

近年来，在线教育、在线学会等增加，观看演讲视频的机会增加。因此，对于多个长时间的视频仅视听要点，想要高效地视听多个视频这样的需求变高。但是，被赋予的区段名在视频之间未被统一，由于对各视频赋予了零乱的区段名，所以在视频之间无法将区段对应起来，用户需要确认区段名来决定视听哪个区段。根据本实施方式所涉及的区段分割处理装置100，能够将想要管理的多个视频分别分割为多个区段，从按领域来准备的区段标签候选选择区段标签并赋予给区段。因此，用户无需在管理画面中逐一地查看来确认区段标签，而通过选择各视频中的被赋予特定的区段标签的区段，能够高效地仅视听多个视频中的想看的部分。即，通过对用户想要管理的多个视频赋予被统一的区段标签，容易搜索用户想要视听的视频。

例如，在学会领域的视频中，一般而言在“研究背景”中会讲领域共同的话题，在“提议方法”中会讲该视频的要点。用户通过从学会领域的各视频仅选择被赋予“提议方法”的区段标签的区段，能够高效地仅视听各视频的重要的部分。同样地，例如通过关于教育领域的视频，也仅选择被赋予会讲到视频的要点的“概要”的区段标签的区段，从而能够高效地仅视听各视频的重要的部分。

另外，在小学、初中、高中和大学、企业中的教育等的教育现场中，对视频进行视听的风格的教育方法正在蔓延。在这样的教育风格中，通过使用本实施方式所涉及的区段分割处理装置100，用户能够任意地选择视频、或者仅视听视频的必要的部分、或者进行快进来视听。因此，根据本实施方式所涉及的区段分割处理装置100，能够支援自由的视听风格，实现高效的视频的视听。另外，在学会、演讲会等中视听视频的听讲风格也变得普遍化，本实施方式所涉及的区段分割处理装置100也能够应用于这些领域。

另外，本实施方式所涉及的区段分割处理装置100能够取得视频或声音数据的声音信息、或者视频的图像的特征量，根据声音信息或特征量、以及文本信息，将视频或声音数据分割为1个以上的区段。在使用声音信息的情况下，区段分割处理装置100例如能够在播放特定的音乐的定时、或有一定期间的无声的时间的定时分割区段。通过使用视频的声音信息，从而针对如讲义视频那样图像的变化小的视频也能够高精度地进行区段分割。另外，在使用图像的特征量的情况下，区段分割处理装置100例如能够在从滑动显示的静止图像切换到视频的定时、说话者切换的定时、视频中的文字或图像的颜色变化的定时，分割区段。通过这个结构，能够高精度地进行区段的分割。

另外，本实施方式所涉及的区段分割处理装置100能够从文本信息检测区段划分用词，并以检测到区段划分用词的部分为边界，将视频或声音数据分割为1个以上的区段。区段划分用词是在教育视频或演讲视频中说话者想要明确地划分区段的情况下使用的特定的措词，例如是“本会话结束。”、“那么，接下来关于○○进行说明。”等。通过这个结构，能够高精度地进行区段的分割。

另外，本实施方式所涉及的区段分割处理装置100能够将文本信息分割为多个句子，从多个句子分别检测与视频或声音数据的内容有关的内容词，使用内容词来比较多个句子，并以内容词发生了变化的部分为边界而将视频或声音数据分割为1个以上的区段。内容词是从句子中除去助词、助动词、代词、感叹词等后的词句，表示句子的内容。通过使用内容词，能够高精度地进行区段的分割。

另外，本实施方式所涉及的区段分割处理装置100能够根据内容词，从区段标签候选选择区段标签。通过使用内容词，能够选择与区段的内容匹配的适合的区段标签。

此外，区段标签选择部104也可以针对在区段标签候选中没有适合的区段标签的区段，根据该区段的文本信息而生成区段标签。例如，当使用从文本信息抽出的内容词而从区段标签候选选择适合的区段标签时，在从该区段检测到的内容词中不存在与包含于区段标签候选的区段标签之间的关联度比预定的值大的内容词的情况下，区段标签选择部104判断为没有适合的区段标签，根据文本信息生成新的区段标签，而代替从区段标签候选选择区段标签。区段标签的生成方法能够使用与上述区段名的生成方法同样的方法。另外，也可以代替生成新的区段标签，而由用户输入针对未找到适合的区段标签的区段的适合的区段标签。

(第2实施方式)

说明第2实施方式。本实施方式是使第1实施方式的结构如以下那样进行变形得到的方式。关于与第1实施方式同样的结构、动作以及效果，省略说明。本实施方式的区段分割处理装置100在对所分割的各区段赋予区段标签之后，对各区段设定标题和检索用的关键词。

图6是示出本实施方式所涉及的区段分割处理装置100的结构的图。区段分割处理装置100的处理电路还具备区段名生成部106、关键词检测部107以及检索词设定部108。

区段名生成部106针对每个区段，根据文本信息而生成区段名。区段名被用作区段的标题。作为生成区段名的方法，例如可以列举使用从文本信息抽出的内容词的方法。在该方法中，区段名生成部106首先使用文本信息来检测内容词，将在各区段中出现的频度最高的内容词设定为区段名。此时，也可以计算各内容词的IDF，将IDF最高的内容词作为区段名。通过使用IDF，能够将罕见地出现的频度高的单词设定为区段名。或者，还能够预先准备“关于○○”等模板，将各区段的内容词中的、出现的频度高的多个内容词组合到上述模板，生成“关于高速且高精度的图形神经网络”这样的区段名。在该例子中，“高速”、“高精度”、“图形神经网络”是出现频度高的内容词。另外，也可以从各区段的文本信息检测“那么，从现在开始关于○○进行说明”等特定的措词，将检测到的用词中的○○的部分作为区段名。在该情况下，即使与特定的措词不完全一致，也可以使用编辑距离等来计算针对特定的措词的类似度，并将类似度高的部分用于区段名的决定。另外，也可以使用以受理各区段的文本信息、内容词列表的输入并输出由自然语句构成的区段名的方式训练的机器学习模型，生成区段名。

关键词检测部107针对每个区段，从文本信息检测关键词。关键词是表示区段的内容的特征性的单词。作为关键词的检测方法，例如可以列举使用从文本信息检测到的内容词的方法。在该方法中，关键词检测部107例如在各区段中检测内容词，将检测到的内容词中的出现的频度高的多个内容词检测为关键词。此时，也可以计算各内容词的IDF，按照IDF从高到低的顺序来重排关键词。另外，也可以从各区段的文本信息检测“那么从现在开始关于○○进行说明”等特定的措词，将检测到的用词中的○○的部分作为关键词。另外，也可以使用以受理文本信息的输入并输出关键词的方式训练的机器学习模型，检测关键词。

检索词设定部108根据对各区段赋予的区段标签，从区段选择关注区段，仅将从关注区段的文本信息检测到的关键词设定为该视频的检索用关键词。关注区段是在各视频中设想为包含有最重要的内容的区段，且是在各领域中被赋予特定的区段标签的区段。判断为关注区段的区段标签按领域而被预先设定，并被存储到存储介质。例如，在学会领域的视频中，能够推测为被赋予“提议方法”的区段标签的区段是最重要的关注区段。另外，在教育领域的视频中，能够推测为被赋予“概要”的区段标签的区段是最重要的关注区段。

具体而言，检索词设定部108首先取得按领域来设定的重要的区段标签名，参考对各区段赋予的区段标签来选择视频的关注区段。接下来，检索词设定部108在由关键词检测部107检测到的关键词中，仅将从关注区段检测到的关键词设定为该视频的检索关键词。所设定的检索关键词被赋予给视频并被存储到存储介质。

接下来，说明由本实施方式的区段分割处理装置100执行的处理的动作。图7是示出本实施方式的视频分割处理的过程的一个例子的流程图。步骤S701-S705的处理分别与图2的步骤S201-S205的处理相同，所以省略说明。此外，以下说明的各处理中的处理过程只不过是一个例子，各处理能够尽可能地适当变更。另外，关于以下说明的处理过程，可根据实施方式适当地进行步骤的省略、置换以及追加。

(视频分割处理)

(步骤S706)

在通过步骤S701-步骤S705的处理对各区段赋予按领域而被统一的区段标签之后，区段名生成部106生成并设定各区段的区段名。区段名生成部106将所设定的区段名与对应的区段对应起来存储到存储介质。

图8是示出针对分割“学会”领域的视频而得到的各区段D1-D4设定区段名的情形的一个例子的图。另外，图9是示出针对分割“教育”领域的视频而得到的各区段F1-F7选择区段名的情形的一个例子的图。

(步骤S707)

关键词检测部107使用文本信息来检测各区段的关键词。关键词检测部107将检测到的关键词与对应的区段对应起来存储到存储介质。

图8是示出针对分割“学会”领域的视频而得到的各区段D1-D4检测到关键词的情形的一个例子的图。另外，图9是示出针对分割“教育”领域的视频而得到的各区段F1-F7检测到关键词的情形的一个例子的图。

(步骤S708)

检索词设定部108选择视频的关注区段，仅将从关注区段检测到的关键词设定为该视频的检索用关键词。检索词设定部108将所设定的检索用关键词与对应的视频对应起来存储到存储介质。例如，仅将从被赋予学会领域的“提议方法”的区段标签的区段或被赋予教育领域的“概要”的区段标签的区段检测到的关键词设定为视频的检索用关键词。

本实施方式所涉及的区段分割处理装置100能够针对每个区段，根据文本信息生成区段名，从文本信息检测关键词。通过这个结构，根据本实施方式所涉及的区段分割处理装置100，对各区段赋予表示区段的内容的附加信息作为区段名，所以用户通过确认区段名，能够在视听视频之前掌握视频的内容。

另外，在以往的视频管理装置中，在从大量的视频中检索自己想要视听的视频时，如果用户使用查询来检索视频，则将命中的视频作为检索结果来提示。此时，使用从整个视频检测到的检索用关键词，检索视频。但是，在所设定的关键词中，有在相同的领域的视频中共同地使用的关键词。例如，在教育领域中相应的是“性能提高”、“预定”等。在将全部区段的关键词用于检索时，共同地使用的关键词也包含于检索用关键词，所以难以缩减想要视听的视频。另外，如图9的一个例子那样，有时在视频中***有实例视频。实例视频例如是为了提示具体例而对视频的内容的一个例子进行了再现的剧情形式的影像。从实例视频检测的关键词例如像“铃木先生/女士”、“讨厌”那样与视频的内容无关的词较多。因此，针对包括实例视频的视频，在将全部区段的关键词用于检索时，会将与视频的内容之间的关系性低的关键词用作检索用关键词，所以检索的精度降低。

针对上述课题，本实施方式所涉及的区段分割处理装置100能够根据对各区段赋予的区段标签而从区段选择关注区段，仅将从关注区段的文本信息检测到的关键词设定为该视频或声音数据的检索用关键词。通过这个结构，根据本实施方式所涉及的区段分割处理装置100，将用于检索的检索用关键词限定于重要度高的区段的关键词，从而能够在各视频中仅使用表示视频的特征的特有的检索关键词进行检索。由此，能够去除不需要的检索关键词，用户能够高效地检索想要视听的内容的视频。

(第2实施方式的第1变形例)

说明第2实施方式的第1变形例。本变形例是使第2实施方式的结构如以下那样变形得到的例子。关于与第2实施方式同样的结构、动作以及效果，省略说明。本变形例的区段分割处理装置100仅使用特定的区段的关键词来生成视频的介绍文、介绍图像。

图10是示出本变形例所涉及的区段分割处理装置100的结构的图。区段分割处理装置100的处理电路代替检索词设定部108而具备介绍数据生成部109。

介绍数据生成部109针对每个视频，根据区段标签而从区段选择关注区段，使用从关注区段的文本信息检测到的关键词而生成视频的介绍数据。视频的介绍数据例如是视频的介绍文、介绍图像。介绍文、介绍图像例如与视频一起显示于视频的管理画面。

作为介绍文，例如使用关注区段的区段名。或者，也可以利用与生成区段名的处理同样的方法来生成较长的文章的介绍文。

作为介绍图像，例如使用利用了关注区段的关键词的词云图像(word cloudimage)。词云图像是指在1个图像中显示有多个关键词的图像。在词云图像中是文本数据内的出现频度越高则越增大关键词的字体尺寸来显示的方法，越是重要的关键词则显示得越大。介绍图像例如也可以在视频的管理画面中被用作视频的缩略图。

接下来，说明由本变形例的区段分割处理装置100执行的处理的动作。图11是示出本变形例的视频分割处理的过程的一个例子的流程图。步骤S1101-S1107的处理分别与图7的步骤S701-S707的处理相同，所以省略说明。此外，以下说明的各处理中的处理过程只不过是一个例子，各处理能够尽可能地适当变更。另外，关于以下说明的处理过程，可根据实施方式而适当地进行步骤的省略、置换以及追加。

(视频分割处理)

(步骤S1108)

在通过步骤S1101-步骤S1107的处理而检测到各区段的关键词之后，介绍数据生成部109使用检测到的关键词来生成视频的介绍数据。视频的介绍数据例如是对使用关键词来生成的介绍文、关键词进行了显示的介绍图像。此时，介绍数据生成部109在视频中确定包括重要的内容的关注区段，仅使用关注区段的关键词来生成介绍数据。将所生成的介绍数据与视频对应起来存储到存储介质。

本变形例所涉及的区段分割处理装置100能够根据区段标签而从区段选择关注区段，使用从关注区段的文本信息检测到的关键词来生成视频或声音数据的介绍数据。例如，通过在视频中仅使用重要的区段的关键词来生成介绍数据，能够生成高精度地表示视频的特征的介绍文、介绍图像。用户通过确认视频的介绍数据，能够高效地判断是否视听视频。

(第2实施方式的第2变形例)

说明第2实施方式的第2变形例。本变形例是使第2实施方式的结构如以下那样变形得到的例子。关于与第2实施方式同样的结构、动作以及效果，省略说明。本变形例的区段分割处理装置100仅使用特定的区段的关键词来计算视频之间的关联度，集中显示关联度高的视频。

图12是示出本变形例所涉及的区段分割处理装置100的结构的图。区段分割处理装置100的处理电路代替检索词设定部108而具备类似度计算部110。

类似度计算部110针对每个视频，根据区段标签而从区段选择关注区段，使用关注区段中的文本信息来计算多个视频之间的关联度，将关联度高的多个视频关联起来。例如，在显示于终端装置的视频的管理画面中集中地显示被关联起来的视频。例如能够通过比较关注区段的关键词、内容词来计算关联度。在该情况下，例如将关注区段的关键词在2个视频之间一致的概率计算为关联度。类似度计算部110是关联度计算部的一个例子。

接下来，说明由本变形例的区段分割处理装置100执行的处理的动作。图13是示出本变形例的视频分割处理的过程的一个例子的流程图。步骤S1301-S1307的处理分别与图7的步骤S701-S707的处理相同，所以省略说明。此外，以下说明的各处理中的处理过程只不过是一个例子，各处理能够尽可能地适当变更。另外，关于以下说明的处理过程，可根据实施方式而适当地进行步骤的省略、置换以及追加。

(视频分割处理)

(步骤S1308)

在通过步骤S1301-步骤S1307的处理而检测到各区段的关键词之后，类似度计算部110计算所管理的多个视频之间的关联度。例如，关于存储于存储介质的各视频，计算与其他所有视频之间的关联度。此时，类似度计算部110在视频中确定包括重要的内容的关注区段，仅使用关注区段的关键词来计算视频之间的关联度。将计算出的关联度与对应的视频对应起来存储到存储介质。

本变形例所涉及的区段分割处理装置100能够针对多个视频的每一个，根据区段标签而从区段选择关注区段，使用关注区段中的文本信息来计算多个视频之间或者多个声音数据之间的关联度，将关联度高的多个视频或声音数据关联起来。通过这个结构，能够向视听了某个视频的用户介绍与用户所视听的视频关联起来的关联度高的视频。或者，通过使关联度高的视频彼此邻接地显示，从而使用户能够集中视听关联度高的视频。另外，通过在视频中仅使用重要的区段的关键词来计算关联度，能够比较各视频的特征性的部分彼此来计算关联度，能够高精度地计算视频之间的关联度。

(第2实施方式的第3变形例)

说明第2实施方式的第3变形例。本变形例是使第2实施方式的结构如以下那样变形得到的例子。关于与第2实施方式同样的结构、动作以及效果，省略说明。本变形例的区段分割处理装置100制作仅合成特定的区段得到的摘要视频。

图14是示出本实施方式所涉及的区段分割处理装置100的结构的图。区段分割处理装置100的处理电路代替检索词设定部108而具备视频生成部111。

视频生成部111针对每个视频，根据区段标签而从区段选择关注区段，生成仅结合多个视频的关注区段得到的总结视频。总结视频例如是仅集中多个视频的特定的区段而得到的摘要视频。视频生成部111是生成部的一个例子。

接下来，说明由本变形例的区段分割处理装置100执行的处理的动作。图15是示出本变形例的视频分割处理的过程的一个例子的流程图。步骤S1501-S1507的处理分别与图7的步骤S701-S707的处理相同，所以省略说明。此外，以下说明的各处理中的处理过程只不过是一个例子，各处理能够尽可能地适当变更。另外，关于以下说明的处理过程，可根据实施方式而适当地进行步骤的省略、置换以及追加。

(视频分割处理)

(步骤S1508)

在通过步骤S1501-步骤S1507的处理而检测到各区段的关键词之后，视频生成部111根据区段标签而从区段选择关注区段，生成在想要管理的视频中结合同一领域的多个视频而得到的总结视频。此时，视频生成部111通过仅结合要结合的各视频的关注区段而生成总结视频。所生成的总结视频例如显示于管理画面。

本变形例所涉及的区段分割处理装置100能够针对每个视频或声音数据，根据区段标签而从区段选择关注区段，生成仅结合多个视频或声音数据的关注区段而得到的总结内容。总结内容例如是总结视频。总结视频是仅结合各视频的重要的关注区段而生成的，所以用户通过视听所生成的总结视频，能够仅集中视听各视频的特征性的部分，能够仅集中地视听视频的重要的部分。

根据以上叙述的至少一个实施方式，可提供能够高效地视听多个视频内容或者声音内容的区段分割处理装置、方法以及存储介质。

此外，本发明不限定于上述实施方式自身，能够在实施阶段中在不脱离其要旨的范围中使构成要素变形来具体化。另外，能够通过上述实施方式所公开的多个构成要素的适当的组合来形成各种发明。例如，也可以从实施方式所示的全部构成要素删除若干个构成要素。而且，也可以适当组合涉及不同的实施方式的构成要素。

此外，能够将上述实施方式总结为以下的技术方案。

(技术方案1)

一种区段分割处理装置，具备：

信息取得部，取得视频或声音数据、所述视频或声音数据的领域、以及所述视频或声音数据的文本信息；

分割部，将所述视频或声音数据分割为1个以上的区段；

区段标签候选取得部，取得与所述领域对应的区段标签候选；

区段标签选择部，针对每个所述区段，根据所述文本信息从所述区段标签候选选择区段标签；以及

区段标签赋予部，对所述区段赋予所选择的区段标签。

(技术方案2)

根据上述技术方案1，其中，还具备：区段名生成部，针对每个所述区段，根据所述文本信息而生成区段名；以及关键词检测部，针对每个所述区段，从所述文本信息检测关键词。

(技术方案3)

根据上述技术方案2，其中，还具备检索词设定部，该检索词设定部根据对所述区段赋予的所述区段标签从所述区段选择关注区段，仅将从所述关注区段的所述文本信息检测到的关键词设定为该视频或声音数据的检索用关键词。

(技术方案4)

根据上述技术方案2或者3，其中，还具备介绍数据生成部，该介绍数据生成部根据对所述区段赋予的所述区段标签从所述区段选择关注区段，使用从所述关注区段的所述文本信息检测到的关键词来生成该视频或声音数据的介绍文或者介绍图像。

(技术方案5)

根据上述技术方案2至4中的任意一个，其中，

还具备关联度计算部，

所述信息取得部从存储对区段赋予了区段标签的多个视频或声音数据的存储部，取得所述多个视频或声音数据，

所述关联度计算部针对所述多个视频或声音数据的每一个，根据对所述区段赋予的所述区段标签从所述区段选择关注区段，使用所述关注区段中的文本信息来计算所述多个视频之间或者所述多个声音数据之间的关联度，将关联度高的多个视频或声音数据关联起来。

(技术方案6)

根据上述技术方案2至5中的任意一个，其中，

还具备生成部，

所述生成部针对所述多个视频或声音数据的每一个，根据对所述区段赋予的所述区段标签从所述区段选择关注区段，生成仅结合所述多个视频或声音数据的所述关注区段而得到的总结内容。

(技术方案7)

根据上述技术方案1至6中的任意一个，其中，所述区段标签赋予部针对在所述区段标签候选中没有适合的区段标签的区段，根据该区段的文本信息而生成区段标签。

(技术方案8)

根据上述技术方案1至7中的任意一个，其中，所述分割部取得所述视频或声音数据的声音信息、或者所述视频的图像的特征量，根据所述声音信息或所述特征量、以及所述文本信息，将所述视频或声音数据分割为所述1个以上的区段。

(技术方案9)

根据上述技术方案1至7中的任意一个，其中，所述分割部从所述文本信息检测区段划分用词，以检测到所述区段划分用词的部分为边界，将所述视频或声音数据分割为所述1个以上的区段。

(技术方案10)

根据上述技术方案1至7中的任意一个，其中，所述分割部将所述文本信息分割为多个句子，从所述多个句子分别检测与视频或声音数据的内容有关的内容词，使用内容词来比较所述多个句子，以所述内容词变化的部分为边界，将所述视频或声音数据分割为所述1个以上的区段。

(技术方案11)

根据上述技术方案10，其中，所述区段标签选择部根据所述内容词，从所述区段标签候选选择区段标签。

(技术方案12)

一种区段分割处理方法，具备：

取得视频或声音数据、所述视频或声音数据的领域、以及所述视频或声音数据的文本信息；

将所述视频或声音数据分割为1个以上的区段；

取得与所述领域对应的区段标签候选；

针对每个所述区段，根据所述文本信息从所述区段标签候选选择区段标签；以及

对所述区段赋予所选择的区段标签。

(技术方案13)

一种计算机可读取的非临时性的存储介质，存储有区段分割处理程序，该区段分割处理程序用于使计算机实现：

取得视频或声音数据、所述视频或声音数据的领域、以及所述视频或声音数据的文本信息的功能；

将所述视频或声音数据分割为1个以上的区段的功能；

取得与所述领域对应的区段标签候选的功能；

针对每个所述区段，根据所述文本信息从所述区段标签候选选择区段标签的功能；以及

对所述区段赋予所选择的区段标签的功能。

Claims

1.一种区段分割处理装置，具备：

分割部，将所述视频或声音数据分割为1个以上的区段；

区段标签赋予部，对所述区段赋予所选择的区段标签。

2.根据权利要求1所述的区段分割处理装置，其中，

所述区段分割处理装置还具备：

区段名生成部，针对每个所述区段，根据所述文本信息而生成区段名；以及

关键词检测部，针对每个所述区段，从所述文本信息检测关键词。

3.根据权利要求2所述的区段分割处理装置，其中，

所述区段分割处理装置还具备检索词设定部，该检索词设定部根据对所述区段赋予的所述区段标签从所述区段选择关注区段，仅将从所述关注区段的所述文本信息检测到的关键词设定为该视频或声音数据的检索用关键词。

4.根据权利要求2或者3所述的区段分割处理装置，其中，

所述区段分割处理装置还具备介绍数据生成部，该介绍数据生成部根据对所述区段赋予的所述区段标签从所述区段选择关注区段，使用从所述关注区段的所述文本信息检测到的关键词来生成该视频或声音数据的介绍文或者介绍图像。

5.根据权利要求2至4中的任意一项所述的区段分割处理装置，其中，

所述区段分割处理装置还具备关联度计算部，

6.根据权利要求2至5中的任意一项所述的区段分割处理装置，其中，

所述区段分割处理装置还具备生成部，

7.根据权利要求1至6中的任意一项所述的区段分割处理装置，其中，

所述区段标签赋予部针对在所述区段标签候选中没有适合的区段标签的区段，根据该区段的文本信息而生成区段标签。

8.根据权利要求1至7中的任意一项所述的区段分割处理装置，其中，

所述分割部取得所述视频或声音数据的声音信息、或者所述视频的图像的特征量，根据所述声音信息或所述特征量、以及所述文本信息，将所述视频或声音数据分割为所述1个以上的区段。

9.根据权利要求1至7中的任意一项所述的区段分割处理装置，其中，

所述分割部从所述文本信息检测区段划分用词，以检测到所述区段划分用词的部分为边界，将所述视频或声音数据分割为所述1个以上的区段。

10.根据权利要求1至7中的任意一项所述的区段分割处理装置，其中，

所述分割部将所述文本信息分割为多个句子，从所述多个句子分别检测与视频或声音数据的内容有关的内容词，使用内容词来比较所述多个句子，以所述内容词变化的部分为边界，将所述视频或声音数据分割为所述1个以上的区段。

11.根据权利要求10所述的区段分割处理装置，其中，

所述区段标签选择部根据所述内容词，从所述区段标签候选选择区段标签。

12.一种区段分割处理方法，具备：

将所述视频或声音数据分割为1个以上的区段；

取得与所述领域对应的区段标签候选；

对所述区段赋予所选择的区段标签。

13.一种计算机可读取的非临时性的存储介质，存储有区段分割处理程序，该区段分割处理程序用于使计算机实现：

将所述视频或声音数据分割为1个以上的区段的功能；

取得与所述领域对应的区段标签候选的功能；

对所述区段赋予所选择的区段标签的功能。