RU2628192C2 - Device for semantic classification and search in archives of digitized film materials - Google Patents

Device for semantic classification and search in archives of digitized film materials Download PDF

Info

Publication number
RU2628192C2
RU2628192C2 RU2016102514A RU2016102514A RU2628192C2 RU 2628192 C2 RU2628192 C2 RU 2628192C2 RU 2016102514 A RU2016102514 A RU 2016102514A RU 2016102514 A RU2016102514 A RU 2016102514A RU 2628192 C2 RU2628192 C2 RU 2628192C2
Authority
RU
Russia
Prior art keywords
classification
search
feature vectors
frames
scene
Prior art date
Application number
RU2016102514A
Other languages
Russian (ru)
Other versions
RU2016102514A (en
Inventor
Сергей Юрьевич Подлесный
Алексей Валентинович Кучеренко
Original Assignee
Акционерное общество "Творческо-производственное объединение "Центральная киностудия детских и юношеских фильмов им. М. Горького"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Творческо-производственное объединение "Центральная киностудия детских и юношеских фильмов им. М. Горького" filed Critical Акционерное общество "Творческо-производственное объединение "Центральная киностудия детских и юношеских фильмов им. М. Горького"
Priority to RU2016102514A priority Critical patent/RU2628192C2/en
Publication of RU2016102514A publication Critical patent/RU2016102514A/en
Application granted granted Critical
Publication of RU2628192C2 publication Critical patent/RU2628192C2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

FIELD: physics.
SUBSTANCE: device for semantic classification and search in archives of digitized film materials contains sequentially connected means for obtaining digitized materials, means for extracting sample frames from digitized film materials, means for extracting feature vectors, segmentation and classification means, index storage means, means for performing information retrieval, a server device and a client device.
EFFECT: improving the accuracy of segmenting films on the stage, increasing the accuracy of the classification of scenes from a predefined list of classes, increasing the speed of the process of extracting semantic signs from the film frames, reducing the additional programming costs with increasing the dimension of the feature vector, reducing the amount of data to store the index to perform information retrieval film fragments by text requests, queries in a structured form and queries on the model, reducing the run time of indexing and increasing the accuracy and sensitivity of information retrieval.
5 cl, 3 dwg

Description

Изобретение относится к устройствам для семантической классификации оцифрованных киноматериалов и информационного поиска в архивах оцифрованных киноматериалов, а именно к устройствам для анализа изображения, распознавания визуальных свойств кинофильмов, автоматического извлечения признаков из видеокадров, семантического распознавания образов и классификации сцены в оцифрованных киноматериалах, а также к устройствам для информационного поиска при условиях поиска, заданных в текстовой или категориальной форме, включающей категории обнаруженных объектов, жанров или сцен, а также при условиях поиска, заданных эталонным кинофрагментом или по крайней мере одним эталонным изображением.The invention relates to devices for the semantic classification of digitized film materials and information retrieval in archives of digitized film materials, namely, devices for image analysis, recognition of visual properties of films, automatic feature extraction from video frames, semantic pattern recognition and scene classification in digitized film materials, and also to devices for information retrieval under search conditions specified in text or categorical form, including the category and the detected objects, or scenes genres, as well as search conditions specified reference kinofragmentom or at least one reference image.

Задача поиска фрагментов фондовых материалов киноархивов и телевизионных передач является актуальной при производстве новых художественных и документальных, образовательных и коммерческих фильмов, выпусков теленовостей, телевизионных передач, рекламных роликов и заставок.The task of finding fragments of the stock materials of film archives and television broadcasts is relevant in the production of new feature and documentary, educational and commercial films, television news, television broadcasts, commercials and screensavers.

Объемы хранимых в крупнейших архивах киноматериалов и телевизионных материалов огромны. Госфильмофонд РФ насчитывает около 70000 наименований фильмов; Гостелерадиофонд - около 100000. Объемы видеоматериалов на публичных интернет-порталах невообразимы. Только на видеосервис Youtube каждую минуту пользователи загружают свыше 100 часов нового видео.The volumes stored in the largest archives of film and television materials are huge. The State Film Fund of the Russian Federation totals about 70,000 titles of films; The State Television and Radio Fund is about 100,000. The volume of video materials on public Internet portals is unimaginable. Only on Youtube video service every minute users upload over 100 hours of new video.

Производители документальных фильмов и телевизионных передач ежедневно сталкиваются в своей работе с поиском фрагментов в видеоархивах. Качество поиска зависит от квалификации редакторов и авторов, их кругозора, культурного и исторического образования. Текстовые аннотации архивных киноматериалов в настоящее время недостаточно подробны и не позволяют эффективно использовать разработанные для Интернета стандартные поисковые системы.Producers of documentaries and television programs daily face in their work with the search for fragments in video archives. The quality of the search depends on the qualifications of the editors and authors, their horizons, cultural and historical education. Text annotations of archival film materials are currently not detailed enough and do not allow the effective use of standard search engines developed for the Internet.

Разработка системы семантической индексации киноматериалов призвана значительно повысить эффективность работы редакторов и авторов документальных фильмов и телевизионных программ по подбору фрагментов фондовых материалов. При этом потребность в ручной аннотации фондовых материалов значительно снижается.The development of a system of semantic indexing of film materials is intended to significantly increase the efficiency of the editors and authors of documentaries and television programs on the selection of fragments of stock materials. At the same time, the need for manual annotation of stock materials is significantly reduced.

В соответствии с международным стандартом (ISO/IEC 15938-5:2003. Информационные технологии. Интерфейс описания содержимого мультимедиа. Часть 5. Схемы описания мультимедиа. - 730 с., [1]), системы описания содержимого мультимедиа, к которым относятся и оцифрованные киноматериалы, должны обеспечивать информационный поиск по следующим видам запросов:In accordance with the international standard (ISO / IEC 15938-5: 2003. Information technology. Multimedia content description interface. Part 5. Multimedia description schemes. - 730 p., [1]), multimedia content description systems, which include digitized cinema materials should provide an information search for the following types of queries:

- Запрос по образцу на поиск близкого или идентичного представленному образцу мультимедийного материала (в частности образцу изображения и образцу кинофрагмента);- A request on a sample to search for a near or identical to the presented sample multimedia material (in particular a sample image and a sample film fragment);

- Запрос по описанию, в котором запрос представляет собой структурированное описание в формате XML;- A request for description, in which the request is a structured description in XML format;

- Запрос в текстовой форме;- Request in text form;

- другие виды запросов.- other types of requests.

В технике широко известны системы для классификации изображений, т.е. системы для анализа неподвижных изображений, таких как фотографии, и присвоения им по крайней мере одной метки или текстового описания, по которым, в свою очередь, могут осуществлять поиск в базе данных изображений. Такие системы обычно используют для классификации изображений по заранее известной номенклатуре классов. Известным в технике способом классификации является применение по крайней мере одного классификатора и отнесение изображения к множеству классов, наиболее подходящих к изображению. Например, фотографию стада слонов в саванне могут отнести к классу "слон", к классу "саванна" или к множеству классов "слон, саванна".Systems for classifying images, i.e. systems for analyzing still images, such as photographs, and assigning them at least one label or text description, which, in turn, can search the image database. Such systems are usually used to classify images according to a previously known class list. The method of classification known in the art is the use of at least one classifier and assigning the image to many classes that are most suitable for the image. For example, a photograph of a herd of elephants in the savannah can be attributed to the class "elephant", to the class "savannah" or to many classes of "elephant, savannah".

Подобные способы классификации изображений используют различные методики технической реализации классификаторов. Например, в работе (Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 2012, [2]) описан классификатор на основе сверточных нейронных сетей.Similar methods for classifying images use various techniques for the technical implementation of classifiers. For example, the paper (Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 2012, [2]) describes a classifier based on convolutional neural networks.

Независимо от конкретной методики построения классификатора, традиционные системы классификации изображений недостаточно точны для классификации киноматериалов. Традиционные системы оптимизируют для анализа фотографий, в которых обычно уделяют значительное внимание вопросам композиции, а именно пропорциям фона и основного объекта в кадре, ракурсу съемки неподвижных объектов, отсутствию препятствий между камерой и объектом съемки, качеству освещения, экспонирования и наводки на резкость. В противоположность фотографии, кинофрагменты предназначают для восприятия зрителем целостно как последовательность кадров, в каждом из которых объект съемки может быть снят частично, в необычном ракурсе, быть смазанным из-за движения и т.п. В киносъемке применяют также ряд операторских приемов, таких как плавный ввод и вывод экспозиции, наезд или отъезд камеры и т.п.Regardless of the specific methodology for constructing the classifier, traditional image classification systems are not accurate enough to classify film materials. Traditional systems are optimized for analyzing photographs, in which they usually pay considerable attention to compositional issues, namely the proportions of the background and the main object in the frame, the angle of shooting fixed objects, the absence of obstacles between the camera and the subject, the quality of lighting, exposure and focus. In contrast to photography, film fragments are intended for the viewer to perceive holistically as a sequence of frames, in each of which the subject can be shot partially, in an unusual angle, to be blurred due to movement, etc. A number of camera techniques are also used in filming, such as smooth input and output exposure, zoom in or out the camera, etc.

В таких условиях классификаторы для неподвижных изображений работают с низкой точностью, и для семантической классификации киноматериалов и последующего информационного поиска применяют устройства, основанные на анализе векторов движения, гистограмм цветового фона и насыщенности, инвариантных дескрипторов особых точек изображения и др. методики.Under such conditions, classifiers for still images work with low accuracy, and for the semantic classification of film materials and subsequent information retrieval, devices based on the analysis of motion vectors, histograms of color background and saturation, invariant descriptors of singular image points, and other techniques are used.

Из уровня техники известна система для поиска по видеоархиву на основе эталонного изображения (WO 2014082288 А1, опубликована 05.06.2014). Система включает средства пользовательского интерфейса для ввода текстового запроса для поиска видеофрагмента, средства для поиска эталонных изображений на основе текстового запроса и отображения множества найденных эталонных изображений пользователю, средства для поиска видеофрагмента на основе одного выбранного пользователем эталонного изображения.The prior art system for searching a video archive based on a reference image (WO 2014082288 A1, published 05.06.2014). The system includes user interface means for entering a text query for searching a video fragment, means for searching for reference images based on a text query and displaying a plurality of found reference images to a user, means for searching for a video fragment based on one user selected reference image.

В предложенной системе поиск видеофрагмента основан на вычислении меры близости эталонного изображения и ключевого кадра видеофрагмента в архиве. Меру близости вычисляют с помощью признаков распределения цвета, типов текстур и формы контуров.In the proposed system, the search for a video fragment is based on calculating the proximity measure of the reference image and the key frame of the video fragment in the archive. The measure of proximity is calculated using color distribution features, texture types, and outline shapes.

Недостатком предложенного подхода является ограничение возможностей поиска лишь одним образцом эталонного изображения, а также зависимость точности поиска от корректности выбора ключевого кадра видеофрагмента. Более полезным был бы поиск кинофрагмента по множеству эталонных фотографий требуемого образа или класса изображений. Например, если в семантическом индексе киноархива не содержится класс "Внедорожник", предпочтительно реализовать устройство для поиска фрагментов, содержащих внедорожные автомобили, на основе классификатора, обученного на множестве фотографий различных внедорожников. При сравнении фрагментов в архиве с эталонными изображениями предпочтительно использовать информацию из более чем одного эталонного изображения для обеспечения большей чувствительности информационного поиска.The disadvantage of the proposed approach is the limitation of the search capabilities to only one sample of the reference image, as well as the dependence of the search accuracy on the correct selection of the key frame of the video fragment. It would be more useful to search for a movie fragment by a set of reference photographs of the required image or class of images. For example, if the SUV class is not contained in the semantic index of the movie archive, it is preferable to implement a device for searching for fragments containing off-road cars based on a classifier trained on many photographs of various SUVs. When comparing fragments in the archive with reference images, it is preferable to use information from more than one reference image to provide greater sensitivity for information retrieval.

Из уровня техники известны способ и система для видео поиска и формирования базы данных оцифрованных видеоматериалов для осуществления поиска на основе образцового видеофрагмента (патенте США №8515933, опубликован 15.09.2011). Способ формирования базы данных оцифрованных видеоматериалов включает шаги записи видеофайлов в базу данных, формирования метаданных для каждого видеофайла. Шаг формирования метаданных включает этап сегментации видеофайла на отдельные сцены и этап семантической индексации каждой сцены.The prior art method and system for video searching and generating a database of digitized video materials for searching based on an exemplary video fragment (US patent No. 8515933, published September 15, 2011). The method of generating a database of digitized video materials includes the steps of recording video files into a database, generating metadata for each video file. The step of generating metadata includes the step of segmenting the video file into separate scenes and the step of semantic indexing of each scene.

Сегментацию фильма на отдельные сцены осуществляют на основе обнаружения точек резкого изменения векторного расстояния между гистограммами тона и насыщенности соседних кадров.The film is segmented into separate scenes based on the detection of points of a sharp change in the vector distance between the histograms of tone and the saturation of neighboring frames.

Семантическую индексацию сцены осуществляют на основе комбинации направления вектора движения, длительности сцены и тонового угла сцены в цветовом пространстве HSV.Semantic indexing of a scene is based on a combination of the direction of the motion vector, the duration of the scene, and the tone angle of the scene in the HSV color space.

В системе для поиска видеофрагментов по образцу получают образцовый видеофрагмент, извлекают метаданные образцового видеофрагмента, получают кандидатуры результатов поиска по совпадению индексной метки образцового видеофрагмента, выбирают результаты поиска из кандидатур результатов поиска по критерию близости семантических векторов образцового видеофрагмента и видеофрагмента-кандидатуры.In the system for searching for video clips by sample, a sample video clip is extracted, metadata of the sample video clip is extracted, candidate search results are obtained by matching the index mark of the sample video clip, search results are selected from the search results by the proximity criterion of semantic vectors of the sample video clip and candidate video clip.

Указанные метаданные включают комбинацию направления вектора движения, длительности сцены и тонового угла сцены в цветовом пространстве HSV. Указанные семантические векторы включают бинаризованные последовательности значений разности векторов движения между соседними кадрами.These metadata include a combination of the direction of the motion vector, the duration of the scene, and the tone angle of the scene in the HSV color space. Said semantic vectors include binarized sequences of values of the difference of motion vectors between adjacent frames.

Применение метаданных для индексации ускоряет поиск по архиву оцифрованных фильмов за счет того, что архив индексирован по значению полей метаданных (например, по тоновому углу сцены в цветовом пространстве HSV), поэтому для поиска семантически близких сцен не требуется сплошной просмотр всего архива. Однако, подбор признаков для формирования метаданных не позволяет сформировать истинно семантический индекс, т.к. предложенные в указанном патенте признаки содержат лишь общие характеристики кадра, такие как преобладающий тон цвета, преобладающее направление движения и длительность сцены. Перечисленные признаки недостаточны для семантической классификации изображений в кадре.The use of metadata for indexing speeds up the search in the archive of digitized films due to the fact that the archive is indexed by the value of the metadata fields (for example, by the tone angle of the scene in the HSV color space), therefore, to search for semantically close scenes, you do not need to look through the entire archive. However, the selection of features for the formation of metadata does not allow the formation of a truly semantic index, because the features proposed in the said patent contain only general characteristics of the frame, such as the prevailing color tone, the prevailing direction of movement and the duration of the scene. The listed features are insufficient for the semantic classification of images in the frame.

В качестве семантических векторов предложены бинаризованные последовательности значений разности векторов движения между соседними кадрами. Авторы сделали эмпирическое наблюдение, что указанные последовательности совпадают или близки для одинаковых видеофрагментов, записанных в различных разрешениях (размерах кадра в пикселах). Однако, предложенные семантические векторы не содержат информации, позволяющей классифицировать изображения в сценах. Поэтому возможности предложенной системы семантической индексации и поиска ограничены ситуацией, когда требуется найти фрагменты с цветовой тональностью и длительностью, близкими к заданному образцу, в которых последовательность преобладающего движения в кадре близка к заданному образцу.As semantic vectors, binarized sequences of values of the difference of motion vectors between adjacent frames are proposed. The authors made an empirical observation that the indicated sequences coincide or are close for identical video fragments recorded in different resolutions (frame sizes in pixels). However, the proposed semantic vectors do not contain information to classify images in scenes. Therefore, the possibilities of the proposed system of semantic indexing and search are limited by the situation when it is necessary to find fragments with color tonality and duration close to a given sample, in which the sequence of prevailing motion in the frame is close to a given sample.

Кроме того, вычисление вектора движения является вычислительно затратной процедурой, а признаки на основе гистограмм затруднительно вычислять с помощью параллельных графических ускорителей, что в совокупности ограничивает производительность системы семантической индексации и поиска.In addition, the calculation of the motion vector is a computationally expensive procedure, and it is difficult to calculate features based on histograms using parallel graphics accelerators, which together limits the performance of the semantic indexing and search system.

Использование резкого изменения тональности кадров для сегментации фильма на сцены имеет недостатки, связанные с тем, что не учитывают содержательное наполнение кадра, и часто допускают ошибку разделения целостной сцены на несколько фрагментов.The use of a sharp change in the tonality of frames for segmenting a film into scenes has drawbacks related to the fact that they do not take into account the content of the frame, and often make the mistake of dividing the whole scene into several fragments.

Также из уровня техники известна система для семантической классификации сцен из видеофильмов (заявка США №2009208106, опубликована 20.08.2009), в которой получают видеофайл, извлекают из видеофайла подмножество кадров, исключают из указанного подмножества кадры с недостаточным уровнем яркости, определяют, принадлежит ли каждый кадр из указанного подмножества заданной общей категории, для кадров, принадлежащих к указанной общей категории, вычисляют вектор оценок принадлежности заранее заданным классам, объединяют соседние кадры с близкими векторами оценок принадлежности к заданным классам в единую сцену и индексируют указанную сцену как принадлежащую соответствующим классам. Полученный индекс используют для информационного поиска видеофильмов с требуемым содержимым.Also known from the prior art is a system for the semantic classification of scenes from videos (US application No. 2009208106, published 08/20/2009), in which a video file is received, a subset of frames is extracted from the video file, frames with insufficient brightness level are excluded from the specified subset, and each is determined a frame from a specified subset of a given general category, for frames belonging to a specified general category, a vector of membership ratings for predefined classes is computed, adjacent frames with close eyelids are combined tori of estimates of belonging to given classes into a single scene and index the specified scene as belonging to the corresponding classes. The resulting index is used for information retrieval of videos with the required content.

Примером упомянутой общей категории является категория "натурная съемка". Примерами упомянутых заранее заданных классов являются "пляж", "берег", "пустыня", "лес", "луг", "автострада", "озеро", "река", "горы" и т.п.An example of the general category mentioned is the “field survey” category. Examples of said predefined classes are “beach”, “shore”, “desert”, “forest”, “meadow”, “freeway”, “lake”, “river”, “mountains”, etc.

Для определения принадлежности кадра к заданной общей категории выделяют вектор признаков из кадра и классифицируют вектор признаков с помощью классификатора общих категорий. В качестве признаков используют гистограммы распределения цветов в цветовом пространстве CIELAB, гистограммы ориентации углов, полученные с помощью фильтров Собеля, гистограммы распределения штрихов, полученные с помощью преобразования Хаффа, гистограммы распределения типов текстур, признаки формы и морфологические признаки. Классификатор общей категории реализуют с помощью машины опорных векторов.To determine whether a frame belongs to a given general category, a feature vector is extracted from the frame and the feature vector is classified using the classifier of general categories. Characteristics are histograms of the distribution of colors in the CIELAB color space, histograms of the orientation of the angles obtained using Sobel filters, histograms of the distribution of strokes obtained using the Huff transform, histograms of the distribution of texture types, shape features and morphological characters. A general category classifier is implemented using a support vector machine.

Для вычисления вектора оценок принадлежности кадра к заранее заданным классам применяют признаки, описанные выше и ансамбли из машин опорных векторов.To calculate the vector of estimates of the frame belonging to predefined classes, the features described above and ensembles from reference vector machines are used.

В результате работы описанной системы получают индекс видеоматериалов, включающий записи, соответствующие отдельным сценам фильмов. Каждая запись включает, по меньшей мере, поля "Начало фрагмента", "Конец фрагмента", "Классы принадлежности фрагмента". При этом поля "Начало фрагмента" и "Конец фрагмента" содержат отметки времени в общем хронометраже фильма.As a result of the operation of the described system, an index of video materials is obtained, including records corresponding to individual movie scenes. Each record includes at least the “Fragment start”, “Fragment end”, and “Fragment membership classes” fields. In this case, the “Beginning of the fragment” and “End of the fragment” fields contain timestamps in the overall timing of the film.

При информационном поиске вводят текстовый запрос, например "Автострада", находят в индексе все фрагменты, включающие в поле "Классы принадлежности фрагмента" требуемый класс "автострада", и представляют полученный перечень фрагментов пользователю.When performing an information search, a text query is entered, for example, "Motorway", all fragments are found in the index that include the required "motorway" class in the "Class of fragment belonging to" field, and the resulting list of fragments is presented to the user.

Предложенное решение, включающее двухстадийную классификацию кадров, а именно сначала на принадлежность к общей категории, затем на принадлежность к заранее заданным классам изображения, предназначено для повышения точности семантической индексации. Благодаря первой классификации получают возможность исключить нерелевантные классификаторы, заведомо непригодные для общей категории изображения (например, для общей категории "интерьерные сцены" заведомо непригодной являются такие классы, как "земля", "трава", "лес"). Однако, такая двухстадийная классификация приводит к дополнительным затратам на обучение классификаторов, включая формирование обучающих выборок эталонных изображений для общей категории и упомянутых заранее заданных классов; вычислительные затраты на двукратное применения машины опорных векторов; потенциально двукратные затраты на извлечение векторов признаков, т.к. наборы признаков для первого и второго классификаторов обычно различаются. Кроме того, повышение точности индексации при двустадийной классификации не доказано теоретически, и при ошибочной классификации общей категории результат классификации на принадлежность заранее заданным классам будет заведомо неверным.The proposed solution, which includes a two-stage classification of frames, namely first to belong to the general category, then to belong to predefined image classes, is intended to improve the accuracy of semantic indexing. Thanks to the first classification, it becomes possible to exclude irrelevant classifiers that are obviously unsuitable for the general category of images (for example, classes such as "ground", "grass", "forest" are obviously unsuitable for the general category of "interior scenes"). However, such a two-stage classification leads to additional costs for training classifiers, including the formation of training samples of reference images for the general category and the aforementioned predefined classes; computational costs for the double use of the support vector machine; potentially double the cost of extracting feature vectors, because feature sets for the first and second classifiers are usually different. In addition, an increase in the accuracy of indexing in the two-stage classification has not been theoretically proved, and if the general category is erroneously classified, the result of the classification for belonging to predefined classes will be deliberately incorrect.

В описанном решении формирование сцены из отдельных кадров производят после вычисления векторов оценок принадлежности заранее заданным классам, т.е. после второй классификации. Недостатком такого подхода является тот факт, что во многих фильмах применяют операторские приемы, характерные для съемки объектов в движении. Тогда в заведомо единой сцене на отдельных кадрах могут классифицировать изображения, принадлежащие разным классам, и расстояния между соответствующими векторами оценок будут велики, поэтому сцена будет фрагментирована на несколько ложных фрагментов. Например, типичная сцена погони хищника за добычей может включать первые кадры, содержащие только животное-добычу, затем кадры, содержащие стремительно движущегося хищника, затем кадры, включающие обоих животных. Способ разбиения фильма на сцены, предложенный в прототипе, может ошибочно разделить сцену на три различных фрагмента, что может привести к ошибочным или неоптимальным результатам информационного поиска.In the described solution, the formation of a scene from separate frames is performed after computing vectors of membership ratings for predefined classes, i.e. after the second classification. The disadvantage of this approach is the fact that in many films, camera techniques are used that are typical for shooting objects in motion. Then, in a deliberately unified scene, images belonging to different classes can be classified on separate frames, and the distances between the corresponding estimation vectors will be large, so the scene will be fragmented into several false fragments. For example, a typical predator chasing a prey for a prey may include first frames containing only animal prey, then frames containing a rapidly moving predator, then frames containing both animals. The method of dividing a film into scenes, proposed in the prototype, can erroneously divide a scene into three different fragments, which can lead to erroneous or suboptimal results of an information search.

Также в описанном решении используют большое количество разнообразных признаков для формирования вектора признаков для классификации кадра. Значительная доля предложенных признаков носит характер гистограммы. Расчет гистограммы является алгоритмически последовательной процедурой, плохо реализуемой на современных параллельных графических ускорителях. Следовательно, производительность принципиально ограничена производительностью центрального процессора и не может быть масштабирована для ускорения расчетов. Кроме того, алгоритмы вычисления признаков разнообразны и неуниверсальны, что повышает сложность программного обеспечения и риски ошибочных вычислений. Такие признаки, как типы текстур и формы контуров, сложны в программной реализации, а их эффективность для точной классификации кадра зависит от оптимального выбора базиса, например номенклатуры типов текстур, форм контуров и масштабов сравнения.Also, the described solution uses a large number of diverse features to form a feature vector for classifying the frame. A significant proportion of the proposed features is in the nature of a histogram. The calculation of the histogram is an algorithmically sequential procedure, poorly implemented on modern parallel graphics accelerators. Therefore, performance is fundamentally limited by the performance of the central processor and cannot be scaled to speed up calculations. In addition, the algorithms for computing attributes are diverse and non-universal, which increases the complexity of the software and the risks of erroneous calculations. Features such as texture types and outline shapes are complex in software implementation, and their effectiveness for accurate frame classification depends on the optimal choice of basis, for example, the nomenclature of texture types, outline shapes, and comparison scales.

Описанная система реализует возможности информационного поиска по архиву видеозаписей на основе текстового запроса, включающего ключевые слова. Однако, предпочтительно предоставить пользователям дополнительную возможность информационного поиска на основе эталонного фрагмента фильма. Например, пользователь мог бы выполнить первый поиск по ключевым словам, получить перечень кинофрагментов, включающих элементы требуемых классов, например выполнить поиск по ключевому слову "Слон". Далее, пользователь мог бы выбрать среди результатов первого поиска кинофрагмент с требуемыми трудноформализуемыми характеристиками, такими как масштаб и количество слонов в кадре, тип фона (лес, небо, водоем), характеристики освещенности (закатное небо или полдень) и т.п. Было бы предпочтительно, чтобы устройство для семантической индексации и поиска позволило выполнить второй поиск по образцу выбранного эталонного фрагмента, т.к. часто дать описание требований сложнее, чем предоставить визуальный образец.The described system implements the information search capabilities in the archive of videos based on a text query that includes keywords. However, it is preferable to provide users with an additional information retrieval opportunity based on a reference fragment of the film. For example, a user could perform the first search using keywords, get a list of movie clips that include elements of the required classes, for example, perform a search with the keyword "Elephant". Further, the user could choose among the results of the first search a movie fragment with the required hard-to-form characteristics, such as the scale and number of elephants in the frame, the type of background (forest, sky, pond), light characteristics (sunset sky or noon), etc. It would be preferable that the device for semantic indexing and search allows a second search to be performed on the sample of the selected reference fragment, since It is often more difficult to describe requirements than to provide a visual sample.

Указанный источник информации выбран в качестве наиболее близкого аналога.The specified source of information is selected as the closest analogue.

Таким образом, известные в технические решения для создания систем семантической индексации и информационного поиска обладают следующими недостатками. Использование разнообразных гистограмм в качестве признаков изображения ограничивает производительность системы в связи с затруднениями при параллелизации расчетов. Использование большого количества разнообразных признаков, извлекаемых из изображений, затрудняет разработку программного обеспечения. Используемые в качестве признаков гистограммы не несут семантической информации, а лишь позволяют статистически анализировать изображения на основе распределения тона, яркости, ориентации штрихов и т.п. Разделение фильма на сцены на основе вектора классификации приводит к неточной классификации из-за отсутствия усреднения между связанными кадрами, и к ложным срабатываниям, т.е. фрагментации целостных сцен. Разделение фильма на сцены на основе анализа тональности соседних кадров не учитывает содержания кадров и также приводит к ложным срабатываниям и фрагментации сцен. Применение каскадной классификации приводит к повышенным вычислительным затратам при обучении классификаторов и при классификации кадров и не устраняет ошибок классификации. Применение признаков типа текстуры и формы контуров затрудняет процесс обучения классификаторов, т.к. эффективность подобных признаков сильно зависит от оптимального выбора базиса. Применение векторов движения в качестве признаков недостаточно для семантической классификации объектов кадра. Избранная в качестве прототипа система для семантической классификации сцен в видеофильмах не позволяет осуществлять информационный поиск на основе образцового видеофрагмента и на основе эталонных изображений т.к. в индексе сохраняют только признаки принадлежности сцен к заранее заданным классам.Thus, the well-known technical solutions for creating systems of semantic indexing and information retrieval have the following disadvantages. The use of a variety of histograms as features of the image limits the performance of the system due to difficulties in parallelizing calculations. The use of a large number of diverse features extracted from images makes software development difficult. The histograms used as signs do not carry semantic information, but only allow statistical analysis of images based on tone distribution, brightness, stroke orientation, etc. The division of the film into scenes based on the classification vector leads to inaccurate classification due to the lack of averaging between related frames, and to false positives, i.e. fragmentation of holistic scenes. The division of the film into scenes based on the analysis of the tonality of neighboring frames does not take into account the content of the frames and also leads to false positives and fragmentation of the scenes. The use of cascade classification leads to increased computational costs in training classifiers and in the classification of frames and does not eliminate classification errors. The use of features such as texture and shape of contours complicates the process of training classifiers, because the effectiveness of such signs strongly depends on the optimal choice of basis. The use of motion vectors as attributes is not enough for the semantic classification of frame objects. The system for the semantic classification of scenes in videos, selected as a prototype, does not allow information retrieval based on an exemplary video fragment and on the basis of reference images since only signs of scenes belonging to predefined classes are stored in the index.

Настоящее изобретение направлено на решение задачи разработки устройства для семантической классификации и поиска в архивах оцифрованных киноматериалов, позволяющего: формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по текстовому запросу в формате комбинации ключевых слов, формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по структурированному запросу в формате XML, формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по образцу кинофрагмента, формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по множеству образцов неподвижных изображений, осуществлять информационный поиск кинофрагментов.The present invention is directed to solving the problem of developing a device for semantic classification and searching in archives of digitized cinema materials, which allows: to create a movie archive index that allows for the information search for movie fragments by text query in the form of a combination of keywords, to create a movie archive index that allows for the information search for movie fragments by structured query in XML format, create a movie archive index that allows for information search to film fragments on the model of a film fragment, to form an index of a film archive that allows for the information search of film fragments in a variety of samples of still images, to carry out an information search for film fragments.

Технический результат заявленного изобретения, достигаемый при его использовании, заключается в повышении точности сегментации фильмов на сцены благодаря учету семантики содержания сцены, повышении точности классификации сцен по заранее заданному перечню классов, повышении быстродействия процесса извлечения семантических признаков из кадров кинофильма за счет эффективной реализации параллельных вычислений, сокращении дополнительных затрат на программирование при увеличении размерности вектора признаков за счет извлечения семантических признаков из кадров кинофильма на основе унифицированного алгоритма, сокращении объема данных для хранения индекса для выполнения информационного поиска кинофрагментов по текстовым запросам, запросам в структурированной форме, запросам по образцу за счет сквозного использования унифицированных векторов признаков, сокращении времени выполнения индексации за счет однократного применения операции извлечения признаков и однократного применения классификаторов, повышении точности и чувствительности информационного поиска за счет применения векторов признаков, включающих значимую семантическую информацию.The technical result of the claimed invention, achieved when using it, is to increase the accuracy of segmentation of films into scenes by taking into account the semantics of the content of the scene, increasing the accuracy of classifying scenes according to a predetermined list of classes, increasing the speed of the process of extracting semantic attributes from movie frames due to the effective implementation of parallel computing, reduction of additional programming costs while increasing the dimension of the feature vector by extracting sem features from movie frames on the basis of a unified algorithm, reducing the amount of data for storing the index for performing information retrieval of movie fragments by text queries, queries in a structured form, queries by a sample through the use of unified feature vectors, reducing the time it takes to perform indexing due to a single application of the operation retrieval of signs and single use of classifiers, increasing the accuracy and sensitivity of information retrieval due to the use of feature vectors, including significant semantic information.

Указанный технический результат достигается за счет использования устройства для семантической классификации и поиска в архивах оцифрованных киноматериалов, которое включает последовательно соединенные средство получения оцифрованных материалов, средство извлечения выборочных кадров из оцифрованных киноматериалов, средство извлечения векторов признаков, средство сегментации и классификации, средство хранения индекса, средство для выполнения информационного поиска, серверное устройство и клиентское устройство, при этом средство извлечения выборочных кадров из оцифрованных киноматериалов выполнено с возможностью раскодировки и извлечения кадров или изображений через заданные промежутки времени, масштабирования выборочных кадров или изображений в размер, пригодный для классификации, средство извлечения векторов признаков включает по крайней мере один слой свертки, соединенный по крайней мере с одним слоем голосования и по крайней мере с одним слоем финальной классификации, причем средство извлечения векторов признаков выполнено с возможностью получения вектора признаков из слоя голосования и получения вектора классификации из слоя финальной классификации, средство сегментации и классификации выполнено с возможностью сегментации фильма на отдельные сцены посредством сравнения между собой векторов признаков соседних выборочных кадров и с возможностью усреднения векторов классификации для кадров, составляющих одну сцену, средство хранения индекса выполнено с возможностью обмена данными между средством сегментации и классификации и средством для выполнения информационного поиска посредством интерфейса локальной сети и сохранения для каждой сцены фильма по крайней мере времени начала сцены, длительности сцены и по крайней мере одного признака класса, получаемого из усредненного вектора классификации для кадров, составляющих одну сцену, серверное устройство выполнено с возможностью обмена данными со средством для выполнения информационного поиска посредством интерфейса локальной сети и с клиентским устройством посредством глобальной сети Интернет, клиентское устройство выполнено с возможностью передачи текстового запроса серверному устройству посредством глобальной сети Интернет, причем серверное устройство выполнено с возможностью формирования декларативного запроса на основании текстового запроса и передачи декларативного запроса средству для выполнения информационного поиска посредством интерфейса локальной сети, причем серверное устройство и клиентское устройство выполнены с возможностью передачи множества образцовых кинофрагментов или неподвижных изображений средству для выполнения информационного поиска, выполненному с возможностью раскодировки и извлечения кадров или изображений через заданные промежутки времени, масштабирования выборочных кадров или изображений в размер, пригодный для классификации и вычисления векторов признаков для каждого образцового изображения или каждого образцового кинофрагмента для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе введенного образцового кинофрагмента или по крайней мере одного образцового неподвижного изображения.The specified technical result is achieved through the use of a device for semantic classification and search in archives of digitized film materials, which includes sequentially connected means for obtaining digitized materials, means for extracting sample frames from digitized film materials, means for extracting feature vectors, means for segmentation and classification, means for storing index, means to perform information retrieval, the server device and the client device, while extracting sample frames from digitized film materials is capable of decoding and extracting frames or images at predetermined time intervals, scaling the sample frames or images to a size suitable for classification, the means for extracting feature vectors includes at least one convolution layer connected to at least one a voting layer and at least one layer of the final classification, and the means for extracting feature vectors is configured to receive a number of features from the voting layer and obtaining a classification vector from the final classification layer, the segmentation and classification tool is configured to segment the film into separate scenes by comparing the feature vectors of adjacent sample frames with each other and with the possibility of averaging the classification vectors for frames comprising one scene, a storage means the index is configured to exchange data between the means of segmentation and classification and the means for performing information search on by means of a local area network interface and storing for each movie scene at least the start time of the scene, the duration of the scene and at least one class attribute obtained from the average classification vector for frames constituting one scene, the server device is configured to exchange data with the means for executing information retrieval through the local area network interface and with the client device via the global Internet, the client device is configured to transmit text request to the server device via the global Internet, the server device being configured to formulate a declarative request based on a text request and transmitting the declarative request to the means for performing an information search via the LAN interface, the server device and the client device being configured to transmit multiple exemplary movies or still images means for performing information retrieval performed with the ability to decode and retrieve frames or images at specified intervals, scaling sample frames or images to a size suitable for classifying and calculating feature vectors for each model image or each model movie fragment for information retrieval through the archive of digitized film materials based on the entered model movie fragment or at least one model still image.

Также средство хранения индекса выполнено с возможностью сохранения усредненных векторов признаков по крайней мере одной сцены фильма.Also, the index storage means is configured to store averaged feature vectors of at least one movie scene.

При этом средство извлечения векторов признаков взаимодействует с устройством графического параллельного ускорения.In this case, the means of extracting the feature vectors interacts with the graphic parallel acceleration device.

Также средство для выполнения информационного поиска, выполнено с возможностью выполнения сравнения усредненного векторов признаков образцового кинофрагмента, полученного из слоя голосования, с усредненными векторами признаков, сохраненными в устройстве хранения индекса, для поиска по образцовому кинофрагменту.Also, the means for performing the information search is configured to compare the averaged feature vectors of the exemplary movie fragment obtained from the voting layer with the averaged feature vectors stored in the index storage device to search for the exemplary movie fragment.

Причем средство для выполнения информационного поиска выполнено с возможностью извлечения векторов признаков образцового изображения, полученными из слоя голосования, для каждого образцового изображения и выполнения обучения классификатора, и применения обученного классификатора к усредненным векторам признаков, сохраненными в устройстве хранения индекса, для поиска по множеству образцовых изображений.Moreover, the means for performing information retrieval is configured to retrieve feature vectors of the sample image obtained from the voting layer for each sample image and perform classifier training, and apply the trained classifier to the averaged feature vectors stored in the index storage device to search for a plurality of sample images .

Средства получения оцифрованных киноматериалов считывают цифровой фильм, выполняют операцию раскодирования и передают последовательность кадров средствам извлечения выборочных кадров. Указанные средства извлекают кадры через заданные промежутки времени, производят масштабирование выборочных кадров в размер, пригодный для классификации, и передают указанные кадры в средства извлечения векторов признаков. Указанные средства производят вычисление вектора признаков из каждого выборочного кадра, причем вектор признаков включает семантическую информацию, пригодную для классификации изображения в кадре. Это достигают за счет использования блока расчета сверточных нейронных сетей, известных в технике благодаря своим свойствам извлечение семантически значимой информации. В блок расчета сверточных нейронных сетей подают входной кадр на первый слой свертки. Выходной сигнал с первого слоя свертки подают на первый слой голосования. Известные в технике решения заключаются в чередовании нескольких слоев свертки и голосования. По крайней мере, с одного слоя голосования выходной сигнал подают на слой финальной регрессии, на выходе которого получают вектор принадлежности кадра заранее известным классам.Means for obtaining digitized film materials read a digital film, perform the decoding operation, and transmit the sequence of frames to the means for extracting sample frames. These funds extract frames at predetermined time intervals, scale the selected frames to a size suitable for classification, and transmit these frames to means for extracting feature vectors. These tools compute a feature vector from each sample frame, the feature vector including semantic information suitable for classifying an image in a frame. This is achieved through the use of a unit for calculating convolutional neural networks known in the art due to its properties of extracting semantically significant information. In the calculation unit of convolutional neural networks, an input frame is fed to the first convolution layer. The output signal from the first convolution layer is supplied to the first voting layer. Known in the art, solutions consist in alternating several layers of convolution and voting. From at least one voting layer, the output signal is supplied to the final regression layer, at the output of which a frame belonging vector to previously known classes is obtained.

В отличие от ближайшего прототипа, вычисление вектора признака производят однократно для каждого кадра, поэтому затраты вычислительной мощности и электроэнергии на извлечение признаков и последующую классификацию минимальны. Средства извлечения векторов признаков также вычисляют вектор принадлежности кадра к заранее заданным классам и передают вектор признаков и вектор принадлежности кадра к заранее заданным классам на средства сегментации и классификации по заранее заданным классам.Unlike the closest prototype, the calculation of the feature vector is performed once for each frame, therefore, the cost of computing power and electricity for the extraction of features and subsequent classification are minimal. The means for extracting the feature vectors also calculate the vector of the frame belonging to the predetermined classes and transmit the vector of attributes and the vector of the frame belonging to the predetermined classes to the segmentation and classification means for the predetermined classes.

Далее, средства сегментации и классификации по заранее заданным классам производят сравнение векторного расстояния между векторами признаков соседних кадров, и в случае превышения порога векторного расстояния производят сегментацию последовательности кадров на отдельные сцены. В отличие от известных аналогов, используемые в данном изобретении векторы признаков содержат семантическую информацию, пригодную для классификации изображения в кадре, полученные сцены содержат семантически близкие кадры, а отдельные сцены значительно различаются по своему визуальному содержимому.Further, the means of segmentation and classification according to predetermined classes compare the vector distance between the feature vectors of neighboring frames, and if the threshold of the vector distance is exceeded, the sequence of frames is segmented into separate scenes. Unlike well-known analogues, the feature vectors used in this invention contain semantic information suitable for classifying images in a frame, the resulting scenes contain semantically close frames, and individual scenes vary significantly in their visual content.

Для кадров, составляющих одну сцену, средства сегментации и классификации по заранее заданным классам производят усреднение векторов принадлежности кадра к заранее заданным классам и передают полученный усредненный вектор принадлежности сцены заранее заданным классам и усредненный вектор признаков кадров, составляющих сцену, средствам хранения индекса. Благодаря усреднению векторов принадлежности, точность классификации сцены повышается по сравнению с достигнутым уровнем техники.For frames constituting one scene, the means of segmentation and classification according to predetermined classes averaging the vectors of the frame belonging to the predefined classes and transmitting the obtained averaged scene belonging vector to the predefined classes and the averaged vector of frame attributes constituting the scene, the index storage means. Due to the averaging of membership vectors, the accuracy of the classification of the scene is increased compared with the achieved level of technology.

В отличие от ближайшего прототипа, сегментацию фильма производят не после классификации на основе векторов принадлежности отдельных кадров заранее заданным классам, а на основе векторов признаков, т.е. классификацию производят после сегментации и на основе усреднения векторов принадлежности кадров, составляющих сцену, заранее заданным классам.Unlike the closest prototype, film segmentation is performed not after classification based on the vectors of individual frames belonging to predefined classes, but on the basis of feature vectors, i.e. classification is carried out after segmentation and based on averaging the membership vectors of the frames that make up the scene to predefined classes.

Средства хранения индекса записывают информацию о сцене, включающую поля времени начала сцены, длительности сцены, усредненного вектора признаков сцены и метки принадлежности сцены по крайней мере одному из заранее заданных классов. В отличие от ближайшего прототипа, производят сохранение усредненного вектора признаков сцены, т.к. это позволяет без дополнительных вычислительных и энергетических затрат производить информационный поиск на основе запросов по образцовому кинофрагменту или по образцовым изображениям.The index storage means records information about the scene, including the fields of the scene start time, the duration of the scene, the averaged scene feature vector, and the scene’s label of at least one of the predefined classes. In contrast to the closest prototype, the averaged vector of scene features is saved. this allows, without additional computational and energy costs, to carry out an information search based on queries on an exemplary film fragment or exemplary images.

Для осуществления информационного поиска по архиву оцифрованных киноматериалов пользователь вводит поисковый запрос в текстовой или структурированной форме с помощью средств, для организации пользовательского интерфейса информационного поиска к которым относится серверное устройство и клиентское устройство. Указанные средства передают поисковый запрос средствам для выполнения информационного поиска. Средства для выполнения информационного поиска преобразуют поисковый запрос в декларативный формат запроса к средствам хранения индекса таким образом, чтобы выполнить поиск по меткам принадлежности сцены к заранее заданным классам. Средства для выполнения информационного поиска, обращаясь к средствам хранения индекса, выполняют поиск и формируют перечень найденных кинофрагментов. Указанный перечень передают средствам для организации пользовательского интерфейса информационного поиска для представления результатов поиска пользователю. Способы быстрого выполнения информационного поиска по декларативным запросам на основе заранее известных классов известны в технике, поэтому описываемое устройство реализует поиск по текстовому или структурированному запросу крайне быстро.To carry out an information search in the archive of digitized film materials, the user enters a search query in text or structured form using the means for organizing the information search user interface, which include the server device and the client device. The indicated means transmit the search query to the means for performing the information search. Means for performing information retrieval transform the search query into a declarative query format for the index storage means in such a way as to search by marks of the scene belonging to predefined classes. Means for performing an information search, referring to the index storage means, perform a search and form a list of found movie fragments. The specified list is passed to the means for organizing the information search user interface for presenting the search results to the user. Methods for quickly performing an information search for declarative queries based on previously known classes are known in the art, therefore, the described device implements a search by text or structured query extremely quickly.

Для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе образцового кинофрагмента пользователь выбирает образец из оцифрованного киноархива с помощью средств для организации пользовательского интерфейса информационного поиска. Указанные средства передают идентификационную информацию выбранного образцового кинофрагмента средствам для выполнения информационного поиска. Средства для выполнения информационного поиска получают усредненный вектор признаков первой сцены от средств хранения индекса, используя идентификационную информацию выбранного образцового кинофрагмента. Далее, средства для выполнения информационного поиска получают от средств хранения индекса по крайней мере один усредненный вектор признаков второй сцены, сравнивают с усредненным вектором признаков первой сцены и в случае близости векторов добавляют вторую сцену в перечень найденных кинофрагментов. Указанный перечень передают средствам для организации пользовательского интерфейса информационного поиска для представления результатов поиска пользователю.To carry out an information search in the archive of digitized film materials on the basis of an exemplary film fragment, the user selects a sample from the digitized film archive using means for organizing the information search user interface. These means transmit identification information of the selected exemplary film fragment to the means for performing an information search. Means for performing an information search obtain an averaged feature vector of the first scene from the index storage means using the identification information of the selected exemplary movie fragment. Further, the means for performing an information search receive at least one averaged feature vector of the second scene from the index storage means, compare it with the averaged feature vector of the first scene, and if the vectors are close, add the second scene to the list of found movie fragments. The specified list is passed to the means for organizing the information search user interface for presenting the search results to the user.

В отличие от аналогов, для выполнения поиска семантически близких фрагментов не требуется повторное извлечение признаков, что приводит к экономии вычислительных и энергетических затрат, а также к ускорению поиска. Дополнительным преимуществом является высокая точность и чувствительность информационного поиска благодаря тому, что усредненный вектор признаков содержит семантически значимую информацию о визуальном содержимом кадра, в отличие от нынешнего уровня техники, в котором векторы признаков содержат информацию о распределении тона, яркости, направления штрихов и т.п.Unlike analogs, to perform a search for semantically close fragments, repeated retrieval of attributes is not required, which leads to savings in computational and energy costs, as well as to faster search. An additional advantage is the high accuracy and sensitivity of the information retrieval due to the fact that the averaged feature vector contains semantically significant information about the visual content of the frame, in contrast to the current level of technology, in which feature vectors contain information about the distribution of tone, brightness, direction of strokes, etc. .

Для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе образцовых неподвижных изображений пользователь вводит по крайней мере одно образцовое неподвижное изображение с помощью средств для организации пользовательского интерфейса информационного поиска. Указанные средства передают множество образцовых неподвижных изображений средствам для выполнения информационного поиска. Средства для выполнения информационного поиска вычисляют векторы признаков для каждого образцового изображения и формируют первый набор векторов признаков. Далее, средства для выполнения информационного поиска формируют второй набор векторов признаков из усредненных векторов признаков по крайней мере одной сцены, сохраненной в устройстве хранения индекса. Затем средства для выполнения информационного поиска конфигурируют временный классификатор на основе первого и второго набора векторов признаков. Далее, средства для выполнения информационного поиска получают от средств хранения индекса усредненный вектор признаков по крайней мере одной сцены и применяют к нему указанный временный классификатор. В случае позитивного отклика классификатора добавляют сцену в перечень найденных кинофрагментов. Указанный перечень передают средствам для организации пользовательского интерфейса информационного поиска для представления результатов поиска пользователю.To carry out an information search in the archive of digitized film materials on the basis of exemplary still images, the user enters at least one exemplary still image using means for organizing the information search user interface. Said means transmit a plurality of exemplary still images to means for performing information retrieval. Means for performing information retrieval compute feature vectors for each sample image and form a first set of feature vectors. Further, means for performing an information search form a second set of feature vectors from the averaged feature vectors of at least one scene stored in the index storage device. Then, the means for performing information retrieval configure a temporary classifier based on the first and second set of feature vectors. Further, the means for performing an information search obtain, from the index storage means, an averaged feature vector of at least one scene and apply the indicated temporary classifier to it. In the case of a positive response from the classifier, the scene is added to the list of found movie clips. The specified list is passed to the means for organizing the information search user interface for presenting the search results to the user.

В отличие от аналогов, использование множества эталонов неподвижных изображений и векторов признаков, включающих семантически значимую информацию, приводит к повышению точности и чувствительности информационного поиска.Unlike analogues, the use of many standards of still images and feature vectors, including semantically significant information, leads to an increase in the accuracy and sensitivity of information retrieval.

За счет того, что в описываемом устройстве для семантической классификации и поиска сквозным образом используют однократно рассчитанные векторы признаков, включающие семантически значимую информацию, устройство имеет явные преимущества в быстродействии и энергоэффективности перед достигнутым уровнем техники. Указанные векторы признаков единообразно вычисляют с помощью унифицированных средств извлечения векторов признаков. Преимущество такого подхода в том, что при необходимости увеличения размерности векторов признаков для придания им еще большей способности семантической классификации не требуется дополнительная разработка и тестирование программного обеспечения, не требуется ручная настройка параметров или исследование в области новых методов извлечения признаков. Предложенные в данном изобретении средства извлечения векторов признаков в полной мере способны использовать преимущества параллельных вычислений для повышения производительности описываемого устройства. Применение унифицированных векторов признаков позволяет в одном устройстве объединить функции поиска по текстовому запросу, по образцовому кинофрагменту и по образцам изображений, в то время, как аналоги и ближайший прототип предлагают отдельные различающиеся устройства для реализации каждого из перечисленных способов информационного поиска.Due to the fact that the described device for semantic classification and search uses end-to-end once-calculated feature vectors including semantically significant information, the device has clear advantages in speed and energy efficiency over the state of the art. These feature vectors are uniformly calculated using standardized feature vector extraction tools. The advantage of this approach is that if it is necessary to increase the dimension of feature vectors to give them even greater semantic classification ability, additional software development and testing is not required, manual parameterization or research in the field of new features extraction methods is not required. Proposed in this invention means for extracting feature vectors are fully able to take advantage of parallel computing to improve the performance of the described device. The use of unified feature vectors makes it possible to combine search functions by text query, exemplary film fragment, and sample images in one device, while analogs and the closest prototype offer separate, different devices for implementing each of the listed methods of information retrieval.

Конструктивно, средства получения оцифрованных киноматериалов включают по крайней мере процессор и устройство долговременной памяти, например жесткий диск HDD или твердотельный диск SSD, а также устройство оперативной памяти, в котором располагают программу, управляющую процессом получения оцифрованных киноматериалов. Предпочтительно, чтобы средства получения оцифрованных киноматериалов включали по крайней мере одно устройство чтения сменных носителей, например DVD или Flash-диск.Structurally, the means for producing digitized film materials include at least a processor and a long-term memory device, such as an HDD or SSD, as well as a random access memory device that contains a program that controls the process of obtaining digitized film materials. Preferably, the means for producing digitized film materials includes at least one removable media reader, such as a DVD or a Flash disk.

Средства извлечения выборочных кадров из оцифрованных киноматериалов включают по крайней мере процессор и устройство оперативной памяти, в котором располагают программу извлечения выборочных кадров, а также располагают временные буферы хранения выборочных кадров. Средства извлечения выборочных кадров связаны со средствами получения оцифрованных киноматериалов с помощью локального сетевого интерфейса, например Ethernet или с помощью шины обмены данными внутри системного блока, например PCI.Means for extracting sample frames from digitized film materials include at least a processor and a random access memory device in which the program for extracting sample frames is located, as well as temporary storage buffers for sample frames. The means of extracting sample frames are associated with the means of obtaining digitized film materials using a local network interface, such as Ethernet, or via the bus data exchanges inside the system unit, such as PCI.

Средства извлечения векторов признаков включают по крайней мере процессор и устройство оперативной памяти, в котором размещают программу управления процессом извлечения векторов признаков и временные буферы хранения выбранных кадров и векторов признаков. Предпочтительно включать в состав средств извлечения векторов признаков устройство для ускорения параллельных расчетов, например графический ускоритель CUDA, OpenCL или специализированный вычислитель на базе FPGA. Средства извлечения векторов признаков связаны со средствами извлечения выборочных кадров из оцифрованных киноматериалов с помощью локального сетевого интерфейса, например Ethernet, или с помощью шины обмены данными внутри системного блока, например PCI.The means for extracting feature vectors include at least a processor and a RAM device that houses a program for controlling the process of extracting feature vectors and temporary storage buffers for selected frames and feature vectors. It is preferable to include a device for accelerating parallel calculations, for example, a CUDA graphics accelerator, OpenCL or a specialized FPGA-based computer, as part of the extraction of feature vector vectors. The means for extracting feature vectors are associated with the means for extracting sample frames from digitized film materials using a local network interface, such as Ethernet, or using the bus to exchange data inside a system unit, such as PCI.

Средства сегментации и классификации по заранее заданным классам включают по крайней мере процессор и устройство оперативной памяти, в котором размещают программу управления процессом сегментации и классификации и буферы временного хранения векторов признаков и векторов принадлежности к заранее заданным классам. Средства сегментации и классификации связаны со средствами извлечения векторов признаков с помощью шины обмены данными внутри системного блока, например PCI.Means of segmentation and classification according to predetermined classes include at least a processor and a random access memory device, in which a program for controlling the process of segmentation and classification and buffers for temporary storage of feature vectors and vectors of belonging to predefined classes are placed. Means of segmentation and classification are associated with means for extracting feature vectors using the bus data exchanges inside the system unit, such as PCI.

Средства хранения индекса включают по крайней мере процессор и устройство долговременной памяти, например жесткий диск HDD или твердотельный диск SSD. Предпочтительно реализовать средства хранения индекса в виде кластера для распределенного хранения индекса на нескольких вычислительных узлах кластера, связанных между собой и со средствами сегментации и классификации с помощью локального сетевого интерфейса Ethernet по протоколу TCP/IP.Index storage facilities include at least a processor and a non-volatile memory device, such as an HDD or SSD. It is preferable to implement the means of storing the index in the form of a cluster for distributed storage of the index on several computing nodes of the cluster, interconnected and with the means of segmentation and classification using the local Ethernet network interface via TCP / IP.

Средства для организации пользовательского интерфейса информационного поиска включают по крайней мере одно серверное устройство и по крайней мере одно клиентское устройство. Серверное устройство связано с клиентским устройством с помощью локального сетевого интерфейса локальной сети или, предпочтительно, глобальной сети, например Интернет, по протоколу TCP/IP. Клиентское устройство включает по крайней мере устройство графического отображения, например дисплей, и устройство текстового ввода, например, клавиатуру. Серверное устройство работает под управлением программного обеспечения, предпочтительно реализующего функции сервера HTTP и формирования форм представления информации для пользователей в формате HTML. Предпочтительно, чтобы клиентское устройство работало под управлением программы Интернет браузер, например FireFox, реализующего стандарт отображения страниц в формате HTML.Means for organizing the information search user interface include at least one server device and at least one client device. The server device is connected to the client device using a local area network interface of a local area network or, preferably, a wide area network, such as the Internet, via TCP / IP. The client device includes at least a graphical display device, such as a display, and a text input device, such as a keyboard. The server device is running software that preferably implements the functions of an HTTP server and generating forms for presenting information to users in HTML format. It is preferable that the client device is running an Internet browser program, such as FireFox, which implements the standard HTML page display.

Средства для выполнения информационного поиска включают по крайней мере процессор, работающий под управлением программного обеспечения. Предпочтительный вариант средств для выполнения информационного поиска включает по крайней мере одно серверное устройство, связанное со средствами хранения индекса и средствами для организации пользовательского интерфейса информационного поиска с помощью локального сетевого интерфейса, например Ethernet.Tools for performing information retrieval include at least a processor running software. A preferred embodiment of the information search means includes at least one server device associated with index storage means and means for organizing the information search user interface using a local network interface, for example Ethernet.

Далее решение поясняется ссылками на фигуры, на которых изображено следующее.Next, the solution is illustrated by reference to the figures, which depict the following.

Фигура 1 - предпочтительный вариант осуществления устройства для семантической классификации и поиска в архивах оцифрованных киноматериалов.Figure 1 is a preferred embodiment of a device for semantic classification and search in archives of digitized film materials.

Фигура 2 - алгоритм работы средства сегментации и классификации.Figure 2 - the algorithm of the means of segmentation and classification.

Фигура 3 - алгоритм работы средства поиска в режиме поиска по образцовому видеофрагменту.Figure 3 - the algorithm of the search tool in the search mode for an exemplary video fragment.

Предпочтительный вариант осуществления устройства для семантической классификации и поиска в архивах оцифрованных киноматериалов (фиг. 1) включает средства получения оцифрованных киноматериалов 1, устройство чтения сменных носителей 2, средства извлечения выборочных кадров из оцифрованных киноматериалов 3, средства извлечения векторов признаков 4, устройство графического параллельного ускорителя 5, средства сегментации и классификации по заранее заданным классам 6, интерфейс локальной сети 7, средства хранения индекса 8, средства для выполнения информационного поиска 9, серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска, клиентское устройство 11 средства для организации пользовательского интерфейса информационного поиска. Серверное устройство 10 связано с клиентским устройством 11 с помощью глобальной сети Интернет 12.A preferred embodiment of a device for semantic classification and searching in archives of digitized film materials (Fig. 1) includes means for obtaining digitized film materials 1, a reader for removable media 2, means for extracting sample frames from digitized film materials 3, means for extracting feature vectors 4, a graphic parallel accelerator device 5, means of segmentation and classification according to predetermined classes 6, interface of the local network 7, means of storage of index 8, means for complements information retrieval 9, the server device 10 means for the organization of the user interface of information retrieval, the client device 11 is a means for the organization of the user interface of information retrieval. The server device 10 is connected to the client device 11 using the global Internet 12.

При работе устройства в режиме семантической классификации носитель с записью оцифрованного фильма помещают в устройство для чтения сменных носителей 2. Например, носителем может служить DVD-диск, а устройство 2 может представлять собой DVD-дисковод. По команде оператора средства получения оцифрованных киноматериалов 1 выполняют чтение оцифрованного фильма, раскодирование (в случае записи оцифрованного фильма с компрессией) и преобразование в последовательность кадров. В описываемом варианте осуществления настоящего изобретения, средства получения оцифрованных киноматериалов 1 работают под управлением программного обеспечения на основе известной специалистам библиотеки OpenCV, обеспечивающей раскодирование большого количества форматов кодирования и компрессии оцифрованных фильмов.When the device is in semantic classification mode, the medium with the recording of the digitized film is placed in a device for reading removable media 2. For example, the medium can be a DVD-ROM, and the device 2 can be a DVD-ROM drive. At the operator’s command, the means of obtaining digitized film materials 1 perform reading of the digitized film, decoding (in the case of recording a digitized film with compression), and conversion to a sequence of frames. In the described embodiment of the present invention, the means for producing digitized film materials 1 are running software based on the OpenCV library known to those skilled in the art, which decodes a large number of encoding and compression formats for digitized films.

Раскодированные кадры поступают в средства извлечения выборочных кадров 3, также реализованные в виде настраиваемого многофункционального средства под управлением программного обеспечения на основе библиотеки OpenCV. В описываемом варианте осуществления средства извлечения выборочных кадров 3 производят выборку кадров с интервалом около 320 мс, масштабирование без сохранения пропорций в размер 256×256 пикселей и преобразование в цветовое пространство BRG (синий - красный - зеленый).Decoded frames enter the means of extracting selective frames 3, also implemented as a custom multifunctional tool running software based on the OpenCV library. In the described embodiment, the means for extracting sample frames 3 selects frames with an interval of about 320 ms, scaling without preserving proportions of 256 × 256 pixels, and converting them to the BRG color space (blue - red - green).

Выборочные кадры поступают в средства извлечения векторов признаков 4, реализованные в виде настраиваемого многофункционального средства под управлением программного обеспечения на основе библиотек Caffe или Torch или аналогичных библиотек для реализации вычислений в области сверточных нейронных сетей, известных специалистам или разработанных самостоятельно. В описываемом варианте осуществления, средства извлечения векторов признаков 4 включают устройство графического параллельного ускорителя 5, реализованное по технологии CUDA, с количеством процессорных ядер около 1000, объемом глобальной памяти около 4Гб, рабочей частотой около 1,18 ГГц. Благодаря применению ускорителя 5, производительность средств извлечения векторов признаков 4 составляет не менее 25 выборочных кадров в секунду при размере кадра 256×256 пикселей. Вариант осуществления изобретения без применения ускорителя 5, обеспечивает производительность средств извлечения векторов признаков 4 составляет не более 1 выборочного кадра в секунду при размере кадра 256×256 пикселей.Selected frames enter the means of extracting feature vectors 4, implemented as a custom multifunctional tool running software based on Caffe or Torch libraries or similar libraries for implementing computations in the field of convolutional neural networks known to experts or developed independently. In the described embodiment, the means for extracting feature vectors 4 include a graphic parallel accelerator device 5 implemented using CUDA technology, with a number of processor cores of about 1000, a global memory capacity of about 4 GB, an operating frequency of about 1.18 GHz. Due to the use of accelerator 5, the performance of the means for extracting feature vectors 4 is at least 25 sample frames per second with a frame size of 256 × 256 pixels. An embodiment of the invention without the use of an accelerator 5 provides the performance of the means for extracting feature vectors 4 of not more than 1 sample frame per second with a frame size of 256 × 256 pixels.

В описываемом варианте осуществления средства извлечения векторов признаков 4 производят вычисление функции сверточной нейронной сети над входными данными, представляющими собой представление выборочного кадра в виде трех матриц. В каждую из матриц записывают значение уровня компонента синего, красного и зеленого цвета соответствующего пикселя кадра.In the described embodiment, the means of extracting the feature vectors 4 calculate the function of the convolutional neural network over the input data, which is a representation of a sample frame in the form of three matrices. In each of the matrices, the component value of the blue, red, and green color of the corresponding pixel in the frame is recorded.

Функция сверточной нейронной сети представляет собой комбинацию по крайней мере трех типов вычислений, называемых слоями:The convolutional neural network function is a combination of at least three types of computations called layers:

- свертка- convolution

- голосование- vote

- слой финальной классификации.- layer of the final classification.

Слой свертки характеризуется размером входного изображения W, размером окна Р, числом каналов K, числом фильтров F и шагом S.The convolution layer is characterized by the size of the input image W, the window size P, the number of channels K, the number of filters F, and step S.

Производят вычисление первого математического выражения:The first mathematical expression is calculated:

Figure 00000001
Figure 00000001

гдеWhere

i', j' - координаты выходных значений в диапазоне [1, (W-P)/S+1]i ', j' - coordinates of the output values in the range [1, (W-P) / S + 1]

i, j - координаты входных значений в диапазоне [1, W] с шагом Si, j - coordinates of input values in the range [1, W] with step S

k' - номер выходного фильтр-банкаk '- output filter bank number

k - номер входного каналаk - input channel number

wijk - весовой коэффициентw ijk - weight coefficient

xijk - входное значение с координатами (i, j) и номером канала kx ijk - input value with coordinates (i, j) and channel number k

Figure 00000002
- выходное значение с координатами (i, j) и номером фильтр-банка k.
Figure 00000002
- output value with coordinates (i, j) and filter bank number k.

Затем выполняют второе вычисление:Then perform the second calculation:

Figure 00000003
;
Figure 00000003
;

В слое голосования производят вычисление математического выражения:In the voting layer, the mathematical expression is calculated:

Figure 00000004
,
Figure 00000004
,

где p - размер окна слоя голосования.where p is the size of the window of the voting layer.

В слое финальной классификации выполняют первое вычисление:In the final classification layer, the first calculation is performed:

Figure 00000005
,
Figure 00000005
,

где X - вектор входных значений; Z - вектор выходных значений; W - матрица весов; B - вектор коэффициентов смещения.where X is the vector of input values; Z is the vector of output values; W is the matrix of weights; B is the vector of bias coefficients.

Затем выполняют второе вычисление:Then perform the second calculation:

Figure 00000006
Figure 00000006

где zi - i-й компонент вектора Z, полученного в первом вычислении.where z i is the ith component of the vector Z obtained in the first calculation.

Конкретную комбинацию слоев и значения весовых коэффициентов, коэффициентов смещения, размерности окна, количества фильтров, величины шага получают методом машинного обучения, известным специалистам в данной области техники. Количество слоев свертки выбирают не менее 3, количество слоев голосования не менее 3, количество слоев финальной классификации выбирают в диапазоне [1, 2], размерности окна выбирают в диапазоне [3, 7], величину шага выбирают в диапазоне [1, 3], количество фильтров в каждом слое свертки выбирают в диапазоне [32, 4096].A specific combination of layers and values of weight coefficients, displacement coefficients, window dimension, number of filters, step size are obtained by machine learning, known to specialists in this field of technology. The number of convolution layers is selected at least 3, the number of voting layers is at least 3, the number of layers of the final classification is selected in the range [1, 2], window dimensions are selected in the range [3, 7], the step size is selected in the range [1, 3], the number of filters in each convolution layer is selected in the range [32, 4096].

В описываемом варианте осуществления данного изобретения применили количество слоев свертки 11, количество слоев голосования 5, количество слоев финальной классификации 1. В качестве вектора признаков использовали выходное значение последнего слоя голосования размерностью 1024. В качестве вектора принадлежности к заранее заданным классам использовали выходное значение последнего слоя финальной классификации размерностью 1000, т.е. номенклатура заранее известных классов составила 1000 классов. Размерность входной матрицы 224×224 при количестве каналов 3 (синий, зеленый, красный). Во входную матрицу записывают изображение центральной части выборочных кадров размером 256×256.In the described embodiment of the present invention, the number of convolution layers 11, the number of voting layers 5, and the number of layers of the final classification were applied 1. The output value of the last voting layer of dimension 1024 was used as a feature vector. The output value of the last final layer was used as a vector of membership in predefined classes. classifications of dimension 1000, i.e. the nomenclature of previously known classes amounted to 1000 classes. The dimension of the input matrix is 224 × 224 with the number of channels 3 (blue, green, red). An image of the central part of the sample frames of size 256 × 256 is recorded in the input matrix.

Специалистам в данной области техники понятно, что приведенные выше конкретные параметры осуществления средства извлечения векторов признаков 4, такие как размерность входной матрицы, количество и состав слоев сверточной нейронной сети, размерность выходного вектора не ограничивают применимость настоящего изобретения и служат для экспериментально подтверждения промышленной применимости.Those skilled in the art will understand that the above specific parameters for implementing the feature vector extractor 4, such as the dimension of the input matrix, the number and composition of layers of the convolutional neural network, the dimension of the output vector do not limit the applicability of the present invention and serve to experimentally confirm industrial applicability.

Как показано в работе [2], функция сверточной нейронной сети является одной из наиболее эффективных на современном уровне техники для извлечения семантических признаков и выполнения семантической классификации изображений. Из приведенных выше математических выражений очевидно, что все вычисления производят в матричной форме и, следовательно, указанные вычисления легко поддаются параллельной реализации в устройстве графического параллельного ускорителя 5. При отсутствии устройства графического параллельного ускорителя 5 все вычисления выполняются процессорным устройством, входящим в состав средств извлечения векторов признаков 4. Независимо от способа реализации функция сверточной нейронной сети является унифицированной и заменяет собой разнородные функции извлечения признаков, предложенные в аналогах и ближайшем прототипе. Поэтому в настоящем изобретении вектор признаков, вычисляемый с помощью функции сверточной нейронной сети используют сквозным образом как для сегментации фильмов на сцены, так и для семантической классификации и для выполнения информационного поиска по образцу кинофрагмента и по образцу эталонных изображений.As shown in [2], the function of a convolutional neural network is one of the most effective at the current level of technology for extracting semantic features and performing semantic classification of images. From the above mathematical expressions, it is obvious that all calculations are performed in matrix form and, therefore, these calculations are easily amenable to parallel implementation in the graphic parallel accelerator device 5. In the absence of the graphic parallel accelerator device 5, all calculations are performed by the processor device included in the vector extraction means signs 4. Regardless of the method of implementation, the function of the convolutional neural network is unified and replaces heterogeneous feature extraction features proposed in the analogues and the closest prototype. Therefore, in the present invention, the feature vector computed using the convolutional neural network function is used end-to-end both for segmenting films into scenes and for semantic classification and for performing information retrieval based on a sample of a film fragment and a sample of reference images.

Вычисленные средствами извлечения векторов признаков 4 векторы признаков и векторы принадлежности к заранее заданным классам для каждого выборочного кадра передают в средства сегментации и классификации 6.The vectors of attributes and vectors of belonging to predefined classes for each sample frame, calculated by means of extracting the feature vectors 4, are transferred to the segmentation and classification means 6.

Средства сегментации и классификации 6, реализованные в виде настраиваемого многофункционального средства, выполняют первый алгоритм, изображенный на фиг. 2.The segmentation and classification means 6, implemented as a custom multifunctional means, perform the first algorithm depicted in FIG. 2.

В блоке 13 первого алгоритма производят инициализацию цикла по всем выборочным кадрам.In block 13 of the first algorithm, the loop is initialized for all sample frames.

В блоке 14 вычисляют расстояние между векторами признаков текущего выборочного кадра и предыдущего выборочного кадра. Расстояния между векторами признаков вычисляют любым способом, известным в технике, например, евклидово расстояние или косинусное расстояние. В описываемом варианте осуществления вычисляют евклидово расстояние d между векторами x, y:In block 14, the distance between the feature vectors of the current sample frame and the previous sample frame is calculated. The distances between feature vectors are calculated by any method known in the art, for example, Euclidean distance or cosine distance. In the described embodiment, the Euclidean distance d between the vectors x, y is calculated:

Figure 00000007
Figure 00000007

где e=x-y (вектор-строка), ет - транспонированный вектор e.where e = xy (row vector), e t is the transposed vector e.

В блоке 15 сравнивают полученное пороговое значение Т, с расстоянием между векторами признаков текущего выборочного кадра и предыдущего выборочного кадра. Для векторов признаков размерности около 1000 выбирают пороговое значение Т около 85.In block 15, the obtained threshold value T is compared with the distance between the feature vectors of the current sample frame and the previous sample frame. For feature vectors of dimension about 1000, a threshold value of T of about 85 is chosen.

В блоке 16 записывают номер или временной код текущего выборочного кадра в списке границ сцен фильма.In block 16, the number or time code of the current sample frame is recorded in the list of movie scene boundaries.

В блоке 17 проверяют условие выхода из цикла. В случае завершения цикла формируют в оперативной памяти средств сегментации и классификации 6 структуру списка границ сцен фильма.In block 17, the condition for exiting the loop is checked. In the case of the completion of the cycle, the structure of the list of the boundaries of the scenes of the film is formed in the RAM of the means of segmentation and classification 6.

Далее средства сегментации и классификации 6, используя структуру списка границ сцен фильма, выполняют классификацию сцен фильма. При этом, для каждого элемента списка границ сцен фильма получают не более N векторов принадлежности к заранее заданным классам для выборочных кадров, входящих в соответствующую сцену фильма. Значение N выбирают около 10. Полученные векторы принадлежности к заранее заданным классам усредняют и выбирают М максимальных компонент усредненного вектора. Значение М выбирают около 5. Номера выбранных максимальных компонент записывают в структуру оперативной памяти средства сегментации и классификации 6 в список заранее заданных классов, которым соответствует текущая сцена. В результате обработки всех сцен фильма в оперативной памяти средства сегментации и классификации 6 формируют структуру, включающую метки начала и длительности сцены и метки принадлежности к заранее заданными классам.Next, the means of segmentation and classification 6, using the structure of the list of boundaries of the movie scenes, perform the classification of movie scenes. At the same time, for each element of the list of boundaries of the movie scenes, receive no more than N vectors of belonging to predefined classes for sample frames included in the corresponding movie scene. The value of N is chosen around 10. The obtained vectors of belonging to predefined classes are averaged and M maximum components of the averaged vector are selected. The value of M is chosen around 5. The numbers of the selected maximum components are recorded in the structure of the RAM memory of the segmentation and classification means 6 in the list of predefined classes to which the current scene corresponds. As a result of processing all the movie scenes in the RAM, the segmentation and classification means 6 form a structure including the beginning and duration marks of the scene and the marks of belonging to predefined classes.

Экспериментальные исследования описываемого варианта осуществления данного изобретения продемонстрировали среднее значение показателя точности F1=0,8497 (средней гармонической меры точности и чувствительности) по отношению к разбиению фильмов на сцены кодеком MPEG-4. Средняя точность классификации по пяти наиболее вероятным классам составила 0,516.Experimental studies of the described embodiment of the present invention demonstrated the average value of the accuracy index F1 = 0.8497 (average harmonic measure of accuracy and sensitivity) with respect to the partitioning of films into scenes by the MPEG-4 codec. The average classification accuracy for the five most probable classes was 0.516.

Далее в описываемом варианте осуществления метки начала, и длительности сцены и метки принадлежности к заранее заданным классам из оперативной памяти средств сегментации и классификации 6 передают через интерфейс локальной сети 7 в средства хранения индекса 8. Средства хранения индекса 8 записывают информацию о сцене, включающую поля времени начала сцены, длительности сцены, усредненного вектора признаков сцены и метки принадлежности сцены по крайней мере одному из заранее заданных классов.Further, in the described embodiment, the marks of the beginning, and the duration of the scene and marks of belonging to predefined classes from the RAM of the segmentation and classification tools 6 are transmitted via the local area network interface 7 to the index storage means 8. The index storage means 8 record scene information including time fields the beginning of the scene, the duration of the scene, the averaged vector of scene attributes, and the label of the scene to at least one of the predefined classes.

Средства хранения индекса 8 могут быть реализованы в виде кластерных средств хранения баз данных или в виде встроенных средств хранения баз данных. В описываемом варианте осуществления использован кластер из трех серверных устройств, работающих под управлением программного обеспечения для распределенной базы данных Apache Cassandra.Index 8 storage facilities can be implemented as cluster database storage facilities or as built-in database storage facilities. In the described embodiment, a cluster of three server devices running software for a distributed Apache Cassandra database is used.

На этом работа предложенного в данном изобретении устройства в режиме семантической классификации завершается.This completes the work of the device proposed in this invention in the semantic classification mode.

При работе устройства в режиме поиска по текстовому запросу пользователь вводит по крайней мере одно ключевое слово с помощью клиентского устройства 11 средства для организации пользовательского интерфейса информационного поиска. В описываемом варианте осуществления клиентское устройство может представлять собой настольный или портативный компьютер, оснащенный программным обеспечением типа Интернет-браузер. Клиентское устройство 11 через глобальную сеть Интернет 12 передает множество ключевых слов в серверное устройство 10 с использованием протокола передачи данных HTTP или HTTPS. В другом варианте осуществления глобальную сеть Интернет 12 не используют, и передают множество ключевых слов от клиентского устройства 11 в серверное устройство 10 с помощью интерфейса локальной сети. В еще одном варианте осуществления клиентское устройство 11 и серверное устройство 10 конструктивно объединены в единые многофункциональные средства для организации пользовательского интерфейса информационного поиска, и передачу множества ключевых слов производят по внутренней шине передачи данных.When the device is in search mode by text query, the user enters at least one keyword using the client device 11 means for organizing the information search user interface. In the described embodiment, the client device may be a desktop or laptop computer equipped with software such as an Internet browser. The client device 11 via the global Internet 12 transmits many keywords to the server device 10 using the HTTP or HTTPS data transfer protocol. In another embodiment, the global Internet 12 is not used, and a plurality of keywords are transmitted from the client device 11 to the server device 10 using a local area network interface. In yet another embodiment, the client device 11 and the server device 10 are structurally combined into a single multifunctional means for organizing the information search user interface, and the transmission of multiple keywords is performed via the internal data bus.

Серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска передает множество из по крайней мере одного ключевого слова в средства для выполнения информационного поиска 9. Средства для выполнения информационного поиска 9 под управлением программного обеспечения, формируют декларативный запрос к средствам хранения индекса 8, используя по крайней мере одно ключевое слово. Декларативный запрос могут формировать на языке запросов SQL или других известных в технике языках декларативных запросов к системам управления базами данных. Указанный декларативный запрос передают в средства хранения индекса 8. В описываемом варианте осуществления для передачи запроса используют локальный сетевой интерфейс 7 и, предпочтительно, протокол передачи данных HTTPS.The server device 10 of the means for organizing the user interface of the information retrieval transmits a plurality of at least one keyword to the means for performing the information retrieval 9. The means for performing the information retrieval 9 under the control of the software form a declarative request for the means of storing the index 8 using at least at least one keyword. A declarative query can be formed in the language of SQL queries or other well-known technical languages of declarative queries to database management systems. The specified declarative request is transmitted to the storage means of index 8. In the described embodiment, the local network interface 7 and, preferably, the HTTPS data transfer protocol are used to transmit the request.

Средства хранения индекса 8 сконфигурированы таким образом, чтобы при поступлении декларативного запроса, включающего по крайней мере одно ключевое слово, осуществить поиск в базе данных по меткам принадлежности сцен оцифрованных киноматериалов заранее заданным классам, семантически совпадающим с указанным ключевым словом. Специалистам в данной области техники понятно, что в поиск по комбинации ключевых слов, включая логическую комбинацию с использованием булевых операторов, например "И", "ИЛИ", "НЕ", "ИСКЛЮЧАЮЩЕЕ ИЛИ" не является существенным расширением и не нарушает область действия данного изобретения. В результате средства хранения индекса 8 формируют список из сцен, имеющих метки принадлежности заранее заданным классам, семантически совпадающим с указанным ключевым словом, причем указанный список включает по крайней мере идентификатор сцены, время начала сцены и длительность сцены. Специалистам в технике понятно, что в указанный список помещают не более К сцен, по причине ограниченности оперативной памяти и пропускной способности каналов связи. Значение К выбирают в диапазоне от 10 до 50.Index 8 storage facilities are configured in such a way that upon receipt of a declarative request that includes at least one keyword, search the database for the labels of scenes of digitized cinema materials with predefined classes that semantically coincide with the specified keyword. Those skilled in the art will appreciate that a search by a combination of keywords, including a logical combination using Boolean operators, such as AND, OR, NOT, EXCLUSIVE OR, is not a significant extension and does not violate the scope of this inventions. As a result, the index storage means 8 form a list of scenes having labels of belonging to predetermined classes that semantically coincide with the specified keyword, the list including at least the scene identifier, the start time of the scene, and the duration of the scene. It will be understood by those skilled in the art that no more than K scenes are placed on this list, due to the limited RAM and bandwidth of the communication channels. The value of K is selected in the range from 10 to 50.

Экспериментальные испытания описываемого варианта осуществления данного изобретения показали среднее время формирования списка из 10 сцен 0.46 секунд при общем объеме базы данных в средствах хранения индекса 8 равном от 90 до 110 Гбайт.Experimental tests of the described embodiment of the present invention showed an average time of formation of a list of 10 scenes of 0.46 seconds with a total database size of 8 in the storage facilities of the index equal to 90 to 110 GB.

Средства хранения индекса 8 передают указанный список сцен серверному устройству 10 средства для организации пользовательского интерфейса информационного поиска, которое, в свою очередь, формирует на основе этого списка форму представление результатов информационного поиска для пользователя. В описываемом варианте осуществления форма представления реализована в виде HTML-страницы. В других вариантах осуществления в качестве формы представления могут использовать файлы XML, JSON, YAML или программируемые средства организации пользовательского интерфейса, например WinAPI, Qt, Java или другие известные в технике средства.The index 8 storage means transmit the indicated list of scenes to the server device 10 of the means for organizing the information search user interface, which, in turn, forms a representation of the information search results for the user on the basis of this list. In the described embodiment, the presentation form is implemented as an HTML page. In other embodiments, XML, JSON, YAML files, or programmable user interface tools, such as WinAPI, Qt, Java, or other means known in the art, may be used as the presentation form.

Форму представления результатов информационного поиска передают в клиентское устройство 11 средства для организации пользовательского интерфейса информационного поиска, которое отображает указанную форму на входящих в его состав средствах отображения, например цветном графическом мониторе.The form for presenting the results of the information search is transmitted to the client device 11 means for organizing the user interface of the information search, which displays the specified form on the display means, for example, a color graphic monitor.

При работе устройства в режиме поиска по образцовому кинофрагменту пользователь выбирает образцовый кинофрагмент с помощью клиентского устройства 11 средства для организации пользовательского интерфейса информационного поиска. В описываемом варианте осуществления клиентское устройство может представлять собой настольный или портативный компьютер, оснащенный программным обеспечением типа Интернет-браузер. Клиентское устройство 11 через глобальную сеть Интернет 12 передает идентификационные данные выбранного образцового кинофрагмента в серверное устройство 10 с использованием протокола передачи данных HTTP или HTTPS. В другом варианте осуществления глобальную сеть Интернет 12 не используют, и передают идентификационные данные выбранного образцового кинофрагмента от клиентского устройства 11 в серверное устройство 10 с помощью интерфейса локальной сети. В еще одном варианте осуществления клиентское устройство 11 и серверное устройство 10 конструктивно объединены в единые многофункциональные средства для организации пользовательского интерфейса информационного поиска, и передачу идентификационных данных выбранного образцового кинофрагмента производят по внутренней шине передачи данных.When the device is operating in the search mode by an exemplary movie fragment, the user selects an exemplary movie fragment using the client device 11 means for organizing the user interface of information retrieval. In the described embodiment, the client device may be a desktop or laptop computer equipped with software such as an Internet browser. The client device 11 via the global Internet 12 transmits the identification data of the selected exemplary movie to the server device 10 using the HTTP or HTTPS data transfer protocol. In another embodiment, the global Internet 12 is not used, and the identity of the selected exemplary motion picture is transmitted from the client device 11 to the server device 10 using the local area network interface. In yet another embodiment, the client device 11 and the server device 10 are structurally combined into a single multifunctional means for organizing the information search user interface, and the identification data of the selected exemplary movie fragment is transmitted via the internal data bus.

Серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска передает идентификационные данные выбранного образцового кинофрагмента в средства для выполнения информационного поиска 9.The server device 10 of the means for organizing the user interface of the information retrieval transmits the identification data of the selected exemplary film fragment to the means for performing the information retrieval 9.

Средства для выполнения информационного поиска 9 выполняют алгоритм, изображенный на фиг. 3.Means for performing information retrieval 9 perform the algorithm depicted in FIG. 3.

В блоке 31 средства для выполнения информационного поиска 9 передают запрос с указанием по крайней мере идентификационных данных выбранного образцового кинофрагмента средствам хранения индекса 8, и получают сохраненный в средствах хранения индекса 8 вектор признаков образцового кинофрагмента.In block 31, the means for performing information retrieval 9 transmit a request indicating at least the identification data of the selected exemplary movie fragment to the index 8 storage means, and obtain a feature vector stored in the index storage medium 8 of the model movie fragment.

В блоке 32 инициализируют цикл по всем сценам, сохраненным в средствах хранения индекса 8, удовлетворяющим критериям первичного отбора. Критерии первичного отбора могут применять для сокращения объема просматриваемых сцен при информационном поиске по образцовому кинофрагменту. Специалистам в данной области техники известны различные способы первичного отбора, например метод случайных проекций вектора признаков или метод цветового дескриптора сцены. В описываемом варианте осуществления применили критерий допустимого диапазона длительности сцены, при котором в описываемом цикле просматривают все сцены, длительность которых находится в заранее заданном диапазоне, например от 5 до 20 секунд. Таким образом, цикл инициализируют методом передачи декларативного запроса средствам хранения индекса 8 на получение сцен, длительность которых находится в заранее заданном диапазоне. Специалистам в данной области понятно, что в результате такого запроса современные системы управления базами данных могут возвращать итераторы для организации цикла по записям, удовлетворяющим заданным условиям.In block 32, a cycle is initialized for all the scenes stored in the index 8 storage facilities that satisfy the criteria for initial selection. Primary selection criteria can be used to reduce the volume of viewed scenes during information retrieval by an exemplary film fragment. Various methods of primary selection are known to those skilled in the art, for example, the method of random projections of a feature vector or the color descriptor method of a scene. In the described embodiment, the criterion of the acceptable range of the duration of the scene was applied, in which in the described cycle all scenes are viewed, the duration of which is in a predetermined range, for example from 5 to 20 seconds. Thus, the cycle is initialized by transmitting a declarative request to the index 8 storage means for receiving scenes whose duration is in a predetermined range. It will be understood by those skilled in the art that as a result of such a request, modern database management systems can return iterators to organize a loop over records that satisfy specified conditions.

В блоке 33 вычисляют расстояние d между вектором признаков образцового кинофрагмента и вектором признаков текущего кинофрагмента, полученном в цикле из средств хранения индекса 8. Расстояние между векторами могут вычислять различными способами, известными в технике, например евклидово расстояние. В описываемом варианта осуществления вычисляют косинусное расстояние между векторами x, y по формулеIn block 33, the distance d between the feature vector of the exemplary movie fragment and the feature vector of the current movie fragment obtained in the loop from the index 8 storage means is calculated. The distance between the vectors can be calculated in various ways known in the art, for example, Euclidean distance. In the described embodiment, the cosine distance between the vectors x, y is calculated by the formula

Figure 00000008
Figure 00000008

где dot - символ скалярного произведения векторов.where dot is the symbol of the scalar product of vectors.

В блоке 34 сравнивают значение d с заранее заданным пороговым значением Т, которое выбирают в диапазоне от 0 до 1, предпочтительно от 0,2 до 0,4. Если расстояние d меньше порогового значения Т, то в блоке 35 добавляют текущую сцену к списку результатов информационного поиска в оперативной памяти средств для выполнения информационного поиска 9. Указанный список включает, по крайней мере, идентификационные данные текущей сцены, время начала сцены, длительность сцены.In block 34, the value of d is compared with a predetermined threshold value T, which is selected in the range from 0 to 1, preferably from 0.2 to 0.4. If the distance d is less than the threshold value T, then in block 35 add the current scene to the list of information retrieval results in the operative memory of the means for performing the information retrieval 9. This list includes at least the identification data of the current scene, the start time of the scene, the duration of the scene.

В блоке 36 выполняют проверку условий окончания цикла, инициированного в блоке 32. Такими условиями могут являться достижение заранее заданного количества результатов поиска (например 10) или, предпочтительно, превышение заранее заданной длительности работы цикла, инициированного в блоке 32. Если условия окончания цикла выполнены, средства для выполнения информационного поиска 9 передают сформированный список результатов информационного поиска в серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска, используя интерфейсы и протоколы передачи данных, описанные выше.In block 36, the conditions for ending the cycle initiated in block 32 are checked. Such conditions may be the achievement of a predetermined number of search results (for example 10) or, preferably, exceeding the predetermined duration of the cycle initiated in block 32. If the conditions for ending the cycle are fulfilled, means for performing an information search 9 transmit the generated list of information search results to the server device 10 means for organizing a user interface information search using the interfaces and data transfer protocols described above.

Серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска формирует на основе этого списка форму представление результатов информационного поиска для пользователя. В описываемом варианте осуществления форма представления реализована в виде HTML-страницы. В других вариантах осуществления в качестве формы представления могут использовать файлы XML, JSON, YAML или программируемые средства организации пользовательского интерфейса, например WinAPI, Qt, Java или другие известные в технике средства.The server device 10 of the means for organizing the user interface of the information retrieval forms on the basis of this list a form representing the results of the information retrieval for the user. In the described embodiment, the presentation form is implemented as an HTML page. In other embodiments, XML, JSON, YAML files, or programmable user interface tools, such as WinAPI, Qt, Java, or other means known in the art, may be used as the presentation form.

Форму представления результатов информационного поиска передают в клиентское устройство 11 средства для организации пользовательского интерфейса информационного поиска, которое отображает указанную форму на входящих в его состав средствах отображения, например цветном графическом мониторе.The form for presenting the results of the information search is transmitted to the client device 11 means for organizing the user interface of the information search, which displays the specified form on the display means, for example, a color graphic monitor.

Экспериментальные исследования описываемого варианта осуществления данного изобретения продемонстрировали среднее значение показателя точности поиска на основе образца кинофрагмента 0.855, при этом точность оценивали как отношение числа субъективно корректных результатов поиска к общему количеству результатов поиска при выполнении информационного поиска по 42 образцовым кинофрагментам.Experimental studies of the described embodiment of the present invention demonstrated the average value of the search accuracy index based on a sample of a movie fragment 0.855, while the accuracy was estimated as the ratio of the number of subjectively correct search results to the total number of search results when performing an information search on 42 model movies.

При работе устройства в режиме информационного поиска по архиву оцифрованных киноматериалов на основе образцовых неподвижных изображений пользователь вводит по крайней мере одно образцовое неподвижное изображение с помощью клиентского устройства 11 средства для организации пользовательского интерфейса информационного поиска. Предпочтительно, чтобы пользователь вводил от 50 до 200 образцовых изображений, включающих искомый образец для поиска, снятый с разных ракурсов, на различном фоне и т.п. В описываемом варианте осуществления клиентское устройство может представлять собой настольный или портативный компьютер, оснащенный программным обеспечением типа Интернет-браузер. Клиентское устройство 11 через глобальную сеть Интернет 12 передает множество образцовых неподвижных изображений в серверное устройство 10 с использованием протокола передачи данных HTTP или HTTPS. В другом варианте осуществления глобальную сеть Интернет 12 не используют, и передают множество образцовых неподвижных изображений от клиентского устройства 11 в серверное устройство 10 с помощью интерфейса локальной сети. В еще одном варианте осуществления клиентское устройство 11 и серверное устройство 10 конструктивно объединены в единые многофункциональные средства для организации пользовательского интерфейса информационного поиска, и передачу множества образцовых неподвижных изображений производят по внутренней шине передачи данных.When the device is operating in the information search mode in the archive of digitized film materials based on exemplary still images, the user enters at least one exemplary still image using the client device 11 means for organizing the information search user interface. Preferably, the user enters from 50 to 200 exemplary images, including the desired search pattern, taken from different angles, on a different background, and the like. In the described embodiment, the client device may be a desktop or laptop computer equipped with software such as an Internet browser. The client device 11 via the global Internet 12 transmits many exemplary still images to the server device 10 using the HTTP or HTTPS data transfer protocol. In another embodiment, the global Internet 12 is not used, and a plurality of exemplary still images are transmitted from the client device 11 to the server device 10 using a local area network interface. In yet another embodiment, the client device 11 and the server device 10 are structurally combined into a single multifunctional means for organizing the user interface of the information retrieval, and the transmission of many exemplary still images is performed via the internal data bus.

Серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска передает множество образцовых неподвижных изображений в средства для выполнения информационного поиска 9.The server device 10 of the means for organizing the user interface of the information retrieval transmits a plurality of exemplary still images to the means for performing the information retrieval 9.

Средства для выполнения информационного поиска 9 вычисляют векторы признаков для каждого образцового изображения и формируют первый набор векторов признаков. В описываемом варианте осуществления для вычисления вектора признаков каждого образцового изображения средства для выполнения информационного поиска 9 производят преобразование масштаба образцового изображения без сохранения пропорций в размер 256×256, преобразование цветового пространства в формат BGR, и производят вычисление функции сверточной нейронной сети над входными данными, представляющими собой представление образцового изображения в виде трех матриц в оперативной памяти средств для выполнения информационного поиска 9. В каждую из матриц записывают значение уровня компонента синего, красного и зеленого цвета соответствующего пикселя образцового изображения. Функция сверточной нейронной сети идентична описанной выше функции, которую применяют в средствах для извлечения векторов признаков 4. Полученные в результате применения функции сверточной сети векторы признаков помечают меткой позитивного обучающего примера, например "+1" и записывают в структуру в оперативной памяти или устройстве долговременного хранения средств для выполнения информационного поиска 9.Means for performing information retrieval 9 compute feature vectors for each sample image and form a first set of feature vectors. In the described embodiment, to calculate the feature vector of each model image, the means for performing information retrieval 9 transform the scale of the model image without preserving the proportions to a size of 256 × 256, convert the color space to BGR format, and calculate the function of a convolutional neural network over input data representing a representation of an exemplary image in the form of three matrices in the operative memory of means for performing information retrieval 9. Each One of the matrices records the value of the component level of blue, red and green color of the corresponding pixel of the reference image. The function of the convolutional neural network is identical to the function described above, which is used in the means for extracting feature vectors 4. Obtained as a result of using the function of the convolutional network, feature vectors are labeled with a positive training example, for example, “+1” and written to the structure in main memory or a long-term storage device means for performing information retrieval 9.

Далее средства для выполнения информационного поиска 9 формируют второй набор векторов признаков из усредненных векторов признаков по крайней мере одной сцены, сохраненной в устройстве хранения индекса 8. В описываемом варианте осуществления второй набор векторов признаков формируют из приблизительно 25000 произвольно выбранных сцен, сохраненных в устройстве хранения индекса 8. Эту операцию производят по крайней мере один раз при конфигурации средств для выполнения информационного поиска 9. Предпочтительно получать второй набор векторов признаков периодически по мере записи от 1000 до 10000 новых сцен в устройство хранения индекса. Для формирования указанного второго набора векторов признаков в случайном порядке считывают векторы признаков сцен, сохраненных в устройстве хранения индекса 8. Считанные векторы признаков помечают меткой негативного обучающего примера, например "-1" и записывают в структуру в устройстве долговременного хранения средств для выполнения информационного поиска 9.Further, the means for performing information retrieval 9 form a second set of feature vectors from the averaged feature vectors of at least one scene stored in the index storage device 8. In the described embodiment, the second set of feature vectors are formed from approximately 25,000 randomly selected scenes stored in the index storage device 8. This operation is performed at least once when configuring means for performing information retrieval 9. It is preferable to obtain a second set of vector in signs periodically as you record from 1,000 to 10,000 new scenes in the index storage device. To form the specified second set of feature vectors, the feature vectors of scenes stored in the index storage device 8 are randomly read. The feature vectors read are labeled with a negative training example, for example, “-1” and written to the structure in the long-term storage device for performing information retrieval 9 .

Затем средства для выполнения информационного поиска 9 конфигурируют временный классификатор на основе первого и второго набора векторов признаков. В описываемом варианте осуществления для этого объединяют первый и второй набор векторов признаков в единый файл на устройстве долговременного хранения средств для выполнения информационного поиска 9. В качестве устройства долговременного хранения могут использовать накопитель на жестком диске HDD или накопитель на твердотельном диске SSD, или другое известное в технике устройство долговременной памяти. Затем выполняют перемешивание записей в файле, соответствующих отдельным векторам признаков. В описываемом варианте осуществления указанный файл формируют в текстовом формате, причем каждая строка файла включает один вектор признаков и одну соответствующую метку позитивного или негативного обучающего примера. Перемешивание строк файла в случайном порядке выполняют системной утилитой shuf операционной системы Linux.Then, the means for performing information retrieval 9 configure a temporary classifier based on the first and second set of feature vectors. In the described embodiment, for this, the first and second set of feature vectors are combined into a single file on the long-term storage device for performing information retrieval 9. As a long-term storage device, a hard disk drive HDD or a solid-state drive SSD, or another device known in the art The device is a device for long-term memory. Then perform the mixing of the entries in the file corresponding to the individual feature vectors. In the described embodiment, the specified file is generated in a text format, and each line of the file includes one vector of features and one corresponding label of a positive or negative training example. Shuffling the lines of a file in random order is performed by the Linux system shuf system utility.

Далее выполняют настройку временного классификатора на основе указанного файла, включающего обучающие примеры. В технике известны различные методы обучения классификатора, например логистическая регрессия, метод решающих деревьев, машина опорных векторов. В описываемом варианте осуществления применяют метод логистической регрессии, реализованный с помощью общедоступного программного обеспечения Vowpal Wabbit. В результате работы указанного программного обеспечения формируют в устройстве долговременной памяти средств для выполнения информационного поиска 9 временный файл классификатора.Next, you configure the temporary classifier based on the specified file, including training examples. Various methods of classifier training are known in the art, for example, logistic regression, the decision tree method, and the support vector machine. In the described embodiment, the logistic regression method implemented using the publicly available Vowpal Wabbit software is used. As a result of the operation of the specified software, a temporary classifier file is formed in the long-term memory device for performing information retrieval 9.

Далее средства для выполнения информационного поиска 9 получают от средств хранения индекса 8 усредненный вектор признаков по крайней мере одной сцены и применяют к нему указанный временный классификатор. В случае позитивного отклика временного классификатора добавляют указанную сцену в структуру в оперативной памяти средств для выполнения информационного поиска 9, включающую список найденных кинофрагментов. Указанный список включает, по крайней мере, идентификационные данные сцены, время начала сцены, длительность сцены.Next, the means for performing information retrieval 9 receive from the means of storing index 8 an averaged vector of features of at least one scene and apply the specified temporary classifier to it. In the case of a positive response of the time classifier, the indicated scene is added to the structure in the operative memory of the means for performing an information search 9, including a list of found movie fragments. The list includes at least scene identification, scene start time, scene duration.

Описанную процедуру получения из средств хранения индекса 8 вектора признаков очередной сцены и применения временного классификатора повторяют до достижения заранее заданного количества результатов поиска (например, 10) или, предпочтительно, до превышения заранее заданной длительности работы. Если описанные условия выполнены, средства для выполнения информационного поиска 9 передают сформированный список результатов информационного поиска в серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска, используя интерфейсы и протоколы передачи данных, описанные выше.The described procedure for obtaining the feature vector of the next scene from the index 8 storage means and applying the temporary classifier is repeated until a predetermined number of search results (for example, 10) is reached or, preferably, before a predetermined duration of work is exceeded. If the described conditions are met, the means for performing information retrieval 9 transmit the generated list of information retrieval results to the server device 10 for organizing the information retrieval user interface using the interfaces and data transfer protocols described above.

Серверное устройство 10 средства для организации пользовательского интерфейса информационного поиска формирует на основе этого списка форму представление результатов информационного поиска для пользователя. В описываемом варианте осуществления форма представления реализована в виде HTML-страницы. В других вариантах осуществления в качестве формы представления могут использовать файлы XML, JSON, YAML или программируемые средства организации пользовательского интерфейса, например WinAPI, Qt, Java или другие известные в технике средства.The server device 10 of the means for organizing the user interface of the information retrieval forms on the basis of this list a form representing the results of the information retrieval for the user. In the described embodiment, the presentation form is implemented as an HTML page. In other embodiments, XML, JSON, YAML files, or programmable user interface tools, such as WinAPI, Qt, Java, or other means known in the art, may be used as the presentation form.

Форму представления результатов информационного поиска передают в клиентское устройство 11 средства для организации пользовательского интерфейса информационного поиска, которое отображает указанную форму на входящих в его состав средствах отображения, например цветном графическом мониторе.The form for presenting the results of the information search is transmitted to the client device 11 means for organizing the user interface of the information search, which displays the specified form on the display means, for example, a color graphic monitor.

Экспериментальные исследования описываемого варианта осуществления данного изобретения продемонстрировали среднее значение показателя точности поиска на основе образцовых неподвижных изображений 0.64, при этом точность оценивали как отношение числа субъективно корректных результатов поиска к общему количество результатов поиска при выполнении информационного поиска по 13 запросам на основе образцовых неподвижных изображений при среднем количестве образцовых неподвижных изображений 90 на каждый запрос.Experimental studies of the described embodiment of the present invention showed an average value of the search accuracy index based on exemplary still images 0.64, while the accuracy was estimated as the ratio of the number of subjectively correct search results to the total number of search results when performing an information search on 13 queries based on exemplary still images with an average 90 exemplary still images per request.

Claims (14)

1. Устройство для семантической классификации и поиска в архивах оцифрованных киноматериалов, характеризующееся тем, что содержит последовательно соединенные средство получения оцифрованных материалов, средство извлечения выборочных кадров из оцифрованных киноматериалов, средство извлечения векторов признаков, средство сегментации и классификации, средство хранения индекса, средство для выполнения информационного поиска, серверное устройство и клиентское устройство,1. A device for semantic classification and search in archives of digitized film materials, characterized in that it contains sequentially connected means for obtaining digitized materials, means for extracting sample frames from digitized film materials, means for extracting feature vectors, segmentation and classification means, index storage means, means for performing information retrieval, server device and client device, при этом средство извлечения выборочных кадров из оцифрованных киноматериалов выполнено с возможностью раскодировки и извлечения кадров или изображений через заданные промежутки времени, масштабирования выборочных кадров или изображений в размер, пригодный для классификации,wherein the means for extracting sample frames from digitized film materials is capable of decoding and extracting frames or images at predetermined time intervals, scaling the sample frames or images to a size suitable for classification, средство извлечения векторов признаков включает по крайней мере один слой свертки, соединенный по крайней мере с одним слоем выбора максимальных значений из вектора выходных значений, полученных в слое свертки, и по крайней мере с одним слоем финальной классификации,means for extracting feature vectors includes at least one convolution layer connected to at least one layer of selecting maximum values from the vector of output values obtained in the convolution layer and at least one layer of the final classification, причем средство извлечения векторов признаков выполнено с возможностью получения вектора признаков и получения вектора классификации,moreover, the means of extracting feature vectors is configured to obtain a feature vector and obtain a classification vector, причем средство извлечения векторов признаков выполнено с возможностью параллельных вычислений для выполнения операций свертки,moreover, the means of extracting the feature vectors is made with the possibility of parallel computing to perform convolution operations, средство сегментации и классификации выполнено с возможностью сегментации фильма на отдельные сцены посредством сравнения между собой векторов признаков соседних выборочных кадров и с возможностью усреднения векторов классификации для кадров, составляющих одну сцену,the segmentation and classification means is configured to segment the film into separate scenes by comparing feature vectors of neighboring sample frames with one another and with the possibility of averaging classification vectors for frames constituting one scene, средство хранения индекса выполнено с возможностью обмена данными между средством сегментации и классификации и средством для выполнения информационного поиска посредством интерфейса локальной сети и сохранения для каждой сцены фильма по крайней мере времени начала сцены и по крайней мере одного признака класса, получаемого из усредненного вектора классификации для кадров, составляющих одну сцену,the index storage means is adapted to exchange data between the segmentation and classification means and the means for performing information retrieval via the local area network interface and storing for each movie scene at least the start time of the scene and at least one class attribute obtained from the average classification vector for frames making up one scene серверное устройство выполнено с возможностью обмена данными со средством для выполнения информационного поиска посредством интерфейса локальной сети и с клиентским устройством посредством глобальной сети Интернет,the server device is configured to exchange data with a means for performing information retrieval via the local area network interface and with the client device via the global Internet, клиентское устройство выполнено с возможностью передачи текстового запроса серверному устройству посредством глобальной сети Интернет, причем серверное устройство выполнено с возможностью формирования декларативного запроса на основании текстового запроса и передачи декларативного запроса средству для выполнения информационного поиска посредством интерфейса локальной сети,the client device is configured to transmit a text request to the server device via the global Internet, and the server device is configured to generate a declarative request based on the text request and transmit the declarative request to the means for performing an information search via the local area network interface, причем серверное устройство и клиентское устройство выполнены с возможностью передачи множества образцовых кинофрагментов или неподвижных изображений средству для выполнения информационного поиска, выполненному с возможностью раскодировки и извлечения кадров или изображений через заданные промежутки времени, масштабирования выборочных кадров или изображений в размер, пригодный для классификации, и вычисления векторов признаков для каждого образцового изображения или каждого образцового кинофрагмента для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе введенного образцового кинофрагмента или по крайней мере одного образцового неподвижного изображения.moreover, the server device and the client device are configured to transmit multiple exemplary movie clips or still images to an information search engine configured to decode and retrieve frames or images at predetermined time intervals, scale the sample frames or images to a size suitable for classification, and calculate feature vectors for each model image or each model movie fragment for implementing information ion search through the archive of digitized film materials based on the entered model movie clip or at least one model still image. 2. Устройство по п. 1, характеризующееся тем, что средство хранения индекса выполнено с возможностью сохранения усредненных векторов признаков по крайней мере одной сцены фильма.2. The device according to claim 1, characterized in that the index storage means is configured to store averaged feature vectors of at least one movie scene. 3. Устройство по п. 1, характеризующееся тем, что средство извлечения векторов признаков взаимодействует с устройством графического параллельного ускорения по крайней мере для выполнения операции свертки.3. The device according to claim 1, characterized in that the means for extracting the feature vectors interacts with the graphic parallel acceleration device, at least to perform the convolution operation. 4. Устройство по п. 1 или 2, характеризующееся тем, что средство для выполнения информационного поиска выполнено с возможностью выполнения сравнения усредненного вектора признаков образцового кинофрагмента, полученного из слоя выбора максимальных значений из вектора выходных значений, полученных в слое свертки, с усредненными векторами признаков, сохраненными в устройстве хранения индекса, для поиска по образцовому кинофрагменту.4. The device according to claim 1 or 2, characterized in that the means for performing information retrieval is configured to compare an average feature vector of an exemplary movie fragment obtained from a layer of selecting maximum values from a vector of output values obtained in a convolution layer with average feature vectors stored in the index storage device for searching an exemplary movie clip. 5. Устройство по п. 1 или 2, характеризующееся тем, что средство для выполнения информационного поиска выполнено с возможностью извлечения векторов признаков образцового изображения, полученных из слоя выбора максимальных значений из вектора выходных значений, полученных в слое свертки, для каждого образцового изображения и выполнения обучения классификатора, и применения обученного классификатора к усредненным векторам признаков, сохраненным в устройстве хранения индекса, для поиска по множеству образцовых изображений.5. The device according to p. 1 or 2, characterized in that the means for performing information retrieval is configured to extract the feature image vectors of the sample image obtained from the selection layer of maximum values from the vector of output values obtained in the convolution layer for each sample image and perform training the classifier, and applying the trained classifier to the averaged feature vectors stored in the index storage device to search through a plurality of exemplary images.
RU2016102514A 2016-01-27 2016-01-27 Device for semantic classification and search in archives of digitized film materials RU2628192C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2016102514A RU2628192C2 (en) 2016-01-27 2016-01-27 Device for semantic classification and search in archives of digitized film materials

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016102514A RU2628192C2 (en) 2016-01-27 2016-01-27 Device for semantic classification and search in archives of digitized film materials

Publications (2)

Publication Number Publication Date
RU2016102514A RU2016102514A (en) 2017-08-01
RU2628192C2 true RU2628192C2 (en) 2017-08-15

Family

ID=59632191

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016102514A RU2628192C2 (en) 2016-01-27 2016-01-27 Device for semantic classification and search in archives of digitized film materials

Country Status (1)

Country Link
RU (1) RU2628192C2 (en)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2677368C1 (en) * 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Method and system for automatic determination of fuzzy duplicates of video content
US10430588B2 (en) 2016-07-06 2019-10-01 Trust Ltd. Method of and system for analysis of interaction patterns of malware with control centers for detection of cyber attack
US10581880B2 (en) 2016-09-19 2020-03-03 Group-Ib Tds Ltd. System and method for generating rules for attack detection feedback system
US10721251B2 (en) 2016-08-03 2020-07-21 Group Ib, Ltd Method and system for detecting remote access during activity on the pages of a web resource
US10721271B2 (en) 2016-12-29 2020-07-21 Trust Ltd. System and method for detecting phishing web pages
US10778719B2 (en) 2016-12-29 2020-09-15 Trust Ltd. System and method for gathering information to detect phishing activity
US10958684B2 (en) 2018-01-17 2021-03-23 Group Ib, Ltd Method and computer device for identifying malicious web resources
US11005779B2 (en) 2018-02-13 2021-05-11 Trust Ltd. Method of and server for detecting associated web resources
US11122061B2 (en) 2018-01-17 2021-09-14 Group IB TDS, Ltd Method and server for determining malicious files in network traffic
US11153351B2 (en) 2018-12-17 2021-10-19 Trust Ltd. Method and computing device for identifying suspicious users in message exchange systems
US11151581B2 (en) 2020-03-04 2021-10-19 Group-Ib Global Private Limited System and method for brand protection based on search results
US11250129B2 (en) 2019-12-05 2022-02-15 Group IB TDS, Ltd Method and system for determining affiliation of software to software families
US11356470B2 (en) 2019-12-19 2022-06-07 Group IB TDS, Ltd Method and system for determining network vulnerabilities
US11431749B2 (en) 2018-12-28 2022-08-30 Trust Ltd. Method and computing device for generating indication of malicious web resources
US11451580B2 (en) 2018-01-17 2022-09-20 Trust Ltd. Method and system of decentralized malware identification
US11475090B2 (en) 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
US11503044B2 (en) 2018-01-17 2022-11-15 Group IB TDS, Ltd Method computing device for detecting malicious domain names in network traffic
US11526608B2 (en) 2019-12-05 2022-12-13 Group IB TDS, Ltd Method and system for determining affiliation of software to software families
US11755700B2 (en) 2017-11-21 2023-09-12 Group Ib, Ltd Method for classifying user action sequence
US11847223B2 (en) 2020-08-06 2023-12-19 Group IB TDS, Ltd Method and system for generating a list of indicators of compromise
US11934498B2 (en) 2019-02-27 2024-03-19 Group Ib, Ltd Method and system of user identification
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
US11985147B2 (en) 2021-06-01 2024-05-14 Trust Ltd. System and method for detecting a cyberattack

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810695A (en) * 2020-06-15 2021-12-17 中国电信股份有限公司 Video encoding method, apparatus and computer-readable storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2549584C2 (en) * 2010-12-09 2015-04-27 Нокиа Корпорейшн Limited context-based identification of key frame of video sequence

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2549584C2 (en) * 2010-12-09 2015-04-27 Нокиа Корпорейшн Limited context-based identification of key frame of video sequence

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430588B2 (en) 2016-07-06 2019-10-01 Trust Ltd. Method of and system for analysis of interaction patterns of malware with control centers for detection of cyber attack
US10721251B2 (en) 2016-08-03 2020-07-21 Group Ib, Ltd Method and system for detecting remote access during activity on the pages of a web resource
US10581880B2 (en) 2016-09-19 2020-03-03 Group-Ib Tds Ltd. System and method for generating rules for attack detection feedback system
US10778719B2 (en) 2016-12-29 2020-09-15 Trust Ltd. System and method for gathering information to detect phishing activity
US10721271B2 (en) 2016-12-29 2020-07-21 Trust Ltd. System and method for detecting phishing web pages
US11755700B2 (en) 2017-11-21 2023-09-12 Group Ib, Ltd Method for classifying user action sequence
US11503044B2 (en) 2018-01-17 2022-11-15 Group IB TDS, Ltd Method computing device for detecting malicious domain names in network traffic
US11475670B2 (en) 2018-01-17 2022-10-18 Group Ib, Ltd Method of creating a template of original video content
US11122061B2 (en) 2018-01-17 2021-09-14 Group IB TDS, Ltd Method and server for determining malicious files in network traffic
US10762352B2 (en) 2018-01-17 2020-09-01 Group Ib, Ltd Method and system for the automatic identification of fuzzy copies of video content
US10958684B2 (en) 2018-01-17 2021-03-23 Group Ib, Ltd Method and computer device for identifying malicious web resources
US11451580B2 (en) 2018-01-17 2022-09-20 Trust Ltd. Method and system of decentralized malware identification
RU2677368C1 (en) * 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Method and system for automatic determination of fuzzy duplicates of video content
US11005779B2 (en) 2018-02-13 2021-05-11 Trust Ltd. Method of and server for detecting associated web resources
US11153351B2 (en) 2018-12-17 2021-10-19 Trust Ltd. Method and computing device for identifying suspicious users in message exchange systems
US11431749B2 (en) 2018-12-28 2022-08-30 Trust Ltd. Method and computing device for generating indication of malicious web resources
US11934498B2 (en) 2019-02-27 2024-03-19 Group Ib, Ltd Method and system of user identification
US11526608B2 (en) 2019-12-05 2022-12-13 Group IB TDS, Ltd Method and system for determining affiliation of software to software families
US11250129B2 (en) 2019-12-05 2022-02-15 Group IB TDS, Ltd Method and system for determining affiliation of software to software families
US11356470B2 (en) 2019-12-19 2022-06-07 Group IB TDS, Ltd Method and system for determining network vulnerabilities
US11151581B2 (en) 2020-03-04 2021-10-19 Group-Ib Global Private Limited System and method for brand protection based on search results
US11475090B2 (en) 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
US11847223B2 (en) 2020-08-06 2023-12-19 Group IB TDS, Ltd Method and system for generating a list of indicators of compromise
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
US11985147B2 (en) 2021-06-01 2024-05-14 Trust Ltd. System and method for detecting a cyberattack

Also Published As

Publication number Publication date
RU2016102514A (en) 2017-08-01

Similar Documents

Publication Publication Date Title
RU2628192C2 (en) Device for semantic classification and search in archives of digitized film materials
US10394878B2 (en) Associating still images and videos
Khosla et al. Large-scale video summarization using web-image priors
US10621755B1 (en) Image file compression using dummy data for non-salient portions of images
US10878280B2 (en) Video content indexing and searching
EP2005364B1 (en) Image classification based on a mixture of elliptical color models
Ham et al. Automated content-based filtering for enhanced vision-based documentation in construction toward exploiting big visual data from drones
US9087242B2 (en) Video synthesis using video volumes
Mussel Cirne et al. VISCOM: A robust video summarization approach using color co-occurrence matrices
CN108881947B (en) Method and device for detecting infringement of live stream
CN111062871A (en) Image processing method and device, computer equipment and readable storage medium
Podlesnaya et al. Deep learning based semantic video indexing and retrieval
CN111182364B (en) Short video copyright detection method and system
Weyand et al. Visual landmark recognition from internet photo collections: A large-scale evaluation
Meng et al. Object instance search in videos via spatio-temporal trajectory discovery
Zhuang et al. Marine Animal Detection and Recognition with Advanced Deep Learning Models.
US9665773B2 (en) Searching for events by attendants
CN113010703A (en) Information recommendation method and device, electronic equipment and storage medium
Wang et al. Duplicate discovery on 2 billion internet images
CN113779303B (en) Video set indexing method and device, storage medium and electronic equipment
Chen et al. Automatic classification of photographs and graphics
Kuzovkin et al. Context-aware clustering and assessment of photo collections
Zheng et al. Exif as language: Learning cross-modal associations between images and camera metadata
Ghazali et al. Image classification using EXIF metadata
Bhaumik et al. Real-time storyboard generation in videos using a probability distribution based threshold